Google 悄悄更新:你發布的內容都將被用於 AI 訓練

世上沒有絕對的垃圾,只有放錯位置的資源。

在數字原住民的 Z 世代的口口相傳中,「網際網路時代 99% 的公開信息都是垃圾」的粗略定義早已見怪不怪了,而有趣的是,彼之砒霜,我之蜜糖,以 Google 為代表的 AI 巨頭卻開始盯上了這些網際網路上公開的信息。

近日,搜尋引擎巨頭 Google 更新了其隱私政策,將使用網際網路上的公開信息訓練 AI 模型。隱私政策中寫到,Google 現可通過收集網絡上的公開信息或來自其他公共來源的信息,以幫助訓練 Google 的 AI 模型並打造實用功能,如 Google 翻譯、Bard 和 Google 雲 AI,此外,Google 將還原本的「語言模型」更改為「AI 模型」。

Google 悄悄更新:你發布的內容都將被用於 AI 訓練

據媒體 OSCHINA 分析指出,這項政策更新表明, Google 現在正在向公眾及其用戶明確表示,他們在網上公開發布的任何內容都可以用 Bard 和其未來版本,以及 Google 開發的任何其他生成人工智慧產品。

生成式人工智慧 AIGC 系統通常會根據網際網路上的海量通用數據進行預先訓練,從而大幅提升 AI 的泛化性、通用性、實用性,而這難免會陷入版權、隱私的糾紛。

對於這個困境,可能暫時沒有誰比 OpenAI 更理解了。

就在不久前,人工智慧聊天機器人 ChatGPT 母公司 OpenAI 被兩名美國作家在舊金山聯邦法院提起訴訟,聲稱 OpenAI 沒有獲得版權授權,就濫用他們的作品來訓練人工智慧。

Google 悄悄更新:你發布的內容都將被用於 AI 訓練

被曝光的起訴書顯示,OpenAI 的訓練數據超過 30 萬本書,其中就包括本就飽受爭議,版權歸屬不清晰的「影子圖書館」(大多是以侵犯版權的方式向公眾免費提供書籍文獻內容的線上網站)。

此外就在昨天,OpenAI 宣布,將暫時禁用 ChatGPT 的官方網頁瀏覽模式,而這或許與 ChatGPT 被曝能夠翻閱付費牆,獲取隱藏的付費內容有關。繼美國作家版權訴訟事件之後,輿論之下,OpenAI 再次深陷版權風波。

因此,在 OpenAI 被訴訟的前車之鑒下,Google 未雨綢繆地更新隱私政策,提前給自己套上一個盾倒也合情合理。

雖然這一舉措有效降低了 Google「吃官司」的風險,卻也將生成式人工智慧使用海量網絡數據進行訓練的事實赤裸裸地擺在明面上,因此難免引發大眾對於隱私權的擔憂。媒體 Gizmodo 對此也評論認為,這是一種新的、有趣的隱私問題。

Google 悄悄更新:你發布的內容都將被用於 AI 訓練

事實上,即使人們普遍理解網上公開發布的數據信息是開放自由的,對數據信息有可能被他人訪問是有一個心理預期的,但是如果網絡上海量數據信息被網際網路 AI 巨頭當做自家後花園,肆意使用以訓練人工智慧,相信不少人會憑空產生被侵犯個人領域的「別扭感」,從而對此持著一種較為謹慎的態度。

被這個問題困擾的不止普通用戶,埃隆·馬斯克近日宣布 Twitter 將「臨時限制」用戶每日閱讀推文數量:未驗證的帳戶每天只能看到 600 條推文,對於新的未驗證帳戶,一天只能看到 300 條。經過驗證的帳戶每天只能閱讀 6000 條帖子。

馬斯克表示,這是因為有幾百個組織(包括一些 AI 公司)正在抓取 Twitter 數據,以至於影響了真實用戶的體驗。

只不過,時代列車前行的轟隆聲,有時足以淹沒乘客充滿異議的嘈雜。

如果 Google 這一舉措合法合規,且得到 AI 巨頭們的紛紛效仿,或許有一天,我們都會從生成式人工智慧中找到自己存在的痕跡。

來源:愛范兒