要點:
用於創建ChatGPT、Google Bard和Bing Chat 的AI 模型都需要大量數據集進行訓練。實際上,OpenAI、谷歌、Meta等多家科技公司在建立大規模AI項目時,歷來不會為大部分訓練數據付費,而是選擇從網絡直接“搜刮”,數據來源便囊括上文提到的Stack Overflow和Reddit。 隨著Reddit、Stack Overflow等網站開始“開口要錢”,這些科技巨頭的AI開發費用未來很可能“再上一層樓”,而技術開發時間或也將進一步延長。
在“速食”成為主流的視聽傳播時代,社會每天都在產生大量信息。而應該探討的深度,卻永不止於話題或事件本身。我們一起,從社會發展中洞察有價值、有趣、有爭論點的生活方式及現象。
狂呼社會研究所聚焦社會變革下不同的聲音,向外延申社會背景、文化背景的思考深度,以多角度剖析、獨特的社會視角,引領大眾感知社會的“人間百態”。
狂呼,為每一個社會現象或事件的背后,提供具有探討價值的觀點,始於洞察、終於啟發。
聯系我們 // 相關文章
繼“美版貼吧”Reddit宣布向AI公司收取數據使用費之後,又有一家網站計劃跟進。IT問答網站Stack Overflow日前宣布,計劃從今年年中起,向大型AI開發商收取數據訪問費用,付費後才可以獲取該平台上的5000萬個問題與答案。
用於創建ChatGPT、Google Bard和Bing Chat 的AI 模型都需要大量數據集進行訓練。他們背後的公司,如OpenAI和谷歌,從互聯網上收集數據,根據參數訓練他們的大型語言模型/LLM,從而成功進行自然語言處理/NLP。 這些訓練數據包括不同的主題,從世界歷史到軟件開發以構建其“智能”,以及從對話中衍生的語法、語音細微差別和風格以生成類似人類的響應。
Stack Overflow是一個程序設計領域的問答網站,隸屬Stack Exchange Network。網站上最常見的問答主題包括JavaScript、Java、C#、PHP、Android、Python、jQuery和HTML等。如今其註冊用戶已超過2000萬。其首席執行官Prashanth Chandrasekar表示,“社區平台推動了大語言模型發展,所作出的貢獻也必須得到補償。”Prashanth Chandrasekar最近在公司網站上發表的一篇文章中解釋說,“允許AI模型對開發人員多年來創建的數據進行訓練,但不與公眾分享數據和從這些模型中學到的知識作為回報,會導致公地悲劇。”
去年秋天,該論壇因禁止使用 ChatGPT生成的文本來創建帖子而成為頭條新聞,認為這種做法對網站及其用戶“有害”。Chandrasekar 在另一篇文章中補充說:“除非我們都繼續將知識貢獻回一個共享的公共平台,否則我們將冒著這樣一個世界的風險,在這個世界中,知識集中在AI模型的黑匣子中,需要用戶付費才能訪問他們的服務。 ”
同樣也是在本週,美國新聞媒體聯盟/The News/Media Alliance,前美國報業協會公佈多項原則,呼籲AIGC開發公司就數據使用展開談判,並要求這些開發公司尊重新聞媒體獲得公平補償的權利。環球音樂集團/Universal Music Group近日也發出警告,阻止AI服務從其受版權保護的歌曲中抓取旋律和歌詞。
實際上,OpenAI、谷歌、Meta等多家科技公司在建立大規模AI項目時,歷來不會為大部分訓練數據付費,而是選擇從網絡直接“搜刮”,數據來源便囊括上文提到的Stack Overflow和Reddit。當然,在美國此舉通常被看作合法行為,但仍存在一些版權與網站條款爭議。
但即便在這種情況下,ChatGPT等一系列AI大模型/聊天機器人( 11.250 , -0.40 , -3.43% )的開發費用也已高達數億美元。隨著Reddit、Stack Overflow等網站開始“開口要錢”,這些科技巨頭的AI開發費用未來很可能“再上一層樓”,而技術開發時間或也將進一步延長。
至於具體如何收費?不論是Stack Overflow還是Reddit都暫未發布價格信息。
Reddit透露,“我們正在處理這個問題,將在未來幾週內與合作夥伴分享更多信息。”Stack Overflow則表示,公司將藉鑑研究Reddit的策略,並與潛在客戶展開協商,目前已與部分客戶就數據訪問進行接觸。 這兩家公司的收費方案或許都將針對大型科技公司:Stack Overflow稱希望收費對象僅限於以商用為目的開發LLM的大型公司;Reddit也有類似表態。而其餘用戶與公司則有望繼續免費使用數據。
而馬斯克或許也為這兩家公司提供可供借鑒的定價方案,本月馬斯克已提高推特數據訪問價格,起價為每月4.2萬美元,可訪問5000萬條推文。而就在本週三,馬斯克剛剛指控微軟非法使用推特數據來訓練其AI模型,還直言“訴訟時間到”,警告要起訴微軟。
在被多家AI公司免費用來訓練他們的AI系統後,所有互聯網平台準備好開始賺錢了。
觀點1
利用網站數據訓練和升級AI是機器學習領域的普遍做法。事實上,許多 AI 應用程序和模型都依賴大量數據來學習和提高性能。 在某些情況下,網站可能會收取訪問其數據的費用,以資助其運營或產生收入。這可能是一種互惠互利的安排,因為網站可以賺取收入,而人工智能係統可以訪問有價值的數據以提高其性能。
但是,重要的是要確保所使用的數據是以合乎道德和合法的方式獲得的,並且用戶隱私受到保護。此外,必須確保以負責任和透明的方式設計和使用接受訓練的人工智能係統,並採取適當的保護措施以防止意外後果或傷害。 並非所有在線數據都一定是免費和開放的。雖然互聯網上有很多公開可用的數據,但也有很多情況下數據歸個人或組織所有,並且可能受到版權、許可或其他限制。
在某些情況下,網站可能會對其數據的訪問收費,這要么是因為他們在收集、清理或分析數據方面投入了資源,要么是因為他們將數據作為產品或服務貨幣化。這在商業數據提供商(例如財務或營銷數據)的情況下尤為常見,在這些提供商中,訪問數據可能是一種競爭優勢。
在訓練AI系統時,獲得高質量數據對於系統的成功至關重要。在許多情況下,在線免費提供的數據可能不完整、有噪聲或有偏差,這可能會限制人工智能係統的有效性。通過支付訪問高質量數據的費用,人工智能係統可以獲得更好的準確性和性能,這對於廣泛的應用程序來說是有價值的。
觀點2
支持不為數據付費下訓練AI的一個論點是,它促進對信息的開放訪問並使 AI 技術的訪問民主化。支持者認為,互聯網是建立在自由共享信息的理念之上的,這一原則應該擴展到人工智能的訓練數據。
他們還可能爭辯說,要求為數據付費會將AI技術的使用權限制在能夠負擔得起的人手中,從而在富人和窮人之間造成數字鴻溝。此外,該論點的一些支持者可能會聲稱,人工智能技術的好處,例如改善醫療保健、教育和社會服務,應該提供給每個人,無論他們的支付能力如何。
此外,有些人可能會爭辯說,收集數據的網站和其他組織已經通過使用收集的數據來改進自己的服務或產品,從而從中受益。從這個角度來看,對用戶通過與網站或平台的交互已經生成的數據的訪問收費可能被視為不公平。
然而,重要的是要注意,即使數據是免費提供的,它也可能並不總是高質量、完整或公正的。如果無法訪問高質量的訓練數據,人工智能係統可能無法正常運行,這可能會限制它們的實用性和有效性。此外,重要的是要確保用於訓練 AI 的任何數據都是以合乎道德和合法的方式獲得的,並採取適當的保護措施來保護用戶隱私並防止意外後果或傷害。