Stack Overflow, Reddit和Twitter向AI公司收取訓練數據費用!

Stack Overflow, Reddit和Twitter向AI公司收取訓練數據費用!

發布日期:

科技 Tech


要點:
用於創建ChatGPT、Google Bard和Bing Chat 的AI 模型都需要大量數據集進行訓練。實際上,OpenAI、谷歌、Meta等多家科技公司在建立大規模AI項目時,歷來不會為大部分訓練數據付費,而是選擇從網絡直接“搜刮”,數據來源便囊括上文提到的Stack Overflow和Reddit。 隨著Reddit、Stack Overflow等網站開始“開口要錢”,這些科技巨頭的AI開發費用未來很可能“再上一層樓”,而技術開發時間或也將進一步延長。

在“速食”成為主流的視聽傳播時代,社會每天都在產生大量信息。而應該探討的深度,卻永不止於話題或事件本身。我們一起,從社會發展中洞察有價值、有趣、有爭論點的生活方式及現象。

狂呼社會研究所聚焦社會變革下不同的聲音,向外延申社會背景、文化背景的思考深度,以多角度剖析、獨特的社會視角,引領大眾感知社會的“人間百態”。

狂呼,為每一個社會現象或事件的背后,提供具有探討價值的觀點,始於洞察、終於啟發。

聯系我們 // 相關文章

繼“美版貼吧”Reddit宣布向AI公司收取數據使用費之後,又有一家網站計劃跟進。IT問答網站Stack Overflow日前宣布,計劃從今年年中起,向大型AI開發商收取數據訪問費用,付費後才可以獲取該平台上的5000萬個問題與答案。

用於創建ChatGPT、Google Bard和Bing Chat 的AI 模型都需要大量數據集進行訓練。他們背後的公司,如OpenAI和谷歌,從互聯網上收集數據,根據參數訓練他們的大型語言模型/LLM,從而成功進行自然語言處理/NLP。 這些訓練數據包括不同的主題,從世界歷史到軟件開發以構建其“智能”,以及從對話中衍生的語法、語音細微差別和風格以生成類似人類的響應。

Stack Overflow是一個程序設計領域的問答網站,隸屬Stack Exchange Network。網站上最常見的問答主題包括JavaScript、Java、C#、PHP、Android、Python、jQuery和HTML等。如今其註冊用戶已超過2000萬。其首席執行官Prashanth Chandrasekar表示,“社區平台推動了大語言模型發展,所作出的貢獻也必須得到補償。”Prashanth Chandrasekar最近在公司網站上發表的一篇文章中解釋說,“允許AI模型對開發人員多年來創建的數據進行訓練,但不與公眾分享數據和從這些模型中學到的知識作為回報,會導致公地悲劇。”

去年秋天,該論壇因禁止使用 ChatGPT生成的文本來創建帖子而成為頭條新聞,認為這種做法對網站及其用戶“有害”。Chandrasekar 在另一篇文章中補充說:“除非我們都繼續將知識貢獻回一個共享的公共平台,否則我們將冒著這樣一個世界的風險,在這個世界中,知識集中在AI模型的黑匣子中,需要用戶付費才能訪問他們的服務。 ”

同樣也是在本週,美國新聞媒體聯盟/The News/Media Alliance,前美國報業協會公佈多項原則,呼籲AIGC開發公司就數據使用展開談判,並要求這些開發公司尊重新聞媒體獲得公平補償的權利。環球音樂集團/Universal Music Group近日也發出警告,阻止AI服務從其受版權保護的歌曲中抓取旋律和歌詞。

實際上,OpenAI、谷歌、Meta等多家科技公司在建立大規模AI項目時,歷來不會為大部分訓練數據付費,而是選擇從網絡直接“搜刮”,數據來源便囊括上文提到的Stack Overflow和Reddit。當然,在美國此舉通常被看作合法行為,但仍存在一些版權與網站條款爭議。

但即便在這種情況下,ChatGPT等一系列AI大模型/聊天機器人( 11.250 , -0.40 , -3.43% )的開發費用也已高達數億美元。隨著Reddit、Stack Overflow等網站開始“開口要錢”,這些科技巨頭的AI開發費用未來很可能“再上一層樓”,而技術開發時間或也將進一步延長。

至於具體如何收費?不論是Stack Overflow還是Reddit都暫未發布價格信息。

Reddit透露,“我們正在處理這個問題,將在未來幾週內與合作夥伴分享更多信息。”Stack Overflow則表示,公司將藉鑑研究Reddit的策略,並與潛在客戶展開協商,目前已與部分客戶就數據訪問進行接觸。 這兩家公司的收費方案或許都將針對大型科技公司:Stack Overflow稱希望收費對象僅限於以商用為目的開發LLM的大型公司;Reddit也有類似表態。而其餘用戶與公司則有望繼續免費使用數據。

而馬斯克或許也為這兩家公司提供可供借鑒的定價方案,本月馬斯克已提高推特數據訪問價格,起價為每月4.2萬美元,可訪問5000萬條推文。而就在本週三,馬斯克剛剛指控微軟非法使用推特數據來訓練其AI模型,還直言“訴訟時間到”,警告要起訴微軟。

在被多家AI公司免費用來訓練他們的AI系統後,所有互聯網平台準備好開始賺錢了。

觀點1

利用網站數據訓練和升級AI是機器學習領域的普遍做法。事實上,許多 AI 應用程序和模型都依賴大量數據來學習和提高性能。 在某些情況下,網站可能會收取訪問其數據的費用,以資助其運營或產生收入。這可能是一種互惠互利的安排,因為網站可以賺取收入,而人工智能係統可以訪問有價值的數據以提高其性能。

但是,重要的是要確保所使用的數據是以合乎道德和合法的方式獲得的,並且用戶隱私受到保護。此外,必須確保以負責任和透明的方式設計和使用接受訓練的人工智能係統,並採取適當的保護措施以防止意外後果或傷害。 並非所有在線數據都一定是免費和開放的。雖然互聯網上有很多公開可用的數據,但也有很多情況下數據歸個人或組織所有,並且可能受到版權、許可或其他限制。

在某些情況下,網站可能會對其數據的訪問收費,這要么是因為他們在收集、清理或分析數據方面投入了資源,要么是因為他們將數據作為產品或服務貨幣化。這在商業數據提供商(例如財務或營銷數據)的情況下尤為常見,在這些提供商中,訪問數據可能是一種競爭優勢。

在訓練AI系統時,獲得高質量數據對於系統的成功至關重要。在許多情況下,在線免費提供的數據可能不完整、有噪聲或有偏差,這可能會限制人工智能係統的有效性。通過支付訪問高質量數據的費用,人工智能係統可以獲得更好的準確性和性能,這對於廣泛的應用程序來說是有價值的。

觀點2

支持不為數據付費下訓練AI的一個論點是,它促進對信息的開放訪問並使 AI 技術的訪問民主化。支持者認為,互聯網是建立在自由共享信息的理念之上的,這一原則應該擴展到人工智能的訓練數據。

他們還可能爭辯說,要求為數據付費會將AI技術的使用權限制在能夠負擔得起的人手中,從而在富人和窮人之間造成數字鴻溝。此外,該論點的一些支持者可能會聲稱,人工智能技術的好處,例如改善醫療保健、教育和社會服務,應該提供給每個人,無論他們的支付能力如何。

此外,有些人可能會爭辯說,收集數據的網站和其他組織已經通過使用收集的數據來改進自己的服務或產品,從而從中受益。從這個角度來看,對用戶通過與網站或平台的交互已經生成的數據的訪問收費可能被視為不公平。

然而,重要的是要注意,即使數據是免費提供的,它也可能並不總是高質量、完整或公正的。如果無法訪問高質量的訓練數據,人工智能係統可能無法正常運行,這可能會限制它們的實用性和有效性。此外,重要的是要確保用於訓練 AI 的任何數據都是以合乎道德和合法的方式獲得的,並採取適當的保護措施來保護用戶隱私並防止意外後果或傷害。

 

在“速食”成為主流的視聽傳播時代,社會每天都在產生大量信息。而應該探討的深度,卻永不止於話題或事件本身。我們一起,從社會發展中洞察有價值、有趣、有爭論點的生活方式及現象。

狂呼社會研究所聚焦社會變革下不同的聲音,向外延申社會背景、文化背景的思考深度,以多角度剖析、獨特的社會視角,引領大眾感知社會的“人間百態”。

狂呼,為每一個社會現象或事件的背后,提供具有探討價值的觀點,始於洞察、終於啟發。

聯系我們 // 相關文章


返回網誌
1 / 8
1 / 4
1 / 4
  • 從中國經濟看背後困境及發展新構想?

    從中國經濟看背後困境及發展新構想?

    中國未來發展或許可以參考“五環搆想”進行戰略布局。這一搆想包括高等教育培訓、創新科技驅動、產品生產銷售、市場推廣營銷、出海戰略佈局五大領域。通過“五環搆想”的實施,中國經濟可能有一個全新的契機注入新的動力,推動經濟穩定健康發展。

    從中國經濟看背後困境及發展新構想?

    中國未來發展或許可以參考“五環搆想”進行戰略布局。這一搆想包括高等教育培訓、創新科技驅動、產品生產銷售、市場推廣營銷、出海戰略佈局五大領域。通過“五環搆想”的實施,中國經濟可能有一個全新的契機注入新的動力,推動經濟穩定健康發展。

  • 在變革中的抉擇:當今大環境下如何實現職業規劃與人生價值?

    在變革中的抉擇:當今大環境下如何實現職業規劃與人生價值?

    隨著時代的變遷,人生價值的內涵也變得更加多樣化和個性化。每個人對於“成功”和“幸福”的理解不同,有些人追求的是即時的快樂和成就感,而有些人則看重長期的進步和自我超越。

    在變革中的抉擇:當今大環境下如何實現職業規劃與人生價值?

    隨著時代的變遷,人生價值的內涵也變得更加多樣化和個性化。每個人對於“成功”和“幸福”的理解不同,有些人追求的是即時的快樂和成就感,而有些人則看重長期的進步和自我超越。

  • 再見愛人:探索現代婚姻中的情感困境

    再見愛人:探索現代婚姻中的情感困境

    芒果TV婚姻紀實觀察節目“再見愛人4”邀請黃聖依、楊子,麥琳、李行亮,葛夕、劉爽三對情感關系10年以上的夫妻,以“婚姻紀實觀察”為切口,呈現出不同婚姻樣本在親密關系中的掙扎與甜蜜、桎梏與覺醒。

    再見愛人:探索現代婚姻中的情感困境

    芒果TV婚姻紀實觀察節目“再見愛人4”邀請黃聖依、楊子,麥琳、李行亮,葛夕、劉爽三對情感關系10年以上的夫妻,以“婚姻紀實觀察”為切口,呈現出不同婚姻樣本在親密關系中的掙扎與甜蜜、桎梏與覺醒。

  • 抖音短劇新風潮:中老年人成為新的增長點?

    抖音短劇新風潮:中老年人成為新的增長點?

    近日,不少以老年人為主角的抖音短劇“閃婚五十歲”、“金榜題名之母憑子貴”、“人到五十,閃婚霸總”等等登上熱度榜單。老年人的婚姻、情感以及生活故事,成了當下短劇創作的“新流量密碼”。

    抖音短劇新風潮:中老年人成為新的增長點?

    近日,不少以老年人為主角的抖音短劇“閃婚五十歲”、“金榜題名之母憑子貴”、“人到五十,閃婚霸總”等等登上熱度榜單。老年人的婚姻、情感以及生活故事,成了當下短劇創作的“新流量密碼”。

1 / 4