Stack Overflow, Reddit和Twitter向AI公司收取訓練數據費用!

Stack Overflow, Reddit和Twitter向AI公司收取訓練數據費用!

發布日期:

科技 Tech


要點:
用於創建ChatGPT、Google Bard和Bing Chat 的AI 模型都需要大量數據集進行訓練。實際上,OpenAI、谷歌、Meta等多家科技公司在建立大規模AI項目時,歷來不會為大部分訓練數據付費,而是選擇從網絡直接“搜刮”,數據來源便囊括上文提到的Stack Overflow和Reddit。 隨著Reddit、Stack Overflow等網站開始“開口要錢”,這些科技巨頭的AI開發費用未來很可能“再上一層樓”,而技術開發時間或也將進一步延長。

在“速食”成為主流的視聽傳播時代,社會每天都在產生大量信息。而應該探討的深度,卻永不止於話題或事件本身。我們一起,從社會發展中洞察有價值、有趣、有爭論點的生活方式及現象。

狂呼社會研究所聚焦社會變革下不同的聲音,向外延申社會背景、文化背景的思考深度,以多角度剖析、獨特的社會視角,引領大眾感知社會的“人間百態”。

狂呼,為每一個社會現象或事件的背后,提供具有探討價值的觀點,始於洞察、終於啟發。

聯系我們 // 相關文章

繼“美版貼吧”Reddit宣布向AI公司收取數據使用費之後,又有一家網站計劃跟進。IT問答網站Stack Overflow日前宣布,計劃從今年年中起,向大型AI開發商收取數據訪問費用,付費後才可以獲取該平台上的5000萬個問題與答案。

用於創建ChatGPT、Google Bard和Bing Chat 的AI 模型都需要大量數據集進行訓練。他們背後的公司,如OpenAI和谷歌,從互聯網上收集數據,根據參數訓練他們的大型語言模型/LLM,從而成功進行自然語言處理/NLP。 這些訓練數據包括不同的主題,從世界歷史到軟件開發以構建其“智能”,以及從對話中衍生的語法、語音細微差別和風格以生成類似人類的響應。

Stack Overflow是一個程序設計領域的問答網站,隸屬Stack Exchange Network。網站上最常見的問答主題包括JavaScript、Java、C#、PHP、Android、Python、jQuery和HTML等。如今其註冊用戶已超過2000萬。其首席執行官Prashanth Chandrasekar表示,“社區平台推動了大語言模型發展,所作出的貢獻也必須得到補償。”Prashanth Chandrasekar最近在公司網站上發表的一篇文章中解釋說,“允許AI模型對開發人員多年來創建的數據進行訓練,但不與公眾分享數據和從這些模型中學到的知識作為回報,會導致公地悲劇。”

去年秋天,該論壇因禁止使用 ChatGPT生成的文本來創建帖子而成為頭條新聞,認為這種做法對網站及其用戶“有害”。Chandrasekar 在另一篇文章中補充說:“除非我們都繼續將知識貢獻回一個共享的公共平台,否則我們將冒著這樣一個世界的風險,在這個世界中,知識集中在AI模型的黑匣子中,需要用戶付費才能訪問他們的服務。 ”

同樣也是在本週,美國新聞媒體聯盟/The News/Media Alliance,前美國報業協會公佈多項原則,呼籲AIGC開發公司就數據使用展開談判,並要求這些開發公司尊重新聞媒體獲得公平補償的權利。環球音樂集團/Universal Music Group近日也發出警告,阻止AI服務從其受版權保護的歌曲中抓取旋律和歌詞。

實際上,OpenAI、谷歌、Meta等多家科技公司在建立大規模AI項目時,歷來不會為大部分訓練數據付費,而是選擇從網絡直接“搜刮”,數據來源便囊括上文提到的Stack Overflow和Reddit。當然,在美國此舉通常被看作合法行為,但仍存在一些版權與網站條款爭議。

但即便在這種情況下,ChatGPT等一系列AI大模型/聊天機器人( 11.250 , -0.40 , -3.43% )的開發費用也已高達數億美元。隨著Reddit、Stack Overflow等網站開始“開口要錢”,這些科技巨頭的AI開發費用未來很可能“再上一層樓”,而技術開發時間或也將進一步延長。

至於具體如何收費?不論是Stack Overflow還是Reddit都暫未發布價格信息。

Reddit透露,“我們正在處理這個問題,將在未來幾週內與合作夥伴分享更多信息。”Stack Overflow則表示,公司將藉鑑研究Reddit的策略,並與潛在客戶展開協商,目前已與部分客戶就數據訪問進行接觸。 這兩家公司的收費方案或許都將針對大型科技公司:Stack Overflow稱希望收費對象僅限於以商用為目的開發LLM的大型公司;Reddit也有類似表態。而其餘用戶與公司則有望繼續免費使用數據。

而馬斯克或許也為這兩家公司提供可供借鑒的定價方案,本月馬斯克已提高推特數據訪問價格,起價為每月4.2萬美元,可訪問5000萬條推文。而就在本週三,馬斯克剛剛指控微軟非法使用推特數據來訓練其AI模型,還直言“訴訟時間到”,警告要起訴微軟。

在被多家AI公司免費用來訓練他們的AI系統後,所有互聯網平台準備好開始賺錢了。

觀點1

利用網站數據訓練和升級AI是機器學習領域的普遍做法。事實上,許多 AI 應用程序和模型都依賴大量數據來學習和提高性能。 在某些情況下,網站可能會收取訪問其數據的費用,以資助其運營或產生收入。這可能是一種互惠互利的安排,因為網站可以賺取收入,而人工智能係統可以訪問有價值的數據以提高其性能。

但是,重要的是要確保所使用的數據是以合乎道德和合法的方式獲得的,並且用戶隱私受到保護。此外,必須確保以負責任和透明的方式設計和使用接受訓練的人工智能係統,並採取適當的保護措施以防止意外後果或傷害。 並非所有在線數據都一定是免費和開放的。雖然互聯網上有很多公開可用的數據,但也有很多情況下數據歸個人或組織所有,並且可能受到版權、許可或其他限制。

在某些情況下,網站可能會對其數據的訪問收費,這要么是因為他們在收集、清理或分析數據方面投入了資源,要么是因為他們將數據作為產品或服務貨幣化。這在商業數據提供商(例如財務或營銷數據)的情況下尤為常見,在這些提供商中,訪問數據可能是一種競爭優勢。

在訓練AI系統時,獲得高質量數據對於系統的成功至關重要。在許多情況下,在線免費提供的數據可能不完整、有噪聲或有偏差,這可能會限制人工智能係統的有效性。通過支付訪問高質量數據的費用,人工智能係統可以獲得更好的準確性和性能,這對於廣泛的應用程序來說是有價值的。

觀點2

支持不為數據付費下訓練AI的一個論點是,它促進對信息的開放訪問並使 AI 技術的訪問民主化。支持者認為,互聯網是建立在自由共享信息的理念之上的,這一原則應該擴展到人工智能的訓練數據。

他們還可能爭辯說,要求為數據付費會將AI技術的使用權限制在能夠負擔得起的人手中,從而在富人和窮人之間造成數字鴻溝。此外,該論點的一些支持者可能會聲稱,人工智能技術的好處,例如改善醫療保健、教育和社會服務,應該提供給每個人,無論他們的支付能力如何。

此外,有些人可能會爭辯說,收集數據的網站和其他組織已經通過使用收集的數據來改進自己的服務或產品,從而從中受益。從這個角度來看,對用戶通過與網站或平台的交互已經生成的數據的訪問收費可能被視為不公平。

然而,重要的是要注意,即使數據是免費提供的,它也可能並不總是高質量、完整或公正的。如果無法訪問高質量的訓練數據,人工智能係統可能無法正常運行,這可能會限制它們的實用性和有效性。此外,重要的是要確保用於訓練 AI 的任何數據都是以合乎道德和合法的方式獲得的,並採取適當的保護措施來保護用戶隱私並防止意外後果或傷害。

 

在“速食”成為主流的視聽傳播時代,社會每天都在產生大量信息。而應該探討的深度,卻永不止於話題或事件本身。我們一起,從社會發展中洞察有價值、有趣、有爭論點的生活方式及現象。

狂呼社會研究所聚焦社會變革下不同的聲音,向外延申社會背景、文化背景的思考深度,以多角度剖析、獨特的社會視角,引領大眾感知社會的“人間百態”。

狂呼,為每一個社會現象或事件的背后,提供具有探討價值的觀點,始於洞察、終於啟發。

聯系我們 // 相關文章


返回網誌
1 / 8
  • 未來智能眼鏡會將取代智能手機嗎?

    未來智能眼鏡會將取代智能手機嗎?

    1901年,“萬能鑰匙”這部小說中描述了一個男孩收到一副眼鏡,可以在他看到的人的額頭上顯示數據,這是“擴增實境”沒成概念前的早期案例。隨著人工智能技術的快速發展,人工智能和擴增實境技術“智能眼鏡”,將成為下一個改變生活科技設備?

    未來智能眼鏡會將取代智能手機嗎?

    1901年,“萬能鑰匙”這部小說中描述了一個男孩收到一副眼鏡,可以在他看到的人的額頭上顯示數據,這是“擴增實境”沒成概念前的早期案例。隨著人工智能技術的快速發展,人工智能和擴增實境技術“智能眼鏡”,將成為下一個改變生活科技設備?

  • Bill Gates投入數十億美元建造新核電廠,以應對AI電力需求困境

    Bill Gates投入數十億美元建造新核電廠,以應對AI電力需求困境

    Bill Gates向外界表明,美國即將迎來長期以來的首次大幅電力需求增長。截至目前,微軟與美國最大的核能發電公司聯合能源已達成合作協議。聯合能源預測,隨著人工智能AI的快速發展,資料中心的電力需求將達到電動車充電需求的5至6倍。

    Bill Gates投入數十億美元建造新核電廠,以應對AI電力需求困境

    Bill Gates向外界表明,美國即將迎來長期以來的首次大幅電力需求增長。截至目前,微軟與美國最大的核能發電公司聯合能源已達成合作協議。聯合能源預測,隨著人工智能AI的快速發展,資料中心的電力需求將達到電動車充電需求的5至6倍。

  • 擺脫世界飢餓困境的3種技術趨勢

    擺脫世界飢餓困境的3種技術趨勢

    目前,考慮到問題的嚴重性,這個沒有飢餓的未來似乎只是一個白日夢。截至現在,全世界有近8億人處於飢餓之中,而三分之一的人甚至不知道他們的下一頓飯從哪來。不過,一個沒有飢餓的世界是可能的。

    擺脫世界飢餓困境的3種技術趨勢

    目前,考慮到問題的嚴重性,這個沒有飢餓的未來似乎只是一個白日夢。截至現在,全世界有近8億人處於飢餓之中,而三分之一的人甚至不知道他們的下一頓飯從哪來。不過,一個沒有飢餓的世界是可能的。

  • 中國EX Robots人形機器人創新,引發全球市場競爭白熱化?

    中國EX Robots人形機器人創新,引發全球市場競爭白熱化?

    仿真機器人,長期以來一直是科幻作品的熱門題材。然而,隨着科技的進步,這些機器人已經不再局限於虛搆的世界。全球范圍內,許多企業和研究機搆正專注於開發和制造高度仿真的人形機器人,旨在為人類提供更多服務和幫助。

    中國EX Robots人形機器人創新,引發全球市場競爭白熱化?

    仿真機器人,長期以來一直是科幻作品的熱門題材。然而,隨着科技的進步,這些機器人已經不再局限於虛搆的世界。全球范圍內,許多企業和研究機搆正專注於開發和制造高度仿真的人形機器人,旨在為人類提供更多服務和幫助。

1 / 4
1 / 4
  • 出海網紅經濟,是陷阱還是機遇?

    出海網紅經濟,是陷阱還是機遇?

    隨著中國品牌出海,網紅經濟席捲北美、東南亞兩大市場。在網紅經濟的迅速發展下,也催生了網紅主播、MCN機構一條成熟的“全產業鏈”。網紅主播為了流量可能會採取什麼極端的手段? MCN機構和主播間到底又存在哪些內幕?

    出海網紅經濟,是陷阱還是機遇?

    隨著中國品牌出海,網紅經濟席捲北美、東南亞兩大市場。在網紅經濟的迅速發展下,也催生了網紅主播、MCN機構一條成熟的“全產業鏈”。網紅主播為了流量可能會採取什麼極端的手段? MCN機構和主播間到底又存在哪些內幕?

  • 中國年輕人“逃離”一線城市,一線城市風光不再還是迫於現實?

    中國年輕人“逃離”一線城市,一線城市風光不再還是迫於現實?

    近年來,越來越多的年輕人選擇離開一線城市,去到二、三線城市或者回到自己的家鄉發展。然而,也有一部分年輕人選擇了重新回歸,在一線城市漂泊、打工、旅行,這種現象也被稱為“回籠漂”。

    中國年輕人“逃離”一線城市,一線城市風光不再還是迫於現實?

    近年來,越來越多的年輕人選擇離開一線城市,去到二、三線城市或者回到自己的家鄉發展。然而,也有一部分年輕人選擇了重新回歸,在一線城市漂泊、打工、旅行,這種現象也被稱為“回籠漂”。

  • 溫哥華明星脫口秀抽獎贈票!中外喜劇,以幽默形式傳遞思考

    溫哥華明星脫口秀抽獎贈票!中外喜劇,以幽默形式傳遞思考

    作為喜劇的“非常態”表達形式,“即興喜劇”完完全全由现场观众给一些主題、線索或是關鍵信息,再由喜劇演員們把这些东西用随机、自然的形式演绎出来。今天,我們和麦浪娱乐创始人之一、大麦喜剧即兴喜剧负责人紫琪一起探討即興喜劇背後的思考。

    溫哥華明星脫口秀抽獎贈票!中外喜劇,以幽默形式傳遞思考

    作為喜劇的“非常態”表達形式,“即興喜劇”完完全全由现场观众给一些主題、線索或是關鍵信息,再由喜劇演員們把这些东西用随机、自然的形式演绎出来。今天,我們和麦浪娱乐创始人之一、大麦喜剧即兴喜剧负责人紫琪一起探討即興喜劇背後的思考。

  • Netflix 韓劇D.P: 逃兵追缉令,霸凌黑暗面背後的思考

    Netflix 韓劇D.P: 逃兵追缉令,霸凌黑暗面背後的思考

    大多數人將霸凌與童年聯繫在一起,但任何年齡段的任何人都可能發生欺凌行為。它也可以採取多種形式,從言語騷擾到身體虐待等等。欺凌行為也不只發生在操場上。個人可能會在網上、辦公室、家里和其他地方遭受霸凌。

    Netflix 韓劇D.P: 逃兵追缉令,霸凌黑暗面背後的思考

    大多數人將霸凌與童年聯繫在一起,但任何年齡段的任何人都可能發生欺凌行為。它也可以採取多種形式,從言語騷擾到身體虐待等等。欺凌行為也不只發生在操場上。個人可能會在網上、辦公室、家里和其他地方遭受霸凌。

1 / 4