Stack Overflow, Reddit和Twitter向AI公司收取訓練數據費用!

Stack Overflow, Reddit和Twitter向AI公司收取訓練數據費用!

發布日期:

科技 Tech


要點:
用於創建ChatGPT、Google Bard和Bing Chat 的AI 模型都需要大量數據集進行訓練。實際上,OpenAI、谷歌、Meta等多家科技公司在建立大規模AI項目時,歷來不會為大部分訓練數據付費,而是選擇從網絡直接“搜刮”,數據來源便囊括上文提到的Stack Overflow和Reddit。 隨著Reddit、Stack Overflow等網站開始“開口要錢”,這些科技巨頭的AI開發費用未來很可能“再上一層樓”,而技術開發時間或也將進一步延長。

在“速食”成為主流的視聽傳播時代,社會每天都在產生大量信息。而應該探討的深度,卻永不止於話題或事件本身。我們一起,從社會發展中洞察有價值、有趣、有爭論點的生活方式及現象。

狂呼社會研究所聚焦社會變革下不同的聲音,向外延申社會背景、文化背景的思考深度,以多角度剖析、獨特的社會視角,引領大眾感知社會的“人間百態”。

狂呼,為每一個社會現象或事件的背后,提供具有探討價值的觀點,始於洞察、終於啟發。

聯系我們 // 相關文章

繼“美版貼吧”Reddit宣布向AI公司收取數據使用費之後,又有一家網站計劃跟進。IT問答網站Stack Overflow日前宣布,計劃從今年年中起,向大型AI開發商收取數據訪問費用,付費後才可以獲取該平台上的5000萬個問題與答案。

用於創建ChatGPT、Google Bard和Bing Chat 的AI 模型都需要大量數據集進行訓練。他們背後的公司,如OpenAI和谷歌,從互聯網上收集數據,根據參數訓練他們的大型語言模型/LLM,從而成功進行自然語言處理/NLP。 這些訓練數據包括不同的主題,從世界歷史到軟件開發以構建其“智能”,以及從對話中衍生的語法、語音細微差別和風格以生成類似人類的響應。

Stack Overflow是一個程序設計領域的問答網站,隸屬Stack Exchange Network。網站上最常見的問答主題包括JavaScript、Java、C#、PHP、Android、Python、jQuery和HTML等。如今其註冊用戶已超過2000萬。其首席執行官Prashanth Chandrasekar表示,“社區平台推動了大語言模型發展,所作出的貢獻也必須得到補償。”Prashanth Chandrasekar最近在公司網站上發表的一篇文章中解釋說,“允許AI模型對開發人員多年來創建的數據進行訓練,但不與公眾分享數據和從這些模型中學到的知識作為回報,會導致公地悲劇。”

去年秋天,該論壇因禁止使用 ChatGPT生成的文本來創建帖子而成為頭條新聞,認為這種做法對網站及其用戶“有害”。Chandrasekar 在另一篇文章中補充說:“除非我們都繼續將知識貢獻回一個共享的公共平台,否則我們將冒著這樣一個世界的風險,在這個世界中,知識集中在AI模型的黑匣子中,需要用戶付費才能訪問他們的服務。 ”

同樣也是在本週,美國新聞媒體聯盟/The News/Media Alliance,前美國報業協會公佈多項原則,呼籲AIGC開發公司就數據使用展開談判,並要求這些開發公司尊重新聞媒體獲得公平補償的權利。環球音樂集團/Universal Music Group近日也發出警告,阻止AI服務從其受版權保護的歌曲中抓取旋律和歌詞。

實際上,OpenAI、谷歌、Meta等多家科技公司在建立大規模AI項目時,歷來不會為大部分訓練數據付費,而是選擇從網絡直接“搜刮”,數據來源便囊括上文提到的Stack Overflow和Reddit。當然,在美國此舉通常被看作合法行為,但仍存在一些版權與網站條款爭議。

但即便在這種情況下,ChatGPT等一系列AI大模型/聊天機器人( 11.250 , -0.40 , -3.43% )的開發費用也已高達數億美元。隨著Reddit、Stack Overflow等網站開始“開口要錢”,這些科技巨頭的AI開發費用未來很可能“再上一層樓”,而技術開發時間或也將進一步延長。

至於具體如何收費?不論是Stack Overflow還是Reddit都暫未發布價格信息。

Reddit透露,“我們正在處理這個問題,將在未來幾週內與合作夥伴分享更多信息。”Stack Overflow則表示,公司將藉鑑研究Reddit的策略,並與潛在客戶展開協商,目前已與部分客戶就數據訪問進行接觸。 這兩家公司的收費方案或許都將針對大型科技公司:Stack Overflow稱希望收費對象僅限於以商用為目的開發LLM的大型公司;Reddit也有類似表態。而其餘用戶與公司則有望繼續免費使用數據。

而馬斯克或許也為這兩家公司提供可供借鑒的定價方案,本月馬斯克已提高推特數據訪問價格,起價為每月4.2萬美元,可訪問5000萬條推文。而就在本週三,馬斯克剛剛指控微軟非法使用推特數據來訓練其AI模型,還直言“訴訟時間到”,警告要起訴微軟。

在被多家AI公司免費用來訓練他們的AI系統後,所有互聯網平台準備好開始賺錢了。

觀點1

利用網站數據訓練和升級AI是機器學習領域的普遍做法。事實上,許多 AI 應用程序和模型都依賴大量數據來學習和提高性能。 在某些情況下,網站可能會收取訪問其數據的費用,以資助其運營或產生收入。這可能是一種互惠互利的安排,因為網站可以賺取收入,而人工智能係統可以訪問有價值的數據以提高其性能。

但是,重要的是要確保所使用的數據是以合乎道德和合法的方式獲得的,並且用戶隱私受到保護。此外,必須確保以負責任和透明的方式設計和使用接受訓練的人工智能係統,並採取適當的保護措施以防止意外後果或傷害。 並非所有在線數據都一定是免費和開放的。雖然互聯網上有很多公開可用的數據,但也有很多情況下數據歸個人或組織所有,並且可能受到版權、許可或其他限制。

在某些情況下,網站可能會對其數據的訪問收費,這要么是因為他們在收集、清理或分析數據方面投入了資源,要么是因為他們將數據作為產品或服務貨幣化。這在商業數據提供商(例如財務或營銷數據)的情況下尤為常見,在這些提供商中,訪問數據可能是一種競爭優勢。

在訓練AI系統時,獲得高質量數據對於系統的成功至關重要。在許多情況下,在線免費提供的數據可能不完整、有噪聲或有偏差,這可能會限制人工智能係統的有效性。通過支付訪問高質量數據的費用,人工智能係統可以獲得更好的準確性和性能,這對於廣泛的應用程序來說是有價值的。

觀點2

支持不為數據付費下訓練AI的一個論點是,它促進對信息的開放訪問並使 AI 技術的訪問民主化。支持者認為,互聯網是建立在自由共享信息的理念之上的,這一原則應該擴展到人工智能的訓練數據。

他們還可能爭辯說,要求為數據付費會將AI技術的使用權限制在能夠負擔得起的人手中,從而在富人和窮人之間造成數字鴻溝。此外,該論點的一些支持者可能會聲稱,人工智能技術的好處,例如改善醫療保健、教育和社會服務,應該提供給每個人,無論他們的支付能力如何。

此外,有些人可能會爭辯說,收集數據的網站和其他組織已經通過使用收集的數據來改進自己的服務或產品,從而從中受益。從這個角度來看,對用戶通過與網站或平台的交互已經生成的數據的訪問收費可能被視為不公平。

然而,重要的是要注意,即使數據是免費提供的,它也可能並不總是高質量、完整或公正的。如果無法訪問高質量的訓練數據,人工智能係統可能無法正常運行,這可能會限制它們的實用性和有效性。此外,重要的是要確保用於訓練 AI 的任何數據都是以合乎道德和合法的方式獲得的,並採取適當的保護措施來保護用戶隱私並防止意外後果或傷害。

 

在“速食”成為主流的視聽傳播時代,社會每天都在產生大量信息。而應該探討的深度,卻永不止於話題或事件本身。我們一起,從社會發展中洞察有價值、有趣、有爭論點的生活方式及現象。

狂呼社會研究所聚焦社會變革下不同的聲音,向外延申社會背景、文化背景的思考深度,以多角度剖析、獨特的社會視角,引領大眾感知社會的“人間百態”。

狂呼,為每一個社會現象或事件的背后,提供具有探討價值的觀點,始於洞察、終於啟發。

聯系我們 // 相關文章


返回網誌
1 / 8
  • 金剛石晶片的崛起,或引發全球AI半導體競爭新角逐

    金剛石晶片的崛起,或引發全球AI半導體競爭新角逐

    全球各國都在積極加快金剛石在半導體領域的研發步伐,並將其視為未來科技創新的關鍵材料。從高效能晶片散熱解決方案到量子計算和光電應用,金剛石的潛力被各大研究機構和企業廣泛看好。

    金剛石晶片的崛起,或引發全球AI半導體競爭新角逐

    全球各國都在積極加快金剛石在半導體領域的研發步伐,並將其視為未來科技創新的關鍵材料。從高效能晶片散熱解決方案到量子計算和光電應用,金剛石的潛力被各大研究機構和企業廣泛看好。

  • “微塑膠”成科學界關注焦點,或對人體健康造成潛在威脅

    “微塑膠”成科學界關注焦點,或對人體健康造成潛在威脅

    許多工業生產過程中,尤其是涉及塑膠制造、加工和拆卸的行業,都會產生大量的塑膠廢料。這些廢料往往被不當處置或遺棄,經過時間的推移,這些廢棄塑膠在風力、雨水等自然條件下分解成微塑膠顆粒,進入土壤和水體。

    “微塑膠”成科學界關注焦點,或對人體健康造成潛在威脅

    許多工業生產過程中,尤其是涉及塑膠制造、加工和拆卸的行業,都會產生大量的塑膠廢料。這些廢料往往被不當處置或遺棄,經過時間的推移,這些廢棄塑膠在風力、雨水等自然條件下分解成微塑膠顆粒,進入土壤和水體。

  • 古羅馬混凝土的“耐用秘密”

    古羅馬混凝土的“耐用秘密”

    古羅馬人以其卓越的建筑和工程技朮而聞名。公元128年建成的萬神殿/Pantheon是古羅馬的一座杰出建筑,擁有世界上最大的無鋼筋混凝土圓頂,至今依然完好如初。而與此形成鮮明對比的是,許多現代混凝土結搆在短短几十年內就出現了損壞。

    古羅馬混凝土的“耐用秘密”

    古羅馬人以其卓越的建筑和工程技朮而聞名。公元128年建成的萬神殿/Pantheon是古羅馬的一座杰出建筑,擁有世界上最大的無鋼筋混凝土圓頂,至今依然完好如初。而與此形成鮮明對比的是,許多現代混凝土結搆在短短几十年內就出現了損壞。

  • 從諾貝爾到搞笑諾貝爾獎:科學幽默與生活的貼近

    從諾貝爾到搞笑諾貝爾獎:科學幽默與生活的貼近

    成立於1991年的搞笑諾貝爾獎是對諾貝爾獎的“幽默模仿”,旨在表彰那些“先讓人發笑,然后讓人深思”的成就。雖然獲獎的研究初看可能顯得荒唐,但這并不意味着它們缺乏科學價值。

    從諾貝爾到搞笑諾貝爾獎:科學幽默與生活的貼近

    成立於1991年的搞笑諾貝爾獎是對諾貝爾獎的“幽默模仿”,旨在表彰那些“先讓人發笑,然后讓人深思”的成就。雖然獲獎的研究初看可能顯得荒唐,但這并不意味着它們缺乏科學價值。

1 / 4
  • “AI虛擬伴侶”導致14歲美國少年自殺,人工智能時代背後的情感孤獨

    “AI虛擬伴侶”導致14歲美國少年自殺,人工智能時代背後的情感孤獨

    “我想念你,妹妹。”、“我也想念你,親愛的哥哥。” 這段對話發生在14歲塞維爾/Sewell Setzer生命的最后一天。在與AI初創公司Character.AI的聊天機器人進行長時間對話后,他在2月28日選擇結束自己的生命,開槍自殺身亡。

    “AI虛擬伴侶”導致14歲美國少年自殺,人工智能時代背後的情感孤獨

    “我想念你,妹妹。”、“我也想念你,親愛的哥哥。” 這段對話發生在14歲塞維爾/Sewell Setzer生命的最后一天。在與AI初創公司Character.AI的聊天機器人進行長時間對話后,他在2月28日選擇結束自己的生命,開槍自殺身亡。

  • 网络成瘾,沉迷直播間:當今快節奏生活的快感與陷阱?

    网络成瘾,沉迷直播間:當今快節奏生活的快感與陷阱?

    繁忙的社會中,身邊的人雖然眾多,但真正理解和傾訴的卻少之又少。在虛擬中,人們通過短暫的直播互動獲得了一時的快樂,然而這并不能真正填補心靈深處的空白。最終,直播所提供的陪伴,無法替代那種深入的、持久的人際關系。

    网络成瘾,沉迷直播間:當今快節奏生活的快感與陷阱?

    繁忙的社會中,身邊的人雖然眾多,但真正理解和傾訴的卻少之又少。在虛擬中,人們通過短暫的直播互動獲得了一時的快樂,然而這并不能真正填補心靈深處的空白。最終,直播所提供的陪伴,無法替代那種深入的、持久的人際關系。

  • 從Mr. Beast的崛起到三只羊的隕落:超級網紅為博眼球的背后

    從Mr. Beast的崛起到三只羊的隕落:超級網紅為博眼球的背后

    網紅文化已經成為一種不可忽視的社會現象和經濟力量。隨着發展,一些擁有數百萬甚至千萬人氣的超級網紅,為了追求流量和關注度,忽視了內容質量和創作者的道德底線,導致劣跡網紅頻頻出現,給整個行業帶來了顯著的負面影響。

    從Mr. Beast的崛起到三只羊的隕落:超級網紅為博眼球的背后

    網紅文化已經成為一種不可忽視的社會現象和經濟力量。隨着發展,一些擁有數百萬甚至千萬人氣的超級網紅,為了追求流量和關注度,忽視了內容質量和創作者的道德底線,導致劣跡網紅頻頻出現,給整個行業帶來了顯著的負面影響。

  • 酒店暗藏攝像頭,偷拍黑色產業鏈

    酒店暗藏攝像頭,偷拍黑色產業鏈

    酒店和民宿頻繁發生暗藏攝像頭的事件,使我們不得不深思:偷拍背后究竟蘊藏着怎樣的利益鏈條?這些偷拍行為不僅嚴重侵犯了個人隱私,也對社會的道德標准提出了挑戰。這一現象的蔓延,迫使人們對行業監管和法律法規的有效性產生質疑。

    酒店暗藏攝像頭,偷拍黑色產業鏈

    酒店和民宿頻繁發生暗藏攝像頭的事件,使我們不得不深思:偷拍背后究竟蘊藏着怎樣的利益鏈條?這些偷拍行為不僅嚴重侵犯了個人隱私,也對社會的道德標准提出了挑戰。這一現象的蔓延,迫使人們對行業監管和法律法規的有效性產生質疑。

1 / 4
  • 在變革中的抉擇:當今大環境下如何實現職業規劃與人生價值?

    在變革中的抉擇:當今大環境下如何實現職業規劃與人生價值?

    隨著時代的變遷,人生價值的內涵也變得更加多樣化和個性化。每個人對於“成功”和“幸福”的理解不同,有些人追求的是即時的快樂和成就感,而有些人則看重長期的進步和自我超越。

    在變革中的抉擇:當今大環境下如何實現職業規劃與人生價值?

    隨著時代的變遷,人生價值的內涵也變得更加多樣化和個性化。每個人對於“成功”和“幸福”的理解不同,有些人追求的是即時的快樂和成就感,而有些人則看重長期的進步和自我超越。

  • 再見愛人:探索現代婚姻中的情感困境

    再見愛人:探索現代婚姻中的情感困境

    芒果TV婚姻紀實觀察節目“再見愛人4”邀請黃聖依、楊子,麥琳、李行亮,葛夕、劉爽三對情感關系10年以上的夫妻,以“婚姻紀實觀察”為切口,呈現出不同婚姻樣本在親密關系中的掙扎與甜蜜、桎梏與覺醒。

    再見愛人:探索現代婚姻中的情感困境

    芒果TV婚姻紀實觀察節目“再見愛人4”邀請黃聖依、楊子,麥琳、李行亮,葛夕、劉爽三對情感關系10年以上的夫妻,以“婚姻紀實觀察”為切口,呈現出不同婚姻樣本在親密關系中的掙扎與甜蜜、桎梏與覺醒。

  • 抖音短劇新風潮:中老年人成為新的增長點?

    抖音短劇新風潮:中老年人成為新的增長點?

    近日,不少以老年人為主角的抖音短劇“閃婚五十歲”、“金榜題名之母憑子貴”、“人到五十,閃婚霸總”等等登上熱度榜單。老年人的婚姻、情感以及生活故事,成了當下短劇創作的“新流量密碼”。

    抖音短劇新風潮:中老年人成為新的增長點?

    近日,不少以老年人為主角的抖音短劇“閃婚五十歲”、“金榜題名之母憑子貴”、“人到五十,閃婚霸總”等等登上熱度榜單。老年人的婚姻、情感以及生活故事,成了當下短劇創作的“新流量密碼”。

  • 京東楊笠事件背后:愚昧的社會何去何從?

    京東楊笠事件背后:愚昧的社會何去何從?

    臨近雙十一,沒想到第一場公關戰就炸在了京東身上。而更萬萬沒想到的是,翻車的點不是價格,也不是帶貨主播,而是更尖銳更為敏感的“男女性別”話題,還把脫口秀演員楊笠推向了風口浪尖。

    京東楊笠事件背后:愚昧的社會何去何從?

    臨近雙十一,沒想到第一場公關戰就炸在了京東身上。而更萬萬沒想到的是,翻車的點不是價格,也不是帶貨主播,而是更尖銳更為敏感的“男女性別”話題,還把脫口秀演員楊笠推向了風口浪尖。

1 / 4