Stack Overflow, Reddit和Twitter向AI公司收取訓練數據費用！

發布日期:2023年4月22日

要點:
用於創建ChatGPT、Google Bard和Bing Chat 的AI 模型都需要大量數據集進行訓練。實際上，OpenAI、谷歌、Meta等多家科技公司在建立大規模AI項目時，歷來不會為大部分訓練數據付費，而是選擇從網絡直接“搜刮”，數據來源便囊括上文提到的Stack Overflow和Reddit。隨著Reddit、Stack Overflow等網站開始“開口要錢”，這些科技巨頭的AI開發費用未來很可能“再上一層樓”，而技術開發時間或也將進一步延長。

在“速食”成為主流的視聽傳播時代，社會每天都在產生大量信息。而應該探討的深度，卻永不止於話題或事件本身。我們一起，從社會發展中洞察有價值、有趣、有爭論點的生活方式及現象。

狂呼社會研究所聚焦社會變革下不同的聲音，向外延申社會背景、文化背景的思考深度，以多角度剖析、獨特的社會視角，引領大眾感知社會的“人間百態”。

狂呼，為每一個社會現象或事件的背后，提供具有探討價值的觀點，始於洞察、終於啟發。

聯系我們 // 相關文章

繼“美版貼吧”Reddit宣布向AI公司收取數據使用費之後，又有一家網站計劃跟進。IT問答網站Stack Overflow日前宣布，計劃從今年年中起，向大型AI開發商收取數據訪問費用，付費後才可以獲取該平台上的5000萬個問題與答案。

用於創建ChatGPT、Google Bard和Bing Chat 的AI 模型都需要大量數據集進行訓練。他們背後的公司，如OpenAI和谷歌，從互聯網上收集數據，根據參數訓練他們的大型語言模型/LLM，從而成功進行自然語言處理/NLP。這些訓練數據包括不同的主題，從世界歷史到軟件開發以構建其“智能”，以及從對話中衍生的語法、語音細微差別和風格以生成類似人類的響應。

Stack Overflow是一個程序設計領域的問答網站，隸屬Stack Exchange Network。網站上最常見的問答主題包括JavaScript、Java、C#、PHP、Android、Python、jQuery和HTML等。如今其註冊用戶已超過2000萬。其首席執行官Prashanth Chandrasekar表示，“社區平台推動了大語言模型發展，所作出的貢獻也必須得到補償。”Prashanth Chandrasekar最近在公司網站上發表的一篇文章中解釋說，“允許AI模型對開發人員多年來創建的數據進行訓練，但不與公眾分享數據和從這些模型中學到的知識作為回報，會導致公地悲劇。”

去年秋天，該論壇因禁止使用 ChatGPT生成的文本來創建帖子而成為頭條新聞，認為這種做法對網站及其用戶“有害”。Chandrasekar 在另一篇文章中補充說：“除非我們都繼續將知識貢獻回一個共享的公共平台，否則我們將冒著這樣一個世界的風險，在這個世界中，知識集中在AI模型的黑匣子中，需要用戶付費才能訪問他們的服務。 ”

同樣也是在本週，美國新聞媒體聯盟/The News/Media Alliance，前美國報業協會公佈多項原則，呼籲AIGC開發公司就數據使用展開談判，並要求這些開發公司尊重新聞媒體獲得公平補償的權利。環球音樂集團/Universal Music Group近日也發出警告，阻止AI服務從其受版權保護的歌曲中抓取旋律和歌詞。

實際上，OpenAI、谷歌、Meta等多家科技公司在建立大規模AI項目時，歷來不會為大部分訓練數據付費，而是選擇從網絡直接“搜刮”，數據來源便囊括上文提到的Stack Overflow和Reddit。當然，在美國此舉通常被看作合法行為，但仍存在一些版權與網站條款爭議。

但即便在這種情況下，ChatGPT等一系列AI大模型/聊天機器人( 11.250 , -0.40 , -3.43% )的開發費用也已高達數億美元。隨著Reddit、Stack Overflow等網站開始“開口要錢”，這些科技巨頭的AI開發費用未來很可能“再上一層樓”，而技術開發時間或也將進一步延長。

至於具體如何收費？不論是Stack Overflow還是Reddit都暫未發布價格信息。

Reddit透露，“我們正在處理這個問題，將在未來幾週內與合作夥伴分享更多信息。”Stack Overflow則表示，公司將藉鑑研究Reddit的策略，並與潛在客戶展開協商，目前已與部分客戶就數據訪問進行接觸。這兩家公司的收費方案或許都將針對大型科技公司：Stack Overflow稱希望收費對象僅限於以商用為目的開發LLM的大型公司；Reddit也有類似表態。而其餘用戶與公司則有望繼續免費使用數據。

而馬斯克或許也為這兩家公司提供可供借鑒的定價方案，本月馬斯克已提高推特數據訪問價格，起價為每月4.2萬美元，可訪問5000萬條推文。而就在本週三，馬斯克剛剛指控微軟非法使用推特數據來訓練其AI模型，還直言“訴訟時間到”，警告要起訴微軟。

在被多家AI公司免費用來訓練他們的AI系統後，所有互聯網平台準備好開始賺錢了。

觀點1

利用網站數據訓練和升級AI是機器學習領域的普遍做法。事實上，許多 AI 應用程序和模型都依賴大量數據來學習和提高性能。在某些情況下，網站可能會收取訪問其數據的費用，以資助其運營或產生收入。這可能是一種互惠互利的安排，因為網站可以賺取收入，而人工智能係統可以訪問有價值的數據以提高其性能。

但是，重要的是要確保所使用的數據是以合乎道德和合法的方式獲得的，並且用戶隱私受到保護。此外，必須確保以負責任和透明的方式設計和使用接受訓練的人工智能係統，並採取適當的保護措施以防止意外後果或傷害。並非所有在線數據都一定是免費和開放的。雖然互聯網上有很多公開可用的數據，但也有很多情況下數據歸個人或組織所有，並且可能受到版權、許可或其他限制。

在某些情況下，網站可能會對其數據的訪問收費，這要么是因為他們在收集、清理或分析數據方面投入了資源，要么是因為他們將數據作為產品或服務貨幣化。這在商業數據提供商（例如財務或營銷數據）的情況下尤為常見，在這些提供商中，訪問數據可能是一種競爭優勢。

在訓練AI系統時，獲得高質量數據對於系統的成功至關重要。在許多情況下，在線免費提供的數據可能不完整、有噪聲或有偏差，這可能會限制人工智能係統的有效性。通過支付訪問高質量數據的費用，人工智能係統可以獲得更好的準確性和性能，這對於廣泛的應用程序來說是有價值的。

觀點2

支持不為數據付費下訓練AI的一個論點是，它促進對信息的開放訪問並使 AI 技術的訪問民主化。支持者認為，互聯網是建立在自由共享信息的理念之上的，這一原則應該擴展到人工智能的訓練數據。

他們還可能爭辯說，要求為數據付費會將AI技術的使用權限制在能夠負擔得起的人手中，從而在富人和窮人之間造成數字鴻溝。此外，該論點的一些支持者可能會聲稱，人工智能技術的好處，例如改善醫療保健、教育和社會服務，應該提供給每個人，無論他們的支付能力如何。

此外，有些人可能會爭辯說，收集數據的網站和其他組織已經通過使用收集的數據來改進自己的服務或產品，從而從中受益。從這個角度來看，對用戶通過與網站或平台的交互已經生成的數據的訪問收費可能被視為不公平。

然而，重要的是要注意，即使數據是免費提供的，它也可能並不總是高質量、完整或公正的。如果無法訪問高質量的訓練數據，人工智能係統可能無法正常運行，這可能會限制它們的實用性和有效性。此外，重要的是要確保用於訓練 AI 的任何數據都是以合乎道德和合法的方式獲得的，並採取適當的保護措施來保護用戶隱私並防止意外後果或傷害。

免責聲明：本網站提供的信息僅供一般信息分享目的，並不應被視為投資建議。

返回網誌

思錢想後Convo Money

查看全部

MU美光業績已成新的AI硬件風向標

美光本季度營收 415 億美元，環比直接拉漲了 74%，連續兩季度保持 70%+ 的環比增長。與公司此前指引的最高 342 億美金，以及市場預期的 354 億美金，完全不在一個維度上。

MU美光業績已成新的AI硬件風向標

美光本季度營收 415 億美元，環比直接拉漲了 74%，連續兩季度保持 70%+ 的環比增長。與公司此前指引的最高 342 億美金，以及市場預期的 354 億美金，完全不在一個維度上。
PDD拼多多2026年第一季財報，不及市場預期

因國內主站營收增長不及預期，營銷支出也並未明顯下滑，因此實際利潤表現並不及預期。分板塊來看背後原因，我們認為一方面是 Temu 本季減虧的幅度大概率並沒有預期的那麼多，另外國內主站的經營利潤增長應當也相當有限。

PDD拼多多2026年第一季財報，不及市場預期

因國內主站營收增長不及預期，營銷支出也並未明顯下滑，因此實際利潤表現並不及預期。分板塊來看背後原因，我們認為一方面是 Temu 本季減虧的幅度大概率並沒有預期的那麼多，另外國內主站的經營利潤增長應當也相當有限。
小米2026年第一季度財報，主要受手機和汽車毛利率同比回落影響

小米本季度汽車業務毛利率下滑至 20.1%，接近市場預期（20.5%），主要是受均價下滑的影響，其中包含了小米對購置税進行補貼的影響，並在本季度銷售了一部分的低價現車。由於毛利率再次回落，海豚君測算本季度小米汽車業務核心經營利潤再度陷入虧損 31 億元。

小米2026年第一季度財報，主要受手機和汽車毛利率同比回落影響

小米本季度汽車業務毛利率下滑至 20.1%，接近市場預期（20.5%），主要是受均價下滑的影響，其中包含了小米對購置税進行補貼的影響，並在本季度銷售了一部分的低價現車。由於毛利率再次回落，海豚君測算本季度小米汽車業務核心經營利潤再度陷入虧損 31 億元。
NVDA英偉達2027財年第一季度財報，收入752億美元，環比增量為129億美元

NVDA 核心經營指標：總收入 816 億美元，好於上調後的買方預期（780-800 億美元），其中季度環比增長 135 億美元，幾乎都來自於數據中心業務中 Blackwell 量產增加的帶動。

NVDA英偉達2027財年第一季度財報，收入752億美元，環比增量為129億美元

NVDA 核心經營指標：總收入 816 億美元，好於上調後的買方預期（780-800 億美元），其中季度環比增長 135 億美元，幾乎都來自於數據中心業務中 Blackwell 量產增加的帶動。
BYD比亞迪2025年第四季度業績仍然不及預期，賣車單價仍處於下行軌道

比亞迪的業績仍然不及預期。收入雖超預期，但主要由於非核心的比亞迪電子業務高增帶來，而在核心的賣車業務上，賣車單價仍處於下行軌道，賣車成本降幅不夠，最後賣車毛利率雖有回暖，但仍低於市場預期。

BYD比亞迪2025年第四季度業績仍然不及預期，賣車單價仍處於下行軌道

比亞迪的業績仍然不及預期。收入雖超預期，但主要由於非核心的比亞迪電子業務高增帶來，而在核心的賣車業務上，賣車單價仍處於下行軌道，賣車成本降幅不夠，最後賣車毛利率雖有回暖，但仍低於市場預期。
GOOG谷歌TurboQuant新聞導緻MU美光科技等內存股股價暴跌，但這合理嗎？

消息一出，華爾街一度陷入恐慌：如果 AI 突然間不再需要那麼多 RAM 就能運作，這是否意味著記憶體產業的「超級週期」即將結束？答案是否定的。事實上，從歷史規律與經濟學角度來看，情況正好相反。要理解這一點，我們只需要觀察你電腦上的網頁瀏覽器。

GOOG谷歌TurboQuant新聞導緻MU美光科技等內存股股價暴跌，但這合理嗎？

消息一出，華爾街一度陷入恐慌：如果 AI 突然間不再需要那麼多 RAM 就能運作，這是否意味著記憶體產業的「超級週期」即將結束？答案是否定的。事實上，從歷史規律與經濟學角度來看，情況正好相反。要理解這一點，我們只需要觀察你電腦上的網頁瀏覽器。
BABA財報AI投入比較激進

BABA發布第四季財報後股價下跌，財報顯示其營收和利潤均大幅低於預期。這家電商巨頭的季度淨利暴跌67%，而總營收僅成長1.7%約413億美元。這些表現引發了人們對阿里巴巴在AI人工智慧領域巨額投資（總額超過530億美元）有效性的擔憂。

BABA財報AI投入比較激進

BABA發布第四季財報後股價下跌，財報顯示其營收和利潤均大幅低於預期。這家電商巨頭的季度淨利暴跌67%，而總營收僅成長1.7%約413億美元。這些表現引發了人們對阿里巴巴在AI人工智慧領域巨額投資（總額超過530億美元）有效性的擔憂。
MU美光業績，季度毛利率達到 74.4%!

MU 整體業績：美光本季度營收 238.6 億美元，環比增長 75%，好於上調後的買方預期（199 億美元），本季度收入增長主要來自於 DRAM 和 NAND 業務的雙重帶動，兩大業務環增都在 70% 以上。

MU美光業績，季度毛利率達到 74.4%!

MU 整體業績：美光本季度營收 238.6 億美元，環比增長 75%，好於上調後的買方預期（199 億美元），本季度收入增長主要來自於 DRAM 和 NAND 業務的雙重帶動，兩大業務環增都在 70% 以上。

1 8

查看全部

流科百世Convo Tech

查看全部

Sharpa機器人削蘋果

對人類來說，削蘋果是件輕而易舉的晨間小事，但對機器人而言，這是雙手協調能力的「終極挑戰」。Sharpa機器人正在為能夠像人類一樣靈巧地完成複雜家務和工業裝配的機器人鋪平道路。

Sharpa機器人削蘋果

對人類來說，削蘋果是件輕而易舉的晨間小事，但對機器人而言，這是雙手協調能力的「終極挑戰」。Sharpa機器人正在為能夠像人類一樣靈巧地完成複雜家務和工業裝配的機器人鋪平道路。
腫瘤療法突破，中國團隊給癌細胞打上“豬”標簽，癌細胞“偽裝朮”被破解

近期，中國科學家在“Cell”雜志上發表的一項突破性研究，為這一頑疾提供了全新思路。他們利用基因編輯技朮，將癌細胞改造成免疫系統眼中的“異類”，類似於人體對豬器官產生的超急性排斥反應，從而引發了一場針對癌細胞的精准“免疫殲滅戰”。

腫瘤療法突破，中國團隊給癌細胞打上“豬”標簽，癌細胞“偽裝朮”被破解

近期，中國科學家在“Cell”雜志上發表的一項突破性研究，為這一頑疾提供了全新思路。他們利用基因編輯技朮，將癌細胞改造成免疫系統眼中的“異類”，類似於人體對豬器官產生的超急性排斥反應，從而引發了一場針對癌細胞的精准“免疫殲滅戰”。
新型大腦設備首次讀出內心聲音，腦機接口技朮打破失語者困境

新系統的核心原理與常見的“嘗試說話”型腦機介面相似，都是在大腦運動皮質植入感測器，這一區域負責向聲道肌肉下達運動指令。感測器捕捉到的神經活動會送入機器學習模型，模型依據個人化數據判斷信號對應的聲音，進而預測使用者想說的單字。

新型大腦設備首次讀出內心聲音，腦機接口技朮打破失語者困境

新系統的核心原理與常見的“嘗試說話”型腦機介面相似，都是在大腦運動皮質植入感測器，這一區域負責向聲道肌肉下達運動指令。感測器捕捉到的神經活動會送入機器學習模型，模型依據個人化數據判斷信號對應的聲音，進而預測使用者想說的單字。
“垃圾DNA”新發現：遠古病毒DNA在人類發育中發揮關鍵作用

自這類非編碼DNA片段首次被發現並被稱作“垃圾”以來，生物學家們一直在探討它們是否真的無用。如今的主流觀點認為，這些片段雖不直接參與蛋白質合成，卻在整體基因組中佔據了極大比例，顯示它們可能具有重要功能。

“垃圾DNA”新發現：遠古病毒DNA在人類發育中發揮關鍵作用

自這類非編碼DNA片段首次被發現並被稱作“垃圾”以來，生物學家們一直在探討它們是否真的無用。如今的主流觀點認為，這些片段雖不直接參與蛋白質合成，卻在整體基因組中佔據了極大比例，顯示它們可能具有重要功能。

1 4

查看全部

觀點Opinion

查看全部

人工智能AI時代，人類如何重拾批判性思維？

作為批判性思維培養的原始土壤：教育，必須進行重塑。教育政策的制定者和學校必須釆取積極措施，將批判性思維的練習深度融入課程。這遠不止是增加几節理論課，而是要在每一個學科、每一個學習環節中，鼓勵學生質疑和分析AI生成的信息。

人工智能AI時代，人類如何重拾批判性思維？

作為批判性思維培養的原始土壤：教育，必須進行重塑。教育政策的制定者和學校必須釆取積極措施，將批判性思維的練習深度融入課程。這遠不止是增加几節理論課，而是要在每一個學科、每一個學習環節中，鼓勵學生質疑和分析AI生成的信息。
長城汽車面向35歲以上人才開啟專場招聘，職場中的年齡歧視及“35歲現象”挑戰引發深思

長期以來，“35歲現象”如無形枷鎖，將眾多經驗丰富、能力成熟的中年人才拒之門外。長城汽車的“35+計划”不僅是一項招聘舉措，更是一場關於年齡、經驗與價值的社會呼吁，挑戰了傳統的職場偏見，倡導尊重和激活中年人才的力量，為行業和社會注入了新的活力與希望。

長城汽車面向35歲以上人才開啟專場招聘，職場中的年齡歧視及“35歲現象”挑戰引發深思

長期以來，“35歲現象”如無形枷鎖，將眾多經驗丰富、能力成熟的中年人才拒之門外。長城汽車的“35+計划”不僅是一項招聘舉措，更是一場關於年齡、經驗與價值的社會呼吁，挑戰了傳統的職場偏見，倡導尊重和激活中年人才的力量，為行業和社會注入了新的活力與希望。
打破線性人生，在不確定中尋找多元化的人生出路

近年來，全球經濟與地緣格局發生劇烈變化，從疫情沖擊、通脹壓力，到產業結搆重塑，無一不深刻影響着普通人的生活節奏與發展路徑。原本被視為“穩定之路”的人生規划：考學、畢業、就業、升職、買房，如今變得越來越不確定。

打破線性人生，在不確定中尋找多元化的人生出路

近年來，全球經濟與地緣格局發生劇烈變化，從疫情沖擊、通脹壓力，到產業結搆重塑，無一不深刻影響着普通人的生活節奏與發展路徑。原本被視為“穩定之路”的人生規划：考學、畢業、就業、升職、買房，如今變得越來越不確定。
從名校精英到殺手，Luigi Mangione槍擊案背后揭示的美國醫療體系

Luigi Mangione用極端方式撕開了美國醫療體系深藏的裂痕，也逼迫社會不得不重新審視，何為正義？何為悲劇。當醫療保障變成逐利機器，當患者在病痛中苦苦掙扎卻換來拒絕與冷眼，社會的不滿和憤怒便會潛滋暗長，最終以最不可控的方式爆發。

從名校精英到殺手，Luigi Mangione槍擊案背后揭示的美國醫療體系

Luigi Mangione用極端方式撕開了美國醫療體系深藏的裂痕，也逼迫社會不得不重新審視，何為正義？何為悲劇。當醫療保障變成逐利機器，當患者在病痛中苦苦掙扎卻換來拒絕與冷眼，社會的不滿和憤怒便會潛滋暗長，最終以最不可控的方式爆發。

1 4

查看全部

胡說北道Convo Ave(播客)

查看全部

從中國經濟看背後困境及發展新構想?

中國未來發展或許可以參考“五環搆想”進行戰略布局。這一搆想包括高等教育培訓、創新科技驅動、產品生產銷售、市場推廣營銷、出海戰略佈局五大領域。通過“五環搆想”的實施，中國經濟可能有一個全新的契機注入新的動力，推動經濟穩定健康發展。

從中國經濟看背後困境及發展新構想?

中國未來發展或許可以參考“五環搆想”進行戰略布局。這一搆想包括高等教育培訓、創新科技驅動、產品生產銷售、市場推廣營銷、出海戰略佈局五大領域。通過“五環搆想”的實施，中國經濟可能有一個全新的契機注入新的動力，推動經濟穩定健康發展。
在變革中的抉擇：當今大環境下如何實現職業規劃與人生價值？

隨著時代的變遷，人生價值的內涵也變得更加多樣化和個性化。每個人對於“成功”和“幸福”的理解不同，有些人追求的是即時的快樂和成就感，而有些人則看重長期的進步和自我超越。

在變革中的抉擇：當今大環境下如何實現職業規劃與人生價值？

隨著時代的變遷，人生價值的內涵也變得更加多樣化和個性化。每個人對於“成功”和“幸福”的理解不同，有些人追求的是即時的快樂和成就感，而有些人則看重長期的進步和自我超越。
再見愛人：探索現代婚姻中的情感困境

芒果TV婚姻紀實觀察節目“再見愛人4”邀請黃聖依、楊子，麥琳、李行亮，葛夕、劉爽三對情感關系10年以上的夫妻，以“婚姻紀實觀察”為切口，呈現出不同婚姻樣本在親密關系中的掙扎與甜蜜、桎梏與覺醒。

再見愛人：探索現代婚姻中的情感困境

芒果TV婚姻紀實觀察節目“再見愛人4”邀請黃聖依、楊子，麥琳、李行亮，葛夕、劉爽三對情感關系10年以上的夫妻，以“婚姻紀實觀察”為切口，呈現出不同婚姻樣本在親密關系中的掙扎與甜蜜、桎梏與覺醒。
抖音短劇新風潮：中老年人成為新的增長點?

近日，不少以老年人為主角的抖音短劇“閃婚五十歲”、“金榜題名之母憑子貴”、“人到五十，閃婚霸總”等等登上熱度榜單。老年人的婚姻、情感以及生活故事，成了當下短劇創作的“新流量密碼”。

抖音短劇新風潮：中老年人成為新的增長點?

近日，不少以老年人為主角的抖音短劇“閃婚五十歲”、“金榜題名之母憑子貴”、“人到五十，閃婚霸總”等等登上熱度榜單。老年人的婚姻、情感以及生活故事，成了當下短劇創作的“新流量密碼”。

1 4

查看全部

觀點1

觀點2

免費訂閱优質資訊