Stack Overflow, Reddit和Twitter向AI公司收取訓練數據費用!

Stack Overflow, Reddit和Twitter向AI公司收取训练数据费用!

發布日期:

狂呼社論 Convo Social 科技 Tech


要点:
用于创建ChatGPT、Google Bard和Bing Chat 的AI 模型都需要大量数据集进行训练。实际上,OpenAI、谷歌、Meta等多家科技公司在建立大规模AI项目时,历来不会为大部分训练数据付费,而是选择从网络直接“搜刮”,数据来源便囊括上文提到的Stack Overflow和Reddit。 随着Reddit、Stack Overflow等网站开始“开口要钱”,这些科技巨头的AI开发费用未来很可能“再上一层楼”,而技术开发时间或也将进一步延长。

在“速食”成为主流的视听传播时代,社会每天都在产生大量信息。而应该探讨的深度,却永不止于话题或事件本身。我们一起,从社会发展中洞察有价值、有趣、有争论点的生活方式及现象。

狂呼社会研究所聚焦社会变革下不同的声音,向外延申社会背景、文化背景的思考深度,以多角度剖析、独特的社会视角,引领大众感知社会的“人间百态”。

狂呼,为每一个社会现象或事件的背后,提供具有探讨价值的观点,始于洞察、终于启发。

联系我们// 相关文章

继“美版贴吧”Reddit宣布向AI公司收取数据使用费之后,又有一家网站计划跟进。 IT问答网站Stack Overflow日前宣布,计划从今年年中起,向大型AI开发商收取数据访问费用,付费后才可以获取该平台上的5000万个问题与答案。

用于创建ChatGPT、Google Bard和Bing Chat 的AI 模型都需要大量数据集进行训练。他们背后的公司,如OpenAI和谷歌,从互联网上收集数据,根据参数训练他们的大型语言模型/LLM,从而成功进行自然语言处理/NLP。 这些训练数据包括不同的主题,从世界历史到软件开发以构建其“智能”,以及从对话中衍生的语法、语音细微差别和风格以生成类似人类的响应。

Stack Overflow是一个程序设计领域的问答网站,隶属Stack Exchange Network。网站上最常见的问答主题包括JavaScript、Java、C#、PHP、Android、Python、jQuery和HTML等。如今其注册用户已超过2000万。其首席执行官Prashanth Chandrasekar表示,“社区平台推动了大语言模型发展,所作出的贡献也必须得到补偿。”Prashanth Chandrasekar最近在公司网站上发表的一篇文章中解释说,“允许AI模型对开发人员多年来创建的数据进行训练,但不与公众分享数据和从这些模型中学到的知识作为回报,会导致公地悲剧。”

去年秋天,该论坛因禁止使用ChatGPT生成的文本来创建帖子而成为头条新闻,认为这种做法对网站及其用户“有害”。 Chandrasekar 在另一篇文章中补充说:“除非我们都继续将知识贡献回一个共享的公共平台,否则我们将冒着这样一个世界的风险,在这个世界中,知识集中在AI模型的黑匣子中,需要用户付费才能访问他们的服务。 ”

同样也是在本周,美国新闻媒体联盟/The News/Media Alliance,前美国报业协会公布多项原则,呼吁AIGC开发公司就数据使用展开谈判,并要求这些开发公司尊重新闻媒体获得公平补偿的权利。环球音乐集团/Universal Music Group近日也发出警告,阻止AI服务从其受版权保护的歌曲中抓取旋律和歌词。

实际上,OpenAI、谷歌、Meta等多家科技公司在建立大规模AI项目时,历来不会为大部分训练数据付费,而是选择从网络直接“搜刮”,数据来源便囊括上文提到的Stack Overflow和Reddit。当然,在美国此举通常被看作合法行为,但仍存在一些版权与网站条款争议。

但即便在这种情况下,ChatGPT等一系列AI大模型/聊天机器人( 11.250 , -0.40 , -3.43% )的开发费用也已高达数亿美元。随着Reddit、Stack Overflow等网站开始“开口要钱”,这些科技巨头的AI开发费用未来很可能“再上一层楼”,而技术开发时间或也将进一步延长。

至于具体如何收费?不论是Stack Overflow还是Reddit都暂未发布价格信息。

Reddit透露,“我们正在处理这个问题,将在未来几周内与合作伙伴分享更多信息。”Stack Overflow则表示,公司将借鉴研究Reddit的策略,并与潜在客户展开协商,目前已与部分客户就数据访问进行接触。 这两家公司的收费方案或许都将针对大型科技公司:Stack Overflow称希望收费对象仅限于以商用为目的开发LLM的大型公司;Reddit也有类似表态。而其余用户与公司则有望继续免费使用数据。

而马斯克或许也为这两家公司提供可供借鉴的定价方案,本月马斯克已提高推特数据访问价格,起价为每月4.2万美元,可访问5000万条推文。而就在本周三,马斯克刚刚指控微软非法使用推特数据来训练其AI模型,还直言“诉讼时间到”,警告要起诉微软。

在被多家AI公司免费用来训练他们的AI系统后,所有互联网平台准备好开始赚钱了。

观点1

利用网站数据训练和升级AI是机器学习领域的普遍做法。事实上,许多AI 应用程序和模型都依赖大量数据来学习和提高性能。 在某些情况下,网站可能会收取访问其数据的费用,以资助其运营或产生收入。这可能是一种互惠互利的安排,因为网站可以赚取收入,而人工智能系统可以访问有价值的数据以提高其性能。

但是,重要的是要确保所使用的数据是以合乎道德和合法的方式获得的,并且用户隐私受到保护。此外,必须确保以负责任和透明的方式设计和使用接受训练的人工智能系统,并采取适当的保护措施以防止意外后果或伤害。 并非所有在线数据都一定是免费和开放的。虽然互联网上有很多公开可用的数据,但也有很多情况下数据归个人或组织所有,并且可能受到版权、许可或其他限制。

在某些情况下,网站可能会对其数据的访问收费,这要么是因为他们在收集、清理或分析数据方面投入了资源,要么是因为他们将数据作为产品或服务货币化。这在商业数据提供商(例如财务或营销数据)的情况下尤为常见,在这些提供商中,访问数据可能是一种竞争优势。

在训练AI系统时,获得高质量数据对于系统的成功至关重要。在许多情况下,在线免费提供的数据可能不完整、有噪声或有偏差,这可能会限制人工智能系统的有效性。通过支付访问高质量数据的费用,人工智能系统可以获得更好的准确性和性能,这对于广泛的应用程序来说是有价值的。

观点2

支持不为数据付费下训练AI的一个论点是,它促进对信息的开放访问并使AI 技术的访问民主化。支持者认为,互联网是建立在自由共享信息的理念之上的,这一原则应该扩展到人工智能的训练数据。

他们还可能争辩说,要求为数据付费会将AI技术的使用权限制在能够负担得起的人手中,从而在富人和穷人之间造成数字鸿沟。此外,该论点的一些支持者可能会声称,人工智能技术的好处,例如改善医疗保健、教育和社会服务,应该提供给每个人,无论他们的支付能力如何。

此外,有些人可能会争辩说,收集数据的网站和其他组织已经通过使用收集的数据来改进自己的服务或产品,从而从中受益。从这个角度来看,对用户通过与网站或平台的交互已经生成的数据的访问收费可能被视为不公平。

然而,重要的是要注意,即使数据是免费提供的,它也可能并不总是高质量、完整或公正的。如果无法访问高质量的训练数据,人工智能系统可能无法正常运行,这可能会限制它们的实用性和有效性。此外,重要的是要确保用于训练AI 的任何数据都是以合乎道德和合法的方式获得的,并采取适当的保护措施来保护用户隐私并防止意外后果或伤害。

在“速食”成为主流的视听传播时代,社会每天都在产生大量信息。而应该探讨的深度,却永不止于话题或事件本身。我们一起,从社会发展中洞察有价值、有趣、有争论点的生活方式及现象。

狂呼社会研究所聚焦社会变革下不同的声音,向外延申社会背景、文化背景的思考深度,以多角度剖析、独特的社会视角,引领大众感知社会的“人间百态”。

狂呼,为每一个社会现象或事件的背后,提供具有探讨价值的观点,始于洞察、终于启发。

联系我们// 相关文章

免責聲明:本網站提供的信息僅供一般信息分享目的,並不應被視為投資建議。

返回博客
  • PDD拼多多2026年第一季財報,不及市場預期

    PDD拼多多2026年第一季财报,不及市场预期

    因国内主站营收增长不及预期,营销支出也并未明显下滑,因此实际利润表现并不及预期。分板块来看背后原因,我们认为一方面是 Temu 本季减亏的幅度大概率并没有预期的那么多,另外国内主站的经营利润增长应当也相当有限。

    PDD拼多多2026年第一季财报,不及市场预期

    因国内主站营收增长不及预期,营销支出也并未明显下滑,因此实际利润表现并不及预期。分板块来看背后原因,我们认为一方面是 Temu 本季减亏的幅度大概率并没有预期的那么多,另外国内主站的经营利润增长应当也相当有限。

  • 小米2026年第一季度財報,主要受手機和汽車毛利率同比回落影響

    小米2026年第一季度财报,主要受手机和汽车毛利率同比回落影响

    小米本季度汽车业务毛利率下滑至 20.1%,接近市场预期(20.5%),主要是受均价下滑的影响,其中包含了小米对购置税进行补贴的影响,并在本季度销售了一部分的低价现车。由于毛利率再次回落,海豚君测算本季度小米汽车业务核心经营利润再度陷入亏损 31 亿元。

    小米2026年第一季度财报,主要受手机和汽车毛利率同比回落影响

    小米本季度汽车业务毛利率下滑至 20.1%,接近市场预期(20.5%),主要是受均价下滑的影响,其中包含了小米对购置税进行补贴的影响,并在本季度销售了一部分的低价现车。由于毛利率再次回落,海豚君测算本季度小米汽车业务核心经营利润再度陷入亏损 31 亿元。

  • NVDA英偉達2027財年第一季度財報,收入752億美元,環比增量為129億美元

    英伟达2027财年第一季度财报,收入752亿美元,环比增量为129亿美元

    NVDA核心经营指标:总收入816亿美元,好于上调后的买方预期(780-800亿美元),其中季度环比增长135亿美元,几乎都来自于数据中心业务中Blackwell量产增加的带动。

    英伟达2027财年第一季度财报,收入752亿美元,环比增量为129亿美元

    NVDA核心经营指标:总收入816亿美元,好于上调后的买方预期(780-800亿美元),其中季度环比增长135亿美元,几乎都来自于数据中心业务中Blackwell量产增加的带动。

  • BYD比亞迪2025年第四季度業績仍然不及預期,賣車單價仍處於下行軌道

    比亚迪2025年第四季度业绩仍然不及预期,卖车单价仍处于下行轨道

    比亚迪的业绩仍然不及预期。收入虽超预期,但主要由于非核心的比亚迪电子业务高增带来,而在核心的卖车业务上,卖车单价仍处于下行轨道,卖车成本降幅不够,最后卖车毛利率虽有回暖,但仍低于市场预期。

    比亚迪2025年第四季度业绩仍然不及预期,卖车单价仍处于下行轨道

    比亚迪的业绩仍然不及预期。收入虽超预期,但主要由于非核心的比亚迪电子业务高增带来,而在核心的卖车业务上,卖车单价仍处于下行轨道,卖车成本降幅不够,最后卖车毛利率虽有回暖,但仍低于市场预期。

  • GOOG谷歌TurboQuant新聞導緻MU美光科技等內存股股價暴跌,但這合理嗎?

    GOOG谷歌TurboQuant新闻导致MU美光科技等内存股股价暴跌,但这合理吗?

    消息一出,华尔街一度陷入恐慌:如果 AI 突然间不再需要那么多 RAM 就能运作,这是否意味着内存产业的“超级周期”即将结束?答案是否定的。事实上,从历史规律与经济学角度来看,情况正好相反。要理解这一点,我们只需要观察你电脑上的网页浏览器。

    GOOG谷歌TurboQuant新闻导致MU美光科技等内存股股价暴跌,但这合理吗?

    消息一出,华尔街一度陷入恐慌:如果 AI 突然间不再需要那么多 RAM 就能运作,这是否意味着内存产业的“超级周期”即将结束?答案是否定的。事实上,从历史规律与经济学角度来看,情况正好相反。要理解这一点,我们只需要观察你电脑上的网页浏览器。

  • BABA財報AI投入比較激進

    BABA财报AI投入比较激进

    BABA发布第四季财报后股价下跌,财报显示其营收和利润均大幅低于预期。这家電商巨头的季度净利暴跌67%,而总营收仅增长1.7%约413亿美元。这些表现引发了人们对阿里巴巴在AI人工智能领域巨额投资(总额超过530亿美元)有效性的担忧。

    BABA财报AI投入比较激进

    BABA发布第四季财报后股价下跌,财报显示其营收和利润均大幅低于预期。这家電商巨头的季度净利暴跌67%,而总营收仅增长1.7%约413亿美元。这些表现引发了人们对阿里巴巴在AI人工智能领域巨额投资(总额超过530亿美元)有效性的担忧。

  • MU美光業績,季度毛利率達到 74.4%!

    MU美光业绩,季度毛利率达到 74.4%!

    MU 整体业绩:美光本季度营收 238.6 亿美元,环比增长 75%,好于上调后的买方预期(199 亿美元),本季度收入增长主要来自于 DRAM 和 NAND 业务的双重带动,两大业务环增都在 70% 以上。

    MU美光业绩,季度毛利率达到 74.4%!

    MU 整体业绩:美光本季度营收 238.6 亿美元,环比增长 75%,好于上调后的买方预期(199 亿美元),本季度收入增长主要来自于 DRAM 和 NAND 业务的双重带动,两大业务环增都在 70% 以上。

  • Tencent騰訊業績整體看無驚無喜?

    腾讯业绩整体看无惊无喜?

    腾讯一口气连发多个“龙虾”产品,能够看出公司在元宝春节大战中失利后的焦虑,虽然仓促推出产品还不完善。不过这个紧迫感的转变很关键也很必要。就目前来看,微信入口似乎在 AI 原生应用盛行的当下仍然有无法撼动的地位。

    腾讯业绩整体看无惊无喜?

    腾讯一口气连发多个“龙虾”产品,能够看出公司在元宝春节大战中失利后的焦虑,虽然仓促推出产品还不完善。不过这个紧迫感的转变很关键也很必要。就目前来看,微信入口似乎在 AI 原生应用盛行的当下仍然有无法撼动的地位。

1 / 8
  • Sharpa機器人削蘋果

    Sharpa机器人削苹果

    对人类来说,削苹果是件轻而易举的晨间小事,但对机器人而言,这是双手协调能力的「终极挑战」。 Sharpa机器人正在为能够像人类一样灵巧地完成复杂家务和工业装配的机器人铺平道路。

    Sharpa机器人削苹果

    对人类来说,削苹果是件轻而易举的晨间小事,但对机器人而言,这是双手协调能力的「终极挑战」。 Sharpa机器人正在为能够像人类一样灵巧地完成复杂家务和工业装配的机器人铺平道路。

  • 腫瘤療法突破,中國團隊給癌細胞打上“豬”標簽,癌細胞“偽裝朮”被破解

    肿瘤疗法突破,中国团队给癌细胞打上“猪”标签,癌细胞“伪装术”被破解

    近期,中国科学家在“Cell”杂志上发表的一项突破性研究,为这一顽疾提供了全新思路。他们利用基因编辑技术,将癌细胞改造成免疫系统眼中的“异类”,类似于人体对猪器官产生的超急性排斥反应,从而引发了一场针对癌细胞的精准“免疫歼灭战”。

    肿瘤疗法突破,中国团队给癌细胞打上“猪”标签,癌细胞“伪装术”被破解

    近期,中国科学家在“Cell”杂志上发表的一项突破性研究,为这一顽疾提供了全新思路。他们利用基因编辑技术,将癌细胞改造成免疫系统眼中的“异类”,类似于人体对猪器官产生的超急性排斥反应,从而引发了一场针对癌细胞的精准“免疫歼灭战”。

  • 新型大腦設備首次讀出內心聲音,腦機接口技朮打破失語者困境

    新型大脑设备首次读出内心声音,脑机接口技术打破失语者困境

    新系统的核心原理与常见的“尝试说话”型脑机介面相似,都是在大脑运动皮质植入感测器,这一区域负责向声道肌肉下达运动指令。感测器捕捉到的神经活动会送入机器学习模型,模型依据个人化数据判断信号对应的声音,进而预测使用者想说的单字。

    新型大脑设备首次读出内心声音,脑机接口技术打破失语者困境

    新系统的核心原理与常见的“尝试说话”型脑机介面相似,都是在大脑运动皮质植入感测器,这一区域负责向声道肌肉下达运动指令。感测器捕捉到的神经活动会送入机器学习模型,模型依据个人化数据判断信号对应的声音,进而预测使用者想说的单字。

  • “垃圾DNA”新發現:遠古病毒DNA在人類發育中發揮關鍵作用

    “垃圾DNA”新发现:远古病毒DNA在人类发育中发挥关键作用

    自这类非编码DNA片段首次被发现并被称作“垃圾”以来,生物学家们一直在探讨它们是否真的无用。如今的主流观点认为,这些片段虽不直接参与蛋白质合成,却在整体基因组中占据了极大比例,显示它们可能具有重要功能。

    “垃圾DNA”新发现:远古病毒DNA在人类发育中发挥关键作用

    自这类非编码DNA片段首次被发现并被称作“垃圾”以来,生物学家们一直在探讨它们是否真的无用。如今的主流观点认为,这些片段虽不直接参与蛋白质合成,却在整体基因组中占据了极大比例,显示它们可能具有重要功能。

1 / 4
1 / 4
  • 從中國經濟看背後困境及發展新構想?

    从中国经济看背后困境及发展新构想?

    中国未来发展或许可以参考“五环构想”进行战略布局。这一构想包括高等教育培训、创新科技驱动、产品生产销售、市场推广营销、出海战略布局五大领域。通过“五环构想”的实施,中国经济可能有一个全新的契机注入新的动力,推动经济稳定健康发展。

    从中国经济看背后困境及发展新构想?

    中国未来发展或许可以参考“五环构想”进行战略布局。这一构想包括高等教育培训、创新科技驱动、产品生产销售、市场推广营销、出海战略布局五大领域。通过“五环构想”的实施,中国经济可能有一个全新的契机注入新的动力,推动经济稳定健康发展。

  • 在變革中的抉擇:當今大環境下如何實現職業規劃與人生價值?

    在变革中的抉择:当今大环境下如何实现职业规划与人生价值?

    随着时代的变迁,人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同,有些人追求的是即时的快乐和成就感,而有些人则看重长期的进步和自我超越。

    在变革中的抉择:当今大环境下如何实现职业规划与人生价值?

    随着时代的变迁,人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同,有些人追求的是即时的快乐和成就感,而有些人则看重长期的进步和自我超越。

  • 再見愛人:探索現代婚姻中的情感困境

    再见爱人:探索现代婚姻中的情感困境

    芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子,麦琳、李行亮,葛夕、刘爽三对情感关系10年以上的夫妻,以“婚姻纪实观察”为切口,呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。

    再见爱人:探索现代婚姻中的情感困境

    芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子,麦琳、李行亮,葛夕、刘爽三对情感关系10年以上的夫妻,以“婚姻纪实观察”为切口,呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。

  • 抖音短劇新風潮:中老年人成為新的增長點?

    抖音短剧新风潮:中老年人成为新的增长点?

    近日,不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十,闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事,成了当下短剧创作的“新流量密码”。

    抖音短剧新风潮:中老年人成为新的增长点?

    近日,不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十,闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事,成了当下短剧创作的“新流量密码”。

1 / 4