MIT推出新工具篩選高質量訓練數據集,以規避“垃圾”數據

MIT推出新工具筛选高质量训练数据集,以规避“垃圾”数据

發布日期:

科技 Tech


要点:
近日,麻省理工学院/MIT的一个跨学科研究团队开发了一款名为“数据来源探索器”的工具,旨在帮助研究人员和从业者规避“垃圾”数据,选择合适的训练数据集。

科技正以前所未有的速度和规模发展,引发多个领域的变革,塑造了新的商业模式,甚至重塑了全新社会结构。我们一起,从科技创新中洞察社会转型和升级的机遇。

狂呼科技研究所聚焦科技创新对当今世界的影响,以独特、前瞻的科技视角,洞察科技时代下涌现的“创新革命”。

狂呼,以最具突破性的技术塑造我们的未来,为大众捕捉科技商业先机,探索当今人类社会面临的重大挑战。

联系我们// 相关文章

随着人工智能AI技术的快速发展,大型语言模型/LLM在各个领域的应用日益广泛。为了训练更强大的大型语言模型,研究人员通常会利用来自数千个网络来源的海量数据集。然而,随着这些数据集在组合和重新组合的过程中,关于其来源的重要信息以及使用限制往往被遗忘或混淆。这不仅可能引发法律和伦理问题,还可能对模型的性能产生负面影响。

具体而言,如果一个数据集被错误分类,训练机器学习模型的人员可能会在不知情的情况下使用不适合该任务的数据。此外,来源不明的数据可能含有偏见,导致模型在实际应用中产生不公平的预测。

为了提高数据透明度,近日,麻省理工学院/MIT及其他机构的跨学科研究团队对1800多个常见数据集进行了系统审计,发现超过70%的数据集缺少必要的许可信息,约50%的数据集存在错误信息。基于这些发现,研究团队开发了一款名为“数据来源探索器”的用户友好工具,该工具能够自动生成有关数据集创建者、来源、许可和使用方式的易于阅读的总结。目前,这一工具的推出旨在增强数据使用的透明度,并帮助研究人员更好地理解和管理数据集的来源及其限制。

麻省理工学院/MIT媒体实验室人类动力学小组负责人及该项目研究报告的合著者Alex Pentland教授指出,“这些工具可以协助监管者和从业者在部署人工智能AI时做出明智的决策,促进AI技术的负责任发展。”他进一步解释道,“数据来源探索器”能够帮助AI从业者选择更适合模型目标的数据集,从而构建出更为有效的模型。长期来看,这将提升AI模型在实际应用中的准确性,例如在贷款申请评估或客户查询响应等场景中。

MIT人类动力学小组的研究生及该论文的共同第一作者Robert Mahari则强调,“了解AI模型的能力和局限性,最有效的方式之一是理解其训练所用的数据。当数据来源不明或混淆时,透明性就成为一个严重的问题。”他认为,数据的清晰来源对于确保AI系统的可靠性和公平性至关重要。

此外,Mahari和Pentland的共同作者还包括媒体实验室研究生Shayne Longpre,Cohere for AI研究实验室负责人Sara Hooker,以及来自MIT、加州大学欧文分校、法国里尔大学、科罗拉多大学博尔德分校、奥林学院、卡内基梅隆大学、Contextual AI、ML Commons和Tidelift等机构的其他研究人员。 目前,这项研究已经发表在“Nature Machine Intelligence”杂志上。

注重微调<br data-mce-fragment="1">研究人员通常使用一种称为“微调”的技术来提升大型语言模型在特定任务上的表现,如问答系统。这种技术依赖于精心构建的细化数据集,以增强模型在特定任务上的效果。麻省理工学院/MIT的研究团队特别关注这些微调数据集,这些数据集一般由研究人员、学术机构或公司开发,并附有特定的使用许可。

然而,当众包平台将这些数据集整合进更大的集合中供从业者微调使用时,原始的许可信息往往会被忽略或遗失。 MIT的研究员Robert Mahari指出,“这些许可条款应该被严格遵守,并且需要具备可执行性。”如果数据集的许可条款有误或缺失,开发者可能会花费大量资源构建模型,却因某些训练数据包含私人信息而不得不撤下模型,这样的情况给开发者带来不必要的麻烦。

另外,Shayne Longpre强调,“人们可能最终会训练出一些模型,但对这些模型的能力、潜在问题或风险了解甚少,而这些问题通常源自于数据。”为了解决这些问题,研究团队在研究初期正式定义了数据来源,包括数据集的来源、创建和许可历史,以及其特征。基于这些定义,他们开发了一种结构化的审计程序,对来自热门在线存储库的1800多个文本数据集进行了详细审查。

结果显示,超过70%的数据集缺乏明确的许可信息<br data-mce-fragment="1">通过反向追溯的方式,研究人员成功地将这些“未指明”许可的数据集比例降低至约30%。此外,研究还发现,准确的许可条款往往比存储库提供的许可条款更为严格。同时,几乎所有的数据集创作者都集中在全球北部,这可能会限制模型在其他地区的应用能力。例如,由美国和中国研究人员创建的土耳其语数据集可能缺乏文化上重要的内容。 Mahari表示,“我们往往自欺欺人地认为这些数据集比实际情况更加多样化。”有趣的是,研究还发现,2023年和2024年创建的数据集的限制显著增加,这可能反映了学术界对数据集可能被用于未经授权的商业用途的担忧。

用户友好型工具<br data-mce-fragment="1">为了让用户无需进行手动审计就能轻松获取数据来源信息,研究团队开发了“数据来源探索器”工具。这个工具不仅能够根据特定标准对数据集进行排序和筛选,还允许用户下载一个数据来源卡,提供数据集特征的简洁且结构化的概述。

研究人员希望,这一进展不仅能帮助人们了解当前的数据来源状况,还能在未来做出更明智的训练数据选择。

展望未来,研究团队计划将分析扩展到多模态数据,例如视频和语音,并探索数据来源网站的服务条款如何在数据集中体现。随着研究范围的扩大,他们还积极与监管者接触,讨论其发现以及微调数据所引发的独特版权问题。

Shayne Longpre对此表示,“从一开始就关注数据的来源和透明性对于数据集的创建和发布至关重要,这样才能让其他人更容易获得这些宝贵的见解。”

EleutherAI 的执行董事Stella Biderman也指出,“许多政策干预假设我们能够正确分配和识别数据的许可情况,但这项工作首度表明情况并非如此,并显著提升了数据来源信息的可用性。此外,工具的第三部分还包括相关的法律讨论,这对那些没有专门法律团队的机器学习从业者尤为重要。许多致力于构建公共利益AI系统的人目前正面临着数据许可问题的困境,因为互联网的设计使得数据来源的追溯变得极为复杂。”

未来,研究人员计划将他们的分析扩展到多模态数据,如视频和语音,并研究数据来源网站的服务条款如何在数据集中得到反映。他们还在与监管者接触,讨论其发现以及微调数据所带来的独特版权问题。

这项研究对于希望在公共利益领域构建AI系统的从业者来说,这一工具和研究成果提供了宝贵的帮助,有助于解决数据许可问题,推动AI技术的健康发展。

MIT推出的“数据来源探索器”工具为数据科学家和机器学习工程师提供了一种有效的方法,以确保他们使用的数据集符合高标准和明确的许可要求。通过自动化的数据审计,这一工具不仅提升了数据透明度,还帮助用户在选择和使用数据时做出更加明智的决策。在数据驱动的世界里,准确性和可靠性是构建强大AI模型的基石。随着技术的不断进步和数据需求的不断增长,MIT的这一创新将为数据科学领域带来长远的积极影响,推动整个行业向更加负责任和高效的方向发展。

科技正以前所未有的速度和规模发展,引发多个领域的变革,塑造了新的商业模式,甚至重塑了全新社会结构。我们一起,从科技创新中洞察社会转型和升级的机遇。

狂呼科技研究所聚焦科技创新对当今世界的影响,以独特、前瞻的科技视角,洞察科技时代下涌现的“创新革命”。

狂呼,以最具突破性的技术塑造我们的未来,为大众捕捉科技商业先机,探索当今人类社会面临的重大挑战。

联系我们// 相关文章

免責聲明:本網站提供的信息僅供一般信息分享目的,並不應被視為投資建議。

返回博客
  • Google算力核心技術TPU推動了AI市場替代GPU?

    Google算力核心技术TPU推动了AI市场替代GPU?

    如果不是在行业内,这可能大家的第一个疑问。在市场大多数记忆还停留在TPU 通用性不够,Google 主要用来内用而非对外商用上时,会非常讶异为何到了TPU v7 这一版本,突然开讲TPU 对的&nbsp;GPU&nbsp;替代逻辑。

    Google算力核心技术TPU推动了AI市场替代GPU?

    如果不是在行业内,这可能大家的第一个疑问。在市场大多数记忆还停留在TPU 通用性不够,Google 主要用来内用而非对外商用上时,会非常讶异为何到了TPU v7 这一版本,突然开讲TPU 对的&nbsp;GPU&nbsp;替代逻辑。

  • CoreWeave基礎AI雲服務的生意模式

    CoreWeave基础AI云服务的生意模式

    CoreWeave客户结构高度集中,目前基本只由AI 模型独角兽,和有能力独自研发/优化AI 模型的大型科技公司构成。在2024 财年CoreWeave 约$19 亿的总营收中,接近80% 的收入只来自两家客户公司-- 微软和英伟达,其中微软一家就占了当年总收入的62%。

    CoreWeave基础AI云服务的生意模式

    CoreWeave客户结构高度集中,目前基本只由AI 模型独角兽,和有能力独自研发/优化AI 模型的大型科技公司构成。在2024 财年CoreWeave 约$19 亿的总营收中,接近80% 的收入只来自两家客户公司-- 微软和英伟达,其中微软一家就占了当年总收入的62%。

  • LULU三季度業績超出公司此前指引

    LULU三季度业绩超出公司此前指引

    Lululemon 的大本营市场北美地区仍然疲软,同比下降1.5%,平均订单金额、转化率及门店客流量仍处于下滑状态。亮眼的是中国地区同比高增43%,增速创近一年以来新高,二季度Lululemon Align 十周年庆典增加了和消费者的互动,带动公司整体的品牌提升。

    LULU三季度业绩超出公司此前指引

    Lululemon 的大本营市场北美地区仍然疲软,同比下降1.5%,平均订单金额、转化率及门店客流量仍处于下滑状态。亮眼的是中国地区同比高增43%,增速创近一年以来新高,二季度Lululemon Align 十周年庆典增加了和消费者的互动,带动公司整体的品牌提升。

  • NVDA財報超市場預期,總收入570億美元!

    NVDA财报超市场预期,总收入570亿美元!

    随着英伟达数据中心的持续增长,当前已经成为公司收入中最大的一项,占比已经接近9 成。作为公司此前主要收入来源的游戏业务,占比已经被压缩至1 成左右。其主要产品包括Blackwell、Hopper 等算力芯片,公司的核心客户是亚马逊、微软、谷歌等云服务大厂。

    NVDA财报超市场预期,总收入570亿美元!

    随着英伟达数据中心的持续增长,当前已经成为公司收入中最大的一项,占比已经接近9 成。作为公司此前主要收入来源的游戏业务,占比已经被压缩至1 成左右。其主要产品包括Blackwell、Hopper 等算力芯片,公司的核心客户是亚马逊、微软、谷歌等云服务大厂。

  • QCOM高通財報,業績相對平淡

    QCOM高通财报,业绩相对平淡

    高通公司本季度业绩相对平淡,收入端的超预期主要来自于旗舰新品的提前发布。至于本季度利润端的回落,主要是受公司计入57 亿美元的递延税资产准备金影响。若剔除该影响,公司本季度的净利润约为26 亿美元。

    QCOM高通财报,业绩相对平淡

    高通公司本季度业绩相对平淡,收入端的超预期主要来自于旗舰新品的提前发布。至于本季度利润端的回落,主要是受公司计入57 亿美元的递延税资产准备金影响。若剔除该影响,公司本季度的净利润约为26 亿美元。

  • AMD財報,市場對數據中心AI Capex依然火熱

    AMD财报,市场对数据中心AI Capex依然火热

    AMD 在2025 年第三季度实现营收92.5 亿美元,同比增长35.6%,市场预期(87.4 亿美元)。收入端的同比增长,主要来自于客户端及游戏业务、数据中心业务的带动。公司本季度毛利率(GAAP)51.7%,同比提升1.6pct。

    AMD财报,市场对数据中心AI Capex依然火热

    AMD 在2025 年第三季度实现营收92.5 亿美元,同比增长35.6%,市场预期(87.4 亿美元)。收入端的同比增长,主要来自于客户端及游戏业务、数据中心业务的带动。公司本季度毛利率(GAAP)51.7%,同比提升1.6pct。

  • AMZN亞馬遜AWS本季營收同比增長20.2%到$309億!

    AMZN亚马逊AWS本季营收同比增长20.2%到$309亿!

    久等的AWS 提速终于到来:目前云业务的增速几乎成为了压倒一切、“决定生死” 的单一指标。而AWS 本季营收同比增长20.2% 到$309 亿,相比上季增速明显提升2.7pct。市场久久期待的AWS 增长再提速终于到来。

    AMZN亚马逊AWS本季营收同比增长20.2%到$309亿!

    久等的AWS 提速终于到来:目前云业务的增速几乎成为了压倒一切、“决定生死” 的单一指标。而AWS 本季营收同比增长20.2% 到$309 亿,相比上季增速明显提升2.7pct。市场久久期待的AWS 增长再提速终于到来。

  • AAPL蘋果2025財年第四季度營收1025億美元,同比增長7.9%!

    AAPL苹果2025财年第四季度营收1025亿美元,同比增长7.9%!

    本季度苹果公司实现营收1025 亿美元,同比增长7.9%,基本符合市场预期(1020 亿美元)。公司本季度收入端的提升,主要受益于iPhone、Mac 和软件服务业务增长的带动。苹果公司毛利率&nbsp;47.2%,同比增加1pct,好于市场一致预期(46.6%)。

    AAPL苹果2025财年第四季度营收1025亿美元,同比增长7.9%!

    本季度苹果公司实现营收1025 亿美元,同比增长7.9%,基本符合市场预期(1020 亿美元)。公司本季度收入端的提升,主要受益于iPhone、Mac 和软件服务业务增长的带动。苹果公司毛利率&nbsp;47.2%,同比增加1pct,好于市场一致预期(46.6%)。

1 / 8
1 / 4
1 / 4
  • 從中國經濟看背後困境及發展新構想?

    从中国经济看背后困境及发展新构想?

    中国未来发展或许可以参考“五环构想”进行战略布局。这一构想包括高等教育培训、创新科技驱动、产品生产销售、市场推广营销、出海战略布局五大领域。通过“五环构想”的实施,中国经济可能有一个全新的契机注入新的动力,推动经济稳定健康发展。

    从中国经济看背后困境及发展新构想?

    中国未来发展或许可以参考“五环构想”进行战略布局。这一构想包括高等教育培训、创新科技驱动、产品生产销售、市场推广营销、出海战略布局五大领域。通过“五环构想”的实施,中国经济可能有一个全新的契机注入新的动力,推动经济稳定健康发展。

  • 在變革中的抉擇:當今大環境下如何實現職業規劃與人生價值?

    在变革中的抉择:当今大环境下如何实现职业规划与人生价值?

    随着时代的变迁,人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同,有些人追求的是即时的快乐和成就感,而有些人则看重长期的进步和自我超越。

    在变革中的抉择:当今大环境下如何实现职业规划与人生价值?

    随着时代的变迁,人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同,有些人追求的是即时的快乐和成就感,而有些人则看重长期的进步和自我超越。

  • 再見愛人:探索現代婚姻中的情感困境

    再见爱人:探索现代婚姻中的情感困境

    芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子,麦琳、李行亮,葛夕、刘爽三对情感关系10年以上的夫妻,以“婚姻纪实观察”为切口,呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。

    再见爱人:探索现代婚姻中的情感困境

    芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子,麦琳、李行亮,葛夕、刘爽三对情感关系10年以上的夫妻,以“婚姻纪实观察”为切口,呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。

  • 抖音短劇新風潮:中老年人成為新的增長點?

    抖音短剧新风潮:中老年人成为新的增长点?

    近日,不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十,闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事,成了当下短剧创作的“新流量密码”。

    抖音短剧新风潮:中老年人成为新的增长点?

    近日,不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十,闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事,成了当下短剧创作的“新流量密码”。

1 / 4