MIT推出新工具篩選高質量訓練數據集,以規避“垃圾”數據

MIT推出新工具筛选高质量训练数据集,以规避“垃圾”数据

發布日期:

科技 Tech


要点:
近日,麻省理工学院/MIT的一个跨学科研究团队开发了一款名为“数据来源探索器”的工具,旨在帮助研究人员和从业者规避“垃圾”数据,选择合适的训练数据集。

科技正以前所未有的速度和规模发展,引发多个领域的变革,塑造了新的商业模式,甚至重塑了全新社会结构。我们一起,从科技创新中洞察社会转型和升级的机遇。

狂呼科技研究所聚焦科技创新对当今世界的影响,以独特、前瞻的科技视角,洞察科技时代下涌现的“创新革命”。

狂呼,以最具突破性的技术塑造我们的未来,为大众捕捉科技商业先机,探索当今人类社会面临的重大挑战。

联系我们// 相关文章

随着人工智能AI技术的快速发展,大型语言模型/LLM在各个领域的应用日益广泛。为了训练更强大的大型语言模型,研究人员通常会利用来自数千个网络来源的海量数据集。然而,随着这些数据集在组合和重新组合的过程中,关于其来源的重要信息以及使用限制往往被遗忘或混淆。这不仅可能引发法律和伦理问题,还可能对模型的性能产生负面影响。

具体而言,如果一个数据集被错误分类,训练机器学习模型的人员可能会在不知情的情况下使用不适合该任务的数据。此外,来源不明的数据可能含有偏见,导致模型在实际应用中产生不公平的预测。

为了提高数据透明度,近日,麻省理工学院/MIT及其他机构的跨学科研究团队对1800多个常见数据集进行了系统审计,发现超过70%的数据集缺少必要的许可信息,约50%的数据集存在错误信息。基于这些发现,研究团队开发了一款名为“数据来源探索器”的用户友好工具,该工具能够自动生成有关数据集创建者、来源、许可和使用方式的易于阅读的总结。目前,这一工具的推出旨在增强数据使用的透明度,并帮助研究人员更好地理解和管理数据集的来源及其限制。

麻省理工学院/MIT媒体实验室人类动力学小组负责人及该项目研究报告的合著者Alex Pentland教授指出,“这些工具可以协助监管者和从业者在部署人工智能AI时做出明智的决策,促进AI技术的负责任发展。”他进一步解释道,“数据来源探索器”能够帮助AI从业者选择更适合模型目标的数据集,从而构建出更为有效的模型。长期来看,这将提升AI模型在实际应用中的准确性,例如在贷款申请评估或客户查询响应等场景中。

MIT人类动力学小组的研究生及该论文的共同第一作者Robert Mahari则强调,“了解AI模型的能力和局限性,最有效的方式之一是理解其训练所用的数据。当数据来源不明或混淆时,透明性就成为一个严重的问题。”他认为,数据的清晰来源对于确保AI系统的可靠性和公平性至关重要。

此外,Mahari和Pentland的共同作者还包括媒体实验室研究生Shayne Longpre,Cohere for AI研究实验室负责人Sara Hooker,以及来自MIT、加州大学欧文分校、法国里尔大学、科罗拉多大学博尔德分校、奥林学院、卡内基梅隆大学、Contextual AI、ML Commons和Tidelift等机构的其他研究人员。 目前,这项研究已经发表在“Nature Machine Intelligence”杂志上。

注重微调<br data-mce-fragment="1">研究人员通常使用一种称为“微调”的技术来提升大型语言模型在特定任务上的表现,如问答系统。这种技术依赖于精心构建的细化数据集,以增强模型在特定任务上的效果。麻省理工学院/MIT的研究团队特别关注这些微调数据集,这些数据集一般由研究人员、学术机构或公司开发,并附有特定的使用许可。

然而,当众包平台将这些数据集整合进更大的集合中供从业者微调使用时,原始的许可信息往往会被忽略或遗失。 MIT的研究员Robert Mahari指出,“这些许可条款应该被严格遵守,并且需要具备可执行性。”如果数据集的许可条款有误或缺失,开发者可能会花费大量资源构建模型,却因某些训练数据包含私人信息而不得不撤下模型,这样的情况给开发者带来不必要的麻烦。

另外,Shayne Longpre强调,“人们可能最终会训练出一些模型,但对这些模型的能力、潜在问题或风险了解甚少,而这些问题通常源自于数据。”为了解决这些问题,研究团队在研究初期正式定义了数据来源,包括数据集的来源、创建和许可历史,以及其特征。基于这些定义,他们开发了一种结构化的审计程序,对来自热门在线存储库的1800多个文本数据集进行了详细审查。

结果显示,超过70%的数据集缺乏明确的许可信息<br data-mce-fragment="1">通过反向追溯的方式,研究人员成功地将这些“未指明”许可的数据集比例降低至约30%。此外,研究还发现,准确的许可条款往往比存储库提供的许可条款更为严格。同时,几乎所有的数据集创作者都集中在全球北部,这可能会限制模型在其他地区的应用能力。例如,由美国和中国研究人员创建的土耳其语数据集可能缺乏文化上重要的内容。 Mahari表示,“我们往往自欺欺人地认为这些数据集比实际情况更加多样化。”有趣的是,研究还发现,2023年和2024年创建的数据集的限制显著增加,这可能反映了学术界对数据集可能被用于未经授权的商业用途的担忧。

用户友好型工具<br data-mce-fragment="1">为了让用户无需进行手动审计就能轻松获取数据来源信息,研究团队开发了“数据来源探索器”工具。这个工具不仅能够根据特定标准对数据集进行排序和筛选,还允许用户下载一个数据来源卡,提供数据集特征的简洁且结构化的概述。

研究人员希望,这一进展不仅能帮助人们了解当前的数据来源状况,还能在未来做出更明智的训练数据选择。

展望未来,研究团队计划将分析扩展到多模态数据,例如视频和语音,并探索数据来源网站的服务条款如何在数据集中体现。随着研究范围的扩大,他们还积极与监管者接触,讨论其发现以及微调数据所引发的独特版权问题。

Shayne Longpre对此表示,“从一开始就关注数据的来源和透明性对于数据集的创建和发布至关重要,这样才能让其他人更容易获得这些宝贵的见解。”

EleutherAI 的执行董事Stella Biderman也指出,“许多政策干预假设我们能够正确分配和识别数据的许可情况,但这项工作首度表明情况并非如此,并显著提升了数据来源信息的可用性。此外,工具的第三部分还包括相关的法律讨论,这对那些没有专门法律团队的机器学习从业者尤为重要。许多致力于构建公共利益AI系统的人目前正面临着数据许可问题的困境,因为互联网的设计使得数据来源的追溯变得极为复杂。”

未来,研究人员计划将他们的分析扩展到多模态数据,如视频和语音,并研究数据来源网站的服务条款如何在数据集中得到反映。他们还在与监管者接触,讨论其发现以及微调数据所带来的独特版权问题。

这项研究对于希望在公共利益领域构建AI系统的从业者来说,这一工具和研究成果提供了宝贵的帮助,有助于解决数据许可问题,推动AI技术的健康发展。

MIT推出的“数据来源探索器”工具为数据科学家和机器学习工程师提供了一种有效的方法,以确保他们使用的数据集符合高标准和明确的许可要求。通过自动化的数据审计,这一工具不仅提升了数据透明度,还帮助用户在选择和使用数据时做出更加明智的决策。在数据驱动的世界里,准确性和可靠性是构建强大AI模型的基石。随着技术的不断进步和数据需求的不断增长,MIT的这一创新将为数据科学领域带来长远的积极影响,推动整个行业向更加负责任和高效的方向发展。

科技正以前所未有的速度和规模发展,引发多个领域的变革,塑造了新的商业模式,甚至重塑了全新社会结构。我们一起,从科技创新中洞察社会转型和升级的机遇。

狂呼科技研究所聚焦科技创新对当今世界的影响,以独特、前瞻的科技视角,洞察科技时代下涌现的“创新革命”。

狂呼,以最具突破性的技术塑造我们的未来,为大众捕捉科技商业先机,探索当今人类社会面临的重大挑战。

联系我们// 相关文章

免責聲明:本網站提供的信息僅供一般信息分享目的,並不應被視為投資建議。

返回博客
  • BILI嗶哩嗶哩2025年二季度財報,整體收入基本符合指引

    BILI哔哩哔哩2025年二季度财报,整体收入基本符合指引

    BILI利润超预期,这次亮点仍然是盈利端,明显超市场预期,但主要是营销费用较低带来。二季度虽然没新游本身营销费用理应不多,但《三谋》有周年庆活动,年初几次赛季更新变动也不小,因此也并非完全不需要额外的营销。

    BILI哔哩哔哩2025年二季度财报,整体收入基本符合指引

    BILI利润超预期,这次亮点仍然是盈利端,明显超市场预期,但主要是营销费用较低带来。二季度虽然没新游本身营销费用理应不多,但《三谋》有周年庆活动,年初几次赛季更新变动也不小,因此也并非完全不需要额外的营销。

  • BIDU百度二季度業績略超預期

    BIDU百度二季度业绩略超预期

    百度智慧云预期中高增长:云业务在当下是风口,高增长自然没得说。不过少了上季度的惊艳,二季度的27% 增长符合市场大部分预期,利好早已经打入估值。广告陷痛苦转型期:转型的阵痛开始变得醒目,目前搜索结果中AI 生成内容的渗透率已经提高至64%。

    BIDU百度二季度业绩略超预期

    百度智慧云预期中高增长:云业务在当下是风口,高增长自然没得说。不过少了上季度的惊艳,二季度的27% 增长符合市场大部分预期,利好早已经打入估值。广告陷痛苦转型期:转型的阵痛开始变得醒目,目前搜索结果中AI 生成内容的渗透率已经提高至64%。

  • LABUBU泡泡瑪特2025年H1業績,利潤均超過了去年全年水平

    LABUBU泡泡玛特2025年H1业绩,利润均超过了去年全年水平

    THE MONSTERS 系列目前作为泡泡玛特的第一大IP,经过近一年的“狂飙”,目前销售占比已经接近35%,这还是在公司主动控货的情况下。这意味着明年在高基数的情况下,如果消费者对LABUBU 产生审美疲劳,对泡泡玛特整体的业绩冲击会比较大。

    LABUBU泡泡玛特2025年H1业绩,利润均超过了去年全年水平

    THE MONSTERS 系列目前作为泡泡玛特的第一大IP,经过近一年的“狂飙”,目前销售占比已经接近35%,这还是在公司主动控货的情况下。这意味着明年在高基数的情况下,如果消费者对LABUBU 产生审美疲劳,对泡泡玛特整体的业绩冲击会比较大。

  • 小米2025年第二季度財報,汽車業務毛利率繼續提升!

    小米2025年第二季度财报,汽车业务毛利率继续提升!

    小米公司本季度汽车出货量8.1 万台,单车均价进一步提升至25.3 万元。主要是受Ultra 车型等高价车型出货,结构性带动均价提升。本季度汽车业务毛利率继续提升至26.4%,再超市场预期23.5%,主要是受均价提升和规模效应的带动。

    小米2025年第二季度财报,汽车业务毛利率继续提升!

    小米公司本季度汽车出货量8.1 万台,单车均价进一步提升至25.3 万元。主要是受Ultra 车型等高价车型出货,结构性带动均价提升。本季度汽车业务毛利率继续提升至26.4%,再超市场预期23.5%,主要是受均价提升和规模效应的带动。

  • 本周資本市場推測9月降息的聲音越來越響亮

    本周资本市场推测9月降息的声音越来越响亮

    降息之路并非一帆风顺。市场时而充满期待,时而又因联准会未如预期行动而感到失望。然而,专家们仍认为利率走势有望保持在相对低位。随着通膨持续疲弱、劳动市场压力逐步显现,风险平衡正加速倾向降息。

    本周资本市场推测9月降息的声音越来越响亮

    降息之路并非一帆风顺。市场时而充满期待,时而又因联准会未如预期行动而感到失望。然而,专家们仍认为利率走势有望保持在相对低位。随着通膨持续疲弱、劳动市场压力逐步显现,风险平衡正加速倾向降息。

  • 美國政府正考慮入股英特爾,新模式或重塑全球芯片產業格局?

    美国政府正考虑入股英特尔,新模式或重塑全球芯片产业格局?

    美国政府正在与芯片制造商英特尔/Intel进行谈判,希望入股这家陷入困境的公司。随后该公司股价周四上涨7% 。这一消息的传出,标志着美国政府将自己置于关键产业核心的决心,并符合特朗普总统长期以来呼吁在美国本土生产更多芯片和高科技产品的政策主张。

    美国政府正考虑入股英特尔,新模式或重塑全球芯片产业格局?

    美国政府正在与芯片制造商英特尔/Intel进行谈判,希望入股这家陷入困境的公司。随后该公司股价周四上涨7% 。这一消息的传出,标志着美国政府将自己置于关键产业核心的决心,并符合特朗普总统长期以来呼吁在美国本土生产更多芯片和高科技产品的政策主张。

  • 中加貿易戰升級:中國對加拿大油菜籽徵收75.8%關稅

    中加贸易战升级:中国对加拿大油菜籽征收75.8%关税

    中加两国持续一年的贸易争端再次升级。中国于本周二宣布,将对从加拿大进口的“油菜籽/Canola”加征高达75.8%的临时反倾销税,此举是对去年加拿大对中国电动汽车征收关税的最新反制。这项突如其来的关税政策,立即在加拿大油籽市场引发剧烈震荡。

    中加贸易战升级:中国对加拿大油菜籽征收75.8%关税

    中加两国持续一年的贸易争端再次升级。中国于本周二宣布,将对从加拿大进口的“油菜籽/Canola”加征高达75.8%的临时反倾销税,此举是对去年加拿大对中国电动汽车征收关税的最新反制。这项突如其来的关税政策,立即在加拿大油籽市场引发剧烈震荡。

  • 騰訊2025年二季度業績,股王依舊穩得讓人安心

    腾讯2025年二季度业绩,股王依旧稳得让人安心

    腾讯毛利率主要是因为游戏、广告等本身高利润率的业务占比提升,聚焦长青游戏IP 开发的战略,也使得近两年新游的变现效率高于以往。而费用上,增长主要体现在由AI 带来的的服务器带宽、设备折旧上,以及研发人员的成本,但整体看均相对可控。

    腾讯2025年二季度业绩,股王依旧稳得让人安心

    腾讯毛利率主要是因为游戏、广告等本身高利润率的业务占比提升,聚焦长青游戏IP 开发的战略,也使得近两年新游的变现效率高于以往。而费用上,增长主要体现在由AI 带来的的服务器带宽、设备折旧上,以及研发人员的成本,但整体看均相对可控。

1 / 8
1 / 4
1 / 4
  • 從中國經濟看背後困境及發展新構想?

    从中国经济看背后困境及发展新构想?

    中国未来发展或许可以参考“五环构想”进行战略布局。这一构想包括高等教育培训、创新科技驱动、产品生产销售、市场推广营销、出海战略布局五大领域。通过“五环构想”的实施,中国经济可能有一个全新的契机注入新的动力,推动经济稳定健康发展。

    从中国经济看背后困境及发展新构想?

    中国未来发展或许可以参考“五环构想”进行战略布局。这一构想包括高等教育培训、创新科技驱动、产品生产销售、市场推广营销、出海战略布局五大领域。通过“五环构想”的实施,中国经济可能有一个全新的契机注入新的动力,推动经济稳定健康发展。

  • 在變革中的抉擇:當今大環境下如何實現職業規劃與人生價值?

    在变革中的抉择:当今大环境下如何实现职业规划与人生价值?

    随着时代的变迁,人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同,有些人追求的是即时的快乐和成就感,而有些人则看重长期的进步和自我超越。

    在变革中的抉择:当今大环境下如何实现职业规划与人生价值?

    随着时代的变迁,人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同,有些人追求的是即时的快乐和成就感,而有些人则看重长期的进步和自我超越。

  • 再見愛人:探索現代婚姻中的情感困境

    再见爱人:探索现代婚姻中的情感困境

    芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子,麦琳、李行亮,葛夕、刘爽三对情感关系10年以上的夫妻,以“婚姻纪实观察”为切口,呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。

    再见爱人:探索现代婚姻中的情感困境

    芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子,麦琳、李行亮,葛夕、刘爽三对情感关系10年以上的夫妻,以“婚姻纪实观察”为切口,呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。

  • 抖音短劇新風潮:中老年人成為新的增長點?

    抖音短剧新风潮:中老年人成为新的增长点?

    近日,不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十,闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事,成了当下短剧创作的“新流量密码”。

    抖音短剧新风潮:中老年人成为新的增长点?

    近日,不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十,闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事,成了当下短剧创作的“新流量密码”。

1 / 4