MIT推出新工具篩選高質量訓練數據集,以規避“垃圾”數據

MIT推出新工具筛选高质量训练数据集,以规避“垃圾”数据

發布日期:

科技 Tech


要点:
近日,麻省理工学院/MIT的一个跨学科研究团队开发了一款名为“数据来源探索器”的工具,旨在帮助研究人员和从业者规避“垃圾”数据,选择合适的训练数据集。

科技正以前所未有的速度和规模发展,引发多个领域的变革,塑造了新的商业模式,甚至重塑了全新社会结构。我们一起,从科技创新中洞察社会转型和升级的机遇。

狂呼科技研究所聚焦科技创新对当今世界的影响,以独特、前瞻的科技视角,洞察科技时代下涌现的“创新革命”。

狂呼,以最具突破性的技术塑造我们的未来,为大众捕捉科技商业先机,探索当今人类社会面临的重大挑战。

联系我们// 相关文章

随着人工智能AI技术的快速发展,大型语言模型/LLM在各个领域的应用日益广泛。为了训练更强大的大型语言模型,研究人员通常会利用来自数千个网络来源的海量数据集。然而,随着这些数据集在组合和重新组合的过程中,关于其来源的重要信息以及使用限制往往被遗忘或混淆。这不仅可能引发法律和伦理问题,还可能对模型的性能产生负面影响。

具体而言,如果一个数据集被错误分类,训练机器学习模型的人员可能会在不知情的情况下使用不适合该任务的数据。此外,来源不明的数据可能含有偏见,导致模型在实际应用中产生不公平的预测。

为了提高数据透明度,近日,麻省理工学院/MIT及其他机构的跨学科研究团队对1800多个常见数据集进行了系统审计,发现超过70%的数据集缺少必要的许可信息,约50%的数据集存在错误信息。基于这些发现,研究团队开发了一款名为“数据来源探索器”的用户友好工具,该工具能够自动生成有关数据集创建者、来源、许可和使用方式的易于阅读的总结。目前,这一工具的推出旨在增强数据使用的透明度,并帮助研究人员更好地理解和管理数据集的来源及其限制。

麻省理工学院/MIT媒体实验室人类动力学小组负责人及该项目研究报告的合著者Alex Pentland教授指出,“这些工具可以协助监管者和从业者在部署人工智能AI时做出明智的决策,促进AI技术的负责任发展。”他进一步解释道,“数据来源探索器”能够帮助AI从业者选择更适合模型目标的数据集,从而构建出更为有效的模型。长期来看,这将提升AI模型在实际应用中的准确性,例如在贷款申请评估或客户查询响应等场景中。

MIT人类动力学小组的研究生及该论文的共同第一作者Robert Mahari则强调,“了解AI模型的能力和局限性,最有效的方式之一是理解其训练所用的数据。当数据来源不明或混淆时,透明性就成为一个严重的问题。”他认为,数据的清晰来源对于确保AI系统的可靠性和公平性至关重要。

此外,Mahari和Pentland的共同作者还包括媒体实验室研究生Shayne Longpre,Cohere for AI研究实验室负责人Sara Hooker,以及来自MIT、加州大学欧文分校、法国里尔大学、科罗拉多大学博尔德分校、奥林学院、卡内基梅隆大学、Contextual AI、ML Commons和Tidelift等机构的其他研究人员。 目前,这项研究已经发表在“Nature Machine Intelligence”杂志上。

注重微调<br data-mce-fragment="1">研究人员通常使用一种称为“微调”的技术来提升大型语言模型在特定任务上的表现,如问答系统。这种技术依赖于精心构建的细化数据集,以增强模型在特定任务上的效果。麻省理工学院/MIT的研究团队特别关注这些微调数据集,这些数据集一般由研究人员、学术机构或公司开发,并附有特定的使用许可。

然而,当众包平台将这些数据集整合进更大的集合中供从业者微调使用时,原始的许可信息往往会被忽略或遗失。 MIT的研究员Robert Mahari指出,“这些许可条款应该被严格遵守,并且需要具备可执行性。”如果数据集的许可条款有误或缺失,开发者可能会花费大量资源构建模型,却因某些训练数据包含私人信息而不得不撤下模型,这样的情况给开发者带来不必要的麻烦。

另外,Shayne Longpre强调,“人们可能最终会训练出一些模型,但对这些模型的能力、潜在问题或风险了解甚少,而这些问题通常源自于数据。”为了解决这些问题,研究团队在研究初期正式定义了数据来源,包括数据集的来源、创建和许可历史,以及其特征。基于这些定义,他们开发了一种结构化的审计程序,对来自热门在线存储库的1800多个文本数据集进行了详细审查。

结果显示,超过70%的数据集缺乏明确的许可信息<br data-mce-fragment="1">通过反向追溯的方式,研究人员成功地将这些“未指明”许可的数据集比例降低至约30%。此外,研究还发现,准确的许可条款往往比存储库提供的许可条款更为严格。同时,几乎所有的数据集创作者都集中在全球北部,这可能会限制模型在其他地区的应用能力。例如,由美国和中国研究人员创建的土耳其语数据集可能缺乏文化上重要的内容。 Mahari表示,“我们往往自欺欺人地认为这些数据集比实际情况更加多样化。”有趣的是,研究还发现,2023年和2024年创建的数据集的限制显著增加,这可能反映了学术界对数据集可能被用于未经授权的商业用途的担忧。

用户友好型工具<br data-mce-fragment="1">为了让用户无需进行手动审计就能轻松获取数据来源信息,研究团队开发了“数据来源探索器”工具。这个工具不仅能够根据特定标准对数据集进行排序和筛选,还允许用户下载一个数据来源卡,提供数据集特征的简洁且结构化的概述。

研究人员希望,这一进展不仅能帮助人们了解当前的数据来源状况,还能在未来做出更明智的训练数据选择。

展望未来,研究团队计划将分析扩展到多模态数据,例如视频和语音,并探索数据来源网站的服务条款如何在数据集中体现。随着研究范围的扩大,他们还积极与监管者接触,讨论其发现以及微调数据所引发的独特版权问题。

Shayne Longpre对此表示,“从一开始就关注数据的来源和透明性对于数据集的创建和发布至关重要,这样才能让其他人更容易获得这些宝贵的见解。”

EleutherAI 的执行董事Stella Biderman也指出,“许多政策干预假设我们能够正确分配和识别数据的许可情况,但这项工作首度表明情况并非如此,并显著提升了数据来源信息的可用性。此外,工具的第三部分还包括相关的法律讨论,这对那些没有专门法律团队的机器学习从业者尤为重要。许多致力于构建公共利益AI系统的人目前正面临着数据许可问题的困境,因为互联网的设计使得数据来源的追溯变得极为复杂。”

未来,研究人员计划将他们的分析扩展到多模态数据,如视频和语音,并研究数据来源网站的服务条款如何在数据集中得到反映。他们还在与监管者接触,讨论其发现以及微调数据所带来的独特版权问题。

这项研究对于希望在公共利益领域构建AI系统的从业者来说,这一工具和研究成果提供了宝贵的帮助,有助于解决数据许可问题,推动AI技术的健康发展。

MIT推出的“数据来源探索器”工具为数据科学家和机器学习工程师提供了一种有效的方法,以确保他们使用的数据集符合高标准和明确的许可要求。通过自动化的数据审计,这一工具不仅提升了数据透明度,还帮助用户在选择和使用数据时做出更加明智的决策。在数据驱动的世界里,准确性和可靠性是构建强大AI模型的基石。随着技术的不断进步和数据需求的不断增长,MIT的这一创新将为数据科学领域带来长远的积极影响,推动整个行业向更加负责任和高效的方向发展。

科技正以前所未有的速度和规模发展,引发多个领域的变革,塑造了新的商业模式,甚至重塑了全新社会结构。我们一起,从科技创新中洞察社会转型和升级的机遇。

狂呼科技研究所聚焦科技创新对当今世界的影响,以独特、前瞻的科技视角,洞察科技时代下涌现的“创新革命”。

狂呼,以最具突破性的技术塑造我们的未来,为大众捕捉科技商业先机,探索当今人类社会面临的重大挑战。

联系我们// 相关文章


返回博客
  • 丰田認為加州電動車強制令難以實現,美國電動化轉型面臨巨大挑戰?

    丰田认为加州电动车强制令难以实现,美国电动化转型面临巨大挑战?

    加州面临的一个重要挑战是基础设施的配套问题。数据显示,2021年,美国的电动汽车与充电桩的比例为18.2:1,这意味着充电设施的数量远远跟不上电动汽车的增长。在欧盟一些国家推出禁售燃油车政策时,部分成员国就表达没有足够的充电设施。

    丰田认为加州电动车强制令难以实现,美国电动化转型面临巨大挑战?

    加州面临的一个重要挑战是基础设施的配套问题。数据显示,2021年,美国的电动汽车与充电桩的比例为18.2:1,这意味着充电设施的数量远远跟不上电动汽车的增长。在欧盟一些国家推出禁售燃油车政策时,部分成员国就表达没有足够的充电设施。

  • 瑪氏300億美元收購品客背后,揭示傳奇的“薯片革命”

    玛氏300亿美元收购品客背后,揭示传奇的“薯片革命”

    鲍尔摒弃了传统的马铃薯切片方法,改用马铃薯粉团压制成形,并创新性地设计了“双曲抛物面”形状,使得薯片比传统的薄片更具韧性,不容易碎裂。这种力学结构也常用于我们常见的建筑物上,比如加拿大丰业银行马鞍体育馆、斯堪的纳维亚体育馆。

    玛氏300亿美元收购品客背后,揭示传奇的“薯片革命”

    鲍尔摒弃了传统的马铃薯切片方法,改用马铃薯粉团压制成形,并创新性地设计了“双曲抛物面”形状,使得薯片比传统的薄片更具韧性,不容易碎裂。这种力学结构也常用于我们常见的建筑物上,比如加拿大丰业银行马鞍体育馆、斯堪的纳维亚体育馆。

  • 特朗普新任期,新關稅政策或引發全球經濟動盪?

    特朗普新任期,新关税政策或引发全球经济动荡?

    特朗普的第二任期将无可避免地加剧美国在全球舞台上的孤立感,并进一步削弱其与盟友之间的经济合作与信任。如果美国选择采取行动,表明我们不再坚持开放、公平、规则、透明和可预测的国际体系,那么整个游戏规则将会改变。

    特朗普新任期,新关税政策或引发全球经济动荡?

    特朗普的第二任期将无可避免地加剧美国在全球舞台上的孤立感,并进一步削弱其与盟友之间的经济合作与信任。如果美国选择采取行动,表明我们不再坚持开放、公平、规则、透明和可预测的国际体系,那么整个游戏规则将会改变。

  • 加拿大爆發港口罷工潮,或加劇北美供應鏈壓力?

    加拿大爆发港口罢工潮,或加剧北美供应链压力?

    11月4日,加拿大西海岸的主要港口,包括温哥华最大的集装箱港和鲁珀特王子港,因工人罢工宣布关闭。国际码头和仓库联盟/ILWU船舶及码头工头Local 514于周一早晨开始罢工,立即停滞了集装箱和货物的运输。

    加拿大爆发港口罢工潮,或加剧北美供应链压力?

    11月4日,加拿大西海岸的主要港口,包括温哥华最大的集装箱港和鲁珀特王子港,因工人罢工宣布关闭。国际码头和仓库联盟/ILWU船舶及码头工头Local 514于周一早晨开始罢工,立即停滞了集装箱和货物的运输。

  • 美股進入調整狀態 | 美股展望 (Video)

    美股进入调整状态| 美股展望(Video)

    各个指数全部下跌,M7全部急挫, 一如所料,在美国总统大选结果未明之前,美国股市进入调整状态,目前看还有下调空间, 但不太似将会大跌, 由牛转熊。综合各种因素考虑,总统选举之后, 标普500能否重拾升势,再创新高!

    美股进入调整状态| 美股展望(Video)

    各个指数全部下跌,M7全部急挫, 一如所料,在美国总统大选结果未明之前,美国股市进入调整状态,目前看还有下调空间, 但不太似将会大跌, 由牛转熊。综合各种因素考虑,总统选举之后, 标普500能否重拾升势,再创新高!

  • 蘋果Apple收購Pixelmator,如何利用App Store鞏固發展“護城河”?

    苹果Apple收购Pixelmator,如何利用App Store巩固发展“护城河”?

    App Store作为苹果产品的重要组成部分,不仅为开发者提供了展示其应用的舞台,还成为苹果收购战略的核心,助力公司更加精准地建立更强大的护城河,抵御竞争对手的侵扰。

    苹果Apple收购Pixelmator,如何利用App Store巩固发展“护城河”?

    App Store作为苹果产品的重要组成部分,不仅为开发者提供了展示其应用的舞台,还成为苹果收购战略的核心,助力公司更加精准地建立更强大的护城河,抵御竞争对手的侵扰。

  • AMZN亞馬遜2024年三季度財報,重回利潤率擴張週期?

    AMZN亚马逊2024年三季度财报,重回利润率扩张周期?

    本季AWS 的营收同比增速为19.1%,相比上季仅提速0.4pct,比卖方一致预期略低0.1pct。而头部卖方和买方期待的至少是20% 或以上的增速,来验证AWS 重新加速并缩窄与同行差距的趋势,但并不如人愿。

    AMZN亚马逊2024年三季度财报,重回利润率扩张周期?

    本季AWS 的营收同比增速为19.1%,相比上季仅提速0.4pct,比卖方一致预期略低0.1pct。而头部卖方和买方期待的至少是20% 或以上的增速,来验证AWS 重新加速并缩窄与同行差距的趋势,但并不如人愿。

  • AAPL蘋果2024財年第四季度財報,基本符合市場預期?

    AAPL苹果2024财年第四季度财报,基本符合市场预期?

    APPL业绩达到了市场的预期。收入端的增长,主要是由iPhone、iPad 及智能可穿戴等业务的提升带动。至于大幅下滑的净利润,主要是受欧盟一次性补缴税款的影响。剔除掉本次补缴102 亿美元的影响后,公司本季度的净利润回到249 亿美元。

    AAPL苹果2024财年第四季度财报,基本符合市场预期?

    APPL业绩达到了市场的预期。收入端的增长,主要是由iPhone、iPad 及智能可穿戴等业务的提升带动。至于大幅下滑的净利润,主要是受欧盟一次性补缴税款的影响。剔除掉本次补缴102 亿美元的影响后,公司本季度的净利润回到249 亿美元。

1 / 8
  • 古羅馬混凝土的“耐用秘密”

    古罗马混凝土的“耐用秘密”

    古罗马人以其卓越的建筑和工程技术而闻名。公元128年建成的万神殿/Pantheon是古罗马的一座杰出建筑,拥有世界上最大的无钢筋混凝土圆顶,至今依然完好如初。而与此形成鲜明对比的是,许多现代混凝土结构在短短几十年内就出现了损坏。

    古罗马混凝土的“耐用秘密”

    古罗马人以其卓越的建筑和工程技术而闻名。公元128年建成的万神殿/Pantheon是古罗马的一座杰出建筑,拥有世界上最大的无钢筋混凝土圆顶,至今依然完好如初。而与此形成鲜明对比的是,许多现代混凝土结构在短短几十年内就出现了损坏。

  • 從諾貝爾到搞笑諾貝爾獎:科學幽默與生活的貼近

    从诺贝尔到搞笑诺贝尔奖:科学幽默与生活的贴近

    成立于1991年的搞笑诺贝尔奖是对诺贝尔奖的“幽默模仿”,旨在表彰那些“先让人发笑,然后让人深思”的成就。虽然获奖的研究初看可能显得荒唐,但这并不意味着它们缺乏科学价值。

    从诺贝尔到搞笑诺贝尔奖:科学幽默与生活的贴近

    成立于1991年的搞笑诺贝尔奖是对诺贝尔奖的“幽默模仿”,旨在表彰那些“先让人发笑,然后让人深思”的成就。虽然获奖的研究初看可能显得荒唐,但这并不意味着它们缺乏科学价值。

  • GE HealthCare推出AI新工具CareIntellect for Oncology,或推動癌症治療的數字化轉型?

    GE HealthCare推出AI新工具CareIntellect for Oncology,...

    “CareIntellect for Oncology”,将透过快速向肿瘤学家显示所需的数据来帮助肿瘤学家加快了解患者的病史和疾病进展。该公司表示,GE HealthCare 希望让肿瘤科医师免于挖掘纪录的麻烦,这样他们就可以专注于照顾病人。

    GE HealthCare推出AI新工具CareIntellect for Oncology,...

    “CareIntellect for Oncology”,将透过快速向肿瘤学家显示所需的数据来帮助肿瘤学家加快了解患者的病史和疾病进展。该公司表示,GE HealthCare 希望让肿瘤科医师免于挖掘纪录的麻烦,这样他们就可以专注于照顾病人。

  • 龍芯中科:邁向全球市場的中國“芯”力量?

    龙芯中科:迈向全球市场的中国“芯”力量?

    龙芯是中国自主研发的微处理器产品,代表了中国在芯片领域自主创新的努力,旨在摆脱对外部高端技术的依赖。首款龙芯产品早在2002年问世,随后这一系列产品不断更新,提升了性能和集成度。

    龙芯中科:迈向全球市场的中国“芯”力量?

    龙芯是中国自主研发的微处理器产品,代表了中国在芯片领域自主创新的努力,旨在摆脱对外部高端技术的依赖。首款龙芯产品早在2002年问世,随后这一系列产品不断更新,提升了性能和集成度。

1 / 4
  • “AI虛擬伴侶”導致14歲美國少年自殺,人工智能時代背後的情感孤獨

    “AI虚拟伴侣”导致14岁美国少年自杀,人工智能时代背后的情感孤独

    “我想念你,妹妹。”、“我也想念你,亲爱的哥哥。” 这段对话发生在14岁塞维尔/Sewell Setzer生命的最后一天。在与AI初创公司Character.AI的聊天机器人进行长时间对话后,他在2月28日选择结束自己的生命,开枪自杀身亡。

    “AI虚拟伴侣”导致14岁美国少年自杀,人工智能时代背后的情感孤独

    “我想念你,妹妹。”、“我也想念你,亲爱的哥哥。” 这段对话发生在14岁塞维尔/Sewell Setzer生命的最后一天。在与AI初创公司Character.AI的聊天机器人进行长时间对话后,他在2月28日选择结束自己的生命,开枪自杀身亡。

  • 网络成瘾,沉迷直播間:當今快節奏生活的快感與陷阱?

    网络成瘾,沉迷直播间:当今快节奏生活的快感与陷阱?

    繁忙的社会中,身边的人虽然众多,但真正理解和倾诉的却少之又少。在虚拟中,人们通过短暂的直播互动获得了一时的快乐,然而这并不能真正填补心灵深处的空白。最终,直播所提供的陪伴,无法替代那种深入的、持久的人际关系。

    网络成瘾,沉迷直播间:当今快节奏生活的快感与陷阱?

    繁忙的社会中,身边的人虽然众多,但真正理解和倾诉的却少之又少。在虚拟中,人们通过短暂的直播互动获得了一时的快乐,然而这并不能真正填补心灵深处的空白。最终,直播所提供的陪伴,无法替代那种深入的、持久的人际关系。

  • 從Mr. Beast的崛起到三只羊的隕落:超級網紅為博眼球的背后

    从Mr. Beast的崛起到三只羊的陨落:超级网红为博眼球的背后

    网红文化已经成为一种不可忽视的社会现象和经济力量。随着发展,一些拥有数百万甚至千万人气的超级网红,为了追求流量和关注度,忽视了内容质量和创作者的道德底线,导致劣迹网红频频出现,给整个行业带来了显著的负面影响。

    从Mr. Beast的崛起到三只羊的陨落:超级网红为博眼球的背后

    网红文化已经成为一种不可忽视的社会现象和经济力量。随着发展,一些拥有数百万甚至千万人气的超级网红,为了追求流量和关注度,忽视了内容质量和创作者的道德底线,导致劣迹网红频频出现,给整个行业带来了显著的负面影响。

  • 酒店暗藏攝像頭,偷拍黑色產業鏈

    酒店暗藏摄像头,偷拍黑色产业链

    酒店和民宿频繁发生暗藏摄像头的事件,使我们不得不深思:偷拍背后究竟蕴藏着怎样的利益链条?这些偷拍行为不仅严重侵犯了个人隐私,也对社会的道德标准提出了挑战。这一现象的蔓延,迫使人们对行业监管和法律法规的有效性产生质疑。

    酒店暗藏摄像头,偷拍黑色产业链

    酒店和民宿频繁发生暗藏摄像头的事件,使我们不得不深思:偷拍背后究竟蕴藏着怎样的利益链条?这些偷拍行为不仅严重侵犯了个人隐私,也对社会的道德标准提出了挑战。这一现象的蔓延,迫使人们对行业监管和法律法规的有效性产生质疑。

1 / 4
  • 抖音短劇新風潮:中老年人成為新的增長點?

    抖音短剧新风潮:中老年人成为新的增长点?

    近日,不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十,闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事,成了当下短剧创作的“新流量密码”。

    抖音短剧新风潮:中老年人成为新的增长点?

    近日,不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十,闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事,成了当下短剧创作的“新流量密码”。

  • 京東楊笠事件背后:愚昧的社會何去何從?

    京东杨笠事件背后:愚昧的社会何去何从?

    临近双十一,没想到第一场公关战就炸在了京东身上。而更万万没想到的是,翻车的点不是价格,也不是带货主播,而是更尖锐更为敏感的“男女性别”话题,还把脱口秀演员杨笠推向了风口浪尖。

    京东杨笠事件背后:愚昧的社会何去何从?

    临近双十一,没想到第一场公关战就炸在了京东身上。而更万万没想到的是,翻车的点不是价格,也不是带货主播,而是更尖锐更为敏感的“男女性别”话题,还把脱口秀演员杨笠推向了风口浪尖。

  • 超級網紅“直播翻車”、OnlyFans慾望經濟、特斯拉Robotaxi“畫大餅”?

    超级网红“直播翻车”、OnlyFans欲望经济、特斯拉Robotaxi“画大饼”?

    网红“直播翻车”:许多网红,在短短几年内积累了巨大的粉丝量,成为众人羡慕的“人生赢家”,但最近却纷纷“跌落神坛”。 OnlyFans发布业绩,扣除成本后的利润为4.8亿美元。特斯拉Robotaxi未达预期,被批“画大饼”?

    超级网红“直播翻车”、OnlyFans欲望经济、特斯拉Robotaxi“画大饼”?

    网红“直播翻车”:许多网红,在短短几年内积累了巨大的粉丝量,成为众人羡慕的“人生赢家”,但最近却纷纷“跌落神坛”。 OnlyFans发布业绩,扣除成本后的利润为4.8亿美元。特斯拉Robotaxi未达预期,被批“画大饼”?

  • 出海網紅經濟,是陷阱還是機遇?

    出海网红经济,是陷阱还是机遇?

    随着中国品牌出海,网红经济席卷北美、东南亚两大市场。在网红经济的迅速发展下,也催生了网红主播、MCN机构一条成熟的“全产业链”。网红主播为了流量可能会采取什么极端的手段? MCN机构和主播间到底又存在哪些内幕?

    出海网红经济,是陷阱还是机遇?

    随着中国品牌出海,网红经济席卷北美、东南亚两大市场。在网红经济的迅速发展下,也催生了网红主播、MCN机构一条成熟的“全产业链”。网红主播为了流量可能会采取什么极端的手段? MCN机构和主播间到底又存在哪些内幕?

1 / 4