要点:
近日,麻省理工学院/MIT的一个跨学科研究团队开发了一款名为“数据来源探索器”的工具,旨在帮助研究人员和从业者规避“垃圾”数据,选择合适的训练数据集。
科技正以前所未有的速度和规模发展,引发多个领域的变革,塑造了新的商业模式,甚至重塑了全新社会结构。我们一起,从科技创新中洞察社会转型和升级的机遇。
狂呼科技研究所聚焦科技创新对当今世界的影响,以独特、前瞻的科技视角,洞察科技时代下涌现的“创新革命”。
狂呼,以最具突破性的技术塑造我们的未来,为大众捕捉科技商业先机,探索当今人类社会面临的重大挑战。
联系我们// 相关文章
随着人工智能AI技术的快速发展,大型语言模型/LLM在各个领域的应用日益广泛。为了训练更强大的大型语言模型,研究人员通常会利用来自数千个网络来源的海量数据集。然而,随着这些数据集在组合和重新组合的过程中,关于其来源的重要信息以及使用限制往往被遗忘或混淆。这不仅可能引发法律和伦理问题,还可能对模型的性能产生负面影响。
具体而言,如果一个数据集被错误分类,训练机器学习模型的人员可能会在不知情的情况下使用不适合该任务的数据。此外,来源不明的数据可能含有偏见,导致模型在实际应用中产生不公平的预测。
为了提高数据透明度,近日,麻省理工学院/MIT及其他机构的跨学科研究团队对1800多个常见数据集进行了系统审计,发现超过70%的数据集缺少必要的许可信息,约50%的数据集存在错误信息。基于这些发现,研究团队开发了一款名为“数据来源探索器”的用户友好工具,该工具能够自动生成有关数据集创建者、来源、许可和使用方式的易于阅读的总结。目前,这一工具的推出旨在增强数据使用的透明度,并帮助研究人员更好地理解和管理数据集的来源及其限制。
麻省理工学院/MIT媒体实验室人类动力学小组负责人及该项目研究报告的合著者Alex Pentland教授指出,“这些工具可以协助监管者和从业者在部署人工智能AI时做出明智的决策,促进AI技术的负责任发展。”他进一步解释道,“数据来源探索器”能够帮助AI从业者选择更适合模型目标的数据集,从而构建出更为有效的模型。长期来看,这将提升AI模型在实际应用中的准确性,例如在贷款申请评估或客户查询响应等场景中。
MIT人类动力学小组的研究生及该论文的共同第一作者Robert Mahari则强调,“了解AI模型的能力和局限性,最有效的方式之一是理解其训练所用的数据。当数据来源不明或混淆时,透明性就成为一个严重的问题。”他认为,数据的清晰来源对于确保AI系统的可靠性和公平性至关重要。
此外,Mahari和Pentland的共同作者还包括媒体实验室研究生Shayne Longpre,Cohere for AI研究实验室负责人Sara Hooker,以及来自MIT、加州大学欧文分校、法国里尔大学、科罗拉多大学博尔德分校、奥林学院、卡内基梅隆大学、Contextual AI、ML Commons和Tidelift等机构的其他研究人员。 目前,这项研究已经发表在“Nature Machine Intelligence”杂志上。
注重微调<br data-mce-fragment="1">研究人员通常使用一种称为“微调”的技术来提升大型语言模型在特定任务上的表现,如问答系统。这种技术依赖于精心构建的细化数据集,以增强模型在特定任务上的效果。麻省理工学院/MIT的研究团队特别关注这些微调数据集,这些数据集一般由研究人员、学术机构或公司开发,并附有特定的使用许可。
然而,当众包平台将这些数据集整合进更大的集合中供从业者微调使用时,原始的许可信息往往会被忽略或遗失。 MIT的研究员Robert Mahari指出,“这些许可条款应该被严格遵守,并且需要具备可执行性。”如果数据集的许可条款有误或缺失,开发者可能会花费大量资源构建模型,却因某些训练数据包含私人信息而不得不撤下模型,这样的情况给开发者带来不必要的麻烦。
另外,Shayne Longpre强调,“人们可能最终会训练出一些模型,但对这些模型的能力、潜在问题或风险了解甚少,而这些问题通常源自于数据。”为了解决这些问题,研究团队在研究初期正式定义了数据来源,包括数据集的来源、创建和许可历史,以及其特征。基于这些定义,他们开发了一种结构化的审计程序,对来自热门在线存储库的1800多个文本数据集进行了详细审查。
结果显示,超过70%的数据集缺乏明确的许可信息<br data-mce-fragment="1">通过反向追溯的方式,研究人员成功地将这些“未指明”许可的数据集比例降低至约30%。此外,研究还发现,准确的许可条款往往比存储库提供的许可条款更为严格。同时,几乎所有的数据集创作者都集中在全球北部,这可能会限制模型在其他地区的应用能力。例如,由美国和中国研究人员创建的土耳其语数据集可能缺乏文化上重要的内容。 Mahari表示,“我们往往自欺欺人地认为这些数据集比实际情况更加多样化。”有趣的是,研究还发现,2023年和2024年创建的数据集的限制显著增加,这可能反映了学术界对数据集可能被用于未经授权的商业用途的担忧。
用户友好型工具<br data-mce-fragment="1">为了让用户无需进行手动审计就能轻松获取数据来源信息,研究团队开发了“数据来源探索器”工具。这个工具不仅能够根据特定标准对数据集进行排序和筛选,还允许用户下载一个数据来源卡,提供数据集特征的简洁且结构化的概述。
研究人员希望,这一进展不仅能帮助人们了解当前的数据来源状况,还能在未来做出更明智的训练数据选择。
展望未来,研究团队计划将分析扩展到多模态数据,例如视频和语音,并探索数据来源网站的服务条款如何在数据集中体现。随着研究范围的扩大,他们还积极与监管者接触,讨论其发现以及微调数据所引发的独特版权问题。
Shayne Longpre对此表示,“从一开始就关注数据的来源和透明性对于数据集的创建和发布至关重要,这样才能让其他人更容易获得这些宝贵的见解。”
EleutherAI 的执行董事Stella Biderman也指出,“许多政策干预假设我们能够正确分配和识别数据的许可情况,但这项工作首度表明情况并非如此,并显著提升了数据来源信息的可用性。此外,工具的第三部分还包括相关的法律讨论,这对那些没有专门法律团队的机器学习从业者尤为重要。许多致力于构建公共利益AI系统的人目前正面临着数据许可问题的困境,因为互联网的设计使得数据来源的追溯变得极为复杂。”
未来,研究人员计划将他们的分析扩展到多模态数据,如视频和语音,并研究数据来源网站的服务条款如何在数据集中得到反映。他们还在与监管者接触,讨论其发现以及微调数据所带来的独特版权问题。
这项研究对于希望在公共利益领域构建AI系统的从业者来说,这一工具和研究成果提供了宝贵的帮助,有助于解决数据许可问题,推动AI技术的健康发展。
MIT推出的“数据来源探索器”工具为数据科学家和机器学习工程师提供了一种有效的方法,以确保他们使用的数据集符合高标准和明确的许可要求。通过自动化的数据审计,这一工具不仅提升了数据透明度,还帮助用户在选择和使用数据时做出更加明智的决策。在数据驱动的世界里,准确性和可靠性是构建强大AI模型的基石。随着技术的不断进步和数据需求的不断增长,MIT的这一创新将为数据科学领域带来长远的积极影响,推动整个行业向更加负责任和高效的方向发展。