MIT推出新工具筛选高质量训练数据集，以规避“垃圾”数据

發布日期:2024年9月3日

科技 Tech

要点:
近日，麻省理工学院/MIT的一个跨学科研究团队开发了一款名为“数据来源探索器”的工具，旨在帮助研究人员和从业者规避“垃圾”数据，选择合适的训练数据集。

科技正以前所未有的速度和规模发展，引发多个领域的变革，塑造了新的商业模式，甚至重塑了全新社会结构。我们一起，从科技创新中洞察社会转型和升级的机遇。

狂呼科技研究所聚焦科技创新对当今世界的影响，以独特、前瞻的科技视角，洞察科技时代下涌现的“创新革命”。

狂呼，以最具突破性的技术塑造我们的未来，为大众捕捉科技商业先机，探索当今人类社会面临的重大挑战。

联系我们// 相关文章

随着人工智能AI技术的快速发展，大型语言模型/LLM在各个领域的应用日益广泛。为了训练更强大的大型语言模型，研究人员通常会利用来自数千个网络来源的海量数据集。然而，随着这些数据集在组合和重新组合的过程中，关于其来源的重要信息以及使用限制往往被遗忘或混淆。这不仅可能引发法律和伦理问题，还可能对模型的性能产生负面影响。

具体而言，如果一个数据集被错误分类，训练机器学习模型的人员可能会在不知情的情况下使用不适合该任务的数据。此外，来源不明的数据可能含有偏见，导致模型在实际应用中产生不公平的预测。

为了提高数据透明度，近日，麻省理工学院/MIT及其他机构的跨学科研究团队对1800多个常见数据集进行了系统审计，发现超过70%的数据集缺少必要的许可信息，约50%的数据集存在错误信息。基于这些发现，研究团队开发了一款名为“数据来源探索器”的用户友好工具，该工具能够自动生成有关数据集创建者、来源、许可和使用方式的易于阅读的总结。目前，这一工具的推出旨在增强数据使用的透明度，并帮助研究人员更好地理解和管理数据集的来源及其限制。

麻省理工学院/MIT媒体实验室人类动力学小组负责人及该项目研究报告的合著者Alex Pentland教授指出，“这些工具可以协助监管者和从业者在部署人工智能AI时做出明智的决策，促进AI技术的负责任发展。”他进一步解释道，“数据来源探索器”能够帮助AI从业者选择更适合模型目标的数据集，从而构建出更为有效的模型。长期来看，这将提升AI模型在实际应用中的准确性，例如在贷款申请评估或客户查询响应等场景中。

MIT人类动力学小组的研究生及该论文的共同第一作者Robert Mahari则强调，“了解AI模型的能力和局限性，最有效的方式之一是理解其训练所用的数据。当数据来源不明或混淆时，透明性就成为一个严重的问题。”他认为，数据的清晰来源对于确保AI系统的可靠性和公平性至关重要。

此外，Mahari和Pentland的共同作者还包括媒体实验室研究生Shayne Longpre，Cohere for AI研究实验室负责人Sara Hooker，以及来自MIT、加州大学欧文分校、法国里尔大学、科罗拉多大学博尔德分校、奥林学院、卡内基梅隆大学、Contextual AI、ML Commons和Tidelift等机构的其他研究人员。目前，这项研究已经发表在“Nature Machine Intelligence”杂志上。

注重微调<br data-mce-fragment="1">研究人员通常使用一种称为“微调”的技术来提升大型语言模型在特定任务上的表现，如问答系统。这种技术依赖于精心构建的细化数据集，以增强模型在特定任务上的效果。麻省理工学院/MIT的研究团队特别关注这些微调数据集，这些数据集一般由研究人员、学术机构或公司开发，并附有特定的使用许可。

然而，当众包平台将这些数据集整合进更大的集合中供从业者微调使用时，原始的许可信息往往会被忽略或遗失。 MIT的研究员Robert Mahari指出，“这些许可条款应该被严格遵守，并且需要具备可执行性。”如果数据集的许可条款有误或缺失，开发者可能会花费大量资源构建模型，却因某些训练数据包含私人信息而不得不撤下模型，这样的情况给开发者带来不必要的麻烦。

另外，Shayne Longpre强调，“人们可能最终会训练出一些模型，但对这些模型的能力、潜在问题或风险了解甚少，而这些问题通常源自于数据。”为了解决这些问题，研究团队在研究初期正式定义了数据来源，包括数据集的来源、创建和许可历史，以及其特征。基于这些定义，他们开发了一种结构化的审计程序，对来自热门在线存储库的1800多个文本数据集进行了详细审查。

结果显示，超过70%的数据集缺乏明确的许可信息<br data-mce-fragment="1">通过反向追溯的方式，研究人员成功地将这些“未指明”许可的数据集比例降低至约30%。此外，研究还发现，准确的许可条款往往比存储库提供的许可条款更为严格。同时，几乎所有的数据集创作者都集中在全球北部，这可能会限制模型在其他地区的应用能力。例如，由美国和中国研究人员创建的土耳其语数据集可能缺乏文化上重要的内容。 Mahari表示，“我们往往自欺欺人地认为这些数据集比实际情况更加多样化。”有趣的是，研究还发现，2023年和2024年创建的数据集的限制显著增加，这可能反映了学术界对数据集可能被用于未经授权的商业用途的担忧。

用户友好型工具<br data-mce-fragment="1">为了让用户无需进行手动审计就能轻松获取数据来源信息，研究团队开发了“数据来源探索器”工具。这个工具不仅能够根据特定标准对数据集进行排序和筛选，还允许用户下载一个数据来源卡，提供数据集特征的简洁且结构化的概述。

研究人员希望，这一进展不仅能帮助人们了解当前的数据来源状况，还能在未来做出更明智的训练数据选择。

展望未来，研究团队计划将分析扩展到多模态数据，例如视频和语音，并探索数据来源网站的服务条款如何在数据集中体现。随着研究范围的扩大，他们还积极与监管者接触，讨论其发现以及微调数据所引发的独特版权问题。

Shayne Longpre对此表示，“从一开始就关注数据的来源和透明性对于数据集的创建和发布至关重要，这样才能让其他人更容易获得这些宝贵的见解。”

EleutherAI 的执行董事Stella Biderman也指出，“许多政策干预假设我们能够正确分配和识别数据的许可情况，但这项工作首度表明情况并非如此，并显著提升了数据来源信息的可用性。此外，工具的第三部分还包括相关的法律讨论，这对那些没有专门法律团队的机器学习从业者尤为重要。许多致力于构建公共利益AI系统的人目前正面临着数据许可问题的困境，因为互联网的设计使得数据来源的追溯变得极为复杂。”

未来，研究人员计划将他们的分析扩展到多模态数据，如视频和语音，并研究数据来源网站的服务条款如何在数据集中得到反映。他们还在与监管者接触，讨论其发现以及微调数据所带来的独特版权问题。

这项研究对于希望在公共利益领域构建AI系统的从业者来说，这一工具和研究成果提供了宝贵的帮助，有助于解决数据许可问题，推动AI技术的健康发展。

MIT推出的“数据来源探索器”工具为数据科学家和机器学习工程师提供了一种有效的方法，以确保他们使用的数据集符合高标准和明确的许可要求。通过自动化的数据审计，这一工具不仅提升了数据透明度，还帮助用户在选择和使用数据时做出更加明智的决策。在数据驱动的世界里，准确性和可靠性是构建强大AI模型的基石。随着技术的不断进步和数据需求的不断增长，MIT的这一创新将为数据科学领域带来长远的积极影响，推动整个行业向更加负责任和高效的方向发展。

免責聲明：本網站提供的信息僅供一般信息分享目的，並不應被視為投資建議。

返回博客

思钱想后Convo Money

查看全部

Google算力核心技术TPU推动了AI市场替代GPU?

如果不是在行业内，这可能大家的第一个疑问。在市场大多数记忆还停留在TPU 通用性不够，Google 主要用来内用而非对外商用上时，会非常讶异为何到了TPU v7 这一版本，突然开讲TPU 对的 GPU 替代逻辑。

Google算力核心技术TPU推动了AI市场替代GPU?

如果不是在行业内，这可能大家的第一个疑问。在市场大多数记忆还停留在TPU 通用性不够，Google 主要用来内用而非对外商用上时，会非常讶异为何到了TPU v7 这一版本，突然开讲TPU 对的 GPU 替代逻辑。
CoreWeave基础AI云服务的生意模式

CoreWeave客户结构高度集中，目前基本只由AI 模型独角兽，和有能力独自研发/优化AI 模型的大型科技公司构成。在2024 财年CoreWeave 约$19 亿的总营收中，接近80% 的收入只来自两家客户公司-- 微软和英伟达，其中微软一家就占了当年总收入的62%。

CoreWeave基础AI云服务的生意模式

CoreWeave客户结构高度集中，目前基本只由AI 模型独角兽，和有能力独自研发/优化AI 模型的大型科技公司构成。在2024 财年CoreWeave 约$19 亿的总营收中，接近80% 的收入只来自两家客户公司-- 微软和英伟达，其中微软一家就占了当年总收入的62%。
LULU三季度业绩超出公司此前指引

Lululemon 的大本营市场北美地区仍然疲软，同比下降1.5%，平均订单金额、转化率及门店客流量仍处于下滑状态。亮眼的是中国地区同比高增43%，增速创近一年以来新高，二季度Lululemon Align 十周年庆典增加了和消费者的互动，带动公司整体的品牌提升。

LULU三季度业绩超出公司此前指引

Lululemon 的大本营市场北美地区仍然疲软，同比下降1.5%，平均订单金额、转化率及门店客流量仍处于下滑状态。亮眼的是中国地区同比高增43%，增速创近一年以来新高，二季度Lululemon Align 十周年庆典增加了和消费者的互动，带动公司整体的品牌提升。
NVDA财报超市场预期，总收入570亿美元!

随着英伟达数据中心的持续增长，当前已经成为公司收入中最大的一项，占比已经接近9 成。作为公司此前主要收入来源的游戏业务，占比已经被压缩至1 成左右。其主要产品包括Blackwell、Hopper 等算力芯片，公司的核心客户是亚马逊、微软、谷歌等云服务大厂。

NVDA财报超市场预期，总收入570亿美元!

随着英伟达数据中心的持续增长，当前已经成为公司收入中最大的一项，占比已经接近9 成。作为公司此前主要收入来源的游戏业务，占比已经被压缩至1 成左右。其主要产品包括Blackwell、Hopper 等算力芯片，公司的核心客户是亚马逊、微软、谷歌等云服务大厂。
QCOM高通财报，业绩相对平淡

高通公司本季度业绩相对平淡，收入端的超预期主要来自于旗舰新品的提前发布。至于本季度利润端的回落，主要是受公司计入57 亿美元的递延税资产准备金影响。若剔除该影响，公司本季度的净利润约为26 亿美元。

QCOM高通财报，业绩相对平淡

高通公司本季度业绩相对平淡，收入端的超预期主要来自于旗舰新品的提前发布。至于本季度利润端的回落，主要是受公司计入57 亿美元的递延税资产准备金影响。若剔除该影响，公司本季度的净利润约为26 亿美元。
AMD财报，市场对数据中心AI Capex依然火热

AMD 在2025 年第三季度实现营收92.5 亿美元，同比增长35.6%，市场预期（87.4 亿美元）。收入端的同比增长，主要来自于客户端及游戏业务、数据中心业务的带动。公司本季度毛利率（GAAP）51.7%，同比提升1.6pct。

AMD财报，市场对数据中心AI Capex依然火热

AMD 在2025 年第三季度实现营收92.5 亿美元，同比增长35.6%，市场预期（87.4 亿美元）。收入端的同比增长，主要来自于客户端及游戏业务、数据中心业务的带动。公司本季度毛利率（GAAP）51.7%，同比提升1.6pct。
AMZN亚马逊AWS本季营收同比增长20.2%到$309亿!

久等的AWS 提速终于到来：目前云业务的增速几乎成为了压倒一切、“决定生死” 的单一指标。而AWS 本季营收同比增长20.2% 到$309 亿，相比上季增速明显提升2.7pct。市场久久期待的AWS 增长再提速终于到来。

AMZN亚马逊AWS本季营收同比增长20.2%到$309亿!

久等的AWS 提速终于到来：目前云业务的增速几乎成为了压倒一切、“决定生死” 的单一指标。而AWS 本季营收同比增长20.2% 到$309 亿，相比上季增速明显提升2.7pct。市场久久期待的AWS 增长再提速终于到来。
AAPL苹果2025财年第四季度营收1025亿美元，同比增长7.9%！

本季度苹果公司实现营收1025 亿美元，同比增长7.9%，基本符合市场预期（1020 亿美元）。公司本季度收入端的提升，主要受益于iPhone、Mac 和软件服务业务增长的带动。苹果公司毛利率 47.2%，同比增加1pct，好于市场一致预期（46.6%）。

AAPL苹果2025财年第四季度营收1025亿美元，同比增长7.9%！

本季度苹果公司实现营收1025 亿美元，同比增长7.9%，基本符合市场预期（1020 亿美元）。公司本季度收入端的提升，主要受益于iPhone、Mac 和软件服务业务增长的带动。苹果公司毛利率 47.2%，同比增加1pct，好于市场一致预期（46.6%）。

1 8

查看全部

流科百世Convo Tech

查看全部

肿瘤疗法突破，中国团队给癌细胞打上“猪”标签，癌细胞“伪装术”被破解

近期，中国科学家在“Cell”杂志上发表的一项突破性研究，为这一顽疾提供了全新思路。他们利用基因编辑技术，将癌细胞改造成免疫系统眼中的“异类”，类似于人体对猪器官产生的超急性排斥反应，从而引发了一场针对癌细胞的精准“免疫歼灭战”。

肿瘤疗法突破，中国团队给癌细胞打上“猪”标签，癌细胞“伪装术”被破解

近期，中国科学家在“Cell”杂志上发表的一项突破性研究，为这一顽疾提供了全新思路。他们利用基因编辑技术，将癌细胞改造成免疫系统眼中的“异类”，类似于人体对猪器官产生的超急性排斥反应，从而引发了一场针对癌细胞的精准“免疫歼灭战”。
新型大脑设备首次读出内心声音，脑机接口技术打破失语者困境

新系统的核心原理与常见的“尝试说话”型脑机介面相似，都是在大脑运动皮质植入感测器，这一区域负责向声道肌肉下达运动指令。感测器捕捉到的神经活动会送入机器学习模型，模型依据个人化数据判断信号对应的声音，进而预测使用者想说的单字。

新型大脑设备首次读出内心声音，脑机接口技术打破失语者困境

新系统的核心原理与常见的“尝试说话”型脑机介面相似，都是在大脑运动皮质植入感测器，这一区域负责向声道肌肉下达运动指令。感测器捕捉到的神经活动会送入机器学习模型，模型依据个人化数据判断信号对应的声音，进而预测使用者想说的单字。
“垃圾DNA”新发现：远古病毒DNA在人类发育中发挥关键作用

自这类非编码DNA片段首次被发现并被称作“垃圾”以来，生物学家们一直在探讨它们是否真的无用。如今的主流观点认为，这些片段虽不直接参与蛋白质合成，却在整体基因组中占据了极大比例，显示它们可能具有重要功能。

“垃圾DNA”新发现：远古病毒DNA在人类发育中发挥关键作用

自这类非编码DNA片段首次被发现并被称作“垃圾”以来，生物学家们一直在探讨它们是否真的无用。如今的主流观点认为，这些片段虽不直接参与蛋白质合成，却在整体基因组中占据了极大比例，显示它们可能具有重要功能。
颠覆传统认知，科学家首次证明植物和动物透过声音互动

最新的研究将植物的感知能力推向了新的维度：听觉。这项研究透过多个实验并设置了精确的装置，观察到一个惊人的现象：在没有植物存在的环境中，蛾更倾向于在播放录制的植物压力声音的扬声器附近产卵。

颠覆传统认知，科学家首次证明植物和动物透过声音互动

最新的研究将植物的感知能力推向了新的维度：听觉。这项研究透过多个实验并设置了精确的装置，观察到一个惊人的现象：在没有植物存在的环境中，蛾更倾向于在播放录制的植物压力声音的扬声器附近产卵。

1 4

查看全部

观点Opinion

查看全部

人工智能AI时代，人类如何重拾批判性思维？

作为批判性思维培养的原始土壤：教育，必须进行重塑。教育政策的制定者和学校必须釆取积极措施，将批判性思维的练习深度融入课程。这远不止是增加几节理论课，而是要在每一个学科、每一个学习环节中，鼓励学生质疑和分析AI生成的信息。

人工智能AI时代，人类如何重拾批判性思维？

作为批判性思维培养的原始土壤：教育，必须进行重塑。教育政策的制定者和学校必须釆取积极措施，将批判性思维的练习深度融入课程。这远不止是增加几节理论课，而是要在每一个学科、每一个学习环节中，鼓励学生质疑和分析AI生成的信息。
长城汽车面向35岁以上人才开启专场招聘，职场中的年龄歧视及“35岁现象”挑战引发深思

长期以来，“35岁现象”如无形枷锁，将众多经验丰富、能力成熟的中年人才拒之门外。长城汽车的“35+计划”不仅是一项招聘举措，更是一场关于年龄、经验与价值的社会呼吁，挑战了传统的职场偏见，倡导尊重和激活中年人才的力量，为行业和社会注入了新的活力与希望。

长城汽车面向35岁以上人才开启专场招聘，职场中的年龄歧视及“35岁现象”挑战引发深思

长期以来，“35岁现象”如无形枷锁，将众多经验丰富、能力成熟的中年人才拒之门外。长城汽车的“35+计划”不仅是一项招聘举措，更是一场关于年龄、经验与价值的社会呼吁，挑战了传统的职场偏见，倡导尊重和激活中年人才的力量，为行业和社会注入了新的活力与希望。
打破线性人生，在不确定中寻找多元化的人生出路

近年来，全球经济与地缘格局发生剧烈变化，从疫情冲击、通胀压力，到产业结构重塑，无一不深刻影响着普通人的生活节奏与发展路径。原本被视为“稳定之路”的人生规划：考学、毕业、就业、升职、买房，如今变得越来越不确定。

打破线性人生，在不确定中寻找多元化的人生出路

近年来，全球经济与地缘格局发生剧烈变化，从疫情冲击、通胀压力，到产业结构重塑，无一不深刻影响着普通人的生活节奏与发展路径。原本被视为“稳定之路”的人生规划：考学、毕业、就业、升职、买房，如今变得越来越不确定。
从名校精英到杀手，Luigi Mangione枪击案背后揭示的美国医疗体系

Luigi Mangione用极端方式撕开了美国医疗体系深藏的裂痕，也逼迫社会不得不重新审视，何为正义？何为悲剧。当医疗保障变成逐利机器，当患者在病痛中苦苦挣扎却换来拒绝与冷眼，社会的不满和愤怒便会潜滋暗长，最终以最不可控的方式爆发。

从名校精英到杀手，Luigi Mangione枪击案背后揭示的美国医疗体系

Luigi Mangione用极端方式撕开了美国医疗体系深藏的裂痕，也逼迫社会不得不重新审视，何为正义？何为悲剧。当医疗保障变成逐利机器，当患者在病痛中苦苦挣扎却换来拒绝与冷眼，社会的不满和愤怒便会潜滋暗长，最终以最不可控的方式爆发。

1 4

查看全部

胡说北道Convo Ave(播客)

查看全部

从中国经济看背后困境及发展新构想?

中国未来发展或许可以参考“五环构想”进行战略布局。这一构想包括高等教育培训、创新科技驱动、产品生产销售、市场推广营销、出海战略布局五大领域。通过“五环构想”的实施，中国经济可能有一个全新的契机注入新的动力，推动经济稳定健康发展。

从中国经济看背后困境及发展新构想?

中国未来发展或许可以参考“五环构想”进行战略布局。这一构想包括高等教育培训、创新科技驱动、产品生产销售、市场推广营销、出海战略布局五大领域。通过“五环构想”的实施，中国经济可能有一个全新的契机注入新的动力，推动经济稳定健康发展。
在变革中的抉择：当今大环境下如何实现职业规划与人生价值？

随着时代的变迁，人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同，有些人追求的是即时的快乐和成就感，而有些人则看重长期的进步和自我超越。

在变革中的抉择：当今大环境下如何实现职业规划与人生价值？

随着时代的变迁，人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同，有些人追求的是即时的快乐和成就感，而有些人则看重长期的进步和自我超越。
再见爱人：探索现代婚姻中的情感困境

芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子，麦琳、李行亮，葛夕、刘爽三对情感关系10年以上的夫妻，以“婚姻纪实观察”为切口，呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。

再见爱人：探索现代婚姻中的情感困境

芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子，麦琳、李行亮，葛夕、刘爽三对情感关系10年以上的夫妻，以“婚姻纪实观察”为切口，呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。
抖音短剧新风潮：中老年人成为新的增长点?

近日，不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十，闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事，成了当下短剧创作的“新流量密码”。

抖音短剧新风潮：中老年人成为新的增长点?

近日，不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十，闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事，成了当下短剧创作的“新流量密码”。

1 4

查看全部

免费订阅优质资讯