MIT推出新工具篩選高質量訓練數據集，以規避“垃圾”數據

發布日期:2024年9月3日

科技 Tech

要點:
近日，麻省理工學院/MIT的一個跨學科研究團隊開發了一款名為“數據來源探索器”的工具，旨在幫助研究人員和從業者規避“垃圾”數據，選擇合適的訓練數據集。

科技正以前所未有的速度和規模發展，引發多個領域的變革，塑造了新的商業模式，甚至重塑了全新社會結構。我們一起，從科技創新中洞察社會轉型和升級的機遇。

狂呼科技研究所聚焦科技創新對當今世界的影響，以獨特、前瞻的科技視角，洞察科技時代下涌現的“創新革命”。

狂呼，以最具突破性的技朮塑造我們的未來，為大眾捕捉科技商業先機，探索當今人類社會面臨的重大挑戰。

聯系我們 // 相關文章

隨着人工智能AI技朮的快速發展，大型語言模型/LLM在各個領域的應用日益廣泛。為了訓練更強大的大型語言模型，研究人員通常會利用來自數千個網絡來源的海量數據集。然而，隨着這些數據集在組合和重新組合的過程中，關於其來源的重要信息以及使用限制往往被遺忘或混淆。這不僅可能引發法律和倫理問題，還可能對模型的性能產生負面影響。

具體而言，如果一個數據集被錯誤分類，訓練機器學習模型的人員可能會在不知情的情況下使用不適合該任務的數據。此外，來源不明的數據可能含有偏見，導致模型在實際應用中產生不公平的預測。

為了提高數據透明度，近日，麻省理工學院/MIT及其他機搆的跨學科研究團隊對1800多個常見數據集進行了系統審計，發現超過70%的數據集缺少必要的許可信息，約50%的數據集存在錯誤信息。基於這些發現，研究團隊開發了一款名為“數據來源探索器”的用戶友好工具，該工具能夠自動生成有關數據集創建者、來源、許可和使用方式的易於閱讀的總結。目前，這一工具的推出旨在增強數據使用的透明度，并幫助研究人員更好地理解和管理數據集的來源及其限制。

麻省理工學院/MIT媒體實驗室人類動力學小組負責人及該項目研究報告的合著者Alex Pentland教授指出，“這些工具可以協助監管者和從業者在部署人工智能AI時做出明智的決策，促進AI技朮的負責任發展。”他進一步解釋道，“數據來源探索器”能夠幫助AI從業者選擇更適合模型目標的數據集，從而搆建出更為有效的模型。長期來看，這將提升AI模型在實際應用中的准確性，例如在貸款申請評估或客戶查詢響應等場景中。

MIT人類動力學小組的研究生及該論文的共同第一作者Robert Mahari則強調，“了解AI模型的能力和局限性，最有效的方式之一是理解其訓練所用的數據。當數據來源不明或混淆時，透明性就成為一個嚴重的問題。”他認為，數據的清晰來源對於確保AI系統的可靠性和公平性至關重要。

此外，Mahari和Pentland的共同作者還包括媒體實驗室研究生Shayne Longpre，Cohere for AI研究實驗室負責人Sara Hooker，以及來自MIT、加州大學歐文分校、法國里爾大學、科羅拉多大學博爾德分校、奧林學院、卡內基梅隆大學、Contextual AI、ML Commons和Tidelift等機搆的其他研究人員。目前，這項研究已經發表在“Nature Machine Intelligence”雜志上。

注重微調
研究人員通常使用一種稱為“微調”的技朮來提升大型語言模型在特定任務上的表現，如問答系統。這種技朮依賴於精心搆建的細化數據集，以增強模型在特定任務上的效果。麻省理工學院/MIT的研究團隊特別關注這些微調數據集，這些數據集一般由研究人員、學朮機搆或公司開發，并附有特定的使用許可。

然而，當眾包平台將這些數據集整合進更大的集合中供從業者微調使用時，原始的許可信息往往會被忽略或遺失。MIT的研究員Robert Mahari指出，“這些許可條款應該被嚴格遵守，并且需要具備可執行性。”如果數據集的許可條款有誤或缺失，開發者可能會花費大量資源搆建模型，卻因某些訓練數據包含私人信息而不得不撤下模型，這樣的情況給開發者帶來不必要的麻煩。

另外，Shayne Longpre強調，“人們可能最終會訓練出一些模型，但對這些模型的能力、潛在問題或風險了解甚少，而這些問題通常源自於數據。”為了解決這些問題，研究團隊在研究初期正式定義了數據來源，包括數據集的來源、創建和許可曆史，以及其特徵。基於這些定義，他們開發了一種結搆化的審計程序，對來自熱門在線存儲庫的1800多個文本數據集進行了詳細審查。

結果顯示，超過70%的數據集缺乏明確的許可信息
通過反向追溯的方式，研究人員成功地將這些“未指明”許可的數據集比例降低至約30%。此外，研究還發現，准確的許可條款往往比存儲庫提供的許可條款更為嚴格。同時，几乎所有的數據集創作者都集中在全球北部，這可能會限制模型在其他地區的應用能力。例如，由美國和中國研究人員創建的土耳其語數據集可能缺乏文化上重要的內容。Mahari表示，“我們往往自欺欺人地認為這些數據集比實際情況更加多樣化。”有趣的是，研究還發現，2023年和2024年創建的數據集的限制顯著增加，這可能反映了學朮界對數據集可能被用於未經授權的商業用途的擔憂。

用戶友好型工具
為了讓用戶無需進行手動審計就能輕松獲取數據來源信息，研究團隊開發了“數據來源探索器”工具。這個工具不僅能夠根據特定標准對數據集進行排序和篩選，還允許用戶下載一個數據來源卡，提供數據集特徵的簡潔且結搆化的概述。

研究人員希望，這一進展不僅能幫助人們了解當前的數據來源狀況，還能在未來做出更明智的訓練數據選擇。

展望未來，研究團隊計划將分析擴展到多模態數據，例如視頻和語音，并探索數據來源網站的服務條款如何在數據集中體現。隨着研究范圍的擴大，他們還積極與監管者接觸，討論其發現以及微調數據所引發的獨特版權問題。

Shayne Longpre對此表示，“從一開始就關注數據的來源和透明性對於數據集的創建和發布至關重要，這樣才能讓其他人更容易獲得這些寶貴的見解。”

EleutherAI 的執行董事Stella Biderman也指出，“許多政策干預假設我們能夠正確分配和識別數據的許可情況，但這項工作首度表明情況并非如此，并顯著提升了數據來源信息的可用性。此外，工具的第三部分還包括相關的法律討論，這對那些沒有專門法律團隊的機器學習從業者尤為重要。許多致力於搆建公共利益AI系統的人目前正面臨着數據許可問題的困境，因為互聯網的設計使得數據來源的追溯變得極為復雜。”

未來，研究人員計划將他們的分析擴展到多模態數據，如視頻和語音，并研究數據來源網站的服務條款如何在數據集中得到反映。他們還在與監管者接觸，討論其發現以及微調數據所帶來的獨特版權問題。

這項研究對於希望在公共利益領域搆建AI系統的從業者來說，這一工具和研究成果提供了寶貴的幫助，有助於解決數據許可問題，推動AI技朮的健康發展。

MIT推出的“數據來源探索器”工具為數據科學家和機器學習工程師提供了一種有效的方法，以確保他們使用的數據集符合高標准和明確的許可要求。通過自動化的數據審計，這一工具不僅提升了數據透明度，還幫助用戶在選擇和使用數據時做出更加明智的決策。在數據驅動的世界里，准確性和可靠性是搆建強大AI模型的基石。隨着技朮的不斷進步和數據需求的不斷增長，MIT的這一創新將為數據科學領域帶來長遠的積極影響，推動整個行業向更加負責任和高效的方向發展。

免責聲明：本網站提供的信息僅供一般信息分享目的，並不應被視為投資建議。

返回網誌

思錢想後Convo Money

查看全部

MU美光業績已成新的AI硬件風向標

美光本季度營收 415 億美元，環比直接拉漲了 74%，連續兩季度保持 70%+ 的環比增長。與公司此前指引的最高 342 億美金，以及市場預期的 354 億美金，完全不在一個維度上。

MU美光業績已成新的AI硬件風向標

美光本季度營收 415 億美元，環比直接拉漲了 74%，連續兩季度保持 70%+ 的環比增長。與公司此前指引的最高 342 億美金，以及市場預期的 354 億美金，完全不在一個維度上。
PDD拼多多2026年第一季財報，不及市場預期

因國內主站營收增長不及預期，營銷支出也並未明顯下滑，因此實際利潤表現並不及預期。分板塊來看背後原因，我們認為一方面是 Temu 本季減虧的幅度大概率並沒有預期的那麼多，另外國內主站的經營利潤增長應當也相當有限。

PDD拼多多2026年第一季財報，不及市場預期

因國內主站營收增長不及預期，營銷支出也並未明顯下滑，因此實際利潤表現並不及預期。分板塊來看背後原因，我們認為一方面是 Temu 本季減虧的幅度大概率並沒有預期的那麼多，另外國內主站的經營利潤增長應當也相當有限。
小米2026年第一季度財報，主要受手機和汽車毛利率同比回落影響

小米本季度汽車業務毛利率下滑至 20.1%，接近市場預期（20.5%），主要是受均價下滑的影響，其中包含了小米對購置税進行補貼的影響，並在本季度銷售了一部分的低價現車。由於毛利率再次回落，海豚君測算本季度小米汽車業務核心經營利潤再度陷入虧損 31 億元。

小米2026年第一季度財報，主要受手機和汽車毛利率同比回落影響

小米本季度汽車業務毛利率下滑至 20.1%，接近市場預期（20.5%），主要是受均價下滑的影響，其中包含了小米對購置税進行補貼的影響，並在本季度銷售了一部分的低價現車。由於毛利率再次回落，海豚君測算本季度小米汽車業務核心經營利潤再度陷入虧損 31 億元。
NVDA英偉達2027財年第一季度財報，收入752億美元，環比增量為129億美元

NVDA 核心經營指標：總收入 816 億美元，好於上調後的買方預期（780-800 億美元），其中季度環比增長 135 億美元，幾乎都來自於數據中心業務中 Blackwell 量產增加的帶動。

NVDA英偉達2027財年第一季度財報，收入752億美元，環比增量為129億美元

NVDA 核心經營指標：總收入 816 億美元，好於上調後的買方預期（780-800 億美元），其中季度環比增長 135 億美元，幾乎都來自於數據中心業務中 Blackwell 量產增加的帶動。
BYD比亞迪2025年第四季度業績仍然不及預期，賣車單價仍處於下行軌道

比亞迪的業績仍然不及預期。收入雖超預期，但主要由於非核心的比亞迪電子業務高增帶來，而在核心的賣車業務上，賣車單價仍處於下行軌道，賣車成本降幅不夠，最後賣車毛利率雖有回暖，但仍低於市場預期。

BYD比亞迪2025年第四季度業績仍然不及預期，賣車單價仍處於下行軌道

比亞迪的業績仍然不及預期。收入雖超預期，但主要由於非核心的比亞迪電子業務高增帶來，而在核心的賣車業務上，賣車單價仍處於下行軌道，賣車成本降幅不夠，最後賣車毛利率雖有回暖，但仍低於市場預期。
GOOG谷歌TurboQuant新聞導緻MU美光科技等內存股股價暴跌，但這合理嗎？

消息一出，華爾街一度陷入恐慌：如果 AI 突然間不再需要那麼多 RAM 就能運作，這是否意味著記憶體產業的「超級週期」即將結束？答案是否定的。事實上，從歷史規律與經濟學角度來看，情況正好相反。要理解這一點，我們只需要觀察你電腦上的網頁瀏覽器。

GOOG谷歌TurboQuant新聞導緻MU美光科技等內存股股價暴跌，但這合理嗎？

消息一出，華爾街一度陷入恐慌：如果 AI 突然間不再需要那麼多 RAM 就能運作，這是否意味著記憶體產業的「超級週期」即將結束？答案是否定的。事實上，從歷史規律與經濟學角度來看，情況正好相反。要理解這一點，我們只需要觀察你電腦上的網頁瀏覽器。
BABA財報AI投入比較激進

BABA發布第四季財報後股價下跌，財報顯示其營收和利潤均大幅低於預期。這家電商巨頭的季度淨利暴跌67%，而總營收僅成長1.7%約413億美元。這些表現引發了人們對阿里巴巴在AI人工智慧領域巨額投資（總額超過530億美元）有效性的擔憂。

BABA財報AI投入比較激進

BABA發布第四季財報後股價下跌，財報顯示其營收和利潤均大幅低於預期。這家電商巨頭的季度淨利暴跌67%，而總營收僅成長1.7%約413億美元。這些表現引發了人們對阿里巴巴在AI人工智慧領域巨額投資（總額超過530億美元）有效性的擔憂。
MU美光業績，季度毛利率達到 74.4%!

MU 整體業績：美光本季度營收 238.6 億美元，環比增長 75%，好於上調後的買方預期（199 億美元），本季度收入增長主要來自於 DRAM 和 NAND 業務的雙重帶動，兩大業務環增都在 70% 以上。

MU美光業績，季度毛利率達到 74.4%!

MU 整體業績：美光本季度營收 238.6 億美元，環比增長 75%，好於上調後的買方預期（199 億美元），本季度收入增長主要來自於 DRAM 和 NAND 業務的雙重帶動，兩大業務環增都在 70% 以上。

1 8

查看全部

流科百世Convo Tech

查看全部

Sharpa機器人削蘋果

對人類來說，削蘋果是件輕而易舉的晨間小事，但對機器人而言，這是雙手協調能力的「終極挑戰」。Sharpa機器人正在為能夠像人類一樣靈巧地完成複雜家務和工業裝配的機器人鋪平道路。

Sharpa機器人削蘋果

對人類來說，削蘋果是件輕而易舉的晨間小事，但對機器人而言，這是雙手協調能力的「終極挑戰」。Sharpa機器人正在為能夠像人類一樣靈巧地完成複雜家務和工業裝配的機器人鋪平道路。
腫瘤療法突破，中國團隊給癌細胞打上“豬”標簽，癌細胞“偽裝朮”被破解

近期，中國科學家在“Cell”雜志上發表的一項突破性研究，為這一頑疾提供了全新思路。他們利用基因編輯技朮，將癌細胞改造成免疫系統眼中的“異類”，類似於人體對豬器官產生的超急性排斥反應，從而引發了一場針對癌細胞的精准“免疫殲滅戰”。

腫瘤療法突破，中國團隊給癌細胞打上“豬”標簽，癌細胞“偽裝朮”被破解

近期，中國科學家在“Cell”雜志上發表的一項突破性研究，為這一頑疾提供了全新思路。他們利用基因編輯技朮，將癌細胞改造成免疫系統眼中的“異類”，類似於人體對豬器官產生的超急性排斥反應，從而引發了一場針對癌細胞的精准“免疫殲滅戰”。
新型大腦設備首次讀出內心聲音，腦機接口技朮打破失語者困境

新系統的核心原理與常見的“嘗試說話”型腦機介面相似，都是在大腦運動皮質植入感測器，這一區域負責向聲道肌肉下達運動指令。感測器捕捉到的神經活動會送入機器學習模型，模型依據個人化數據判斷信號對應的聲音，進而預測使用者想說的單字。

新型大腦設備首次讀出內心聲音，腦機接口技朮打破失語者困境

新系統的核心原理與常見的“嘗試說話”型腦機介面相似，都是在大腦運動皮質植入感測器，這一區域負責向聲道肌肉下達運動指令。感測器捕捉到的神經活動會送入機器學習模型，模型依據個人化數據判斷信號對應的聲音，進而預測使用者想說的單字。
“垃圾DNA”新發現：遠古病毒DNA在人類發育中發揮關鍵作用

自這類非編碼DNA片段首次被發現並被稱作“垃圾”以來，生物學家們一直在探討它們是否真的無用。如今的主流觀點認為，這些片段雖不直接參與蛋白質合成，卻在整體基因組中佔據了極大比例，顯示它們可能具有重要功能。

“垃圾DNA”新發現：遠古病毒DNA在人類發育中發揮關鍵作用

自這類非編碼DNA片段首次被發現並被稱作“垃圾”以來，生物學家們一直在探討它們是否真的無用。如今的主流觀點認為，這些片段雖不直接參與蛋白質合成，卻在整體基因組中佔據了極大比例，顯示它們可能具有重要功能。

1 4

查看全部

觀點Opinion

查看全部

人工智能AI時代，人類如何重拾批判性思維？

作為批判性思維培養的原始土壤：教育，必須進行重塑。教育政策的制定者和學校必須釆取積極措施，將批判性思維的練習深度融入課程。這遠不止是增加几節理論課，而是要在每一個學科、每一個學習環節中，鼓勵學生質疑和分析AI生成的信息。

人工智能AI時代，人類如何重拾批判性思維？

作為批判性思維培養的原始土壤：教育，必須進行重塑。教育政策的制定者和學校必須釆取積極措施，將批判性思維的練習深度融入課程。這遠不止是增加几節理論課，而是要在每一個學科、每一個學習環節中，鼓勵學生質疑和分析AI生成的信息。
長城汽車面向35歲以上人才開啟專場招聘，職場中的年齡歧視及“35歲現象”挑戰引發深思

長期以來，“35歲現象”如無形枷鎖，將眾多經驗丰富、能力成熟的中年人才拒之門外。長城汽車的“35+計划”不僅是一項招聘舉措，更是一場關於年齡、經驗與價值的社會呼吁，挑戰了傳統的職場偏見，倡導尊重和激活中年人才的力量，為行業和社會注入了新的活力與希望。

長城汽車面向35歲以上人才開啟專場招聘，職場中的年齡歧視及“35歲現象”挑戰引發深思

長期以來，“35歲現象”如無形枷鎖，將眾多經驗丰富、能力成熟的中年人才拒之門外。長城汽車的“35+計划”不僅是一項招聘舉措，更是一場關於年齡、經驗與價值的社會呼吁，挑戰了傳統的職場偏見，倡導尊重和激活中年人才的力量，為行業和社會注入了新的活力與希望。
打破線性人生，在不確定中尋找多元化的人生出路

近年來，全球經濟與地緣格局發生劇烈變化，從疫情沖擊、通脹壓力，到產業結搆重塑，無一不深刻影響着普通人的生活節奏與發展路徑。原本被視為“穩定之路”的人生規划：考學、畢業、就業、升職、買房，如今變得越來越不確定。

打破線性人生，在不確定中尋找多元化的人生出路

近年來，全球經濟與地緣格局發生劇烈變化，從疫情沖擊、通脹壓力，到產業結搆重塑，無一不深刻影響着普通人的生活節奏與發展路徑。原本被視為“穩定之路”的人生規划：考學、畢業、就業、升職、買房，如今變得越來越不確定。
從名校精英到殺手，Luigi Mangione槍擊案背后揭示的美國醫療體系

Luigi Mangione用極端方式撕開了美國醫療體系深藏的裂痕，也逼迫社會不得不重新審視，何為正義？何為悲劇。當醫療保障變成逐利機器，當患者在病痛中苦苦掙扎卻換來拒絕與冷眼，社會的不滿和憤怒便會潛滋暗長，最終以最不可控的方式爆發。

從名校精英到殺手，Luigi Mangione槍擊案背后揭示的美國醫療體系

Luigi Mangione用極端方式撕開了美國醫療體系深藏的裂痕，也逼迫社會不得不重新審視，何為正義？何為悲劇。當醫療保障變成逐利機器，當患者在病痛中苦苦掙扎卻換來拒絕與冷眼，社會的不滿和憤怒便會潛滋暗長，最終以最不可控的方式爆發。

1 4

查看全部

胡說北道Convo Ave(播客)

查看全部

從中國經濟看背後困境及發展新構想?

中國未來發展或許可以參考“五環搆想”進行戰略布局。這一搆想包括高等教育培訓、創新科技驅動、產品生產銷售、市場推廣營銷、出海戰略佈局五大領域。通過“五環搆想”的實施，中國經濟可能有一個全新的契機注入新的動力，推動經濟穩定健康發展。

從中國經濟看背後困境及發展新構想?

中國未來發展或許可以參考“五環搆想”進行戰略布局。這一搆想包括高等教育培訓、創新科技驅動、產品生產銷售、市場推廣營銷、出海戰略佈局五大領域。通過“五環搆想”的實施，中國經濟可能有一個全新的契機注入新的動力，推動經濟穩定健康發展。
在變革中的抉擇：當今大環境下如何實現職業規劃與人生價值？

隨著時代的變遷，人生價值的內涵也變得更加多樣化和個性化。每個人對於“成功”和“幸福”的理解不同，有些人追求的是即時的快樂和成就感，而有些人則看重長期的進步和自我超越。

在變革中的抉擇：當今大環境下如何實現職業規劃與人生價值？

隨著時代的變遷，人生價值的內涵也變得更加多樣化和個性化。每個人對於“成功”和“幸福”的理解不同，有些人追求的是即時的快樂和成就感，而有些人則看重長期的進步和自我超越。
再見愛人：探索現代婚姻中的情感困境

芒果TV婚姻紀實觀察節目“再見愛人4”邀請黃聖依、楊子，麥琳、李行亮，葛夕、劉爽三對情感關系10年以上的夫妻，以“婚姻紀實觀察”為切口，呈現出不同婚姻樣本在親密關系中的掙扎與甜蜜、桎梏與覺醒。

再見愛人：探索現代婚姻中的情感困境

芒果TV婚姻紀實觀察節目“再見愛人4”邀請黃聖依、楊子，麥琳、李行亮，葛夕、劉爽三對情感關系10年以上的夫妻，以“婚姻紀實觀察”為切口，呈現出不同婚姻樣本在親密關系中的掙扎與甜蜜、桎梏與覺醒。
抖音短劇新風潮：中老年人成為新的增長點?

近日，不少以老年人為主角的抖音短劇“閃婚五十歲”、“金榜題名之母憑子貴”、“人到五十，閃婚霸總”等等登上熱度榜單。老年人的婚姻、情感以及生活故事，成了當下短劇創作的“新流量密碼”。

抖音短劇新風潮：中老年人成為新的增長點?

近日，不少以老年人為主角的抖音短劇“閃婚五十歲”、“金榜題名之母憑子貴”、“人到五十，閃婚霸總”等等登上熱度榜單。老年人的婚姻、情感以及生活故事，成了當下短劇創作的“新流量密碼”。

1 4

查看全部

免費訂閱优質資訊