要點:
近日,麻省理工學院/MIT的一個跨學科研究團隊開發了一款名為“數據來源探索器”的工具,旨在幫助研究人員和從業者規避“垃圾”數據,選擇合適的訓練數據集。
科技正以前所未有的速度和規模發展,引發多個領域的變革,塑造了新的商業模式,甚至重塑了全新社會結構。我們一起,從科技創新中洞察社會轉型和升級的機遇。
狂呼科技研究所聚焦科技創新對當今世界的影響,以獨特、前瞻的科技視角,洞察科技時代下涌現的“創新革命”。
狂呼,以最具突破性的技朮塑造我們的未來,為大眾捕捉科技商業先機,探索當今人類社會面臨的重大挑戰。
聯系我們 // 相關文章
隨着人工智能AI技朮的快速發展,大型語言模型/LLM在各個領域的應用日益廣泛。為了訓練更強大的大型語言模型,研究人員通常會利用來自數千個網絡來源的海量數據集。然而,隨着這些數據集在組合和重新組合的過程中,關於其來源的重要信息以及使用限制往往被遺忘或混淆。這不僅可能引發法律和倫理問題,還可能對模型的性能產生負面影響。
具體而言,如果一個數據集被錯誤分類,訓練機器學習模型的人員可能會在不知情的情況下使用不適合該任務的數據。此外,來源不明的數據可能含有偏見,導致模型在實際應用中產生不公平的預測。
為了提高數據透明度,近日,麻省理工學院/MIT及其他機搆的跨學科研究團隊對1800多個常見數據集進行了系統審計,發現超過70%的數據集缺少必要的許可信息,約50%的數據集存在錯誤信息。基於這些發現,研究團隊開發了一款名為“數據來源探索器”的用戶友好工具,該工具能夠自動生成有關數據集創建者、來源、許可和使用方式的易於閱讀的總結。目前,這一工具的推出旨在增強數據使用的透明度,并幫助研究人員更好地理解和管理數據集的來源及其限制。
麻省理工學院/MIT媒體實驗室人類動力學小組負責人及該項目研究報告的合著者Alex Pentland教授指出,“這些工具可以協助監管者和從業者在部署人工智能AI時做出明智的決策,促進AI技朮的負責任發展。”他進一步解釋道,“數據來源探索器”能夠幫助AI從業者選擇更適合模型目標的數據集,從而搆建出更為有效的模型。長期來看,這將提升AI模型在實際應用中的准確性,例如在貸款申請評估或客戶查詢響應等場景中。
MIT人類動力學小組的研究生及該論文的共同第一作者Robert Mahari則強調,“了解AI模型的能力和局限性,最有效的方式之一是理解其訓練所用的數據。當數據來源不明或混淆時,透明性就成為一個嚴重的問題。”他認為,數據的清晰來源對於確保AI系統的可靠性和公平性至關重要。
此外,Mahari和Pentland的共同作者還包括媒體實驗室研究生Shayne Longpre,Cohere for AI研究實驗室負責人Sara Hooker,以及來自MIT、加州大學歐文分校、法國里爾大學、科羅拉多大學博爾德分校、奧林學院、卡內基梅隆大學、Contextual AI、ML Commons和Tidelift等機搆的其他研究人員。目前,這項研究已經發表在“Nature Machine Intelligence”雜志上。
注重微調
研究人員通常使用一種稱為“微調”的技朮來提升大型語言模型在特定任務上的表現,如問答系統。這種技朮依賴於精心搆建的細化數據集,以增強模型在特定任務上的效果。麻省理工學院/MIT的研究團隊特別關注這些微調數據集,這些數據集一般由研究人員、學朮機搆或公司開發,并附有特定的使用許可。
然而,當眾包平台將這些數據集整合進更大的集合中供從業者微調使用時,原始的許可信息往往會被忽略或遺失。MIT的研究員Robert Mahari指出,“這些許可條款應該被嚴格遵守,并且需要具備可執行性。”如果數據集的許可條款有誤或缺失,開發者可能會花費大量資源搆建模型,卻因某些訓練數據包含私人信息而不得不撤下模型,這樣的情況給開發者帶來不必要的麻煩。
另外,Shayne Longpre強調,“人們可能最終會訓練出一些模型,但對這些模型的能力、潛在問題或風險了解甚少,而這些問題通常源自於數據。”為了解決這些問題,研究團隊在研究初期正式定義了數據來源,包括數據集的來源、創建和許可曆史,以及其特徵。基於這些定義,他們開發了一種結搆化的審計程序,對來自熱門在線存儲庫的1800多個文本數據集進行了詳細審查。
結果顯示,超過70%的數據集缺乏明確的許可信息
通過反向追溯的方式,研究人員成功地將這些“未指明”許可的數據集比例降低至約30%。此外,研究還發現,准確的許可條款往往比存儲庫提供的許可條款更為嚴格。同時,几乎所有的數據集創作者都集中在全球北部,這可能會限制模型在其他地區的應用能力。例如,由美國和中國研究人員創建的土耳其語數據集可能缺乏文化上重要的內容。Mahari表示,“我們往往自欺欺人地認為這些數據集比實際情況更加多樣化。”有趣的是,研究還發現,2023年和2024年創建的數據集的限制顯著增加,這可能反映了學朮界對數據集可能被用於未經授權的商業用途的擔憂。
用戶友好型工具
為了讓用戶無需進行手動審計就能輕松獲取數據來源信息,研究團隊開發了“數據來源探索器”工具。這個工具不僅能夠根據特定標准對數據集進行排序和篩選,還允許用戶下載一個數據來源卡,提供數據集特徵的簡潔且結搆化的概述。
研究人員希望,這一進展不僅能幫助人們了解當前的數據來源狀況,還能在未來做出更明智的訓練數據選擇。
展望未來,研究團隊計划將分析擴展到多模態數據,例如視頻和語音,并探索數據來源網站的服務條款如何在數據集中體現。隨着研究范圍的擴大,他們還積極與監管者接觸,討論其發現以及微調數據所引發的獨特版權問題。
Shayne Longpre對此表示,“從一開始就關注數據的來源和透明性對於數據集的創建和發布至關重要,這樣才能讓其他人更容易獲得這些寶貴的見解。”
EleutherAI 的執行董事Stella Biderman也指出,“許多政策干預假設我們能夠正確分配和識別數據的許可情況,但這項工作首度表明情況并非如此,并顯著提升了數據來源信息的可用性。此外,工具的第三部分還包括相關的法律討論,這對那些沒有專門法律團隊的機器學習從業者尤為重要。許多致力於搆建公共利益AI系統的人目前正面臨着數據許可問題的困境,因為互聯網的設計使得數據來源的追溯變得極為復雜。”
未來,研究人員計划將他們的分析擴展到多模態數據,如視頻和語音,并研究數據來源網站的服務條款如何在數據集中得到反映。他們還在與監管者接觸,討論其發現以及微調數據所帶來的獨特版權問題。
這項研究對於希望在公共利益領域搆建AI系統的從業者來說,這一工具和研究成果提供了寶貴的幫助,有助於解決數據許可問題,推動AI技朮的健康發展。
MIT推出的“數據來源探索器”工具為數據科學家和機器學習工程師提供了一種有效的方法,以確保他們使用的數據集符合高標准和明確的許可要求。通過自動化的數據審計,這一工具不僅提升了數據透明度,還幫助用戶在選擇和使用數據時做出更加明智的決策。在數據驅動的世界里,准確性和可靠性是搆建強大AI模型的基石。隨着技朮的不斷進步和數據需求的不斷增長,MIT的這一創新將為數據科學領域帶來長遠的積極影響,推動整個行業向更加負責任和高效的方向發展。