要點:
Karya公司成立於2021年,總部位於班加羅爾,自稱為“世界上第一個道德數據公司”,以市場價向大型科技公司和學術界、政府等機構客戶出售數據。但與其它公司不同的是,Karya並沒有把大部分收入留作利潤,而是將抵消支付成本後剩下的部分,全用於幫助印度農村的貧困人群。通過Karya等項目的努力,印度語言的人工智能項目能夠從英語人工智能的錯誤中吸取教訓,并建立一個更可靠、無偏見的起點。
投資不僅僅是為了創造財富,更是一種洞察宏觀經濟的態度,見證社會演變與科技發展。我們一起,從大變局中看清發展趨勢,希望從不確定中找到確定。
狂呼金融研究所聚焦於新的社會發展形勢下,金融與經濟對當今世界日益凸顯的影響。以全面、理性的投資視角,洞察分析每一個趨勢與機會,為廣大投資者創造更高質量、更獨特的金融投資觀點。
狂呼,比一部分人更快、更准地看清市場,讓大眾洞察金融經濟的核心。
聯系我們 // 相關文章
當今,AI人工智能發展迅速,但其背后的數據工作者卻存在較大的地域性收入差距。數據工作者在建設人工智能大語言模型方面發揮着至關重要的作用,但他們的勞動卻常常得不到公平對待,而這種不公平現象在全球數據產業并不罕見。
在印度,數據工作者只得到很少的回報,常常受到中間公司的剝削,甚至遭遇身心傷害。印度初創公司Karya試圖找到一種切實可行的新模式:提高當地農民工資標准,并讓數據工作者獲得人工智能巨大收益下帶來的“分紅”。雖然Karya目前在擴展規模和運營上仍存在非常多的挑戰,但這一實踐為印度人工智能數據產業提供了新的可能性,具有歷史性的借鑒意義。
AI人工智能背后的數據工作者
印度南部卡納塔克邦的阿拉哈利村,有一位Karya公司的數據工作者。錢德里卡Chandrika 一邊滑動屏幕,一邊連續點擊几個音頻進行剪輯,每次輕觸,她用母語說話的聲音就從手機里傳出。
在使用這個應用之前,30歲的錢德里卡銀行賬戶中只有184盧比(2.25美元)。但在4月下旬,她連工作了幾天,只需工作約6個小時,就收到了2570盧比(31.30美元)的報酬。這個數額大致相當於她在一所離家很遠的學校擔任教師,並抵扣通勤交通費用之后一個月的收入。此外,與她的日常工作不同,這個應用程序不會讓她等到月底才結款,而是當她完成工作後的几個小時后,錢就會自動進入銀行賬戶。這段時間,錢德里卡通過用母語“卡納達語”朗讀文本(主要由分布在印度中部和南部的6000萬人使用),她就賺到了每小時約5美元的工資,几乎是印度最低工資的20倍。而且在完成朗讀工作後的幾天內,如果她的音頻剪輯被驗證為準確,她還會收到50%的獎金。
正是AI人工智能的蓬勃發展,錢德里卡的母語錄製才能換來如此高的收益。目前,ChatGPT等先進的AI工具在英語語言中表現最佳,因為英語的文本和音頻數據在網絡上擁有著非常丰富的素材。然而,對於卡納達語這樣的“小眾語言”來說,情況就相差甚遠。盡管這種語言被6000萬人在使用,但在互聯網上卻很少見其相關的文字、音頻素材。例如,維基百科上有600萬篇英文文章,但只有3萬篇卡納達語文章。在這些“資源較少”的語言中,人工智能即使能夠運行,也可能存在著巨大的偏見。因此,對於像卡納達語這樣的語言,需要尋找更多的數據素材。
這個急需解決的問題,就催生了“以一些世界上最貧困人民所使用的語言為基礎”數據庫的巨大需求。產生這類需求的對象,一部分來自尋求搆建AI智能工具的科技公司,另一大部分來自學朮界和政府等公共機構。對於擁有14億人口、22種官方語言和至少780種土著語言的印度來說,英語和印地語長期以來占據着重要地位,缺一不可。
這種需求的上升意味着湧現出一種稀缺且有價值的資產:印度母語。實際上,數據工作者在印度并非新鮮事。在20世紀末,印度在把呼叫中心和服裝工廠轉變為生產力引擎方面作出了巨大的貢獻,并在21世紀默默地將同樣的事情應用於數據工作。和之前一樣,這個行業再次被中間公司所主導、剝削,他們僅為數據工作者支付接近“法定最低工資標準”的薪酬水平,但卻以高額利潤向外國客戶出售數據,形成了巨大的貧富差距問題。
伴隨著AI人工智能的發展,預計到2030年,全球價值超過20億美元的AI數據行業將增至170億美元。但可悲的是,這些錢卻少之又少地流向印度、肯尼亞和菲律賓等貧窮地區的數據工作者。因此,Karya的出現,無疑是給現在的局面進行了一次重大的“破舊立新”。
創造更公平的工作模式
喬普拉表示,“Karya公司的願景是通過數據工作幫助印度農民擺脫貧困。合理的報酬不僅提高了數據質量,也能夠幫助社會邊緣群體脫貧,讓更多人受益於人工智能技朮的發展。”
Karya公司成立於2021年,總部位於班加羅爾,自稱為“世界上第一個道德數據公司”。與競爭對手一樣,它以市場價向大型科技公司和學術界、政府等機構客戶出售數據。但與其它公司不同的是,Karya並沒有把大部分收入留作利潤,而是將抵消支付成本後剩下的部分,全用於幫助印度農村的貧困人群。此外,Karya還與當地非政府組織合作,確保最貧困的人群以及曆史上被邊緣化的社區可以優先獲得就業機會。除了每小時5美元的最低工資標準,Karya還讓數據工作者擁有其所創造數據的“所有權”,每當他們創造的數據再次銷售時,除了過去已結算的工資外,還將獲得額外的獎金收益,這是行業內不曾出現的商業運營模式。
喬普拉告訴公司的數據工作者們,這不是一份長久的工作,而是一種快速增加收入的方式,讓你能夠繼續做其他事情。按照現在的公司運營模式,數據工作者通過該應用程序可以獲得最高收入為1500美元,大致相當於印度的年平均收入。此外,Karya已向印度全國范圍內約3萬名農村居民支付了6500萬盧比(近80萬美元)的工資。到2030年,喬普拉希望能夠觸及1億人口。“如果做得好,我認為這是讓數百萬人迅速擺脫貧困的最快途徑。”他補充說到。
值得注意的是,Karya不是第一個發現人工智能數據工作能幫助貧困人口的公司。Sama是一家在肯尼亞主營數據訓練的公司,專注於為人工智能算法注釋數據,客戶包括沃爾瑪、谷歌、通用汽車和微軟等多個海外大廠。此外,Sama曾經負責過OpenAI的ChatGPT和Meta的Facebook的數據處理合同,它也把自己宣傳為科技公司幫助全球人民擺脫貧困的一種“道德”方式。
但據相關資料顯示,Sama以低時薪、高強度、創傷性的工作折磨着數據工作者的身心。一位工作者表示,每天接觸到的訓練數據讓他們受到創傷,在閱讀了一些過於不堪的內容后,他會反復出現幻覺。而如此“酷刑”的工作背後,卻每小時收入甚至不到2美元。Sama公司的創始人在2018年被BBC/英國廣播公司問及低工資問題時辯稱,支付更高的工資可能會破壞當地經濟,弊大於利。為此,很多數據工作者都不滿Sama的說法,認為這只是靠數據工作者賺取大筆利潤的科技公司對外的“官方借口”。
Sama作為非營利組織開始,但后來轉型為營利性企業。Karya真的能成為道德數據公司嗎?我們不可得知。但不可否認的是,即使在疫情之前,印度已約有1.4億人每天生活費不到2.15美元。對於那些人來說,Karya所帶來的收入注入可能會徹底改變他們的生活。
收入增長與數據質量“雙贏”
在印度農村,由於儲蓄很少,當地人經常不得不貸款支付緊急費用。而當地很多掠奪性機搆往往對這些貸款收取極高的利率,導致一些村民陷入“債務循環”。例如,錢德里卡利用她在Karya的工資幫助家人償還一筆巨額醫療貸款,這筆貸款是她當時為25歲的妹妹治病時產生。其他Karya工人也面臨類似的情況:25歲的阿賈伊·庫馬爾/Ajay Kumar陷入了為治療母親嚴重背部傷病而產生的醫療債務中、38歲的希瓦納/Shivanna N.在小時候因燃放鞭炮而失去了右手,盡管他沒有債務,但殘疾意味着他難以在社會上謀生。
因此,Karya在卡納塔克邦推出了一個新項目,該項目是為一家印度醫療非政府組織提供關於結核病的語音數據。結核病,每年導致約20萬印度人死亡。由Karya公司創造的語音錄音,收集了卡納達語的10種不同方言,有助於訓練一個人工智能語音模型,以幫助當地人理解肺結核問題,加大疾病傳播的普及信息。19歲的Madhurashree說,她在Karya的工作幫助她了解了結核病的症狀和預防措施。
此外,這些錄音還將作為卡納達語數據集的一部分,在Karya的平台上轉售給許多AI公司。這些AI公司往往對訓練數據的內容不太在意,而是更關注它對語言整體結搆的編碼。
通常Karya產生的數據錯誤率不到1%,這在搆建AI模型時几乎從未發生過。雖然目前規模較小,但Karya已經擁有一系列知名客戶,包括微軟公司、麻省理工學院和斯坦福大學。今年2月,Karya為比爾與梅琳達·蓋茨基金會開展了一個新項目,旨在為10億印度人口使用的5種語言(馬拉地語、泰盧固語、印地語、孟加拉語和馬拉雅拉姆語)搆建語音數據集,最終目標是建立一個可以用母語和方言回答印度農民關於醫療保健、農業、衛生、銀行和職業發展等問題的聊天機器人。
這項技朮可以被視為致力於消除貧困的ChatGPT,有助於傳播改善印度人生活質量的知識。“我認為應該有一個世界,語言不再是使用技朮的障礙,這樣每個人都能使用技朮。”微軟研究中心的語言學家和首席研究員說到。她與蓋茨基金會合作進行該項目,并擔任Karya監督委員會的無薪酬成員。Karya相對較高的工資“積極地影響著其產生的數據質量”,她補充說到,“這將提高系統輸出的准確性。”
成為人工智能“無偏見”的起點
喬普拉說,最初他和團隊向任何人開放應用程序,結果發現最早的100個注冊用戶都是占主導地位的男性。這一經曆讓他認識到“知識是通過權力渠道傳遞的”。為了接觸到最貧困的社區,以及邊緣化的種姓、性別和宗教,他很早就意識到必須與在農村地區有基層影響力的非營利組織合作。“這些組織可以知道對於誰來說,這筆錢是錦上添花,對於誰來說,這筆錢是改變命運的。”他說到,“而這個過程也確保了工人最終生成的數據有更強多樣性,有助於減少AI偏見。”
但在追求新客戶的過程中,即使是自詡為“有道德”的企業,最終也可能會因為巨大利潤而妥協。那到底什么能阻止Karya陷入與Sama公司同樣的困境呢?喬普拉說,在於Karya的公司結搆。
Karya在美國注冊為非營利組織,控制着印度的兩個實體,一個非營利組織和一個營利組織。這個營利組織在法律上有義務將它賺取的任何利潤(在支付工人之后)捐贈給非營利組織,后者再將它們用於再投資。他說,這種安排的好處在於,消除了他或聯合創始人為了有利可圖的合同而犧牲工人工資或福利的任何動機。目前,這是一個有效的模式,但如果慈善資金出現枯竭,這個模式也可能會崩潰。
通過Karya等項目的努力,印度語言的人工智能項目能夠從英語人工智能的錯誤中吸取教訓,并從一個更可靠、無偏見的起點開始。如果人工智能技朮不滿足世界各地多樣化的受眾,那么這些技朮的存在又有什么意義呢?這一點,值得我們每個人深思。