印度公司Karya, 利用AI人工智能為印度農村“分紅”!

印度公司Karya, 利用AI人工智能为印度农村“分红”!

發布日期:

商業 Business


要点:
Karya公司成立于2021年,总部位于班加罗尔,自称为“世界上第一个道德数据公司”,以市场价向大型科技公司和学术界、政府等机构客户出售数据。但与其它公司不同的是,Karya并没有把大部分收入留作利润,而是将抵消支付成本后剩下的部分,全用于帮助印度农村的贫困人群。通过Karya等项目的努力,印度语言的人工智能项目能够从英语人工智能的错误中吸取教训,并建立一个更可靠、无偏见的起点。

投资不仅仅是为了创造财富,更是一种洞察宏观经济的态度,见证社会演变与科技发展。我们一起,从大变局中看清发展趋势,希望从不确定中找到确定。

狂呼金融研究所聚焦于新的社会发展形势下,金融与经济对当今世界日益凸显的影响。以全面、理性的投资视角,洞察分析每一个趋势与机会,为广大投资者创造更高质量、更独特的金融投资观点。

狂呼,比一部分人更快、更准地看清市场,让大众洞察金融经济的核心。

联系我们// 相关文章

当今,AI人工智能发展迅速,但其背后的数据工作者却存在较大的地域性收入差距。数据工作者在建设人工智能大语言模型方面发挥着至关重要的作用,但他们的劳动却常常得不到公平对待,而这种不公平现象在全球数据产业并不罕见。

在印度,数据工作者只得到很少的回报,常常受到中间公司的剥削,甚至遭遇身心伤害。印度初创公司Karya试图找到一种切实可行的新模式:提高当地农民工资标准,并让数据工作者获得人工智能巨大收益下带来的“分红”。虽然Karya目前在扩展规模和运营上仍存在非常多的挑战,但这一实践为印度人工智能数据产业提供了新的可能性,具有历史性的借鉴意义。

AI人工智能背后的数据工作者
印度南部卡纳塔克邦的阿拉哈利村,有一位Karya公司的数据工作者。钱德里卡Chandrika 一边滑动屏幕,一边连续点击几个音频进行剪辑,每次轻触,她用母语说话的声音就从手机里传出。

在使用这个应用之前,30岁的钱德里卡银行账户中只有184卢比(2.25美元)。但在4月下旬,她连工作了几天,只需工作约6个小时,就收到了2570卢比(31.30美元)的报酬。这个数额大致相当于她在一所离家很远的学校担任教师,并抵扣通勤交通费用之后一个月的收入。此外,与她的日常工作不同,这个应用程序不会让她等到月底才结款,而是当她完成工作后的几个小时后,钱就会自动进入银行账户。这段时间,钱德里卡通过用母语“卡纳达语”朗读文本(主要由分布在印度中部和南部的6000万人使用),她就赚到了每小时约5美元的工资,几乎是印度最低工资的20倍。而且在完成朗读工作后的几天内,如果她的音频剪辑被验证为准确,她还会收到50%的奖金。

正是AI人工智能的蓬勃发展,钱德里卡的母语录制才能换来如此高的收益。目前,ChatGPT等先进的AI工具在英语语言中表现最佳,因为英语的文本和音频数据在网络上拥有着非常丰富的素材。然而,对于卡纳达语这样的“小众语言”来说,情况就相差甚远。尽管这种语言被6000万人在使用,但在互联网上却很少见其相关的文字、音频素材。例如,维基百科上有600万篇英文文章,但只有3万篇卡纳达语文章。在这些“资源较少”的语言中,人工智能即使能够运行,也可能存在着巨大的偏见。因此,对于像卡纳达语这样的语言,需要寻找更多的数据素材。

这个急需解决的问题,就催生了“以一些世界上最贫困人民所使用的语言为基础”数据库的巨大需求。产生这类需求的对象,一部分来自寻求构建AI智能工具的科技公司,另一大部分来自学术界和政府等公共机构。对于拥有14亿人口、22种官方语言和至少780种土著语言的印度来说,英语和印地语长期以来占据着重要地位,缺一不可。

这种需求的上升意味着涌现出一种稀缺且有价值的资产:印度母语。实际上,数据工作者在印度并非新鲜事。在20世纪末,印度在把呼叫中心和服装工厂转变为生产力引擎方面作出了巨大的贡献,并在21世纪默默地将同样的事情应用于数据工作。和之前一样,这个行业再次被中间公司所主导、剥削,他们仅为数据工作者支付接近“法定最低工资标准”的薪酬水平,但却以高额利润向外国客户出售数据,形成了巨大的贫富差距问题。

伴随着AI人工智能的发展,预计到2030年,全球价值超过20亿美元的AI数据行业将增至170亿美元。但可悲的是,这些钱却少之又少地流向印度、肯尼亚和菲律宾等贫穷地区的数据工作者。因此,Karya的出现,无疑是给现在的局面进行了一次重大的“破旧立新”。

创造更公平的工作模式
乔普拉表示,“Karya公司的愿景是通过数据工作帮助印度农民摆脱贫困。合理的报酬不仅提高了数据质量,也能够帮助社会边缘群体脱贫,让更多人受益于人工智能技术的发展。”

Karya公司成立于2021年,总部位于班加罗尔,自称为“世界上第一个道德数据公司”。与竞争对手一样,它以市场价向大型科技公司和学术界、政府等机构客户出售数据。但与其它公司不同的是,Karya并没有把大部分收入留作利润,而是将抵消支付成本后剩下的部分,全用于帮助印度农村的贫困人群。此外,Karya还与当地非政府组织合作,确保最贫困的人群以及历史上被边缘化的社区可以优先获得就业机会。除了每小时5美元的最低工资标准,Karya还让数据工作者拥有其所创造数据的“所有权”,每当他们创造的数据再次销售时,除了过去已结算的工资外,还将获得额外的奖金收益,这是行业内不曾出现的商业运营模式。

乔普拉告诉公司的数据工作者们,这不是一份长久的工作,而是一种快速增加收入的方式,让你能够继续做其他事情。按照现在的公司运营模式,数据工作者通过该应用程序可以获得最高收入为1500美元,大致相当于印度的年平均收入。此外,Karya已向印度全国范围内约3万名农村居民支付了6500万卢比(近80万美元)的工资。到2030年,乔普拉希望能够触及1亿人口。 “如果做得好,我认为这是让数百万人迅速摆脱贫困的最快途径。”他补充说到。

值得注意的是,Karya不是第一个发现人工智能数据工作能帮助贫困人口的公司。 Sama是一家在肯尼亚主营数据训练的公司,专注于为人工智能算法注释数据,客户包括沃尔玛、谷歌、通用汽车和微软等多个海外大厂。此外,Sama曾经负责过OpenAI的ChatGPT和Meta的Facebook的数据处理合同,它也把自己宣传为科技公司帮助全球人民摆脱贫困的一种“道德”方式。

但据相关资料显示,Sama以低时薪、高强度、创伤性的工作折磨着数据工作者的身心。一位工作者表示,每天接触到的训练数据让他们受到创伤,在阅读了一些过于不堪的内容后,他会反复出现幻觉。而如此“酷刑”的工作背后,却每小时收入甚至不到2美元。 Sama公司的创始人在2018年被BBC/英国广播公司问及低工资问题时辩称,支付更高的工资可能会破坏当地经济,弊大于利。为此,很多数据工作者都不满Sama的说法,认为这只是靠数据工作者赚取大笔利润的科技公司对外的“官方借口”。

Sama作为非营利组织开始,但后来转型为营利性企业。 Karya真的能成为道德数据公司吗?我们不可得知。但不可否认的是,即使在疫情之前,印度已约有1.4亿人每天生活费不到2.15美元。对于那些人来说,Karya所带来的收入注入可能会彻底改变他们的生活。

收入增长与数据质量“双赢”
在印度农村,由于储蓄很少,当地人经常不得不贷款支付紧急费用。而当地很多掠夺性机构往往对这些贷款收取极高的利率,导致一些村民陷入“债务循环”。例如,钱德里卡利用她在Karya的工资帮助家人偿还一笔巨额医疗贷款,这笔贷款是她当时为25岁的妹妹治病时产生。其他Karya工人也面临类似的情况:25岁的阿贾伊·库马尔/Ajay Kumar陷入了为治疗母亲严重背部伤病而产生的医疗债务中、38岁的希瓦纳/Shivanna N.在小时候因燃放鞭炮而失去了右手,尽管他没有债务,但残疾意味着他难以在社会上谋生。

因此,Karya在卡纳塔克邦推出了一个新项目,该项目是为一家印度医疗非政府组织提供关于结核病的语音数据。结核病,每年导致约20万印度人死亡。由Karya公司创造的语音录音,收集了卡纳达语的10种不同方言,有助于训练一个人工智能语音模型,以帮助当地人理解肺结核问题,加大疾病传播的普及信息。 19岁的Madhurashree说,她在Karya的工作帮助她了解了结核病的症状和预防措施。

此外,这些录音还将作为卡纳达语数据集的一部分,在Karya的平台上转售给许多AI公司。这些AI公司往往对训练数据的内容不太在意,而是更关注它对语言整体结构的编码。

通常Karya产生的数据错误率不到1%,这在构建AI模型时几乎从未发生过。虽然目前规模较小,但Karya已经拥有一系列知名客户,包括微软公司、麻省理工学院和斯坦福大学。今年2月,Karya为比尔与梅琳达·盖茨基金会开展了一个新项目,旨在为10亿印度人口使用的5种语言(马拉地语、泰卢固语、印地语、孟加拉语和马拉雅拉姆语)构建语音数据集,最终目标是建立一个可以用母语和方言回答印度农民关于医疗保健、农业、卫生、银行和职业发展等问题的聊天机器人。

这项技术可以被视为致力于消除贫困的ChatGPT,有助于传播改善印度人生活质量的知识。 “我认为应该有一个世界,语言不再是使用技术的障碍,这样每个人都能使用技术。”微软研究中心的语言学家和首席研究员说到。她与盖茨基金会合作进行该项目,并担任Karya监督委员会的无薪酬成员。 Karya相对较高的工资“积极地影响着其产生的数据质量”,她补充说到,“这将提高系统输出的准确性。”

成为人工智能“无偏见”的起点
乔普拉说,最初他和团队向任何人开放应用程序,结果发现最早的100个注册用户都是占主导地位的男性。这一经历让他认识到“知识是通过权力渠道传递的”。为了接触到最贫困的社区,以及边缘化的种姓、性别和宗教,他很早就意识到必须与在农村地区有基层影响力的非营利组织合作。 “这些组织可以知道对于谁来说,这笔钱是锦上添花,对于谁来说,这笔钱是改变命运的。”他说到,“而这个过程也确保了工人最终生成的数据有更强多样性,有助于减少AI偏见。”

但在追求新客户的过程中,即使是自诩为“有道德”的企业,最终也可能会因为巨大利润而妥协。那到底什么能阻止Karya陷入与Sama公司同样的困境呢?乔普拉说,在于Karya的公司结构。

Karya在美国注册为非营利组织,控制着印度的两个实体,一个非营利组织和一个营利组织。这个营利组织在法律上有义务将它赚取的任何利润(在支付工人之后)捐赠给非营利组织,后者再将它们用于再投资。他说,这种安排的好处在于,消除了他或联合创始人为了有利可图的合同而牺牲工人工资或福利的任何动机。目前,这是一个有效的模式,但如果慈善资金出现枯竭,这个模式也可能会崩溃。

通过Karya等项目的努力,印度语言的人工智能项目能够从英语人工智能的错误中吸取教训,并从一个更可靠、无偏见的起点开始。如果人工智能技术不满足世界各地多样化的受众,那么这些技术的存在又有什么意义呢?这一点,值得我们每个人深思。

投资不仅仅是为了创造财富,更是一种洞察宏观经济的态度,见证社会演变与科技发展。我们一起,从大变局中看清发展趋势,希望从不确定中找到确定。

狂呼金融研究所聚焦于新的社会发展形势下,金融与经济对当今世界日益凸显的影响。以全面、理性的投资视角,洞察分析每一个趋势与机会,为广大投资者创造更高质量、更独特的金融投资观点。

狂呼,比一部分人更快、更准地看清市场,让大众洞察金融经济的核心。

联系我们// 相关文章

免責聲明:本網站提供的信息僅供一般信息分享目的,並不應被視為投資建議。

返回博客
  • PDD拼多多2026年第一季財報,不及市場預期

    PDD拼多多2026年第一季财报,不及市场预期

    因国内主站营收增长不及预期,营销支出也并未明显下滑,因此实际利润表现并不及预期。分板块来看背后原因,我们认为一方面是 Temu 本季减亏的幅度大概率并没有预期的那么多,另外国内主站的经营利润增长应当也相当有限。

    PDD拼多多2026年第一季财报,不及市场预期

    因国内主站营收增长不及预期,营销支出也并未明显下滑,因此实际利润表现并不及预期。分板块来看背后原因,我们认为一方面是 Temu 本季减亏的幅度大概率并没有预期的那么多,另外国内主站的经营利润增长应当也相当有限。

  • 小米2026年第一季度財報,主要受手機和汽車毛利率同比回落影響

    小米2026年第一季度财报,主要受手机和汽车毛利率同比回落影响

    小米本季度汽车业务毛利率下滑至 20.1%,接近市场预期(20.5%),主要是受均价下滑的影响,其中包含了小米对购置税进行补贴的影响,并在本季度销售了一部分的低价现车。由于毛利率再次回落,海豚君测算本季度小米汽车业务核心经营利润再度陷入亏损 31 亿元。

    小米2026年第一季度财报,主要受手机和汽车毛利率同比回落影响

    小米本季度汽车业务毛利率下滑至 20.1%,接近市场预期(20.5%),主要是受均价下滑的影响,其中包含了小米对购置税进行补贴的影响,并在本季度销售了一部分的低价现车。由于毛利率再次回落,海豚君测算本季度小米汽车业务核心经营利润再度陷入亏损 31 亿元。

  • NVDA英偉達2027財年第一季度財報,收入752億美元,環比增量為129億美元

    英伟达2027财年第一季度财报,收入752亿美元,环比增量为129亿美元

    NVDA核心经营指标:总收入816亿美元,好于上调后的买方预期(780-800亿美元),其中季度环比增长135亿美元,几乎都来自于数据中心业务中Blackwell量产增加的带动。

    英伟达2027财年第一季度财报,收入752亿美元,环比增量为129亿美元

    NVDA核心经营指标:总收入816亿美元,好于上调后的买方预期(780-800亿美元),其中季度环比增长135亿美元,几乎都来自于数据中心业务中Blackwell量产增加的带动。

  • BYD比亞迪2025年第四季度業績仍然不及預期,賣車單價仍處於下行軌道

    比亚迪2025年第四季度业绩仍然不及预期,卖车单价仍处于下行轨道

    比亚迪的业绩仍然不及预期。收入虽超预期,但主要由于非核心的比亚迪电子业务高增带来,而在核心的卖车业务上,卖车单价仍处于下行轨道,卖车成本降幅不够,最后卖车毛利率虽有回暖,但仍低于市场预期。

    比亚迪2025年第四季度业绩仍然不及预期,卖车单价仍处于下行轨道

    比亚迪的业绩仍然不及预期。收入虽超预期,但主要由于非核心的比亚迪电子业务高增带来,而在核心的卖车业务上,卖车单价仍处于下行轨道,卖车成本降幅不够,最后卖车毛利率虽有回暖,但仍低于市场预期。

  • GOOG谷歌TurboQuant新聞導緻MU美光科技等內存股股價暴跌,但這合理嗎?

    GOOG谷歌TurboQuant新闻导致MU美光科技等内存股股价暴跌,但这合理吗?

    消息一出,华尔街一度陷入恐慌:如果 AI 突然间不再需要那么多 RAM 就能运作,这是否意味着内存产业的“超级周期”即将结束?答案是否定的。事实上,从历史规律与经济学角度来看,情况正好相反。要理解这一点,我们只需要观察你电脑上的网页浏览器。

    GOOG谷歌TurboQuant新闻导致MU美光科技等内存股股价暴跌,但这合理吗?

    消息一出,华尔街一度陷入恐慌:如果 AI 突然间不再需要那么多 RAM 就能运作,这是否意味着内存产业的“超级周期”即将结束?答案是否定的。事实上,从历史规律与经济学角度来看,情况正好相反。要理解这一点,我们只需要观察你电脑上的网页浏览器。

  • BABA財報AI投入比較激進

    BABA财报AI投入比较激进

    BABA发布第四季财报后股价下跌,财报显示其营收和利润均大幅低于预期。这家電商巨头的季度净利暴跌67%,而总营收仅增长1.7%约413亿美元。这些表现引发了人们对阿里巴巴在AI人工智能领域巨额投资(总额超过530亿美元)有效性的担忧。

    BABA财报AI投入比较激进

    BABA发布第四季财报后股价下跌,财报显示其营收和利润均大幅低于预期。这家電商巨头的季度净利暴跌67%,而总营收仅增长1.7%约413亿美元。这些表现引发了人们对阿里巴巴在AI人工智能领域巨额投资(总额超过530亿美元)有效性的担忧。

  • MU美光業績,季度毛利率達到 74.4%!

    MU美光业绩,季度毛利率达到 74.4%!

    MU 整体业绩:美光本季度营收 238.6 亿美元,环比增长 75%,好于上调后的买方预期(199 亿美元),本季度收入增长主要来自于 DRAM 和 NAND 业务的双重带动,两大业务环增都在 70% 以上。

    MU美光业绩,季度毛利率达到 74.4%!

    MU 整体业绩:美光本季度营收 238.6 亿美元,环比增长 75%,好于上调后的买方预期(199 亿美元),本季度收入增长主要来自于 DRAM 和 NAND 业务的双重带动,两大业务环增都在 70% 以上。

  • Tencent騰訊業績整體看無驚無喜?

    腾讯业绩整体看无惊无喜?

    腾讯一口气连发多个“龙虾”产品,能够看出公司在元宝春节大战中失利后的焦虑,虽然仓促推出产品还不完善。不过这个紧迫感的转变很关键也很必要。就目前来看,微信入口似乎在 AI 原生应用盛行的当下仍然有无法撼动的地位。

    腾讯业绩整体看无惊无喜?

    腾讯一口气连发多个“龙虾”产品,能够看出公司在元宝春节大战中失利后的焦虑,虽然仓促推出产品还不完善。不过这个紧迫感的转变很关键也很必要。就目前来看,微信入口似乎在 AI 原生应用盛行的当下仍然有无法撼动的地位。

1 / 8
  • Sharpa機器人削蘋果

    Sharpa机器人削苹果

    对人类来说,削苹果是件轻而易举的晨间小事,但对机器人而言,这是双手协调能力的「终极挑战」。 Sharpa机器人正在为能够像人类一样灵巧地完成复杂家务和工业装配的机器人铺平道路。

    Sharpa机器人削苹果

    对人类来说,削苹果是件轻而易举的晨间小事,但对机器人而言,这是双手协调能力的「终极挑战」。 Sharpa机器人正在为能够像人类一样灵巧地完成复杂家务和工业装配的机器人铺平道路。

  • 腫瘤療法突破,中國團隊給癌細胞打上“豬”標簽,癌細胞“偽裝朮”被破解

    肿瘤疗法突破,中国团队给癌细胞打上“猪”标签,癌细胞“伪装术”被破解

    近期,中国科学家在“Cell”杂志上发表的一项突破性研究,为这一顽疾提供了全新思路。他们利用基因编辑技术,将癌细胞改造成免疫系统眼中的“异类”,类似于人体对猪器官产生的超急性排斥反应,从而引发了一场针对癌细胞的精准“免疫歼灭战”。

    肿瘤疗法突破,中国团队给癌细胞打上“猪”标签,癌细胞“伪装术”被破解

    近期,中国科学家在“Cell”杂志上发表的一项突破性研究,为这一顽疾提供了全新思路。他们利用基因编辑技术,将癌细胞改造成免疫系统眼中的“异类”,类似于人体对猪器官产生的超急性排斥反应,从而引发了一场针对癌细胞的精准“免疫歼灭战”。

  • 新型大腦設備首次讀出內心聲音,腦機接口技朮打破失語者困境

    新型大脑设备首次读出内心声音,脑机接口技术打破失语者困境

    新系统的核心原理与常见的“尝试说话”型脑机介面相似,都是在大脑运动皮质植入感测器,这一区域负责向声道肌肉下达运动指令。感测器捕捉到的神经活动会送入机器学习模型,模型依据个人化数据判断信号对应的声音,进而预测使用者想说的单字。

    新型大脑设备首次读出内心声音,脑机接口技术打破失语者困境

    新系统的核心原理与常见的“尝试说话”型脑机介面相似,都是在大脑运动皮质植入感测器,这一区域负责向声道肌肉下达运动指令。感测器捕捉到的神经活动会送入机器学习模型,模型依据个人化数据判断信号对应的声音,进而预测使用者想说的单字。

  • “垃圾DNA”新發現:遠古病毒DNA在人類發育中發揮關鍵作用

    “垃圾DNA”新发现:远古病毒DNA在人类发育中发挥关键作用

    自这类非编码DNA片段首次被发现并被称作“垃圾”以来,生物学家们一直在探讨它们是否真的无用。如今的主流观点认为,这些片段虽不直接参与蛋白质合成,却在整体基因组中占据了极大比例,显示它们可能具有重要功能。

    “垃圾DNA”新发现:远古病毒DNA在人类发育中发挥关键作用

    自这类非编码DNA片段首次被发现并被称作“垃圾”以来,生物学家们一直在探讨它们是否真的无用。如今的主流观点认为,这些片段虽不直接参与蛋白质合成,却在整体基因组中占据了极大比例,显示它们可能具有重要功能。

1 / 4
1 / 4
  • 從中國經濟看背後困境及發展新構想?

    从中国经济看背后困境及发展新构想?

    中国未来发展或许可以参考“五环构想”进行战略布局。这一构想包括高等教育培训、创新科技驱动、产品生产销售、市场推广营销、出海战略布局五大领域。通过“五环构想”的实施,中国经济可能有一个全新的契机注入新的动力,推动经济稳定健康发展。

    从中国经济看背后困境及发展新构想?

    中国未来发展或许可以参考“五环构想”进行战略布局。这一构想包括高等教育培训、创新科技驱动、产品生产销售、市场推广营销、出海战略布局五大领域。通过“五环构想”的实施,中国经济可能有一个全新的契机注入新的动力,推动经济稳定健康发展。

  • 在變革中的抉擇:當今大環境下如何實現職業規劃與人生價值?

    在变革中的抉择:当今大环境下如何实现职业规划与人生价值?

    随着时代的变迁,人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同,有些人追求的是即时的快乐和成就感,而有些人则看重长期的进步和自我超越。

    在变革中的抉择:当今大环境下如何实现职业规划与人生价值?

    随着时代的变迁,人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同,有些人追求的是即时的快乐和成就感,而有些人则看重长期的进步和自我超越。

  • 再見愛人:探索現代婚姻中的情感困境

    再见爱人:探索现代婚姻中的情感困境

    芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子,麦琳、李行亮,葛夕、刘爽三对情感关系10年以上的夫妻,以“婚姻纪实观察”为切口,呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。

    再见爱人:探索现代婚姻中的情感困境

    芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子,麦琳、李行亮,葛夕、刘爽三对情感关系10年以上的夫妻,以“婚姻纪实观察”为切口,呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。

  • 抖音短劇新風潮:中老年人成為新的增長點?

    抖音短剧新风潮:中老年人成为新的增长点?

    近日,不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十,闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事,成了当下短剧创作的“新流量密码”。

    抖音短剧新风潮:中老年人成为新的增长点?

    近日,不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十,闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事,成了当下短剧创作的“新流量密码”。

1 / 4