AI賦能新一代腦機接口,讓癱瘓失語者通過意念實時“說話”

AI赋能新一代脑机接口,让瘫痪失语者通过意念实时“说话”

發布日期:

健康 Health 狂呼科技 Convo Tech 科技 Tech


要点:
为解决脑机接口将瘫痪患者无声言语转化为语音时的延迟问题,在加州大学旧金山分校张复伦团队与加州大学伯克利分校Gopala Anumanchipalli团队的最新研究中,利用先进人工智能技术显著缩短了处理时间,从而实现了更接近实时的自然交流。

在我们的日常生活中,交流是一项至关重要的能力。然而,对于许多瘫痪患者而言,他们常常因身体功能障碍而面临无法与他人顺畅沟通的困境,甚至可能引发患者内心的孤独感和沮丧情绪。

近年来,脑机接口/BCI技术的迅速发展,给这类患者带来了希望。 2023年8月,加州大学旧金山分校张复伦/Edward Chang团队,展示了一种新型脑机接口,能够将因脑干中风导致的严重瘫痪患者在大脑中尝试的无声说话转化为文字、语音和图像,从而有效帮助他们恢复沟通能力。但是,现有的脑机接口系统在将患者大脑中的无声说话转换为语音时,通常存在几秒钟的延迟,这种延迟往往影响患者与听者之间的交流流畅性,给对话带来不必要的困扰。

随着人工智能技术的进步,研究者们逐渐找到了减少这一延迟的办法,并进一步提升了脑机接口的实时性。这一突破性进展有望极大地改善瘫痪患者的沟通质量,提升他们的生活质量。

AI赋能脑机接口:实时解码大脑信号

3月31日,加州大学旧金山分校张复伦团队与加州大学伯克利分校Gopala Anumanchipalli团队合作,在Nature Neuroscience期刊上发表了题为“A streaming brain-to-voice neuroprosthesis to restore naturalistic communication”的研究论文。

该研究开发了一种创新的脑机接口设备,结合了人工智能AI模型训练,植入至一名47岁女性患者的大脑,将她在大脑中想象的言语活动实时转换为声音输出,从而恢复了患者的自然对话能力。这名患者因脑干中风导致四肢和躯干瘫痪,已无法说话或发声长达18年。

这项实验由来自加州大学伯克利分校和加州大学旧金山分校的研究人员联合完成,研究人员通过脑-声神经假体技术与基于AI的模型,开发了一种流式处理方法。该方法使得神经假体具备了类似于语音助手Alexa和Siri的快速语音解码能力,能够将脑信号近乎实时地转化为可听的语音,从而恢复了这名严重瘫痪患者的自然语言交流能力。

为了进行实验,研究人员要求她在大脑中通过意念构建包含1024个独特词汇的完整句子,同时用她的大脑活动训练了一个深度学习神经网络,这些大脑活动通过植入患者言语感觉运动皮质的电极进行记录。研究团队利用该模型,按照每80毫秒的递增速度解码大脑信号,并与受试者的发声意图同步,生成通过受试者在健康时期语音样本训练的声音。这个脑机接口不仅能够处理受试者未接触过的词汇,还可以连续不断地工作,而非仅限于几秒钟的运行。

使用类似的算法,研究团队发现该方法可以解码神经数据,实现近乎同步的语音流传输,同时保证语音输出更加自然和流畅。这项技术还具备良好的适配性,可以与其他脑机接口技术如微电极阵列技术或非侵入性记录技术相结合。

此外,研究人员还在其他无声语音数据集上测试了这项技术,并实现了准确的大脑到语音合成。这表明,技术的应用不局限于某种特定设备,任何信号足够清晰的设备都可以利用相同的算法进行有效处理。

该脑-声神经假体的工作原理是通过从大脑中控制言语的区域(即运动皮层)釆集神经数据,并利用AI将这些数据解码为语音。本质上,研究团队是在拦截大脑信号,这些信号代表了从思维到语言表达的转化过程,包括决定说什么、选择词汇以及如何移动声道肌肉的信号。

为了收集训练数据,研究人员与这名患者进行了合作。尽管患者由于脑干中风已无法发声,但他们通过让她看屏幕上的提示词,例如“嘿,你好吗?”并尝试默念这些词,建立了大脑活动与目标句子之间的映射。由于患者无法发出声音,研究团队没有现成的音频或目标输出可以用于映射神经数据,但通过AI技术,他们填补了这些缺失的细节。具体而言,研究人员利用一个预训练的文本到语音模型生成音频,模拟患者患病前的声音,使解码后的语音更加接近患者自然的音色。

此前,在解码语音时,通常存在较长的延迟,单句的解码延迟大约为8秒。然而,在本次研究中,研究人员釆用了新型的流式处理方法,使得受试者在尝试说话时,能够近乎实时地生成可听见的输出。

为了测量延迟,研究人员使用了语音检测技术,以识别出表示受试者开始尝试说话的大脑信号。在意图信号出现后的1秒内,系统便能够发出首个声音。同时,这项技术还能持续不断地解码语音,使得受试者能够连续地输出内容。

对于参与本次研究的这名受试者而言,她曾在2023年参与过该团队的另一个课题,当时她参与的是文本到语音的解码实验。相比之下,新的流式合成方法使她能够近乎实时地听到自己的声音,这增强了她的代入感。她表示,流式合成更能体现她对语音的意志控制。

尽管解码速度有了显著提升,但精度并未受到影响。与以前的非流式处理方式相比,这种更快速的脑机接口依然能够保持高水平的解码准确性。

研究人员表示,以前对于是否能够从大脑中实时提取出可理解的语音信号并不确定,同时也不清楚AI是否在学习并适应大脑信号,还是仅仅在进行模式匹配并重复训练数据中的内容。为了解决这一疑问,研究团队测试了模型在训练数据集之外的词汇解码能力。他们选择了26个来自北约音标字母表中的生僻词,如Alpha、Bravo、Charlie等,来测试模型能否针对这些未见过的单词进行泛化,进而解码出受试者的说话模式。结果表明,实时模型表现优异,证明它不仅能够有效学习音调和声音的基本要素,还具备了适应未知词汇的能力。

AI实时意念解码:自然流式无声语音解码系统

为了让患者能够自然流畅地表达,研究团队构建了一个语音合成神经假体系统。该系统的核心在于一个覆盖患者言语感觉运动皮层及部分颞叶的253通道电极阵列,它负责捕捉患者尝试说话时产生的脑电信号。这些信号随后被用来合成目标语音。

系统的训练过程依赖于记录患者在尝试“默念”屏幕上显示的句子时的大脑活动。当屏幕给出绿色的“开始”提示时,患者便开始尝试无声地“说”出句子。系统会将解码合成的语音通过扬声器播放出来,同时解码出的文字也会显示在监视器上。

研究人员设计了一个巧妙的“双模态”神经解码器。经过联合训练,这个解码器不仅能合成可听的语音,还能同步地将大脑信号“翻译”成文字。

具体解码时,系统会提取大脑信号中的高伽马活动和低频信号,并将这些特征输入到一个定制的双峰解码模型中。从患者开始尝试说话(收到GO提示)后的500毫秒起,该模型会以每80毫秒为一个步长,持续处理传入的神经特征,实时地同步解码出语音和文本。

在技术选型上,团队受到了流式自动语音识别/ASR技术的启发,釆用了一种名为“循环神经网络转导器”/RNN-T的灵活神经网络架构。这种架构的优势在于它能够实时处理信息,不需要等待未来的输入。此外,研究人员对其进行了调整,使其能够根据大脑神经特征,流式地合成语音和解码文本。

在工作时,循环神经网络/RNN实时处理神经特征,生成代表语音内容的编码向量。对于语音合成,这些编码与一个流式声学语音单元语言模型结合,预测下一个最可能的声学单元(从100个候选单元中选择)。对于文本解码,编码则与一个流式子词文本语言模型结合,预测下一个最可能的文本子词(从4096个候选单元中选择)。通过一种名为“集束搜索”的算法,系统能高效地确定最有可能的声学单元和文本编码序列。

最终,预测出的声学单元被送入一个“个性化语音合成器”,生成与患者尝试说话动作同步播放的声音片段。这个合成器经过特殊训练,使用了患者失语前录制的一段简短语音,以尽可能还原她原本的声音。

由于患者无法发出清晰的声音,如何将大脑信号与她“想说的话”精确对应是一个挑战。研究人员通过釆用RNN-T损失函数进行训练来解决这个问题。该方法不仅能学习预测输出单元的概率,还能学习它们之间的关联性,从而有效对齐神经数据和意图。团队还利用了名为HuBERT的自监督模型,从文本转语音/TTS技术生成的参考音频中提取声学语音单元,作为训练目标。此外,合成器还被训练来模拟患者的语速。

为了全面评估系统性能,研究人员使用了两套句子集:一套包含50个常用短语(主要用于表达护理需求),另一套则包含由1024个不同单词组成的近12400个通用句子。在训练阶段,患者几乎完整地“默念”了这两套句子集两次,总计尝试了超过23000次。

为了测试系统的泛化能力(即处理新情况的能力),研究人员进行了两项关键测试:一是让系统解码由已知词汇组成、但患者从未“说过”的新句子;二是让系统解码包含训练词库之外的新词。结果显示系统表现良好。

研究人员还探索了一种替代方案:利用解码出的文本来指导一个文本转语音/TTS模型生成语音。这种方法可以提高语音的可懂度,但可能会牺牲一些自然度。理论上,任何满足实时处理要求的文本解码算法都可以与此系统结合。

这项研究展示了一种能够实现低延迟、自然语音交流的脑机接口解码方法,它可以同时输出语音和文本。 这项工作显著缩短了患者尝试说话到实际发出声音之间的时间差,解决了语音神经假体长期存在的延迟问题。这对于帮助失语者恢复流畅自然的对话至关重要,因为即使是几秒钟的延迟也会打断交流的自然性,可能导致患者感到孤立和挫败。

尽管取得了重大进展,研究仍在继续。 未来的目标是让合成语音包含更丰富的副语言特征,如语调、音高和音量的变化,以反映说话者的情绪和意图,使交流更加生动自然。研究团队将持续优化算法,探索更快、更好地生成富有表现力语音的方法,最终目标是开发出适合失语者日常使用的实用化语音神经假体。

狂呼科技 Convo Tech

科技正以前所未有的速度和規模發展,引發多個領域的變革,塑造了新的商業模式,甚至重塑了全新社會結構。我們一起,從科技創新中洞察社會轉型和升級的機遇。

狂呼科技,研究,聚焦科技創新對當今世界的影響,以獨特、前瞻的科技視角,洞察科技時代下涌現的“創新革命”。

狂呼,以最具突破性的技朮塑造我們的未來,為大眾捕捉科技商業先機,探索當今人類社會面臨的重大挑戰。

聯系我們 | 相關文章

免責聲明:本網站提供的信息僅供一般信息分享目的,並不應被視為投資建議。

返回博客
  • NVDA英偉達2026財年第四季度財報,利潤端持續向好!

    NVDA英伟达2026财年第四季度财报,利润端持续向好!

    NVDA英伟达本次财报数据依然是相当不错的,其中收入端本季度环比增长111 亿美元,基本都来自于数据中心业务中Blackwell 系列量产增加的带动,公司毛利率也重新回到了75%。对于下季度指引,公司预计收入端将继续提升至780 亿美元。

    NVDA英伟达2026财年第四季度财报,利润端持续向好!

    NVDA英伟达本次财报数据依然是相当不错的,其中收入端本季度环比增长111 亿美元,基本都来自于数据中心业务中Blackwell 系列量产增加的带动,公司毛利率也重新回到了75%。对于下季度指引,公司预计收入端将继续提升至780 亿美元。

  • 從傳奇到威脅:Anthropic AI如何破解COBOL現代化僵局,並引發IBM股價巨震

    从传奇到威胁:Anthropic AI如何破解COBOL现代化僵局,并引发IBM股价巨震

    今日,科技界与华尔街同时感受到了一场强震。人工智慧领先企业Anthropic 正式发布了专为COBOL 现代化设计的Claude Code 工具与实战手册。这项消息发布后,全球科技服务巨头IBM 的股价在盘中应声重挫近10%。

    从传奇到威胁:Anthropic AI如何破解COBOL现代化僵局,并引发IBM股价巨震

    今日,科技界与华尔街同时感受到了一场强震。人工智慧领先企业Anthropic 正式发布了专为COBOL 现代化设计的Claude Code 工具与实战手册。这项消息发布后,全球科技服务巨头IBM 的股价在盘中应声重挫近10%。

  • 美國最高法院裁定川普全球關稅違憲!

    美国最高法院裁定川普全球关税违宪!

    2月20日,美国最高法院以6比3的投票结果推翻了美国政府在全球征收的大规模关税。法院裁定,总统援引《国际紧急经济权力法》(IEEPA)在全球范围内征收关税属于越权行为。法院并未就进口商有权获得退税的程度作出裁决,而是将此项决定留给了下级法院。

    美国最高法院裁定川普全球关税违宪!

    2月20日,美国最高法院以6比3的投票结果推翻了美国政府在全球征收的大规模关税。法院裁定,总统援引《国际紧急经济权力法》(IEEPA)在全球范围内征收关税属于越权行为。法院并未就进口商有权获得退税的程度作出裁决,而是将此项决定留给了下级法院。

  • AMZN亞馬遜財報,AWS如期明顯提速

    AMZN亚马逊财报,AWS如期明显提速

    AMZN自研芯片也大体解决了获取GPU 的劣势,市场对AWS 后续的增长前景是非常乐观的。结合公司披露,AWS 会是未来2 年内,新增算力供应最多的云服务商。按此前到27 年算力翻倍的指引,预期未来2 年AWS 会合计新增约10 GW 算力。

    AMZN亚马逊财报,AWS如期明显提速

    AMZN自研芯片也大体解决了获取GPU 的劣势,市场对AWS 后续的增长前景是非常乐观的。结合公司披露,AWS 会是未来2 年内,新增算力供应最多的云服务商。按此前到27 年算力翻倍的指引,预期未来2 年AWS 会合计新增约10 GW 算力。

  • GOOG谷歌財報,持續AI投入

    GOOG谷歌财报,持续AI投入

    GOOG 2026 年指引1750-1850 亿美元,同比翻倍,而市场此前预期只有1300 亿!原本以为Meta 的资本开支已经够多了,结果谷歌告诉你谁才是财大气粗的“真大哥”。

    GOOG谷歌财报,持续AI投入

    GOOG 2026 年指引1750-1850 亿美元,同比翻倍,而市场此前预期只有1300 亿!原本以为Meta 的资本开支已经够多了,结果谷歌告诉你谁才是财大气粗的“真大哥”。

  • AMD業績,服務器GPU再次疲軟

    AMD业绩,服务器GPU再次疲软

    AMD AI GPU:再次疲软。拆分来看,公司本季度数据中心的主要增量是来自于MI308 的再次销售,而其余AI GPU(含MI355)的环增仅有1.5 亿美元左右。对于2025 年下半年才开始量产的MI355,只有这个环增表现,很难让市场满意。

    AMD业绩,服务器GPU再次疲软

    AMD AI GPU:再次疲软。拆分来看,公司本季度数据中心的主要增量是来自于MI308 的再次销售,而其余AI GPU(含MI355)的环增仅有1.5 亿美元左右。对于2025 年下半年才开始量产的MI355,只有这个环增表现,很难让市场满意。

  • PLTR業績,政府訂單和企業客户需求強勁,國際市場增長乏力?

    PLTR业绩,政府订单和企业客户需求强劲,国际市场增长乏力?

    美国政府收入被视作Palantir 的护城河,本季度主要是前期合同的收入确认,拉动收入增速提高至60%。 12 月10 日Palantir 新拿下了一个价值4.48 亿美元的海军订单——与美国海军共同推出ShipOS,该系统将Foundry 以及AIP 技术应用在美国海外作业领域。

    PLTR业绩,政府订单和企业客户需求强劲,国际市场增长乏力?

    美国政府收入被视作Palantir 的护城河,本季度主要是前期合同的收入确认,拉动收入增速提高至60%。 12 月10 日Palantir 新拿下了一个价值4.48 亿美元的海军订单——与美国海军共同推出ShipOS,该系统将Foundry 以及AIP 技术应用在美国海外作业领域。

  • DIS迪士尼2026財年第一季度業績,沒有太多驚喜

    DIS迪士尼2026财年第一季度业绩,没有太多惊喜

    迪士尼一季度业绩再次没有太多惊喜,也没大雷,但市场似乎不太满意,财报后股价跌了6%。关键原因在于市场对迪士尼未来长期增长的预判力降低。尤其是在不再披露Disney+订阅数之后,对支撑估值的流媒体扩张是否有清晰的路线和增长逻辑成为资金主要关心的问题。

    DIS迪士尼2026财年第一季度业绩,没有太多惊喜

    迪士尼一季度业绩再次没有太多惊喜,也没大雷,但市场似乎不太满意,财报后股价跌了6%。关键原因在于市场对迪士尼未来长期增长的预判力降低。尤其是在不再披露Disney+订阅数之后,对支撑估值的流媒体扩张是否有清晰的路线和增长逻辑成为资金主要关心的问题。

1 / 8
1 / 4
1 / 4
  • 從中國經濟看背後困境及發展新構想?

    从中国经济看背后困境及发展新构想?

    中国未来发展或许可以参考“五环构想”进行战略布局。这一构想包括高等教育培训、创新科技驱动、产品生产销售、市场推广营销、出海战略布局五大领域。通过“五环构想”的实施,中国经济可能有一个全新的契机注入新的动力,推动经济稳定健康发展。

    从中国经济看背后困境及发展新构想?

    中国未来发展或许可以参考“五环构想”进行战略布局。这一构想包括高等教育培训、创新科技驱动、产品生产销售、市场推广营销、出海战略布局五大领域。通过“五环构想”的实施,中国经济可能有一个全新的契机注入新的动力,推动经济稳定健康发展。

  • 在變革中的抉擇:當今大環境下如何實現職業規劃與人生價值?

    在变革中的抉择:当今大环境下如何实现职业规划与人生价值?

    随着时代的变迁,人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同,有些人追求的是即时的快乐和成就感,而有些人则看重长期的进步和自我超越。

    在变革中的抉择:当今大环境下如何实现职业规划与人生价值?

    随着时代的变迁,人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同,有些人追求的是即时的快乐和成就感,而有些人则看重长期的进步和自我超越。

  • 再見愛人:探索現代婚姻中的情感困境

    再见爱人:探索现代婚姻中的情感困境

    芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子,麦琳、李行亮,葛夕、刘爽三对情感关系10年以上的夫妻,以“婚姻纪实观察”为切口,呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。

    再见爱人:探索现代婚姻中的情感困境

    芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子,麦琳、李行亮,葛夕、刘爽三对情感关系10年以上的夫妻,以“婚姻纪实观察”为切口,呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。

  • 抖音短劇新風潮:中老年人成為新的增長點?

    抖音短剧新风潮:中老年人成为新的增长点?

    近日,不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十,闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事,成了当下短剧创作的“新流量密码”。

    抖音短剧新风潮:中老年人成为新的增长点?

    近日,不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十,闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事,成了当下短剧创作的“新流量密码”。

1 / 4