AI賦能新一代腦機接口,讓癱瘓失語者通過意念實時“說話”

AI赋能新一代脑机接口,让瘫痪失语者通过意念实时“说话”

發布日期:

健康 Health 狂呼科技 Convo Tech 科技 Tech


要点:
为解决脑机接口将瘫痪患者无声言语转化为语音时的延迟问题,在加州大学旧金山分校张复伦团队与加州大学伯克利分校Gopala Anumanchipalli团队的最新研究中,利用先进人工智能技术显著缩短了处理时间,从而实现了更接近实时的自然交流。

在我们的日常生活中,交流是一项至关重要的能力。然而,对于许多瘫痪患者而言,他们常常因身体功能障碍而面临无法与他人顺畅沟通的困境,甚至可能引发患者内心的孤独感和沮丧情绪。

近年来,脑机接口/BCI技术的迅速发展,给这类患者带来了希望。 2023年8月,加州大学旧金山分校张复伦/Edward Chang团队,展示了一种新型脑机接口,能够将因脑干中风导致的严重瘫痪患者在大脑中尝试的无声说话转化为文字、语音和图像,从而有效帮助他们恢复沟通能力。但是,现有的脑机接口系统在将患者大脑中的无声说话转换为语音时,通常存在几秒钟的延迟,这种延迟往往影响患者与听者之间的交流流畅性,给对话带来不必要的困扰。

随着人工智能技术的进步,研究者们逐渐找到了减少这一延迟的办法,并进一步提升了脑机接口的实时性。这一突破性进展有望极大地改善瘫痪患者的沟通质量,提升他们的生活质量。

AI赋能脑机接口:实时解码大脑信号

3月31日,加州大学旧金山分校张复伦团队与加州大学伯克利分校Gopala Anumanchipalli团队合作,在Nature Neuroscience期刊上发表了题为“A streaming brain-to-voice neuroprosthesis to restore naturalistic communication”的研究论文。

该研究开发了一种创新的脑机接口设备,结合了人工智能AI模型训练,植入至一名47岁女性患者的大脑,将她在大脑中想象的言语活动实时转换为声音输出,从而恢复了患者的自然对话能力。这名患者因脑干中风导致四肢和躯干瘫痪,已无法说话或发声长达18年。

这项实验由来自加州大学伯克利分校和加州大学旧金山分校的研究人员联合完成,研究人员通过脑-声神经假体技术与基于AI的模型,开发了一种流式处理方法。该方法使得神经假体具备了类似于语音助手Alexa和Siri的快速语音解码能力,能够将脑信号近乎实时地转化为可听的语音,从而恢复了这名严重瘫痪患者的自然语言交流能力。

为了进行实验,研究人员要求她在大脑中通过意念构建包含1024个独特词汇的完整句子,同时用她的大脑活动训练了一个深度学习神经网络,这些大脑活动通过植入患者言语感觉运动皮质的电极进行记录。研究团队利用该模型,按照每80毫秒的递增速度解码大脑信号,并与受试者的发声意图同步,生成通过受试者在健康时期语音样本训练的声音。这个脑机接口不仅能够处理受试者未接触过的词汇,还可以连续不断地工作,而非仅限于几秒钟的运行。

使用类似的算法,研究团队发现该方法可以解码神经数据,实现近乎同步的语音流传输,同时保证语音输出更加自然和流畅。这项技术还具备良好的适配性,可以与其他脑机接口技术如微电极阵列技术或非侵入性记录技术相结合。

此外,研究人员还在其他无声语音数据集上测试了这项技术,并实现了准确的大脑到语音合成。这表明,技术的应用不局限于某种特定设备,任何信号足够清晰的设备都可以利用相同的算法进行有效处理。

该脑-声神经假体的工作原理是通过从大脑中控制言语的区域(即运动皮层)釆集神经数据,并利用AI将这些数据解码为语音。本质上,研究团队是在拦截大脑信号,这些信号代表了从思维到语言表达的转化过程,包括决定说什么、选择词汇以及如何移动声道肌肉的信号。

为了收集训练数据,研究人员与这名患者进行了合作。尽管患者由于脑干中风已无法发声,但他们通过让她看屏幕上的提示词,例如“嘿,你好吗?”并尝试默念这些词,建立了大脑活动与目标句子之间的映射。由于患者无法发出声音,研究团队没有现成的音频或目标输出可以用于映射神经数据,但通过AI技术,他们填补了这些缺失的细节。具体而言,研究人员利用一个预训练的文本到语音模型生成音频,模拟患者患病前的声音,使解码后的语音更加接近患者自然的音色。

此前,在解码语音时,通常存在较长的延迟,单句的解码延迟大约为8秒。然而,在本次研究中,研究人员釆用了新型的流式处理方法,使得受试者在尝试说话时,能够近乎实时地生成可听见的输出。

为了测量延迟,研究人员使用了语音检测技术,以识别出表示受试者开始尝试说话的大脑信号。在意图信号出现后的1秒内,系统便能够发出首个声音。同时,这项技术还能持续不断地解码语音,使得受试者能够连续地输出内容。

对于参与本次研究的这名受试者而言,她曾在2023年参与过该团队的另一个课题,当时她参与的是文本到语音的解码实验。相比之下,新的流式合成方法使她能够近乎实时地听到自己的声音,这增强了她的代入感。她表示,流式合成更能体现她对语音的意志控制。

尽管解码速度有了显著提升,但精度并未受到影响。与以前的非流式处理方式相比,这种更快速的脑机接口依然能够保持高水平的解码准确性。

研究人员表示,以前对于是否能够从大脑中实时提取出可理解的语音信号并不确定,同时也不清楚AI是否在学习并适应大脑信号,还是仅仅在进行模式匹配并重复训练数据中的内容。为了解决这一疑问,研究团队测试了模型在训练数据集之外的词汇解码能力。他们选择了26个来自北约音标字母表中的生僻词,如Alpha、Bravo、Charlie等,来测试模型能否针对这些未见过的单词进行泛化,进而解码出受试者的说话模式。结果表明,实时模型表现优异,证明它不仅能够有效学习音调和声音的基本要素,还具备了适应未知词汇的能力。

AI实时意念解码:自然流式无声语音解码系统

为了让患者能够自然流畅地表达,研究团队构建了一个语音合成神经假体系统。该系统的核心在于一个覆盖患者言语感觉运动皮层及部分颞叶的253通道电极阵列,它负责捕捉患者尝试说话时产生的脑电信号。这些信号随后被用来合成目标语音。

系统的训练过程依赖于记录患者在尝试“默念”屏幕上显示的句子时的大脑活动。当屏幕给出绿色的“开始”提示时,患者便开始尝试无声地“说”出句子。系统会将解码合成的语音通过扬声器播放出来,同时解码出的文字也会显示在监视器上。

研究人员设计了一个巧妙的“双模态”神经解码器。经过联合训练,这个解码器不仅能合成可听的语音,还能同步地将大脑信号“翻译”成文字。

具体解码时,系统会提取大脑信号中的高伽马活动和低频信号,并将这些特征输入到一个定制的双峰解码模型中。从患者开始尝试说话(收到GO提示)后的500毫秒起,该模型会以每80毫秒为一个步长,持续处理传入的神经特征,实时地同步解码出语音和文本。

在技术选型上,团队受到了流式自动语音识别/ASR技术的启发,釆用了一种名为“循环神经网络转导器”/RNN-T的灵活神经网络架构。这种架构的优势在于它能够实时处理信息,不需要等待未来的输入。此外,研究人员对其进行了调整,使其能够根据大脑神经特征,流式地合成语音和解码文本。

在工作时,循环神经网络/RNN实时处理神经特征,生成代表语音内容的编码向量。对于语音合成,这些编码与一个流式声学语音单元语言模型结合,预测下一个最可能的声学单元(从100个候选单元中选择)。对于文本解码,编码则与一个流式子词文本语言模型结合,预测下一个最可能的文本子词(从4096个候选单元中选择)。通过一种名为“集束搜索”的算法,系统能高效地确定最有可能的声学单元和文本编码序列。

最终,预测出的声学单元被送入一个“个性化语音合成器”,生成与患者尝试说话动作同步播放的声音片段。这个合成器经过特殊训练,使用了患者失语前录制的一段简短语音,以尽可能还原她原本的声音。

由于患者无法发出清晰的声音,如何将大脑信号与她“想说的话”精确对应是一个挑战。研究人员通过釆用RNN-T损失函数进行训练来解决这个问题。该方法不仅能学习预测输出单元的概率,还能学习它们之间的关联性,从而有效对齐神经数据和意图。团队还利用了名为HuBERT的自监督模型,从文本转语音/TTS技术生成的参考音频中提取声学语音单元,作为训练目标。此外,合成器还被训练来模拟患者的语速。

为了全面评估系统性能,研究人员使用了两套句子集:一套包含50个常用短语(主要用于表达护理需求),另一套则包含由1024个不同单词组成的近12400个通用句子。在训练阶段,患者几乎完整地“默念”了这两套句子集两次,总计尝试了超过23000次。

为了测试系统的泛化能力(即处理新情况的能力),研究人员进行了两项关键测试:一是让系统解码由已知词汇组成、但患者从未“说过”的新句子;二是让系统解码包含训练词库之外的新词。结果显示系统表现良好。

研究人员还探索了一种替代方案:利用解码出的文本来指导一个文本转语音/TTS模型生成语音。这种方法可以提高语音的可懂度,但可能会牺牲一些自然度。理论上,任何满足实时处理要求的文本解码算法都可以与此系统结合。

这项研究展示了一种能够实现低延迟、自然语音交流的脑机接口解码方法,它可以同时输出语音和文本。 这项工作显著缩短了患者尝试说话到实际发出声音之间的时间差,解决了语音神经假体长期存在的延迟问题。这对于帮助失语者恢复流畅自然的对话至关重要,因为即使是几秒钟的延迟也会打断交流的自然性,可能导致患者感到孤立和挫败。

尽管取得了重大进展,研究仍在继续。 未来的目标是让合成语音包含更丰富的副语言特征,如语调、音高和音量的变化,以反映说话者的情绪和意图,使交流更加生动自然。研究团队将持续优化算法,探索更快、更好地生成富有表现力语音的方法,最终目标是开发出适合失语者日常使用的实用化语音神经假体。

狂呼科技 Convo Tech

科技正以前所未有的速度和規模發展,引發多個領域的變革,塑造了新的商業模式,甚至重塑了全新社會結構。我們一起,從科技創新中洞察社會轉型和升級的機遇。

狂呼科技,研究,聚焦科技創新對當今世界的影響,以獨特、前瞻的科技視角,洞察科技時代下涌現的“創新革命”。

狂呼,以最具突破性的技朮塑造我們的未來,為大眾捕捉科技商業先機,探索當今人類社會面臨的重大挑戰。

聯系我們 | 相關文章

免責聲明:本網站提供的信息僅供一般信息分享目的,並不應被視為投資建議。

返回博客
  • BILI嗶哩嗶哩2025年二季度財報,整體收入基本符合指引

    BILI哔哩哔哩2025年二季度财报,整体收入基本符合指引

    BILI利润超预期,这次亮点仍然是盈利端,明显超市场预期,但主要是营销费用较低带来。二季度虽然没新游本身营销费用理应不多,但《三谋》有周年庆活动,年初几次赛季更新变动也不小,因此也并非完全不需要额外的营销。

    BILI哔哩哔哩2025年二季度财报,整体收入基本符合指引

    BILI利润超预期,这次亮点仍然是盈利端,明显超市场预期,但主要是营销费用较低带来。二季度虽然没新游本身营销费用理应不多,但《三谋》有周年庆活动,年初几次赛季更新变动也不小,因此也并非完全不需要额外的营销。

  • BIDU百度二季度業績略超預期

    BIDU百度二季度业绩略超预期

    百度智慧云预期中高增长:云业务在当下是风口,高增长自然没得说。不过少了上季度的惊艳,二季度的27% 增长符合市场大部分预期,利好早已经打入估值。广告陷痛苦转型期:转型的阵痛开始变得醒目,目前搜索结果中AI 生成内容的渗透率已经提高至64%。

    BIDU百度二季度业绩略超预期

    百度智慧云预期中高增长:云业务在当下是风口,高增长自然没得说。不过少了上季度的惊艳,二季度的27% 增长符合市场大部分预期,利好早已经打入估值。广告陷痛苦转型期:转型的阵痛开始变得醒目,目前搜索结果中AI 生成内容的渗透率已经提高至64%。

  • LABUBU泡泡瑪特2025年H1業績,利潤均超過了去年全年水平

    LABUBU泡泡玛特2025年H1业绩,利润均超过了去年全年水平

    THE MONSTERS 系列目前作为泡泡玛特的第一大IP,经过近一年的“狂飙”,目前销售占比已经接近35%,这还是在公司主动控货的情况下。这意味着明年在高基数的情况下,如果消费者对LABUBU 产生审美疲劳,对泡泡玛特整体的业绩冲击会比较大。

    LABUBU泡泡玛特2025年H1业绩,利润均超过了去年全年水平

    THE MONSTERS 系列目前作为泡泡玛特的第一大IP,经过近一年的“狂飙”,目前销售占比已经接近35%,这还是在公司主动控货的情况下。这意味着明年在高基数的情况下,如果消费者对LABUBU 产生审美疲劳,对泡泡玛特整体的业绩冲击会比较大。

  • 小米2025年第二季度財報,汽車業務毛利率繼續提升!

    小米2025年第二季度财报,汽车业务毛利率继续提升!

    小米公司本季度汽车出货量8.1 万台,单车均价进一步提升至25.3 万元。主要是受Ultra 车型等高价车型出货,结构性带动均价提升。本季度汽车业务毛利率继续提升至26.4%,再超市场预期23.5%,主要是受均价提升和规模效应的带动。

    小米2025年第二季度财报,汽车业务毛利率继续提升!

    小米公司本季度汽车出货量8.1 万台,单车均价进一步提升至25.3 万元。主要是受Ultra 车型等高价车型出货,结构性带动均价提升。本季度汽车业务毛利率继续提升至26.4%,再超市场预期23.5%,主要是受均价提升和规模效应的带动。

  • 本周資本市場推測9月降息的聲音越來越響亮

    本周资本市场推测9月降息的声音越来越响亮

    降息之路并非一帆风顺。市场时而充满期待,时而又因联准会未如预期行动而感到失望。然而,专家们仍认为利率走势有望保持在相对低位。随着通膨持续疲弱、劳动市场压力逐步显现,风险平衡正加速倾向降息。

    本周资本市场推测9月降息的声音越来越响亮

    降息之路并非一帆风顺。市场时而充满期待,时而又因联准会未如预期行动而感到失望。然而,专家们仍认为利率走势有望保持在相对低位。随着通膨持续疲弱、劳动市场压力逐步显现,风险平衡正加速倾向降息。

  • 美國政府正考慮入股英特爾,新模式或重塑全球芯片產業格局?

    美国政府正考虑入股英特尔,新模式或重塑全球芯片产业格局?

    美国政府正在与芯片制造商英特尔/Intel进行谈判,希望入股这家陷入困境的公司。随后该公司股价周四上涨7% 。这一消息的传出,标志着美国政府将自己置于关键产业核心的决心,并符合特朗普总统长期以来呼吁在美国本土生产更多芯片和高科技产品的政策主张。

    美国政府正考虑入股英特尔,新模式或重塑全球芯片产业格局?

    美国政府正在与芯片制造商英特尔/Intel进行谈判,希望入股这家陷入困境的公司。随后该公司股价周四上涨7% 。这一消息的传出,标志着美国政府将自己置于关键产业核心的决心,并符合特朗普总统长期以来呼吁在美国本土生产更多芯片和高科技产品的政策主张。

  • 中加貿易戰升級:中國對加拿大油菜籽徵收75.8%關稅

    中加贸易战升级:中国对加拿大油菜籽征收75.8%关税

    中加两国持续一年的贸易争端再次升级。中国于本周二宣布,将对从加拿大进口的“油菜籽/Canola”加征高达75.8%的临时反倾销税,此举是对去年加拿大对中国电动汽车征收关税的最新反制。这项突如其来的关税政策,立即在加拿大油籽市场引发剧烈震荡。

    中加贸易战升级:中国对加拿大油菜籽征收75.8%关税

    中加两国持续一年的贸易争端再次升级。中国于本周二宣布,将对从加拿大进口的“油菜籽/Canola”加征高达75.8%的临时反倾销税,此举是对去年加拿大对中国电动汽车征收关税的最新反制。这项突如其来的关税政策,立即在加拿大油籽市场引发剧烈震荡。

  • 騰訊2025年二季度業績,股王依舊穩得讓人安心

    腾讯2025年二季度业绩,股王依旧稳得让人安心

    腾讯毛利率主要是因为游戏、广告等本身高利润率的业务占比提升,聚焦长青游戏IP 开发的战略,也使得近两年新游的变现效率高于以往。而费用上,增长主要体现在由AI 带来的的服务器带宽、设备折旧上,以及研发人员的成本,但整体看均相对可控。

    腾讯2025年二季度业绩,股王依旧稳得让人安心

    腾讯毛利率主要是因为游戏、广告等本身高利润率的业务占比提升,聚焦长青游戏IP 开发的战略,也使得近两年新游的变现效率高于以往。而费用上,增长主要体现在由AI 带来的的服务器带宽、设备折旧上,以及研发人员的成本,但整体看均相对可控。

1 / 8
1 / 4
1 / 4
  • 從中國經濟看背後困境及發展新構想?

    从中国经济看背后困境及发展新构想?

    中国未来发展或许可以参考“五环构想”进行战略布局。这一构想包括高等教育培训、创新科技驱动、产品生产销售、市场推广营销、出海战略布局五大领域。通过“五环构想”的实施,中国经济可能有一个全新的契机注入新的动力,推动经济稳定健康发展。

    从中国经济看背后困境及发展新构想?

    中国未来发展或许可以参考“五环构想”进行战略布局。这一构想包括高等教育培训、创新科技驱动、产品生产销售、市场推广营销、出海战略布局五大领域。通过“五环构想”的实施,中国经济可能有一个全新的契机注入新的动力,推动经济稳定健康发展。

  • 在變革中的抉擇:當今大環境下如何實現職業規劃與人生價值?

    在变革中的抉择:当今大环境下如何实现职业规划与人生价值?

    随着时代的变迁,人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同,有些人追求的是即时的快乐和成就感,而有些人则看重长期的进步和自我超越。

    在变革中的抉择:当今大环境下如何实现职业规划与人生价值?

    随着时代的变迁,人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同,有些人追求的是即时的快乐和成就感,而有些人则看重长期的进步和自我超越。

  • 再見愛人:探索現代婚姻中的情感困境

    再见爱人:探索现代婚姻中的情感困境

    芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子,麦琳、李行亮,葛夕、刘爽三对情感关系10年以上的夫妻,以“婚姻纪实观察”为切口,呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。

    再见爱人:探索现代婚姻中的情感困境

    芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子,麦琳、李行亮,葛夕、刘爽三对情感关系10年以上的夫妻,以“婚姻纪实观察”为切口,呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。

  • 抖音短劇新風潮:中老年人成為新的增長點?

    抖音短剧新风潮:中老年人成为新的增长点?

    近日,不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十,闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事,成了当下短剧创作的“新流量密码”。

    抖音短剧新风潮:中老年人成为新的增长点?

    近日,不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十,闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事,成了当下短剧创作的“新流量密码”。

1 / 4