AI賦能新一代腦機接口,讓癱瘓失語者通過意念實時“說話”

AI赋能新一代脑机接口,让瘫痪失语者通过意念实时“说话”

發布日期:

健康 Health 狂呼科技 Convo Tech 科技 Tech


要点:
为解决脑机接口将瘫痪患者无声言语转化为语音时的延迟问题,在加州大学旧金山分校张复伦团队与加州大学伯克利分校Gopala Anumanchipalli团队的最新研究中,利用先进人工智能技术显著缩短了处理时间,从而实现了更接近实时的自然交流。

在我们的日常生活中,交流是一项至关重要的能力。然而,对于许多瘫痪患者而言,他们常常因身体功能障碍而面临无法与他人顺畅沟通的困境,甚至可能引发患者内心的孤独感和沮丧情绪。

近年来,脑机接口/BCI技术的迅速发展,给这类患者带来了希望。 2023年8月,加州大学旧金山分校张复伦/Edward Chang团队,展示了一种新型脑机接口,能够将因脑干中风导致的严重瘫痪患者在大脑中尝试的无声说话转化为文字、语音和图像,从而有效帮助他们恢复沟通能力。但是,现有的脑机接口系统在将患者大脑中的无声说话转换为语音时,通常存在几秒钟的延迟,这种延迟往往影响患者与听者之间的交流流畅性,给对话带来不必要的困扰。

随着人工智能技术的进步,研究者们逐渐找到了减少这一延迟的办法,并进一步提升了脑机接口的实时性。这一突破性进展有望极大地改善瘫痪患者的沟通质量,提升他们的生活质量。

AI赋能脑机接口:实时解码大脑信号

3月31日,加州大学旧金山分校张复伦团队与加州大学伯克利分校Gopala Anumanchipalli团队合作,在Nature Neuroscience期刊上发表了题为“A streaming brain-to-voice neuroprosthesis to restore naturalistic communication”的研究论文。

该研究开发了一种创新的脑机接口设备,结合了人工智能AI模型训练,植入至一名47岁女性患者的大脑,将她在大脑中想象的言语活动实时转换为声音输出,从而恢复了患者的自然对话能力。这名患者因脑干中风导致四肢和躯干瘫痪,已无法说话或发声长达18年。

这项实验由来自加州大学伯克利分校和加州大学旧金山分校的研究人员联合完成,研究人员通过脑-声神经假体技术与基于AI的模型,开发了一种流式处理方法。该方法使得神经假体具备了类似于语音助手Alexa和Siri的快速语音解码能力,能够将脑信号近乎实时地转化为可听的语音,从而恢复了这名严重瘫痪患者的自然语言交流能力。

为了进行实验,研究人员要求她在大脑中通过意念构建包含1024个独特词汇的完整句子,同时用她的大脑活动训练了一个深度学习神经网络,这些大脑活动通过植入患者言语感觉运动皮质的电极进行记录。研究团队利用该模型,按照每80毫秒的递增速度解码大脑信号,并与受试者的发声意图同步,生成通过受试者在健康时期语音样本训练的声音。这个脑机接口不仅能够处理受试者未接触过的词汇,还可以连续不断地工作,而非仅限于几秒钟的运行。

使用类似的算法,研究团队发现该方法可以解码神经数据,实现近乎同步的语音流传输,同时保证语音输出更加自然和流畅。这项技术还具备良好的适配性,可以与其他脑机接口技术如微电极阵列技术或非侵入性记录技术相结合。

此外,研究人员还在其他无声语音数据集上测试了这项技术,并实现了准确的大脑到语音合成。这表明,技术的应用不局限于某种特定设备,任何信号足够清晰的设备都可以利用相同的算法进行有效处理。

该脑-声神经假体的工作原理是通过从大脑中控制言语的区域(即运动皮层)釆集神经数据,并利用AI将这些数据解码为语音。本质上,研究团队是在拦截大脑信号,这些信号代表了从思维到语言表达的转化过程,包括决定说什么、选择词汇以及如何移动声道肌肉的信号。

为了收集训练数据,研究人员与这名患者进行了合作。尽管患者由于脑干中风已无法发声,但他们通过让她看屏幕上的提示词,例如“嘿,你好吗?”并尝试默念这些词,建立了大脑活动与目标句子之间的映射。由于患者无法发出声音,研究团队没有现成的音频或目标输出可以用于映射神经数据,但通过AI技术,他们填补了这些缺失的细节。具体而言,研究人员利用一个预训练的文本到语音模型生成音频,模拟患者患病前的声音,使解码后的语音更加接近患者自然的音色。

此前,在解码语音时,通常存在较长的延迟,单句的解码延迟大约为8秒。然而,在本次研究中,研究人员釆用了新型的流式处理方法,使得受试者在尝试说话时,能够近乎实时地生成可听见的输出。

为了测量延迟,研究人员使用了语音检测技术,以识别出表示受试者开始尝试说话的大脑信号。在意图信号出现后的1秒内,系统便能够发出首个声音。同时,这项技术还能持续不断地解码语音,使得受试者能够连续地输出内容。

对于参与本次研究的这名受试者而言,她曾在2023年参与过该团队的另一个课题,当时她参与的是文本到语音的解码实验。相比之下,新的流式合成方法使她能够近乎实时地听到自己的声音,这增强了她的代入感。她表示,流式合成更能体现她对语音的意志控制。

尽管解码速度有了显著提升,但精度并未受到影响。与以前的非流式处理方式相比,这种更快速的脑机接口依然能够保持高水平的解码准确性。

研究人员表示,以前对于是否能够从大脑中实时提取出可理解的语音信号并不确定,同时也不清楚AI是否在学习并适应大脑信号,还是仅仅在进行模式匹配并重复训练数据中的内容。为了解决这一疑问,研究团队测试了模型在训练数据集之外的词汇解码能力。他们选择了26个来自北约音标字母表中的生僻词,如Alpha、Bravo、Charlie等,来测试模型能否针对这些未见过的单词进行泛化,进而解码出受试者的说话模式。结果表明,实时模型表现优异,证明它不仅能够有效学习音调和声音的基本要素,还具备了适应未知词汇的能力。

AI实时意念解码:自然流式无声语音解码系统

为了让患者能够自然流畅地表达,研究团队构建了一个语音合成神经假体系统。该系统的核心在于一个覆盖患者言语感觉运动皮层及部分颞叶的253通道电极阵列,它负责捕捉患者尝试说话时产生的脑电信号。这些信号随后被用来合成目标语音。

系统的训练过程依赖于记录患者在尝试“默念”屏幕上显示的句子时的大脑活动。当屏幕给出绿色的“开始”提示时,患者便开始尝试无声地“说”出句子。系统会将解码合成的语音通过扬声器播放出来,同时解码出的文字也会显示在监视器上。

研究人员设计了一个巧妙的“双模态”神经解码器。经过联合训练,这个解码器不仅能合成可听的语音,还能同步地将大脑信号“翻译”成文字。

具体解码时,系统会提取大脑信号中的高伽马活动和低频信号,并将这些特征输入到一个定制的双峰解码模型中。从患者开始尝试说话(收到GO提示)后的500毫秒起,该模型会以每80毫秒为一个步长,持续处理传入的神经特征,实时地同步解码出语音和文本。

在技术选型上,团队受到了流式自动语音识别/ASR技术的启发,釆用了一种名为“循环神经网络转导器”/RNN-T的灵活神经网络架构。这种架构的优势在于它能够实时处理信息,不需要等待未来的输入。此外,研究人员对其进行了调整,使其能够根据大脑神经特征,流式地合成语音和解码文本。

在工作时,循环神经网络/RNN实时处理神经特征,生成代表语音内容的编码向量。对于语音合成,这些编码与一个流式声学语音单元语言模型结合,预测下一个最可能的声学单元(从100个候选单元中选择)。对于文本解码,编码则与一个流式子词文本语言模型结合,预测下一个最可能的文本子词(从4096个候选单元中选择)。通过一种名为“集束搜索”的算法,系统能高效地确定最有可能的声学单元和文本编码序列。

最终,预测出的声学单元被送入一个“个性化语音合成器”,生成与患者尝试说话动作同步播放的声音片段。这个合成器经过特殊训练,使用了患者失语前录制的一段简短语音,以尽可能还原她原本的声音。

由于患者无法发出清晰的声音,如何将大脑信号与她“想说的话”精确对应是一个挑战。研究人员通过釆用RNN-T损失函数进行训练来解决这个问题。该方法不仅能学习预测输出单元的概率,还能学习它们之间的关联性,从而有效对齐神经数据和意图。团队还利用了名为HuBERT的自监督模型,从文本转语音/TTS技术生成的参考音频中提取声学语音单元,作为训练目标。此外,合成器还被训练来模拟患者的语速。

为了全面评估系统性能,研究人员使用了两套句子集:一套包含50个常用短语(主要用于表达护理需求),另一套则包含由1024个不同单词组成的近12400个通用句子。在训练阶段,患者几乎完整地“默念”了这两套句子集两次,总计尝试了超过23000次。

为了测试系统的泛化能力(即处理新情况的能力),研究人员进行了两项关键测试:一是让系统解码由已知词汇组成、但患者从未“说过”的新句子;二是让系统解码包含训练词库之外的新词。结果显示系统表现良好。

研究人员还探索了一种替代方案:利用解码出的文本来指导一个文本转语音/TTS模型生成语音。这种方法可以提高语音的可懂度,但可能会牺牲一些自然度。理论上,任何满足实时处理要求的文本解码算法都可以与此系统结合。

这项研究展示了一种能够实现低延迟、自然语音交流的脑机接口解码方法,它可以同时输出语音和文本。 这项工作显著缩短了患者尝试说话到实际发出声音之间的时间差,解决了语音神经假体长期存在的延迟问题。这对于帮助失语者恢复流畅自然的对话至关重要,因为即使是几秒钟的延迟也会打断交流的自然性,可能导致患者感到孤立和挫败。

尽管取得了重大进展,研究仍在继续。 未来的目标是让合成语音包含更丰富的副语言特征,如语调、音高和音量的变化,以反映说话者的情绪和意图,使交流更加生动自然。研究团队将持续优化算法,探索更快、更好地生成富有表现力语音的方法,最终目标是开发出适合失语者日常使用的实用化语音神经假体。

狂呼科技 Convo Tech

科技正以前所未有的速度和規模發展,引發多個領域的變革,塑造了新的商業模式,甚至重塑了全新社會結構。我們一起,從科技創新中洞察社會轉型和升級的機遇。

狂呼科技,研究,聚焦科技創新對當今世界的影響,以獨特、前瞻的科技視角,洞察科技時代下涌現的“創新革命”。

狂呼,以最具突破性的技朮塑造我們的未來,為大眾捕捉科技商業先機,探索當今人類社會面臨的重大挑戰。

聯系我們 | 相關文章

免責聲明:本網站提供的信息僅供一般信息分享目的,並不應被視為投資建議。

返回博客
  • PDD拼多多2026年第一季財報,不及市場預期

    PDD拼多多2026年第一季财报,不及市场预期

    因国内主站营收增长不及预期,营销支出也并未明显下滑,因此实际利润表现并不及预期。分板块来看背后原因,我们认为一方面是 Temu 本季减亏的幅度大概率并没有预期的那么多,另外国内主站的经营利润增长应当也相当有限。

    PDD拼多多2026年第一季财报,不及市场预期

    因国内主站营收增长不及预期,营销支出也并未明显下滑,因此实际利润表现并不及预期。分板块来看背后原因,我们认为一方面是 Temu 本季减亏的幅度大概率并没有预期的那么多,另外国内主站的经营利润增长应当也相当有限。

  • 小米2026年第一季度財報,主要受手機和汽車毛利率同比回落影響

    小米2026年第一季度财报,主要受手机和汽车毛利率同比回落影响

    小米本季度汽车业务毛利率下滑至 20.1%,接近市场预期(20.5%),主要是受均价下滑的影响,其中包含了小米对购置税进行补贴的影响,并在本季度销售了一部分的低价现车。由于毛利率再次回落,海豚君测算本季度小米汽车业务核心经营利润再度陷入亏损 31 亿元。

    小米2026年第一季度财报,主要受手机和汽车毛利率同比回落影响

    小米本季度汽车业务毛利率下滑至 20.1%,接近市场预期(20.5%),主要是受均价下滑的影响,其中包含了小米对购置税进行补贴的影响,并在本季度销售了一部分的低价现车。由于毛利率再次回落,海豚君测算本季度小米汽车业务核心经营利润再度陷入亏损 31 亿元。

  • NVDA英偉達2027財年第一季度財報,收入752億美元,環比增量為129億美元

    英伟达2027财年第一季度财报,收入752亿美元,环比增量为129亿美元

    NVDA核心经营指标:总收入816亿美元,好于上调后的买方预期(780-800亿美元),其中季度环比增长135亿美元,几乎都来自于数据中心业务中Blackwell量产增加的带动。

    英伟达2027财年第一季度财报,收入752亿美元,环比增量为129亿美元

    NVDA核心经营指标:总收入816亿美元,好于上调后的买方预期(780-800亿美元),其中季度环比增长135亿美元,几乎都来自于数据中心业务中Blackwell量产增加的带动。

  • BYD比亞迪2025年第四季度業績仍然不及預期,賣車單價仍處於下行軌道

    比亚迪2025年第四季度业绩仍然不及预期,卖车单价仍处于下行轨道

    比亚迪的业绩仍然不及预期。收入虽超预期,但主要由于非核心的比亚迪电子业务高增带来,而在核心的卖车业务上,卖车单价仍处于下行轨道,卖车成本降幅不够,最后卖车毛利率虽有回暖,但仍低于市场预期。

    比亚迪2025年第四季度业绩仍然不及预期,卖车单价仍处于下行轨道

    比亚迪的业绩仍然不及预期。收入虽超预期,但主要由于非核心的比亚迪电子业务高增带来,而在核心的卖车业务上,卖车单价仍处于下行轨道,卖车成本降幅不够,最后卖车毛利率虽有回暖,但仍低于市场预期。

  • GOOG谷歌TurboQuant新聞導緻MU美光科技等內存股股價暴跌,但這合理嗎?

    GOOG谷歌TurboQuant新闻导致MU美光科技等内存股股价暴跌,但这合理吗?

    消息一出,华尔街一度陷入恐慌:如果 AI 突然间不再需要那么多 RAM 就能运作,这是否意味着内存产业的“超级周期”即将结束?答案是否定的。事实上,从历史规律与经济学角度来看,情况正好相反。要理解这一点,我们只需要观察你电脑上的网页浏览器。

    GOOG谷歌TurboQuant新闻导致MU美光科技等内存股股价暴跌,但这合理吗?

    消息一出,华尔街一度陷入恐慌:如果 AI 突然间不再需要那么多 RAM 就能运作,这是否意味着内存产业的“超级周期”即将结束?答案是否定的。事实上,从历史规律与经济学角度来看,情况正好相反。要理解这一点,我们只需要观察你电脑上的网页浏览器。

  • BABA財報AI投入比較激進

    BABA财报AI投入比较激进

    BABA发布第四季财报后股价下跌,财报显示其营收和利润均大幅低于预期。这家電商巨头的季度净利暴跌67%,而总营收仅增长1.7%约413亿美元。这些表现引发了人们对阿里巴巴在AI人工智能领域巨额投资(总额超过530亿美元)有效性的担忧。

    BABA财报AI投入比较激进

    BABA发布第四季财报后股价下跌,财报显示其营收和利润均大幅低于预期。这家電商巨头的季度净利暴跌67%,而总营收仅增长1.7%约413亿美元。这些表现引发了人们对阿里巴巴在AI人工智能领域巨额投资(总额超过530亿美元)有效性的担忧。

  • MU美光業績,季度毛利率達到 74.4%!

    MU美光业绩,季度毛利率达到 74.4%!

    MU 整体业绩:美光本季度营收 238.6 亿美元,环比增长 75%,好于上调后的买方预期(199 亿美元),本季度收入增长主要来自于 DRAM 和 NAND 业务的双重带动,两大业务环增都在 70% 以上。

    MU美光业绩,季度毛利率达到 74.4%!

    MU 整体业绩:美光本季度营收 238.6 亿美元,环比增长 75%,好于上调后的买方预期(199 亿美元),本季度收入增长主要来自于 DRAM 和 NAND 业务的双重带动,两大业务环增都在 70% 以上。

  • Tencent騰訊業績整體看無驚無喜?

    腾讯业绩整体看无惊无喜?

    腾讯一口气连发多个“龙虾”产品,能够看出公司在元宝春节大战中失利后的焦虑,虽然仓促推出产品还不完善。不过这个紧迫感的转变很关键也很必要。就目前来看,微信入口似乎在 AI 原生应用盛行的当下仍然有无法撼动的地位。

    腾讯业绩整体看无惊无喜?

    腾讯一口气连发多个“龙虾”产品,能够看出公司在元宝春节大战中失利后的焦虑,虽然仓促推出产品还不完善。不过这个紧迫感的转变很关键也很必要。就目前来看,微信入口似乎在 AI 原生应用盛行的当下仍然有无法撼动的地位。

1 / 8
  • Sharpa機器人削蘋果

    Sharpa机器人削苹果

    对人类来说,削苹果是件轻而易举的晨间小事,但对机器人而言,这是双手协调能力的「终极挑战」。 Sharpa机器人正在为能够像人类一样灵巧地完成复杂家务和工业装配的机器人铺平道路。

    Sharpa机器人削苹果

    对人类来说,削苹果是件轻而易举的晨间小事,但对机器人而言,这是双手协调能力的「终极挑战」。 Sharpa机器人正在为能够像人类一样灵巧地完成复杂家务和工业装配的机器人铺平道路。

  • 腫瘤療法突破,中國團隊給癌細胞打上“豬”標簽,癌細胞“偽裝朮”被破解

    肿瘤疗法突破,中国团队给癌细胞打上“猪”标签,癌细胞“伪装术”被破解

    近期,中国科学家在“Cell”杂志上发表的一项突破性研究,为这一顽疾提供了全新思路。他们利用基因编辑技术,将癌细胞改造成免疫系统眼中的“异类”,类似于人体对猪器官产生的超急性排斥反应,从而引发了一场针对癌细胞的精准“免疫歼灭战”。

    肿瘤疗法突破,中国团队给癌细胞打上“猪”标签,癌细胞“伪装术”被破解

    近期,中国科学家在“Cell”杂志上发表的一项突破性研究,为这一顽疾提供了全新思路。他们利用基因编辑技术,将癌细胞改造成免疫系统眼中的“异类”,类似于人体对猪器官产生的超急性排斥反应,从而引发了一场针对癌细胞的精准“免疫歼灭战”。

  • 新型大腦設備首次讀出內心聲音,腦機接口技朮打破失語者困境

    新型大脑设备首次读出内心声音,脑机接口技术打破失语者困境

    新系统的核心原理与常见的“尝试说话”型脑机介面相似,都是在大脑运动皮质植入感测器,这一区域负责向声道肌肉下达运动指令。感测器捕捉到的神经活动会送入机器学习模型,模型依据个人化数据判断信号对应的声音,进而预测使用者想说的单字。

    新型大脑设备首次读出内心声音,脑机接口技术打破失语者困境

    新系统的核心原理与常见的“尝试说话”型脑机介面相似,都是在大脑运动皮质植入感测器,这一区域负责向声道肌肉下达运动指令。感测器捕捉到的神经活动会送入机器学习模型,模型依据个人化数据判断信号对应的声音,进而预测使用者想说的单字。

  • “垃圾DNA”新發現:遠古病毒DNA在人類發育中發揮關鍵作用

    “垃圾DNA”新发现:远古病毒DNA在人类发育中发挥关键作用

    自这类非编码DNA片段首次被发现并被称作“垃圾”以来,生物学家们一直在探讨它们是否真的无用。如今的主流观点认为,这些片段虽不直接参与蛋白质合成,却在整体基因组中占据了极大比例,显示它们可能具有重要功能。

    “垃圾DNA”新发现:远古病毒DNA在人类发育中发挥关键作用

    自这类非编码DNA片段首次被发现并被称作“垃圾”以来,生物学家们一直在探讨它们是否真的无用。如今的主流观点认为,这些片段虽不直接参与蛋白质合成,却在整体基因组中占据了极大比例,显示它们可能具有重要功能。

1 / 4
1 / 4
  • 從中國經濟看背後困境及發展新構想?

    从中国经济看背后困境及发展新构想?

    中国未来发展或许可以参考“五环构想”进行战略布局。这一构想包括高等教育培训、创新科技驱动、产品生产销售、市场推广营销、出海战略布局五大领域。通过“五环构想”的实施,中国经济可能有一个全新的契机注入新的动力,推动经济稳定健康发展。

    从中国经济看背后困境及发展新构想?

    中国未来发展或许可以参考“五环构想”进行战略布局。这一构想包括高等教育培训、创新科技驱动、产品生产销售、市场推广营销、出海战略布局五大领域。通过“五环构想”的实施,中国经济可能有一个全新的契机注入新的动力,推动经济稳定健康发展。

  • 在變革中的抉擇:當今大環境下如何實現職業規劃與人生價值?

    在变革中的抉择:当今大环境下如何实现职业规划与人生价值?

    随着时代的变迁,人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同,有些人追求的是即时的快乐和成就感,而有些人则看重长期的进步和自我超越。

    在变革中的抉择:当今大环境下如何实现职业规划与人生价值?

    随着时代的变迁,人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同,有些人追求的是即时的快乐和成就感,而有些人则看重长期的进步和自我超越。

  • 再見愛人:探索現代婚姻中的情感困境

    再见爱人:探索现代婚姻中的情感困境

    芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子,麦琳、李行亮,葛夕、刘爽三对情感关系10年以上的夫妻,以“婚姻纪实观察”为切口,呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。

    再见爱人:探索现代婚姻中的情感困境

    芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子,麦琳、李行亮,葛夕、刘爽三对情感关系10年以上的夫妻,以“婚姻纪实观察”为切口,呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。

  • 抖音短劇新風潮:中老年人成為新的增長點?

    抖音短剧新风潮:中老年人成为新的增长点?

    近日,不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十,闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事,成了当下短剧创作的“新流量密码”。

    抖音短剧新风潮:中老年人成为新的增长点?

    近日,不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十,闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事,成了当下短剧创作的“新流量密码”。

1 / 4