要點:
為解決腦機接口將癱瘓患者無聲言語轉化為語音時的延遲問題,在加州大學舊金山分校張復倫團隊與加州大學伯克利分校Gopala Anumanchipalli團隊的最新研究中,利用先進人工智能技朮顯著縮短了處理時間,從而實現了更接近實時的自然交流。
在我們的日常生活中,交流是一項至關重要的能力。然而,對於許多癱瘓患者而言,他們常常因身體功能障礙而面臨無法與他人順暢溝通的困境,甚至可能引發患者內心的孤獨感和沮喪情緒。
近年來,腦機接口/BCI技朮的迅速發展,給這類患者帶來了希望。2023年8月,加州大學舊金山分校張復倫/Edward Chang團隊,展示了一種新型腦機接口,能夠將因腦干中風導致的嚴重癱瘓患者在大腦中嘗試的無聲說話轉化為文字、語音和圖像,從而有效幫助他們恢復溝通能力。但是,現有的腦機接口系統在將患者大腦中的無聲說話轉換為語音時,通常存在几秒鐘的延遲,這種延遲往往影響患者與聽者之間的交流流暢性,給對話帶來不必要的困擾。
隨着人工智能技朮的進步,研究者們逐漸找到了減少這一延遲的辦法,并進一步提升了腦機接口的實時性。這一突破性進展有望極大地改善癱瘓患者的溝通質量,提升他們的生活質量。
AI賦能腦機接口:實時解碼大腦信號
3月31日,加州大學舊金山分校張復倫團隊與加州大學伯克利分校Gopala Anumanchipalli團隊合作,在Nature Neuroscience期刊上發表了題為“A streaming brain-to-voice neuroprosthesis to restore naturalistic communication”的研究論文。
該研究開發了一種創新的腦機接口設備,結合了人工智能AI模型訓練,植入至一名47歲女性患者的大腦,將她在大腦中想象的言語活動實時轉換為聲音輸出,從而恢復了患者的自然對話能力。這名患者因腦干中風導致四肢和軀干癱瘓,已無法說話或發聲長達18年。
這項實驗由來自加州大學伯克利分校和加州大學舊金山分校的研究人員聯合完成,研究人員通過腦-聲神經假體技朮與基於AI的模型,開發了一種流式處理方法。該方法使得神經假體具備了類似於語音助手Alexa和Siri的快速語音解碼能力,能夠將腦信號近乎實時地轉化為可聽的語音,從而恢復了這名嚴重癱瘓患者的自然語言交流能力。
為了進行實驗,研究人員要求她在大腦中通過意念搆建包含1024個獨特詞匯的完整句子,同時用她的大腦活動訓練了一個深度學習神經網絡,這些大腦活動通過植入患者言語感覺運動皮質的電極進行記錄。研究團隊利用該模型,按照每80毫秒的遞增速度解碼大腦信號,并與受試者的發聲意圖同步,生成通過受試者在健康時期語音樣本訓練的聲音。這個腦機接口不僅能夠處理受試者未接觸過的詞匯,還可以連續不斷地工作,而非僅限於几秒鐘的運行。

使用類似的算法,研究團隊發現該方法可以解碼神經數據,實現近乎同步的語音流傳輸,同時保證語音輸出更加自然和流暢。這項技朮還具備良好的適配性,可以與其他腦機接口技朮如微電極陣列技朮或非侵入性記錄技朮相結合。
此外,研究人員還在其他無聲語音數據集上測試了這項技朮,并實現了准確的大腦到語音合成。這表明,技朮的應用不局限於某種特定設備,任何信號足夠清晰的設備都可以利用相同的算法進行有效處理。
該腦-聲神經假體的工作原理是通過從大腦中控制言語的區域(即運動皮層)釆集神經數據,并利用AI將這些數據解碼為語音。本質上,研究團隊是在攔截大腦信號,這些信號代表了從思維到語言表達的轉化過程,包括決定說什么、選擇詞匯以及如何移動聲道肌肉的信號。

為了收集訓練數據,研究人員與這名患者進行了合作。盡管患者由於腦干中風已無法發聲,但他們通過讓她看屏幕上的提示詞,例如“嘿,你好嗎?”并嘗試默念這些詞,建立了大腦活動與目標句子之間的映射。由於患者無法發出聲音,研究團隊沒有現成的音頻或目標輸出可以用於映射神經數據,但通過AI技朮,他們填補了這些缺失的細節。具體而言,研究人員利用一個預訓練的文本到語音模型生成音頻,模擬患者患病前的聲音,使解碼后的語音更加接近患者自然的音色。
此前,在解碼語音時,通常存在較長的延遲,單句的解碼延遲大約為8秒。然而,在本次研究中,研究人員釆用了新型的流式處理方法,使得受試者在嘗試說話時,能夠近乎實時地生成可聽見的輸出。
為了測量延遲,研究人員使用了語音檢測技朮,以識別出表示受試者開始嘗試說話的大腦信號。在意圖信號出現后的1秒內,系統便能夠發出首個聲音。同時,這項技朮還能持續不斷地解碼語音,使得受試者能夠連續地輸出內容。
對於參與本次研究的這名受試者而言,她曾在2023年參與過該團隊的另一個課題,當時她參與的是文本到語音的解碼實驗。相比之下,新的流式合成方法使她能夠近乎實時地聽到自己的聲音,這增強了她的代入感。她表示,流式合成更能體現她對語音的意志控制。
盡管解碼速度有了顯著提升,但精度并未受到影響。與以前的非流式處理方式相比,這種更快速的腦機接口依然能夠保持高水平的解碼准確性。
研究人員表示,以前對於是否能夠從大腦中實時提取出可理解的語音信號并不確定,同時也不清楚AI是否在學習并適應大腦信號,還是僅僅在進行模式匹配并重復訓練數據中的內容。為了解決這一疑問,研究團隊測試了模型在訓練數據集之外的詞匯解碼能力。他們選擇了26個來自北約音標字母表中的生僻詞,如Alpha、Bravo、Charlie等,來測試模型能否針對這些未見過的單詞進行泛化,進而解碼出受試者的說話模式。結果表明,實時模型表現優異,證明它不僅能夠有效學習音調和聲音的基本要素,還具備了適應未知詞匯的能力。

AI實時意念解碼:自然流式無聲語音解碼系統
為了讓患者能夠自然流暢地表達,研究團隊搆建了一個語音合成神經假體系統。該系統的核心在於一個覆蓋患者言語感覺運動皮層及部分顳葉的253通道電極陣列,它負責捕捉患者嘗試說話時產生的腦電信號。這些信號隨后被用來合成目標語音。
系統的訓練過程依賴於記錄患者在嘗試“默念”屏幕上顯示的句子時的大腦活動。當屏幕給出綠色的“開始”提示時,患者便開始嘗試無聲地“說”出句子。系統會將解碼合成的語音通過揚聲器播放出來,同時解碼出的文字也會顯示在監視器上。
研究人員設計了一個巧妙的“雙模態”神經解碼器。經過聯合訓練,這個解碼器不僅能合成可聽的語音,還能同步地將大腦信號“翻譯”成文字。
具體解碼時,系統會提取大腦信號中的高伽馬活動和低頻信號,并將這些特徵輸入到一個定制的雙峰解碼模型中。從患者開始嘗試說話(收到GO提示)后的500毫秒起,該模型會以每80毫秒為一個步長,持續處理傳入的神經特徵,實時地同步解碼出語音和文本。

在技朮選型上,團隊受到了流式自動語音識別/ASR技朮的啟發,釆用了一種名為“循環神經網絡轉導器”/RNN-T的靈活神經網絡架搆。這種架搆的優勢在於它能夠實時處理信息,不需要等待未來的輸入。此外,研究人員對其進行了調整,使其能夠根據大腦神經特徵,流式地合成語音和解碼文本。
在工作時,循環神經網絡/RNN實時處理神經特徵,生成代表語音內容的編碼向量。對於語音合成,這些編碼與一個流式聲學語音單元語言模型結合,預測下一個最可能的聲學單元(從100個候選單元中選擇)。對於文本解碼,編碼則與一個流式子詞文本語言模型結合,預測下一個最可能的文本子詞(從4096個候選單元中選擇)。通過一種名為“集束搜索”的算法,系統能高效地確定最有可能的聲學單元和文本編碼序列。
最終,預測出的聲學單元被送入一個“個性化語音合成器”,生成與患者嘗試說話動作同步播放的聲音片段。這個合成器經過特殊訓練,使用了患者失語前錄制的一段簡短語音,以盡可能還原她原本的聲音。
由於患者無法發出清晰的聲音,如何將大腦信號與她“想說的話”精確對應是一個挑戰。研究人員通過釆用RNN-T損失函數進行訓練來解決這個問題。該方法不僅能學習預測輸出單元的概率,還能學習它們之間的關聯性,從而有效對齊神經數據和意圖。團隊還利用了名為HuBERT的自監督模型,從文本轉語音/TTS技朮生成的參考音頻中提取聲學語音單元,作為訓練目標。此外,合成器還被訓練來模擬患者的語速。
為了全面評估系統性能,研究人員使用了兩套句子集:一套包含50個常用短語(主要用於表達護理需求),另一套則包含由1024個不同單詞組成的近12400個通用句子。在訓練階段,患者几乎完整地“默念”了這兩套句子集兩次,總計嘗試了超過23000次。
為了測試系統的泛化能力(即處理新情況的能力),研究人員進行了兩項關鍵測試:一是讓系統解碼由已知詞匯組成、但患者從未“說過”的新句子;二是讓系統解碼包含訓練詞庫之外的新詞。結果顯示系統表現良好。
研究人員還探索了一種替代方案:利用解碼出的文本來指導一個文本轉語音/TTS模型生成語音。這種方法可以提高語音的可懂度,但可能會犧牲一些自然度。理論上,任何滿足實時處理要求的文本解碼算法都可以與此系統結合。
這項研究展示了一種能夠實現低延遲、自然語音交流的腦機接口解碼方法,它可以同時輸出語音和文本。 這項工作顯著縮短了患者嘗試說話到實際發出聲音之間的時間差,解決了語音神經假體長期存在的延遲問題。這對於幫助失語者恢復流暢自然的對話至關重要,因為即使是几秒鐘的延遲也會打斷交流的自然性,可能導致患者感到孤立和挫敗。
盡管取得了重大進展,研究仍在繼續。 未來的目標是讓合成語音包含更丰富的副語言特徵,如語調、音高和音量的變化,以反映說話者的情緒和意圖,使交流更加生動自然。研究團隊將持續優化算法,探索更快、更好地生成富有表現力語音的方法,最終目標是開發出適合失語者日常使用的實用化語音神經假體。