腦機接口重要突破!國內團隊成功實現「全譜漢語解碼」:Top 3準確率接近100%
今年八月,兩篇背靠背《自然》文章展示了腦機接口在語言恢復方面的強大能力,單現有的語言腦機接口技術多是為「英文等字母語言」體系構建而成,針對「漢字等非字母體系」的語言腦機接口系統研究仍是空白。
最近,先進神經芯片中心默罕默德·薩萬教授團隊,自然語言處理實驗室張岳教授團隊和朱君明教授團隊聯合發布了他們最新的研究結果,實現了腦機接口全譜漢語解碼,一定程度彌補了國際上漢語解碼腦機接口技術的空白。
圖片
論文地址:https://www.biorxiv.org/content/10.1101/2023.11.05.562313v1
此項研究通過立體定向腦電技術(SEEG)采集所有普通話漢字發音過程對應的大腦內神經活動信號,結合深度學習算法和語言模型,實現了對全譜漢字發音的解碼,建立起覆蓋所有漢語普通話字符發音的漢語腦機接口系統,實現了大腦活動到完整普通話句子的端到端輸出。
腦機接口解碼漢語
腦機接口(Brain-computer interface,簡稱BCI)被公認為是未來生命科學和信息技術交叉融合的主戰場,是具有重要社會價值和戰略意義的研究方向。
腦機接口技術是指是在人或動物腦與外部設備間創建信息交換的連接通路,其實質是一種新型的信息傳輸渠道,讓信息能夠繞過原有的肌肉及外圍神經通路實現與外部世界的連通,從而一定程度替代人的運動、語言等功能。
漢語作為一種象形和音節結合的語言,具有超過50000個字符,與由26個字母組合而成的英語具有顯著不同,因此這對于現有的語言腦機接口系統來說是一個巨大的挑戰。
為了解決這一問題,在過去三年時間里,研究團隊深入分析漢語本身的發音規則和特點。從漢語發音音節的聲母、聲調和韻母三個要素出發,結合拼音輸入系統的特點,設計了一種全新的適用于漢語的語言腦機接口系統。
研究團隊通過設計覆蓋所有407個漢語拼音音節以及漢語發音特點的語音庫并同步收集腦電信號,構建了超過100小時的漢語語音-SEEG數據庫。
通過人工智能模型訓練,該系統構建了針對漢字發音音節三要素(包括聲母、聲調和韻母)的預測模型,并最終通過一個語言模型對所有預測得到的元素進行整合,結合語義信息生成最可能的完整漢語句子。
圖片
研究團隊對這一腦機接口系統在模擬日常漢語環境中的解碼能力進行了評估。在超過100次隨機選擇的2個字符-15個字符的復雜交流場景解碼測試后,所有參與者字符錯誤率中位數平均僅為29%,部分參與者通過腦電解碼得到的句子完全正確率達到了30%。
相對高效的解碼性能得益于三個獨立音節元素解碼器的優秀表現和智能語言模型的完美配合。特別的是在分類21個聲母方面,聲母解碼器的準確率超過了40%(超過3倍基準線),并且Top 3正確率幾乎達到了100%;而用于區分4個聲調的聲調解碼器的準確率也達到了50%(超過2倍基準線)。
除了三個獨立音節元素解碼器的突出貢獻以外,智能語言模型強大的自動糾錯能力和上下文聯系能力也讓整個語言腦機接口系統的表現更為突出。
圖片
這項研究為漢語這種意音文字語言的BCI解碼研究提供了全新視角,也證明通過強大的語言模型可顯著提高語言腦機接口系統的性能,為未來的意音文字語言神經假肢研究提供了新的方向。
該項工作也預示著神經系統疾病患者很快就能通過意念來控制計算機生成漢語句子,重獲交流能力!
參考資料:
https://www.biorxiv.org/content/10.1101/2023.11.05.562313v1