|
 【產(chǎn)通社,4月11日訊】中國科學(xué)院(Chinese Academy of Sciences)官網(wǎng)消息,解碼人類視覺神經(jīng)表征是具有重要科學(xué)意義的挑戰(zhàn),可以揭示視覺處理機制并促進腦科學(xué)與人工智能的發(fā)展。然而,目前的神經(jīng)解碼方法難以泛化到訓(xùn)練數(shù)據(jù)以外的新類別,主要挑戰(zhàn)在于現(xiàn)有方法未充分利用神經(jīng)數(shù)據(jù)背后的多模態(tài)語義知識,且現(xiàn)有的可利用的配對(刺激-腦響應(yīng))訓(xùn)練數(shù)據(jù)較少。  近日,自動化研究所神經(jīng)計算與腦機交互團隊將大腦、視覺和語言知識相結(jié)合,通過多模態(tài)學(xué)習實現(xiàn)了從人類腦活動中零樣本地解碼視覺新類別。相關(guān)研究成果以Decoding Visual Neural Representations by Multimodal Learning of Brain-Visual-Linguistic Features為題,發(fā)表在IEEE Transactions on Pattern Analysis and Machine Intelligence(IEEE TPAMI)上。人類對視覺刺激的感知和識別受到視覺特征和人們先前經(jīng)驗的影響,例如當人們看到一個熟悉的物體時,大腦會自然而然地檢索與該物體相關(guān)的知識,如圖1所示;诖,本研究提出“腦-圖-文”三模態(tài)聯(lián)合學(xué)習框架,在使用實際呈現(xiàn)的視覺語義特征的同時,加入與該視覺目標對象相關(guān)的更豐富的語言語義特征,以更好地解碼腦信號。  研究證明,從人腦活動中解碼新的視覺類別是可以實現(xiàn)的,且精度較高;使用視覺和語言特征的組合比僅使用其中之一的解碼表現(xiàn)更好;在人腦語義表征過程中,視覺加工會受到語言的影響。  該研究對人類視覺系統(tǒng)的理解有所啟示,并有望為腦機接口技術(shù)提供新思路。本工作提出的方法具有三方面的潛在應(yīng)用:作為一種神經(jīng)語義解碼工具,此方法將在新型讀取人腦語義信息的神經(jīng)假肢設(shè)備的開發(fā)中發(fā)揮重要作用,可為其奠定技術(shù)基礎(chǔ);作為神經(jīng)編碼工具,通過跨模態(tài)推斷腦活動,用于研究視覺和語言特征如何在人類大腦皮層上表達,揭示哪些腦區(qū)具有多模態(tài)屬性(即對視覺和語言特征敏感);作為類腦特性評估工具,測試哪個模型的(視覺或語言)表征更接近于人類腦活動,從而激勵研究人員設(shè)計更加類腦的計算模型。  研究工作得到科技部科技創(chuàng)新2030-“新一代人工智能”重大項目、國家自然科學(xué)基金和自動化所2035創(chuàng)新任務(wù)等的支持。為了促進該領(lǐng)域的持續(xù)發(fā)展,研究團隊已將代碼和新收集的三模態(tài)數(shù)據(jù)集開源!    查詢進一步信息,請訪問官方網(wǎng)站 http://www.cas.cn/syky/202304/t20230407_4883387.shtml,以及https://ieeexplore.ieee.org/document.10089190。(Donna Zhang,張底剪報)  (完)
|