近日,北京大學(xué)心理與認(rèn)知科學(xué)學(xué)院彭玉佳研究員與方方教授課題組合作在Journal of Cognitive Neuroscience雜志上發(fā)表了題為“Human Visual Pathways for Action Recognition Versus Deep Convolutional Neural Networks: Representation Correspondence in Late But Not Early Layers”的論文。這項(xiàng)研究深入探討了深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)在動(dòng)態(tài)視覺信息處理方面的性能,并與人類視覺系統(tǒng)進(jìn)行了比較。
DCNN被認(rèn)為可作為人類大腦可靠的替代模型,大量研究表明,DCNN在靜態(tài)物體識(shí)別方面的表現(xiàn)與人類水平相當(dāng),并且存在神經(jīng)網(wǎng)絡(luò)與大腦的層級(jí)映射(representational correspondence):低層級(jí)網(wǎng)絡(luò)與低級(jí)腦區(qū)的表征更相似,高層級(jí)網(wǎng)絡(luò)與高級(jí)腦區(qū)的表征更相似。然而,這種神經(jīng)網(wǎng)絡(luò)與大腦的層級(jí)映射關(guān)系是否局限于靜態(tài)識(shí)別任務(wù),能否泛化到其他視覺任務(wù),尤其是動(dòng)態(tài)視覺任務(wù),仍不清楚。
本研究聚焦于動(dòng)態(tài)視覺信息的加工,分別使用逼真的人物模型和精簡(jiǎn)的電光源人生成的動(dòng)作視頻作為研究材料,系統(tǒng)探索了 DCNN和人類視覺系統(tǒng)在動(dòng)態(tài)視覺信息加工過程中的異同。研究團(tuán)隊(duì)通過功能性核磁共振成像技術(shù),采集了人類被試在觀看動(dòng)作視頻時(shí)的大腦活動(dòng),結(jié)合多變量解碼分析和表征相似性分析,與DCNN進(jìn)行比較。
本研究依托于生物運(yùn)動(dòng)識(shí)別的雙通路理論:空間通路負(fù)責(zé)加工運(yùn)動(dòng)軀體的空間結(jié)構(gòu),時(shí)間通路負(fù)責(zé)加工時(shí)間維度上的動(dòng)態(tài)變化。因此,研究重點(diǎn)關(guān)注了雙通路上的5個(gè)重要節(jié)點(diǎn)腦區(qū):V1, MT, EBA, LOC和pSTS。同樣基于雙通路理論,本研究構(gòu)造雙通路DCNN模型,該模型在運(yùn)動(dòng)識(shí)別任務(wù)表現(xiàn)明顯優(yōu)于傳統(tǒng)單通路DCNN。
圖1 研究流程圖:基于 fMRI獲得人類視覺表征,基于計(jì)算模擬得到 DCNN的運(yùn)動(dòng)視覺表征,通過 RSA方法分析比較 DCNN與人腦的運(yùn)動(dòng)表征異同。
因此,研究系統(tǒng)比較了經(jīng)大量數(shù)據(jù)訓(xùn)練后的雙通路DCNN與人類視覺系統(tǒng)對(duì)動(dòng)態(tài)運(yùn)動(dòng)信息的表征。fMRI的結(jié)果驗(yàn)證了人腦的層級(jí)化表征。然而有趣的是,在運(yùn)動(dòng)識(shí)別任務(wù)上,并未發(fā)現(xiàn)DCNN與人類視覺系統(tǒng)的層級(jí)映射關(guān)系。各腦區(qū)均與DCNN模型的高層級(jí)網(wǎng)絡(luò)(如最后一層卷積層Conv5和全連接層FC1,F(xiàn)C2)的表征相似性更高。這些發(fā)現(xiàn)提示我們,在完成認(rèn)知任務(wù)時(shí),DCNN模型與人類大腦的層級(jí)映射并非必然存在,單純基于大數(shù)據(jù)自下而上的機(jī)器學(xué)習(xí)在模擬人腦處理復(fù)雜認(rèn)知任務(wù)上存在局限性。
彭玉佳研究員和方方教授為該文章的通訊作者,彭玉佳研究員與方方教授課題組已畢業(yè)博士生龔曦紫為該文章的共同第一作者。該研究為理解DCNNs在視覺任務(wù)中的工作原理提供了新的視角,同時(shí)也為未來的人機(jī)交互和人工智能算法的發(fā)展提供了重要的參考。
論文鏈接:
https://direct.mit.edu/jocn/article/doi/10.1162/jocn_a_02233/123926/Human-Visual-Pathways-for-Action-Recognition
引用
Peng, Y.*#, Gong, X.*, Lu, H., & Fang, F.# (2024). Human Visual Pathways for Action Recognition Versus Deep Convolutional Neural Networks: Representation Correspondence in Late but Not Early Layers. Journal of Cognitive Neuroscience, 1-23. https://doi.org/10.1162/jocn_a_02233 (* equal contribution, # corresponding authors)
2024-10-08