近日,北京大學(xué)心理與認(rèn)知科學(xué)學(xué)院彭玉佳研究員在Psychonomic Bulletin Review期刊上發(fā)表了題為Patterns of saliency and semantic features distinguish gaze of expert and novice viewers of surveillance footage的研究論文,基于兩種視覺(jué)計(jì)算模型揭示了閉路電視專家和新手之間,社會(huì)認(rèn)知推理過(guò)程背后的不同策略。
Background
在觀察他人行為時(shí),人們可以快速解析他人的意圖和社會(huì)關(guān)系。然而,人們?cè)趶?fù)雜的現(xiàn)實(shí)世界互動(dòng)過(guò)程中如何分析社會(huì)信號(hào),視覺(jué)系統(tǒng)如何從不同層面提取社會(huì)特征,以及這些社會(huì)特征如何交互影響社交認(rèn)知,目前還存在很多未知。
在本研究中,我們利用監(jiān)控閉路電視(CCTV)視頻中記錄的真實(shí)人類活動(dòng)以及監(jiān)控專家來(lái)嘗試回答這些問(wèn)題。監(jiān)控閉路電視系統(tǒng)通常采用一系列攝像機(jī),部署在復(fù)雜的城市環(huán)境中。監(jiān)控專家會(huì)對(duì)攝像機(jī)錄制的視頻進(jìn)行實(shí)時(shí)監(jiān)控,以識(shí)別人群中是否存在可能帶來(lái)負(fù)面沖突的事件(如,打架斗毆、搶劫),從而及時(shí)采取應(yīng)對(duì)措施。這些專業(yè)監(jiān)控專家積累了豐富的經(jīng)驗(yàn),為回答社會(huì)意圖推理背后有哪些高效的策略,提供了獨(dú)特的視角。
(圖片來(lái)自網(wǎng)絡(luò))
Methods
在本研究中,我們對(duì)監(jiān)控專家和無(wú)經(jīng)驗(yàn)的普通人在觀看相同監(jiān)控錄像時(shí)的眼動(dòng)軌跡進(jìn)行了分析。研究基于眼動(dòng)捕捉技術(shù),收集被試觀看視頻時(shí)的注視點(diǎn),進(jìn)而對(duì)以注視點(diǎn)為中心的圖像刺激進(jìn)行了計(jì)算分析。為了提取視覺(jué)特征,研究使用了兩種計(jì)算模型:顯著性模型(Saliency model)和深度卷積神經(jīng)網(wǎng)絡(luò)模型 (CNN model)。如圖所示,顯著性模型用于捕捉吸引注意力的低級(jí)圖像特征(如,顏色、運(yùn)動(dòng)、朝向信號(hào)),而深度卷積神經(jīng)網(wǎng)絡(luò)模型則用于提取CNN全連接層中抽象高級(jí)的視覺(jué)特征,以捕捉被試關(guān)注視覺(jué)場(chǎng)景中的語(yǔ)義信息。
Results
我們發(fā)現(xiàn),監(jiān)控專家的眼動(dòng)注視與新手不同,他們會(huì)積極關(guān)注具有不同顯著性和語(yǔ)義特征模式的視覺(jué)內(nèi)容。有選擇性地利用視覺(jué)信號(hào)中不同層次的信息,實(shí)驗(yàn)有害意圖的有效檢測(cè)。具體而言,無(wú)論是基于顯著性模型提取的低層次視覺(jué)線索,或基于CNN 提取的抽象視覺(jué)表征,機(jī)器學(xué)習(xí)分類器都能將專家與新手區(qū)分開(kāi)來(lái)。同時(shí),監(jiān)控專家在使用低級(jí)和高級(jí)視覺(jué)信號(hào)方面都具有更高的一致性,可能采用了共同的策略來(lái)關(guān)注某些視覺(jué)線索模式(如某些運(yùn)動(dòng)模式),這可能有助于更高效地檢測(cè)社會(huì)交互中危害性意圖。
基于對(duì)AlexNet輸出標(biāo)簽分析所示,監(jiān)控專家表現(xiàn)出更高的觀察面部和衣服區(qū)域的概率,而新手可能會(huì)被視頻片段中的紋理和顏色信息所干擾。因此,高級(jí)視覺(jué)信號(hào)可能使監(jiān)控專家更快在視頻中探測(cè)到暴力事件的發(fā)起人,快速捕捉暴力意圖,而新手則可能會(huì)被路燈或移動(dòng)的交通工具等抓人眼球的低級(jí)視覺(jué)信號(hào)分散注意力。
此外,通過(guò)研究解碼準(zhǔn)確率隨時(shí)間的變化,我們發(fā)現(xiàn)在不同的時(shí)間階段,這兩類特征可能會(huì)分別主導(dǎo)視覺(jué)觀察。在早期階段,顯著性線索的貢獻(xiàn)可能更大,而在視頻觀察的后半期,CNN提取的抽象特征可能會(huì)表現(xiàn)出更強(qiáng)的主導(dǎo)性,這表明社會(huì)意圖推斷可能從低級(jí)視覺(jué)線索開(kāi)始,逐漸過(guò)渡到語(yǔ)義級(jí)視覺(jué)處理。
綜上,本研究將眼動(dòng)數(shù)據(jù)與計(jì)算模型分析相結(jié)合,從一個(gè)獨(dú)特的角度揭示了監(jiān)控專家在分析社會(huì)意圖時(shí)所采取的可能策略。目前的研究結(jié)果不僅揭示了在生物系統(tǒng)中,豐富的經(jīng)驗(yàn)是如何形成對(duì)復(fù)雜刺激的視覺(jué)處理的,也展示了使用計(jì)算模型來(lái)分析不同群體所關(guān)注的視覺(jué)信息的前景。計(jì)算機(jī)視覺(jué)算法如果既能識(shí)別圖像中的初級(jí)視覺(jué)模式,又能在抽象語(yǔ)義層面上對(duì)人際關(guān)系進(jìn)行編碼,就有可能提高人工智能推斷社會(huì)意圖的能力。
參考文獻(xiàn)
Peng, Y., Burling, J.M., Todorova, G.K. et al. Patterns of saliency and semantic features distinguish gaze of expert and novice viewers of surveillance footage. Psychon Bull Rev (2024).
原文鏈接: https://doi.org/10.3758/s13423-024-02454-y
2024-01-27