2019年5月14日,北京大學張航課題組與李健課題組合作的研究工作“Human representation of multimodal distributions as clusters of samples”在《PLOS Computational Biology》期刊發(fā)表。該研究發(fā)現(xiàn)人們對于在視覺空間呈現(xiàn)的概率分布會采用樣本聚類的方式來進行表征。

在生活中,我們每時每刻都需要處理、加工來自自身和外部環(huán)境的不確定性。要加工生活中的不確定性并作出相應的反應,我們需要對概率分布進行表征并進行相關計算。來自前人的行為和神經(jīng)成像證據(jù)均表明,人們的決策行為對分布的特征(如均值、方差、偏度等)是敏感的。但是我們并不清楚,人們具體是如何對分布進行表征的。概率分布中可能發(fā)生的事件數(shù)量經(jīng)常是巨大的,且隨著分布維度的增加呈指數(shù)性增長。因此,人們不可能對于分布中每一個可能發(fā)生的事件及其可能性都進行表征,更可能采取了某種近似的策略。

該研究提出,人們可能是采用樣本聚類的策略來表征概率分布的。樣本聚類的方式具體如下圖所示。當人們面對大量來自一個分布的樣本時(Samples),會對這些樣本進行聚類(Clustering),并只記住聚類后每個類別的中心和相對權重(Representation),以完成對分布信息的簡化表征。當需要對分布的特征作出估計時,人們會根據(jù)每個類別的中心和相對權重信息來作出相應估計(Estimation)。比如,人們會報告權重最大的類別其中心所在的位置作為對該分布眾數(shù)的估計,對各類別的中心進行加權平均作為對該分布均值的估計。

在實驗中,研究者在屏幕上一根白色橫軸上給被試快速、序列地呈現(xiàn)70根紅色的豎線,被試的任務為,在所有豎線呈現(xiàn)完畢后,指出剛才呈現(xiàn)的70根豎線出現(xiàn)最密集的位置(眾數(shù))和平均位置(均值)所在。結果發(fā)現(xiàn),被試對于眾數(shù)和均值的報告均存在系統(tǒng)性偏差(下圖左上、左下),表明被試確實可能采取了某種近似策略來表征概率分布。進一步地,作者提出的樣本聚類模型(CoS)可以很好地預測出被試估計值的偏差模式(下圖右上、右下)。同時,作者總結了前人關于概率分布的多種表征模型,并將這些模型對數(shù)據(jù)的擬合與該研究中提出的樣本聚類模型進行比較,發(fā)現(xiàn)樣本聚類模型可以比其它模型更好地擬合數(shù)據(jù)。該研究為樣本聚類模型提供強有力的證據(jù)支持,對于我們理解人們是如何加工生活中復雜的信息并作出響應有著重要的意義。

北京大學心理與認知科學學院博士研究生孫經(jīng)緯為該文的第一作者,北京大學心理與認知科學學院、麥戈文腦科學研究所、北大-清華生命科學聯(lián)合中心張航研究員和北京大學心理與認知科學學院李健研究員為該文的共同通訊作者。該工作由國家自然科學基金、北大-清華生命科學聯(lián)合中心、中華人民共和國科學技術部資助完成。


2019-05-21