近日,北京大學(xué)心理與認(rèn)知科學(xué)學(xué)院、北京大學(xué)麥戈文腦科學(xué)研究所李健課題組在《PLOS Computational Biology》期刊發(fā)表了題為“The shadowing effect of initial expectation on learning asymmetry”的研究論文。該研究使用強(qiáng)化學(xué)習(xí)建模,在跨情境(穩(wěn)定學(xué)習(xí)環(huán)境,變化學(xué)習(xí)環(huán)境)和跨效價(收益、損失和收益損失混合)的學(xué)習(xí)情境中發(fā)現(xiàn)一致的結(jié)果:個體在學(xué)習(xí)時對選項的初始預(yù)期存在個體差異性,將這一差異性納入建模后發(fā)現(xiàn),個體基于負(fù)反饋中的更新比正反饋大,表現(xiàn)出對負(fù)反饋更強(qiáng)的敏感性,即負(fù)的效價不對稱性。

強(qiáng)化學(xué)習(xí)模型目前被廣泛用于刻畫個體的學(xué)習(xí)過程,然后對于個體如何基于反饋更新信息,卻還沒有一致的結(jié)論。一些研究發(fā)現(xiàn),個體從正反饋中更新更多,而另一些研究則認(rèn)為個體從負(fù)反饋中更新更多。本課題組發(fā)現(xiàn),以往研究在對強(qiáng)化學(xué)習(xí)過程進(jìn)行建模時,大多對被試的初始預(yù)期使用相同的(選項反饋的均值或0)粗略值,沒有考慮個體真實的預(yù)期。對初始預(yù)期的錯誤設(shè)置會放大或縮小預(yù)期誤差,從而使得模型估計的學(xué)習(xí)率偏小或者偏大。如果使用自由參數(shù)來刻畫個體的初始預(yù)期,則可以消除這一影響。

為了驗證這一推導(dǎo),研究收集了不同學(xué)習(xí)環(huán)境、不同獎勵效價下的學(xué)習(xí)數(shù)據(jù)(圖1.A-B)。 結(jié)果發(fā)現(xiàn),如果將個體的初始預(yù)期設(shè)置為固定值(平均獎勵大?。?,則在不同情境中被試的效價不對稱性并不一致(圖1.D,A-FI 模型),而當(dāng)在強(qiáng)化學(xué)習(xí)建模中考慮個體初始預(yù)期差異,則發(fā)現(xiàn)一致的負(fù)的效價不對稱性(圖1.E,A-FI model模型),即被試的負(fù)學(xué)習(xí)率大于正學(xué)習(xí)率。


圖1. 獎勵環(huán)境變化情境下的強(qiáng)化學(xué)習(xí)

進(jìn)而,研究采用模擬的方法進(jìn)一步刻畫是否考慮初始預(yù)期對估計的學(xué)習(xí)率的影響。結(jié)果發(fā)現(xiàn),當(dāng)在模型中使用自由參數(shù)估計初始預(yù)期時,A-VI模型能對初始預(yù)期和學(xué)習(xí)率都實現(xiàn)較為準(zhǔn)確的估計(圖2.A-C);而如果在模型估計時將初始預(yù)期設(shè)定為獎勵反饋均值(A-FI模型,圖2.D-F),則估計的學(xué)習(xí)率會偏離實際的學(xué)習(xí)率。


圖2. A-VI和A-FI模型模擬結(jié)果

綜上所述,當(dāng)前研究通過對個體的學(xué)習(xí)行為進(jìn)行強(qiáng)化學(xué)習(xí)建模和模型模擬的方式,揭示了初始預(yù)期對強(qiáng)化學(xué)習(xí)效價不對稱性的重要影響,進(jìn)而發(fā)現(xiàn)了一致的效價不對稱性:相比正反饋,個體對負(fù)反饋更敏感,從負(fù)反饋中更新更多。

原文鏈接: https://doi.org/10.1371/journal.pcbi.1010751

北京大學(xué)心理與認(rèn)知科學(xué)學(xué)院倪蔭梅博士和孫經(jīng)緯博士為該論文共同第一作者,北京大學(xué)心理與認(rèn)知科學(xué)學(xué)院、麥戈文腦科學(xué)研究所李健研究員為本文通訊作者。該研究獲得國家科技創(chuàng)新2030項目、國家自然科學(xué)基金委項目資助。

參考文獻(xiàn):

Lefebvre G, Lebreton M, Meyniel F, Bourgeois-Gironde S, Palminteri S. Behavioural and neural characterization of optimistic reinforcement learning. Nat Hum Behav. 2017; 1(4):0067.

Li J, Daw ND. Signals in human striatum are appropriate for policy update rather than value prediction. JNeurosci. 2011; 31(14):5504–11. https://doi.org/10.1523/JNEUROSCI.6316-10.2011 PMID: 21471387

Niv Y, Edlund JA, Dayan P, O’Doherty JP. Neural prediction errors reveal a risk-sensitive reinforcement-learning process in the human brain. J Neurosci. 2012; 32(2):551–62. https://doi.org/10.1523/JNEUROSCI.5498-10.2012 PMID: 22238090

Palminteri S, Lefebvre G, Kilford EJ, Blakemore SJ. Confirmation bias in human reinforcement learning: Evidence from counterfactual feedback processing. PLoS Comput Biol. 2017; 13(8):e1005684. https://doi.org/10.1371/journal.pcbi.1005684 PMID: 28800597

Sharot T, Korn CW, Dolan RJ. How unrealistic optimism is maintained in the face of reality. Nat Neurosci. 2011; 14(11):1475–9. https://doi.org/10.1038/nn.2949 PMID: 21983684


2023-07-28