大語言模型在創(chuàng)造力自動(dòng)化評(píng)估中越來越受歡迎,它能夠通過生成語義距離客觀地衡量創(chuàng)意的質(zhì)量。然后,目前的評(píng)估系統(tǒng)只針對(duì)英語,在中文語境中還缺乏相應(yīng)的自動(dòng)評(píng)估工具。這使得國(guó)內(nèi)的研究者仍依賴人工評(píng)分者,人力成本與主觀性問題影響了測(cè)量的信效度。為解決這一問題,北京大學(xué)心理與認(rèn)知科學(xué)學(xué)院侯玉波課題組基于Transformer語言模型,開發(fā)了一個(gè)能夠?qū)χ形亩嘤猛救蝿?wù)(AUT)獨(dú)創(chuàng)性和靈活性加以評(píng)估的工具TransDis,這一工具不僅能自動(dòng)地評(píng)估想法的新穎性,還能快速地評(píng)估想法的多樣性。相關(guān)研究成果于2023年12月21日在國(guó)際著名心理學(xué)研究方法雜志Behavior Research Methods上在線發(fā)表。
論文包括三個(gè)研究,研究1首先篩選出適用于句向量計(jì)算的3個(gè)語言模型,構(gòu)成TransDis評(píng)分系統(tǒng),并發(fā)現(xiàn)模型生成的獨(dú)創(chuàng)性和靈活性評(píng)分對(duì)人類評(píng)分有很強(qiáng)的預(yù)測(cè)作用;效度分析表明,模型生成的獨(dú)創(chuàng)性和靈活性評(píng)分與其他創(chuàng)造力相關(guān)指標(biāo)正相關(guān),顯示出與人類評(píng)分相似的效度。研究2采用啟動(dòng)實(shí)驗(yàn)的方法,證明了TransDis能夠有效地區(qū)分接受創(chuàng)造性指導(dǎo)語的被試和接受常規(guī)性指導(dǎo)語的被試。研究3進(jìn)一步采用啟動(dòng)的方法,證明這一方法可以有效地區(qū)分接受靈活指導(dǎo)語的被試和接受堅(jiān)持指導(dǎo)語的被試,驗(yàn)證了已知群組效度(Known-Group Validity)。研究結(jié)果表明,TransDis在計(jì)算句子水平的語義距離方面非常有效,可以作為一種可靠和低成本的工具來衡量中文中想法的獨(dú)創(chuàng)性和靈活性,并且在評(píng)估不同語言的創(chuàng)造力方面具有潛在的適用性。本研究提供了一個(gè)開放的平臺(tái)來計(jì)算中文和其他50多種語言的AUT回答的獨(dú)創(chuàng)性和靈活性(https://osf.io/59jv2/)。
文章的第一作者楊天宸和第三作者孫朝陽為侯玉波課題組的博士生,侯玉波副教授為本文通訊作者。這項(xiàng)研究由國(guó)家自然科學(xué)基金項(xiàng)目(32271125)資助完成。
Yang, T., Zhang, Q., Sun, Z., & Hou, Y. (2023). Automatic Assessment of Divergent Thinking in Chinese Language with TransDis: A Transformer-Based Language Model Approach. Behavior Research Methods. Doi:10.3758/s13428-023-02313-z
2023-12-22