日常生活充滿了選擇。幾十年來,研究人員一直著迷于人類和其他動物如何決定在相互競爭的優(yōu)先事項之間分配時間和精力。心理學家發(fā)現(xiàn),大多數(shù)動物會根據(jù)從選項中獲得的獎勵來分配時間,并根據(jù)獎勵反饋相應地調(diào)整它們的行為,這是一種稱為“匹配”的行為法則。達特茅斯領導的研究團隊開發(fā)了衡量獎勵反饋響應信息內(nèi)容的指標,并使用這些指標來預測匹配行為。結果發(fā)表在《自然通訊》上。
“匹配是我們?nèi)绾卧诳捎眠x項之間進行選擇的基礎,”共同第一作者 Ethan Trepka '22 說,他是達特茅斯計算和認知神經(jīng)科學實驗室的學生。“它控制著我們在雜貨店選擇哪條收銀臺,或者我們在不同的學?;蚬ぷ黜椖可匣ㄙM多少時間。一個人選擇在給定選項上花費多少時間取決于相對于其他選項從該選項中獲得獎勵的頻率。”
達特茅斯的一個團隊與其他研究人員合作,重新分析了分別在約翰霍普金斯大學和美國國立衛(wèi)生研究院收集的小鼠和猴子的行為數(shù)據(jù)。在實驗中,老鼠和猴子在兩個選項或行動之間做出選擇,并根據(jù)他們的選擇獲得獎勵——老鼠的水和猴子的蘋果汁。具有更高獎勵概率的選項可能會改變,因此動物在做出選擇時必須跟蹤之前的獎勵。結果表明,小鼠和猴子都表現(xiàn)出不匹配,一般傾向于選擇比匹配法規(guī)定的更少的更好的選項。
為了預測這種與匹配法則的偏差,研究人員開發(fā)了一套新的指標,用于衡量動物根據(jù)獎勵結果繼續(xù)或從當前選項轉(zhuǎn)換的趨勢中的“驚喜”或不一致。這些指標基于“信息論”中的“熵”概念,這是一種數(shù)學框架,可用于量化系統(tǒng)中的不確定性或意外的數(shù)量。先前關于選擇行為的研究通常依賴于計算模型,這些模型需要對從每個獎勵反饋中學到的東西做出假設,但新的指標不需要這樣的假設。這些指標還提供了一種量化自適應行為的新方法,可用于改進以前的學習和決策計算模型。
“當我們面臨不同的選擇時,我們會使用之前選擇的結果來做出未來的決定,這應該讓我們在大多數(shù)情況下選擇更好(更有價值)的選擇,”資深作者Alireza Soltani說。,心理和腦科學副教授,達特茅斯計算和認知神經(jīng)科學實驗室的首席研究員。“然而,我們并沒有像我們應該的那樣經(jīng)常選擇更好的選擇,最終結果不匹配。雖然選擇劣質(zhì)選項可以在不斷變化的環(huán)境中發(fā)現(xiàn)新的機會,但當對劣質(zhì)選項的獎勵反饋被忽視并且反應不一致時,匹配不足會顯著增加。由于匹配不足通常會減少可以獲得的總獎勵,因此被認為是不可取的。”
標簽:
免責聲明:本文由用戶上傳,如有侵權請聯(lián)系刪除!