孩子們通過(guò)觀察周圍的環(huán)境、傾聽(tīng)周圍的人以及他們所見(jiàn)所聞之間的聯(lián)系來(lái)學(xué)習(xí)語(yǔ)言。此外,它有助于孩子建立他們語(yǔ)言的語(yǔ)序,如主語(yǔ)和動(dòng)詞在句子中的位置。
在計(jì)算中,學(xué)習(xí)語(yǔ)言是句法和語(yǔ)義分析器的任務(wù)。這些系統(tǒng)是在人類注釋句子上訓(xùn)練的,這些句子描述了單詞背后的結(jié)構(gòu)和含義。解析器在網(wǎng)絡(luò)搜索、自然語(yǔ)言數(shù)據(jù)庫(kù)查詢和語(yǔ)音識(shí)別系統(tǒng)如Alexa和Siri中變得越來(lái)越重要。很快,它們也可能被用于家庭機(jī)器人。但是對(duì)于不太常見(jiàn)的語(yǔ)言來(lái)說(shuō),收集注釋數(shù)據(jù)既耗時(shí)又困難。另外,人類并不總是認(rèn)同注釋,注釋本身也未必能準(zhǔn)確反映人的自然說(shuō)話方式。
在本周的自然語(yǔ)言處理經(jīng)驗(yàn)方法會(huì)議上發(fā)表的一篇論文中,麻省理工學(xué)院的研究人員描述了一種解析器,它可以通過(guò)觀察和學(xué)習(xí)更緊密地模仿兒童的語(yǔ)言習(xí)得過(guò)程,這可以大大擴(kuò)展解析器的能力。為了學(xué)習(xí)語(yǔ)言的結(jié)構(gòu),解析器在沒(méi)有其他信息的情況下觀察標(biāo)題視頻,并將單詞與記錄的對(duì)象和動(dòng)作相關(guān)聯(lián)。給定一個(gè)新句子,解析器可以使用它已經(jīng)學(xué)會(huì)的語(yǔ)言結(jié)構(gòu)來(lái)準(zhǔn)確預(yù)測(cè)句子的意思,而無(wú)需視頻。
這種“弱監(jiān)督”方法——這意味著它需要有限的訓(xùn)練數(shù)據(jù)——模仿了孩子們?nèi)绾斡^察周圍的世界,在沒(méi)有任何人提供直接背景的情況下學(xué)習(xí)語(yǔ)言。據(jù)研究人員介紹,這種方法可以擴(kuò)展數(shù)據(jù)類型,減少訓(xùn)練解析器的工作量。例如,一些直接注釋的句子可以與許多更容易獲得的字幕視頻相結(jié)合,以提高性能。
將來(lái),解析器可以用來(lái)改善人和機(jī)器人之間的自然交互。例如,配備解析器的機(jī)器人可以不斷觀察其環(huán)境,以增強(qiáng)其對(duì)口語(yǔ)命令的理解,包括當(dāng)口語(yǔ)句子不完全符合語(yǔ)法或不清晰時(shí)。“人們用偏句、連續(xù)的思想和令人困惑的語(yǔ)言相互交談。你希望家里有一個(gè)能適應(yīng)他們特定說(shuō)話方式的機(jī)器人.并且仍然能夠發(fā)現(xiàn)它們的含義?!弊髡撸篈ndre Babu,麻省理工學(xué)院麥戈文研究所計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)和腦、腦與機(jī)械中心(CBMM)研究員。
解析器還可以幫助研究人員更好地理解兒童是如何學(xué)習(xí)語(yǔ)言的。合著者說(shuō):“孩子可以通過(guò)不同的方式獲得多余的補(bǔ)充信息,包括聽(tīng)父母和兄弟姐妹談?wù)撌澜?,以及觸覺(jué)信息和視覺(jué)信息,[幫助他或她]了解世界。首席研究科學(xué)家、CSAIL信息實(shí)驗(yàn)室集團(tuán)負(fù)責(zé)人鮑里斯卡茨。“這是一個(gè)驚人的問(wèn)題,要處理所有這些同時(shí)發(fā)生的感官輸入。這項(xiàng)工作是理解這種學(xué)習(xí)在世界上是如何發(fā)生的更大一部分。”本文共同作者為:第一作者Candace Ross,電氣工程與計(jì)算機(jī)科學(xué)系和CSAIL研究生,CBMM研究員;Yevgeni Berzak' 17博士,腦與認(rèn)知科學(xué)系計(jì)算心理語(yǔ)言學(xué)組博士后;以及CSAIL研究生Battushig Myanganbayar。
視覺(jué)學(xué)習(xí)者
在他們的工作中,研究人員將語(yǔ)義分析器與計(jì)算機(jī)視覺(jué)組件相結(jié)合,在視頻中訓(xùn)練對(duì)象、人和活動(dòng)。語(yǔ)義分析器通常是在用代碼注釋的句子上訓(xùn)練的,代碼將每個(gè)單詞的含義與單詞之間的關(guān)系聯(lián)系起來(lái)。有些人受過(guò)靜態(tài)圖像或計(jì)算機(jī)模擬方面的訓(xùn)練。羅斯說(shuō),新的解析器是第一個(gè)使用視頻進(jìn)行訓(xùn)練的解析器。在某種程度上,視頻在減少歧義方面更有用。如果解析器不確定句子中的動(dòng)作或?qū)ο?,它可以參考視頻來(lái)澄清事情。羅斯說(shuō):“有時(shí)間成分——物體之間以及物體與人之間的相互作用——也有靜態(tài)圖像或高級(jí)屬性,這些都不能只用語(yǔ)言來(lái)看。
研究人員匯編了一個(gè)由大約400個(gè)視頻組成的數(shù)據(jù)集,這些視頻描述了人們的許多行為,包括拿起或放下物體,然后走向它們。眾包平臺(tái)機(jī)器人土耳其人的參與者隨后為這些視頻提供了1200個(gè)字幕。他們保留了840個(gè)視頻標(biāo)題的例子進(jìn)行訓(xùn)練和調(diào)整,并用360個(gè)進(jìn)行測(cè)試。Barbu說(shuō),使用基于視覺(jué)的解析的一個(gè)優(yōu)勢(shì)是“你不需要幾乎相同數(shù)量的數(shù)據(jù)——盡管你有(數(shù)據(jù)),但你可以將其擴(kuò)展到一個(gè)巨大的數(shù)據(jù)集”。
在訓(xùn)練中,研究人員為解析器提供了確定句子是否準(zhǔn)確描述給定視頻的目標(biāo)。它們?yōu)榻馕銎魈峁┮曨l和匹配標(biāo)題。解析器提取標(biāo)題的可能含義作為邏輯數(shù)學(xué)表達(dá)式。比如“女人在摘蘋果”這句話可以表達(dá)為:xy .這些表情和視頻被輸入到由巴布和其他研究人員開發(fā)的名為“情感跟蹤器”的計(jì)算機(jī)視覺(jué)算法中。該算法查看每個(gè)視頻幀,以跟蹤對(duì)象和人如何隨時(shí)間變化,從而確定動(dòng)作是否如所描述的那樣播放。這樣就決定了視頻的意思是否正確。
關(guān)系
物體、人和動(dòng)作的最接近匹配表示的表達(dá)成為標(biāo)題最可能的意思。最初,表達(dá)式可以引用視頻中許多不同的對(duì)象和動(dòng)作,但可能含義的集合被用作訓(xùn)練信號(hào),這有助于解析器不斷降低可能性。“通過(guò)假設(shè)所有的句子都必須遵循相同的規(guī)則,它們都來(lái)自相同的語(yǔ)言,你可以通過(guò)查看許多標(biāo)題視頻來(lái)進(jìn)一步縮小它們的含義,”Barbu說(shuō)。
>簡(jiǎn)而言之,解析器通過(guò)被動(dòng)觀察來(lái)學(xué)習(xí):為了確定視頻的標(biāo)題是否為真,解析器必然必須識(shí)別標(biāo)題的最高概率含義。“判斷視頻句子是否屬于視頻的唯一方法是[經(jīng)過(guò)]中間步驟,'句子是什么意思?'否則,你不知道如何連接兩者,“巴布解釋道。“我們不會(huì)給系統(tǒng)賦予句子的含義。我們說(shuō),'有一個(gè)句子和一個(gè)視頻。句子必須適用于視頻。找出一些中間表示,使視頻成為現(xiàn)實(shí)。'”訓(xùn)練為學(xué)習(xí)單詞產(chǎn)生句法和語(yǔ)義語(yǔ)法。給定一個(gè)新句子,解析器不再需要視頻,而是利用其語(yǔ)法和詞匯來(lái)確定句子結(jié)構(gòu)和含義。最終,這個(gè)過(guò)程正在學(xué)習(xí)“好像你還是個(gè)孩子”,巴布說(shuō)。“你看到周圍的世界,聽(tīng)到人們說(shuō)話以學(xué)習(xí)意義。有一天,我可以給你一個(gè)句子并詢問(wèn)它意味著什么,即使沒(méi)有視覺(jué),你也知道它的含義。”在未來(lái)的工作中,研究人員對(duì)建模相互作用感興趣,而不僅僅是被動(dòng)觀察。“兒童在學(xué)習(xí)時(shí)會(huì)與環(huán)境互動(dòng)。我們的想法是建立一個(gè)也會(huì)使用感知來(lái)學(xué)習(xí)的模型,”羅斯說(shuō)。這項(xiàng)工作是支持的,一部分由CBMM,美國(guó)國(guó)家科學(xué)基金會(huì),福特基金會(huì)研究生研究獎(jiǎng)學(xué)金,豐田研究所和麻省理工學(xué)院,IBM腦啟發(fā)多媒體理解項(xiàng)目。
標(biāo)簽:
免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!