關(guān)于向量空間模型java,向量空間模型這個(gè)問題很多朋友還不知道,今天小六來為大家解答以上的問題,現(xiàn)在讓我們一起來看看吧!
1、VSM概念簡單,把對(duì)文本內(nèi)容的處理簡化為向量空間中的向量運(yùn)算,并且它以空間上的相似度表達(dá)語義的相似度,直觀易懂。
2、當(dāng)文檔被表示為文檔空間的向量,就可以通過計(jì)算向量之間的相似性來度量文檔間的相似性。
3、文本處理中最常用的相似性度量方式是余弦距離。
4、M個(gè)無序特征項(xiàng)ti,詞根/詞/短語/其他每個(gè)文檔dj可以用特征項(xiàng)向量來表示(a1j,a2j,…,aMj)權(quán)重計(jì)算,N個(gè)訓(xùn)練文檔AM*N= (aij) 文檔相似度比較1)Cosine計(jì)算,余弦計(jì)算的好處是,正好是一個(gè)介于0到1的數(shù),如果向量一致就是1,如果正交就是0,符合相似度百分比的特性,余弦的計(jì)算方法為,向量內(nèi)積/各個(gè)向量的模的乘積.2)內(nèi)積計(jì)算,直接計(jì)算內(nèi)積,計(jì)算強(qiáng)度低,但是誤差大。
5、向量空間模型 (或詞組向量模型) 是一個(gè)應(yīng)用于信息過濾,信息擷取,索引 以及評(píng)估相關(guān)性的代數(shù)模型。
6、SMART是首個(gè)使用這個(gè)模型的信息檢索系統(tǒng)。
7、文件(語料)被視為索引詞(關(guān)鍵詞)形成的多次元向量空間, 索引詞的集合通常為文件中至少出現(xiàn)過一次的詞組。
8、搜尋時(shí),輸入的檢索詞也被轉(zhuǎn)換成類似于文件的向量,這個(gè)模型假設(shè),文件和搜尋詞的相關(guān)程度,可以經(jīng)由比較每個(gè)文件(向量)和檢索詞(向量)的夾角偏差程度而得知。
9、實(shí)際上,計(jì)算夾角向量之間的余弦比直接計(jì)算夾角容易:余弦為零表示檢索詞向量垂直于文件向量,即沒有符合,也就是說該文件不含此檢索詞。
10、通過上述的向量空間模型,文本數(shù)據(jù)就轉(zhuǎn)換成了計(jì)算機(jī)可以處理的結(jié)構(gòu)化數(shù)據(jù),兩個(gè)文檔之間的相似性問題轉(zhuǎn)變成了兩個(gè)向量之間的相似性問題。
本文分享完畢,希望對(duì)大家有所幫助。
標(biāo)簽:
免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!