閱讀492 返回首頁    go 阿裏雲 go 技術社區[雲棲]


主題模型整合隨機遊走框架在學術搜索中的應用

原文:A Topic Modeling Approach and its Integration into the Random Walk Framework for Academic Search

摘要

在本文中,我們提出一個統一的將主題模型方法(Topic Model)整合進隨機遊走(Random Walk)框架的方法,並將其應用到學術搜索裏。具體地,我們提出了一種能同時將論文,作者和出版地進行建模的主題模型。我們將主題建模與隨機遊走框架結合起來。實驗結果表麵,我們提出的這種學術搜索方法明顯優於使用BM25和語言模型的基礎方法,也優於現有的其他主題模型(包括pLSI,LDA和AT模型)。


1 介紹

在過去的幾年中,相當多的學術搜索引擎,如穀歌學術搜索,Citeseer和Libra,已經建成龐大的文獻庫,提供網上搜索的功能。然而,還是存在許多具有挑戰性的問題:第一,信息檢索的實踐[5]並不僅僅是論文,還包括其他數據源,如作者,會議和期刊等等;第二,學術搜索通常需要更高的檢索準確度。給定一個查詢,如“數據挖掘”,通常並不意味著用戶要查找包含這個詞的論文。他/她的本意是查找數據挖掘這個主題下的一些論文。此外,這兩個問題通常交織在一起。

    已有的工作正試圖解決這些問題的不同方麵。想要排列不同的對象,已經提出了適用於異構網絡的隨機遊走[9][15]。但是,這些方法不考慮文件的子主題。同時,有些人研究利用主題模型來提高檢索的準確度[6][14]。然而,如何拓展主題模型來處理帶有鏈接信息的異構數據是一個開放性的問題。

在這項工作中,我們將探討主題模型如何幫助學術搜索。特別的,我們主要關注以下幾點:

1.     異構主題建模:怎樣才能在同一個概率主題模型下同時為論文,作者和出版地建模?

2.     學術搜索:怎樣將主題模型運用到學術搜索裏來得到更好的檢索準確度?

3.     使用主題模型和隨機遊走排名:怎樣把主題模型結合進一個隨機遊走框架來提高排名?

我們提出了一個概率主題模型來同時提取論文,作者和出版地的主題。更進一步地,我們提出了兩種方法來把一些主題模型結合隨機遊走,為不同的對象同時排名。我們的實驗結果表明我們提出的方法和基本方法相比,顯著提高了搜索質量。


2 初步

假設論文d,包含了Nd個字組成的向量wd, Ad個作者組成的向量ad,出版地cd。一個包含了D篇這樣的論文的集合就可以記為D = {(w1, a1,c1),··· , (wD, aD,cD)}。表1總結了本文用到的符號。

我們介紹了一些相關工作,包括:語言模型[2],pLSI[6],LDA[3],以及隨機遊走[10]。

語言模型是信息檢索裏最先進的方法之一。它把一篇文檔和一個查詢詞之間的關聯解釋成一個生成概率。


tf(w, d)是詞w在論文d中的詞頻,ND是整個集合裏詞(token)的總數,tf(w, D)是詞w在集合D裏的詞頻。λ是狄利克雷平滑因子。文檔d生成一個查詢q的概率就可以被定義為


表1 符號列表

Hofmann提出了pLSI模型[6](the probabilistic LatentSemantic Indexing,即概率潛在語義索引)。該模型假設在很多詞和很多文檔之間有一個潛在模型層Z = {z1,z2,··· ,zT }。那麼,從文檔d內生成詞w的概率可以通過這個主題層來計算得到:


LDA[3]( LatentDirichlet Allocation,即潛在狄利克雷分布)也用一個主題層來給文檔們建模。在LDA中,對於每一個文檔d,多項式θd將首先從一個帶參a的狄利克雷分布中抽樣得到。第二步,對於每個詞wdi,從這個分布中選擇一個主題zdi。最後,詞wdi生成自一個特定主題的多項式θzdi。據此,詞w在文檔d中的生成概率可以表示為:


一些基於LDA的拓展已經提出了,比如AT模型[12](Author-Topic,即基於作者的主題模型)。

在分析Web鏈接結構方麵已經投入了大量的研究工作,例如PageRank[10]和HITS[7]。很多基於隨機遊走的擴展也已經被提出,比如[9]和[15]。還有很多其他的努力投入在運用隨機遊走排名模型來做參考書目數據的挖掘。

 

3 我們提出的主題模型

給學術網絡建模可以有很多不同的方式,比如,為每個種類的對象找一個單獨的LDA模型。然而,這種分離的方式可能導致結果不盡人意。在第五節的實驗結果證實了這一假設。在這項工作中,我們的主要想法是用一個概率主題模型來對論文,作者和出版地一起建模。

我們提出的模型稱為ACT模型(Author-Conference-Topic,即作者-會議模型)。為簡單起見,我們使用會議來表示各種出版來源,包括會議,期刊和文章。本質上,該模型利用主題分布來代表作者,論文和出版地之間的內在依賴關係。用不同的策略來實現主題模型。具體而言,我們考慮三種不同類型的實現。

 

3.1 ACT模型一

在第一種模型中,會議以“標記”的形式與每個詞關聯。要在論文d裏生成一個詞wdi,作者xdi將首先被挑選出來為這個詞“負責”。每個作者與一個主題分布關聯。然後一個主題將從以作者為主的主題分布裏抽樣出來。最終,這個詞以及會議標記將從這個被選出來的主題中生成。圖1圖解表示了ACT模型。


圖1 ACT模型一的圖解

下麵描述整個生成過程:

1.   對每個主題z,分別從Dirichlet(β)和Dirichlet(μ)中抽取出Φz和Ψz

2.   對論文d中的每個詞wdi

  • ad中抽取一個作者xdi
  • 從與作者xdi相對應的多項式θxdi中抽取一個主題zdi,θ生成自Dirichlet(a)
  • 從多項式Φzdi中抽取出詞wdi
  • 從多項式Ψzdi中抽取出會議cdi

為了之後的推斷,現在的任務是估計ACT模型一中兩套未知參數:(1)作者-主題A的θ分布,主題-詞T的Φ分布,以及主題-會議T的Ψ分布;(2)每個詞wdi的對應主題zdi和作者xdi。我們隻計算了x和z上的後驗分布,而不是直接估計模型的參數,然後用計算結果來推斷θ,Φ和Ψ。後驗概率定義為:


mxz是主題z與作者x的關聯次數,nzv是詞w被主題z生成的次數,nzc是會議c被主題z生成的次數,z-dix-di表示不包括論文d中第i個詞的其他所有詞的主題和作者的分配,帶-di上標的數字表示除當前實例外的其他總量。a,β和μ是超參數,被設置為定值(如a=50/T,β=0.01,μ=0.1)。

在參數估算過程中,算法跟蹤一個A×T(作者和主題)計數矩陣,一個T×V(主題和詞)計數矩陣和一個T×C(主題和會議)計數矩陣。給出這三個計數矩陣,我們很容易估算出一個主題的概率,隻要給出一個作者θxz,主題θzv下的詞的概率,以及主題Ψzc下會議的概率。具體計算過程如下:


3.2  ACT 模型二 和模型三

在第二個模型中,每個主題選擇自一個關於“作者-會議”對的多項式主題分布,而不是模型一中隻相關一個作家。該模型源自觀察:作者通常會線選擇一個出版地,然後基於出版地的主題和作者自己的興趣來寫論文。我們使用的是類似於模型一中參數估計的方法。

在第三個模型中,會議被當作一個數值。從論文中所有的詞中采樣出主題後,論文的每個會議標記再被采樣。直觀地看,這對應一種發表論文的自然方式:作者先寫論文,然後再根據論文中論述的主題來決定去哪裏發表。該模型中,會議標記來自普通的線性模型。因此,對於參數估計,與模型一和二有細微的差別。我們使用Gibbs的EM算法[1][8]來做該模型的推斷。

 

3.3  將ACT運用到學術搜索

在ACT模型的基礎上,我們可以利用類似等式(3)的方式得到文檔模型的一種形式。然而,通過主題模型學習到的主題通常是一般性的,不具體到給出一個查詢。因此,隻使用ACT本身來建模對於學術搜索來說太粗糙。經初步實驗還表明:隻有ACT或LDA模型的信息檢索將有損檢索性能。在一般情況下,我們希望在一般性和特殊性之間達到一個平衡。因此,我們得出了將ACT模型和基於詞的語言模型組合的形式:


PLM(w|d)是用語言模型計算出的在論文d內詞w的生成概率,PACT(w|d)是ACT模型計算出來的生成概率。

同理,我們可以定義類似的作者模型和會議模型:



其中,在語言模型裏,a和c分別代表作者a發表的一係列論文集合和會議c上發表的一些列論文集合。

 

4 主題模型和隨機遊走下的排名

我們將展示兩種將上述主題模型結合進隨機遊走框架的方法。


圖2 轉變概率

學術網絡主要由三部分網絡組成(圖2)。圖的中間是一個論文引用的有向圖Gd= (Vd,Edd),Vd包括了所有論文,有向邊(d1, d2)∈Edd表示d1引用了d2。類似地,作者和論文之間的關係也由雙向圖表示Gad= (Va ∪ Vd,Ead),出版地和論文之間的關係由另一個雙向圖表示Gcd= (Vc ∪ Vd,Ecd)。

我們將這些不同的圖組成一個多樣圖:G =(Vd ∪Va ∪Vc, Edd ∪Ead∪Ecd)。此外,出於對隨機遊走的考慮,我們把雙向圖中每條邊記作兩條有向邊:{ai,dj } =(ai,dj) ∪ (dj ,ai)。進一步地,我們定義了能描述不同類型節點之間轉換概率的圖。顯然,我們需要λdd + λda + λdc=1成立。我們還定義λad = λcd=1。這個轉換圖形式化了如下這種隨機衝浪者的行為。隨機衝浪者會有λdd的概率停留在論文引用網絡裏,λda 和λdc的概率找到與論文相關的作者和出版地。

根據這點,類似PageRank模型,我們定義了一個一般形式的每個節點隨機遊走排名分數公式:


|V|是網絡內節點數目,ξ是隨機跳躍參數,λyx是y節點類型和x節點類型之間的轉換概率,P(x|y)是具體兩個節點x和y之間的轉換概率。

 

4.1  結合方法一

第一種方法通過簡單的相乘把隨機遊走分數與來自主題模型的相關分數結合起來。給定查詢q,論文d的最終排名分值是隨機遊走排名分數r[d]和論文的關聯分數P(q|d)的乘積:


類似地,我們為論文和作者定義了結合公式:


我們也嚐試了加權和的方法,如R[d]=γ×r[d]+(1−γ)×P(q|d),γ是控製兩邊權重的係數。在嚐試了γ係數的各種取值之後,這種相加的方式還是不如相乘的方式表現得好。

 

4.2  結合方法二

方法二直接將主題模型整合進隨機遊走。該方法在網絡裏增加了主題節點Vt和查詢節點Vq

記Gtd =(Vt∪Vd,Etd)為一個雙向圖,Vt是在主題模型裏估算出的主題節點集。如果論文d能被帶有概率P(wd|z)>ε(ε是控製結構網絡的密度的參數)的主題z生成,那麼我們可以得到邊(z,d)∈Etd。類似地,我們可以定義會議和主題之間的邊Ect,以及作者和主題之間的邊Eat。進一步,我們可以在查詢節點和其他不同節點(論文,作者,會議和主題)之間增加邊。圖3展示了新的多樣化網絡。


圖3 轉換概率

在該方法中,我們認為隨機衝浪的人從某一個節點遊走到一個主題節點的時候,總會走向一個(虛擬)查詢節點,然後走回另一個主題節點。這次查詢同論文/作者/會議節點間的轉換概率通過語言模型來計算(如PLM(q|d))。而主題節點與其他節點之間的轉換概率通過主題模型來計算,如,



θ和ψ通過(5)得到,P(zi), P(aj)和P(cj)通過數Gibbs樣本數目得到。

該方法利用了隨機遊走裏的主題模型。我們同樣能調整其他節點到主題節點間的λ參數來決定隨機遊走和主題模型對最終排名的影響權重。隨機遊走後的排名得分是依賴於查詢的。

 

5  實驗結果

我們在我們自己開發的ArnetMiner (https://arnetminer.org)係統裏評估了上述提出的各種模型。

5.1  實驗設置

5.1.1  數據集

    由於沒有一個基於真實情況的標準數據且製造這樣一種真實數據集很困難,出於評估的目的,我們搜集了43個在ArnetMiner的查詢日誌裏最常被搜索的查詢。我們將這些查詢分成兩份子集,進行了兩次實驗。在第一次實驗中,我們使用了7個查詢,並用ArnetMiner上數據的一個子集(包括14,314個作者,10,716篇論文和1434個會議)進行評估。在評估方麵,我們使用匯集關聯判斷[4] 結合人工判斷的方法。具體而言,對每個查詢,我們首先從三個學術搜索係統(Libra,Rexa和ArnetMiner)匯集了前30個結果。然後,選了兩位職工和五位來自CS的畢業生提供人工判斷。用四個等級的分數(3,2,1和0)裏代表最相關,相關,邊緣性相關和不相關。在第二個實驗裏,我們使用剩下的36個查詢並使用ArnetMiner裏的所有數據(448,365為作者, 981,599篇論文和4,501個會議)進行評估。在評估方麵,我們隻用了匯集相關性的判斷,不加入人工判斷。為了更好地匯集,我們增加了一個基本方法,即BM25[11]。具體而言,對於一個查詢,我們集中了來自BM25,我們的方法和Libra,Rexa兩個係統的前30個結果。我們對“相關”的定義是,四種方法中至少三種返回該候選人。

 

5.1.2  實驗設置

在所有的實驗中,我們根據P@5,P@10,P@20,R-pre,和MAP[4]進行評估。

我們使用BM25[11],語言模型[2],pLSI[6],LDA[3]和AT模型[12]作為基準方法。BM25是信息檢索中最領先的方法之一。在BM25中,我們[11]中的方法來計算一個查詢和一篇論文之間的關聯度。對於語言模型,我們使用等式(1)來計算一個查詢詞和一篇論文之間的關聯度。對於pLSI,我們使用等式(2)來計算關聯度。對於LDA,我們使用等式(3)來計算一個詞和一篇論文之間的關聯度。對於AT模型,我們使用類似等式(6)和等式(7)的等式來分別計算一個查詢詞和一篇論文,一個作者之間的關聯度。我們同樣也對比了來自使用結合方法一來結合LM和隨機遊走所得到的結果。我們也嚐試了將BM25和RW1結合起來。該結果不如LM和RW1的結合。

為了學習pLSI模型,我們使用了EM算法[6]。對於LDA和AT,我們使用了同ACT模型相同的設置來展開模型評估。在第一個實驗中,我們出於經驗把所有主題模型的主題數T設為80。在第二個實驗中,我們把T設為200。

 

5.2  實驗結果

5.2.1  第一個實驗結果

表2展示了基於我們提出的方法和基準方法得到的檢索論文和會議的結果。+RW記號表示該方法整合了RM。RW1表示結合方法一,RW2表示結合方法二。我們可以看到,我們提出的方法結果要優於基準方法(BM25,LM,pLSI,LDA,和AT)。我們還可以看到ACT1+RW1在所有方法裏得到的結果最好。

 

5.2.2  第二個實驗結果

在第二個實驗裏,我們分析了我們的最佳方案(ACT1+RW1),BM25,以及兩個係統(Libra和Rexa)的結果。(Rexa隻有論文和作者檢索)表3展示了四種方法的結果。我們可以看到我們提出的方法得到的結果優於基準方法和兩個係統。


表2 學術搜索各方法評估結果


表3學術搜索各方法評估結果

 

5.3  討論

(1)我們提出的關於學術搜索的方法明顯優於現存的基準方法。從表2和表3可以看到ACT1+RW1實現了最好的效果。這表明我們提出的方案的確提高了學術搜索的質量。

(2)我們看到通過把主題模型和隨機遊走結合起來,我們可以顯著增強排名性能。

我們同時觀察到了一個驚人的結果:第一種結合方法通過簡單相乘的方式來結合來自主題模型的關聯分數以及來自隨機遊走的分數,然而第二種結合方法直接把主題模型整合進隨機遊走。直觀地看,第二種方法看起來更加“優雅”,應該會獲得更好的性能。但是,表2表明第一種方法在性能方麵有顯著提升而第二種方法反而削弱了檢索性能。

進一步分析表明第二種方法把主題模型結合進了隨機遊走的每一步中,導致有太多的參數需要調配。比如,圖3中會有十八個λ需要調參。這就很難找到一個最優的設置。

(3)我們同時也能從表2看到不同的主題模型表現不一,但是ACT1在有隨機遊走和沒有隨機遊走的時候都表現最佳。

進一步分析表明,我們發現ACT2的抽樣階段導致了大量稀疏的作者-會議×主題(AC×T)計數矩陣,累計到千萬行。ACT3的問題可能是我們把會議標記當作數值,導致描述帶有離散值的會議信息的時候不準確。怎樣在主題模型裏精準地捕捉到會議信息依然是我們繼續向前研究的課題之一。

(4)表3表明我們的方案性能優於現有的學術搜索係統。理由包括:(1) Rexa隻支持論文搜索和作者搜索,所以不能利用作者,論文,會議之間的依賴關係;(2) Libra提供三類數據的檢索。但是,它的排名是基於語言模型和PageRank[9]的。再次說明,它不能利用不同對象之間的(主題級別的)語義依賴性。

 

6  總結

   在這篇論文中,我們研究了用一個統一的概率模型來給異構學術網絡建模的問題。我們提出了三種主題模型來同時為論文,作者和出版地建模。我們進一步提出了兩種方法來將主題模型與隨機遊走結合起來為學術搜索服務。實驗結果表麵我們的方法性能上超越了現有的基準方法和已存在學術搜索係統。

我們提出的方法具有普遍性和靈活性。主題模型可以用很多方式實現,而隨機遊走可以任意在線上或線下的模式下運行。方法的多樣性可以運用到許多別的應用裏,比如社會搜索和博客搜索。

 

7  致謝

 

引用

[1] C. Andrieu, N.de Freitas, A. Doucet, and M. I. Jordan. An introduction to mcmc for machinelearning. Machine Learning, 50:5–43, 2003.

[2] R. Baeza-Yates andB. Ribeiro-Neto. Modern Information Retrieval. ACM Press, 1999.

[3] D. M. Blei, A.Y. Ng, and M. I. Jordan. Latent dirichlet allocation. Journal of MachineLearning Research, 3:993–1022, 2003.

[4] C. Buckley andE. M. Voorhees. Retrieval evaluation with incomplete information. In Proc. ofSIGIR’04, pages 25–32.

[5] M. Hertzum andA. M. Pejtersen. The information-seeking practices of engineers: Searching fordocuments as well as for people. Information Processing &Management,36(5):761–778, 2000.

[6] T. Hofmann.Probabilistic latent semantic indexing. In Proc. of SIGIR’99, pages 50–57,1999.

[7] J. M. Kleinberg.Authoritative sources in a hyperlinked environment. Journal of the ACM,46(5):604–632, 1999.

[8] T. Minka.Estimating a dirichlet distribution. Technical report,https://research.microsoft.com/ minka/papers/dirichlet/,2003.

[9] Z. Nie, Y.Zhang, J.-R. Wen, and W.-Y. Ma. Object-level ranking: bringing order to webobjects. In Proc. Of WWW’05, pages 567–574, 2005.

10] L. Page, S.Brin, R. Motwani, and T. Winograd. The pagerank citation ranking: Bringingorder to the web. Technical Report SIDL-WP-1999-0120, Stanford University,1999.

[11] S. Robertson,S. Walker, M. Beaulieu, M. Gatford, and A. Payne. Okapi at trec-4. In TREC’96,1996.

[12] M. Steyvers, P.Smyth, and T. Griffiths. Probabilisticauthor-topic models for information discovery. In Proc. of KDD’04.

[13] J. Tang, J.Zhang, L. Yao, J. Li, L. Zhang, and Z. Su. Arnetminer: Extraction and mining ofacademic social networks. In Proc. of SIGKDD’08, pages 990–998, 2008.

[14] X.Wei andW. B.Croft. Lda-based document models for adhoc retrieval. In Proc. of SIGIR’06,pages 178–185, 2006.

[15] W. Xi, B.Zhang, Y. Lu, Z. Chen, S. Yan, H. Zeng, W.-Y.Ma, and E. A. Fox. Link fusion: aunified link analysis framework for multi-typeinterrelated data objects. In Proc.of WWW’04, pages 319–327, 2004.


最後更新:2017-04-03 21:30:16

  上一篇:go 文本相似度計算基本方法小結
  下一篇:go 人人都是開發者:5款傻瓜式APP開發工具