基于主題的短文本自動摘要抽取研究與應用.pdf_第1頁
已閱讀1頁,還剩75頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、微博、論壇、問答系統(tǒng)等平臺的蓬勃發(fā)展促使人們在網絡上的交互越來越多,為人們提供便利的同時也產生了海量的短文本信息。人們在閱讀這些實時更新的短文本信息時往往受到短文本長度有限、表達方式自由且結構模糊等因素的干擾。如何能夠在有限的時間內掌握大量的信息、迅速把握事件的發(fā)展動向已是迫切需要解決的問題。自動摘要技術是解決這個問題的有效手段。文本的摘要具有概括能力強、簡潔且信息完整的優(yōu)點,是文本挖掘的重要任務之一。本文針對微博短文本進行自動摘要的提

2、取,同時關注文本本身的統(tǒng)計特征和隱含的主題信息,旨在生成一個主題(事件)下相關的摘要信息。工作主要包括以下兩個方面:
  1)短文本的表示模型:為克服傳統(tǒng)的文本表示模型在短文本集合上的缺陷,滿足面向主題的任務需求,本文對基于語義的短文本表示向量模型進行了改進。采用潛在狄利克雷分布(LDA)對短文本進行主題建模,并利用梯度下降算法計算詞向量權重,使得短文本中的主題相似性能夠通過詞語權重的不同而得到凸顯。最后使用向量加權平均的方法建立

3、短文本的表示模型,提取自動摘要時為捕獲短文本集合的主題信息做準備。通過實驗驗證,本論文的模型比無權重的主題向量表示模型在分布的距離上提高了2.5%,具有較好的短文本表達能力。
  2)自動摘要的抽?。罕菊撐尼槍σ粋€主題的微博數據集,在CoRank算法的基礎上提出了 LDA-CoRank算法,采用基于圖排序的算法進行自動摘要的抽取。LDA-CoRank算法主要進行了四點改進:a.重定義邊關系:將每個微博文本當作頂點,并采用短文本的主

4、題向量表示模型對文本建模,計算文本間的余弦相似度,并通過設定閾值限制邊關系的構建;b.重定義詞權重:采用Hybrid TF-IDF方法進行微博關鍵詞的權重計算,并通過迭代得到詞句關系權重;c. 加入冗余度控制策略:本論文采用最大邊緣相關算法對候選摘要句進行冗余度的控制;d. 增加摘要結果的優(yōu)化:為增加摘要結果通順度和可讀性,論文對候選摘要句進行結構優(yōu)化,并按照時間重新排列后生成摘要結果。
  最后,論文通過 ROUGE 評估方法和

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論