

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、當今社會,互聯(lián)網(wǎng)中所包含的種類繁多內(nèi)容豐富的知識資源,為我們?nèi)粘W習和工作中面對問題時尋求幫助和獲取信息提供了很大的方便。目前的Google和百度等搜索引擎是人們從網(wǎng)絡中獲取信息的主要途徑,然而,這些傳統(tǒng)的搜索引擎隨著用戶對信息精確性和時間高效性要求的提高,暴露出一些弊端,例如,它按照關鍵詞組合的形式分析用戶輸入的查詢語句,這會對用戶的搜索目的產(chǎn)生偏差,返回給用戶的結果是大量網(wǎng)頁的集合,需要用戶去甄別和查找,而非用戶希望得到的準確簡潔的
2、答案。在傳統(tǒng)搜索引擎的基礎上,新一代的自動問答系統(tǒng)因為其高效實用的特點,成為信息檢索領域的研究熱點和趨勢。一方面,它方便用戶使用自然語言提問,另一方面,返回給用戶的是最終的答案,具有較高的理論研究價值和廣闊的應用前景。
自動問答系統(tǒng)一般主要包括問題分析,信息檢索和答案抽取三個模塊。其中答案抽取是問答系統(tǒng)的最后關鍵步驟,能否做好這一步關系著提交給用戶的答案是否準確和高效。本文主要針對最后一步答案源獲取方法進行研究,結合前人的
3、研究成果,在Web網(wǎng)頁的抓取,網(wǎng)頁去重,網(wǎng)頁信息提取等方面進行了研究,主要進行了以下工作:
(1)針對用戶提出的問題在Web中搜尋對應的答案網(wǎng)頁,在傳統(tǒng)搜索引擎的平臺上,將相關的答案網(wǎng)頁保存到本地。在本實驗設計中,我們借助百度知道的知識庫,通過Crawler爬蟲程序,依據(jù)相應的抓取算法,從URL鏈向深度和廣度抓取一定數(shù)量的網(wǎng)頁,作為我們下一步信息提取的答案源庫。
(2)在抓取網(wǎng)頁文檔的過程中,針對網(wǎng)絡中存在的
4、大量內(nèi)容相同和相似的網(wǎng)頁,會增加系統(tǒng)的開銷和降低效率。通過借鑒前人在網(wǎng)頁去重方面的相關研究成果,引入了基于文本塊,利用shingle和基于集合統(tǒng)計的網(wǎng)頁去重方法,并給出了測評的標準。
(3)在對網(wǎng)頁文檔信息提取的過程中,可以將網(wǎng)頁標簽,無關的廣告和圖片等信息進行過濾,利用DOM樹的節(jié)點結構來結構化表示網(wǎng)頁內(nèi)容,從節(jié)點中提取出網(wǎng)頁文檔的文本信息,為后續(xù)的答案提取做準備。設計實驗方案,給出相關說明。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 面向開放域的問答系統(tǒng)答案獲取技術研究與實現(xiàn).pdf
- 面向問答系統(tǒng)的答案獲取方法研究與實現(xiàn).pdf
- 面向開放域問答的答案抽取方法及相關技術研究.pdf
- 開放域的自動問答系統(tǒng)的研究.pdf
- 受限域問答系統(tǒng)問句分類方法研究.pdf
- 基于Internet的問答系統(tǒng)答案抽取方法研究與實現(xiàn).pdf
- 開放獲取期刊資源采集系統(tǒng)研究與實現(xiàn).pdf
- 限定域問答系統(tǒng)自動建庫及檢索研究與系統(tǒng)設計實現(xiàn).pdf
- 面向開放域的中文問答系統(tǒng)問句處理相關技術研究.pdf
- 中文開放域關系抽取研究與實現(xiàn).pdf
- 基于問答社區(qū)的軟件需求獲取與排序方法研究.pdf
- 中文口語交互式開放域問答系統(tǒng)關鍵技術研究.pdf
- 開放獲取期刊質(zhì)量控制方法研究.pdf
- 中文問答系統(tǒng)的研究與實現(xiàn).pdf
- 開放問答系統(tǒng)輔助教學的研究與實踐.pdf
- 開放獲取期刊資源長期保存的體系與實現(xiàn)研究.pdf
- 基于非結構化文檔的開放域自動問答系統(tǒng)技術研究.pdf
- 智能問答系統(tǒng)的研究與實現(xiàn).pdf
- 實用問答系統(tǒng)的研究與實現(xiàn).pdf
- 開放域命名實體識別及其層次化類別獲取.pdf
評論
0/150
提交評論