搜文檔
認(rèn)證信息
認(rèn)證類型:個人認(rèn)證
認(rèn)證主體:常**(實名認(rèn)證)
IP屬地:河北
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
1、論壇中含有大量有價值的、由用戶討論生成的數(shù)據(jù),從中可挖掘出大量的問答數(shù)據(jù),而這些數(shù)據(jù)可進(jìn)一步用于改善問答系統(tǒng)的性能、擴(kuò)充聊天機(jī)器人的知識庫等。 本文研究從論壇中挖掘問答數(shù)據(jù)的信息抽取方法,包括兩個重點內(nèi)容:一是問題檢測,二是答案檢測。本文提出了基于標(biāo)記序列模式的分類方法從論壇數(shù)據(jù)中檢測問題,這種方法在不失準(zhǔn)確率的前提下,能大大提高召回率。基于圖的排序算法在信息檢索領(lǐng)域的應(yīng)用非常成功,本文受其啟發(fā),提出了基于圖的迭代方法為抽取出的
2、問題尋找答案。在建立備選答案之間的加權(quán)有向圖時,綜合考慮了多個因素,如備選答案之間的相關(guān)性、問題和答案的距離、答案作者的權(quán)威度等,并將它們線性組合作為邊的權(quán)重。在圖的迭代中采用了兩種方法,分別為有初始值的迭代和無初始值的迭代。同時,提出了多種與已有的信息檢索的模型結(jié)合使用的方法。 在小規(guī)模人工標(biāo)注的論壇數(shù)據(jù)上的實驗結(jié)果表明,問題檢測階段的準(zhǔn)確率和召回率均明顯優(yōu)于任何已有的算法,答案檢測階段的MRR、MAP等各項指標(biāo)也均優(yōu)于其它的
0/150
提交評論
聯(lián)系客服
本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知眾賞文庫,我們立即給予刪除!
Copyright ? 2013-2023 眾賞文庫版權(quán)所有 違法與不良信息舉報電話:15067167862
復(fù)制分享文檔地址
http://www.facezit.com/shtml/view-2353739.html
復(fù)制
下載本文檔
評論
0/150
提交評論