學位論文元數據元數據草案-北京交通大學圖書館_第1頁
已閱讀1頁,還剩31頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、基于OAI和METS遠程收集數據的方法和流程 趙陽zhaoyang@lib.tsinghua.edu.cn清華大學圖書館 學位論文項目組2007.09.27 南京,主要內容:,“CALIS學位論文全文數據庫”服務體系架構基于OAI和METS數據收割模式基于OAI和METS數據收割實施步驟,NOW,“CALIS 學位論文數據庫”服務體系架構,,,參建館本地系統(tǒng),,CALIS數字圖書館門戶,計費中心,認證中心,資源

2、調度中心,CALIS-OID解析中心,紙本掃描加工,,,,,,,CALIS中心,學位論文提交與發(fā)布系統(tǒng),DRM閱讀器,讀者,DRM數字版權保護,瀏覽器,,,CALIS高校學位論文數據庫分中心,,CALIS 學位論文參建館本地系統(tǒng)涉及到三個層面:,本館層面滿足提交、審核、編目、標準化、回溯、發(fā)布、檢索、管理、存儲等需求符合相關標準、規(guī)范開放架構CALIS子項目(分中心)層面納入“CALIS高校學位論文數據

3、庫”服務體系CALIS中心層面納入“CALIS高等教育數字圖書館”服務體系,,學位論文參建館本地系統(tǒng)結構圖,,,,,,論文元數據庫,論文(PDF)對象庫,服務接口層,應用層,存儲層,學位論文提交與發(fā)布系統(tǒng),安全通信層,,,,DRM版權保護系統(tǒng)(PDF),紙本掃描加工系統(tǒng),,,,,MQ服務器,METS接口模塊,OAI-DP服務器,認證接口,計費接口,CLRC OpenURL接口,,學位論文參建館本地系統(tǒng)結構圖,

4、1,2,3,4,5,6,7,8,讀者瀏覽器,DRM閱讀器,,,,,,,Web審核,Web提交,,參建館本地系統(tǒng)與CALIS子項目中心的互操作關系,,,服務接口層,安全通信層,,,MQ服務器,METS接口模塊,OAI收割服務器,,中心論文元數據倉庫,論文(前16頁)對象倉庫,倉儲層,,,,,,,服務接口層,應用層,存儲層,學位論文提交與發(fā)布系統(tǒng),安全通信層,,,,DRM數字版權保護系統(tǒng),,,,MQ服務器,M

5、ETS接口模塊,OAI-DP服務器,認證接口,計費接口,CLRC OpenURL接口,,,,1,2,3,4,5,6,7,8,參建館,CALIS學位論文分中心,,,,,,,,學位論文提交與發(fā)布系統(tǒng)與CALIS中心的互操作關系,,CALIS中心,CALIS-OID解析中心,,,認證中心,,,計費中心,,,資源調度中心,,,,,CALIS數字圖書館服務門戶,,,,,,,,服務接口層,應用層,存儲層,學位論文提交與發(fā)

6、布系統(tǒng),安全通信層,,,,DRM數字版權保護系統(tǒng),,,,MQ服務器,METS接口模塊,OAI-DP服務器,認證接口,計費接口,CLRC OpenURL接口,,,,1,2,3,4,5,6,7,8,參建館,,,,,,,,本地系統(tǒng)升級的主要接口,OAI和METS數據收割接口,實現元數據和對象數據的收集;CALIS_OID解析接口,實現數字對象的解析和獲取;數字對象安全下載接口,實現數字對象的安全下載;CALIS OD

7、L接口,實現CADLIS各系統(tǒng)之間的統(tǒng)一檢索;CADLIS認證/計費接口,實現認證計費。,本地系統(tǒng)升級的主要接口,主要內容:,“CALIS學位論文全文數據庫”服務體系架構基于OAI和METS數據收割模式基于OAI和METS數據收割實施步驟,NOW,基于OAI和METS數據收割模式,模式一: OAI-DP / METS-DP+MQ聯動模式二: 僅采用OAI-DP,模式一:OAI-DP / METS

8、-DP+MQ聯動 ---收割方式(1),實時自動收割 元數據通過OAI-DP發(fā)布。OAI-DP所發(fā)布出來的OAI Record采用“CALIS OAI Record V1.0” 數據格式;本地系統(tǒng)的數字對象通過METS-DP+MQ發(fā)布。METS-DP負責將數字對象封裝成METS數據包,然后通過MQ服務器發(fā)布出去,數據格式記為“CALIS METS Record V1.0” ;

9、元數據和數字對象之間的關系通過OAI Record中的CALIS_OBJ:objInfo 子元素所包含的MetaID進行關聯;學位論文中心系統(tǒng)接收到 OAI-DP或METS-DP+MQ請求,自動收割參建館本地系統(tǒng)中的數據;,模式一:OAI-DP / METS-DP+MQ聯動 ---收割方式(2),手動收割 用OAI數據導出工具將OAI-DP中的元數據導出成為包含OAI Recor

10、d數據的XML文件,該文件稱為OAI記錄文件,數據格式為“CALIS OAI Record V1.0” ;用METS數據導出工具將METS-DP中的數字對象數據導出成為包含METS Record數據的XML文件,該文件稱為METS記錄文件,數據格式記為“CALIS METS Record V1.0” ; 本地系統(tǒng)管理員手工將上述兩類文件通過FTP上傳至CALIS學位論文中心,由其完成數據匯總、統(tǒng)計工作;,模式一:OAI-DP / M

11、ETS-DP+MQ聯動 ---數據格式(元數據),,CALIS RECORD V1.0,,用于維護元數據與METS一致的四項信息,模式一:OAI-DP / METS-DP+MQ聯動 ---數據格式(對象數據),,模式一:OAI-DP / METS-DP+MQ聯動 ---實際收割測試,2006.03月--

12、-2006.07月學位論文和特色庫項目驗收前,采用模式一方式收割學位論文本地系統(tǒng)在部分參建館完成升級、數據遷移和發(fā)布工作;在廠商和參建館配合下,CALIS技術中心和學位論文子項目組共同進行數據收割;參加測試的學校:TPI:中國人民大學,中國農業(yè)大學TRS:清華大學北大方正:北京大學杭州麥達:北京大學醫(yī)學院,模式一:OAI-DP / METS-DP+MQ聯動 ---實際收割測

13、試,收割結果實時自動收割:本地系統(tǒng)和數據都存在問題中心系統(tǒng)對本地系統(tǒng)的自動收割難以有效進行手工收割:本地系統(tǒng)能順利提交數據但所上傳的數據仍存在問題本地系統(tǒng)存在的主要問題系統(tǒng)bugs數據問題,模式一:OAI-DP / METS-DP+MQ聯動 ---實際收割測試(系統(tǒng)bugs),OAI-DP本身的bugs比較容易發(fā)現。但本地管理員仍缺乏有效易用的工具;METS-DP本身的bug問題以及M

14、Q配置問題難以由本地管理員自行發(fā)現;OAI-DP+METS-DP+MQ聯動問題廠商技術人員和本地管理員都難以測試和發(fā)現;其他問題著錄和導入工具不完備;本地DP所在機器軟硬件系統(tǒng)的不穩(wěn)定;DP本身的穩(wěn)定性和可靠性問題 ;METS包傳輸丟包問題;,模式一:OAI-DP / METS-DP+MQ聯動 ---實際收割測試(數據問題),數據不符合schema導出的OAI和METS包文件,其數據不符合s

15、chema數據必備性問題很多數據項缺乏,不符合子項目組的數據規(guī)范性要求CALIS元數據schema本身不支持必備性機制,而廠商本地系統(tǒng)也未能提供相應的必備性檢測功能數據內容不一致問題(尤其是OAI記錄和METS記錄之間的不一致)OAI記錄中的about內容不合邏輯如:有時間戳或類型而沒有calis-oid;有calis-oid而沒有時間戳。 元數據時間戳應該不小于數字對象時間戳;更新數字對象時應同時更新元數據時間戳,才能保

16、證聯動收割時對這條記錄重收。METS包中的時間戳應與OAI-about中的時間戳一致等。數據的語義問題張冠李戴,模式一:OAI-DP / METS-DP+MQ聯動 ---實際收割測試(問題原因),本地系統(tǒng)的著錄工具問題單條入庫的元數據和數字對象在必備性、一致性等方面存在問題。本地系統(tǒng)的批量導入工具問題批量入庫的元數據和數字對象在必備性、一致性等方面存在問題;批量導入的數據的時間戳都為同一個時間點,這給OAI

17、-DP帶來很大壓力。統(tǒng)計結果的一致性問題本地OAI-DP、METS-DP實際發(fā)布的記錄數與本地系統(tǒng)的數據庫查詢模塊提供的記錄數不一致,給管理員造成困惑?!蓛炔繖z索機制不一致因素所造成。 本地系統(tǒng)缺乏有效的“數據質量檢測工具/模塊”在OAI-DP和METS-DP發(fā)布之前,系統(tǒng)本身對數據沒有進行這種質量檢測(包括必備性、一致性等)。管理員無法自行發(fā)現上面的“數據問題”。,模式二:僅采用OAI-DP收割,為解決模式一收割中的系

18、統(tǒng)和數據問題,CALIS管理中心于2006年10月招集廠商開會,提出模式二;廠商依據規(guī)范要求,改進和完善系統(tǒng);模式二: 收割方式實時自動收割手動收割,,模式二:僅采用OAI-DP收割 ---收割方式(1),實時自動收割 元數據和數字對象僅通過OAI-DP發(fā)布。發(fā)布出來的OAI Record采用“CALIS OAI Re

19、cord V2.0” 數據格式;學位論文中心系統(tǒng)接收到 OAI-DP或METS-DP+MQ請求,自動收割參建館本地系統(tǒng)中的數據;,,手動收割 用新的OAI數據導出工具將本地系統(tǒng)中的元數據和數字對象合并為一條OAI記錄導出為OAI記錄文件。該文件中的數據格式為“CALIS OAI Record V2.0” ; METS-DP中的數字對象數據無需再單獨導出; 本地系統(tǒng)管理員手工將上述兩類文件通過FTP上傳至CALIS學位論文中

20、心,由其完成數據匯總、統(tǒng)計工作;,模式二:僅采用OAI-DP收割 ---收割方式(2),模式二:僅采用OAI-DP收割 ---數據格式,,CALIS Record V1,CALIS Record V2,模式二:僅采用OAI-DP收割

21、 ---數據格式,,,CALIS Record V2,無Mets,模式二:僅采用OAI-DP收割 ---實際收割測試,2007.09月參加測試的學校:TPI:中國農業(yè)大學TRS:清華大學北大方正:北京大學杭州麥達:北京大學醫(yī)學院,比較: 模式一與模式二 ----在系統(tǒng)部署和維護方面,比較: 模式一與模式二

22、----優(yōu)缺點比較,,比較: 模式一與模式二 ----結論,“模式二”是對”模式一”的簡化,相應的系統(tǒng)改造、升級、部署、維護等。 工作量和難度都得大為減少, 模式二 的易用性和可管理性都大為提高;其中“模式二”的手動收割,更為安全穩(wěn)定,CALIS特色庫的大批量數據收割均采用該方式;學位論文本地系統(tǒng)的收割模塊: TPI: 支持模式二的實時自動收割、手動收割; 北大方

23、正:支持模式二的實時自動收割、手動收割; 麥達:支持模式二的實時自動收割、手動收割; TRS:支持模式二的手動收割;,主要內容:,“CALIS學位論文全文數據庫”服務體系架構基于OAI和METS數據收割模式基于OAI和METS數據收割實施步驟,NOW,基于OAI和METS數據收割實施步驟 ---針對模式二(手動收割),1)現有系統(tǒng)升級----公司介紹2)數據導出----公司介紹3) 數據質量檢測4)通過FT

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論