色婷五一,精品亚洲欧美一区二区三区日产 ,精选国产AV剧情,无码丰满少妇2在线观看

18600329666

咨詢技術(shù)專家

掃一掃
與技術(shù)專家在線溝通

Menu
PDF及圖片資源內(nèi)容識別與智能歸檔系統(tǒng)解決方案

1.1.1 資源加工處理

資源元數(shù)據(jù) :即PDF 文件的 基本信息:標(biāo)題 作者、關(guān)鍵詞、摘要、時間等數(shù)據(jù)項。

1.1.1.1  資源加工大體功能



圖資源加工模塊
加工大體流程是:
1、   根據(jù)資源目錄選擇PDF文件建立 PDF版面模板,并管理
1、2、根據(jù)資源目錄篩選未加工的PDF文件,關(guān)聯(lián)一對應(yīng)批次的版面模板,OCR自動提取標(biāo)題、摘要、作者等、可人工二次編輯。
1、3、審核人員針對已加工的文獻進行審核不通過駁回重新加工,通過發(fā)布。
文件狀態(tài)有:知識的加工狀態(tài)(未加工、加工中、待審核、審核通過狀態(tài))
Ø  數(shù)據(jù)源
數(shù)據(jù)源 主要為 外文pdf文件(圖片型PDF和 雙層PDF文件)。
Ø  載體形態(tài)
從資源的載體形式劃分為如下五種情況:tif文件類(來源文獻搶救)、pdf文件類型、帶元數(shù)據(jù)的pdf、無原文的文摘數(shù)據(jù)、網(wǎng)頁數(shù)據(jù)。
Ø  資源元數(shù)據(jù)加工
對元數(shù)據(jù)進行數(shù)據(jù)提取和數(shù)據(jù)規(guī)范。對單層的pdf進行基本元數(shù)據(jù)加工,包括數(shù)據(jù)標(biāo)題、摘要、作者、關(guān)鍵詞、時間等信息的提取。
版面分析:對同類資源的pdf文件,進行版面格式化分析,人工標(biāo)注標(biāo)題、摘要、作者等版面區(qū)域,對區(qū)域內(nèi)的文字內(nèi)容進行識別,錄入到相應(yīng)的元數(shù)據(jù)字段中。
掃描紙質(zhì)文獻:利用掃描儀對期刊等紙質(zhì)文獻進行掃描,掃描儀支持OCR識別,形成雙層PDF文件。
PDF與元數(shù)據(jù)的關(guān)聯(lián):通過掃描儀加工的文獻,進行版面分析后,把加工的對象數(shù)據(jù)與元數(shù)據(jù)進行管理。
OCR識別:對圖片中的文字內(nèi)容進行識別。
Ø  資源深加工
包括圖表加工和引文加工。
Ø  資源組織
對各類不同來源的資源進行重新組織和知識關(guān)聯(lián)

1.1.1.2  功能設(shè)計

1.1.1.2.1   版面分析
根據(jù)數(shù)字化加工要求,資源采用流水線式的數(shù)字化加工流程,將紙質(zhì)資源、資料轉(zhuǎn)為圖像信息的電子資源。主要包括資源提檔、資源整理、數(shù)據(jù)錄入、批量掃描、圖像編輯、資源校核、資源歸還等多道工序,構(gòu)成一個完整的流水線加工流程,并支持工序回饋,形成一個閉環(huán)的質(zhì)量監(jiān)控系統(tǒng)。
1.1.1.2.1.1         模板定制

圖模塊定制流程圖
加載待分析pdf:從文獻庫中提取待加工的數(shù)據(jù)一條。
圖片形式讀取首頁:以圖片形式,讀取pdf首頁,首頁一般情況包含了標(biāo)題、摘要、作者信息。
文字區(qū)塊識別:通過OCR技術(shù),對圖片的文字區(qū)域進行區(qū)塊識別。



區(qū)塊調(diào)整:自定識別的區(qū)間,不具備一般性,需要人工進行調(diào)節(jié),圈定區(qū)域。
區(qū)塊注錄映射:對識別的區(qū)域進行元數(shù)據(jù)項映射,如:把圖中的第二塊區(qū)域映射到標(biāo)題,第五塊區(qū)域映射到英文標(biāo)題。
區(qū)塊注錄保存:把映射的區(qū)域塊坐標(biāo)和映射的元數(shù)據(jù)項信息保存到版面模板庫中。

1.1.1.2.1.2         模板管理
對模板進行管理,包括模板預(yù)覽、模板詳情、模板編輯功能。
Ø  區(qū)塊信息數(shù)據(jù)項

區(qū)塊信息 描述
區(qū)塊ID 區(qū)域塊唯一標(biāo)識
頂坐標(biāo)  
底坐標(biāo)  
左坐標(biāo)  
右坐標(biāo)  
 
 
Ø  區(qū)塊信息-元數(shù)據(jù)數(shù)據(jù)項映射

映射 描述
區(qū)塊ID 區(qū)域塊唯一標(biāo)識
元數(shù)據(jù)名稱 元數(shù)據(jù)項規(guī)范名稱,本系統(tǒng)映射的元數(shù)據(jù)項包括:
標(biāo)題
摘要
作者
發(fā)表時間
正文區(qū)域
 
1.1.1.2.1.3         模板匹配


圖模塊匹配流程圖

1.1.1.2.1.4         摘要提取
基于OCR內(nèi)容識別后,對摘要信息的識別,摘要具有在正文獨立成章節(jié)的特點,如:Abstract:XXXX的特征。



圖摘要提取流程圖

1.1.1.2.2   圖表加工
圖表加工包括對PDF文獻內(nèi)容中的圖像和表格提取出來 ,針對每一個添加標(biāo)題、標(biāo)簽詞數(shù)據(jù)項。
1.1.1.2.2.1         圖表元數(shù)據(jù)提取
利用圖標(biāo)的標(biāo)簽,進行圖標(biāo)提取。



圖圖表元數(shù)據(jù)提取流程圖
1.1.1.2.2.2         圖表管理
對文檔中的抽取的圖標(biāo)進行管理。術(shù)語信息如下:
項目名稱 說明
圖表名稱 從文檔中抽取的圖表名稱
圖片標(biāo)簽 加工人員提取或用戶建議
圖片信息 規(guī)格信息
圖表大小
格式:jpg
圖表類型
來源文獻 所屬文獻
實現(xiàn)對圖片能夠進行預(yù)覽。支持刪除、修改功能
 
圖片建議標(biāo)簽管理




圖圖表管理流程圖

1.1.1.2.3   數(shù)據(jù)校驗
加工人員可以通過加工反饋,查看審核人員對自己加工知識的意見。為了更好的跟蹤一條知識的狀態(tài),查看此知識在整個加工流程中所處的位置,可點擊知識加工狀態(tài),可以查看知識的加工狀態(tài)(未加工、加工中、待審核、審核通過狀態(tài))。
 

1.1.1.3  大體模塊原型如下截圖所示:


 

 

PDF及圖片資源內(nèi)容識別與智能歸檔系統(tǒng)解決方案