服務(wù)近2000家企業(yè),依托一系列實踐中打磨過的技術(shù)和產(chǎn)品,根據(jù)企業(yè)的具體業(yè)務(wù)問題和需求,針對性的提供各行業(yè)大數(shù)據(jù)解決方案。
PDF及圖片資源內(nèi)容識別與智能歸檔系統(tǒng)解決方案
來源:未知 時間:2018-21-7 瀏覽次數(shù):224次
1.1.1 資源加工處理
資源元數(shù)據(jù) :即PDF 文件的 基本信息:標(biāo)題 作者、關(guān)鍵詞、摘要、時間等數(shù)據(jù)項。1.1.1.1 資源加工大體功能

圖資源加工模塊
加工大體流程是:
1、 根據(jù)資源目錄選擇PDF文件建立 PDF版面模板,并管理
1、2、根據(jù)資源目錄篩選未加工的PDF文件,關(guān)聯(lián)一對應(yīng)批次的版面模板,OCR自動提取標(biāo)題、摘要、作者等、可人工二次編輯。
1、3、審核人員針對已加工的文獻進行審核不通過駁回重新加工,通過發(fā)布。
文件狀態(tài)有:知識的加工狀態(tài)(未加工、加工中、待審核、審核通過狀態(tài))
Ø 數(shù)據(jù)源
數(shù)據(jù)源 主要為 外文pdf文件(圖片型PDF和 雙層PDF文件)。
Ø 載體形態(tài)
從資源的載體形式劃分為如下五種情況:tif文件類(來源文獻搶救)、pdf文件類型、帶元數(shù)據(jù)的pdf、無原文的文摘數(shù)據(jù)、網(wǎng)頁數(shù)據(jù)。
Ø 資源元數(shù)據(jù)加工
對元數(shù)據(jù)進行數(shù)據(jù)提取和數(shù)據(jù)規(guī)范。對單層的pdf進行基本元數(shù)據(jù)加工,包括數(shù)據(jù)標(biāo)題、摘要、作者、關(guān)鍵詞、時間等信息的提取。
版面分析:對同類資源的pdf文件,進行版面格式化分析,人工標(biāo)注標(biāo)題、摘要、作者等版面區(qū)域,對區(qū)域內(nèi)的文字內(nèi)容進行識別,錄入到相應(yīng)的元數(shù)據(jù)字段中。
掃描紙質(zhì)文獻:利用掃描儀對期刊等紙質(zhì)文獻進行掃描,掃描儀支持OCR識別,形成雙層PDF文件。
PDF與元數(shù)據(jù)的關(guān)聯(lián):通過掃描儀加工的文獻,進行版面分析后,把加工的對象數(shù)據(jù)與元數(shù)據(jù)進行管理。
OCR識別:對圖片中的文字內(nèi)容進行識別。
Ø 資源深加工
包括圖表加工和引文加工。
Ø 資源組織
對各類不同來源的資源進行重新組織和知識關(guān)聯(lián)
1.1.1.2 功能設(shè)計
1.1.1.2.1 版面分析
根據(jù)數(shù)字化加工要求,資源采用流水線式的數(shù)字化加工流程,將紙質(zhì)資源、資料轉(zhuǎn)為圖像信息的電子資源。主要包括資源提檔、資源整理、數(shù)據(jù)錄入、批量掃描、圖像編輯、資源校核、資源歸還等多道工序,構(gòu)成一個完整的流水線加工流程,并支持工序回饋,形成一個閉環(huán)的質(zhì)量監(jiān)控系統(tǒng)。1.1.1.2.1.1 模板定制

圖模塊定制流程圖
加載待分析pdf:從文獻庫中提取待加工的數(shù)據(jù)一條。
圖片形式讀取首頁:以圖片形式,讀取pdf首頁,首頁一般情況包含了標(biāo)題、摘要、作者信息。
文字區(qū)塊識別:通過OCR技術(shù),對圖片的文字區(qū)域進行區(qū)塊識別。

區(qū)塊調(diào)整:自定識別的區(qū)間,不具備一般性,需要人工進行調(diào)節(jié),圈定區(qū)域。
區(qū)塊注錄映射:對識別的區(qū)域進行元數(shù)據(jù)項映射,如:把圖中的第二塊區(qū)域映射到標(biāo)題,第五塊區(qū)域映射到英文標(biāo)題。
區(qū)塊注錄保存:把映射的區(qū)域塊坐標(biāo)和映射的元數(shù)據(jù)項信息保存到版面模板庫中。
1.1.1.2.1.2 模板管理
對模板進行管理,包括模板預(yù)覽、模板詳情、模板編輯功能。Ø 區(qū)塊信息數(shù)據(jù)項
區(qū)塊信息 | 描述 |
區(qū)塊ID | 區(qū)域塊唯一標(biāo)識 |
頂坐標(biāo) | |
底坐標(biāo) | |
左坐標(biāo) | |
右坐標(biāo) |
Ø 區(qū)塊信息-元數(shù)據(jù)數(shù)據(jù)項映射
映射 | 描述 |
區(qū)塊ID | 區(qū)域塊唯一標(biāo)識 |
元數(shù)據(jù)名稱 |
元數(shù)據(jù)項規(guī)范名稱,本系統(tǒng)映射的元數(shù)據(jù)項包括: 標(biāo)題 摘要 作者 發(fā)表時間 正文區(qū)域 |
1.1.1.2.1.3 模板匹配

圖模塊匹配流程圖
1.1.1.2.1.4 摘要提取
基于OCR內(nèi)容識別后,對摘要信息的識別,摘要具有在正文獨立成章節(jié)的特點,如:Abstract:XXXX的特征。
圖摘要提取流程圖
1.1.1.2.2 圖表加工
圖表加工包括對PDF文獻內(nèi)容中的圖像和表格提取出來 ,針對每一個添加標(biāo)題、標(biāo)簽詞數(shù)據(jù)項。1.1.1.2.2.1 圖表元數(shù)據(jù)提取
利用圖標(biāo)的標(biāo)簽,進行圖標(biāo)提取。
圖圖表元數(shù)據(jù)提取流程圖
1.1.1.2.2.2 圖表管理
對文檔中的抽取的圖標(biāo)進行管理。術(shù)語信息如下:項目名稱 | 說明 |
圖表名稱 | 從文檔中抽取的圖表名稱 |
圖片標(biāo)簽 | 加工人員提取或用戶建議 |
圖片信息 |
規(guī)格信息 圖表大小 格式:jpg 圖表類型 |
來源文獻 | 所屬文獻 |
圖片建議標(biāo)簽管理

圖圖表管理流程圖
1.1.1.2.3 數(shù)據(jù)校驗
加工人員可以通過加工反饋,查看審核人員對自己加工知識的意見。為了更好的跟蹤一條知識的狀態(tài),查看此知識在整個加工流程中所處的位置,可點擊知識加工狀態(tài),可以查看知識的加工狀態(tài)(未加工、加工中、待審核、審核通過狀態(tài))。1.1.1.3 大體模塊原型如下截圖所示:


![]() |
PDF及圖片資源內(nèi)容識別與智能歸檔系統(tǒng)解決方案 |