国产无码精品视频一区,在线观看一区二区三区AV,精品熟女乱伦一区二区三

服務(wù)近2000家企業(yè)，依托一系列實踐中打磨過的技術(shù)和產(chǎn)品，根據(jù)企業(yè)的具體業(yè)務(wù)問題和需求，針對性的提供各行業(yè)大數(shù)據(jù)解決方案。

PDF及圖片資源內(nèi)容識別與智能歸檔系統(tǒng)解決方案
來源：未知　時間：2018-21-7　瀏覽次數(shù)：224次

1.1.1 資源加工處理

資源元數(shù)據(jù) ：即PDF 文件的基本信息：標(biāo)題作者、關(guān)鍵詞、摘要、時間等數(shù)據(jù)項。

1.1.1.1 資源加工大體功能

圖資源加工模塊
加工大體流程是：
1、根據(jù)資源目錄選擇PDF文件建立 PDF版面模板，并管理
1、2、根據(jù)資源目錄篩選未加工的PDF文件，關(guān)聯(lián)一對應(yīng)批次的版面模板，OCR自動提取標(biāo)題、摘要、作者等、可人工二次編輯。
1、3、審核人員針對已加工的文獻進行審核不通過駁回重新加工，通過發(fā)布。
文件狀態(tài)有：知識的加工狀態(tài)（未加工、加工中、待審核、審核通過狀態(tài)）
Ø 數(shù)據(jù)源
數(shù)據(jù)源主要為外文pdf文件（圖片型PDF和雙層PDF文件）。
Ø 載體形態(tài)
從資源的載體形式劃分為如下五種情況：tif文件類（來源文獻搶救）、pdf文件類型、帶元數(shù)據(jù)的pdf、無原文的文摘數(shù)據(jù)、網(wǎng)頁數(shù)據(jù)。
Ø 資源元數(shù)據(jù)加工
對元數(shù)據(jù)進行數(shù)據(jù)提取和數(shù)據(jù)規(guī)范。對單層的pdf進行基本元數(shù)據(jù)加工，包括數(shù)據(jù)標(biāo)題、摘要、作者、關(guān)鍵詞、時間等信息的提取。
版面分析：對同類資源的pdf文件，進行版面格式化分析，人工標(biāo)注標(biāo)題、摘要、作者等版面區(qū)域，對區(qū)域內(nèi)的文字內(nèi)容進行識別，錄入到相應(yīng)的元數(shù)據(jù)字段中。
掃描紙質(zhì)文獻：利用掃描儀對期刊等紙質(zhì)文獻進行掃描，掃描儀支持OCR識別，形成雙層PDF文件。
PDF與元數(shù)據(jù)的關(guān)聯(lián)：通過掃描儀加工的文獻，進行版面分析后，把加工的對象數(shù)據(jù)與元數(shù)據(jù)進行管理。
OCR識別：對圖片中的文字內(nèi)容進行識別。
Ø 資源深加工
包括圖表加工和引文加工。
Ø 資源組織
對各類不同來源的資源進行重新組織和知識關(guān)聯(lián)

1.1.1.2 功能設(shè)計

1.1.1.2.1 版面分析

根據(jù)數(shù)字化加工要求，資源采用流水線式的數(shù)字化加工流程，將紙質(zhì)資源、資料轉(zhuǎn)為圖像信息的電子資源。主要包括資源提檔、資源整理、數(shù)據(jù)錄入、批量掃描、圖像編輯、資源校核、資源歸還等多道工序，構(gòu)成一個完整的流水線加工流程，并支持工序回饋，形成一個閉環(huán)的質(zhì)量監(jiān)控系統(tǒng)。

1.1.1.2.1.1 模板定制

圖模塊定制流程圖
加載待分析pdf：從文獻庫中提取待加工的數(shù)據(jù)一條。
圖片形式讀取首頁：以圖片形式，讀取pdf首頁，首頁一般情況包含了標(biāo)題、摘要、作者信息。
文字區(qū)塊識別：通過OCR技術(shù)，對圖片的文字區(qū)域進行區(qū)塊識別。

區(qū)塊調(diào)整：自定識別的區(qū)間，不具備一般性，需要人工進行調(diào)節(jié)，圈定區(qū)域。
區(qū)塊注錄映射：對識別的區(qū)域進行元數(shù)據(jù)項映射，如：把圖中的第二塊區(qū)域映射到標(biāo)題，第五塊區(qū)域映射到英文標(biāo)題。
區(qū)塊注錄保存：把映射的區(qū)域塊坐標(biāo)和映射的元數(shù)據(jù)項信息保存到版面模板庫中。

1.1.1.2.1.2 模板管理

對模板進行管理，包括模板預(yù)覽、模板詳情、模板編輯功能。
Ø 區(qū)塊信息數(shù)據(jù)項

區(qū)塊信息	描述
區(qū)塊ID	區(qū)域塊唯一標(biāo)識
頂坐標(biāo)
底坐標(biāo)
左坐標(biāo)
右坐標(biāo)

Ø 區(qū)塊信息-元數(shù)據(jù)數(shù)據(jù)項映射

映射	描述
區(qū)塊ID	區(qū)域塊唯一標(biāo)識
元數(shù)據(jù)名稱	元數(shù)據(jù)項規(guī)范名稱，本系統(tǒng)映射的元數(shù)據(jù)項包括：標(biāo)題摘要作者發(fā)表時間正文區(qū)域

1.1.1.2.1.3 模板匹配

圖模塊匹配流程圖

1.1.1.2.1.4 摘要提取

基于OCR內(nèi)容識別后，對摘要信息的識別，摘要具有在正文獨立成章節(jié)的特點，如：Abstract：XXXX的特征。

圖摘要提取流程圖

1.1.1.2.2 圖表加工

圖表加工包括對PDF文獻內(nèi)容中的圖像和表格提取出來，針對每一個添加標(biāo)題、標(biāo)簽詞數(shù)據(jù)項。

1.1.1.2.2.1 圖表元數(shù)據(jù)提取

利用圖標(biāo)的標(biāo)簽，進行圖標(biāo)提取。

圖圖表元數(shù)據(jù)提取流程圖

1.1.1.2.2.2 圖表管理

對文檔中的抽取的圖標(biāo)進行管理。術(shù)語信息如下：

項目名稱	說明
圖表名稱	從文檔中抽取的圖表名稱
圖片標(biāo)簽	加工人員提取或用戶建議
圖片信息	規(guī)格信息圖表大小格式：jpg 圖表類型
來源文獻	所屬文獻