服務(wù)近2000家企業(yè),依托一系列實(shí)踐中打磨過的技術(shù)和產(chǎn)品,根據(jù)企業(yè)的具體業(yè)務(wù)問題和需求,針對(duì)性的提供各行業(yè)大數(shù)據(jù)解決方案。
研報(bào)智能審核系統(tǒng)技術(shù)方案-證券
來源:未知 時(shí)間:2022-51-30 瀏覽次數(shù):206次
一,需求背景在當(dāng)前監(jiān)管機(jī)構(gòu)大力推動(dòng)金融行業(yè)數(shù)字化、智能化的背景下,針對(duì)研報(bào)產(chǎn)出流程中大量繁雜底稿的整理、傳統(tǒng)審核流程等作業(yè)方式,智能核查系統(tǒng)從以下幾個(gè)方面實(shí)現(xiàn)資源整合、信息共享、業(yè)務(wù)協(xié)同,以達(dá)到相關(guān)部門人員提升工作效率、提高產(chǎn)出質(zhì)量等效果。
從業(yè)務(wù)流程角度來看,研究員整理底稿,撰寫研究報(bào)告,提交給核查人員后,核查人員對(duì)研究報(bào)告進(jìn)行審核,期間伴隨打回或傳給下一位審核人員的動(dòng)作,直至審核通過,流程無法規(guī)范化,信息很難共享。核查系統(tǒng)中可以支持管理人員制定審核流程,整個(gè)過程線上化,相關(guān)人員可實(shí)時(shí)關(guān)注項(xiàng)目進(jìn)展,關(guān)鍵節(jié)點(diǎn)數(shù)據(jù)共享,減少信息傳遞阻礙。
從審核本身來看,核查人員需要在繁雜的底稿中一一對(duì)應(yīng)每一個(gè)數(shù)據(jù)出處,且需要花費(fèi)大量時(shí)間通過查詢第三方數(shù)據(jù)來確保數(shù)據(jù)準(zhǔn)確,核對(duì)過程沒有數(shù)據(jù)沉淀,通過線下方式效率低、易出錯(cuò)。核查系統(tǒng)可將文檔通過技術(shù)手段線上化后,對(duì)文檔內(nèi)容進(jìn)行分析,智能判斷文檔中的數(shù)據(jù)與相關(guān)公開數(shù)據(jù)一致性,自動(dòng)關(guān)聯(lián)相關(guān)底稿內(nèi)容,確保研究報(bào)告與相關(guān)底稿內(nèi)容的一致性,通過語義分析等技術(shù)校驗(yàn)確保文本規(guī)范性,另外文檔數(shù)據(jù)沉淀后,支持底稿溯源。核查系統(tǒng)應(yīng)通過相關(guān)技術(shù)提供一套完整的文檔核查能力,解決核查人員對(duì)于核查過程中的痛點(diǎn)。
1.軟件系統(tǒng)開發(fā)目標(biāo)
從業(yè)務(wù)流程出發(fā),系統(tǒng)應(yīng)達(dá)到對(duì)業(yè)務(wù)流程完成覆蓋,有相應(yīng)的流程管理、人員管理、權(quán)限管理、核查內(nèi)容管理,提高工作效率,規(guī)范核查流程。
對(duì)于底稿,系統(tǒng)應(yīng)具備底稿管理能力,完成數(shù)據(jù)沉淀,提供溯源能力,包括文本段落、數(shù)值等。
對(duì)于核查本身,系統(tǒng)提供研究報(bào)告上下文一致性審核,底稿一致性審核,外部數(shù)據(jù)核對(duì),文本規(guī)范性審核能力。
2.總體方案
整個(gè)系統(tǒng)圍繞業(yè)務(wù)內(nèi)容進(jìn)行設(shè)計(jì),從數(shù)據(jù)來源、系統(tǒng)核心處理流程以及數(shù)據(jù)落地存儲(chǔ)幾個(gè)方面進(jìn)行考慮。通過將業(yè)務(wù)人員上傳的文件進(jìn)行OCR、NLP、智能語言處理技術(shù)解析并結(jié)構(gòu)化存儲(chǔ),完成核查對(duì)象的數(shù)據(jù)處理,對(duì)接第三方數(shù)據(jù)源數(shù)據(jù),分析并清洗后得到外部數(shù)據(jù)支持。
搭建工作流引擎支撐業(yè)務(wù)流程配置,包括人員權(quán)限相關(guān)管理、核查流程和相關(guān)內(nèi)容管理,對(duì)研究人員、審核人員間的工作流程完成覆蓋,支持文件上傳、底稿管理、智能審核、人工審核、批注、反饋消息通知等功能,達(dá)到過程可追溯,提高流程規(guī)范,確保輸出研究報(bào)告的質(zhì)量。
對(duì)于核心核查功能,整合已解析并結(jié)構(gòu)化的文檔,關(guān)聯(lián)已處理的第三方數(shù)據(jù),依賴配置的業(yè)務(wù)流程及核查相關(guān)規(guī)則要求,系統(tǒng)自動(dòng)對(duì)研究報(bào)告進(jìn)行上下文一致性的審核,研究報(bào)告與底稿間一致性審核,文中數(shù)據(jù)與第三方數(shù)據(jù)一致性,文本內(nèi)容規(guī)范性審核。
結(jié)構(gòu)化存儲(chǔ)各類文檔數(shù)據(jù),結(jié)合搜索引擎,達(dá)到底稿溯源能力,支持業(yè)務(wù)人員在系統(tǒng)中通過簡(jiǎn)單的關(guān)鍵字信息在海量底稿文檔中篩選關(guān)鍵文檔。
系統(tǒng)設(shè)計(jì)上,結(jié)構(gòu)清晰,操作交互簡(jiǎn)便,使用流程清晰易用,理解與學(xué)習(xí)成本底
二.技術(shù)實(shí)現(xiàn)方案
1.服務(wù)端文件管理
文件管理模塊是該系統(tǒng)的核心,由文件表格、文件樹和文件編輯模塊三個(gè)插件構(gòu)成。主要功能可以分為:
1)基于Web的文件資源瀏覽。
2)基于Web的文件在線打開。
3)基于HTYP協(xié)議的大文件傳輸。
4)大文件傳輸?shù)臄帱c(diǎn)續(xù)傳功能。
5)用戶文件的空間管理。
2.數(shù)據(jù)庫(kù)及文件服務(wù)器
本系統(tǒng)使用MySQL數(shù)據(jù)庫(kù),用來保存用戶信息、上傳的文件基本信息。文件斷點(diǎn)續(xù)傳模塊采用base54加密的存儲(chǔ)技術(shù)來實(shí)現(xiàn)對(duì)文件信息的管理。
3.OCR智能識(shí)別
圖像處理:去噪聲、平滑、去黑邊、傾斜校正等。


表格識(shí)別

字符分割

字符識(shí)別

格式化輸出

4.語義識(shí)別
姓名信息提取:精準(zhǔn)提取文本填單信息中收件人或寄件人的名稱,并輸出結(jié)構(gòu)化信息
電話信息提取:精準(zhǔn)提取文本填單信息中寄件人或收件人的聯(lián)系方式,并輸出結(jié)構(gòu)化信息
詞性標(biāo)注:為自然語言文本中的每個(gè)詞匯賦予一個(gè)詞性,例如名詞、動(dòng)詞、形容詞等
命名實(shí)體識(shí)別:識(shí)別自然語言文本中具有特定意義的實(shí)體,主要包括人名、地名、機(jī)構(gòu)名、時(shí)間日期
短文本相似聚合:通過語義相似度計(jì)算,判斷兩個(gè)短文本的語義表述是否相近,從而實(shí)現(xiàn)相似短文本的聚合或去重
文本可計(jì)算:詞表中所有的詞向量構(gòu)成一個(gè)向量空間,每一個(gè)詞都是這個(gè)詞向量空間中的一個(gè)點(diǎn),利用這種方法,實(shí)現(xiàn)文本的可計(jì)算
領(lǐng)先技術(shù)應(yīng)用:詞義相似度是自然語言處理中的重要基礎(chǔ)技術(shù),是專名挖掘、query改寫、詞性標(biāo)注等常用技術(shù)的基礎(chǔ)之一
算法識(shí)別準(zhǔn)確:在大規(guī)模人工標(biāo)注的數(shù)據(jù)基礎(chǔ)上,句法結(jié)構(gòu)描述體系簡(jiǎn)潔通用,海量數(shù)據(jù)訓(xùn)練讓文本匹配更準(zhǔn)確
5.智能報(bào)告知識(shí)庫(kù)地址識(shí)別
地址信息提?。壕珳?zhǔn)提取文本填單中的地址信息,并按省、市、區(qū)、街道、詳細(xì)地址的格式結(jié)構(gòu)化輸出姓名信息提取:精準(zhǔn)提取文本填單信息中收件人或寄件人的名稱,并輸出結(jié)構(gòu)化信息
電話信息提取:精準(zhǔn)提取文本填單信息中寄件人或收件人的聯(lián)系方式,并輸出結(jié)構(gòu)化信息
詞法分析
中文分詞:將連續(xù)的自然語言文本,切分成具有語義合理性和完整性的詞匯序列詞性標(biāo)注:為自然語言文本中的每個(gè)詞匯賦予一個(gè)詞性,例如名詞、動(dòng)詞、形容詞等
命名實(shí)體識(shí)別:識(shí)別自然語言文本中具有特定意義的實(shí)體,主要包括人名、地名、機(jī)構(gòu)名、時(shí)間日期
短文本相似度
短文本相似度計(jì)算:提供兩個(gè)短文本之間的語義相似度計(jì)算能力,輸出的相似度是一個(gè)介于0到1之間的實(shí)數(shù)值,輸出數(shù)值越大,則代表語義相似程度相對(duì)越高短文本相似聚合:通過語義相似度計(jì)算,判斷兩個(gè)短文本的語義表述是否相近,從而實(shí)現(xiàn)相似短文本的聚合或去重
文本糾錯(cuò)
文本糾錯(cuò)能力:準(zhǔn)確識(shí)別出文本中出現(xiàn)的字詞或標(biāo)點(diǎn)錯(cuò)誤,并針對(duì)性給出正確的建議文本內(nèi)容,在搜索引擎、語音識(shí)別、內(nèi)容審核等場(chǎng)景有廣泛應(yīng)用詞向量表示
詞語向量化:通過訓(xùn)練的方法,將語言詞表中的詞映射成一個(gè)長(zhǎng)度固定的向量文本可計(jì)算:詞表中所有的詞向量構(gòu)成一個(gè)向量空間,每一個(gè)詞都是這個(gè)詞向量空間中的一個(gè)點(diǎn),利用這種方法,實(shí)現(xiàn)文本的可計(jì)算
詞義相似度
深度語義解析:該技術(shù)常用于計(jì)算兩個(gè)給定詞語的語義相似度,基于自然語言中的分布假設(shè),即越是經(jīng)常共同出現(xiàn)的詞之間的相似度越高領(lǐng)先技術(shù)應(yīng)用:詞義相似度是自然語言處理中的重要基礎(chǔ)技術(shù),是專名挖掘、query改寫、詞性標(biāo)注等常用技術(shù)的基礎(chǔ)之一
依存句法分析
深度語義結(jié)構(gòu):利用句子中詞與詞之間的依存關(guān)系來表示詞語的句法結(jié)構(gòu)信息(如主謂、動(dòng)賓、定中等結(jié)構(gòu)關(guān)系) ,并用樹狀結(jié)構(gòu)來表示整句的的結(jié)構(gòu)(如主謂賓、定狀補(bǔ))等算法識(shí)別準(zhǔn)確:在大規(guī)模人工標(biāo)注的數(shù)據(jù)基礎(chǔ)上,句法結(jié)構(gòu)描述體系簡(jiǎn)潔通用,海量數(shù)據(jù)訓(xùn)練讓文本匹配更準(zhǔn)確
DNN語言模型
基于條件概率:該技術(shù)通過計(jì)算給定詞組成的句子的概率,從而判斷所組成的句子是否符合客觀語言表達(dá)習(xí)慣系統(tǒng)結(jié)構(gòu)
知識(shí)庫(kù)管理系統(tǒng)由如下四部分就組成:知識(shí)庫(kù)使用關(guān)系型數(shù)據(jù)庫(kù)來存放知識(shí),包括事實(shí)與規(guī)則。
搜索模塊實(shí)現(xiàn)知識(shí)庫(kù)和推理機(jī)之間的知識(shí)搜索和與傳遞。
查詢模塊實(shí)現(xiàn)推理機(jī)對(duì)知識(shí)庫(kù)的知識(shí)查詢。
一致性、完整性檢查模塊在知識(shí)庫(kù)中的知識(shí)發(fā)生變動(dòng)時(shí)對(duì)知識(shí)庫(kù)中的知識(shí)進(jìn)行一致性、完整性檢查。
功能概述

搭建海量文檔集中存儲(chǔ)的平臺(tái),實(shí)現(xiàn)統(tǒng)一的文檔管理。對(duì)文檔進(jìn)行統(tǒng)一管理可支持顯示、搜索、排序等功能。提供權(quán)限控制機(jī)制,針對(duì)用戶進(jìn)行細(xì)粒度的權(quán)限控制,控制用戶的管理、瀏覽、閱讀、編輯、下載、刪除、打印、訂閱等操作,實(shí)現(xiàn)文檔安全共享。采用加密存儲(chǔ),防止文件擴(kuò)散,全面保證數(shù)據(jù)的安全性和可靠性。
6.底稿審核
登錄系統(tǒng)上傳文件,系統(tǒng)將自動(dòng)識(shí)別文件內(nèi)容,區(qū)分首頁及正文頁,對(duì)首頁數(shù)據(jù)進(jìn)行整理,將整理的數(shù)據(jù)在文檔正文內(nèi)進(jìn)行一致性核查,核查通過則提示驗(yàn)證通過,否則提示不通過。

7.文檔協(xié)同
權(quán)限管理
通過集中的數(shù)據(jù)權(quán)限管控,分別對(duì)不同安全等級(jí)的數(shù)據(jù)分配不同的訪問權(quán)限,并基于統(tǒng)一的安全技術(shù)框架與多維度的安全控制模型, 對(duì)用戶授權(quán)及數(shù)據(jù)訪問權(quán)限進(jìn)行校驗(yàn),保證核心數(shù)據(jù)的保密性。系統(tǒng)權(quán)限機(jī)制:系統(tǒng)權(quán)限模塊使用自定義用戶角色機(jī)制;
自定義用戶角色:管理員可創(chuàng)建用戶角色組,并設(shè)置角色組名稱;
自定義權(quán)限:針對(duì)不同的角色組設(shè)置不同的權(quán)限;
自定義用戶:創(chuàng)建用戶賬戶并加入到不同的角色組(用戶權(quán)限設(shè)置)。
操作流程簡(jiǎn)述:創(chuàng)建角色-選擇功能模塊—>添加管理員-將管理員添加到該角色(管理員獲得該角色權(quán)限)、編輯角色權(quán)限后對(duì)應(yīng)管理員權(quán)限相應(yīng)改變(需注銷登錄)。