首頁 >產品中心>通用產品

SDI智能數據獲取系統

一、 產品介紹

產品提供豐富、靈活、高效、安全的信息采集應用,將分散的異構數據源如數據庫(關系/非關系型數據庫)、網絡信息(WEB)資源、文件系統等數據進行抽取及清洗、轉換、加工,形成統一的數據標準規范后進行數據加載,為信息搜索、信息整合利用、數據決策分析等應用提供高質量數據。

 

二、 產品背景

隨著信息技術的迅猛發展和普及應用,信息資源越來越呈現出不同表現形式和結構多樣性,大量信息分布在相互獨立的各個子系統和節點中,需要通過信息技術手段把各類不同標準、不同來源的異構數據轉換為統一的信息和知識并加以利用,為行業化應用提供信息資源的整合服務。

 

三、 功能特性

1. 統一的采集管理

平臺模塊化架構,支持采集模塊可插接擴展;

多線程調度管控,按時按需自動啟動采集;

多任務協作并行爬取同一目標,提高數據采集效率;

統一任務監控,實時監測數據采集的運行狀態;

異常數據報警與追溯機制,保證數據的完整性;

采集任務可視化的配置、管理、監控與統計;

統一認證與授權,為用戶提供操作安全與數據安全保障;

標準化接口,支持與第三方平臺集成;

2. 完備的采集方案

(1)數據庫數據采集

支持各種類型數據庫(關系型/非關系型)數據采集,包括但不限于Oracle、MySQL、SQL Server、DB2、Mongo DB、TRS、ArcGIS、人大金倉、達夢等

支持數據表大對象字段、文件路徑字段的內容屬性與全文抽取

支持字段拆分、多字段合并后采集

支持數據過濾、清洗與類型轉換

(2)網絡資源采集

支持全站點歸檔模式與指定頁面內容采集模式

支持動態頁面(Ajax)與自媒體數據采集

支持自動模擬登錄;

支持多種防爬取策略:IP池輪詢、代理服務器、可控采集頻度等;

支持多級關聯頁面的信息抽取與組織;

(3)文件資源采集

支持FTP、本地文件目錄、網絡磁盤等文件來源;

支持Word、PPT、EXCEL、PDF、TXT、HTML等常見文本格式文件屬性解析與全文提取;

支持200多種常見文件格式文件元數據提取;

(4)支持增量采集

(5)支持大數據分布式采集

(6)支持針對第三方系統接口的采集適配器可擴展

例如:EMC Documentum、IBM FileNet、Oracle Opentxt以及OA、ERP、Email等企業級應用;

(7)支持可配置輸出方案

采集內容可根據需要輸出到各類型數據庫或元數據倉儲平臺中。

四、 應用案例

1. 黨政

中共中央某辦事機構-523項目

國務院某辦事機構-政務信息資源整合與利用項目

國家發展和改革委員會-信息資源整合利用平臺

2. 企業

國家電網公司運營監測(控)中心-互聯網大數據采集處理項目

北京航空航天大學-中航信情報分析系統

中國電信-運維服務中心工單知識庫搜索項目

3. 軍隊

某軍事醫學研究機構-軍事醫學戰略論證與情報研究支持系統及綜合資料庫

某軍兵種科技信息網-綜合集成知識服務平臺

4. 圖情

浙江圖書館-網事典藏項目

國際關系學院-學科文獻專題服務中心項目

分享到:
三分赛车计划表