産品簡介

數據智能(néng)采集平台全網捕獲所需互聯網公開(kāi)信息,所見即所得式采集,爲用戶提供持續獲取外部海量數據的服務。通過(guò)數據治理算法組件,對(duì)數據進(jìn)行清洗、治理,保證數據質量,爲數據應用提供有效支撐。

解決方案

頂層框架包括數據采集、自動清洗、智能(néng)分類、情報呈現、彙編報告、人工幹預等6個部分。

産品功能(néng)

  • 數據源管理

    支持對(duì)定向(xiàng)網站、社交平台等數據源進(jìn)行配置管理。

  • 任務分發(fā)

    將(jiāng)采集的定向(xiàng)網站、社交平台轉換爲采集任務,協調監控每個任務隊列的情況。

  • 數據監控

    支持對(duì)采集任務異常情況進(jìn)行監控預警。

  • 數據治理

    支持對(duì)信息進(jìn)行初步處理後(hòu),將(jiāng)其結構化入庫,數據治理算法組件包括:标題抽取、新聞正文抽取、人名地名抽取、熱詞發(fā)現、自動聚類等。

産品特色

  • 海量抓取

    數據采集采用先進(jìn)的分布式架構集群部署,可以抓取海量的網頁,消除單點抓取瓶頸。數據支持緩存處理和分庫存儲,保證采集系統穩定高效運行。

  • 智能(néng)調度

    采用流式計算技術,對(duì)用戶的數據請求能(néng)夠秒級快速響應。智能(néng)的調度機制,對(duì)于實時(shí)性要求較高的源網站優先調度處理。

  • 數據采集完整可靠

    采用先進(jìn)的數據采集容錯機制,确保數據傳輸的性能(néng)和正确性。對(duì)于傳輸錯誤的數據能(néng)夠進(jìn)行重傳。

不展示!