時(shí)間(jiān):2021-10-27 15:48:55 次數(shù):3746
技(jì)術(shù)背景
大(dà)數(shù)據時(shí)代的到來(lái),數(shù)據正以前所未有(yǒu)的速度爆發性增長,數(shù)據已經成為(wèi)土地、能源等傳統資源之外的一種新資源。大(dà)量的數(shù)據來(lái)自不同的源頭,雜亂無章,質量參差不齊。一般單位少(shǎo)則十幾個(gè)信息系統,多(duō)則幾十上(shàng)百個(gè),這些(xiē)系統之間(jiān)若溝通(tōng)不暢,會(huì)産生(shēng)數(shù)據孤島,造成工作(zuò)效率低(dī)下。一方面大(dà)量數(shù)據閑置,無法有(yǒu)效被利用,另一方面數(shù)據被重複錄入,費時(shí)費力,容易産生(shēng)差錯。
隻有(yǒu)可(kě)管理(lǐ),可(kě)調用,可(kě)計(jì)算(suàn),可(kě)變現的數(shù)據資源才能成為(wèi)資産,才能服務政府,城市和(hé)産業,幫助實時(shí)統籌科學決策。正确決策來(lái)源于對實際情況的了解,某種意義上(shàng)說,就是對來(lái)自各方的各類數(shù)據的正确彙集、整理(lǐ)、歸納、分析,從而得(de)出正确的結論。
數(shù)據集成是把不同來(lái)源、格式、特點性質的數(shù)據在邏輯上(shàng)或物理(lǐ)上(shàng)有(yǒu)機地集中,通(tōng)過應用間(jiān)的數(shù)據交換從而達到集成,解決數(shù)據的分布性和(hé)異構性的問題,從而為(wèi)企業提供全面的數(shù)據共享。
産品簡介
巨龍信息大(dà)數(shù)據集成系統是一款基于分布式并行(xíng)計(jì)算(suàn)架構開(kāi)發的ETL數(shù)據集成系統。采用組件化設計(jì),适配混合主流雲,提供多(duō)種類型的數(shù)據抽取、整合插件、監控組件、作(zuò)業流程模型,支持快速定制(zhì)插件開(kāi)發,具備高(gāo)吞吐、高(gāo)可(kě)用、高(gāo)擴展特性,為(wèi)海量數(shù)據的超大(dà)規模數(shù)據倉庫建設提供抽取、整合、清洗、入庫等集成業務。
技(jì)術(shù)架構
系統主要包含配置管理(lǐ)、任務調度、監控中心、元數(shù)據管理(lǐ)等
運行(xíng)架構
系統運行(xíng)具有(yǒu)高(gāo)可(kě)用的特性,會(huì)自動感知執行(xíng)引擎異常,将異常設備的任務轉發到正常設備上(shàng)重新執行(xíng)。運行(xíng)架構如下圖:
部署架構
系統部署包含應用端、調度引擎、執行(xíng)引擎。
ETL-應用: 完成數(shù)據集成邏輯的工作(zuò)流建模和(hé)日常監控管理(lǐ)。
ETL調度引擎:統一執行(xíng)邏輯的調度控制(zhì)和(hé)任務分發,分布式管理(lǐ)。
ETL-執行(xíng)引擎:ETL任務的具體(tǐ)執行(xíng)器(qì)。
部署架構如下圖所示:
産品優勢
■高(gāo)吞吐處理(lǐ)能力:采用多(duō)線程處理(lǐ)算(suàn)法,高(gāo)效的內(nèi)存利用率;任務運行(xíng)過程無需本地磁盤IO操作(zuò),提升整體(tǐ)單位時(shí)間(jiān)的大(dà)批量處理(lǐ)能力;支持TB/h級的大(dà)數(shù)據集成業務性能。
■高(gāo)擴展、高(gāo)可(kě)靠:并行(xíng)架構提升單機處理(lǐ)能力的線性擴展;新增執行(xíng)引擎的快速部署和(hé)自動識别,分布式架構提升多(duō)機處理(lǐ)能力的線性擴展;執行(xíng)引擎宕機的自動識别和(hé)任務轉移,保證任務的順利執行(xíng)。
■可(kě)視(shì)化流程配置:通(tōng)過簡單的圖形拖拽配置數(shù)據集成流程,簡單易用的專業化配置。
■集成業務全流程監控:可(kě)對處理(lǐ)過程的每個(gè)步驟,每個(gè)子流程處理(lǐ)進行(xíng)實時(shí)監控,簡單快速發現處理(lǐ)過程遇到的漏數(shù)據,錯處理(lǐ)等問題。
■統一的元數(shù)據模型:基于統一公共倉庫元模型,可(kě)與産品線其他産品無縫對接,簡化整體(tǐ)解決方案的實施運維。
■大(dà)數(shù)據技(jì)術(shù)支持:支持主流的關系型數(shù)據庫,NOSQL數(shù)據庫,全文庫處理(lǐ)等主流大(dà)數(shù)據産品的抽取入庫,以及異構庫之間(jiān)的抽取入庫。
■低(dī)廉的硬件成本:使用x86架構的PCServer,無需昂貴的unix服務器(qì)。
■數(shù)據源支持:支持超過40+數(shù)據源的鏈接包括國産數(shù)據庫。
■業務規則支持:支持自定義數(shù)據檢查規則、質量規則、補全規則等,可(kě)以實現複雜的數(shù)據集成需求。
■處理(lǐ)模式:支持批流一體(tǐ)化處理(lǐ),大(dà)幅提升數(shù)據的采集和(hé)同步時(shí)間(jiān)。
■快速擴展支持:提供插件開(kāi)發SDK,可(kě)快速定制(zhì)開(kāi)發所需的業務插件。
1、系統在某地配置管理(lǐ)2000餘個(gè)大(dà)數(shù)據治理(lǐ)作(zuò)業,支撐日增量百億級别的數(shù)據抽取、整合、清洗、轉換、入庫等集成業務,運行(xíng)穩定。
2、系統在多(duō)地已經分别與華為(wèi)雲、騰訊雲、華三雲、阿裏雲,甚至是一地多(duō)雲進行(xíng)适配對接,完成數(shù)據的抽取、整合、清洗、轉換,入庫等集成業務。