×
NEWS CENTER

新聞中心

【技(jì)術(shù)工場(chǎng)】巨龍信息大(dà)數(shù)據集成技(jì)術(shù) 海量數(shù)據集成架構實踐

時(shí)間(jiān):2022-04-25 16:20:12 次數(shù):3159

巨龍信息大(dà)數(shù)據集成系統是一款基于分布式并行(xíng)計(jì)算(suàn)架構開(kāi)發的ETL數(shù)據集成系統。具備高(gāo)吞吐、高(gāo)可(kě)用、高(gāo)擴展特性,可(kě)以為(wèi)海量數(shù)據的超大(dà)規模數(shù)據倉庫建設提供抽取、整合、清洗、入庫等集成業務。

産品特征

■高(gāo)吞吐處理(lǐ)能力:采用多(duō)線程處理(lǐ)算(suàn)法,高(gāo)效的內(nèi)存利用率;任務運行(xíng)過程無需本地磁盤IO操作(zuò),提升整體(tǐ)單位時(shí)間(jiān)的大(dà)批量處理(lǐ)能力;支持TB/h級的大(dà)數(shù)據集成業務性能。

■高(gāo)擴展、高(gāo)可(kě)靠:并行(xíng)架構提升單機處理(lǐ)能力的線性擴展;新增執行(xíng)引擎的快速部署和(hé)自動識别,分布式架構提升多(duō)機處理(lǐ)能力的線性擴展;執行(xíng)引擎宕機的自動識别和(hé)任務轉移,保證任務的順利執行(xíng)。

■可(kě)視(shì)化流程配置:通(tōng)過簡單的圖形拖拽配置數(shù)據集成流程,簡單易用的專業化配置。

■集成業務全流程監控:可(kě)對處理(lǐ)過程的每個(gè)步驟,每個(gè)子流程處理(lǐ)進行(xíng)實時(shí)監控,簡單快速發現處理(lǐ)過程遇到的漏數(shù)據,錯處理(lǐ)等問題。

■統一的元數(shù)據模型:基于統一公共倉庫元模型,可(kě)與公司産品線其他産品無縫對接,簡化整體(tǐ)解決方案的實施運維。

■大(dà)數(shù)據技(jì)術(shù)支持:支持主流的關系型數(shù)據庫,NOSQL數(shù)據庫,全文庫處理(lǐ)等主流大(dà)數(shù)據産品的抽取入庫,以及異構庫之間(jiān)的抽取入庫。

■低(dī)廉的硬件成本:使用x86架構的PCServer,無需昂貴的unix服務器(qì)。

技(jì)術(shù)亮點

高(gāo)性能

■任務的水(shuǐ)平切分

一個(gè)分布式ETL任務會(huì)根據分區(qū)自動被分片到多(duō)台ETL-執行(xíng)引擎中,每個(gè)執行(xíng)引擎的執行(xíng)容器(qì)使用多(duō)線程并發的對數(shù)據進行(xíng)加工處理(lǐ)後加載到數(shù)據倉庫中。當源頭庫單表數(shù)據量巨大(dà)時(shí),可(kě)極大(dà)提升整體(tǐ)的數(shù)據集成效率和(hé)性能

■任務拓撲切分

一個(gè)任務的各個(gè)步驟,可(kě)根據現場(chǎng)物理(lǐ)設備的實際配置,合理(lǐ)地安排到不同的物理(lǐ)設備上(shàng),保證硬件資源滿足步驟的執行(xíng)

高(gāo)擴展

■集群處理(lǐ)能力的線性擴展

Ø 集群處理(lǐ)能力的快速擴充

Ø 集群自動識别和(hé)熱部署新增執行(xíng)引擎

■多(duō)集群組

Ø 根據業務劃分集群組,使關注點分離

Ø 集群組有(yǒu)利于異常幹擾的隔離

■單任務并行(xíng)計(jì)算(suàn)

Ø 任務步驟的獨立線程數(shù)可(kě)配置

Ø IO的合理(lǐ)平衡

Ø 內(nèi)存空(kōng)間(jiān)的合理(lǐ)利用,減少(shǎo)內(nèi)存垃圾回收率

■任務的分布式調度

Ø 帶權重的負載均衡算(suàn)法,可(kě)根據設備處理(lǐ)能力安排并發任務數(shù)

Ø 控制(zhì)中心對集群環境的自動負載均衡

高(gāo)可(kě)用

■異常數(shù)據分流

Ø 可(kě)選的異常數(shù)據分流機制(zhì),保證不影(yǐng)響正常流程的情況下異常數(shù)據分流

Ø 保證每個(gè)步驟出現的異常數(shù)據轉儲到指定地點,不丢失

■控制(zhì)中心HA

■任務的異常處理(lǐ)

Ø 自動感知執行(xíng)引擎異常,将異常設備的任務轉發到正常設備上(shàng)重新執行(xíng)

Ø 任務在一台設備上(shàng)執行(xíng)過程出現錯誤,自動重新在另外一台設備重新執行(xíng)

掃一掃分享當前頁面
分享到