×
NEWS CENTER

新聞中心

“海量、實時(shí)、智能、标準、安全”——大(dà)數(shù)據集成平台的現在與未來(lái)

時(shí)間(jiān):2019-03-27 13:22:05 次數(shù):3458

近幾十年來(lái),科學技(jì)術(shù)的迅猛發展和(hé)信息化的推進,使得(de)人(rén)類社會(huì)所積累的數(shù)據量已經超過了以往過去幾千年的所有(yǒu)總和(hé),數(shù)據采集、存儲、處理(lǐ)和(hé)傳播的數(shù)量也與日俱增。如何對數(shù)據進行(xíng)有(yǒu)效的集成管理(lǐ)已成為(wèi)行(xíng)業關注的焦點。

數(shù)據集成2.0的現在時(shí)

随着大(dà)數(shù)據、雲計(jì)算(suàn)、人(rén)工智能的快速落地,未來(lái)信息技(jì)術(shù)變化風雲莫測,大(dà)數(shù)據、雲計(jì)算(suàn)、人(rén)工智能、區(qū)塊鏈等技(jì)術(shù)的快速落地,也在加速數(shù)據集成形态發生(shēng)改變。首先我們來(lái)舉一個(gè)例子:某客戶擁有(yǒu)上(shàng)萬個(gè)數(shù)據源,主要類型分為(wèi)業務系統和(hé)物聯網監控數(shù)據,根據發展需要把這些(xiē)基礎設施的數(shù)據和(hé)業務系統數(shù)據彙集到數(shù)據中心,數(shù)據中心的目标源主要有(yǒu)Mpp、Hive、HDFS、HBase等分布式存儲源;如果每天需要把這些(xiē)數(shù)據完成采集,需要每小(xiǎo)時(shí)具備1TB數(shù)據處理(lǐ)能力;基于此客戶抛出幾個(gè)需求

需求一

需要針對數(shù)據量進行(xíng)實時(shí)增量同步,每小(xiǎo)時(shí)需要具備處理(lǐ)增量數(shù)據5TB能力。


需求二

針對每類數(shù)據同步流量可(kě)實現流控,在必要時(shí)可(kě)犧牲一些(xiē)無關緊要數(shù)據來(lái)保證整個(gè)數(shù)據集成平台的穩定運行(xíng)。


需求三

客戶希望面對複雜數(shù)據處理(lǐ)工作(zuò)能夠提供面向業務人(rén)員可(kě)操作(zuò)的界面;減少(shǎo)實施人(rén)員環節,加快數(shù)據處理(lǐ)工作(zuò)效率。


需求四

客戶希望在使用過程中由于網絡、斷電(diàn)、服務器(qì)崩潰等因素導緻數(shù)據同步中斷的時(shí)候,實現數(shù)據斷點續傳能力。


這幾個(gè)需求是典型大(dà)數(shù)據時(shí)代數(shù)據集成面臨的挑戰,客戶就是希望統通(tōng)過技(jì)術(shù)手段實現數(shù)據實時(shí)治理(lǐ),提升決策效率和(hé)數(shù)據價值。目前我們也正在處于這個(gè)時(shí)代,這個(gè)時(shí)期的數(shù)據集成産品如果要有(yǒu)競争力,應該為(wèi)數(shù)據集成賦予人(rén)工智能、分布式計(jì)算(suàn)技(jì)術(shù)等能力;基于上(shàng)述需求進行(xíng)提煉,歸結為(wèi)以下幾個(gè)特點:

基于人(rén)工智能技(jì)術(shù)實現數(shù)據開(kāi)發設計(jì),基于大(dà)數(shù)據技(jì)術(shù)實現海量數(shù)據實時(shí)采集、實時(shí)計(jì)算(suàn)、實時(shí)同步;目前市面上(shàng)有(yǒu)些(xiē)廠商也逐步推出了新一代的數(shù)據集成平台産品,基本設計(jì)思路都是基于Kafka+分布式計(jì)算(suàn)引擎(SparkStreaming+Storm+Filnk)+調度平台,實現新一代的數(shù)據集成平台全新技(jì)術(shù)架構,從目前這些(xiē)廠商推出的産品,筆者也進行(xíng)相關試用,無論是國外的還(hái)是國內(nèi)的,平台還(hái)需要待完善;主要存在以下幾個(gè)方面:


問題:目前數(shù)據接入都是标準接入能力,基于物聯網的協議和(hé)數(shù)據庫的實時(shí)增量,新一代的設備廠商大(dà)部分都解析成了文本數(shù)據,但(dàn)是基于數(shù)據庫的實時(shí)數(shù)據還(hái)是得(de)需要平台自身提供能力,否則站(zhàn)在整個(gè)業務閉環的角度,實時(shí)集成的第一公裏,這個(gè)平台是沒有(yǒu)解決的。


解決方法:逐步增強輸入源組件的能力,解決第一公裏。


問題:新一代的數(shù)據集成平台大(dà)部分的組件使用較為(wèi)複雜,大(dà)部分組件需要具備大(dà)數(shù)據技(jì)術(shù)能力和(hé)開(kāi)發經驗的人(rén)上(shàng)手會(huì)比較快,其他運維和(hé)實施工程師(shī)學習成本較大(dà)。


解決方法:引入人(rén)工智能技(jì)術(shù),傻瓜式的組件使用。


問題:數(shù)據集成平台采集大(dà)部分是未遵循相關标準,采集過程沒有(yǒu)遵循相關配置規範,導緻後續運維困難。


解決方法:引入數(shù)據标準體(tǐ)系,針對數(shù)據采集、數(shù)據處理(lǐ)、數(shù)據同步定義相關标準和(hé)規範,給數(shù)據開(kāi)發定義軟件工程設計(jì)思路,實現數(shù)據開(kāi)發工程管理(lǐ)。


問題:針對數(shù)據采集過程中,數(shù)據時(shí)代,數(shù)據的價值和(hé)安全越發重要,數(shù)據集成平台依據互聯網思維延伸過來(lái),安全體(tǐ)系缺失,會(huì)出現嚴重洩露情況。


解決方法:做(zuò)到“三權分立”的原則,即數(shù)據操作(zuò)權、數(shù)據使用權、資源管理(lǐ)權;數(shù)據操作(zuò)員依據資源管理(lǐ)員分配相關數(shù)據操作(zuò)權限,數(shù)據使用員依據資源管理(lǐ)員的權限使用和(hé)查看相關數(shù)據,資源管理(lǐ)員隻能知道(dào)平台具備什麽資源,具體(tǐ)數(shù)據無法查看。


綜上(shàng)所述,新一代的數(shù)據集成平台用“海量、實時(shí)、智能、标準、安全”這五個(gè)關鍵詞針對數(shù)據集成平台進行(xíng)立體(tǐ)化的評估。

通(tōng)過圖中可(kě)以得(de)出,在發展初期平台廠商目前更多(duō)主要基于海量數(shù)據處理(lǐ)和(hé)實時(shí)計(jì)算(suàn)兩部分進行(xíng)了重點打造,另外三個(gè)闆塊還(hái)處于研究和(hé)探索階段,預估在未來(lái)兩年左右會(huì)趨向成熟。


數(shù)據集成3.0的未來(lái)史

全球智能手機的快速發展,推動了移動終端和(hé)“邊緣計(jì)算(suàn)”的發展。而萬物互聯、萬物感知的智能社會(huì),則是跟物聯網發展相伴而生(shēng),邊緣計(jì)算(suàn)系統也因此應聲而出。事實上(shàng),物聯網的概念已經提出有(yǒu)超過15年的曆史,然而,物聯網卻并未成為(wèi)一個(gè)火(huǒ)熱的應用。一個(gè)概念到真正的應用有(yǒu)一個(gè)較長的過程,與之匹配的技(jì)術(shù)、産品設備的成本、接受程度、試錯過程都是漫長的,因此往往不能很(hěn)快形成大(dà)量使用的市場(chǎng)。5G時(shí)代已經吹響号角,多(duō)家(jiā)廠商密集發布5G手機 ,外加折疊屏等新技(jì)術(shù)帶來(lái)潛在換機需求,出貨持續下滑的智能機市場(chǎng)能否迎來(lái)一線生(shēng)機,這個(gè)還(hái)需要市場(chǎng)檢驗。


前面加了一些(xiē)偏離主題的內(nèi)容,看似偏離,其實也是在引入一個(gè)問題,未來(lái)的數(shù)據集成平台還(hái)存在嗎?如果存在,他将會(huì)是什麽形态呢?我們可(kě)以結合行(xíng)業發展趨勢和(hé)信息技(jì)術(shù)發展情況進行(xíng)大(dà)膽猜想。


根據Gartner的技(jì)術(shù)成熟曲線理(lǐ)論來(lái)說,在2015年IoT從概念上(shàng)而言,已經到達頂峰位置。因此,物聯網的大(dà)規模應用也開(kāi)始加速。因此未來(lái)5-10年內(nèi)IoT會(huì)進入一個(gè)應用爆發期,邊緣計(jì)算(suàn)也随之被預期将得(de)到更多(duō)的應用。估計(jì)還(hái)是有(yǒu)人(rén)對這個(gè)詞語比較陌生(shēng),按照百度百科的解釋:“邊緣計(jì)算(suàn)是指在靠近物或數(shù)據源頭的一側,采用網絡、計(jì)算(suàn)、存儲、應用核心能力為(wèi)一體(tǐ)的開(kāi)放平台,就近提供最近端服務”


随着5G+邊緣計(jì)算(suàn)+區(qū)塊鏈+雲計(jì)算(suàn)+人(rén)工智能等新技(jì)術(shù)快速商用,我們針對這個(gè)世界更加感知為(wèi)一個(gè)由數(shù)據産生(shēng)的信息時(shí)代;邊緣計(jì)算(suàn)解決就近應用問題,提升用戶感知,區(qū)塊鏈解決邊緣計(jì)算(suàn)與雲計(jì)算(suàn)中心的信息安全問題,5G解決雙方之間(jiān)的傳輸效率問題,人(rén)工智能技(jì)術(shù)應用到每一個(gè)邊緣計(jì)算(suàn)應用中,提升智能化商業應用落地。


數(shù)據集成平台主要解決異構數(shù)據源數(shù)據整合的問題,假如我們未來(lái)的相關應用基本按照标準的思路進行(xíng)建設,還(hái)會(huì)存在異構源數(shù)據整合問題嗎?答(dá)案是肯定存在的,我們大(dà)膽猜想,所有(yǒu)的應用已經完全标準化,所有(yǒu)行(xíng)業的标準也規範化了,但(dàn)是每個(gè)行(xíng)業的标準必然是不一緻的,未來(lái)可(kě)能存在某些(xiē)行(xíng)業的颠覆和(hé)消失,但(dàn)一個(gè)國家(jiā)的綱領必然存在,一個(gè)國家(jiā)各個(gè)機構需要獨立運轉,那(nà)麽運轉的數(shù)據規範必然存在差異,有(yǒu)差異就需要數(shù)據治理(lǐ),那(nà)麽就需要針對數(shù)據進行(xíng)融合。故未來(lái)數(shù)據集成平台必然還(hái)會(huì)存在,那(nà)麽它将是以什麽形态存在呢?


未來(lái)數(shù)據集成能力主要還(hái)是解決異構數(shù)據标準的整合問題,平台部分能力需要前移,交由前端應用完成,數(shù)據集成平台會(huì)考慮把維護的相關标準下發到各個(gè)應用中,而它盡可(kě)能的去實現标準管控的能力,盡量減少(shǎo)邊緣計(jì)算(suàn)應用與雲計(jì)算(suàn)之間(jiān)的交互響應時(shí)間(jiān)。

掃一掃分享當前頁面
分享到