12月20日-21日,由中國信通院、中國通信標準化協(xié)會主辦,中國通信標準化協(xié)會大數(shù)據(jù)技術(shù)標準推進委員會承辦的“2023數(shù)據(jù)資產(chǎn)管理大會”在京召開。在會上,第七屆大數(shù)據(jù)“星河(Galaxy)”案例評選結(jié)果正式公布。中移在線服務(wù)有限公司(中移在線)與酷克數(shù)據(jù)聯(lián)合申報的《基于云原生化的數(shù)據(jù)倉庫平臺,實現(xiàn)數(shù)據(jù)算力交付效率全面提升》項目,憑借全棧自主可控、敏捷高效、安全穩(wěn)定的先進特性,成為業(yè)內(nèi)首個容器化部署的大規(guī)模云原生數(shù)據(jù)倉庫,榮膺2023大數(shù)據(jù)“星河”數(shù)據(jù)庫優(yōu)秀案例獎。
大數(shù)據(jù)“星河(Galaxy)”案例征集活動主要面向甲方落地單位,旨在通過實地生產(chǎn)案例與場景,總結(jié)和推廣真實可用的大數(shù)據(jù)實踐與經(jīng)驗,在國內(nèi)大數(shù)據(jù)產(chǎn)業(yè)具有公認的行業(yè)標桿性和極高的認可度。
第七屆大數(shù)據(jù)“星河(Galaxy)”案例征集包括數(shù)據(jù)庫與其他五項大數(shù)據(jù)應(yīng)用方向,覆蓋電信、金融、政務(wù)、能源、制造等行業(yè)。案例征集自9月啟動以來,受到了業(yè)界領(lǐng)先甲方單位與廠商的廣泛關(guān)注。經(jīng)過形式審查和專家評審,共評選出數(shù)據(jù)庫優(yōu)秀案例26個。
項目背景
中移在線營服數(shù)據(jù)處理平臺建設(shè)初期采用了當時業(yè)界廣泛運用的“Hadoop+MPP數(shù)據(jù)庫”混搭架構(gòu)作為數(shù)據(jù)倉庫。隨著數(shù)據(jù)量的不斷增長,平臺擴容和運維漫長繁瑣,無法滿足高時效性、高重要性應(yīng)用的發(fā)展需求。
圍繞集團公司賦予的“全網(wǎng)集中服務(wù)的提供者、渠道運營的集中支撐者、業(yè)務(wù)的后臺集中處理者”的定位,中移在線向云原生技術(shù)積極布局。經(jīng)過廣泛的市場調(diào)研和產(chǎn)品比較,最終以酷克數(shù)據(jù)的存算分離、彈性并行處理(EPP)數(shù)據(jù)庫產(chǎn)品——HashData云數(shù)倉為核心,實施Vertica全面替換,構(gòu)建統(tǒng)一高效、敏捷智能、湖倉一體的數(shù)據(jù)體系,提供統(tǒng)一、多樣化、面向應(yīng)用、面向主題的數(shù)據(jù)服務(wù)能力,為中移在線數(shù)字化轉(zhuǎn)型提供強大的數(shù)據(jù)能力底座。
首先,在本項目中,中移在線采用HashData EPP數(shù)據(jù)倉庫,與原有基礎(chǔ)云平臺、對象存儲集成,采用容器化部署方式建立起云原生數(shù)據(jù)倉庫。
傳統(tǒng)MPP架構(gòu)的數(shù)據(jù)倉庫,由于數(shù)據(jù)量大,網(wǎng)絡(luò)、IO吞吐量高,無法采用容器化部署,難以實現(xiàn)資源利用的效率最大化。中移在線和酷克數(shù)據(jù)的技術(shù)團隊克服了網(wǎng)絡(luò)、存儲、調(diào)度、管理等方面遇到的諸多技術(shù)挑戰(zhàn),突破過往容器化僅用于無狀態(tài)應(yīng)用場景或開發(fā)測試環(huán)境的限制,采用k8S+HashData 的技術(shù)路線,在國內(nèi)率先建成實際生產(chǎn)環(huán)境下的容器化部署大規(guī)模云原生數(shù)據(jù)倉庫。
圖1:基于容器化部署的云原生數(shù)據(jù)倉庫解決方案
基于HashData存儲、計算、元數(shù)據(jù)三者分離的架構(gòu),借助更輕量級的容器虛擬化技術(shù),進一步擴展了云原生數(shù)據(jù)倉庫平臺的彈性伸縮優(yōu)勢,以及高可用能力、自動化運維能力和資源敏捷交付能力,大幅提升了項目交付速度,降低了數(shù)據(jù)遷移和拓展難度,實現(xiàn)計算資源和交付效率的全面提升。
相比原有數(shù)據(jù)處理平臺,基于容器化部署的HashData云數(shù)倉,具備高可用、高并發(fā)能力,計算資源可水平無限擴展、支持秒級擴縮容等能力,并且在擴縮容期間不影響業(yè)務(wù)連續(xù)性,滿足不同場景業(yè)務(wù)數(shù)據(jù)計算、查詢需要,實現(xiàn)了計算資源快速部署、高效交付的建設(shè)目標。
同時,在項目實施過程中,中移在線在HashData云原生數(shù)據(jù)倉庫平臺計算引擎層構(gòu)建起多種異構(gòu)數(shù)據(jù)技術(shù)組件的生態(tài)兼容能力,采用融合分析技術(shù),支持把核心倉庫區(qū)的數(shù)據(jù)與大數(shù)據(jù)區(qū)的數(shù)據(jù)進行關(guān)聯(lián)融合分析,減少數(shù)據(jù)搬遷,提升加工效率和數(shù)據(jù)資源利用率,滿足公司業(yè)務(wù)部門日益復(fù)雜的分析場景需求。最終,通過云原生數(shù)據(jù)倉庫與流處理系統(tǒng)、批處理系統(tǒng)、數(shù)據(jù)湖、對象存儲的集成,實現(xiàn)了數(shù)據(jù)高效匯聚,以及不同存儲之間數(shù)據(jù)低成本流動與透明訪問,助力數(shù)據(jù)高效融通、賦能生產(chǎn)運營。
此外,本次項目充分發(fā)揮了HashData豐富的接口能力與各種開發(fā)語言和上下游生態(tài)軟件兼容性強的特性,順利實現(xiàn)了云原生數(shù)據(jù)倉庫與現(xiàn)有報表指標工具、智能統(tǒng)計工具、數(shù)據(jù)洞察工具、自助分析工具、研發(fā)云平臺等系統(tǒng)的兼容適配,面向用戶提供高效的數(shù)據(jù)檢索與分析能力,提升用戶數(shù)據(jù)使用效率和體驗,提升用戶數(shù)據(jù)使用率。
在存量數(shù)據(jù)應(yīng)用遷移方面,借助HashData云原生數(shù)據(jù)倉庫引擎用戶自定義函數(shù)、用戶自定義數(shù)據(jù)類型的特性,保持數(shù)據(jù)庫引擎間的兼容性;此外,通過HashData完善的遷移工具功能,優(yōu)化遷移方案,最大程度地實現(xiàn)了存量數(shù)據(jù)應(yīng)用的“一鍵式”自動遷移及驗證操作,大幅縮減了遷移人力投入和整體項目周期,快速釋放新平臺業(yè)務(wù)價值。
圖2:Vertica存量應(yīng)用工具化遷移方案
項目亮點
在本項目中,中移在線采用了HashData作為構(gòu)建云原生數(shù)據(jù)倉庫平臺的核心引擎。依托HashData強大的數(shù)據(jù)查詢分析能力和云計算彈性伸縮能力,新平臺在技術(shù)架構(gòu)、資源交付、業(yè)務(wù)賦能等方面實現(xiàn)了全方位提升:
· 數(shù)據(jù)倉庫系統(tǒng)架構(gòu)創(chuàng)新
HashData云數(shù)倉解決了傳統(tǒng)數(shù)據(jù)倉庫在存算耦合、彈性伸縮、元數(shù)據(jù)管理等方面的弊端,各模塊之間完全解耦,并采用分布式部署,擺脫了傳統(tǒng)MPP數(shù)據(jù)庫的各種架構(gòu)限制和制約,為客戶提供成熟穩(wěn)定的海量數(shù)據(jù)管理平臺,最大限度釋放數(shù)據(jù)價值。
· 數(shù)據(jù)倉庫容器化部署創(chuàng)新
中移在線在國內(nèi)率先在實際生產(chǎn)環(huán)境實現(xiàn)了云數(shù)倉容器化大規(guī)模部署和應(yīng)用。通過采用K8S+HashData技術(shù)路線,新平臺具備秒級快速擴縮容、讀寫分離、高可用、自動化運維、資源敏捷交付等能力,快速滿足業(yè)務(wù)發(fā)展需要,同時也進一步提升了資源利用率,賦能企業(yè)降本增效。
· 靈活高效的資源隔離能力創(chuàng)新
基于存算分離的架構(gòu),項目實現(xiàn)了基礎(chǔ)設(shè)施資源和應(yīng)用解耦,可以根據(jù)計算集群的工作負載變化,靈活、動態(tài)調(diào)配計算集群資源。計算集群間性能相互隔離,資源和操作完全獨立,不會產(chǎn)生相互競爭 CPU、內(nèi)存和IO的情況,從容應(yīng)對紛繁復(fù)雜的數(shù)據(jù)應(yīng)用場景。
· 應(yīng)用驅(qū)動的自動緩存能力創(chuàng)新
HashData緩存采用LRU算法,實現(xiàn)了按需、自動化的緩存管理,提升了熱點數(shù)據(jù)訪問效率,讓底層存儲更高效滿足上層應(yīng)用需求。
· 智能化自愈能力創(chuàng)新
HashData提供了管理組件實時監(jiān)控整個集群的運行狀態(tài),當感知到節(jié)點故障時將自動執(zhí)行不同策略下的恢復(fù)操作,實現(xiàn)故障自愈,保證整個數(shù)倉服務(wù)實現(xiàn)高可用,有效適應(yīng)數(shù)倉平臺從決策管理輔助系統(tǒng)到業(yè)務(wù)運營關(guān)鍵支撐平臺的轉(zhuǎn)變,并滿足用戶對平臺全天候可用性的預(yù)期。
項目價值
基于容器化部署的云原生數(shù)據(jù)倉庫的建成,有效支撐了中移在線打造開放式數(shù)據(jù)生態(tài)體系,推動將數(shù)據(jù)變?yōu)橘Y產(chǎn)并服務(wù)于業(yè)務(wù),以數(shù)據(jù)驅(qū)動業(yè)務(wù)增長,實現(xiàn)數(shù)據(jù)可見、可用、可經(jīng)營,驅(qū)動業(yè)務(wù)創(chuàng)新和數(shù)據(jù)管理提速增效:
· 深化云原生技術(shù)應(yīng)用,實現(xiàn)數(shù)據(jù)基礎(chǔ)平臺架構(gòu)云化升級
本次云數(shù)倉平臺建設(shè),是中移在線實現(xiàn)整個數(shù)據(jù)基礎(chǔ)平臺架構(gòu)云化升級的重要一環(huán)。利用HashData云架構(gòu)的可自由伸縮、靈活調(diào)配等優(yōu)勢,大幅提升計算資源快速部署、高效交付能力,支撐架構(gòu)創(chuàng)新、數(shù)據(jù)生態(tài)、相互融合的特色數(shù)據(jù)體系,賦能公司未來業(yè)務(wù)高質(zhì)量發(fā)展。
· 構(gòu)建OneData數(shù)據(jù)平臺,實現(xiàn)真正意義上的企業(yè)級統(tǒng)一數(shù)據(jù)視圖
在本次云數(shù)倉平臺的建設(shè)中,將過往分散在四套獨立Vertica集群中的數(shù)據(jù)統(tǒng)一遷移至全轄共享的對象存儲,以更低成本、更高擴展性和可靠性,實現(xiàn)了全部數(shù)據(jù)資產(chǎn)的統(tǒng)一數(shù)據(jù)平臺納管,建立起真正意義上的企業(yè)級統(tǒng)一數(shù)據(jù)視圖,消除了數(shù)據(jù)孤島,避免了數(shù)據(jù)二義性對業(yè)務(wù)分析的影響,大幅降低了數(shù)據(jù)的使用與維護成本。
· 解耦數(shù)據(jù)應(yīng)用與數(shù)據(jù)庫集群資源,實現(xiàn)資源管理與運維管理新范式
基于HashData的松耦合架構(gòu),創(chuàng)新性實現(xiàn)了數(shù)據(jù)應(yīng)用與數(shù)據(jù)庫集群資源的解耦,建立起統(tǒng)一的數(shù)據(jù)分析算力資源池,實現(xiàn)資源細粒度的管理與調(diào)度,支持離線計算與在線計算任務(wù)混部,達到峰谷互補的效果,大幅提升服務(wù)器資源利用率。
· 建立湖倉一體數(shù)據(jù)體系,實現(xiàn)不同組件間數(shù)據(jù)高效融通與共享協(xié)作
本次項目建立起了以HashData云數(shù)倉為核心的湖倉一體數(shù)據(jù)體系。通過外部表和連接器這兩類組件,實現(xiàn)了面向異構(gòu)計算工作資源負載下的統(tǒng)一多維度查詢分析服務(wù)架構(gòu),支持在多種計算引擎間共用計算和存儲資源,避免了大批量數(shù)據(jù)的搬遷,有效降低了整體數(shù)據(jù)鏈路的成本、代價和復(fù)雜性,提升加工效率和數(shù)據(jù)資源利用率,滿足公司業(yè)務(wù)部門日益復(fù)雜的分析場景需求。
圖3:中移在線云原生化數(shù)據(jù)倉庫平臺湖倉一體系統(tǒng)集成解決方案示意圖
· 完善遷移工具功能,實現(xiàn)存量應(yīng)用“一鍵式”快速高效平滑遷移
在存量數(shù)據(jù)應(yīng)用遷移方面,通過HashData完善的遷移工具,最大程度實現(xiàn)了存量數(shù)據(jù)應(yīng)用的“一鍵式”自動遷移及驗證操作,在較短時間內(nèi)完成了約600T存量數(shù)據(jù)、10萬個表、2000多個ETL腳本遷移與轉(zhuǎn)換工作,節(jié)省了大量人力成本。
同時,在經(jīng)濟效益方面,使用HashData云數(shù)倉比在原有Vertica平臺基礎(chǔ)上擴容升級節(jié)省超過千萬元;采用存算分離架構(gòu)以及容器化部署技術(shù)方案,硬件資源節(jié)省達到30%。
本次項目中,中移在線不僅完成了對傳統(tǒng)技術(shù)棧的替代,更重要的是在數(shù)據(jù)倉庫平臺架構(gòu)方面實現(xiàn)了技術(shù)創(chuàng)新?;谌萜骰脑圃鷶?shù)據(jù)倉庫平臺,采用全棧信創(chuàng)架構(gòu)技術(shù)棧,支持一云多芯(x86/C86/ARM)、一庫雙棧(通用/信創(chuàng)),在實現(xiàn)公司數(shù)字資產(chǎn)管理和運營全棧自主可控的同時,也實現(xiàn)了數(shù)據(jù)線全面技術(shù)升級。
云原生數(shù)據(jù)倉庫平臺從硬件、操作系統(tǒng)、數(shù)據(jù)庫三個維度以信創(chuàng)供應(yīng)鏈為基礎(chǔ)搭建技術(shù)架構(gòu),具備高可用、易拓展等特點,結(jié)合容器化技術(shù),構(gòu)建基礎(chǔ)算力與存儲資源可統(tǒng)一管理、動態(tài)調(diào)配、敏捷交付,且無對外服務(wù)故障“斷點”的大數(shù)據(jù)服務(wù)體系。
本次項目全棧自主可控,兼顧安全穩(wěn)定與敏捷高效,實現(xiàn)了數(shù)據(jù)算力交付效率全面提升,為中移在線全面提升業(yè)務(wù)處理的數(shù)智化水平奠定了堅實基礎(chǔ),為業(yè)務(wù)效率與技術(shù)融合創(chuàng)新提供了有力支撐。
未來,中移在線和酷克數(shù)據(jù)將積極響應(yīng)國家和行業(yè)號召,圍繞“數(shù)字經(jīng)濟、信創(chuàng)工程、創(chuàng)新驅(qū)動”的發(fā)展戰(zhàn)略,積極推進技術(shù)架構(gòu)轉(zhuǎn)型升級,賦能數(shù)據(jù)高效融通,為提升線上營服能力、營銷轉(zhuǎn)化能力構(gòu)筑強大數(shù)據(jù)融通計算底座。
關(guān)于酷克數(shù)據(jù)
酷克數(shù)據(jù)是中國領(lǐng)先具備自主可控研發(fā)能力的數(shù)據(jù)倉庫軟件廠商,核心團隊主要由來自Pivotal、Teradata、IBM、Yahoo!、Oracle和華為等公司資深的云計算、分布式數(shù)據(jù)庫和大數(shù)據(jù)專家組成。憑借深厚的技術(shù)積累以及極具前瞻性的產(chǎn)品理念,HashData數(shù)據(jù)倉庫已廣泛應(yīng)用于金融、電信運營商、能源、政府、交通物流和互聯(lián)網(wǎng)等多個行業(yè)領(lǐng)先客戶。
關(guān)于中移在線
中移在線服務(wù)有限公司是中國移動在數(shù)字化時代全新設(shè)立的全資專業(yè)子公司,致力于以更高的服務(wù)效能,更優(yōu)的服務(wù)質(zhì)量,做數(shù)字服務(wù)的提供者和創(chuàng)新者,成為客戶滿意、社會信賴的卓越服務(wù)品質(zhì)創(chuàng)造者。
相關(guān)稿件