交互式大數(shù)據(jù)處理與分析技術(shù)
1.痛點問題
多年來,工業(yè)大數(shù)據(jù)領(lǐng)域大數(shù)據(jù)分析算法和模型都是基于大量代碼實現(xiàn),效率低,難以實現(xiàn)快速開發(fā)。同時,工業(yè)大數(shù)據(jù)處理分析模型處理過程多由多個算法通過一定的計算流程構(gòu)成,計算流程復雜多變,迫切需要一款支持靈活定制和快速開發(fā)的處理分析技術(shù)來支持工業(yè)大數(shù)據(jù)處理分析。
2.解決方案
清華數(shù)為交互式大數(shù)據(jù)處理與分析技術(shù)針對工業(yè)大數(shù)據(jù)處理與分析任務的交互式探索、建模、調(diào)試和應用而設(shè)計。根據(jù)CRISP-DM設(shè)計原則,一般大數(shù)據(jù)處理與分析分為業(yè)務理解、數(shù)據(jù)理解、數(shù)據(jù)準備、建模、評估和部署等階段,各階段相輔相成,形成一個大數(shù)據(jù)處理分析生命周期。
圖1.交互式大數(shù)據(jù)處理與分析技術(shù)設(shè)計思想
本成果技術(shù)基于上述CRISP-DM的設(shè)計思想而設(shè)計,完全支持大數(shù)據(jù)處理與分析生命周期。該技術(shù)的特點包括:
(1)內(nèi)置數(shù)百種通用和專用的大數(shù)據(jù)分析算法和模型,并提供了按需擴展機制,用戶可以按照自己的需要隨時添加和擴充,以支持客戶特定的大數(shù)據(jù)應用需求;
(2)支持拖拽方式構(gòu)建處理與分析流程,完全圖形化設(shè)計大數(shù)據(jù)處理分析計算流程,并能在設(shè)計過程中進行單步/多步運行調(diào)試,查看中間結(jié)果,實時調(diào)整運行結(jié)果,以獲得用戶期望的處理分析結(jié)果;
(3)支持機器學習模型訓練及使用,內(nèi)置了機器學習模型訓練框架,一般機器學習模型在該技術(shù)的支持下,可以實現(xiàn)快速訓練,訓練結(jié)果可支持進一步的大數(shù)據(jù)處理與分析;
(4)支持數(shù)據(jù)處理與分析流程參數(shù)化,在其提供的內(nèi)部數(shù)據(jù)處理與分析算法模板中,用戶通過算法模板可以開發(fā)面向Java、Python的算法,并集成和擴展到該技術(shù)的算法集合,實現(xiàn)按需定制處理分析;
(5)支持數(shù)據(jù)畫像和學習模型可視化,以圖形化的方式定制數(shù)據(jù)畫像的方法模型,并以二維和三維圖表的形式展示給用戶;
(6)支持批處理、流處理和流轉(zhuǎn)批處理三種處理方式;
(7)按需定制運行計劃與資源有效利用,用戶可設(shè)置任務執(zhí)行計劃,任務執(zhí)行計劃定期運行,以實現(xiàn)周期性處理分析,方便獲得持續(xù)的運行結(jié)果。
清華數(shù)為交互式大數(shù)據(jù)處理與分析技術(shù)面向多種用戶角色,包括數(shù)據(jù)工程師、數(shù)據(jù)分析師、數(shù)據(jù)科學家、算法工程師、運維工程師、代碼工程師等。采用分層設(shè)計,分為客戶層、服務層、計算層。
客戶層包括流程建模調(diào)試工具,用戶可用工具圖形化拖拽式設(shè)計處理與分析計算模型,并可進行調(diào)試和查看中間結(jié)果;管理工具,針對服務層所調(diào)用和訪問的計算框架或者外部系統(tǒng)進行管理,包括對于數(shù)據(jù)源、計算環(huán)境、存儲環(huán)境等的管理工具。
服務層主要包括流程調(diào)度服務,即負責按照用戶所設(shè)定的工作計劃來定時調(diào)度執(zhí)行計算模型;執(zhí)行服務,是負責執(zhí)行處理分析計算的模型和算法的服務;計算資源管理服務負責管理執(zhí)行服務中所能集成的所有的服務,如計算框架和存儲設(shè)施等。
計算層是執(zhí)行服務在執(zhí)行處理分析算法和模型中所訪問的外部服務,包括計算組件或框架,以及持久化存儲組件或者系統(tǒng)等。
圖2.交互式大數(shù)據(jù)處理與分析技術(shù)架構(gòu)
本成果的交互式處理與分析技術(shù)較好地解決了工業(yè)大數(shù)據(jù)處理分析工作中所遇到的問題和痛點,并且能夠廣泛應用于多個行業(yè)和領(lǐng)域中,如能源、礦山、醫(yī)療器械、裝備制造業(yè)、消費品制造業(yè)、工程機械行業(yè)等。
合作需求
期待與工業(yè)、醫(yī)療等領(lǐng)域企業(yè)緊密合作,獲得各領(lǐng)域的實際需求,促使該技術(shù)不斷完善和升級迭代,走向成熟。
未來將在工程機械行業(yè)、醫(yī)療機械行業(yè)、礦山行業(yè)、裝備制造行業(yè)、互聯(lián)網(wǎng)電商行業(yè)等尋求更多的成果轉(zhuǎn)化、深度合作機會,在合作基礎(chǔ)上,推動上述行業(yè)領(lǐng)域?qū)崿F(xiàn)數(shù)字化轉(zhuǎn)型和智能化升級,為國家實現(xiàn)“雙碳”目標做出清華貢獻。
清華大學
2022-04-25