日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

近日,以“元數據技術及應用創新”為主題,最新一季StartDT Hackathon(奇點云黑客馬拉松)正式收官。

本期黑客松共吸引了近50位選手參賽,有的在實時數倉領域顯神通,有的則再次請出了大模型。這些小組都有個共同點——基于數據云平臺DataSimba的元數據域“搞事情”。

篇幅所限,下文僅擇本期最具代表性的2組,逐一介紹成果:

基于圖引擎及可視化的作業異常診斷分析

基于大模型的數據血緣異常歸因分析

賽前須知

“元數據域”能干啥?

元數據(Metadata),是描述數據的數據,能夠提供數據的定義、結構、特征、關系等信息,例如字段、數據類型、數據來源、關聯關系、質量特征等等。

在錯綜復雜的數據世界,元數據極為重要。它幫助我們更好地理解、管理、利用數據。

舉個例子,在數字圖片中,元數據包括拍攝日期、相機型號、曝光時間、光圈值等技術信息,也可能包含地理位置信息;在文檔文件中,元數據則可能包含作者姓名、創建日期、最后修改日期、字數統計等等。

那“元數據域”又是干啥的?

根據“資源抽象,接口統一”的原則,數據云平臺DataSimba將復雜的業務對象抽象為6個域、32個對象,以標準、簡潔的RESTful API向上提供能力。對象的屬性和行為可以被繼承、更新、擴展及復用,從而規避重復建設、底層對接難度高、數據系統日益龐大冗雜等問題。

“元數據域”屬6大域之一,主要負責幫助上層數據應用快速完成元數據實體的創建、關系和血緣維護、實體檢索等相關操作。

例如,DataSimba“資產檢索”功能離不開元數據域中的“搜索”對象;對Hive表的影響分析功能,則得益于元數據域中的“血緣”和“關系”對象能力。

此外,元數據域提供統一標準的元數據模型,抽象不同大數據引擎、可視化BI、任務調度平臺的元數據,實現元數據標準化和跨引擎轉換,幫助上層應用屏蔽底層異構性,通過標準接口即可使用元數據。

簡單來說,如果要在數據云平臺上用元數據“搞事情”,就離不開元數據域的能力供給。

因此本次比賽,參賽各組不僅要熟知“元數據”的相關技術與場景,也要學會基于元數據域做應用和創新,才有可能在短短幾天的賽期內完成項目閉環,交出優秀答卷。

#1 可觀測、可修復,跟恐慌說拜拜

基于圖引擎及可視化的作業異常診斷分析

作業出現了異常!Why?

受大數據平臺組件、上下游依賴、高并發計算及人為配置等多重因素影響,作業出現異常時往往難以快速定位問題所在,評估出異常的影響面并及時修復。

“破壁者”組選擇直面這個業內由來已久的問題,借力“元數據”,讓異常問題可視可解,讓企業的數據工程師不再因作業異常而恐慌。

破壁者組介紹,對作業異常的診斷處置分為三個階段:

階段一,異常可觀測。

試想,如果你負責維護成百上千個數據開發任務,如何第一時間感知到哪些任務出現了問題?

通過元數據域,破壁者組獲取了完整的數據源、表、任務、作業、實例等對象的元數據信息,構建了全域全流程的元模型,通過圖引擎及可視化工具展示數據血緣,明確異常所在。

階段二,異常可便捷修復。

在階段一的基礎上,破壁者組結合歷史作業的運行日志及自身的業務元數據信息,通過機器學習算法(主要使用R-GCN,即Relational Graph Convolutional Networks),初步預測出作業異常的原因,并結合領域知識引導解釋。用戶只要點擊大屏中的異常作業,就可以獲取異常原因及解決方案的參考說明。

進一步,破壁者組整合了數據云平臺DataSimba的各項能力接口,比如數據重跑、任務下線、資源擴充等,從而實現基于準確策略的快速修復,甚至支持批量修復異常作業,提升修復效率。

階段三,智能自動化修復,即自動化識別作業異常,智能化完成修復,甚至能基于歷史數據和模型分析預測作業異常,采取預防措施,防患于未然。

在有限的賽期內,破壁者組輸出了生產級的任務、作業和實例元模型,可直接應用于數據血緣和任務刪除的關聯影響分析等多個場景中。

“受限于時間及技術成熟度,本次破壁者組未能如愿實現階段三,但還是給我們展示了清晰的解題思路和完整閉環的成果。”評委、資深算法專家曾博評價道,“從業務場景梳理,到元數據采集的元模型設計和采集方案設計,再到基于采集的元數據信息結合圖分析可視化工具進行異常診斷分析,全流程可落地性強,場景價值高,值得鼓勵。”

#2 AI加持,為異常診斷提效

基于大模型的數據血緣異常診斷分析

同樣聚焦作業異常診斷,榮耀百星組表示,數據血緣鏈路復雜,往往涉及多個數據源、轉換過程和目標,導致故障定位難、具體問題診斷難。完成診斷后,還需要提供解決方案,例如修復受損數據、重新運行失敗的節點或修復底層問題等等。

這個聽起來“非人哉”的漫長過程,不如交給大模型試試。

“榮耀百星”組再度請出了他們的老伙計——奇點云自有的、離線部署的大語言模型(下文簡稱“大模型”),基于此搭建了一個作業異常歸因分析的小工具。

用戶可以便捷地完成數據血緣分析、潛在故障節點識別,并獲得相應的建議,為故障排除、問題解決提效。

以一張異常節點table4_5的表為例,榮耀百星組現場演示了作業異常診斷的完整過程:

全鏈路解析異常表。

該工具支持識別血緣中的作業節點、數據節點,找到故障(的數據)節點;支持識別多類問題,包括字段值為空、字段值期望不符、數據表為空等。

在這個環節,用戶得知異常節點上游存在一個數據節點和一個作業節點。

在線分析表結構,判斷有影響的SQL。

該工具支持解析血緣中數據的表結構及相關的處理SQL,識別出其中有影響的SQL,并解釋來幫助定位問題來源。

在這個環節,用戶了解了上游各節點的相關信息。

針對異常,分析血緣鏈路,診斷病因。

這是最關鍵的一步——通過設定好的提示工程,逐步分析數據血緣,幫助用戶理解、定位原因。

如下圖所示,大模型幫助用戶判斷出異常節點和數據節點有關,和作業節點無關。

大模型不是生來就會異常診斷。

組長步方介紹,本次的技術難點在于整個推理過程較為復雜:其一,讓大模型理解圖結構、數據節點和任務節點的關系,其二,讓模型分析出問題節點的根因節點。

因此,針對該場景,有三個技術面必須搞定:特定的提示工程技術;質量較高的數據輸入;血緣關系相關的業務知識。

步方透露,關于提示工程,考慮了如何最大限度縮減token量,而不讓模型推理性能下降;如何讓模型的回答更符合業務人員的表達習慣;如何在異常分析時,給出更全面且富有建設性的答案等。

關于數據來源,元數據的高質量數據對訓練模型提供了極大幫助,包括節點溯源、業務表架構、任務節點SQL、日志等信息,都為大模型做最終決策提供了強力的依據。

此外,大模型學習了元數據及血緣分析等語料,具備了一定的業務知識,形成了長期記憶,方才能給出符合用戶要求的專業反饋。

榮耀百星組表示,接下來將繼續拓展可識別類型(例如數據異常分布、邏輯錯誤等),也將著手打通表數據及多種數據類型,優化對多節點、多來源血緣鏈路的能力,讓異常定位和分析建議更精準。

“榮耀百星組的成果涉及未發布的部分核心技術,‘過分先進,不便展示’。”評委、奇點云CTO地雷對榮耀百星組給予了高度評價,“使用私有化部署的大模型,解決故障處理和血緣分析問題。從現場演示看,完成度也很高。對其他各組降維打擊,直接碾壓。”

評委們一致認為,本期難度很大,挑戰在于元數據抽象度極高,真正理解元數據并做相關技術創新并不容易。

伴隨DataSimba架構升級,以Simba OS(數據云操作系統內核)的6大域及32個對象為基礎,上層數據應用與創新變得更加簡單,才讓幾天內完成元數據小項目閉環成為可能。

與此同時,這些應用也在向Simba OS提出挑戰:API要足夠標準、簡潔,能力要足夠全面、不重不漏,只有能讓開發者心無旁騖開發“APP”的“OS”,才算得上好“OS”。

本期黑客松只是起點,數據云操作系統的進化仍在繼續,我們也將邀請更多DT開發者們共同創新,探索數據價值!

分享到:
標簽:歸因 血緣 模型 異常 分析 數據
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定