導讀:數字化轉型要從根本上加強數據的可獲得性,圍繞我們構建的數據主題和對象豐富數據感知渠道。要追求更加實時、全面、有效、安全的數據獲取。
作者:華為公司數據管理部
來源:華章科技
隨著企業業務數字化轉型的推進,非數字原生企業對數據的感知和獲取提出了新的要求和挑戰,原有信息化平臺的數據輸出和人工錄入能力已經遠遠滿足不了企業內部組織在數字化下的運作需求。企業需要構建數據感知能力,采用現代化手段采集和獲取數據,減少人工錄入。數據感知能力架構如圖7-2所示。
▲圖7-2 數據感知
數據感知可分為“硬感知”和“軟感知”,面向不同場景。“硬感知”主要利用設備或裝置進行數據的收集,收集對象為物理世界中的物理實體,或者是以物理實體為載體的信息、事件、流程等。
而“軟感知”使用軟件或者各種技術進行數據收集,收集的對象存在于數字世界,通常不依賴物理設備進行收集。如圖7-3所示。
▲圖7-3 感知分類
01 基于物理世界的“硬感知”能力
數據采集方式主要經歷了人工采集和自動采集兩個階段。自動采集技術仍在發展中,不同的應用領域所使用的具體技術手段也不同。基于物理世界的“硬感知”依靠的就是數據采集,是將物理對象鏡像到數字世界中的主要通道,是構建數據感知的關鍵,是實現人工智能的基礎。
基于當前的技術水平和應用場景,我們將“硬感知”分為9類,每一類感知方式都有自身的特點和應用場景,如圖7-4所示。
▲圖7-4 9類“硬感知”
1. 條形碼與二維碼
條形碼或者條碼是將寬度不等的多個黑條和空白,按一定的編碼規則排列,用以表達一組信息的圖形標識符,通常一維條形碼所能表示的字符集不過10個數字、26個英文字母及一些特殊字符,條碼字符集所能表示的字符個數最多為128個ASCII字符,信息量非常有限。
二維碼是用某種特定的幾何圖形按一定規律在平面上分布的黑白相間的圖形,用來記錄數據符號信息。二維碼擁有龐大的信息攜帶量,能夠把使用一維條碼時存儲于后臺數據庫中的信息包含在條碼中,可以直接閱讀條碼得到相應的信息,并且二維碼還有錯誤修正及防偽功能,增加了數據的安全性。
2. 磁卡
磁卡是一種卡片狀的磁性記錄介質,利用磁性載體記錄字符與數字信息,用來保存身份信息。視使用基材的不同,可分為PET卡、PVC卡和紙卡三種;視磁層構造的不同,又可分為磁條卡和全涂磁卡兩種。
磁卡的優點是成本低,這是它容易推廣的原因,但缺點也比較明顯,例如卡的保密性和安全性較差,使用磁卡的應用系統需要有可靠的計算機系統和中央數據庫的支持。
3. RFID
RFID(Radio Frequency Identification,無線射頻識別)是一種非接觸式的自動識別技術,通過無線射頻方式進行非接觸雙向數據通信,利用無線射頻方式對記錄媒體(電子標簽或射頻卡)進行讀寫,從而達到識別目標和數據交換的目的。
基于特別業務場景的需求,在RFID的基礎上發展出了NFC(Near Field Communication,近場通信)。NFC本質上與RFID沒有太大區別,在應用上的區別如下。
- NFC的距離小于10cm,所以具有很高的安全性,而RFID距離從幾米到幾十米都有。
- NFC僅限于13.56MHz的頻段,與現有非接觸智能卡技術兼容,所以很多的廠商和相關團體都支持NFC。而RFID標準較多,難以統一,只能在特殊行業有特殊需求的情況下,采用相應的技術標準。
- RFID更多地被應用在生產、物流、跟蹤、資產管理上,而NFC則在門禁、公交、手機支付等領域發揮著巨大的作用。
4. OCR和ICR
OCR(Optical Character Recognition,光學字符識別)是指電子設備(例如掃描儀或者數碼相機)檢查紙上打印的字符,通過邊檢測暗、亮的模式確定其形狀,將其形狀翻譯成計算機文字的過程。如何除錯或利用輔助信息提高識別正確率,是OCR的重要課題。
ICR(Intelligent Character Recognition,智能字符識別)是一種更先進的OCR。它植入了計算機深度學習的人工智能技術,采用語義推理和語義分析,根據字符上下文語句信息并結合語義知識庫,對未識別部分的字符進行信息補全,解決了OCR的技術缺陷。
一個OCR識別系統,從影像到結果輸出,須經過影像輸入、影像預處理、文字特征抽取、比對識別,最后經人工校正將認錯的文字更正,將結果輸出。
目前OCR和ICR技術在業界有較為成熟的解決方案供應商,非數字原生企業不需要自行研發就可以完成相關技術的部署和數據的采集。
5. 圖像數據采集
圖像數據采集是指利用計算機對圖像進行采集、處理、分析和理解,以識別不同模式的目標和對象的技術,是深度學習算法的一種實踐應用。
圖像數據采集的步驟如圖7-5所示。
▲圖7-5 圖像采集步驟
6. 音頻數據采集
語音識別技術也被稱為自動語音識別(Automatic Speech Recognition,ASR),可將人類的語音中的詞匯內容轉換為計算機可讀的輸入,例如二進制編碼、字符序列或者文本文件。
目前音頻數據采集技術在業界也有較為成熟的解決方案供應商,可以很便捷地通過解決方案供應商的技術,完成技術的部署和數據的采集。
采集來的聲音作為音頻文件存儲。音頻文件是指通過聲音錄入設備錄制的原始聲音,直接記錄了真實聲音的二進制采樣數據,是互聯網多媒體中重要的一種文件。音頻獲取途徑包括下載音頻、麥克風錄制、MP3錄音、錄制計算機的聲音、從CD中獲取音頻等。
7. 視頻數據采集
視頻是動態的數據,內容隨時間而變化,聲音與運動圖像同步。通常視頻信息體積較大,集成了影像、聲音、文本等多種信息。
視頻的獲取方式包括網絡下載、從VCD或DVD中捕獲、從錄像帶中采集、利用攝像機拍攝等,以及購買視頻素材、屏幕錄制等。
8. 傳感器數據采集
傳感器是一種檢測裝置,能感受到被檢測的信息,并能將檢測到的信息按一定規律變換成信號或其他所需形式的信息輸出,以滿足信息的采集、傳輸、處理、存儲、顯示、記錄等要求。信號類型包括IEPE信號、電流信號、電壓信號、脈沖信號、I/O信號、電阻變化信號等。
傳感器數據的主要特點是多源、實時、時序化、海量、高噪聲、異構、價值密度低等,數據通信和處理難度都較大。
9. 工業設備數據采集
工業設備數據是對工業機器設備產生數據的統稱。在機器中有很多特定功能的元器件(閥門、開關、壓力計、攝像頭等),這些元器件接受工業設備和系統的命令開、關或上報數據。工業設備和系統能夠采集、存儲、加工、傳輸數據。工業設備目前應用在很多行業,有聯網設備,也有未聯網設備。
工業設備數據采集應用廣泛,例如可編程邏輯控制器(PLC)現場監控、數控設備故障診斷與檢測、專用設備等大型工控設備的遠程監控等。
02 “硬感知”能力在華為的實踐
“硬感知”在非數字原生企業有廣闊的前景,因為在數字化時代,非數字原生企業大量存在的產線、流程工藝、實體貨物、物流設備等,都需要通過“硬感知”來實現數據的感知和采集。華為作為典型的非數字原生企業,9類數據“硬感知”能力在各領域中都得到了一定的應用,并已發揮了實際的業務價值。
1. 門店數字化
如圖7-6所示,采用7種數據采集方式,支撐持續提升運營效率與消費者體驗。
- 通過光線傳感器和溫度傳感器,自動調節窗簾、燈光,溫度隨環境改變,并與店門、窗簾、燈光、空調、屏幕、防盜系統聯動,打造智能綠色門店環境。
- 通過實物管理感知,樣機自動申報位置與狀態,異常告警,自動上報消費者在門店體驗過程中的行為,結合消費者體驗情況優化陳列、營銷設計、產品設計。
- 通過視頻感知客流與熱區,管理門店各片區人流密度與停留時間,優化陳列與營銷,實時調整服務人力與資源配置。
▲圖7-6 門店數字化
2. 站點數字化
如圖7-7所示,站點主要在高層或者在野外環境中,勘測和日常維護難度都比較大,通過360度全景拍照和OCR,構建站點物理對象完整的圍欄尺寸、塔高、機房尺寸、設備尺寸、天線掛高、走線距離、天線的方位角、下傾角、扇區等數字鏡像,實現在數字化站點勘測規劃,現實站點直接施工,避免在現場反復勘測、設計調整。
▲圖7-7 站點數字化▲圖7-7 站點數字化
03 基于數字世界的“軟感知”能力
物理世界的“硬感知”是將物理對象構建到數字世界中的主要通道,是構建數據孿生的關鍵,而已經存在于數字世界中的那些分散、異構信息,可通過“軟感知”能力來利用。目前“軟感知”比較成熟,并隨著數字原生企業的崛起而得到了廣泛的應用。我們將“軟感知”分為3類,如圖7-8所示。
▲圖7-8 3類“軟感知”
1. 埋點
埋點是數據采集領域,尤其是用戶行為數據采集領域的術語,指的是針對特定用戶行為或事件進行捕獲的相關技術。埋點的技術實質,是監聽軟件應用運行過程中的事件,當需要關注的事件發生時進行判斷和捕獲。
埋點的主要作用是能夠幫助業務和數據分析人員打通固有信息墻,為了解用戶交互行為、擴寬用戶信息和前移運營機會提供數據支撐。在產品數據分析的初級階段,業務人員通過自有或第三方的數據統計平臺了解App用戶訪問的數據指標,包括新增用戶數、活躍用戶數等。
這些指標能幫助企業宏觀地了解用戶訪問的整體情況和趨勢,從總體上把握產品的運營狀況,通過分析埋點獲取的數據,制定產品改進策略。
埋點技術在當前主要有以下幾類,每一類都有自己獨特的優缺點,可以基于業務的需求,匹配使用。
- 代碼埋點是目前比較主流的埋點方式,業務人員根據自己的統計需求選擇需要埋點的區域及埋點方式,形成詳細的埋點方案,由技術人員手工將這些統計代碼添加在想要獲取數據的統計點上。
- 可視化埋點通過可視化頁面設定埋點區域和事件ID,從而在用戶操作時記錄操作行為。
- 全埋點是在SDK部署時做統一的埋點,將App或應用程序的操作盡量多地采集下來。無論業務人員是否需要埋點數據,全埋點都會將該處的用戶行為數據和對應產生的信息全采集下來。
2. 日志數據采集
日志數據收集是實時收集服務器、應用程序、網絡設備等生成的日志記錄,此過程的目的是識別運行錯誤、配置錯誤、入侵嘗試、策略違反或安全問題。
在企業業務管理中,基于IT系統建設和運作產生的日志內容,可以將日志分為三類。因為系統的多樣化和分析維度的差異,日志管理面臨著諸多的數據管理問題。
- 操作日志,指系統用戶使用系統過程中的一系列的操作記錄。此日志有利于備查及提供相關安全審計的資料。
- 運行日志,用于記錄網元設備或應用程序在運行過程中的狀況和信息,包括異常的狀態、動作、關鍵的事件等。
- 安全日志,用于記錄在設備側發生的安全事件,如登錄、權限等。
3. 網絡爬蟲
網絡爬蟲(Web Crawler)又稱為網頁蜘蛛、網絡機器人,是按照一定的規則自動抓取網頁信息的程序或者腳本。
搜索和數字化運營需求的興起,使得爬蟲技術得到了長足的發展,爬蟲技術作為網絡、數據庫與機器學習等領域的交匯點,已經成為滿足個性化數據需求的最佳實踐。
Python、JAVA、php、C#、Go等語言都可以實現爬蟲,特別是Python中配置爬蟲的便捷性,使得爬蟲技術得以迅速普及,也促成了政府、企業界、個人對信息安全和隱私的關注。
04 “軟感知”能力在華為的實踐
“軟感知”主要面向產品持續運營提供服務,基于對產品日志、用戶行為的感知,改善產品功能。以華為內部數據管理平臺為例(如圖7-9所示),數據管理平臺的數字化運營,需要識別用戶行為,進而提升運營效率與用戶數據消費的體驗。
▲圖7-9 數據管理平臺用戶標簽
通過對平臺埋點,捕捉用戶在界面上從數據定位到最終消費的瀏覽過程和停留時間等信息,并關聯用戶的部門、職位、所在地等信息,自動生成用戶畫像和數據畫像,確定細分用戶范圍,界定相同認知背景和業務場景的用戶,提供可識別的分類資產用于搜索,界定數據資產分類,面向不同用戶界定不同的資產范圍,減少匹配差異和搜索引擎復雜度,訓練搜索引擎和推薦算法,提供最優數據推薦結果和排序位置。
12類感知能力在企業中的應用,突破了原有人工維護數據的局限。但是不管是“軟感知”還是“硬感知”,產生的數據在沒有納入企業整體的數據管理體系情況下,如果只以獨立數據的形式存在,是無法應對復雜的企業數字化變革的。
關于作者:華為公司數據管理部,作為集團層面的數據管理組織,主要負責公司數據工作的戰略規劃、路標舉措以及實施落地;數據從產生到消費全生命周期管理的治理框架、流程規范、方法和IT工具的制定與推行;公司級信息架構的設計和數據資產的治理維護;主持集團層面數據相關項目,推動以數據為核心的數字化轉型等工作。
本文摘編自《華為數據之道》,經出版方授權發布。