自2014年“大數據”首次進入政府工作報告,中國市場就開始了一場大數據的“淘數”熱。2015年開始的中國國際大數據產業博覽會(簡稱:數博會)到2020年新冠疫情期間的“永不落幕的數博會”,經過歷時5年6屆數博會的洗禮,已經把“大數據”的觀念推廣到街頭巷尾。而在過去的5年間,中國的大數據技術產業也已經蓬勃而起,形成了強有力的技術支撐體系——根據中國信通院,截止2020年10月我國活躍大數據企業超過3000余家。
經過5年的發展,如今“大數據”已經走單純的技術架構和技術體系,走向了社會基礎設施。2020年“新基建”就將“大數據中心”定義為數字新基礎設施的重要建設內容。2020年底,上海市發布了《關于全面推進上海城市數字化轉型的意見》,鮮明提出要“再造數字時代的社會運轉流程”,特別是引導企業實現基于數據的“決策革命”,引導市場重塑數字時代的認知能力與思維模式,推動政府以數據驅動流程再造。
然而,根據中國信通院的《大數據白皮書(2020)》:企業運營中的數據只有56%能夠被及時捕獲,而這其中僅有57%的數據得到了利用、43%的采集數據并沒有被激活,也就是說僅有32%的企業數據價值能夠被激活。雖然未來兩年,企業數據將以42.2%的速度保持高速增長,但如何激活數據價值、真正從大數據中“淘金”,成為2021年大數據的重中之重。
數據融合與數據價值挖掘
數據融合對于數據價值挖掘來說,具有重要的意義。中國工程院院士鄔賀銓在“永不落幕的數博會”2020系列活動——“大數據產業生態創新發展高峰會”上表示,數據融合利用需要標準規范先行,實現數據可見性、數據易理解性、數據可鏈接性、數據可信性、數據互操作性、數據安全性。同時,數據的融合利用面臨著建立數學模型的挑戰,大數據挖掘面臨算力與算法、數據樣本準確性、小數據、人與數據融合的挑戰。
鄔賀銓認為,在智慧城市管理與工業互聯網中有很多需要數據融合應用的場景,多元異構的數據融合將盤活數據,通過數據挖掘開發數據價值,發揮數據作為生產要素的作用。數據挖掘和AI分析需要面對海量處理能力、云邊端協同、建模、小數據、人與數據融合、數據自身安全、隱私與商密保護等的挑戰,需要從基礎理論與工程實踐多方面研究數據要素價值挖掘的問題,開發出更多的大數據和AI分析技術。
在跨企業數據融合時,還要保證數據能共享但敏感數據不外泄,需要建立新的數據隔空分析機制,以虛擬的黑箱使得數據既不脫離所在單位的管理又能被授權的其他單位調用,現有基于黑盒子的可信計算環境方式,但仍需證明第三方的可靠性。
在創新數據流通技術手段方面,聯邦學習是一種重要的機器學習框架。聯邦學習是針對“數據孤島”和數據共享中的隱私安全問題而提出的機器學習框架,傳統的方式是需要將數據硬拷貝移動到授信的第三方,而聯邦學習則希望達到各個企業和機構的自有數據不出本地,通過加密機制下的參數交換方式,建立一個虛擬的共有模型,數據本身不移動也不泄露隱私或影響數據合規。
數據敏捷型經濟體
世界各國都在加強發展大數據,推出國家級數據戰略,探索數據發展之路。其中,歐盟的數據戰略極具體代表性。由于歐盟是由20余個國家所組成的經濟聯合體,歐盟所制訂的各類政策對于其它單一國家或經濟體來說,更前瞻性考慮到不同市場、國家和區域之間的協同、平衡和包容性,也更具有代表意義。
根據中國信通院《大數據白皮書(2020)》,歐盟為了應對未來發展而致力于平衡數據流動與廣泛使用,希望通過建立單一的數據市場,確保歐洲在未來的數據經濟中占據領先地位。2020年2月,歐盟委員會公布了《歐盟數據戰略》,對歐盟數據發展提出了明確的愿景目標——2030年歐洲將成為世界上最具吸引力、最安全、最具活力的數據敏捷型經濟體。即在保持高度的隱私、安全和道德標準的前提下,充分發掘數據利用的價值造福經濟社會,并確保每個人能從數據紅利中受益。
2020年5月,赫爾辛基歐盟辦公室成員組織(Helsinki EU office members)聯合發布了《數據敏捷型經濟:從被動到主動式,更好的服務社會》白皮書2.0版本,建議了從被動利用數據向主動利用數據而轉型的立法框架:創新型跨部門利用數據,從而在更高效、主動和個性化公共服務中起到主要作用;不同生態伙伴之間的緊密合作,包括公共機構、RDI組織、私營企業和NGO非營利性機構,對釋放數字化轉型潛力起到關鍵作用;讓每個人都可以按自己的方式使用和利用個人數據,從而為個人帶來收益以及為社會貢獻;通過更好的數據管理和更高水平的數據文化及數字技能,實現數據信任和民眾的賦能。
知識圖譜與決策智能
隨著大數據的發展,企業和公共機構越來越需要將不同的數據進行有效鏈接,從而形成新的動態知識,以輔助企業和公共機構的決策。這就需要運用圖數據庫、圖計算引擎和知識圖譜,其中知識圖譜是圖數據庫和圖計算引擎的重要應用場景。根據DB-Engines排名分析,圖數據庫關注熱度在2013年到2020年間增長了10倍,關注度增長排名第一,遠遠高于其它數據庫或數據引擎。用戶畫像和信用檔案等,是知識圖譜的新應用場景。
滿幫集團是一家崛起于貴州的大數據獨角獸企業。滿幫是一家公路物流領域的智能運力平臺,連接貨車司機及貨主雙端用戶,通過大數據的智能推薦幫助雙方快速完成運輸交易,提高運輸效率,減少交易成本,降低貨車空駛率。2020年11月底,繼2018年19億美元融資后,滿幫宣布完成約17億美元新一輪融資。截至2020年11月,滿幫平臺認證司機超過1000萬,認證貨主超過500萬。
物流行業是一個信用體系并不很健全的行業,此前每成交四個交易就會發生一起糾紛,糾紛成本非常高。滿幫建立了一個梵高系統,為每一個用戶、司機、貨主都建立了信用檔案畫像,囊括了200多個維度的指標,同時建立失信黑名單,與國家發改委和國家信息中心“信用中國”系統聯通,實施聯合懲戒,還被納入央行征信系統,為卡車司機打造“第二張身份證”,將行業糾紛率由25%下降到3%。
目前,國內的阿里云、華為、騰訊、百度等大型云廠商以及一些初創企業都在布局圖數據庫、圖計算引擎和知識圖譜,特別是知識圖譜已經開始深入應用到金融、工業、能源等多個行業和領域。知識圖譜正在成為企業決策的重要技術平臺與工具。
產業物聯網提速
物聯網是大數據的一個重要來源。傳統觀念認為消費物聯網是物聯網大數據的主要來源,但隨著產業物聯網的飛速發展,產業物聯網正在超越消費物聯網而成為物聯網大數據的主要來源。根據中國信通院《物聯網白皮書(2020)》,隨著物聯網加速向各行業滲透,行業的信息化和聯網水平不斷提升,產業物聯網連接數占比將提速。
據GSMA Intelligence預測,產業物聯網設備的聯網數將在2024年超過消費物聯網的設備數。在中國,2019年中國物聯網連接數中,產業物聯網與消費者市場各占一半,預計到2025年中國物聯網連接數的大部分增長來自產業市場,產業物聯網的連接數將占到總體的61.2%。智慧工業、智慧交通、智慧健康、智慧能源等領域,將最有可能成為產業物聯網連接數增長最快的領域。
產業物聯網的大數據處理涉及到邊緣計算。市場調研機構IDC預測,未來超過50%的數據需要在邊緣側進行存儲、分析、計算,到2024年全球邊緣計算市場將達到2506億美元。在中國市場,2020新基建中的5G、AI、智慧交通、新能源汽車充電樁、工業互聯網等都是與邊緣計算相關的技術或場景。
根據2020年12月由邊緣計算產業聯盟(ECC)與工業互聯網產業聯盟(AII)聯合發布的《邊緣計算與云計算協同白皮書2.0》,運用AI技術進行邊緣數據處理正在面臨挑戰:AR、VR、互動直播、視頻監控等場景下非結構化數據為主,挑戰在于數據量大、資源用量大、實時要求高、數據標注困難等;工業場景下IoT結構化數據為主,挑戰在于樣本少、冷啟動和要求模型可解釋和可靠性。邊云協同AI框架的關鍵技術包括:增量學習、聯邦學習、聯合推理等。
數據安全熱度持續上升
數據共享與流通是釋放數據價值的重要方向。中國工程院院士沈昌祥在“永不落幕的數博會”2020系列活動——“大數據產業生態創新發展高峰會”上作了《用主動免疫可信計算保障數字經濟高質健康發展》主題演講。他表示,數據“科學”發展經歷了數值計算、數據工程、數字社會的過程。網絡空間已經成為繼陸、海、空、天之后的第五大主權領域空間,沒有網絡安全就沒有國家安全。
大數據、數字經濟要通過相應的法律制度以及相關措施來保障健康發展。一是改變計算方式,邊計算邊保護;二是構建免疫系統,改變安全體系結構;三是網絡系統安全要構建“安全辦公室”“警衛室”“安全快遞”這“三重”防護框架;四是對人的操作訪問策略四要素(主體、客體、操作、環境)進行動態可信度量、識別和控制;五是對“風險分析、準確定級”“評審備案、規范建設”“感知預警、應急反制”“嚴格測評、整頓完善”等環節進行全程管控,技管并重;六是達到非授權者重要信息拿不到、系統和信息改不了、攻擊行為賴不掉、攻擊者進不去、竊取保密信息看不懂、系統工作癱不成等“六不”防護效果。
中國信通院《大數據白皮書(2020)》還指出:基于隱私計算的數據流通技術成為實現數據聯合計算的主要思路。在數據合規流通需求旺盛的環境下,隱私計算技術發展火熱。隱私計算在保護數據本身不對外泄露的前提下,實現了數據融合,為安全合規的數據流通帶來了可能。
總結而言:進入2021年,大數據已經從單純的技術體系,向著與實體經濟結合、真正挖掘和發揮數據價值的方向發展。特別是新冠疫情和新基建,加速了大數據與實體社會基礎設施的快速融合,而5G與物聯網等的快速發展也進一步加大了大數據與實體經濟的深度融合。隨著數博會即將進入第6個年頭,大數據將真正深入到社會經濟的方方面面,推進下一輪經濟長周期。(文/寧川)