僅一輛自動駕駛汽車每一天產生的數據量就可達數TB甚至數十TB。隨著自動駕駛、物聯網、人工智能、AR、5G等技術更深入應用于生產生活,其帶來的文本、圖形、圖像、音頻、視頻等非結構化數據為主的信息數據量急劇增加。
據IDC預測,到2025 年,全球產生的數據量將達到175ZB,其中超過80%的數據都會是處理難度較大的非結構化數據。
當前,對巨量且仍不斷增長的非結構化數據進行高效存儲、管理、分析,已經成為企業數字化、智能化轉型時需要著重處理的環節。
近期,長期自研存儲技術的青云科技正式推出了非結構化數據統一存儲平臺QingStor U10000,面向私有云場景,以期賦能企業加速數字化轉型。
青云科技存儲產品總監馮相東介紹,和QingStor NeonSAN 主要面向結構化數據高性能業務場景需求不同,QingStor U10000 主要面向非結構化數據的場景,包括影像數據、音視頻數據、數據湖、大數據、物聯網等場景。青云希望通過專業的存儲分工能更好地服務專業的場景。
據悉,QingStor U10000產品設計初衷就是為了幫助客戶更好地實現海量數據的價值挖掘。QingStor U10000支持文件、對象和大數據三種非結構化數據訪問協議互通及無損共享,容量方面支持橫向擴展,線性增加整體系統的容量和性能,且可獨立水平擴展元數據和存儲節點;安全性方面,實現元數據和業務存儲數據分離存儲,有效規避單點故障;在運維方面,提供資源管理、配置管理、告警、日志、監控等一系列的統一管理平臺。
根據客戶需求,QingStor U10000支持軟件交付和存儲一體機兩種交付模式。
全 自研
馮相東表示,青云存儲產品的一個重要特點就是,真正自研的中國存儲。和QingStor NeonSAN 一樣,QingStor U10000繼承與融合QingStor對象存儲及文件存儲,也是由青云科技存儲團隊自主設計,沒有繼承任何開源的架構,不存在任何知識產權的風險。自主研發使得技術QingStor U10000百分百可控,不存在技術盲區,能更好支撐企業數字化轉型需求。
在信創領域,包括QingStor U10000在內的青云各產品線兼容核心國產硬件平臺和操作系統平臺,比如鯤鵬、飛騰、海光等目前主流的國產硬件平臺,還有麒麟軟件、統信、openEuler等國產操作系統,青云已實現完整的生產化兼容。
“青云作為中國云計算公司,懷揣著中國存儲服務數字中國的愿景,希望通過自身的努力能消除企業對數據安全的顧慮,以真正自研的中國存儲服務于數字中國。”馮相東強調。
真 多協議無損互通
QingStor U10000相比于青云早前推出的QingStor對象存儲和文件存儲產品,除了產品力的全面繼承,還以幾個方面做了明顯的能力提升,包括實現數據協議的互通,功能和性能的增強,整個算力平臺對接的強化等。
馮相東特別強調,QingStor U10000構建了統一索引架構,支持多協議無損互通,從而實現數據的訪問和流通的高效。
為什么要特別強調“協議互通可以讓數據分析更高效”,馮相東闡述道:“一份數據在一個完整的業務場景下可能會在多個環節有數據處理的需求,如果做不到協議互通,這個數據需要不停地Copy,比如在這個業務的存儲空間里先處理完,再Copy到另一個存儲空間,用另一種存儲協議做訪問,這樣會增加多種存儲間數據遷移的成本。”
也就是說,無論是基于對象接口存進來的數據、基于NFS/SMB存進來的數據,還是通過HDFS大數據專用協議存進來的數據,QingStor U10000都是基于統一的索引架構提供這些數據的元數據管理。這種架構為應用帶來好處就是:不需要通過格式轉化就能讓對象存儲存進來的數據,通過NFS訪問,或者NFS存進來的數據可以通過S3訪問。存儲和讀取數據之間不需要經過格式轉化,這樣就不會存在性能和語義的損失。
以自動駕駛場景為例,馮相東介紹道,“通常情況下,一輛路測車每天可能會產生幾TB或者幾十TB的數據,有幾十輛路測車,每天產生差不多1PB的數據,正常情況下,這1PB的數據需要通過四個環節的處理才能真正發揮其作用。第一個環節是數據的上傳和導入,通常會用到存儲里的S3和NFS的協議。第二個環節是數據預處理,基本上以HDFS這種大數據分析的框架為主。第三個環節是AI訓練,以NFS協議為主。第四個環節還會涉及仿真測試,主要以NFS和SMB協議為主。通過自動駕駛完整數據鏈的處理環節可以看到,一份數據在不同的階段,需要通過不同的數據訪問協議對接不同的計算框架,只有協議互通才能讓數據分析更高效。”
市面上雖然也有在講協議互通的分布式存儲廠商,但大多是通過格式轉化的技術實現的,談不上真正的“多協議無損互通”,在底層來看,就是因為沒有統一的索引架構。馮相東認為:“統一的索引架構是QingStor U10000 在架構層面非常明顯的一個優勢。”
青云科技產品技術解決方案總監張忠華介紹,QingStor U10000廣泛適用于容器存儲、大數據分析、PACS(醫療影像系統)、高精度地圖、多媒體數據處理與存儲、冷數據備份和歸檔等應用場景,并已經在互聯網體檢、智能駕駛、智能工廠的IoT場景和多元化的超算場景成功應用。例如,青云提供的存儲集群及算力資源,基本上解決了某智能駕駛科技公司的高精度地圖業務場景從采集、生產、訓練整個生命周期的存儲和算力的需求。