以ChatGPT為代表的超大語言模型的迅速應用,加速了AI普及,讓AI伸手可及,并開始走進我們的工作和生活。毫無疑問,AI大模型等技術已經深刻地影響到所有行業的發展,并正在重構企業核心產品,重塑用戶與企業產品和服務的交互方式。
5月26日,“向星力·未來數據技術峰會(FDTC)”在上海成功舉辦。星環科技創始人、CEO孫元浩表示,未來人人都是數據科學家,人類與數據的交互方式將發生重大變革,語言、視頻等自然語言的交互方式將逐漸普及,每個人都將需要一個“虛擬業務助手”。
孫元浩表示,未來數據處理將走向智能化、多模態和平民化,其中領域大模型讓數據處理的自動化程度更高、結果更能為我所用;數據處理將從單一模態向多模態進化,企業數據分析來到新的次元;數據處理平民化,讓普通人不再需要掌握復雜工具,就可以快速處理數據。
為了實現數據處理的智能化、多模態、平民化,在“向星力·未來數據技術峰會(FDTC)”上,星環科技推出眾多創新產品,包括大模型持續提升和持續開發工具Sophon LLMOps,業界首創的金融大模型無涯、大數據分析大模型SoLar“求索”等多個行業大模型,實現湖、倉、集一體化和多模架構的星環大數據基礎平臺TDH 9.3,能夠替代國外產品的分布式分析型數據庫ArgoDB 5.0、分布式交易型KunDB 3.2、構建海量數據互聯智慧“星”圖的分布式圖數據StellarDB 5.0、面向多元場景的高性能時序數據庫TimeLyre 9.1,提出六易、三倉、兩中心的新一代智能分析全流程平臺Sophon,以及數據要素流通產品Navier 3.1等產品。
基于未來技術,星環科技的這些全系列產品將助力企業加速數據化、智能化轉型,加速基礎軟件的國產化替代,服務數據經濟發展。
1.提供大模型訓練工具,每個企業都能打造自己的專屬大模型
ChatGPT主導的對話式AI開始滲透到各行各業,使人和信息結合比以往任何時候都更緊密。其影響然而,超大模型雖好,但是訓練、維護的技術要求高、訓練難度大,費用巨大,同時通用大模型對于特定領域的適用性不佳。
為此,星環科技在行業內首先提出行業大模型應用創新場景,推出相應的工具,幫助企業構建自有的行業大模型,通過大模型基礎設施,形成具備“新型人機交互”且“敏捷可持續迭代“的人工智能應用。
為了幫助企業用戶基于大模型構建未來應用,星環科技推出了Sophon LLMOps,幫助企業構建自己的行業大模型。
作為一個機器學習模型全生命周期管理的工具平臺,星環Sophon LLMOps針對大語言模型及其衍生數據、模型、應用問題,提供了相應的增強,形成了LLMOps的工具鏈:
首先是樣本倉庫能力。覆蓋訓練數據開發、推理數據開發、數據維護等工作,對大語言模型涉及的原始數據、樣本數據、提示詞數據做清洗、探索、增強、評估和管理。
第二,模型運維管理能力。除了傳統MLOps的六大統一——統一納管、統一運維、統一應用、統一監控、統一評估、統一解釋外,針對大語言模型的微調、持續提升、評估、對齊等提供從計算框架、工具到計算、存儲、通信的調度和優化支持。
第三,大語言模型和其他任務的編排和調度和上線能力。星環Sophon LLMOps提供Agent、Ops、DAG,結合星環的多款大數據、數據庫產品,如向量數據庫Hippo和星環分布式圖數據庫StellarDB等,將不同大語言模型、傳統機器學習、其他流程等編排成符合用戶實際領域和業務需求的任務,并為客戶提供服務。
星環Sophon LLMOps解決了客戶三個核心痛點:第一,提供一站式工具鏈,幫助客戶從“通用大語言模型” 訓練/微調,得到“滿足自身業務特點的領域大語言模型”;第二,幫助客戶將原型的大語言模型應用,成功在實際生產中投入應用;第三,幫助客戶運營在生產中應用的大語言模型和大模型的持續提升。
除此之外,星環科技在行業首先推出了兩大行業大模型:
一是服務于金融行業的星環金融大模型無涯。星環科技長期深耕金融領域,服務大量金融行業客戶,積累了上百萬金融專業領域的語料;基于星環科技對圖數據庫、深度圖推理算法的技術,形成了大規模高質量的金融類事件訓練指令集。二者共同鑄就了星環科技開發金融領域大語言模型的堅實底座。
無涯是一款面向金融量化領域、超大規模參數量的生成式大語言模型。無涯使用上百萬的專業金融語料,其中涵蓋了研報、公告,政策,新聞等高質量的自然語言文本來作為基礎大模型的二次預訓練語料,使得無涯具備對包括基本面、技術面、消息面在內的金融通識領域準確的理解能力。
無涯構建了包括政策、輿情、ESG、風險、量價、產業鏈等六類大模型基礎因子集,擅長處理金融量化領域的各類問題,諸如在政策和研報分析、新聞解讀、事件總結和演繹推理上都具備強大的理解和生成能力;能夠對股票、債券、基金、商品等各類市場事件進行全面的復盤、傳播和推演;能夠生成另類的策略因子集合,構建立體的歸因解釋體系。無涯大模型通過多模感知+事件驅動+深度圖計算,從時間和空間、深度和廣度等多個方面擴展投資研究的視角,實現了全新的智能量化投研新范式。
二是星環科技基于在SQL編輯器的多年積累,結合大語言模型,推出了大數據分析大模型SoLar “求索”。 SoLar “求索”可以使用自然語言描述涉及多種數據模型的復雜業務需求,借助星環大數據平臺特有的“多模型”技術,對不同模態(比如圖數據、文本數據、結構化數據)的數據進行關聯分析和展示。用戶可以通過自然語言,生成可成功執行的SQL或Cypher,從而快速獲取查詢的結果,能夠快速降低用戶的使用門檻。
星環科技此次發布的SoLar“求索”,將作為數據查詢和分析的智能副手,為數據工程師、數據科學及業務人員提供更好的使用體驗。 SoLar求索也數據庫查詢平民化,讓非專業用戶在不需要學習和掌握數據庫編程語言的前提下通過自然語言自由地按需查詢數據。
多模態的數據處理,讓每個人都擁有個性化的AI助理
孫元浩說,數據處理從多模型向多模態轉型,從單一模態向多模態進化,企業數據分析來到新的次元。
為了適應這一全新轉變,星環科技推出了自研的向量數據庫,拓展大語言模型時間和空間維度。使用星環科技的向量數據庫+分布式圖數據庫,可以構建基于大模型的應用,讓每個人都擁有自己個性化的AI助理。
向量數據庫由于與AI大模型的協同作用而以驚人的速度流行起來。最古老的數據庫類型是SQL或關系數據庫,其中所有的數據都結構化的。Web 2.0公司不斷增長的需求引發了NoSQL革命,數據庫變得更加靈活,出現了能夠處理更多非結構化數據的數據庫,能夠的處理數量更加龐大?,F在,隨著市場對人工智能應用的追捧,出現了另一種被稱為向量數據庫(vector databases)的新市場。AIGC熱更是將加速了向量數據庫的投資熱。
在本次峰會上,星環科技推出自研的向量數據庫Transwarp Hippo。作為一款企業級云原生分布式向量數據庫,星環Hippo支持存儲、索引以及管理海量的向量式數據集,能夠高效地解決向量相似度檢索以及高密度向量聚類等問題。
與開源的向量數據庫不同,Hippo具備高可用、高性能、易拓展等特點,支持多種向量搜索索引,支持數據分區分片、數據持久化、增量數據攝取、向量標量字段過濾混合查詢等功能,能夠很好地滿足企業針對海量向量數據的高實時性查詢、檢索、召回等場景。
大模型技術帶來的啟發,圖神經網絡技術的日益發展,為圖智能的發展提供了沃土,為圖庫和圖智能結合提供了探索的機遇。大數據時代,應該如何解決海量圖數據的存儲、計算難題呢?星環科技打造面向圖智能、業務分析的多模型企業級分布式圖數據庫StellarDB 5.0。
StellarDB 5.0實現了實時短查詢場景5倍提升,高并發上萬+QPS,近50種圖算法,平均8倍性能提升,多度關聯關系場景10倍提升,解決無限擴層問題。
StellarDB 5.0對計算模型進行優化,全新設計Cypher語言執行器Thunder、BSP查詢優化模型,大幅提升短查詢執行效率,提高查詢并發;實現算法優化,優化星環Eagle圖算法模型,大幅優化內置圖算法運執行效率;實現編譯優化,引入Cypher語言預編譯技術,減少語句編譯優化開銷,提升語句執行效率。
StellarDB 5.0帶來全面升級的數據可視化分析引擎KG Explorer 1.3,一款人人易用、面向業務、數據分析的可視化工具。
StellarDB 5.0對接星環科技自研深度圖框架ZenGraph結合,基于圖數據庫的查詢計算能力,提供快速、準實時,甚至實時的特征查詢和計算;基于圖數據庫內置算法,提供多元的圖特征計算能力;基于圖數據庫存儲能力,提供高速數據寫會能力;針對不同業務場景支持多種深度圖嵌入算法模型,相比于傳統圖算法,能夠從圖中挖掘學習更多的特征知識,預測更精準。
另外,星環科技推出面向多元場景的高性能分布式時序數據庫TimeLyre 9.1。
面對時序數據數據量大、數據分析需求高,開源系統不支持集群部署,存儲和計算數據規模有限,不支持復雜分析,服務不穩定,以及缺乏安全可控性等問題,星環TimeLyre 9.1在常見的時序數據上,可實現5~20倍壓縮率,遠優于傳統數據庫,數據壓縮高、單節點磁盤可用容量高,可大大節約成本。
TimeLyre統一標準SQL,完整支持標準SQL查詢語言,支持主流的SQL模塊化擴展,兼容通用開發框架和工具,支持事務特性,保證數據的準確性;支持復雜分析能力,支持關聯、聚合、嵌套查詢等復雜SQL分析模型;多模分析能力支持多模平臺,打破數據孤島,支持對不同存儲模型數據表進行跨模分析;靈活部署,安全可控:分布式存儲、計算分離架構,靈活擴容;自主研發,支持國產化軟硬件平臺,支持異構集群部署。
而星環的時空數據庫Spacture,為空間而生,為變化而生。星環Spacture擁有高效時空數據分析、多樣化數據類型支撐、算子下推、多種標準支持、主流生態兼容等特性,可應用于時序遙感分析、城市擴張變化檢測、氣象業務支持、全球高溫天氣預測、軌跡分析、船舶軌跡范圍檢索、泛在空間分析、湖泊面積統計、空間聚合統計等場景。
數據處理平民化,讓人人成為數據科學家
讓普通人不再需要掌握復雜工具,就可以快速處理數據,這是數據處理平民化的一大追求。而星環科技不同的產品上創新,落地數據處理平民化。
第一,推出的星環大數據基礎平臺TDH,打破湖倉集的邊界,讓更多人可以訪問實時+歷史/原始+加工后的數據。
傳統湖倉集采用多系統混合架構,存在存儲冗余、數據流轉成本高、時效性差、數據一致性難保障、數據孤島治理成本高、元數據同步開發標準不一致等挑戰。
星環大數據基礎平臺TDH 9.3推出新一代湖倉集存儲格式Holodesk,一份數據滿足數據湖的離線實時接入、數倉的復雜加工以及數據集市的分析需求,避免數據冗余,減少數據流轉,提升業務綜合性能與時效性。
新一代湖倉集統一存儲Holodesk在數集方面,支持基于Holodesk存儲格式的集市分析,存儲&計算雙升級,分析性能大幅提升;在數倉方面,支持完整四種事務隔離級別,支持復雜批處理加工、數倉模型拉鏈表等,無需手工計算分桶數,自適應數據分布自動合并小文件;在數據湖方面,支持離線導入/實時寫入、時間旅行,生態對接 Spark/Flink/Sqoop。
第二,星環數據基礎平臺TDH 9.3多模型統一架構迭代升級,全新發布向量模型存儲,10大存儲引擎,共支持11種模型數據統一存儲管理,支持統一查詢處理語言完成跨模型數據流轉與關聯分析,業務開發更便捷。TDH 9.3多模型新成員向量數據庫Hippo采用全面容器化部署,支持服務的彈性擴縮容,同時具備多租戶和強大的資源管控能力;具備分布式部署能力,有豐富的大規模集群部署經驗等。
第三,星環TDH底座就地升級到星環TDC。目前,大數據云平臺及數據共享面臨諸多痛點,如孤島建設數據難以共享,不同角色用戶不同的需求,數據共享的安全隱患、基礎設施異構建設及擴容難。為了增強數據開放能力,促進企業數據共享與流通,星環數據云平臺TDC升級,推出TDC 3.2。
TDC 3.2一個大重磅更新就是支持星環TDH底座就地升級到星環TDC,利用云化統一管理資源池,實現大數據系統產品、計算、存儲資源池化,提高調度資源的靈活性和利用率;多租戶隔離技術,實現各業務部門之間的數據獨立,更穩定,更安全,保障數據安全與隔離活性;統一管理與精準運維,統一管理和資源虛擬化,按需提供資源,不僅釋放運維人員的時間與精力,而且提升運維效率。
另外基于多租戶技術的內部數據共享,以及嚴格的數據安全隔離和保護,解決存算解耦,讓擴展更加便捷。基于TDC打造外部數據流通方案,實現從數據資產到數據要素安全流通。
第四,讓數據流通更便利、更安全、更可控。數據流通既要滿足全流程安全與隱私保護的制度要求,也要滿足市場流通全流程業務效率的要求,因此有必要在流通規則中建立數據要素全流程合規與監管體系。在本次峰會上,星環科技推出了數據要素流通產品Navier 3.1讓數據流通更便利、更安全、更可控。
星環科技數據流通平臺Navier 3.1三大產品同時升級。星環數據交易門戶Datamall打造數據資產目錄平臺,可瀏覽數據目錄、查看數據字典、生成交易憑證。
星環科技安全沙箱Sandbox,打造封閉、隔離的數據開發分析環境,開發人員在安全隔離的環境下進行分析計算,不可下載和導出原始數據集,保障數據可入不可出。
星環科技隱私計算平臺Sophon P²C 2.0,在保證數據提供方不泄露敏感數據的前提下,數據消費方對密文數據進行分析計算,保證在各個環節中數據可用不可見。新版本功能覆蓋更全面、數據分析使用靈活度更高、建模效果更好。
星環科技推出Defensor 4.0版本,在數據分類分級模塊中創新性地引入了大模型技術,相較于傳統機器學習算法,調優后的模型完美解決了分類分級中短文本語義語境識別率低的問題,在有標注樣本的前提下,識別準確率達到了95%。
第五,國產化替代上更進一步。為了實現數據處理的平民化,星環科技推出眾多創新產品,不但可以替換國外的商業和開源大數據平臺、數據庫等基礎軟件產品,而且擁有大量成功的應用案例,為用戶創造新的價值。
星環科技自研的大數據基礎平臺TDH和星環數據云平臺TDC聯合,可以完美地替代CDH/HDP和CDP,提升功能、性能、穩定性、易用性、擴展性、可靠性、安全、國產生態支持等能力,提供多種模型支持能力,性能提升可以達到5到100倍,原廠專業服務能力更強。
星環分布式分析型數據庫ArgoDB強化實時分析能力,構建安全高效的國產化多模引擎,一站式滿足用戶數據倉庫、數據集市、實時數倉、OLAP、AETP、聯邦計算等需求,可以在批處理和OLAP、Ad hoc分析等場景,替代Oracle/DB2/TD/SAP HANA等國外產品。
星環分布式交易型數據庫KunDB 3.2可以在交易型OLTP的業務場景、高并發在線數據服務場景等,替代Oracle/DB2/MySQL,并且提升存儲計算能力、高可用能力、跨分區事務能力。
星環自研發的搜索引擎Scope可以在全文檢索、日志分析等多個場景替代ElasticSearch,提升穩定性、性能、集群擴展性等能力。
星環分布式圖數據庫StellarDB可以在圖查詢、圖分析等場景替代開源圖數據庫Neo4j。而新發布的StellarDB 5.0產品在延續企業級海量存儲、高性能數據查詢分析計算、豐富的可視化交互、安全運維一體化等優異產品技術能力的同時,進一步帶來了覆蓋數據存儲、查詢計算、可視化交互、深度圖學習、多模型數據庫等產品多方位的能力升級,以高水平的產品能力和圖智能持續賦能業務生產以及應用創新,為國產化圖數據應用提供高水平產品解決方案。
星環科技自研的高性能時序數據庫TimeLyre可以替代開源時序數據庫InfluxDB,解決開源時序數據庫不支持復雜分析,只能做簡單點查或者指定設備分析,大規模設備情況下,不指定設備查詢時,需要使用大量內存載入全量設備數據,并進行歸并排序操作,服務極其不穩定,以及缺乏安全可控性等問題。
星環科技的智能分析工具Sophon Base可以在可視化建模分析等場景替代SAS/SPSS,提升功能和性能,降低成本。
大數據產業發展的下一步就是打造以平臺為核心的大數據生態。星環科技堅持“平臺+生態”的發展理念,與軟件開發商、硬件開發商、系統集成商等生態伙伴積極合作,打造更多領域的聯合解決方案,擴大產品市場影響力,提升競爭力,打造大數據基礎軟件產品應用的生態體系。目前,星環科技已經擁有超過600家生態合作伙伴,涵蓋系統集成、咨詢交付、服務,ISV及行業應用,數據建模分析、挖掘,數據集成治理、展現、流通,操作系統、云與通用軟件,整機與硬件,CPU及芯片技術等,星環云課堂擁有2,200+家培訓企業數量,10,000+份星環工程師認證證書,4萬+人累計培訓開發者人次。
未來已來,數據處理的智能化、立體化、平民化大潮洶涌澎湃,而利用創新技術落地數據處理的產品則是這些浪潮落地的基石和基礎,正在改變數據處理發展的進程。