新基建的浪潮如火如荼,國(guó)家頂層政策的引導(dǎo)不僅支持著由數(shù)據(jù)驅(qū)動(dòng)各垂直領(lǐng)域中的新興商業(yè)市場(chǎng),也為相關(guān)科研市場(chǎng)的發(fā)展提供了眾多機(jī)遇。
但持續(xù)的發(fā)展也帶來(lái)了新的問(wèn)題,傳統(tǒng)基礎(chǔ)設(shè)施已逐漸不能響應(yīng)新興數(shù)據(jù)驅(qū)動(dòng)研究所需的軟硬件支持。本文將從此類(lèi)問(wèn)題出發(fā),為各領(lǐng)域研究團(tuán)隊(duì)介紹 ModelWhale 云端數(shù)據(jù)科學(xué)協(xié)同平臺(tái),以其不同的產(chǎn)品服務(wù)價(jià)值在不同層面上提供系列解決方案,期待為由數(shù)據(jù)驅(qū)動(dòng)的科學(xué)研究提供助力。
目錄
數(shù)據(jù)驅(qū)動(dòng)研究部署于傳統(tǒng)基礎(chǔ)設(shè)施的現(xiàn)存問(wèn)題
ModelWhale,數(shù)據(jù)驅(qū)動(dòng)研究的云端協(xié)同創(chuàng)新平臺(tái)
數(shù)據(jù)驅(qū)動(dòng)研究的全生命周期管理
數(shù)據(jù)資產(chǎn)與研究成果的沉淀與展示
強(qiáng)大的算力調(diào)度管理能力
客戶(hù)案例分享 · 清華大學(xué)中國(guó)新型城鎮(zhèn)化研究院:交叉領(lǐng)域科研云端數(shù)據(jù)分析協(xié)同創(chuàng)新平臺(tái)
數(shù)據(jù)驅(qū)動(dòng)研究部署于傳統(tǒng)基礎(chǔ)設(shè)施的現(xiàn)存問(wèn)題
部署于傳統(tǒng)基礎(chǔ)設(shè)施的數(shù)據(jù)驅(qū)動(dòng)研究在大環(huán)境發(fā)展中所暴露出的問(wèn)題,歸根結(jié)底是此類(lèi)基礎(chǔ)設(shè)施已無(wú)法滿(mǎn)足現(xiàn)有的使用需求。在對(duì)相關(guān)高校與科研機(jī)構(gòu)的痛點(diǎn)問(wèn)題進(jìn)行客戶(hù)調(diào)研后,本文得出以下結(jié)論。
科研期待:項(xiàng)目能有完整的生命周期,結(jié)項(xiàng)不是項(xiàng)目的終結(jié),后續(xù)能夠復(fù)用是項(xiàng)目生命的存續(xù)
實(shí)際情況:極不合理的項(xiàng)目成果管理方式為“成果復(fù)用”設(shè)置重重阻礙
對(duì)既往研究成果進(jìn)行復(fù)用以賦予項(xiàng)目完整生命周期中的“復(fù)用”定義十分寬泛:可以是復(fù)用既往項(xiàng)目中的“中間成果”,譬如僅僅一個(gè)代碼片段;也可以是“階段性較為完整的成果”,譬如一個(gè)模型或搭建完成的一個(gè)鏡像;還可以是對(duì)于某一類(lèi)項(xiàng)目較為流程化、規(guī)范化的“研究范式”。
同時(shí),此類(lèi)“復(fù)用”是跨時(shí)間、跨人員的。然而事實(shí)上,由于項(xiàng)目研究成果缺少系統(tǒng)的歸納管理,加之項(xiàng)目組人員時(shí)有更替,隨著時(shí)間的流逝,極容易忘卻之前的研究成果,即使記起、有復(fù)用的打算,也很難將其翻找出來(lái)、輔以配套環(huán)境完整復(fù)現(xiàn)。即使大家都贊同,合理復(fù)用從長(zhǎng)遠(yuǎn)能夠節(jié)省大量時(shí)間,為避免當(dāng)下的麻煩,項(xiàng)目進(jìn)行過(guò)程中大部分相關(guān)人員還是會(huì)選擇重頭再來(lái)。
科研期待:外界對(duì)于項(xiàng)目?jī)r(jià)值的認(rèn)可
實(shí)際情況:沒(méi)有完整展示研究成果、完全復(fù)現(xiàn)研究過(guò)程的條件,外界接觸研究成果的渠道十分有限
傳統(tǒng)的項(xiàng)目在研究完成后不會(huì)想到在云端沉淀項(xiàng)目成果,即使選擇了云端沉淀,主要沉淀的也是文字與“死的”數(shù)據(jù),而不會(huì)留存“數(shù)據(jù)分析、編程建模的過(guò)程”,這主要是由于一般的成果沉淀渠道沒(méi)有所謂可存儲(chǔ)“中間過(guò)程”的環(huán)境。研究過(guò)程難以被他人完全復(fù)現(xiàn)、研究成果得不到“完整的展示”,顯然不利于提升項(xiàng)目?jī)r(jià)值的認(rèn)可度。
此外,目前國(guó)內(nèi)的科研環(huán)境缺少一個(gè)除期刊、組織門(mén)戶(hù)外可展示或合理開(kāi)放研究成果的渠道,大眾領(lǐng)域的科研愛(ài)好者與相關(guān)領(lǐng)域的外部人員無(wú)從接觸項(xiàng)目資源、不知道項(xiàng)目組究竟做出了什么成果,亦或是在時(shí)效性上有很大的延遲。
關(guān)于“可復(fù)現(xiàn)性危機(jī)”的調(diào)查,圖源 Nature
科研期待:科研過(guò)程中算力高效、精準(zhǔn)的調(diào)配
實(shí)際情況:集成難、調(diào)度難、運(yùn)維難,資源閑置,空有硬件而用不上
首先我們需要明確,數(shù)據(jù)驅(qū)動(dòng)的研究項(xiàng)目普遍屬于大型、復(fù)雜計(jì)算任務(wù),例如 GPU 集群模型訓(xùn)練等,對(duì)硬件要求高,一般的個(gè)人 pc 于本地?zé)o法滿(mǎn)足相應(yīng)算力需求。
其次,普遍來(lái)說(shuō),高校與科研機(jī)構(gòu)內(nèi)不是沒(méi)有高規(guī)格服務(wù)器,但此類(lèi)服務(wù)器一般較為分散,組織層面上不知道如何整合利用這部分資源。云上對(duì)資源進(jìn)行集成調(diào)度理論上可行,但相關(guān)部署運(yùn)維工作繁瑣且專(zhuān)業(yè)性強(qiáng),小到課題組,大到學(xué)校、院系很難尋找到一個(gè)合適的人選為此花費(fèi)大量時(shí)間精力。最終造成的結(jié)果是,校內(nèi)許多服務(wù)器處于閑置狀態(tài)沒(méi)有被充分利用,浪費(fèi)了大量計(jì)算與存儲(chǔ)資源。
ModelWhale,數(shù)據(jù)驅(qū)動(dòng)研究的云端協(xié)同創(chuàng)新平臺(tái)
作為數(shù)據(jù)科學(xué)行業(yè)中的佼佼者,和鯨科技旗下核心產(chǎn)品 ModelWhale 一直是各業(yè)研究人員的優(yōu)選,并獲得清華大學(xué)、南開(kāi)大學(xué)、北京協(xié)和醫(yī)學(xué)院等一線(xiàn)科研團(tuán)隊(duì)的廣泛好評(píng)。作為云端協(xié)同創(chuàng)新平臺(tái),ModelWhale 將從以下幾方面助力數(shù)據(jù)驅(qū)動(dòng)的科學(xué)研究:
數(shù)據(jù)驅(qū)動(dòng)研究的全生命周期管理
數(shù)據(jù)資產(chǎn)與研究成果的沉淀與展示
強(qiáng)大的算力調(diào)度管理能力
文末,還將附上清華大學(xué)新型城鎮(zhèn)化研究院的客戶(hù)案例用以對(duì) ModelWhale 的上述產(chǎn)品、服務(wù)能力進(jìn)行具體的展示。
數(shù)據(jù)驅(qū)動(dòng)研究的全生命周期管理
本節(jié)主要為項(xiàng)目從生產(chǎn)到復(fù)用全生命周期管理過(guò)程中出現(xiàn)的系列問(wèn)題提供解決方案,為方便行文,將拆分為“項(xiàng)目從零生產(chǎn)”與“復(fù)用既往研究”兩部分。
項(xiàng)目從零生產(chǎn)
數(shù)據(jù)驅(qū)動(dòng)研究的地基便是數(shù)據(jù)本身,而部署于傳統(tǒng)基礎(chǔ)設(shè)施的數(shù)據(jù)驅(qū)動(dòng)研究在數(shù)據(jù)管理上主要依賴(lài)的還是人力。而通過(guò) ModelWhale,在保證數(shù)據(jù)安全的前提下,研究者們不僅能夠創(chuàng)建不同類(lèi)型的數(shù)據(jù)源,例如數(shù)據(jù)集、數(shù)據(jù)庫(kù)連接、對(duì)象存儲(chǔ)連接、NAS 空間、標(biāo)注數(shù)據(jù)等,更是能夠?qū)ο嚓P(guān)數(shù)據(jù)源進(jìn)行概述、標(biāo)識(shí)、版本管理、評(píng)論及分發(fā)共享。ModelWhale 為研究者們提供的數(shù)據(jù)接入與管理功能就是要為數(shù)據(jù)驅(qū)動(dòng)研究打好基礎(chǔ),令廣大研究人員不必再為數(shù)據(jù)管理的底層繁復(fù)工作浪費(fèi)時(shí)間。
NAS 空間內(nèi)進(jìn)行數(shù)據(jù)接入、管理、協(xié)作、分析等操作
解決了數(shù)據(jù)問(wèn)題便從零生產(chǎn)項(xiàng)目,而生產(chǎn)項(xiàng)目的第一步,往往是裝包搭建環(huán)境。作為云端數(shù)據(jù)科學(xué)協(xié)同平臺(tái),ModelWhale 提供 Jupyter Notebook 交互式、Canvas 拖拽式、CloudIDE 三種云端分析環(huán)境,并支持 Python、R 等數(shù)種編程語(yǔ)言,適配研究者們不同的編程需求與習(xí)慣;另外平臺(tái)內(nèi)已配備多種通用與特定學(xué)科鏡像,新建項(xiàng)目時(shí)直接選定即可,真正做到即開(kāi)即用——打開(kāi) ModelWhale,不需要配置任何環(huán)境,即可開(kāi)始項(xiàng)目研究,省時(shí)省力。
快速新建 Notebook 開(kāi)始研究
內(nèi)置多種鏡像供不同領(lǐng)域研究者使用
配置好環(huán)境即可開(kāi)始數(shù)據(jù)分析、編程建模。一般的編程操作不必多說(shuō),選定相應(yīng)的分析界面、算力、鏡像開(kāi)始即可。值得一提的是,數(shù)據(jù)驅(qū)動(dòng)研究一般關(guān)注的是對(duì)于不確定性問(wèn)題的探索,面對(duì)一個(gè)新課題,在最開(kāi)始,往往并不能夠明確哪種方法與手段可達(dá)成研究目的,我們需要多種多樣的嘗試。因此,ModelWhale 在這里能夠提供的額外功能就是非 Git 邏輯控制的版本管理,不會(huì)太重,隨時(shí)進(jìn)行項(xiàng)目的版本比對(duì)與 Cell 級(jí)版本回溯,支持廣大研究者們的從零探索。
版本比對(duì)與版本回溯,一鍵接受歷史版本
另外,針對(duì)于數(shù)據(jù)驅(qū)動(dòng)研究普遍存在的大型復(fù)雜計(jì)算任務(wù),例如深度學(xué)習(xí)等,如前文所述,ModelWhale 首先支持將 NAS 目錄作為數(shù)據(jù)源掛載進(jìn)分析環(huán)境,從而實(shí)現(xiàn)對(duì)超大數(shù)據(jù)的分析研究,其次還支持模型的離線(xiàn)訓(xùn)練功能,即在電腦關(guān)閉后訓(xùn)練任務(wù)仍可繼續(xù),解放研究人員的時(shí)間與精力,同時(shí)提供訓(xùn)練結(jié)果可視化比對(duì),協(xié)助高效進(jìn)行模型的調(diào)參與選擇。一句話(huà)總結(jié),ModelWhale 將從各種細(xì)節(jié)緩解研究者們繁復(fù)的底層工作。
新建模型離線(xiàn)訓(xùn)練任務(wù)
最后,科學(xué)研究往往不是一個(gè)人的工作,對(duì)于復(fù)雜項(xiàng)目,組內(nèi)進(jìn)行多人分?jǐn)偸呛艹S械氖拢?ModelWhale 不僅關(guān)乎數(shù)據(jù)科學(xué),更是云端協(xié)同創(chuàng)新平臺(tái),助力多人協(xié)作研究義不容辭。通俗來(lái)說(shuō),可以將 ModelWhale 想象為代碼版的主流云文檔軟件,能夠?qū)崿F(xiàn)多人在線(xiàn)編輯同個(gè)項(xiàng)目,當(dāng)然,為避免代碼碰撞出現(xiàn)的 bug,需要生成版本才能將進(jìn)展同步給他人。另外 ModelWhale 還具備任務(wù)規(guī)劃的項(xiàng)目管理工具,負(fù)責(zé)人可以新建課題任務(wù),并將其拆分成子任務(wù)進(jìn)行分發(fā),協(xié)同團(tuán)隊(duì)共同完成復(fù)雜的項(xiàng)目研究。最后,多人協(xié)作不僅著眼于某一項(xiàng)目組內(nèi)部,我們也關(guān)注跨行業(yè)、跨領(lǐng)域的合作協(xié)同:運(yùn)用 Canvas 功能,代碼能力較弱的各領(lǐng)域理論學(xué)者可與數(shù)據(jù)科學(xué)家們同時(shí)工作,理論學(xué)者負(fù)責(zé)以功能模塊搭建研究思路,數(shù)據(jù)科學(xué)家將其轉(zhuǎn)化為實(shí)操代碼,相輔相成、事半功倍。
項(xiàng)目管理工具,任務(wù)規(guī)劃界面
用 Canvas 快速搭建分析流程
復(fù)用既往研究
前文也已提及,對(duì)于數(shù)據(jù)驅(qū)動(dòng)研究而言,除了從零開(kāi)始,復(fù)用既往研究成果從長(zhǎng)遠(yuǎn)來(lái)看是極能提升效率的方式之一,也是項(xiàng)目全生命周期管理中極易被忽視的一環(huán),而 ModelWhale 將從鏡像、代碼片段、研究模板與工作流、算法模型多角度多層次的助力研究時(shí)的復(fù)用工作。
1.自定義鏡像的復(fù)用,不必人人造輪子
“項(xiàng)目從零生產(chǎn)”中有提到,ModelWhale 本身內(nèi)嵌了多種通用與特定學(xué)科鏡像,新建項(xiàng)目時(shí)直接選定即可,那么若這些鏡像無(wú)法滿(mǎn)足當(dāng)下研究需求又該怎么辦呢?這時(shí),研究人員可新建自定義鏡像以匹配當(dāng)前需求。但這并不表示項(xiàng)目組內(nèi)的每個(gè)研究者在開(kāi)始研究前都需要進(jìn)行此步操作,一旦完成契合研究需求自定義鏡像的新建,該鏡像可以分發(fā)給組織內(nèi)的任意成員進(jìn)行復(fù)用,不必人人造輪子,除了負(fù)責(zé)新建鏡像的第一人,組內(nèi)其他研究者依然能夠即開(kāi)即用地復(fù)用既往已被搭建完成的研究環(huán)境。
自定義科研鏡像,一鍵同步給項(xiàng)目組其他研究人員
2.Notebook 代碼庫(kù),代碼片段也可輕松復(fù)用
ModelWhale Jupyter Notebook 側(cè)邊欄中具備代碼片段庫(kù)功能,研究人員在既往研究中可預(yù)先收藏有幾率被復(fù)用到的代碼片段,后續(xù)進(jìn)行新一輪研究時(shí),即可在該代碼庫(kù)“我的收藏”中找到相應(yīng)代碼片段,此外,代碼庫(kù)中還包含了一部分官方代碼,無(wú)論是“公有庫(kù)”還是“我的收藏”,其中的代碼片段都能夠在新項(xiàng)目界面進(jìn)行復(fù)用,直接插入即可。最后,代碼庫(kù)內(nèi)的代碼片段支持組織內(nèi)的權(quán)限管理與分發(fā),研究人員 A 收藏的代碼片段可便捷復(fù)用至 B 的項(xiàng)目。
代碼片段收藏與復(fù)用
3.Canvas 組件,通過(guò)可視化規(guī)范 Flow 模板創(chuàng)建項(xiàng)目
ModelWhale Canvas 簡(jiǎn)單來(lái)說(shuō)是基于可視化和模型驅(qū)動(dòng)的理念,通過(guò)“拖拉拽”組件,完成應(yīng)用模型的搭建。這樣說(shuō)有些大而抽象,實(shí)際操作中,Canvas 如何被應(yīng)用到項(xiàng)目成果的復(fù)用過(guò)程呢?試想一下,當(dāng)研究人員正進(jìn)行一套較為繁瑣但極其流程化、不需要?jiǎng)?chuàng)新、后續(xù)也還會(huì)經(jīng)常進(jìn)行的項(xiàng)目步驟時(shí),可選擇在 Canvas 中運(yùn)用組件預(yù)構(gòu)這一套步驟,將其封裝成為常用的工作流 Flow,后續(xù)在別的項(xiàng)目中再次遇見(jiàn)這一套步驟,就可通過(guò) Canvas 模板直接創(chuàng)建項(xiàng)目、確認(rèn)組件流程,再轉(zhuǎn)化為 Notebook,此時(shí)大框架已有,通過(guò)代碼微調(diào)即可實(shí)現(xiàn)那一套繁瑣且流程化的項(xiàng)目步驟,十分便捷。
通過(guò)模板創(chuàng)建 Canvas 項(xiàng)目,并一鍵另存為 Notebook
4.算法庫(kù)功能:實(shí)現(xiàn)對(duì)算法模型的整理、分享、復(fù)用
利用算法庫(kù),研究人員可以管理既往研究工作中已產(chǎn)出的算法模型,輔以文字說(shuō)明,實(shí)現(xiàn)對(duì)這些算法模型的整理與分享,實(shí)際復(fù)用時(shí),可將此類(lèi)成果直接創(chuàng)建項(xiàng)目或模型服務(wù),免去大量冗余的代碼編寫(xiě)、模型訓(xùn)練工作,節(jié)省時(shí)間。此外,ModelWhale 算法庫(kù)內(nèi)也已整理部分常用算法,供研究者在進(jìn)行通用數(shù)據(jù)分析工作時(shí)隨時(shí)調(diào)用。
算法庫(kù)功能對(duì)于算法模型的沉淀管理、一鍵復(fù)現(xiàn)
數(shù)據(jù)資產(chǎn)與研究成果的沉淀與展示
本節(jié)主要為數(shù)據(jù)驅(qū)動(dòng)研究資產(chǎn)成果沉淀與展示過(guò)程中出現(xiàn)的系列問(wèn)題提供解決方案,為方便行文,將拆分為“資產(chǎn)成果沉淀復(fù)現(xiàn)”與“資產(chǎn)成果復(fù)現(xiàn)展示”兩部分。
資產(chǎn)成果沉淀復(fù)現(xiàn)
如前文所述,傳統(tǒng)的數(shù)據(jù)驅(qū)動(dòng)項(xiàng)目在研究完成后不會(huì)想到在云端沉淀完整的項(xiàng)目成果,主要是因?yàn)橐话愕某晒恋砬罌](méi)有所謂可存儲(chǔ)研究“中間過(guò)程”的環(huán)境,而現(xiàn)在 ModelWhale 可為廣大研究者們提供這樣一個(gè)環(huán)境:
上一部分中我們也提到,ModelWhale 具備版本管理功能,詳細(xì)來(lái)說(shuō) ModelWhale 是為內(nèi)部的所有生產(chǎn)資料都提供了版本管理功能,例如分析環(huán)境、數(shù)據(jù)、代碼及模型服務(wù)。在項(xiàng)目研究完成后,科研人員可以選定最終運(yùn)行時(shí)的分析環(huán)境、掛載的數(shù)據(jù)集、最后的代碼版本,將生產(chǎn)要素全部整合在一起,并補(bǔ)充一定的文字說(shuō)明,沉淀至組織的項(xiàng)目成果庫(kù)中。一方面,團(tuán)隊(duì)內(nèi)的其他成員可隨時(shí)查看成果庫(kù)進(jìn)行復(fù)現(xiàn);另一方面,這也同時(shí)解決了科研人員隨著時(shí)間推移由于分析環(huán)境改變或文件丟失而無(wú)法復(fù)現(xiàn)自己既往成果的問(wèn)題。
ModelWhale 項(xiàng)目成果管理界面
資產(chǎn)成果復(fù)現(xiàn)展示
上一部分中項(xiàng)目成果庫(kù)這一功能主要為組織內(nèi)成員開(kāi)放,因此此類(lèi)“成果復(fù)現(xiàn)”以對(duì)內(nèi)為主、對(duì)外為輔,在真正提交項(xiàng)目進(jìn)入項(xiàng)目評(píng)議、對(duì)外發(fā)布的過(guò)程中,ModelWhale 主要從以下幾方面助力研究資產(chǎn)成果的復(fù)現(xiàn)展示。
1.項(xiàng)目鏈接與模型服務(wù)網(wǎng)頁(yè)應(yīng)用
項(xiàng)目提交評(píng)議時(shí)附帶成果的查看鏈接將提升項(xiàng)目產(chǎn)出整體的完備度,此處的成果包含了項(xiàng)目鏈接與模型服務(wù)的網(wǎng)頁(yè)應(yīng)用兩種。對(duì)于項(xiàng)目鏈接,項(xiàng)目負(fù)責(zé)人 / 審稿人不僅能夠快速查看、復(fù)現(xiàn)數(shù)據(jù)分析的完整流程,針對(duì)于一個(gè) Notebook,也能夠就其中具體的 Cell 進(jìn)行提問(wèn)與評(píng)論;對(duì)于發(fā)布為網(wǎng)頁(yè)應(yīng)用的模型服務(wù),項(xiàng)目負(fù)責(zé)人 / 審稿人更能夠一鍵調(diào)用,填寫(xiě)表單后即可使用真實(shí)數(shù)據(jù)獲得模型運(yùn)行推斷結(jié)果,使其對(duì)科研產(chǎn)出有更直觀的認(rèn)識(shí)與更準(zhǔn)確的評(píng)價(jià)。
針對(duì)項(xiàng)目的特定 Cell 進(jìn)行提問(wèn)與評(píng)論
模型服務(wù)發(fā)布為網(wǎng)頁(yè)應(yīng)用
2.開(kāi)放科研:組織門(mén)戶(hù)對(duì)于研究成果的展示、公開(kāi)
數(shù)據(jù)驅(qū)動(dòng)研究無(wú)論是在進(jìn)行過(guò)程中還是項(xiàng)目結(jié)項(xiàng)后都會(huì)產(chǎn)生大量的數(shù)據(jù)成果,對(duì)此類(lèi)資產(chǎn)進(jìn)行合理公開(kāi)貫徹了“開(kāi)放科研”的學(xué)術(shù)理念,不僅能夠解決當(dāng)前科研成果剩余價(jià)值的流失問(wèn)題、有利于發(fā)揮科學(xué)數(shù)據(jù)的最大價(jià)值,同時(shí)也為數(shù)據(jù)驅(qū)動(dòng)的研究提供社會(huì)效益的支持、讓更多的人共同參與科學(xué)研究工作。然而目前仍存在著許多壁壘阻礙了開(kāi)放科研的實(shí)現(xiàn):首先,就數(shù)據(jù)本身來(lái)說(shuō),數(shù)據(jù)源載體多、存儲(chǔ)形式多樣、數(shù)據(jù)類(lèi)型廣泛,都為數(shù)據(jù)資產(chǎn)共享與管理造成了比較大的麻煩;其次,傳統(tǒng)的有限防護(hù)機(jī)制不一定能夠保障數(shù)據(jù)權(quán)益與數(shù)據(jù)安全,數(shù)據(jù)資產(chǎn)共享者將面臨風(fēng)險(xiǎn)責(zé)任與權(quán)利受益的矛盾。
而 ModelWhale 能夠?yàn)閿?shù)據(jù)驅(qū)動(dòng)研究生產(chǎn)資料與多形態(tài)研究成果提供安全、完善的共享交互與公開(kāi)機(jī)制,具體方式方法是在云端為高校與科研機(jī)構(gòu)搭建科研數(shù)據(jù)沙箱。搭建完成后,組織管理員可通過(guò)該沙箱平臺(tái)對(duì)各類(lèi)數(shù)據(jù)進(jìn)行統(tǒng)一接入、管理;通過(guò)權(quán)限系統(tǒng)控制其公開(kāi)范圍,即可有選擇性地將可開(kāi)放的數(shù)據(jù)公開(kāi)至組織的門(mén)戶(hù)頁(yè);同時(shí)自定義每個(gè)數(shù)據(jù)集訪(fǎng)問(wèn)用戶(hù)的查看、使用或下載權(quán)限,實(shí)現(xiàn)數(shù)據(jù)公開(kāi)卻不落地,通過(guò)平臺(tái)也能夠自動(dòng)生成“數(shù)據(jù)賬本”,查看數(shù)據(jù)資產(chǎn)實(shí)時(shí)、完整的使用記錄;最后,ModelWhale 支持為每份數(shù)據(jù)生成 DOI 標(biāo)識(shí),在認(rèn)證數(shù)據(jù)權(quán)益的同時(shí),他人也可通過(guò) DOI 號(hào)快速分享查找相關(guān)數(shù)據(jù)集,進(jìn)一步提升了數(shù)據(jù)價(jià)值利用的科學(xué)性與可持續(xù)性。
ModelWhale 為華東師范大學(xué)搭建的研究數(shù)據(jù)中臺(tái)門(mén)戶(hù)頁(yè)
除數(shù)據(jù)資產(chǎn)外,ModelWhale 還支持更多類(lèi)型的研究成果開(kāi)放發(fā)布,將項(xiàng)目鏈接與模型服務(wù)網(wǎng)頁(yè)應(yīng)用同樣部署于組織門(mén)戶(hù)即可。值得一提的是,算法模型作為數(shù)據(jù)驅(qū)動(dòng)研究中較為獨(dú)特的要素,在公開(kāi)發(fā)布后,社會(huì)面大規(guī)模應(yīng)用同樣是驗(yàn)證模型實(shí)際效能的過(guò)程。研究者可根據(jù)平臺(tái)記錄下的模型調(diào)用次數(shù)、歷史及使用過(guò)程等信息,來(lái)制定下一步的研究計(jì)劃與優(yōu)化方向。
3.和鯨社區(qū)提供多維研究成果發(fā)布渠道
同屬和鯨科技旗下的和鯨社區(qū)聚集了30w+的數(shù)據(jù)研究愛(ài)好者,持續(xù)對(duì)社區(qū)內(nèi)的海量數(shù)據(jù)資源與多領(lǐng)域代碼項(xiàng)目案例進(jìn)行研究、學(xué)習(xí)、復(fù)現(xiàn)。ModelWhale 與其接軌,數(shù)據(jù)驅(qū)動(dòng)研究的成果資產(chǎn)可以數(shù)據(jù)資源、項(xiàng)目案例的形式發(fā)布至社區(qū),使社區(qū)成為除期刊、組織門(mén)戶(hù)外的又一受眾廣泛的成果展示渠道,數(shù)據(jù)驅(qū)動(dòng)研究不再只“位于高處”,同樣可以“貼地飛行”,降低社會(huì)面對(duì)于研究的接觸難度,無(wú)疑也對(duì)提高成果價(jià)值認(rèn)知度、認(rèn)可度有所助力。
和鯨社區(qū)主頁(yè)一覽
強(qiáng)大的算力調(diào)度管理能力
如何進(jìn)行算力調(diào)度管理一直是廣大高校與科研機(jī)構(gòu)較為關(guān)心的問(wèn)題,如前文所述,目前正是由于缺乏合理的調(diào)度機(jī)制,造成了空有強(qiáng)大硬件資源而用不上的情況。本節(jié)將從算力接入、各規(guī)格算力統(tǒng)一管理、精細(xì)化算力調(diào)度、算力資源的即開(kāi)即用四個(gè)層面提供相應(yīng)解決方案。
算力接入:私有化部署與運(yùn)維
獨(dú)立部署的 ModelWhale 在算力接入上可選擇本地服務(wù)器(需要高效利用已有硬件設(shè)備客戶(hù)的首選)、私有云或來(lái)自各主流云廠(chǎng)商提供的云服務(wù),無(wú)論是哪種方式,基于云原生技術(shù)方案的 ModelWhale 都可靈活對(duì)接,同時(shí)支持跨云調(diào)度。
部署完成后,ModelWhale 將提供全套運(yùn)維服務(wù)與完整的售后機(jī)制,做到全程跟進(jìn)。一般性問(wèn)題,可于線(xiàn)上遠(yuǎn)程支持;嚴(yán)重或復(fù)雜問(wèn)題,也可以到當(dāng)?shù)剡M(jìn)行解決,不再浪費(fèi)研究組織內(nèi)的人力資源運(yùn)維相關(guān)系統(tǒng)。
各規(guī)格算力統(tǒng)一管理:閑置算力不浪費(fèi),滿(mǎn)足大型復(fù)雜計(jì)算任務(wù)
若選擇高校與科研機(jī)構(gòu)的本地服務(wù)器完成算力接入,這意味著已將組織內(nèi)的本地服務(wù)器算力進(jìn)行了集成,下一步便是各規(guī)格算力的統(tǒng)一管理,即如何將之前的閑置資源更方便地利用起來(lái),并分配給不同的老師、研究人員的項(xiàng)目課題組。
通過(guò) ModelWhale,高校與科研機(jī)構(gòu)的管理員可利用圖形化操作界面,根據(jù)核數(shù)與內(nèi)存大小對(duì)算力進(jìn)行拆分,再按照不同的使用需求分配給不同群體。舉例來(lái)說(shuō),數(shù)據(jù)驅(qū)動(dòng)研究中經(jīng)常出現(xiàn)大型復(fù)雜計(jì)算任務(wù),因此需要較高規(guī)格的 CPU 算力或 GPU 集群,同時(shí),較為基礎(chǔ)的算力資源則可分配給高校內(nèi)的教學(xué)團(tuán)隊(duì)用于課程實(shí)踐,做到各規(guī)格算力都不閑置。
此外,ModelWhale 還提供資源申用機(jī)制,當(dāng)現(xiàn)有計(jì)算存儲(chǔ)資源不夠用時(shí),項(xiàng)目組管理員可直接通過(guò)發(fā)起申請(qǐng)及時(shí)獲得算力補(bǔ)給,應(yīng)對(duì)不同研究需求。
算力資源按需分配至不同的研究項(xiàng)目組
精細(xì)化、靈活的算力調(diào)度
如果說(shuō)各規(guī)格算力統(tǒng)一管理的著眼點(diǎn)在于從高校與科研機(jī)構(gòu)組織到組織內(nèi)不同的項(xiàng)目課題組,那么精細(xì)化、靈活的算力調(diào)度則更關(guān)心項(xiàng)目組內(nèi)人員間的算力調(diào)配。
數(shù)據(jù)驅(qū)動(dòng)研究項(xiàng)目組內(nèi)使用算力資源屬于“高規(guī)格+高并發(fā)”場(chǎng)景,如何將有限的算力分配給組內(nèi)較多的研究人員呢?同組織管理員一樣,項(xiàng)目組管理員同樣可通過(guò)簡(jiǎn)單的點(diǎn)選式操作完成遠(yuǎn)程資源的分配與管控,精細(xì)到組內(nèi)的每個(gè)成員,包括配置可使用的特定資源類(lèi)型與時(shí)長(zhǎng)。通過(guò)算力上云,項(xiàng)目組內(nèi)研究人員的研究環(huán)境不再局限于辦公室、實(shí)驗(yàn)室的網(wǎng)絡(luò)或電腦,個(gè)人 pc 也可隨時(shí)隨地進(jìn)行相關(guān)研究。
計(jì)算資源管理 - 資源使用界面
項(xiàng)目組管理員、負(fù)責(zé)人對(duì)組內(nèi)研究者們的算力進(jìn)行實(shí)時(shí)把控也是杜絕資源浪費(fèi)的一種途徑。另外,在算力緊缺的情況下,ModelWhale 不僅提供資源排隊(duì)機(jī)制,也支持為組內(nèi)成員配置資源使用優(yōu)先級(jí),使其優(yōu)先完成部分相對(duì)重要的研究工作。最后,算力申請(qǐng)機(jī)制同樣適用于項(xiàng)目課題組內(nèi),申請(qǐng)將由管理員審核,通過(guò)后即可根據(jù)各研究者的需求自動(dòng)發(fā)放相應(yīng)資源。
算力資源的即開(kāi)即用
最后,算力同分析環(huán)境與鏡像一樣,屬于即開(kāi)即用的一部分:獲得項(xiàng)目組管理員分配的算力后,組內(nèi)研究人員在開(kāi)始項(xiàng)目前自主選取所需算力,即可一鍵完成資源調(diào)用,開(kāi)始數(shù)據(jù)研究工作,同時(shí)在研究過(guò)程中,也可隨時(shí)查看自己算力、內(nèi)存、磁盤(pán)的使用情況。當(dāng)遇到大型、復(fù)雜的計(jì)算任務(wù)時(shí),新上線(xiàn)的 Pipeline 功能能夠支持任務(wù)編排與并行計(jì)算,該功能屬于模型離線(xiàn)訓(xùn)練的一環(huán),可使訓(xùn)練過(guò)程中的相關(guān)算力調(diào)度變得更為高效。項(xiàng)目關(guān)閉、算力使用結(jié)束后,資源也會(huì)自動(dòng)釋放,供組內(nèi)其他有需要的研究人員使用。
客戶(hù)案例分享 · 清華大學(xué)中國(guó)新型城鎮(zhèn)化研究院
目前,國(guó)內(nèi)眾多高校與科研機(jī)構(gòu)都已對(duì) ModelWhale 有了深度應(yīng)用,本文將以清華大學(xué)中國(guó)新型城鎮(zhèn)化研究院的客戶(hù)案例為例,對(duì)上文中所述的產(chǎn)品、服務(wù)能力進(jìn)行補(bǔ)充與具體展示。
ModelWhale 高校與科研機(jī)構(gòu)合作伙伴
基礎(chǔ)設(shè)施搭建需求:搭建項(xiàng)目?jī)?nèi)人人可用的數(shù)據(jù)分析平臺(tái),同時(shí)協(xié)助完成數(shù)據(jù)資產(chǎn)成果的管理
契合清華大學(xué)新研院科研痛點(diǎn)最主要的基礎(chǔ)設(shè)施搭建需求可簡(jiǎn)單分為“數(shù)據(jù)分析協(xié)同”與“數(shù)據(jù)資產(chǎn)成果管理”兩個(gè)層面。
數(shù)據(jù)分析協(xié)同上,由于新研院項(xiàng)目中涉及的數(shù)據(jù)眾多,傳統(tǒng)方式在數(shù)據(jù)集協(xié)作方面會(huì)花費(fèi)大量的時(shí)間與精力,加上特定研究項(xiàng)目中的成員具有領(lǐng)域?qū)I(yè)性與交叉性的特點(diǎn),對(duì)于數(shù)據(jù)分析工具的使用能力不一而足,因此學(xué)院亟需使用的是具備協(xié)同功能、且門(mén)檻較低而分析能力較強(qiáng)的數(shù)據(jù)分析平臺(tái)。
數(shù)據(jù)資產(chǎn)成果管理層面,由于研究項(xiàng)目涉及指標(biāo)繁多、數(shù)據(jù)迭代較快,數(shù)據(jù)管理本身難度較高。在缺乏統(tǒng)一高效數(shù)據(jù)管理平臺(tái)的情況下,一方面之前的研究成果與新增的數(shù)據(jù)資產(chǎn)很難實(shí)現(xiàn)信息化統(tǒng)一,另一方面新增數(shù)據(jù)資產(chǎn)易出現(xiàn)數(shù)據(jù)更新不及時(shí)的情況,造成數(shù)據(jù)無(wú)法及時(shí)復(fù)現(xiàn)復(fù)用,影響了不少研究團(tuán)隊(duì)進(jìn)行成果交流的效率。
應(yīng)用方案:交叉領(lǐng)域科研云端數(shù)據(jù)分析協(xié)同創(chuàng)新平臺(tái)
針對(duì)學(xué)院需求,ModelWhale 為其部署了工科科研云端數(shù)據(jù)分析協(xié)同創(chuàng)新平臺(tái),平臺(tái)能力主要包含以下三個(gè)方面:
1.可進(jìn)行算力資源調(diào)配的開(kāi)放式低門(mén)檻云端數(shù)據(jù)分析協(xié)同平臺(tái)
此方面是最基礎(chǔ)的,也是新研院最為關(guān)心、最直擊痛點(diǎn)的部分。實(shí)際應(yīng)用中,新研院的研究者們可利用由 ModelWhale 提供的完備線(xiàn)上數(shù)據(jù)分析環(huán)境與專(zhuān)業(yè)數(shù)據(jù)科學(xué)功能組件,快速開(kāi)始研究工作;此外,組織及項(xiàng)目管理員可通過(guò)完整的權(quán)限管理系統(tǒng),對(duì)相關(guān)數(shù)據(jù)資產(chǎn)與研究成果進(jìn)行合理的權(quán)限設(shè)置、內(nèi)容分發(fā),在保護(hù)研究成果安全的同時(shí)進(jìn)行跨行業(yè)領(lǐng)域、跨組織機(jī)構(gòu)、跨角色人員間高效便捷的協(xié)同合作;最后,新研院內(nèi)部項(xiàng)目組及與之有合作協(xié)同的外部工作團(tuán)隊(duì)都能夠利用 ModelWhale 強(qiáng)大的算力資源調(diào)配功能便捷接入各類(lèi)基礎(chǔ)設(shè)施云平臺(tái)與各種計(jì)算實(shí)例,根據(jù)實(shí)際需求實(shí)現(xiàn)云資源的快速拓展與高效調(diào)度。
協(xié)作研究一體化管理
2.數(shù)據(jù)驅(qū)動(dòng)研究項(xiàng)目全生命周期管理,輕松復(fù)用既往研究成果
研究項(xiàng)目全生命周期管理,尤其是對(duì)既往研究成果復(fù)用的重要性如前文所述,當(dāng)然也是新研院極為關(guān)心的部分之一。在進(jìn)行城鎮(zhèn)相關(guān)項(xiàng)目數(shù)據(jù)分析研究的過(guò)程中普遍會(huì)使用到 Notebook 編程建模與一應(yīng)的模型服務(wù),因此代碼庫(kù)與算法庫(kù)均為高頻使用的功能模塊,研究人員可據(jù)此進(jìn)行代碼片段與算法模型的復(fù)用。相對(duì)更值得一提的是 ModelWhale 的自定義鏡像管理功能與專(zhuān)為清華新研院部署的 Canvas 組件模塊:通過(guò)該兩項(xiàng)功能,研究者們既能解決原先新研院內(nèi)數(shù)據(jù)協(xié)同困難、開(kāi)始數(shù)據(jù)分析研究前均需裝包搭建合適鏡像而無(wú)法復(fù)用前人成果、人人造輪子的難題;同時(shí)也能使復(fù)用既往研究流程成為可能,節(jié)省大量時(shí)間。
3.與院系原有“空間數(shù)據(jù)可視化平臺(tái)”打通,實(shí)現(xiàn)便捷數(shù)據(jù)傳輸、助力研究成果復(fù)現(xiàn)展示
最后這部分是更為專(zhuān)屬化的產(chǎn)品服務(wù)。清華新研院原先就有一個(gè)“空間數(shù)據(jù)可視化平臺(tái)”,里面有存儲(chǔ)相對(duì)較多的業(yè)內(nèi)數(shù)據(jù)源,同時(shí)也能對(duì)項(xiàng)目研究成果進(jìn)行公開(kāi)展示。ModelWhale 將所搭建的數(shù)據(jù)分析平臺(tái)與院系原有的空間數(shù)據(jù)可視化平臺(tái)做了集成,使兩者間的數(shù)據(jù)傳輸、研究成果快捷發(fā)布展示成為可能:當(dāng)研究人員需要空間數(shù)據(jù)可視化平臺(tái)中的數(shù)據(jù)資源,可向管理員提出申請(qǐng),獲得許可后,可通過(guò)創(chuàng)建“數(shù)據(jù)庫(kù)連接”的方式將位于可視化平臺(tái)中的數(shù)據(jù)直接被添加到數(shù)據(jù)分析平臺(tái);而在數(shù)據(jù)分析平臺(tái)完成項(xiàng)目研究后,研究人員也可將項(xiàng)目分析成果發(fā)布至可視化平臺(tái)進(jìn)行成果展示或基于該平臺(tái)功能的其他操作。新搭建的數(shù)據(jù)分析平臺(tái)與院系原有的空間數(shù)據(jù)可視化平臺(tái)合理集成,研究人員在兩個(gè)平臺(tái)的賬號(hào)支持綁定、實(shí)現(xiàn)便捷一鍵登錄,但平臺(tái)的權(quán)限又能做到不互通,保障數(shù)據(jù)安全。
結(jié)束語(yǔ)
過(guò)去5年間,ModelWhale 先后與清華大學(xué)、南開(kāi)大學(xué)、華東師范大學(xué)等高等學(xué)府,國(guó)家氣象信息中心、中國(guó)自然資源航空物探遙感中心、紫金山實(shí)驗(yàn)室等先進(jìn)科研組織進(jìn)行了深入合作,很高興能參與到各領(lǐng)域的數(shù)據(jù)驅(qū)動(dòng)研究中去。
我們深知,制作一個(gè)工具、建設(shè)一個(gè)平臺(tái)并不是最大的難點(diǎn),如何將其使用起來(lái)、真正發(fā)揮出平臺(tái)的產(chǎn)品能力才是關(guān)鍵。我們希望能用我們積累下來(lái)的經(jīng)驗(yàn)與方法論,幫助大家一起梳理使用場(chǎng)景,進(jìn)行數(shù)據(jù)驅(qū)動(dòng)研究全生命周期的建設(shè)與跟蹤,為大家?guī)?lái)實(shí)質(zhì)性的幫助。
另外,ModelWhale 不僅可用于科研工作,還可用于數(shù)據(jù)、算力、模型一體化工作流管理,數(shù)據(jù)開(kāi)放應(yīng)用及教學(xué)實(shí)訓(xùn)管理等工作。
如果你想更深入地了解 ModelWhale 科研協(xié)同、教學(xué)實(shí)訓(xùn)相關(guān)的各項(xiàng)功能與應(yīng)用案例,歡迎進(jìn)入 ModelWhale 官網(wǎng) 注冊(cè)體驗(yàn)。