9月25日,由中國信息通信研究院云大計算與大數(shù)據(jù)研究所和人工智能關鍵技術和應用評測工業(yè)和信息化部重點實驗室聯(lián)合主辦的「2023大模型工程化論壇」在北京成功舉辦。aiXcoder(硅心科技)作為AIGC for Code領域的頭部廠商受邀參會。基于在代碼大模型、企業(yè)應用落地等方面的技術積累和服務能力,aiXcoder成為信通院首批AI4SE工作組成員單位,共同推動AI賦能軟件工程生態(tài)建設,促進產(chǎn)業(yè)健康有序發(fā)展。
會上,aiXcoder聯(lián)合創(chuàng)始人兼首席科學家謝濤教授受邀出席并發(fā)表「基于大模型的智能化軟件工程:機會與挑戰(zhàn)」主題演講,介紹了智能化軟件工程的發(fā)展歷程,基于大模型的代碼生成的興起、應用和挑戰(zhàn),以及aiXcoder 近來的進展。
aiXcoder聯(lián)合創(chuàng)始人兼首席科學家 謝濤教授 發(fā)表主題演講
aiXcoder成為AI4SE工作組首批成員單位
AI4SE(AI for Software Engineering),是指以大模型等AI技術為驅動的,以提高軟件研發(fā)運營智能化水平為導向的,以提質增效為目標的,新一代智能化軟件工程。
AI4SE工作組首批成員單位名單
AI4SE工作組以“中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟”和“人工智能關鍵技術和應用評測工業(yè)和信息化部重點實驗室”為依托,凝聚人工智能行業(yè)和軟件工程行業(yè)優(yōu)秀企業(yè)和專家,發(fā)揮生成式AI、大模型等人工智能技術在軟件工程領域的潛力,推動AI賦能軟件工程生態(tài)建設。
工作組成立后,aiXcoder將與各方共同探討和研究AI賦能軟件工程的現(xiàn)狀、方法和問題,制定AI4SE相關標準和實踐指南,發(fā)布相關行業(yè)報告、典型案例等成果,梳理和分析產(chǎn)業(yè)落地經(jīng)驗,為技術提供方和應用方搭建溝通交流平臺,助力企業(yè)軟件開發(fā)智能化水平的迅速提升。
中國信通院云大所人工智能部主任曹峰表示,伴隨著以GPT-4為首的新一代高性能大模型的出現(xiàn),大模型多維度能力提升有望成為新一代軟件工程的技術底座;AI和軟件工程的發(fā)展走向融合,軟件工程邁入智能化時代。以大模型為引擎的智能化能力,使軟件開發(fā)工具,向多功能多語言工具方向發(fā)展;局部效能提升能力備受青睞,企業(yè)研發(fā)部門找到了DevOps時代的新增長點。
據(jù)悉,首批成員單位涉及高校院所、金融、運營商、互聯(lián)網(wǎng)大廠、軟件服務業(yè)等多個行業(yè)。
基于大模型的智能化軟件工程:
機會與挑戰(zhàn)
謝濤表示,在經(jīng)歷面向過程、面向對象、面向構件的開發(fā)范式后,“面向智構件(Intelligently Constructed Components 智能化創(chuàng)建)的開發(fā),是軟件開發(fā)提質增效未來方向”。通過「抽象」屏蔽復雜性、保證質量,通過「復用」和「智能化創(chuàng)建」降低成本、提升效率。
aiXcoder基于代碼大模型的智能化軟件開發(fā)系統(tǒng),已擁有代碼自動補全、代碼自動生成、單元測試待自動生成、代碼缺陷檢測與修復、代碼注釋自動生成、代碼解釋以及智能代碼搜索等智能化開發(fā)能力,可覆蓋更多開發(fā)場景。
代碼大模型在落地企業(yè)時也面臨諸多挑戰(zhàn),目前國內(nèi)絕大部分企業(yè)和研發(fā)機構的開發(fā)環(huán)境無法訪問外網(wǎng),對企業(yè)數(shù)據(jù)和代碼的安全要求很高。同時,企業(yè)的計算資源有限,如何在廣泛部署的時候做到成本可控?企業(yè)內(nèi)部的庫和框架等企業(yè)領域知識,如何與大模型相結合,提升代碼質量和開發(fā)效率?這些均是企業(yè)在實際應用大模型時需要考慮的問題。
針對以上挑戰(zhàn),aiXcoder已經(jīng)形成了一套企業(yè)適配的智能化軟件開發(fā)解決方案:
• aiXcoder支持企業(yè)私有化部署+代碼大模型個性化訓練
aiXcoder可以根據(jù)企業(yè)數(shù)據(jù)安全及合規(guī)要求、結合現(xiàn)有算力資源,將訓練完善的代碼大模型私有化部署在企業(yè)本地,確保企業(yè)代碼資產(chǎn)安全,支持公有云、私有云、IDC、自建機房等多種部署環(huán)境,可根據(jù)企業(yè)業(yè)務量級靈活擴展模型規(guī)模。企業(yè)依托常規(guī)算力即可滿足日常編碼需求,大幅度降低了企業(yè)應用代碼大模型的算力硬件門檻,推進智能化軟件開發(fā)技術普適化進程。
在私有化部署基礎上,aiXcoder可根據(jù)企業(yè)研發(fā)需要,基于企業(yè)領域代碼提供代碼大模型個性化訓練服務。在保證主干模型的推理能力不受影響的情況下,通過修改模型結構與預測方式,以較小的微調參數(shù),在企業(yè)私域數(shù)據(jù)上獲得更好效果;使得模型生成的代碼更符合企業(yè)自身的業(yè)務邏輯和代碼規(guī)范,進一步提高代碼生成效率和準確率。
除此之外,aiXcoder還為企業(yè)提供數(shù)據(jù)統(tǒng)計與分析、開發(fā)人員權限管理、企業(yè)定制開發(fā)等應用和服務,幫助企業(yè)在數(shù)字化時代的業(yè)務創(chuàng)新和智能化轉型中取得競爭優(yōu)勢。
在談到代碼大模型的未來發(fā)展時,謝濤表示有以下幾點值得大家關注:
一是代碼大模型的能力提升方面,程序語言和自然語言有很大不同,如何針對代碼特性設計模型結構和訓練方式是值得探索和推進的方向。只將靜態(tài)代碼輸入給大模型會由于輸入信息量不足而導致大模型對程序的理解不夠,如何構造讓模型更容易學習和理解的輸入數(shù)據(jù),比如增加動態(tài)執(zhí)行信息,通過程序語義等價性生成額外的等價程序,會有助于大模型做到程序理解。
二是代碼大模型下游任務的生態(tài)建設,包括測試、調試等更多下游任務及應用細分領域的拓展,輔助解決更多的工程任務;以及更多支撐下游任務的工具鏈,包括需求分解、測試用例生成、調試/修復等工具,以更好地支撐智能化軟件工程任務。
最后,我們也需要關注代碼大模型時代的工程師教育和培訓,讓他們更好的扮演“監(jiān)督”的角色,具備更強的理解程序、判定程序的能力。