隨著ChatGPT和GPT4.0的相繼問世,拉開了大語言模型和生成式AI產業蓬勃發展的序幕。國內外各大企業和科研機構對ChatGPT的持續跟進,加速推進大語言模型的研發和產品化。
目前市面上出現了諸多類ChatGPT大模型,功能層面也從通用領域擴展到垂直應用領域。例如,百度推出的“文心一言”,騰訊的“混元”,阿里的“通義千言”,360、華為、商湯、京東、科大訊飛、字節跳動等巨頭企業也動作頻頻,形成了全新的產業格局。
ChatGPT大模型背后是人工智能算法、算力和數據的再一次融合升級。簡單來說,應用要高效運行起來,就需要強大算力的支持,而要讓應用背后的算法更為聰明,則離不開高質量數據資源。
而擺在“中國ChatGPT”面前的問題,首當其中就是中文語料庫的不足。當前GPT大模型主流數據集和評估基準多以英文為主,缺少中文特點、文化,難以滿足關鍵行業應用選型和優化的實際需求,這就會造成所訓練的模型對于中英文問題的回答質量并不一致。
以最流行的Common Crawl數據集為例,中文數據占比僅有4.8%。此外,一些對模型能力提升巨大的語料里面,中文占比甚至會更低,例如在源代碼的備注里面,英文語料占比高達90%,在專業科研論文審稿意見里,英文占比95%。
因此,“中國版ChatGPT”如果要把中文回答做好,就需要大量高質量的中文語料。基于此,標貝科技啟動了大模型技術的非平衡專業語料的構建工作,將于近期陸續推出一系列高質量的數據集,持續解決多領域的GPT大模型非平衡語料問題。
標貝非平衡專業語料庫
標貝科技的非平衡專業語料庫是基于多年累積的專業數據增強技術和經驗,針對優質中文數據資源稀缺的領域、話題和人機交互方式等方面,補全當前開源基礎數據的偏差或失衡,構造的一系列增強語料庫,來提高中文GPT類模型的泛化能力和魯棒性。
以標貝科技第一批專業語料——編程輔助數據集為例。現有的公開數據中可以獲得的高質量的帶有中文注釋的代碼數據極少,預訓練的基礎語言模型可能無法在稀缺的中文描述、源代碼實現的關聯中學習到高級別的代碼邏輯。所以目前公開的大多數中文類GPT模型都無法滿足高性能的編程請求。
針對這個場景,標貝科技發布了高質量的中文注釋代碼數據集。該數據集是一個大體量的開放代碼學習的數據集,從真實的Github開源項目中收集而來,超過百億字符,包括高質量代碼的中文注釋內容以及對應的原始編碼,可以用于繼續微調(Further pretraining)大型語言模型,以輔助計算機編程和相關教學任務。
標貝科技編程輔助數據集樣例
C源代碼:左側為原始代碼數據,右側為增強后的帶有中文注釋的代碼數據
python源代碼:左側為原始代碼數據,右側為增強后的帶有中文注釋的代碼數據
標貝科技編程輔助數據集特點
(1)數據集包含多種類型的代碼和文本,包括真實的開源項目、常見的框架、語言等。
(2)數據集由開源社區作者或知名公司提供,具有廣泛的功能實現和編程范式。
(3)數據集包含各種復雜度和難度等級的代碼,以支持不同層次的用戶進行訓練。
標貝科技致力于為大語言模型提供終身學習語料
ChatGPT的大規模語言模型浪潮興起伊始,對數據也提出了全新的要求。如何為大語言模型提供最新的、多樣化高質量語料,成為行業面臨的共同挑戰。
作為行業領先的AI數據解決方案提供商,標貝科技堅持數據服務的創新,積極探索如何滿足大規模預訓練語言模型的需求,增加數據使用的價值。在對話大模型優化數據設計方案上,標貝科技不僅提供最基本的數據采集和清洗技術服務,還擁有一系列高效處理數據、優化模型的技術能力,持續推動以GPT為代表的大模型技術及應用的創新引領。
接下來,標貝科技還將逐步推出專業審稿意見數據、中文推理鏈數據、中文視頻的VQA數據等多個專業領域的數據語料。同時,我們還可以根據垂直領域需求,提供相應的語料定制服務。歡迎對以上數據集感興趣的行業伙伴聯系我們。