【ITBEAR科技資訊】7月25日消息,近日,北京知未智能科技有限公司在上海舉行發布會,正式推出知未智能 KDF 大模型,以及一系列基于該模型研發的金融行業工具,為相關行業的產業發展助力。
知未智能 KDF 大模型是一款專注于金融和商業領域的中文模型。在其訓練數據中,以中文為主,融合了大量的金融數據,從而大幅提升了模型在商業和金融問題處理方面的能力。
值得一提的是,為了保證模型的通用能力,訓練數據還融合了部分英文和代碼數據,以確保模型具備處理多種任務的能力。在訓練過程中,知未智能 KDF 大模型采用了基于 PyTorch 優化的 GELU 非線性激活函數,這種優秀的激活函數有助于更精確地捕獲復雜數據特征,保障了整個開發、訓練和部署過程的高效運行。
為了在保證效果的同時提高可擴展性,開發團隊對模型的網絡結構進行了深度優化。與 LLaMA 模型相比,知未智能 KDF 大模型在每一層使用更少的參數,有效降低了計算需求和內存占用。與此同時,網絡深度也得到了加強,從而讓模型具備了更強大的表示能力,能夠學習到更為復雜的數據特征。
據ITBEAR科技資訊了解,在訓練過程中,開發團隊還重新調整了注意力層的 Bias,并引入了 Flash Attention 技術,以節省顯存并提高模型訓練和推理速度。得益于這項技術的應用,知未智能 KDF 大模型在有限的硬件資源下也能實現更高效的運行。
基準測試結果顯示,知未智能 KDF 大模型在七個自然語言處理任務中展現出穩定的性能。在一些任務中,如 iFlytek 和 CMNLI,其表現相對出色。在 ExamQA 和 OCNLI 測試中,各模型的表現大致相同,凸顯了該模型處理不同類型文本和領域知識方面的能力。
CEO 段清華表示,現有通用大模型在具體行業應用性和中文能力方面存在局限性,因此知未智能選擇從零開始訓練 KDF 大模型,以提升其中文能力和行業適用性。他強調,在打造這款“功能強大、性能優越”的中文模型過程中,開發團隊深入理解技術細節,并將持續推動公司產品的開發創新。
目前,知未智能 KDF 大模型已在Hugging Face上開源,并將不限制商業使用,為行業發展和應用提供更多可能性。