【ITBEAR】近日,國家知識產權局公布了一項由科大訊飛股份有限公司提交的專利申請,該專利名為“文本分類方法裝置設備和存儲介質”,公開號為CN 118779446 A,申請時間為2024年6月。據專利摘要介紹,此發明提出了一種創新的文本分類方法,該方法涵蓋了文本獲取、token確定、分類結果生成等多個環節。其核心在于,利用樣本token和樣本前綴信息訓練初始分類模型,進而得到能夠反映類別間及樣本與類別間相關關系的分類模型和前綴信息,以此提升文本分類的準確性。
具體來說,該方法首先獲取待分類的文本,隨后確定該文本對應的至少兩個token。接著,結合這些token、至少一個前綴信息以及分類模型,得出文本的分類結果。分類模型和各前綴信息是通過將樣本文本對應的樣本token和樣本前綴信息對應的類別token輸入初始分類模型,并利用初始分類模型基于類別token之間的相關關系,以及樣本token和類別token之間的相關關系訓練得到的。各前綴信息在此過程中起到了建模各類別語義的作用。