信息流場景下的AIGC實踐-魔扣目錄

一、個性化的標題生成

個性化的標題生成，指使用用戶內容以及個性化的信息生成針對不同用戶或者不同應用場景的標題。

主要使用場景有以下三種：

推薦場景：在推薦系統中，不同用戶或群體可能對相同內容有不同的興趣。因此，在推薦場景下，個性化標題生成需要根據用戶的興趣和喜好為他們生成有針對性的標題。這可以提高用戶的閱讀興趣，增加點擊率，從而提升整個推薦系統的效果。
搜索場景：在搜索引擎中，基于用戶的搜索查詢（query）生成與其相關的標題是至關重要的。個性化標題生成應該能夠捕捉到用戶的搜索意圖，并將其結合文章內容生成符合用戶需求的標題。這樣可以幫助用戶快速找到滿足他們需求的信息，提升搜索體驗。
創作者平臺：在創作者平臺上，作者通常會有自己獨特的寫作風格。個性化標題生成需要模仿作者歷史的標題創作風格，為他們生成風格一致的標題。這可以幫助作者保持個人品牌形象的連貫性，同時也能讓讀者更容易識別出作者的作品。

主要面臨的問題難點：

場景表示：用戶興趣、搜索 query、作者風格等等顯式或者隱式的信息如何表示？
交互設計：場景表示獲取之后如何和文章或者標題交互生成個性化的標題？

1、基于關鍵詞的標題生成

信息流場景下的AIGC實踐

推薦和搜索場景存在大量的關鍵詞，比如，推薦里的 tag，興趣點和畫像，搜索里的 query 等。模型使用了 Transformer 結構，包括 Encoder 和 Decoder 部分。文章嘗試了多種方法將關鍵詞信息整合到模型中，以實現更好的效果。最簡單的方法是通過在原有的 Multi-head Attention 層上添加一個新的關鍵詞表示層。另一種方法是先將文章表示與關鍵詞表示進行交互，關鍵詞表示作為 query，文章表示作為 key 和 value，再使用 Multi-head Attention 層生成過濾后的文章表示，最后在 Decoder 端進行處理。

實驗結果表明，在引入關鍵詞過濾的文章表示后，模型性能得到了顯著提升。通過這種方法，生成的標題更貼合用戶興趣，進而提高推薦和搜索的準確性。

信息流場景下的AIGC實踐

2、基于歷史點擊序列的個性化標題生成

信息流場景下的AIGC實踐

為了生成與用戶點擊風格更匹配的標題，我們提出了一種結合 transformer encoder 和 LSTM decoder 的方法，并將用戶歷史點擊序列信息融入其中。以下是該方法的詳細介紹：

輸入數據與用戶表示：首先，對每個用戶的歷史點擊序列進行處理。輸入數據包括用戶瀏覽過的文章標題或者其他相關特征。通過 user encoder 對這些歷史點擊序列進行編碼，得到一個用戶 embedding，代表用戶的點擊風格。

模型架構：整個模型以基于自注意力機制的 transformer encoder 作為 encoder 端，用于提取輸入文章內容的語義和結構信息。而 decoder 端采用長短時記憶網絡（LSTM），它具有較強的時序建模能力，可以有效地生成流暢、連貫的標題。

用戶風格指導：在標題生成過程中，user embedding 可通過如下三種方式指導模型的輸出：

a. 初始化 LSTM hidden state：將 user embedding 作為 LSTM 的初始隱藏狀態（hidden state）。這意味著在生成標題時，模型會從用戶點擊風格的角度開始思考。這樣可以使得生成的標題更符合用戶的興趣和口味。

b. 參與 attention distribution 計算：在解碼過程中，LSTM需要根據輸入文章內容和當前已生成的部分標題來預測下一個詞。為了實現這個目標，引入 attention 機制可以幫助 LSTM 關注到更加重要的輸入信息。通過將 user embedding 納入 attention 分布的計算，可以讓模型在生成標題時更關注與用戶點擊風格相關的內容。

c. 參加門控網絡計算：LSTM 中的門控網絡起到調節信息流動的作用。在標題生成過程中，通過將 user embedding 與文章內容信息相結合，參與門控網絡的計算，可以進一步優化信息篩選和更新過程。這有助于生成更符合用戶風格的標題。

實驗效果如下：

信息流場景下的AIGC實踐

3、基于作者風格的標題生成

信息流場景下的AIGC實踐

為了生成更具吸引力、相關性和流暢性的標題，我們采用了基于 transformer 模型的方法，并將作者的歷史標題信息融入其中。

首先，為了構建訓練數據集，我們對每天發文量特別多的搬運號和發文量特別少的創作者進行過濾。接著，根據作者的歷史標題，構造一個三元組（<文章，歷史標題，想要的標題>）數據集。這些數據將作為輸入來訓練 transformer 模型。

在 transformer 模型中，encoder 主要負責提取輸入文本的語義信息。然而，僅通過計算 n 個歷史標題的 embedding 并對其進行平均，很難得到作者風格的表征。為解決這個問題，我們引入了對比學習的方法。在 batch 內，同一作者的標題兩兩組成正例，不同作者的標題兩兩組成負例。這樣進行訓練，可以使模型的表征更傾向于捕捉作者風格，而非單純的語義信息。

實驗結果表明，引入作者風格的標題生成模型在 Rouge 和 BLEU 評估指標上有所提升。與原始模型相比，新模型生成的標題具有更高的流暢性、相關性和吸引力，同時能夠保持與作者風格的一致性。這說明，通過利用作者歷史標題信息，我們可以成功地生成更符合作者風格的標題，從而提高用戶體驗。

二、自動封面圖合成

信息流場景下的AIGC實踐

在當今信息爆炸的時代，封面圖作為一種視覺傳達方式，具備強烈的吸引力和可讀性。它在各種場景中都發揮著至關重要的作用，如社交媒體、網站、雜志等。然而，要設計出一個既能夠吸引觀眾注意力又不失實用性的封面圖，并非易事。封面圖的簡單與復雜之間需要找到一個平衡點，以確保用戶能夠快速地理解其內容，并產生濃厚興趣。

過于簡單的封面圖可能導致用戶無法獲取足夠的信息，從而忽略了其背后的價值。而過于復雜的封面圖可能讓人覺得難以消化，使用戶在面對海量信息中迅速喪失耐心。因此，在設計封面圖時，應該遵循“簡潔明了”的原則，通過適當的文字和圖片組合來告訴用戶這是一篇什么樣的文章。

為了增加封面圖的吸引力和實用性，建議在封面圖中嵌入標題、標簽（Tag）等關鍵信息。這些關鍵信息能夠讓用戶在第一時間獲得文章的主題，從而激起他們的閱讀興趣。同時，這也有助于提高文章的專業性和可信度，讓用戶相信它是值得花時間去閱讀的。

總之，封面圖在信息傳遞和用戶吸引方面具有重要意義。設計師應該根據目標受眾和傳播渠道來平衡封面圖的簡單與復雜程度，精心設計出既美觀又實用的封面圖。通過在封面圖中嵌入關鍵信息，如標題、標簽等，可以提升用戶體驗，進而擴大文章的傳播范圍和影響力。

這里需要注意幾點：

封面圖不能含有臺標，水印，字幕等。
封面圖關鍵信息不能遮擋人臉，重要目標等。
封面圖上的關鍵信息需要從標題，標簽，分類和關鍵詞等抽取。

首先，通過圖像修復技術去除水印、字幕等干擾元素，得到干凈的封面圖。然后，使用 Seq2Seq 模型提取標題和標簽中的關鍵信息。接下來，進行目標檢測以識別人臉、物品等關鍵部位，確保在生成的封面圖上不被遮擋。最后，采用自動封面圖合成參考 Layout Generation 方法，將文本信息融合到封面圖中。其具體流程框圖如下：

信息流場景下的AIGC實踐

為了實現高質量的封面圖生成，本文介紹了一種采用先進技術的方法，包括圖像修復技術、Seq2Seq 模型、目標檢測以及自動封面圖合成參考 Layout Generation 方法。以下是該方法的詳細步驟：

圖像修復技術：圖像修復技術旨在去除水印、字幕等干擾元素，從而得到干凈的封面圖。這一過程使用 Faster R-CNN，主要有以下幾步：OCR 識別文本框的 proposals。使用 Re.NET50 對輸入圖片進行特征提取，得到 F1。通過特征映射，從F1中獲取文本框的特征 F2。基于 F2 進行分類，識別是否是文案、臺標、字幕。基于 inpAInting 進行內容抹除。通過這種方式，修復后的圖像能夠保留原始場景的視覺效果，同時消除不必要的元素。

使用 Seq2Seq 模型提取關鍵信息：Seq2Seq 模型是一種基于深度學習的端到端序列生成模型。在此應用中，它被用于從標題和標簽中提取關鍵信息。Seq2Seq 模型由兩部分組成：編碼器和解碼器。編碼器將輸入文本轉換為一個固定大小的向量表示，然后解碼器從該表示生成輸出序列。在這個過程中，模型可以學會識別并提取與封面圖相關的關鍵信息。具體做法如下：使用帶 Pointer 的預訓練 T5 模型作為底座模型。標注一批數據，使用視頻的標題、分類和關鍵詞作為輸入，人工改寫的信息作為結果。預測的關鍵信息可能包含多個片段。

目標檢測：目標檢測技術用于識別圖像中的關鍵部位，如人臉、物品等。這些部位可能在圖像中具有顯著的視覺特征，因此它們在生成封面圖時需要特別關注。目標檢測通常借助深度學習技術，如卷積神經網絡（CNN）和區域卷積神經網絡（R-CNN），來實現對關鍵部位的精確識別。這樣，在插入文本信息時，可以確保這些關鍵部位不被遮擋。目前目標檢測模型可以識別人臉、貓、狗、汽車等65個類別。目標框位置使用左上和右下兩個點的坐標表示。

自動封面圖合成參考 Layout Generation 方法：在前述準備工作完成后，接下來就是將文本信息融合到封面圖中。為此，采用一種名為 Layout Generation 的方法來自動生成封面圖布局。該方法首先對輸入圖像進行分析，提取其視覺特征和結構信息。然后，根據這些信息確定最佳的文本插入位置和樣式。最后，將從標題和標簽中提取到的關鍵信息插入到相應位置，生成最終的封面圖。