頂級ML后端工程師“進化”指南-魔扣目錄

作者丨Alexei Bochkarev

譯者 | 晶顏

審校 | 重樓

出品 | 51CTO技術(shù)棧（微信號：blog51cto）

在當(dāng)今瞬息萬變的技術(shù)世界中，機器學(xué)習(xí)（ML）后端工程師驚覺自身正處于進步的最前沿，被迫不斷適應(yīng)和加速創(chuàng)新。在競爭激烈的技術(shù)市場中，產(chǎn)品質(zhì)量是成功的核心，尋找產(chǎn)品改進的新方法是ML后端工程師的責(zé)任。在本文中，我們將介紹幫助您成為優(yōu)秀ML后端工程師的五種策略。

1、策略1：持續(xù)學(xué)習(xí)ML基礎(chǔ)知識

在ML后端工程師能夠創(chuàng)新復(fù)雜的應(yīng)用程序之前，他們必須首先了解機器學(xué)習(xí)的基礎(chǔ)知識。理論基礎(chǔ)、經(jīng)典算法和已確立的最佳實踐不僅僅是學(xué)術(shù)練習(xí)；它們還是后續(xù)每一層知識和專業(yè)技能的基礎(chǔ)。

案例研究：改進電子商務(wù)聚合器的查詢分類算法

確定用戶查詢或搜索短語背后意圖的過程稱為查詢分類（Query Classification）。這對電子商務(wù)聚合器來說至關(guān)重要，這些聚合器會將來自不同零售商的產(chǎn)品整合到一個平臺上。例如，客戶在銷售書籍、電子產(chǎn)品和服裝的電子商務(wù)聚合器中輸入查詢“Harry”，該聚合器可以指向“Harry Potter”（書籍或電影）和“Harry Styles商品”（服裝）等結(jié)果。在這種情況下，精確的查詢分類對于確保用戶找到他們所需的產(chǎn)品至關(guān)重要，這可以帶來更高的轉(zhuǎn)化率和用戶滿意度。

雖然基于規(guī)則的分類系統(tǒng)可能難以處理這樣的查詢，但經(jīng)過大量數(shù)據(jù)訓(xùn)練的ML模型可以對用戶正在尋找的內(nèi)容做出有根據(jù)的猜測。如果您不了解基本的算法和方法，如基于規(guī)則的分類、決策樹、樸素貝葉斯分類器（Nave Bayes Classifier）、神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)等，那么您成功的機會幾乎是渺茫的。

掌握ML基礎(chǔ)知識的關(guān)鍵要點和技巧

通過定期回顧和加強機器學(xué)習(xí)基礎(chǔ)知識，您可以鞏固自己的知識，更好地了解趨勢，并在競爭中保持領(lǐng)先地位。以下是一些建議：

把時間和資源投入到基礎(chǔ)課程、講習(xí)班和研討會上。雖然“重返校園”似乎有些奇怪，但這些途徑往往為舊概念提供了新的視角。
參與實踐項目和挑戰(zhàn)，使您能夠應(yīng)用基本的機器學(xué)習(xí)概念。這不僅加強了理解，而且揭示了理論可能遺漏的細(xì)枝末節(jié)。

2、策略2：內(nèi)部測試（Dogfooding）自己的產(chǎn)品

Dogfooding表面看是“吃自己的狗糧”，現(xiàn)在也被譯為“內(nèi)部測試”，指的是作為最終用戶使用您自己的產(chǎn)品，以深入了解其優(yōu)點、缺點和需要改進的地方。這個概念的基本思想簡單而深刻：通過親自體驗自己的產(chǎn)品，您將能獲得寶貴的見解，這些見解可以幫助您識別問題、痛點和創(chuàng)新機會，否則這些問題可能會被忽視。

案例研究：幫助一家土耳其搜索引擎提高搜索質(zhì)量

例如，一家土耳其公司在決定從頭開始構(gòu)建一個新的搜索引擎時，盡管擁有一支稱職的QA團隊，并利用了BERT和Neural.NETworks等先進算法，但他們?nèi)匀缓芸赡軙媾R搜索結(jié)果相關(guān)性和準(zhǔn)確性方面的偏差。“內(nèi)部測試策略”（Dogfooding Strategy）——所有公司員工開始專門使用自己的搜索引擎來滿足在線搜索需求——可能會有所幫助。它將有助于定義和解決查詢分類、詞嵌入、UI實現(xiàn)和廣告放置等方面的缺陷。“內(nèi)部測試”方法將為技術(shù)團隊提供必要的數(shù)據(jù)，以實現(xiàn)更適合土耳其語言和用戶行為細(xì)微差別的算法。

Dogfooding的最佳實踐：

定期使用：將您的產(chǎn)品集成到您的日常工作中，確保您在各種場景和上下文中使用它。
多樣化的團隊參與：鼓勵所有部門的成員使用產(chǎn)品，而不僅僅是工程師和產(chǎn)品經(jīng)理。不同的視角可以突出不同的問題。
反饋渠道：創(chuàng)建簡單的內(nèi)部反饋渠道。當(dāng)一個想法或問題在腦海中迸發(fā)時，它是最強大的。
快速迭代：當(dāng)獲得的見解觸發(fā)及時響應(yīng)時，Dogfooding效果最好。根據(jù)反饋確定優(yōu)先級并采取行動以不斷改進產(chǎn)品。

3、策略3：產(chǎn)品差距的定量分析

在產(chǎn)品開發(fā)過程中，如果沒有定量分析，有時很難確定需要改進的特定領(lǐng)域。它使企業(yè)能夠準(zhǔn)確地識別差距，并通過可測量的數(shù)字?jǐn)?shù)據(jù)剖析產(chǎn)品性能，將用戶行為、反饋和產(chǎn)品指標(biāo)轉(zhuǎn)化為有形的數(shù)字，從而執(zhí)行有針對性的改進。

案例研究：提高地圖搜索服務(wù)的排名質(zhì)量

以一個全球流行的地圖搜索服務(wù)為例，它不斷收到關(guān)于搜索結(jié)果排名質(zhì)量的投訴，用戶聲稱特定的地標(biāo)應(yīng)該得到更多的可見性。該公司可以通過定量分析來檢查用戶搜索模式、點擊率、用戶粘性持續(xù)時間和重新查詢頻率，從而獲得有價值的數(shù)據(jù)。獲悉這些數(shù)據(jù)可以幫助定義為什么著名的地標(biāo)經(jīng)常被忽視，并改進排名算法，以改進關(guān)鍵的“以用戶為中心”的指標(biāo)。

快速分析產(chǎn)品質(zhì)量并得出可操作性見解的技術(shù)：

A/B測試：將您的用戶群分成兩組，測試不同版本的產(chǎn)品。比較性能指標(biāo)，看看哪個版本更受用戶歡迎。
熱圖：利用生成用戶交互熱圖的工具。這張圖描述了用戶在哪些地方花費了大部分時間，哪些功能被忽略了。
用戶流分析：發(fā)現(xiàn)用戶如何瀏覽您的產(chǎn)品。確定瓶頸或下降點，以幫助優(yōu)先考慮需要改進的領(lǐng)域。
帶有定量問題的反饋調(diào)查：設(shè)計帶有數(shù)字評級的調(diào)查，而不是開放式問題。這為分析提供了更精確的基線。
實時監(jiān)控工具：部署提供實時洞察用戶行為的工具，使團隊能夠快速識別和解決任何意外問題或差距。

4、策略4：加快開發(fā)周期

ML模型開發(fā)周期是一個迭代過程，包括構(gòu)思、訓(xùn)練、測試和部署。這個循環(huán)的每一個循環(huán)都旨在建立一個更精細(xì)、更準(zhǔn)確、更有效的模型。在日益激烈的市場競爭中，縮短周期是絕對必要的，快速迭代也是必要的。

案例研究：減少自動駕駛汽車項目的模型推理時間

在自動駕駛汽車行業(yè)中，駕駛模型的推理時間至關(guān)重要，因為較長的推理時間可能導(dǎo)致道路上的反應(yīng)延遲。通過整合一些真正有效的策略來簡化開發(fā)周期，可以讓自動駕駛汽車更快地實時反應(yīng)，同時也允許團隊更頻繁地迭代和改進模型，從而進一步提高性能。

加快開發(fā)周期的策略包括：

使用更小的模型/更小的池進行實驗：在擴大規(guī)模以進行更快的實驗和假設(shè)驗證之前，先從更小、更易于管理的模型或數(shù)據(jù)子集開始。
構(gòu)建自動化培訓(xùn)和評估管道：自動化耗時的任務(wù)（如培訓(xùn)和評估管道）以釋放工程師的時間進行改進和創(chuàng)新。
在線測試之前利用Dogfooding和離線測試：在啟動全面的在線測試之前，先在內(nèi)部使用您的產(chǎn)品并運行離線測試來檢測主要問題，以盡早解決潛在問題，從長遠(yuǎn)來看，這樣做更加節(jié)省時間和資源。

5、策略5：構(gòu)建示范性原型

示范性原型（Demonstrative Prototype）是一個非常有用的工具，可以增加創(chuàng)造成功最終產(chǎn)品的機會。它將抽象概念與具體的產(chǎn)品實現(xiàn)聯(lián)系起來。

示范性原型在產(chǎn)品開發(fā)中所扮演的角色包括：

可視化：原型將想法變?yōu)楝F(xiàn)實，讓所有利益相關(guān)者（無論他們是開發(fā)者、投資者還是潛在客戶）都能與之互動并更好地理解概念。
收集反饋：用戶可以測試原型，并為進一步的設(shè)計改進提供反饋，以確保最終產(chǎn)品與用戶的需求和期望緊密匹配。
降低成本：與在全面生產(chǎn)后進行檢測相比，在原型階段識別設(shè)計缺陷或效率低下可以節(jié)省大量資源。
獲得利益相關(guān)者的支持：一個可行的原型可以向潛在的投資者或高層管理人員證明這個想法的可行性。
改進用戶體驗（UX）：與原型交互可以提供對用戶旅程的見解，允許設(shè)計師改進用戶體驗，以獲得更大的直觀性和用戶滿意度。
降低風(fēng)險：通過在真實場景中測試原型，可以及早識別和解決潛在的風(fēng)險或缺點。

6、結(jié)語

在本文中，我們研究了如何在這個蓬勃發(fā)展的行業(yè)中成為優(yōu)秀機器學(xué)習(xí)（ML）后端工程師。他們專注于持續(xù)學(xué)習(xí)機器學(xué)習(xí)基礎(chǔ)知識，使用Dogfooding方法和定量分析，加速開發(fā)周期的技術(shù)，以及構(gòu)建示范性原型。

如果您選擇ML后端工程師的職業(yè)路徑，那么將這些策略應(yīng)用于您的日常工作可以幫助您提高績效，將自身水平達(dá)到新的高度，并推動整個技術(shù)領(lǐng)域向前發(fā)展！

參考鏈接：https://hackernoon.com/five-strategies-to-become-top-ml-backend-engineer