日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

來源:雷鋒網

機器學習是人工智能的重要分支,機器學習從誕生之日起發展到今天已經走過了 20 多年的時間。如今,人工智能和機器學習已經成為新一代信息技術的典型代表,一個好的算法模型的產生,離不開機器學習。

作為機器學習領域的倡導者和領先企業,AWS 曾于 2017 年 11 月推出 Amazon SageMaker 機器學習平臺服務。據了解,Amazon SageMaker 是一項完全托管的服務,可以幫助機器學習開發者和數據科學家快速構建、訓練和部署模型。Amazon SageMaker 完全消除了機器學習過程中各個步驟的繁重工作,讓開發高質量模型變得更加輕松。

它推出短短三年時間,已經成為機器學習領域最受歡迎的服務之一,使用客戶達上萬家,包括 3M、ADP、阿斯利康、Avis、拜耳、Bundesliga、Capital One、Cerner、Chick-fil-A、Convoy、達美樂比薩、富達投資、GE 醫療、Georgia-Pacific、赫斯特、iFood、iHeartMedia、摩根大通、Intuit、聯想、Lyft、國家橄欖球聯盟、Nerdwallet、T-Mobile、湯森路透、Vanguard 等等。盡管如此,AWS 仍會每年新增一些新的功能和工具,不斷延展服務的寬度和深度。

在 Gartner 發布的 2020 年云上 AI 開發者服務魔力象限中,AWS 被評為領導者, Amazon SageMaker 是其中不可或缺的一部分。

在 12 月 9 日的 re:Invent 大會上,AWS 人工智能副總裁 Swami Sivasubramanian 發表了機器學習主題演講,并宣布 AWS 為其機器學習服務 Amazon SageMaker 推出九項新的功能。

這九項新功能可以使開發人員更容易自動化、規模化的構建端到端的機器學習工作流。

以下是 Swami 的演講內容和新功能介紹,雷鋒網進行了不改變原意的整理:

今天的發布匯集了多項強大的新功能,包括更易用的數據預處理、專用的特征存儲、自動化工作流、更多的訓練數據可見性以減少數據傾斜和更好的預測解釋、大型模型的分布式訓練速度可最多提升兩倍,以及監控邊緣設備上的模型。

機器學習日益成為主流,但它仍在快速發展。隨著機器學習受到廣泛關注,機器學習模型的創建似乎應該很簡單,但事實并非如此。為了創建一個模型,開發人員需要先準備數據,而數據準備是重度依賴人工手動工作的。然后,他們將數據可視化以進行數據探索,選擇合適的算法和框架,訓練模型,調整和優化模型訓練參數,部署模型,并監控其性能。這個過程需要不斷重復,才能確保模型在一段時間內的表現符合預期。

在過去,只有最熟練的開發人員才能開展機器學習相關的工作。然而,Amazon SageMaker 的出現,改變了這一現狀。

AWS 在過去一年已經交付了 50 多項 Amazon SageMaker 的新功能。在此基礎上,今天的發布使得開發人員和數據科學家更容易準備、構建、訓練、部署和管理機器學習模型。

Amazon SageMaker Data Wrangler 為機器學習數據準備提供了快速、簡便的工具

機器學習的數據準備是一個復雜的過程。這種復雜在于:用于訓練機器學習模型的數據字段(也稱為特征)通常來自不同的來源,并且格式多樣。這意味著開發人員必須花費相當多的時間提取和規范這些數據??蛻粢部赡芟M麑⑻卣鹘M合成復合特征,以向機器學習模型提供更多有用的輸入。

例如,客戶可能希望創建一個復合特征來描述一組經常消費的客戶,結合以前購買的項目、消費金額和購買頻率等特征,為他們提供會員獎勵。將數據轉化為特征的工作稱為特征工程,在構建機器學習模型流程中要消耗開發人員大量的時間。Amazon SageMaker Data Wrangler 從根本上簡化了數據準備和特征工程的工作。通過 Amazon SageMaker Data Wrangler,客戶可以從各種數據存儲中選擇他們想要的數據,并一鍵導入。

Amazon SageMaker Data Wrangler 包含超過 300 個內置的數據轉換器,可以幫助客戶在無需編寫任何代碼的情況下,對特征進行規范化、轉換和組合。客戶可以通過在 Amazon SageMaker Studio(首個用于機器學習的端到端集成開發環境)中查看這些轉換,快速預覽和檢查這些轉換是否符合預期。特征設計出來之后,Amazon SageMaker Data Wrangler 會把它們保存在 Amazon SageMaker Feature Store 中,以供重復使用。

Amazon SageMaker Feature Store 存儲和管理機器學習特征

Amazon SageMaker Feature Store 提供了一個新的存儲庫,可以輕松地存儲、更新、檢索和共享用于訓練和推理的機器學習特征。當前,客戶可以將他們的特征保存到 Amazon Simple Storage Service(Amazon S3)。如果只是簡簡單單把一組特征用于一個模型,這種做法是可行的。但實際情況是,大多數特征并不是只用于一個模型,而是被多個開發人員和數據科學家重復用于多個模型中。當創建了新的特征時,開發人員也希望能夠重復使用這些特征。這樣就導致需要管理多個 Amazon S3 對象,并將變得越來越難以管理。

開發人員和數據科學家試圖使用電子表格、筆記和電子郵件來解決這個問題。他們甚至要嘗試開發一個應用程序來跟蹤管理特征,但這個工作量很大,而且容易出錯。此外,開發人員和數據科學家不僅需要使用這些相同的特征和所有可用的數據來訓練多個模型,這個過程可能耗時長達幾個小時,而且還需要在推理時使用這些特征,這需要在幾毫秒內返回預測結果,并且往往只使用相關特征的一個子集。例如,開發人員可能希望創建一個預測播放列表中下一首最佳歌曲的模型。要做到這一點,開發人員要在數千首歌曲上訓練模型,然后在推理過程中向模型提供最后播放的三首歌曲,以預測下一首歌曲。訓練和推理是非常不同的使用場景。

在訓練過程中,模型可以離線、批量地訪問特征,對于推理,模型需要實時的訪問特征子集。由于機器學習模型使用一樣的特征源,并且需要保持數據的一致性,然而這兩種不同的訪問模式,使得開發者不容易保持特征的一致性和更新的及時性。Amazon SageMaker Feature Store 解決了這一問題,它提供了一個專門構建的特征庫,供開發人員訪問和共享特征,使開發人員和數據科學家團隊容易協調特征的命名、組織、查找和共享。Amazon SageMaker Feature Store 集成在 Amazon SageMaker Studio 中,它可以為推理提供單毫秒級的低延遲訪問。Amazon SageMaker Feature Store 使得開發人員可以簡單方便地組織和更新用于訓練的大批量特征,以及用于推理的小批量特征子集。這樣,就為機器學習模型提供了一致的特征視圖,降低生成模型的難度,并提供高精度的預測。

Amazon SageMaker Pipelines 實現工作流管理和自動化

Amazon SageMaker Pipelines 是第一個專門為機器學習構建的、易于使用的 CI/CD(持續集成和持續交付)服務。客戶在特征工程中可以發現,機器學習包含的多個步驟都可以受益于編排和自動化。這與傳統的編程并無二致。在傳統編程中,客戶有 CI/CD 等工具幫助他們更快地開發和部署應用程序。然而,目前的機器學習中很少使用 CI/CD 工具,因為要么沒有這樣的工具,要么難以設置、配置和管理。

借助 Amazon SageMaker Pipelines,開發人員可以定義端到端機器學習工作流的每一步。這些工作流包括數據加載步驟、用 Amazon SageMaker Data Wrangler 做轉換、在 Amazon SageMaker Feature Store 保存特征、訓練配置及算法設置、調試步驟,以及優化步驟。通過 Amazon SageMaker Pipelines,開發人員可以輕松地從 Amazon SageMaker Studio 使用相同的設置重復運行端到端工作流,,每次都能獲得完全相同的模型,或者,他們可以定期使用新數據重新運行工作流,更新模型。每次運行工作流時,Amazon SageMaker Pipelines 都會記錄 Amazon SageMaker Experiments(Amazon SageMaker 的一項功能,用于組織和跟蹤機器學習實驗和模型版本)中的每個步驟。這有助于開發人員可視化并進行機器學習模型的迭代、訓練參數和結果比較。

借助 Amazon SageMaker Pipelines,工作流可以在團隊之間共享和重復使用,既可以重新創建模型,也可以作為一個通過新的特征、算法或優化改進模型的起點。

使用 Amazon SageMaker Clarify 進行偏差檢測和模型解釋

Amazon SageMaker Clarify 在整個機器學習工作流中提供偏差檢測,使開發人員能夠在其模型中實現更大的公平性和更高的透明度。一旦開發人員為訓練和推理準備了數據,就需要盡量確保數據沒有統計偏差,并且模型預測是透明的,以便可以解釋模型特征是如何預測的。

如今,開發人員有時會嘗試使用開源工具檢測數據中的統計偏差,但這些工具需要大量的人工編程的工作,而且經常容易出錯。借助 Amazon SageMaker Clarify,開發人員現在可以更輕松地檢測整個機器學習工作流中的統計偏差,并為其機器學習模型所做的預測提供解釋。Amazon SageMaker Clarify 已集成到 Amazon SageMaker Data Wrangler,它運行了一系列基于特征數據的算法,用以識別數據準備過程中的偏差,并且清晰描述可能的偏差來源及其嚴重程度。這樣,開發人員就可以采取措施來減小偏差。

Amazon SageMaker Clarify 還與 Amazon SageMaker Experiments 集成,使開發人員更容易地檢查訓練好的模型是否存在統計偏差。它還詳細說明了輸入到模型中的每個特征是如何影響預測的。最后,Amazon SageMaker Clarify 與 Amazon SageMaker Model Monitor(Amazon SageMaker 的一項功能,可持續監控正式使用中的機器學習模型的質量)集成,一旦模型特征的重要性發生偏移,導致模型預測質量發生改變,它就會提醒開發人員。

用 Deep Profiling forAmazon SageMaker Debugger 做模型訓練剖析

Deep Profiling for Amazon SageMaker Debugger 能夠自動監控系統資源利用率,為訓練瓶頸提供告警,以方便開發者更快地訓練模型。當前,開發人員沒有一個標準的監控系統利用率的方法(例如 GPU、CPU、網絡吞吐量和內存 I/O)以識別和排除訓練作業中的瓶頸。因此,開發人員無法以最快的速度、最高的成本效益來訓練模型。

Amazon SageMaker Debugger 通過最新的 Deep Profiling 功能解決了這一問題,該功能為開發人員提供了在 Amazon SageMaker Studio 中可視化剖析和監控系統資源利用率的能力。這讓開發人員更容易尋根問底,減少訓練機器學習模型的時間和成本。借助這些新功能,Amazon SageMaker Debugger 擴大了監控系統資源利用率的范圍,在 Amazon SageMaker Studio 中或通過 AWS CloudWatch 發送訓練期間的問題告警,將使用情況關聯到訓練作業中的不同階段,或者訓練期間的特定時間點(如訓練作業開始后第 28 分鐘)。

Amazon SageMaker Debugger 還可以根據告警觸發行動(例如,當檢測到 GPU 使用情況不正常時,即停止訓練作業)。Amazon SageMaker Debugger Deep Profiling 可以用于 PyTorch、Apache MXNet 和 TensorFlow 的訓練任務,自動收集必要的系統和訓練指標,無需在訓練腳本中更改任何代碼。這允許開發人員在 Amazon SageMaker Studio 中可視化其訓練期間的系統資源使用情況。

用 Distributed Training on Amazon SageMaker 縮短訓練時間

Distributed Training on Amazon SageMaker 使得訓練大型復雜深度學習模型的速度比當前的方法快兩倍。當前,高級的機器學習使用場景,例如智能助手的自然語言處理、自動駕駛車輛的對象檢測和分類,以及大規模內容審核的圖像分類,需要越來越大的數據集和更多的 GPU ( 圖形處理單元 ) 內存進行訓練。然而,其中一些模型太大,無法容納在單個 GPU 提供的內存中。客戶可以嘗試在多個 GPU 間拆分模型,但尋找拆分模型的最佳方式和調整訓練代碼往往需要數周的繁瑣實驗。

為了克服這些挑戰,Distributed Training on Amazon SageMaker 提供了兩種分布式訓練功能,使開發人員能夠在不增加成本的情況下,將大型模型的訓練速度提高兩倍。Distributed Training 與 Amazon SageMake 的數據并行引擎一起,通過在多個 GPU 間自動分割數據,將訓練作業從一個 GPU 擴展到數百個或數千個 GPU,將訓練時間縮短多達 40%。

之所以能夠縮短訓練時間,是因為 Amazon SageMaker 的數據并行引擎使用了專門的算法來管理 GPU,充分利用 AWS 基礎設施,實現最佳同步,具有近乎線性的擴展效率。Distributed Training 與 Amazon SageMaker 模型并行引擎一起,可以自動剖析和識別分割模型的最佳方式,在多個 GPU 上高效分割具有數十億參數的大型復雜模型。它們通過使用圖分區算法來完成這樣工作,優化了平衡計算,最大限度地減少 GPU 之間的通信,從而最少化代碼重構,減少 GPU 內存限制造成的錯誤。

使用 Amazon SageMaker Edge Manager 管理邊緣設備模型

Amazon SageMaker Edge Manager 可以幫助開發人員優化、保護、監控和維護部署在邊緣設備集群上的機器學習模型。目前,客戶使用 Amazon SageMaker Neo 為邊緣設備優化模型,這使得模型的運行速度可以提高到多達兩倍,且內存占用率不到十分之一,準確性也沒有損失。然而,在邊緣設備上部署后,客戶仍然需要管理和監控模型,以確保它們仍然以高精度運行。

Amazon SageMaker Edge Manager 可以優化模型,使其在目標設備上運行得更快,并為邊緣設備管理模型,以便客戶可以在邊緣設備集群中準備、運行、監控和更新機器學習模型??蛻艨梢允褂?Amazon SageMaker Edge Manager 對其模型進行加密簽名,從邊緣設備上傳預測數據到 Amazon SageMaker 以進行監控和分析,并在 Amazon SageMaker 控制臺中查看報表,來跟蹤和可視化模型的運行狀況。Amazon SageMaker Edge Manager 擴展了以前只能在云端使用的功能,它可以從邊緣設備中采樣數據,將其發送到 Amazon SageMaker Model Monitor 進行分析,當模型的準確性隨著時間的推移而下降時,重新訓練模型以便開發人員不斷提高模型的質量。

通過 Amazon SageMaker JumpStart 開啟機器學習之旅

Amazon SageMaker JumpStart 為開發人員提供了一個易于使用、可搜索的界面,用于查找同類最佳解決方案、算法和 notebook 示例。當前,缺乏機器學習經驗的客戶很難開始機器學習部署,而高級的開發人員發現很難將機器學習應用到所有應用場景。通過 Amazon SageMaker JumpStart,客戶現在可以快速找到針對其機器學習場景的相關信息。新接觸機器學習的開發人員可以從多個完整的端到端機器學習解決方案中進行選擇(例如欺詐檢測、客戶流失預測或時序預測),并且可以直接部署到 Amazon SageMaker Studio 環境中。有經驗的用戶則可以從一百多個機器學習模型中選擇,快速開始模型構建和訓練。

Swami 表示:" 成千上萬的開發人員和數據科學家已經使用我們業界領先的機器學習服務 Amazon SageMaker,消除了他們在構建、訓練和部署定制化機器學習模型時的障礙。擁有 Amazon SageMaker 這樣一個廣泛采用的服務,最大的好處就是受益于很多客戶的建議,為我們的下一套產品的交付提供了動力。"

今天,我們宣布為 Amazon SageMaker 提供一套工具,使開發人員更容易構建端到端機器學習流程,準備、構建、訓練、解釋、檢查、監控、調試和運行定制化機器學習模型,提供更高的可視性、可解釋性和大規模的自動化。

面對如此眾多新發布,AWS 的 Amazon SageMaker 使用客戶是如何評價的?

3M

3M 公司在全球 70 個國家運營,并在 200 個國家開展銷售業務,公司創造的技術和產品,正在推動著每一家公司的發展,改善每一個家庭的日常生活。

"3M 的成功源于我們具有企業家精神的研究人員和我們對科學的持續關注。我們推進產品科學化的一種方式是在 AWS 上使用機器學習技術。"3M 企業系統研究實驗室技術總監 David Frazee 說," 利用機器學習,3M 正在改進砂紙這樣久經考驗的產品,并推動其它一些領域包括醫療保健在內的創新。隨著我們計劃將機器學習擴展到 3M 的更多領域,我們的數據和模型快速增長,每年翻倍。

我們對 Amazon SageMaker 的新功能充滿熱情,因為它們將幫助我們擴大規模。Amazon SageMaker Data Wrangler 使得為模型訓練來準備數據變得更容易,Amazon SageMaker Feature Store 使得我們不需要重復創建相同的模型特征。最后,Amazon SageMaker Pipelines 可以幫助我們將數據準備、模型構建和模型部署,變成自動化的端到端工作流,加速模型上生產的時間。我們的研究人員期待著在 3M 公司利用這些工具,提高科學創新速度。"

德勤

德勤正在幫助全球各地的組織轉型。德勤不斷演進其工作方式和看待市場挑戰的方式,不斷為客戶和社區提供可衡量、可持續的成果。

德勤 AI 生態系統和平臺負責人 Frank Farrall 表示:"Amazon SageMaker Data Wrangler 提供了豐富的數據轉換工具,滿足了我們數據準備的需求,縮短了新產品上市的時間。反過來,我們的客戶也受益于我們規模化部署的速度,使我們能夠在幾天內、而不是幾個月內,提供可衡量、可持續的結果,滿足客戶需求。

聯想

是全球最大的個人電腦制造商。聯想設計和制造的設備包括記事本電腦、平板電腦、智能手機和各種智能物聯網設備。

" 在聯想,我們不僅僅是一家硬件供應商,還致力于成為客戶值得信賴的合作伙伴,改變客戶使用設備的體驗,實現客戶的業務目標。聯想 Device Intelligence 就是我們使用 Amazon SageMaker 來增強機器學習能力的一個很好的例證。" 聯想個人電腦和智能設備部門云與軟件副總裁 Igor Bergman 說。" 通過聯想 Device Intelligence,IT 管理員可以主動診斷個人電腦問題,提前預測潛在的系統故障,減少宕機時間,提高員工的工作效率。結合 Amazon SageMaker Neo,我們已經實質性的提高了設備預測模型的效果,從而促使我們在未來幾周內進一步采用 Amazon SageMaker Edge Manager。Amazon SageMaker Edge Manager 將有助于消除模型部署后進行優化、監控和持續改進所需的人工工作。

基于此,預計我們的模型將比其它同類機器學習平臺運行得更快,消耗的內存更少。隨著我們將人工智能擴展到聯想整個服務組合中的新應用,我們將繼續采用高性能的機器學習管道,在云端和數百萬邊緣設備上靈活擴展。這正是我們選擇 Amazon SageMaker 平臺的原因。憑借其豐富的從邊緣到云端和 CI/CD 工作流的能力,我們可以有效地將我們的機器學習模型帶入任何設備工作流,從而大大提高生產力。"

分享到:
標簽:模型 機器 學習 開發人員 訓練 特征 數據 工作流
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定