什么是機器學習?
提供了機器學習的兩種定義。 亞瑟·塞繆爾(Arthur Samuel)將其描述為:“使計算機無需明確編程即可學習的學習領域”。 這是一個較舊的非正式定義。
湯姆·米切爾(Tom Mitchell)提供了一個更現代的定義:“如果某計算機程序在T任務中的性能(由P衡量)隨著經驗E的提高而提高,則可以說它是從經驗E中學習有關某類任務T和性能度量P的。 ”
例如:玩跳棋。
E =玩過許多跳棋游戲的經驗
T =扮演跳棋的任務。
P =程序將贏得下一場比賽的概率。
監督學習
在監督學習中,我們得到了一個數據集,并且已經知道我們的正確輸出應該是什么樣子,并且認為輸入和輸出之間存在關系。
監督學習問題分為“回歸”和“分類”問題。在回歸問題中,我們試圖預測連續輸出中的結果,這意味著我們試圖將輸入變量映射到某個連續函數。在分類問題中,我們改為嘗試預測離散輸出的結果。換句話說,我們正在嘗試將輸入變量映射為離散類別。
范例1:
給定有關房地產市場上房屋大小的數據,請嘗試預測其價格。價格作為規模的函數是一個連續的輸出,因此這是一個回歸問題。
我們可以通過輸出有關房屋是否“以高于或低于要價出售的價格”的輸出來將這個示例轉變為分類問題。在這里,我們將根據價格將房屋分為兩類。
范例2:
(a)回歸-給定一個人的照片,我們必須根據給定的照片來預測他們的年齡
(b)分類-對于患有腫瘤的患者,我們必須預測腫瘤是惡性還是良性的。
無監督學習
無監督學習使我們幾乎或根本不了解結果應該如何處理問題。 我們可以從數據中獲得結構,而不必知道變量的影響。
我們可以通過基于數據中變量之間的關系對數據進行聚類來推導此結構。
在無監督學習的情況下,沒有基于預測結果的反饋。
例:
聚類:收集1,000,000個不同基因的集合,然后找到一種方法,將這些基因自動分組為通過不同變量(例如壽命,位置,角色等)在某種程度上相似或相關的組。
非集群:“雞尾酒會算法”,使您可以在混亂的環境中找到結構。 (即在雞尾酒會上從一系列聲音中識別出個人聲音和音樂)。