資料內(nèi)容:
三、AI 技術
業(yè)內(nèi)通常將人工智能分類為機器學習、計算機視覺、語音交互和自然語言處理四大領域,
機器學習可以理解為是其他三大領域的底層基礎,大致可以分為監(jiān)督學習、非監(jiān)督學習、
強化學習、遷移學習。
本文在此基本不涉及公式,盡量以平直易懂的語言講述這幾種機器學習方法及相關算法。
個人認為在實戰(zhàn)過程中根據(jù)工作需要再深入學習這些算法,會更有針對性而且效率會更高,
事半功倍。
3.1 機器學習
概念:投喂給機器訓練數(shù)據(jù),機器從這些數(shù)據(jù)中找出一個能夠良好擬合已有數(shù)據(jù)的函數(shù),
新數(shù)據(jù)來了后,就可以通過這個函數(shù)預測對應結果。
適合解決的問題:有規(guī)律可以學習、編程很難做到、有能夠?qū)W習到規(guī)律的數(shù)據(jù)。
工作方式:
根據(jù)任務目標確定算法;
在預處理階段把數(shù)據(jù)分成三組:訓練數(shù)據(jù)(用來訓練模型)、驗證數(shù)據(jù)(開發(fā)過程中用于
調(diào)參)、 測試數(shù)據(jù)(測試用);
用訓練數(shù)據(jù)來構建使用相關特征的模型;
把驗證數(shù)據(jù)接入模型調(diào)參;
用測試數(shù)據(jù)檢查被驗證的模型的表現(xiàn);
用完全訓練好的模型在新數(shù)據(jù)上做預測;
用更多數(shù)據(jù)或選取不同特征以及利用調(diào)整過的參數(shù)來提升優(yōu)化算法的性能表現(xiàn)。
分類:按學習方式可以分為監(jiān)督學習(包括半監(jiān)督學習)、無監(jiān)督學習、強化學習、遷移
學習。
3.2 監(jiān)督學習
概念:機器學習的一種,通過學習許多有標簽的樣本,得到特征值和標記值之間的對應規(guī)
律,然后對新的數(shù)據(jù)做出預測。
分類:根據(jù)輸入數(shù)據(jù) x 預測出輸出數(shù)據(jù) y,如果 y 是整數(shù)的類別編號,則稱為分類問題,
算法包括:決策樹、隨機森林、貝葉斯、KNN、SVM、邏輯回歸。如果 y 是實數(shù)值,則為回
歸問題,算法包括決策樹、隨機森林、KNN、SVM、線性回歸。
主流算法:
1)決策樹算法
基本原理:決策樹是一個樹結構,每個非葉節(jié)點表示一個特征屬性,每個分支代表這個特
征屬性在某值域上的輸出,每個葉節(jié)點存放一個類別。使用決策樹進行決策的過程就是從
根節(jié)點開始,測試待分類項中相應的特征屬性,并按照其值選擇輸出分支,直到到達某個
葉節(jié)點,該葉節(jié)點存放的類別即為決策結果。