機(jī)器學(xué)習(xí)-4.開(kāi)發(fā)流程、算法基本認(rèn)知
1. 機(jī)器學(xué)習(xí)開(kāi)發(fā)流程
我們作為機(jī)器學(xué)習(xí)的開(kāi)發(fā)工程師首先要明確自己學(xué)習(xí)的定位,也就是確定學(xué)習(xí)邊界。
大部分復(fù)雜模型的算法設(shè)計(jì)都是由算法工程師去做的,我們只需要:
1.分析很多的數(shù)據(jù);
2.分析具體的業(yè)務(wù);
3.應(yīng)用常見(jiàn)的算法;
4.特征工程、調(diào)參數(shù)、優(yōu)化。
我們學(xué)習(xí)應(yīng)達(dá)到一下目的:
1.學(xué)會(huì)分析問(wèn)題、使用機(jī)器學(xué)習(xí)算法的目標(biāo),想要使得算法完成什么樣的任務(wù)。
2.掌握算法基本思想原理,學(xué)會(huì)對(duì)不同問(wèn)題用對(duì)應(yīng)的算法來(lái)解決。
3.學(xué)會(huì)利用庫(kù)或框架解決問(wèn)題。
開(kāi)發(fā)流程:
2. 機(jī)器學(xué)習(xí)算法分類
數(shù)據(jù)類型
離散型數(shù)據(jù):由記錄不同類別個(gè)體的數(shù)目所得到的數(shù)據(jù),又稱計(jì)數(shù)數(shù)據(jù),所有這些數(shù)據(jù)全部都是整數(shù),而且不能再細(xì)分,也不能進(jìn)一步提高他們的精確度。
連續(xù)性數(shù)據(jù):變量可以在某個(gè)范圍內(nèi)取任一數(shù),即變量的取值可以是連續(xù)的,如:長(zhǎng)度、時(shí)間、質(zhì)量值等,這類整數(shù)通常是非整數(shù),含有小數(shù)部分。
注:離散型是區(qū)間內(nèi)不可分,連續(xù)型是區(qū)間內(nèi)可分。
數(shù)據(jù)的類型將是機(jī)器學(xué)習(xí)模型不同、問(wèn)題不同,進(jìn)行處理的依據(jù)。
算法分類
監(jiān)督學(xué)習(xí)(有特征值和目標(biāo)值)
– 分類:K近鄰算法、貝葉斯分類、決策樹(shù)與隨機(jī)森林、邏輯回歸、神經(jīng)網(wǎng)絡(luò)
– 回歸:線性回歸、嶺回歸
– 標(biāo)注:隱馬爾科夫模型(不重要)
無(wú)監(jiān)督學(xué)習(xí)(只有特征值)
– 聚類:k-means
分類算法對(duì)應(yīng)-目標(biāo)值是離散型數(shù)據(jù)
回歸算法對(duì)應(yīng)-目標(biāo)值是連續(xù)型數(shù)據(jù)
3. 轉(zhuǎn)換器與估計(jì)器
轉(zhuǎn)換器是實(shí)現(xiàn)了特征工程的API,例如前幾篇文章的示例中的fit_transform()等。
估計(jì)器是實(shí)現(xiàn)了算法的API,在sklearn中有:
用于分類的估計(jì)器:
– sklearn.neighbors :k-近鄰算法
– sklearn.naive_bayes :貝葉斯
– sklearn.linear_model.LogisticRegression :邏輯回歸
– sklearn.tree :決策樹(shù)與隨機(jī)森林
用于回歸的估計(jì)器
– sklearn.linear_model.LinearRegression :線性回歸
– sklearn.linear_model.Ridge :嶺回歸
---------------------
原文:https://blog.csdn.net/wyply115/article/details/85014353