中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

手把手教你在試驗(yàn)中修正機(jī)器學(xué)習(xí)模型(附學(xué)習(xí)資源)

2018-12-21    來源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬Linux鏡像隨意使用

機(jī)器學(xué)習(xí)的實(shí)現(xiàn)路線充滿了反復(fù)試驗(yàn)。在這個(gè)領(lǐng)域,新手工程師和科學(xué)家將不斷調(diào)整他們的算法和模型。此過程中會(huì)出現(xiàn)挑戰(zhàn),尤其是在數(shù)據(jù)處理和確定最優(yōu)模型的時(shí)候。

在建立機(jī)器學(xué)習(xí)模型時(shí),重要的是知道現(xiàn)實(shí)世界的數(shù)據(jù)并不完美,因此不同類型的數(shù)據(jù)需要不同的處理方法和工具,并且在確定最優(yōu)模型的時(shí)候不可避免會(huì)有取舍。

下面的系統(tǒng)流程將描述如何開發(fā)一個(gè)訓(xùn)練好的模型用于手機(jī)健康監(jiān)測(cè)app,該app跟蹤用戶整天的活動(dòng)。輸入包括手機(jī)端記錄的感知器數(shù)據(jù)。輸出將是用戶的活動(dòng):行走,站立,坐下,跑步,或跳舞。由于這是一個(gè)分類問題,這個(gè)例子將應(yīng)用有監(jiān)督學(xué)習(xí)。

訪問和加載數(shù)據(jù)

用戶將拿著手機(jī)坐下來,記錄傳感器數(shù)據(jù),并將其存儲(chǔ)在標(biāo)記為“坐下”的文本文件中。之后,用戶拿著手機(jī)站起來,記錄傳感器數(shù)據(jù),并將其存儲(chǔ)在標(biāo)記為“站立”的文本文件中。用同樣的方法來記錄跑步、行走、跳舞的數(shù)據(jù)。

數(shù)據(jù)預(yù)處理

由于機(jī)器學(xué)習(xí)算法無法區(qū)分?jǐn)?shù)據(jù)中的噪聲和有價(jià)值的部分,所以需要在訓(xùn)練模型前清洗數(shù)據(jù)。數(shù)據(jù)預(yù)處理可以用數(shù)據(jù)分析工具來實(shí)現(xiàn),比如MATLAB。為了清理數(shù)據(jù),用戶可以導(dǎo)入并繪制數(shù)據(jù),去除異常值。在這個(gè)例子中,離群值可能是由于在記錄數(shù)據(jù)時(shí)無意中移動(dòng)了手機(jī)造成。用戶還需要檢查缺失值,缺失值可用其他樣本的近似值或參照數(shù)據(jù)代替。

 

 

圖 1 數(shù)據(jù)預(yù)處理之去除離群值,即位于數(shù)據(jù)主要部分之外的數(shù)據(jù)點(diǎn)。

數(shù)據(jù)清洗之后,將數(shù)據(jù)集分為兩個(gè)部分,一部分作為訓(xùn)練集,另一部分將是用于測(cè)試和交叉驗(yàn)證的“保留”數(shù)據(jù)。

使用預(yù)處理后的數(shù)據(jù)生成特征

原始數(shù)據(jù)必須轉(zhuǎn)化成機(jī)器學(xué)習(xí)算法可以使用的信息。要實(shí)現(xiàn)這一點(diǎn),用戶必須生成能夠區(qū)分手機(jī)端數(shù)據(jù)的特征。

在這個(gè)例子中,工程師和科學(xué)家必須劃分好特征以幫助算法區(qū)分步行(低頻)和跑步(高頻)。

 

 

表 1 依據(jù)數(shù)據(jù)類型導(dǎo)出特征,可以把原始數(shù)據(jù)轉(zhuǎn)化成機(jī)器學(xué)習(xí)模型可以使用的高級(jí)別信息

建立并訓(xùn)練模型

從一個(gè)簡(jiǎn)單的決策樹開始:

 

 

圖 2 基于特征建立的決策樹分類模型

繪制混淆矩陣以觀察模型效果。

 

 

圖 3 矩陣顯示該模型在區(qū)分跳舞和跑步時(shí)存在問題

基于上面的混淆矩陣,這表示決策樹不適合這種類型的數(shù)據(jù),或者應(yīng)該使用不同的算法。

K近鄰算法(KNN)存儲(chǔ)所有訓(xùn)練數(shù)據(jù),將新數(shù)據(jù)點(diǎn)與訓(xùn)練數(shù)據(jù)進(jìn)行比較,得到K個(gè)最相似樣本,并返回這些相似樣本的最頻繁類。這個(gè)算法展示出更高的準(zhǔn)確度。

 

 

圖 4 改用KNN算法提高了準(zhǔn)確度——盡管還有提高的可能性

另一個(gè)選擇是多分類支持向量機(jī)(SVM):

 

 

圖 5 SVM的準(zhǔn)確率在每個(gè)分類標(biāo)簽上都接近99%

這個(gè)過程證明了通過反復(fù)試驗(yàn)可以更好實(shí)現(xiàn)目標(biāo)。

改進(jìn)模型

如果模型無法可靠地區(qū)分跳舞和跑步,就需要改進(jìn)模型。改進(jìn)模型可以通過使其復(fù)雜化以更好地?cái)M合數(shù)據(jù),或者使其簡(jiǎn)單化以降低過擬合的可能性。

為了簡(jiǎn)化模型,可以通過以下方法減少特征數(shù)量:

• 相關(guān)矩陣,去除相關(guān)性弱的特征;

• PCA降維,消除冗余;

• 有序地縮減特征,直到模型效果不再提高。

為了使模型更加復(fù)雜,工程師和科學(xué)家可以通過集合多個(gè)簡(jiǎn)單模型得到一個(gè)更大的模型或者增加更多數(shù)據(jù)源。

完成訓(xùn)練和調(diào)整之后,模型可以應(yīng)用在測(cè)試集(數(shù)據(jù)預(yù)處理時(shí)保留的一部分?jǐn)?shù)據(jù))。如果模型可以可靠地對(duì)活動(dòng)分類,那么它就可以應(yīng)用在手機(jī)應(yīng)用程序。

工程師和科學(xué)家第一次訓(xùn)練機(jī)器學(xué)習(xí)模型的時(shí)候?qū)?huì)遇到挑戰(zhàn),但應(yīng)該意識(shí)到反復(fù)試驗(yàn)是過程的一部分。

上述的工作流程提供了構(gòu)建機(jī)器學(xué)習(xí)模型的路線圖,并且可以應(yīng)用到其他不同的問題上,比如預(yù)測(cè)維護(hù)、自然語言處理和自動(dòng)駕駛。

探索這些資源以了解更多機(jī)器學(xué)習(xí)方法和例子:

• Supervised Learning Workflow and Algorithms:Learn the workflow and steps in the supervised learning process

https://www.mathworks.com/help/stats/supervised-learning-machine-learning-workflow-and-algorithms.html?s_tid=srchtitle&s_eid=PEP_19715.html

• MATLAB Machine Learning Examples:Get started with machine learning by exploring examples, articles, and tutorials

https://www.mathworks.com/solutions/machine-learning/getting-started.html&s_eid=PEP_19715.html

• Machine Learning with MATLAB:Download this ebook for a step-by-step guide providing machine learning basics along with advanced techniques and algorithms

https://www.mathworks.com/campaigns/offers/machine-learning-with-matlab.html?s_iid=nd_bb15&s_eid=PEP_19715.html

原文標(biāo)題:

Building a Machine Learning Model through Trial and Error

原文鏈接:

https://www.kdnuggets.com/2018/09/mathworks-building-machine-learning-model-through-trial-error.html

標(biāo)簽: 數(shù)據(jù)分析

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:G+ People API再出Bug,5250萬用戶信息遭泄露

下一篇:年度回顧:2018年的人工智能/機(jī)器學(xué)習(xí)驚喜及預(yù)測(cè)19年的走勢(shì)