中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

實戰(zhàn):用Python實現(xiàn)隨機森林

2018-12-10    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

因為有Scikit-Learn這樣的庫,現(xiàn)在用Python實現(xiàn)任何機器學習算法都非常容易。實際上,我們現(xiàn)在不需要任何潛在的知識來了解模型如何工作。雖然不需要了解所有細節(jié),但了解模型如何訓練和預測對工作仍有幫助。比如:如果性能不如預期,我們可以診斷模型或當我們想要說服其他人使用我們的模型時,我們可以向他們解釋模型如何做出決策的。

在本文中,我們將介紹如何在Python中構建和使用Random Forest,而不是僅僅顯示代碼,我將嘗試了解模型的工作原理。我將從一個簡單的單一決策樹開始,然后以解決現(xiàn)實世界數(shù)據(jù)科學問題的方式完成隨機森林。本文的完整代碼在GitHub上以Jupyter Notebook的形式提供。

理解決策樹

決策樹是隨機森林的構建塊,它本身就是個直觀的模型。我們可以將決策樹視為詢問有關我們數(shù)據(jù)問題的流程圖。這是一個可解釋的模型,因為它決定了我們在現(xiàn)實生活中的做法:在最終得出決定之前,我們會詢問有關數(shù)據(jù)的一系列問題。

決策樹的主要技術細節(jié)是如何構建有關數(shù)據(jù)的問題,決策樹是通過形成能夠最大限度減少基尼系數(shù)的問題而建立的。稍后我會討論Gini Impurity,但這意味著決策樹試圖形成盡可能純的節(jié)點,其中包含來自單個類的高比例樣本(數(shù)據(jù)點)的節(jié)點。

Gini Impurity和構建樹可能有點難以理解,所以首先讓我們構建一個決策樹,以便可以更好的理解它。

關于最簡單問題的決策樹

我們從一個非常簡單的二進制分類問題開始,如下所示:

 

 

我們的數(shù)據(jù)只有兩個特征(標簽),且只有6個數(shù)據(jù)點。

雖然這個問題很簡單,但它不是線性可分的,這意味著我們不能通過數(shù)據(jù)繪制一條直線來對點進行分類。然而,我們可以繪制一系列劃分類的直線,這基本上是決策樹在形成一系列問題時將要做的事情。

要創(chuàng)建決策樹并在數(shù)據(jù)上訓練,我們可以使用Scikit-Learn:

 

 

在訓練過程中,我們?yōu)槟P吞峁┨卣骱蜆撕灒员銓W習根據(jù)特征對點進行分類。我們沒有針對這個簡單問題的測試集,但是在測試時,我們只給模型提供功能并讓它對標簽做出預測。

我們可以在訓練數(shù)據(jù)上測試我們模型的準確性:

 

 

我們看到它100%正確,這是我們所期望的,因為我們給了它訓練的答案。

可視化決策樹

當我們訓練決策樹時,實際上會發(fā)生什么?我發(fā)現(xiàn)了解決策樹的最有用的方法是通過可視化,我們可以使用Scikit-Learn的功能(詳細信息請查看筆記本或本文)。

 

 

上圖顯示了決策樹的整個結構,除葉節(jié)點(終端節(jié)點)外,所有節(jié)點都有5個部分:

問題基于特征值詢問數(shù)據(jù):每個問題都有對或錯的答案。根據(jù)問題的答案,數(shù)據(jù)點在樹中移動。

Gini:節(jié)點的Gini雜質。當我們向下移動樹時,平均加權基尼系數(shù)必須減少。

samples:節(jié)點中的觀察數(shù)。

value:每個類的樣本數(shù)量。例如,頂部節(jié)點在類0中有2個樣本,在類1中有4個樣本。

class:節(jié)點中點的多數(shù)分類。在葉節(jié)點的情況下,這是對節(jié)點中所有樣本的預測。

葉節(jié)點沒有問題,因為這些是最終預測的地方。要對新節(jié)點進行分類,只需向下移動樹,使用點的特征來回答問題,直到到達class預測的葉節(jié)點。你可以使用上面的點進行嘗試,或者進行不同的預測。

基尼系數(shù)

在這一點上,我們應該嘗試了解基尼系數(shù)。簡而言之,Gini Impurity是隨機選擇的樣本被節(jié)點中的樣本分布標記錯誤的概率。例如,在頂部(根)節(jié)點中,有44.4%錯誤的可能性根據(jù)節(jié)點中樣本標簽的分布對隨機選擇的數(shù)據(jù)點進行分類。我們可以使用下面這個等式得到這個值:

 

 

節(jié)點的Gini系數(shù)n是1減去每個J類的p_i平方的總和,讓我們計算出根節(jié)點的基尼系數(shù)。

 

 

在每個節(jié)點處,決策樹在要素中搜索要拆分的值,從而最大限度地減少基尼系數(shù)。(拆分節(jié)點的替代方法是使用信息增益)。

然后,它以遞歸過程重復此拆分過程,直到達到最大深度,或者每個節(jié)點僅包含來自一個類的樣本。每層樹的加權總基尼系數(shù)必須減少。在樹的第二層,總加權基尼系數(shù)值為0.333:

 

 

最后一層的加權總Gini系數(shù)變?yōu)?意味著每個節(jié)點都是純粹的,并且從該節(jié)點隨機選擇的點不會被錯誤分類。雖然這似乎是好結果,但這意味著模型可能過度擬合,因為節(jié)點僅使用是通過訓練數(shù)據(jù)構建的。

過度擬合:為什么森林比一棵樹更好

你可能會想問為什么不只使用一個決策樹?它似乎是完美的分類器,因為它沒有犯任何錯誤!記住這其中的關鍵點是樹在訓練數(shù)據(jù)上沒有犯錯。因為我們給樹提供了答案。機器學習模型的要點是很好地概括測試數(shù)據(jù)。不幸的是,當我們不限制決策樹的深度時,它往往會過度擬合。

當我們的模型具有高方差并且基本上記憶訓練數(shù)據(jù)時,一定會發(fā)生過度擬合。這意味著它可以很好地在訓練數(shù)據(jù)上,但由于測試數(shù)據(jù)不同,它將無法對測試數(shù)據(jù)做出準確的預測!我們想要的是一個能很好地學習訓練數(shù)據(jù)的模型,并且可以在其他數(shù)據(jù)集上發(fā)揮作用。當我們不限制最大深度時,決策樹容易過度擬合的原因是因為它具有無限的復雜性,這意味著它可以保持增長,直到它為每個單獨的觀察只有一個葉節(jié)點,完美地對所有這些進行分類。

要理解為什么決策樹具有高差異,我們可以用一個人來考慮它。想象一下,你覺得明天蘋果股票會上漲,你會問一些分析師。每一位分析師都可能會有很大差異并且會嚴重依賴他們可以訪問的數(shù)據(jù)。一位分析師可能只閱讀親蘋果新聞,因此她認為價格會上漲,而另一位分析師最近從她的朋友那里聽到蘋果產品的質量開始下降,她可能就認為價格會下降。這些個體分析師的差異很大,因為他們的答案極其依賴于他們所看到的數(shù)據(jù)。

因為每個分析師都可以訪問不同的數(shù)據(jù),所以預計個體差異會很大,但整個集合的總體方差應該減少。使用許多個體本質上是隨機森林背后的想法:而不是一個決策樹,使用數(shù)百或數(shù)千個樹來形成一個強大的模型。(過度擬合的問題被稱為偏差-方差權衡,它是機器學習中的一個基本主題)。

隨機森林

隨機森林是許多決策樹組成的模型。這個模型不僅僅是一個森林,而且它還是隨機的,因為有兩個概念:

隨機抽樣的數(shù)據(jù)點;
基于要素子集拆分的節(jié)點;

隨機抽樣

隨機森林背后的關鍵是每棵樹在數(shù)據(jù)點的隨機樣本上訓練。樣本用替換(稱為bootstrapping)繪制,這意味著一些樣本將在一個樹中多次訓練。這個想法是通過對不同樣本的每棵樹進行訓練,盡管每棵樹相對于一組特定的訓練數(shù)據(jù)可能有很大的差異,但總體而言,整個森林的方差都很小。每個學習者在數(shù)據(jù)的不同子集上學習,然后進行平均的過程被稱為bagging,簡稱bootstrap aggregating。

用于拆分節(jié)點的隨機特征子集

隨機森林背后的另一個關鍵點是,只考慮所有特征的子集來分割每個決策樹中的每個節(jié)點。通常,這被設置為sqrt(n_features)意味著在每個節(jié)點處,決策樹考慮在特征的樣本上分割總計特征總數(shù)的平方根?紤]到每個節(jié)點的所有特征,也可以訓練隨機森林。

如果你掌握單個決策樹、bagging決策樹和隨機特征子集,那么你就可以很好地理解隨機森林的工作原理。隨機森林結合了數(shù)百或數(shù)千個決策樹,在略微不同的觀察集上訓練每個決策樹,并且僅考慮有限數(shù)量的特征來分割每個樹中的節(jié)點。隨機森林做出的最終預測是通過平均每棵樹的預測來做出的。

隨機森林實踐

與其他Scikit-Learn模型非常相似,在Python中使用隨機森林只需要幾行代碼。我們將構建一個隨機森林,但不是針對上面提到的簡單問題。為了將隨機森林與單個決策樹的能力進行對比,我們將使用分為訓練和測試的真實數(shù)據(jù)集。

數(shù)據(jù)集

我們要解決的問題是二進制分類任務。這些特征是個人的社會經濟和生活方式特征,標簽是健康狀況不佳為0和身體健康為1。此數(shù)據(jù)集是由中心疾病控制和預防收集,可以在這里找到。這是一個不平衡的分類問題,因此準確性不是一個合適的指標。相反,我們將測量接收器工作特性區(qū)域曲線(ROC AUC),從0(最差)到1(最佳)的度量,隨機猜測得分為0.5。我們還可以繪制ROC曲線以評估模型性能。

 

 

該筆記本包含了決策樹和隨機森林的實現(xiàn),但在這里我們只專注于隨機森林。在讀取數(shù)據(jù)后,我們可以實現(xiàn)并訓練隨機森林如下:

 

 

在訓練幾分鐘后,準備好對測試數(shù)據(jù)進行如下預測:

 

 

我們進行類預測(predict)以及predict_proba計算ROC AUC所需的預測概率()。一旦我們進行了預測測試,我們就可以將它們與測試標簽進行比較,以計算出ROC AUC。

 

 

結果

最終的ROC AUC是隨機森林為0.87,而單一決策樹是0.67。如果我們查看訓練分數(shù),我們注意到兩個模型都達到了1.0 ROC AUC,因為我們給這些模型提供了訓練答案,并沒有限制最大深度。然而,盡管隨機森林過度擬合,但它能夠比單一決策樹更好地推廣測試數(shù)據(jù)。

如果我們檢查模型,我們會看到單個決策樹達到最大深度55,總共12327個節(jié)點。隨機森林中的平均決策樹的深度為46和13396個節(jié)點。即使平均節(jié)點數(shù)較多,隨機森林也能更好地推廣!

我們還可以繪制單個決策樹(頂部)和隨機森林(底部)的ROC曲線。頂部和左側的曲線是更好的模型:

 

 

 

 

我們看到隨機森林明顯優(yōu)于單一決策樹。我們可以采用模型的另一個診斷措施是繪制測試預測的混淆矩陣:

 

 

特征重要性(Feature Importances)

隨機森林中的特征重要性表示在該特征上拆分的所有節(jié)點上Gini系數(shù)減少的總和。我們可以使用這些來嘗試找出隨機森林最重要的預測變量,同時也可以從訓練有素的隨機森林中提取特征重要性,并將其放入Pandas數(shù)據(jù)框中,如下所示:

 

 

我們還可以通過刪除具有0或低重要性的特征來使用特征重要性來選擇特征。

在森林中可視化樹

最后,我們可以在森林中可視化單個決策樹。這次,我們必須限制樹的深度,否則它將太大而無法轉換為圖像。為了制作我將最大深度限制為6,這仍然導致我們無法完全解析的大樹!

 

 

優(yōu)化決策樹

下一步可能是通過隨機搜索和Scikit-Learn中的RandomizedSearchCV來優(yōu)化隨機森林。

優(yōu)化是指在給定數(shù)據(jù)集上找到模型的最佳超參數(shù)。最佳超參數(shù)將在數(shù)據(jù)集之間變化,因此我們必須在每個數(shù)據(jù)集上單獨執(zhí)行優(yōu)化(也稱為模型調整)。我喜歡將模型調整視為尋找機器學習算法的最佳設置。有關隨機森林模型優(yōu)化的隨機搜索的實現(xiàn),請參閱Jupyter Notebook。

結論

在本文中,我們不僅在Python中構建和使用了隨機森林,而且還對模型的進行了分析。

我們首先查看了一個單獨的決策樹,一個隨機森林的基本構建塊,然后我們看到了如何在一個集合模型中組合數(shù)百個決策樹。當與bagging特征一起使用和隨機抽樣時,該集合模型被稱為隨機森林。從這篇文章中理解的關鍵概念是:

決策樹:直觀模型,根據(jù)詢問有關特征值的問題流程圖做出決策,通過過度擬合訓練數(shù)據(jù)表示方差高。

Gini Impurity:衡量決策樹在拆分每個節(jié)點時嘗試最小化的度量。表示根據(jù)節(jié)點中樣本的分布對來自節(jié)點的隨機選擇的樣本進行分類的概率。

Bootstrapping:用替換的方式隨機觀察組進行采樣。隨機森林用于訓練每個決策樹的方法。

隨機的特征子集:在考慮如何在決策樹中分割每個節(jié)點時選擇一組隨機特征。

隨機森林:由數(shù)百或數(shù)千個決策樹組成的集合模型,使用自舉,隨機特征子集和平均投票來進行預測。這是一個bagging整體的例子。

偏差-方差權衡:機器學習中的基本問題,描述了高復雜度模型之間的權衡,以采用最好的方式學習訓練數(shù)據(jù),代價是無法推廣到測試數(shù)據(jù)以及簡單的模型(高偏見)甚至無法學習訓練數(shù)據(jù)。隨機森林減少了單個決策樹的方差,同時還準確地學習了訓練數(shù)據(jù),從而更好地預測了測試數(shù)據(jù)。

希望本文為你提供了開始在項目中使用隨機森林所需的信心和理解。隨機森林是一種強大的機器學習模型,但這不應該阻止我們知道它是如何工作的!

文章原標題《an-implementation-and-explanation-of-the-random-forest-in-python》

作者:William Koehrsen 譯者:虎說八道

標簽: 代碼 搜索 推廣

版權申明:本站文章部分自網絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:美團DB數(shù)據(jù)同步到數(shù)據(jù)倉庫的架構與實踐

下一篇:大數(shù)據(jù)處理基本過程