中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

ML:教你聚類并構(gòu)建學習模型處理數(shù)據(jù)(附數(shù)據(jù)集)

2018-08-10    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用
本文將根據(jù)41個描述性分類特征的維度,運用無監(jiān)督主成分分析(PCA)和層次聚類方法對觀測進行分組。將數(shù)據(jù)聚類可以更好地用簡單的多元線性模型描述數(shù)據(jù)或者識別更適合其他模型的異常組。此方法被編寫在python類中,以便將來能實現(xiàn)類似網(wǎng)格搜索的參數(shù)優(yōu)化。

 

 

結(jié)果與討論

本項目中,我們將機器學習技術(shù)應用于Ames住房數(shù)據(jù)集,用79個解釋變量來預測房屋的銷售價格,其中包括41個分類變量(分類型變量),38個連續(xù)數(shù)值變量(連續(xù)型變量)。在最初探索性數(shù)據(jù)分析(EDA)和特征選擇的過程中,為了更好地理解數(shù)據(jù),我們僅用兩個連續(xù)變量來擬合數(shù)據(jù),以便通過三維散點圖反映數(shù)據(jù)和模型。通過列舉38個連續(xù)數(shù)值變量的所有雙變量排列組合并分別擬合線性回歸模型,我們選出了兩個對銷售價格預測能力最強的變量。在考慮整個訓練集時,地上居住面積和整體質(zhì)量參數(shù)是最佳的預測指標,但這只解釋了房屋銷售價73.9%的方差。通過使用41個分類特征來識別數(shù)據(jù)集內(nèi)的組群,我們可以將數(shù)據(jù)集分解為方差更小的子集,并找到更好地描述每個特定房屋子集的模型。

附Ames housing數(shù)據(jù)集:

https://www.kaggle.com/c/house-prices-advanced-regression-techniques

 

 

一個簡單的線性回歸模型可以體現(xiàn)地上居住面積和整體質(zhì)量對住宅銷售價格的影響,它解釋了74%的房價變動

由于分類變量較多,并且對Ames房屋市場的專業(yè)知識有限,我們使用無監(jiān)督的聚類方法找到變量里的模式并在此基礎上分組。首先通過PCA對數(shù)據(jù)集進行降維,以避免大量分類變量造成的“維度災難”效應。PCA還有其他的好處,它能把對總體方差沒有貢獻的變量數(shù)量降到最低,并且將維度降低到三維以便我們直觀地改進聚類算法的圖形表示(并且將維度降低至三維,給了我們一個圖形化的分類效果展示,以便做出直觀地改進)。下圖展示了由PCA將分類變量降到3維的圖形:

 

 

由41個分類變量濃縮后的三維PCA空間數(shù)據(jù)表示

通過對此圖的初步觀察,數(shù)據(jù)大部分的差異體現(xiàn)在新的Y(垂直)維度。在X(寬度)和Z(深度)維度中,差異來源于設定的類別,進而導致數(shù)據(jù)形成垂直方向的條紋。由于群集的各向異性,我們利用有k-nearest neighbor connector參數(shù)的層次聚類算法來定義組,這樣就不會將條帶分割成多個部分。(我們利用層次聚類算法中的k鄰近算法,在不把豎狀條紋割開的基礎上重新定義各個組。)(在Python的sklearn庫中,AgglomerativeClustering方法可以用于聚類。本案例中,基于Ward linkage標準把類的數(shù)量設置為6,以及由kneighbors_graph包生成連接數(shù)組,其中參數(shù)n_neighbors設置為20)。

 

 

層次聚類分組的PCA空間表示

 

 

基于鄰近地區(qū)著色和PCA降維的觀測有助于發(fā)現(xiàn)影響降維及聚類的因素

由PCA 、聚類方法生成的群集非常好地區(qū)別了分組中的垂直“條紋”。為了找到無監(jiān)督聚類和其所對應的房屋特征之間的相似點,這些群集也基于每個分類變量著色。其中一些彩色的散點圖類似于無監(jiān)督聚類,表明這些特定的房子特征在確定每個數(shù)據(jù)點的最終PCA向量時起較大的作用。特別注意的是,基于鄰近區(qū)域(neighborhood)著色突出了與無監(jiān)督方法相似的垂直分組,這表明鄰近區(qū)域是影響分解子集的一個重要因素。為了此類應用,我們需要設計更精確的方法來確定每個因素對最終PCA維度的整體“貢獻”。

為了確定每個組中哪兩大因素是銷售價格最好的預測因素,我們用這6個集群把連續(xù)數(shù)值數(shù)據(jù)分為子集,并假設一個簡單的二元線性回歸模型

 

雖然有些節(jié)點比其他節(jié)點更適合線性回歸,但相比于將數(shù)據(jù)作為整體來處理,用模型擬合這些群集在精度上沒有累積差異。然而,這只是概念驗證的初始迭代,還沒有優(yōu)化關(guān)鍵參數(shù),如n_nodes、(節(jié)點數(shù)量),PCA dimensions(PCA維度)和KNN connectivity parameters(KNN連通度)。將這些方法編碼到一個python類中,它可以協(xié)助使用類似于網(wǎng)格搜索的優(yōu)化過程來確定最佳的集群參數(shù),從而最大化簡單線性回歸模型的準確性。請參考下列GitHub鏈接中的"MC_regressor_Code.ipynb":

https://github.com/dgoldman916/housing-ml。

未來工作

此時,“概念驗證”的關(guān)鍵缺失是對新數(shù)據(jù)進行訓練和分類的能力。在引入測試集時,要先基于訓練得到的參數(shù)將新數(shù)據(jù)被分為有標記的組。這就需要一個有監(jiān)督的聚類方法,比如決策樹或支持向量機(SVM)。在添加此類函數(shù)之后,可以將其應用到組的其他工作流程中。我們可以通過預期的最終迭代在擬合穿過節(jié)點的更復雜的模型,并將這些模型的結(jié)果集中在一起。

標簽: 數(shù)據(jù)分析 搜索

版權(quán)申明:本站文章部分自網(wǎng)絡,如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:想當數(shù)據(jù)科學家的你這13個錯誤可別犯

下一篇:從數(shù)據(jù)治理看醫(yī)療大數(shù)據(jù)的發(fā)展