一文解析統(tǒng)計(jì)學(xué)在機(jī)器學(xué)習(xí)中的重要性(附學(xué)習(xí)包)
2018-08-01 來源:raincent


統(tǒng)計(jì)是一組工具,你可以使用這些工具來探求數(shù)據(jù)方面的重要問題。
你可以使用描述性統(tǒng)計(jì)方法將原始觀測數(shù)據(jù)轉(zhuǎn)換為你可以理解和共享的信息,也可以使用推斷統(tǒng)計(jì)方法,通過數(shù)據(jù)的小樣本對(duì)整個(gè)域進(jìn)行推理。
在這篇文章中,你將明晰為什么統(tǒng)計(jì)對(duì)于通用應(yīng)用和機(jī)器學(xué)習(xí)如此重要,并大致了解各種可用的方法。
本文中你將了解到:
• 統(tǒng)計(jì)通常被認(rèn)為是應(yīng)用機(jī)器學(xué)習(xí)領(lǐng)域的先決條件。
• 我們需要利用統(tǒng)計(jì)將觀測結(jié)果轉(zhuǎn)化為信息,并回答有關(guān)觀測樣本的問題。
• 統(tǒng)計(jì)是數(shù)百年來開發(fā)的一組工具,用于匯總數(shù)據(jù)和量化給定觀測樣本的域的屬性。
那我們開始吧!
統(tǒng)計(jì)是必備的先決條件
機(jī)器學(xué)習(xí)和統(tǒng)計(jì)是兩個(gè)密切相關(guān)的研究領(lǐng)域,統(tǒng)計(jì)學(xué)家把機(jī)器學(xué)習(xí)稱為“應(yīng)用統(tǒng)計(jì)”或“統(tǒng)計(jì)學(xué)習(xí)”,而不是以計(jì)算機(jī)科學(xué)為主來命名。
對(duì)于初學(xué)者而言,機(jī)器學(xué)習(xí)的前提是他應(yīng)具備一定的統(tǒng)計(jì)學(xué)背景。我們可以用挑選櫻桃的例子來做個(gè)解釋。
請(qǐng)先看一本流行的實(shí)用機(jī)器學(xué)習(xí)書《應(yīng)用預(yù)測建模》中的一句話:
”讀者應(yīng)掌握一些基本統(tǒng)計(jì)知識(shí),包括方差、相關(guān)、簡單線性回歸和基本假設(shè)檢驗(yàn)(如p值和檢驗(yàn)統(tǒng)計(jì))“ ——《應(yīng)用預(yù)測建模》2013年 第7頁 |
流行書籍《統(tǒng)計(jì)學(xué)習(xí)入門》中也有這樣的例子:
”我們期望讀者至少有一門統(tǒng)計(jì)學(xué)基礎(chǔ)課程。“ ——《統(tǒng)計(jì)學(xué)習(xí)介紹及其在R語言中的應(yīng)用》 2013年 第9頁 |
即使統(tǒng)計(jì)學(xué)不是先決條件,但還是需要一些簡單的先導(dǎo)知識(shí),正如廣為人知的《編程集體智慧》一書的引語所言:
“這本書并不認(rèn)為你事先就知道[…]或統(tǒng)計(jì)學(xué)[…] 但是,掌握一些三角學(xué)和基本統(tǒng)計(jì)知識(shí)將有助于你理解算法。” ——《編程集體智慧:構(gòu)建智能Web 2.0應(yīng)用程序》 2007年 第13頁 |
為了能夠更好地理解機(jī)器學(xué)習(xí),需要對(duì)統(tǒng)計(jì)學(xué)有一些基本的概念。
欲知其中緣由,我們首先必須明白為何要了解統(tǒng)計(jì)學(xué)領(lǐng)域的知識(shí)。
為什么要學(xué)統(tǒng)計(jì)學(xué)?
單獨(dú)的原始觀察數(shù)據(jù)只是數(shù)據(jù),它們還不是信息或知識(shí)。
有了原始數(shù)據(jù),那么接下來的問題是:
• 什么是最常見或可預(yù)期的觀測?
• 觀測的限制條件是什么?
• 數(shù)據(jù)是什么樣子的?
雖然這些問題看起來很簡單,但必須回答這些問題,才能將原始觀察的數(shù)據(jù)轉(zhuǎn)化為我們可以使用和分享的信息。
除了原始數(shù)據(jù),我們還可以設(shè)計(jì)實(shí)驗(yàn)來采集觀測數(shù)據(jù)。根據(jù)這些實(shí)驗(yàn)結(jié)果,我們可能獲得更為復(fù)雜的問題,例如:
• 哪些變量是最相關(guān)的?
• 兩個(gè)實(shí)驗(yàn)的結(jié)果有什么不同?
• 數(shù)據(jù)中的差異是真實(shí)的還是噪聲的結(jié)果?
這類問題很重要,其結(jié)果對(duì)項(xiàng)目、利益相關(guān)者和有效決策都很重要。
我們需要用統(tǒng)計(jì)方法來找到數(shù)據(jù)問題的答案。
這樣看來,我們需要利用統(tǒng)計(jì)方法,不但用它來了解用于訓(xùn)練機(jī)器學(xué)習(xí)模型的數(shù)據(jù),而且用它來解釋測試不同機(jī)器學(xué)習(xí)模型的結(jié)果。
這只是冰山一角,因?yàn)轭A(yù)測建模項(xiàng)目的每一步都需要用到統(tǒng)計(jì)方法。
什么是統(tǒng)計(jì)學(xué)?
統(tǒng)計(jì)學(xué)是數(shù)學(xué)的一個(gè)子領(lǐng)域。
它指的是處理數(shù)據(jù)和使用數(shù)據(jù)回答問題的方法集合。
統(tǒng)計(jì)學(xué)是對(duì)疑難問題進(jìn)行數(shù)值猜想的藝術(shù)。[…]這些方法是幾百年來由那些為自己的問題尋找答案的人開發(fā)出來 的。 ——《統(tǒng)計(jì)》第四版 2007年 第13頁 |
由于該領(lǐng)域采用抓斗袋的方法來處理數(shù)據(jù),對(duì)于初學(xué)者來說,它可能看起來大而無形。統(tǒng)計(jì)方法和其他研究領(lǐng)域的方法之間很難區(qū)分開來。通常,一種技術(shù)既可以是一種經(jīng)典的統(tǒng)計(jì)方法,也可以是一種用于特征選擇或建模的現(xiàn)代算法。
雖然統(tǒng)計(jì)知識(shí)并非沒有深?yuàn)W的理論知識(shí),但從統(tǒng)計(jì)與概率的關(guān)系中得出的一些重要、容易理解的定理,可以提供有價(jià)值的理論基礎(chǔ)。
舉兩個(gè)例子:大數(shù)定律和中心極限定理。
第一個(gè)可以幫助我們理解為什么較大的樣本往往更好,第二個(gè)定理為我們比較樣本之間的期望值(例如:平均值)提供基礎(chǔ)。
當(dāng)涉及我們?cè)趯?shí)踐中使用的統(tǒng)計(jì)工具時(shí),可以將統(tǒng)計(jì)領(lǐng)域分為兩大類:
• 描述性統(tǒng)計(jì)用于總結(jié)數(shù)據(jù)
• 推理統(tǒng)計(jì)用于從數(shù)據(jù)樣本中得出結(jié)論
"統(tǒng)計(jì)數(shù)據(jù)使研究人員能夠從大量的采集到的信息或數(shù)據(jù),從中總結(jié)出典型的經(jīng)驗(yàn)。[…]統(tǒng)計(jì)數(shù)據(jù)也用導(dǎo)出關(guān)于群體間普遍差異的結(jié)論。[…]統(tǒng)計(jì)數(shù)據(jù)也可以用來判斷兩個(gè)變量的得分是否相關(guān),并進(jìn)行預(yù)測。" ——《統(tǒng)計(jì)概述》 第三版 2010年 第9—10頁 |
描述統(tǒng)計(jì)(學(xué))
描述性統(tǒng)計(jì)是指將觀察到的原始數(shù)據(jù)匯總成我們可以理解和共享的信息的方法。
通常,我們認(rèn)為描述性統(tǒng)計(jì)是對(duì)數(shù)據(jù)樣本統(tǒng)計(jì)值的計(jì)算,以便總結(jié)數(shù)據(jù)樣本的屬性,例如共同的期望值(例如平均值或中值)和數(shù)據(jù)的價(jià)差(例如方差或標(biāo)準(zhǔn)偏差)。
描述性統(tǒng)計(jì)還涵蓋利用圖形方法對(duì)數(shù)據(jù)樣本進(jìn)行可視化。圖表和圖形可以提供對(duì)觀測的形狀或分布以及變量的相關(guān)做出定性理解。
推斷統(tǒng)計(jì)
推斷統(tǒng)計(jì)是一個(gè)有意思的名稱,它是通過從一組較小的被稱為樣本的觀察數(shù)據(jù)進(jìn)行量化從而提煉出域或總體屬性的方法。
通常,我們認(rèn)為推斷統(tǒng)計(jì)是從總體分布中估計(jì)出特征值,如期望值或價(jià)差的估計(jì)等等。
可以利用復(fù)雜的統(tǒng)計(jì)推斷工具來量化給定觀測數(shù)據(jù)樣本的概率。這些工具通常被稱為統(tǒng)計(jì)假設(shè)檢驗(yàn)工具,其中檢驗(yàn)的基本假設(shè)稱為零假設(shè)。
有許多推斷統(tǒng)計(jì)方法的例子,為增加測試數(shù)據(jù)的正確性,我們可以對(duì)假設(shè)的范圍做出限定。
延展閱讀
如果你想深入研究,本節(jié)將提供更多關(guān)于該主題的資源。
書籍
• 《應(yīng)用預(yù)測建!,2013年
• 《R語言應(yīng)用程序統(tǒng)計(jì)學(xué)習(xí)導(dǎo)論》,2013年
• 《編程集智能:構(gòu)建智能Web 2.0應(yīng)用程序》,2007年
• 《統(tǒng)計(jì)》,第四版,2007年
• 《統(tǒng)計(jì):統(tǒng)計(jì)推斷的簡明課程》,2004年
• 《簡明統(tǒng)計(jì)》,第三版,2010年。
文章
• 維基百科上的統(tǒng)計(jì)
• 門戶:維基百科上的統(tǒng)計(jì)
• 維基百科上的統(tǒng)計(jì)文章列表
• 維基百科上的數(shù)理統(tǒng)計(jì)
• 維基百科上的統(tǒng)計(jì)歷史
• 維基百科的描述性統(tǒng)計(jì)
• 對(duì)維基百科的統(tǒng)計(jì)推斷
總結(jié)
在這篇文章中,你已明晰為什么統(tǒng)計(jì)在機(jī)器學(xué)習(xí)中如此重要,對(duì)于機(jī)器學(xué)習(xí),統(tǒng)計(jì)提供了許多通用且可行的方法。
具體而言,總結(jié)如下:
• 統(tǒng)計(jì)通常被認(rèn)為是機(jī)器學(xué)習(xí)領(lǐng)域的先決條件。
• 我們需要統(tǒng)計(jì)數(shù)據(jù)來將觀測結(jié)果轉(zhuǎn)化為信息,并回答有關(guān)觀測樣本的問題。
• 統(tǒng)計(jì)是數(shù)百年來開發(fā)的一組工具,用于匯總數(shù)據(jù)和量化給定觀測樣本的域的屬性。
相關(guān)報(bào)道:
https://machinelearningmastery.com/what-is-statistics/
標(biāo)簽:
版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。