從統(tǒng)計(jì)到概率，入門者都能用Python試驗(yàn)的機(jī)器學(xué)習(xí)基礎(chǔ)

2018-09-05 來源：raincent

容器云強(qiáng)勢(shì)上線！快速搭建集群，上萬Linux鏡像隨意使用

概率論與統(tǒng)計(jì)學(xué)是機(jī)器學(xué)習(xí)的基礎(chǔ)，但很多初學(xué)者不太了解它們。本文介紹了概率及統(tǒng)計(jì)的基本概念、聯(lián)系以及用法，并以正態(tài)分布為例展示了什么是概率分布、分布函數(shù)以及經(jīng)驗(yàn)法則。同樣本文還概念性地解釋了中心極限定理，以及為什么正態(tài)分布在整個(gè)統(tǒng)計(jì)學(xué)中如此重要。此外，本文很多試驗(yàn)都可以用 Python 實(shí)現(xiàn)，不了解 Python 的讀者也可以跳過。

要學(xué)習(xí)統(tǒng)計(jì)，就不可避免得先了解概率問題。概率涉及諸多公式和理論，容易讓人迷失其中，但它在工作和日常生活中都具有重要作用。先前我們已經(jīng)討論過描述性統(tǒng)計(jì)中的一些基本概念，現(xiàn)在，我們將探討統(tǒng)計(jì)和概率的關(guān)系。

前提條件：

與上一篇博客類似，本文不要求讀者具備統(tǒng)計(jì)知識(shí)，但至少要對(duì) Python 有一個(gè)基本的了解�？紤]到讀者可能不太了解 for 循環(huán)和列表, 下面將先對(duì)它們做個(gè)簡(jiǎn)單的介紹。

什么是概率?

從最基本的層面上來說，概率要回答的是一個(gè)這樣的問題：「一個(gè)事件發(fā)生的幾率是多少?」為了計(jì)算某個(gè)事件發(fā)生的幾率，我們還要考慮其它所有可能發(fā)生的事件。

概率問題的典型代表是扔硬幣。在扔硬幣的過程中，只會(huì)產(chǎn)生兩種結(jié)果：

1. 正面朝上

2. 反面朝上

這兩種結(jié)果構(gòu)成了一個(gè)樣本空間，即所有可能結(jié)果的集合。為了計(jì)算一個(gè)事件發(fā)生的概率，我們要統(tǒng)計(jì)該事件發(fā)生(比如將硬幣擲為正面朝上)的次數(shù)，并用它除以總試驗(yàn)次數(shù)。因此，概率會(huì)告訴我們，把一枚硬幣擲為正面朝上或反面朝上的幾率為 1/2。通過觀察可能發(fā)生的事件，概率可以為我們提供一個(gè)預(yù)測(cè)事件發(fā)生頻率的框架。

然而，即使結(jié)果看起來很明顯，但如果我們真的試著去扔一些硬幣，我們很可能得到過高或過低的正面朝上概率。假設(shè)扔硬幣的做法不公平，那我們能做什么?收集數(shù)據(jù)!我們可以使用統(tǒng)計(jì)法來計(jì)算基于真實(shí)世界觀察樣本的概率，并將其與理想中的概率做對(duì)比。

從統(tǒng)計(jì)到概率

通過扔 10 次硬幣并計(jì)算正面朝上的次數(shù)，我們可以獲得數(shù)據(jù)。我們把這 10 次扔硬幣的過程當(dāng)做試驗(yàn)，而硬幣正面朝上的次數(shù)將是數(shù)據(jù)點(diǎn)。也許正面朝上的次數(shù)不是「理想的」5 次，但不必著急，因?yàn)橐淮卧囼?yàn)只是一個(gè)數(shù)據(jù)點(diǎn)。

如果進(jìn)行多次試驗(yàn)，那我們預(yù)計(jì)所有試驗(yàn)正面朝上的的平均概率將接近 50%。下面的代碼分別模擬了 10 次、100 次、1000 次和 1000000 次試驗(yàn)，然后計(jì)算了正面朝上的平均頻率。下圖是對(duì)這一過程的總結(jié)。

coin_trial 函數(shù)代表了 10 次硬幣投擲的模擬。它使用 random() 函數(shù)來生成一個(gè)介于 0 和 1 之間的隨機(jī)浮點(diǎn)數(shù)，如果浮點(diǎn)數(shù)在 0.5 以下，它會(huì)增加 heads(正面朝上)次數(shù)。然后，simulate 根據(jù)你想要的次數(shù)來重復(fù)這些試驗(yàn)，并返回所有試驗(yàn)后正面朝上的平均次數(shù)。

硬幣投擲模擬的結(jié)果很有趣。首先，模擬的數(shù)據(jù)顯示正面朝上的平均次數(shù)接近概率估計(jì)的結(jié)果。其次，隨著試驗(yàn)次數(shù)的增加，這個(gè) 平均數(shù)也更加接近預(yù)期結(jié)果。做 10 次模擬時(shí)，有輕微的誤差，但試驗(yàn)次數(shù)為 1000000 次時(shí)，誤差幾乎完全消失。隨著我們?cè)黾釉囼?yàn)次數(shù)，與預(yù)期平均數(shù)的偏差在不斷減小。聽起來很耳熟是不是?

當(dāng)然，我們可以自己扔硬幣，但是通過在 Python 代碼中模擬這一過程可以為節(jié)省大量時(shí)間。隨著我們獲得越來越多的數(shù)據(jù)，現(xiàn)實(shí)世界(結(jié)果)開始與理想世界(預(yù)期)重合。因此，給定足夠的數(shù)據(jù)，統(tǒng)計(jì)就可以讓我們根據(jù)現(xiàn)實(shí)世界的觀察來估計(jì)概率。概率提供了理論，而統(tǒng)計(jì)提供了使用數(shù)據(jù)來檢驗(yàn)該理論的工具。于是，統(tǒng)計(jì)樣本的數(shù)值特征，特別是均值和標(biāo)準(zhǔn)差，成為了理論的替代。

你可能會(huì)問：「如果我本來就可以計(jì)算理論概率，那我為什么還要用一個(gè)替代品?」投擲硬幣是一個(gè)非常簡(jiǎn)單的例子，但有些更有趣的概率問題并沒有這么容易計(jì)算。隨著時(shí)間的推移，一個(gè)人患病的可能性有多大?當(dāng)你開車時(shí)，一個(gè)關(guān)鍵的汽車部件出故障的概率是多少?

計(jì)算概率沒有什么簡(jiǎn)單的方法，所以我們必須依靠數(shù)據(jù)和統(tǒng)計(jì)。給定更多的數(shù)據(jù)，我們的結(jié)果有更多的置信度，確信計(jì)算結(jié)果代表了這些重要事件發(fā)生的真實(shí)概率。

假設(shè)我是一名在職侍酒師，購(gòu)買之前，我要先弄清楚哪些葡萄酒品質(zhì)更優(yōu)。我手頭已有很多數(shù)據(jù)，所以我們將使用統(tǒng)計(jì)數(shù)據(jù)來指導(dǎo)決策。

數(shù)據(jù)和分布

在解決「哪種葡萄酒更好」的問題之前，我們需要注意數(shù)據(jù)的性質(zhì)。直觀來說，我們想通過打分來選出比較好的葡萄酒，但問題是：分?jǐn)?shù)通常分布在一個(gè)范圍內(nèi)。那我們要如何比較不同類型葡萄酒的得分，并在一定程度上確定一種葡萄酒比另一種更好呢?

若有一個(gè)正態(tài)分布(也稱為高斯分布)，它是概率和統(tǒng)計(jì)領(lǐng)域中一個(gè)特別重要的現(xiàn)象。正態(tài)分布如下所示：

正態(tài)分布最重要的特質(zhì)是對(duì)稱性和形狀，以及其廣泛的普適性。我們一直稱其為分布，但是分布的到底是什么?我們可以直觀地認(rèn)為概率分布是一個(gè)任務(wù)中所有可能存在的事件及其對(duì)應(yīng)的概率，例如在「拋硬幣」任務(wù)中，「正面」和「反面」兩個(gè)事件，以及它們對(duì)應(yīng)出現(xiàn)的概率 1/2 可以組成一個(gè)分布。

在概率中，正態(tài)分布是所有事件及對(duì)應(yīng)概率的特定分布。x 軸表示我們想知道概率的事件，y 軸是與每個(gè)事件相關(guān)聯(lián)的概率——從 0-1。在這里，我們沒有深入討論概率分布，但是知道正態(tài)分布是一種特別重要的概率分布。

在統(tǒng)計(jì)中，正態(tài)分布是數(shù)據(jù)值的分布。在這里，x 軸是數(shù)據(jù)的值，y 軸是這些值的計(jì)數(shù)。以下是兩張相同的正態(tài)分布圖，但是根據(jù)概率和統(tǒng)計(jì)來進(jìn)行標(biāo)記：

在概率的正態(tài)分布中，最高點(diǎn)表示發(fā)生概率最大的事件。離這個(gè)事件越遠(yuǎn)，概率下降越厲害，最后形成一個(gè)鐘的形狀。而在統(tǒng)計(jì)的正態(tài)分布中，最高點(diǎn)代表均值，與概率中的情況類似，離均值越遠(yuǎn)，頻率下降越厲害。也就是說，兩端的點(diǎn)與均值存在極高的偏差，且樣本非常罕見。

如果你通過正態(tài)分布懷疑概率和統(tǒng)計(jì)之間存在另一種關(guān)系，那么你沒猜錯(cuò)!我們將在本文后面探討這種重要關(guān)系，先別著急。

既然打算用質(zhì)量分?jǐn)?shù)的分布來比較不同的葡萄酒，我們需要設(shè)置一些條件來搜索感興趣的葡萄酒。我們將收集葡萄酒的數(shù)據(jù)，然后分離出一些感興趣的葡萄酒質(zhì)量分?jǐn)?shù)。

為了取得數(shù)據(jù)，我們需要以下代碼：

數(shù)據(jù)以表格形式顯示在下面。我們需要 points 列，所以我們將把它提取到自己的列表中。一位葡萄酒專家告訴我們匈牙利的托卡伊白葡萄酒非常棒，而一位朋友則建議我們以意大利的藍(lán)布魯斯科紅葡萄酒開始入手。我們可以用數(shù)據(jù)來比較這些葡萄酒!

如果你不記得數(shù)據(jù)是什么樣子的，下面有一個(gè)簡(jiǎn)要的表格供你參考和重新了解。

如果把每組質(zhì)量分?jǐn)?shù)可視化為正態(tài)分布，我們可以根據(jù)它們所處的位置立即判斷兩種分布是否相同，但如下所示用這種方法很快會(huì)遇到問題。因?yàn)槲覀冇写罅繑?shù)據(jù)，所以假設(shè)分?jǐn)?shù)會(huì)呈正態(tài)分布。雖然這種假設(shè)在這里沒問題，但實(shí)際上這么做很危險(xiǎn)，這點(diǎn)將在稍后討論。

當(dāng)兩個(gè)分?jǐn)?shù)分布重疊太多時(shí)，最好假設(shè)你的分?jǐn)?shù)是來自同一個(gè)而非不同的分布。在另一種極端即兩個(gè)分布沒有重疊的情況下，可以安全地假設(shè)它們來自不同的分布。麻煩在于有些重疊的情況比較特殊。例如，一個(gè)分布的極高點(diǎn)可能與另一個(gè)分布的極低點(diǎn)相交，這種情況下我們?cè)撊绾闻袛噙@些分?jǐn)?shù)是否來自不同的分布。

因此，我們?cè)俅纹谕龖B(tài)分布可以給我們一個(gè)答案，并在統(tǒng)計(jì)學(xué)和概率之間架起一座橋梁。

重新審視正態(tài)分布

正態(tài)分布對(duì)概率和統(tǒng)計(jì)學(xué)來說至關(guān)重要，原因有二：中心極限定理和 3σ 準(zhǔn)則。

中心極限定理

在上一節(jié)中，我們展示了如果把擲硬幣的試驗(yàn)重復(fù)十次，正面朝上的平均結(jié)果將接近理想的 50%。隨著試驗(yàn)次數(shù)的增加，平均結(jié)果會(huì)越接近真實(shí)概率，即使個(gè)別試驗(yàn)本身并不完美。這種想法或數(shù)學(xué)上稱為依概收斂就是中心極限定理的一個(gè)關(guān)鍵原則。

在擲硬幣的例子中，一次試驗(yàn)扔 10 次硬幣，我們會(huì)估計(jì)每次試驗(yàn)正面朝上的次數(shù)為 5。之所以是估計(jì)，是因?yàn)槲覀冎澜Y(jié)果并沒有那么完美(即，不會(huì)每次都得到 5 次正面朝上的結(jié)果)。如果我們做出很多估計(jì)，根據(jù)中心極限定理，這些估計(jì)的分布將看起來像正態(tài)分布，這種分布的頂點(diǎn)或估計(jì)值的期望將與真實(shí)值一致。我們觀察到，在統(tǒng)計(jì)學(xué)中正態(tài)分布的頂點(diǎn)與平均值一致。因此，給定多次「試驗(yàn)」作為數(shù)據(jù)，中心極限定理表明，即使我們不知道真正的概率，我們也可以通過數(shù)據(jù)估計(jì)出分布可能的形狀。

中心極限定理讓我們知道多次試驗(yàn)的平均值將接近真實(shí)平均值，而 3σ準(zhǔn)則將告訴我們有多少數(shù)據(jù)將圍繞這個(gè)平均值分布。

3σ 準(zhǔn)則

3σ 準(zhǔn)則(也被稱為經(jīng)驗(yàn)法則或 68-95-99.7 法則)，是我們觀察到有多少數(shù)據(jù)落在平均值某一距離內(nèi)的一種表達(dá)。注意，標(biāo)準(zhǔn)差(又名「sigma」)是數(shù)據(jù)觀測(cè)值與平均值之間的平均距離。

3σ 準(zhǔn)則規(guī)定，給定正態(tài)分布，68% 的觀測(cè)值將落在平均值的一個(gè)標(biāo)準(zhǔn)差之間，95% 將落在兩個(gè)標(biāo)準(zhǔn)差以內(nèi)，99.7% 將落在三個(gè)標(biāo)準(zhǔn)差以內(nèi)。很多復(fù)雜的數(shù)學(xué)都涉及這些值的推導(dǎo)，因此，具體不在本文的討論范圍之內(nèi)。關(guān)鍵是要知道，3σ 準(zhǔn)則使我們能夠了解正態(tài)分布的不同區(qū)間內(nèi)分別包含了多少數(shù)據(jù)。下圖是對(duì) 3σ 準(zhǔn)則所代表內(nèi)容的總結(jié)。

我們將把這些概念與葡萄酒數(shù)據(jù)聯(lián)系起來。根據(jù)假設(shè)，作為一個(gè)品酒師，我們想知道與普通葡萄酒相比，霞多麗白葡萄酒和黑皮諾葡萄酒更受歡迎的程度。我們收集了成千上萬條關(guān)于葡萄酒的評(píng)論，而根據(jù)中心極限定理，這些評(píng)論的平均分?jǐn)?shù)應(yīng)該與葡萄酒質(zhì)量(由評(píng)論者判斷)的「真實(shí)」表征一致。

雖然 3σ 準(zhǔn)則說明了你的數(shù)據(jù)有多少在已知值范圍內(nèi)，但它也說明了極端值的罕見性。任何偏離平均值三個(gè)標(biāo)準(zhǔn)差的值都應(yīng)小心處理。通過 3σ準(zhǔn)則和 Z-score，我們最終可以通過數(shù)值度量霞多麗白葡萄酒、黑皮諾葡萄酒與普通葡萄酒的區(qū)別程度。

Z-score

Z-score 是一個(gè)簡(jiǎn)單的計(jì)算，它回答了這樣一個(gè)問題：「給定一個(gè)數(shù)據(jù)點(diǎn)，它離平均值有多少標(biāo)準(zhǔn)差?」下面是 Z-score 方程：

Z-score 本身并沒有給你提供很多少信息。但當(dāng)與一個(gè) Z-table 比較時(shí)，它就非常有價(jià)值，該表列出了一個(gè)標(biāo)準(zhǔn)正態(tài)分布的累積概率，直到給定 Z-score。標(biāo)準(zhǔn)正態(tài)分布是平均值為 0、標(biāo)準(zhǔn)差為 1 的正態(tài)分布。即使我們的正態(tài)分布不是標(biāo)準(zhǔn)的，Z-score 也允許我們參考 Z-table。

累積概率(或稱為概率分布函數(shù))是給定點(diǎn)出現(xiàn)之前所有值的概率之和。一個(gè)簡(jiǎn)單的例子是平均值本身。平均值是正態(tài)分布的正中間部分，所以我們知道從左向右取值到平均值的所有概率之和為 50%。如果你想計(jì)算標(biāo)準(zhǔn)差之間的累計(jì)概率，3σ準(zhǔn)則的值實(shí)際上會(huì)出現(xiàn)。下圖是累積概率的可視化圖。

所有概率之和必須等于 100%，所以我們用 Z-table 來計(jì)算正態(tài)分布下 Z-score 兩邊的概率。

這種超過某個(gè) Z-score 的概率計(jì)算對(duì)我們很有用。它讓我們從「一個(gè)值離平均值有多遠(yuǎn)?」的問題升級(jí)到「一個(gè)值與同一組觀測(cè)值的平均值相差特定距離的可能性有多大?」因此，從 Z-score 和 Z-table 得出的概率將回答我們關(guān)于葡萄酒的問題。

看起來朋友的推薦并不是很好!為了本文的目的，我們把托卡伊白葡萄酒和藍(lán)布魯斯科紅葡萄酒的分?jǐn)?shù)都視為正態(tài)分布。因此，每種葡萄酒的平均分?jǐn)?shù)將代表它們?cè)谫|(zhì)量方面的「真實(shí)」分?jǐn)?shù)。我們將計(jì)算 Z-score，看看托卡伊白葡萄酒的平均值與藍(lán)布魯斯科紅葡萄酒的平均值相差多少。

答案是差距很小。但這到底意味著什么?這種概率的無窮小量可能需要詳細(xì)解釋。

假設(shè)托卡伊白葡萄酒和藍(lán)布魯斯科紅葡萄酒的質(zhì)量沒有什么差別。也就是說，二者的品質(zhì)差不多。同樣，由于葡萄酒之間的個(gè)體差異，這些葡萄酒的分?jǐn)?shù)會(huì)有一些分散。根據(jù)中心極限定理，如果我們制作這兩種葡萄酒分?jǐn)?shù)的直方圖，將會(huì)產(chǎn)生服從正態(tài)分布的質(zhì)量分?jǐn)?shù)。

現(xiàn)在，我們可以利用一些數(shù)據(jù)計(jì)算出這兩種葡萄酒的平均值和標(biāo)準(zhǔn)差。這些值可以檢驗(yàn)它們的品質(zhì)是否相似。我們將使用藍(lán)布魯斯科紅葡萄酒分?jǐn)?shù)作為基礎(chǔ)，并比較了托卡伊白葡萄酒的平均分?jǐn)?shù)，反過來做也很簡(jiǎn)單。唯一不同的是負(fù) Z-score。

Z-score 為 4.01!假設(shè)托卡伊和藍(lán)布魯斯科的品質(zhì)相似，根據(jù) 3σ準(zhǔn)則，99.7% 的數(shù)據(jù)應(yīng)該在 3 個(gè)標(biāo)準(zhǔn)差范圍內(nèi)。在托卡伊和藍(lán)布魯斯科被視為品質(zhì)相同的情況下，遠(yuǎn)離質(zhì)量分?jǐn)?shù)平均值的概率非常非常小。這種概率如此之小，以至于我們不得不考慮相反的情況：如果托卡伊不同于藍(lán)布魯斯科，將會(huì)產(chǎn)生不同的分?jǐn)?shù)分布。

此處我們仔細(xì)選擇了措辭：我沒有說「托卡伊比藍(lán)布魯斯科好」。因?yàn)槲覀冇?jì)算了這種概率，雖然微觀上很小，但不是零。確切地，可以說托卡伊和藍(lán)布魯斯科絕對(duì)不是來自同一個(gè)分布，但不能就此說其中一種比另一種更好或更差。

這種推理屬于推理統(tǒng)計(jì)的范疇，而本文只想做一個(gè)簡(jiǎn)單的介紹。本文介紹了很多概念，所以如果你覺得有些頭疼，不妨回頭慢慢看。

總結(jié)

我們從描述性統(tǒng)計(jì)開始，然后將其與概率聯(lián)系起來。根據(jù)概率，我們開發(fā)了一種定量顯示兩組分?jǐn)?shù)是否來自同一分布的方法。根據(jù)這種方法，我們比較了別人推薦的兩種葡萄酒，發(fā)現(xiàn)它們很可能來自不相同的質(zhì)量分?jǐn)?shù)分布。也就是說，一種葡萄酒很可能比另一種更好。

統(tǒng)計(jì)不是只屬于統(tǒng)計(jì)學(xué)家的領(lǐng)域，作為一名數(shù)據(jù)科學(xué)家，對(duì)常用的統(tǒng)計(jì)方法有一個(gè)直觀的理解將有助于你構(gòu)建自己的理論，以及隨后測(cè)試這些理論的能力。在這里我們幾乎沒有觸及推理統(tǒng)計(jì)，但是同樣的想法將有助于指導(dǎo)理解統(tǒng)計(jì)原理。本文討論了正態(tài)分布的優(yōu)點(diǎn)，但是統(tǒng)計(jì)學(xué)家也開發(fā)了非正態(tài)分布的技術(shù)。

原文鏈接：https://www.dataquest.io/blog/basic-statistics-in-python-probability/

標(biāo)簽： seo 安全代碼搜索

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請(qǐng)與原作者聯(lián)系。

上一篇:AI從業(yè)者需要應(yīng)用的10種深度學(xué)習(xí)方法（下）

下一篇:醫(yī)療AI應(yīng)該更關(guān)注數(shù)據(jù)還是人？數(shù)據(jù)工程師反思機(jī)器學(xué)習(xí)模型的力量

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識(shí)分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運(yùn)維經(jīng)驗(yàn) IT技術(shù)分享運(yùn)維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

從統(tǒng)計(jì)到概率，入門者都能用Python試驗(yàn)的機(jī)器學(xué)習(xí)基礎(chǔ)