中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

從統(tǒng)計(jì)到概率,入門者都能用Python試驗(yàn)的機(jī)器學(xué)習(xí)基礎(chǔ)

2018-09-05    來源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬Linux鏡像隨意使用

概率論與統(tǒng)計(jì)學(xué)是機(jī)器學(xué)習(xí)的基礎(chǔ),但很多初學(xué)者不太了解它們。本文介紹了概率及統(tǒng)計(jì)的基本概念、聯(lián)系以及用法,并以正態(tài)分布為例展示了什么是概率分布、分布函數(shù)以及經(jīng)驗(yàn)法則。同樣本文還概念性地解釋了中心極限定理,以及為什么正態(tài)分布在整個(gè)統(tǒng)計(jì)學(xué)中如此重要。此外,本文很多試驗(yàn)都可以用 Python 實(shí)現(xiàn),不了解 Python 的讀者也可以跳過。

要學(xué)習(xí)統(tǒng)計(jì),就不可避免得先了解概率問題。概率涉及諸多公式和理論,容易讓人迷失其中,但它在工作和日常生活中都具有重要作用。先前我們已經(jīng)討論過描述性統(tǒng)計(jì)中的一些基本概念,現(xiàn)在,我們將探討統(tǒng)計(jì)和概率的關(guān)系。

前提條件:

與上一篇博客類似,本文不要求讀者具備統(tǒng)計(jì)知識(shí),但至少要對(duì) Python 有一個(gè)基本的了解?紤]到讀者可能不太了解 for 循環(huán)和列表, 下面將先對(duì)它們做個(gè)簡(jiǎn)單的介紹。

什么是概率?

從最基本的層面上來說,概率要回答的是一個(gè)這樣的問題:「一個(gè)事件發(fā)生的幾率是多少?」為了計(jì)算某個(gè)事件發(fā)生的幾率,我們還要考慮其它所有可能發(fā)生的事件。

概率問題的典型代表是扔硬幣。在扔硬幣的過程中,只會(huì)產(chǎn)生兩種結(jié)果:

1. 正面朝上

2. 反面朝上

這兩種結(jié)果構(gòu)成了一個(gè)樣本空間,即所有可能結(jié)果的集合。為了計(jì)算一個(gè)事件發(fā)生的概率,我們要統(tǒng)計(jì)該事件發(fā)生(比如將硬幣擲為正面朝上)的次數(shù),并用它除以總試驗(yàn)次數(shù)。因此,概率會(huì)告訴我們,把一枚硬幣擲為正面朝上或反面朝上的幾率為 1/2。通過觀察可能發(fā)生的事件,概率可以為我們提供一個(gè)預(yù)測(cè)事件發(fā)生頻率的框架。

然而,即使結(jié)果看起來很明顯,但如果我們真的試著去扔一些硬幣,我們很可能得到過高或過低的正面朝上概率。假設(shè)扔硬幣的做法不公平,那我們能做什么?收集數(shù)據(jù)!我們可以使用統(tǒng)計(jì)法來計(jì)算基于真實(shí)世界觀察樣本的概率,并將其與理想中的概率做對(duì)比。

從統(tǒng)計(jì)到概率

通過扔 10 次硬幣并計(jì)算正面朝上的次數(shù),我們可以獲得數(shù)據(jù)。我們把這 10 次扔硬幣的過程當(dāng)做試驗(yàn),而硬幣正面朝上的次數(shù)將是數(shù)據(jù)點(diǎn)。也許正面朝上的次數(shù)不是「理想的」5 次,但不必著急,因?yàn)橐淮卧囼?yàn)只是一個(gè)數(shù)據(jù)點(diǎn)。

如果進(jìn)行多次試驗(yàn),那我們預(yù)計(jì)所有試驗(yàn)正面朝上的的平均概率將接近 50%。下面的代碼分別模擬了 10 次、100 次、1000 次和 1000000 次試驗(yàn),然后計(jì)算了正面朝上的平均頻率。下圖是對(duì)這一過程的總結(jié)。

 

 

coin_trial 函數(shù)代表了 10 次硬幣投擲的模擬。它使用 random() 函數(shù)來生成一個(gè)介于 0 和 1 之間的隨機(jī)浮點(diǎn)數(shù),如果浮點(diǎn)數(shù)在 0.5 以下,它會(huì)增加 heads(正面朝上)次數(shù)。然后,simulate 根據(jù)你想要的次數(shù)來重復(fù)這些試驗(yàn),并返回所有試驗(yàn)后正面朝上的平均次數(shù)。

硬幣投擲模擬的結(jié)果很有趣。首先,模擬的數(shù)據(jù)顯示正面朝上的平均次數(shù)接近概率估計(jì)的結(jié)果。其次,隨著試驗(yàn)次數(shù)的增加,這個(gè) 平均數(shù)也更加接近預(yù)期結(jié)果。做 10 次模擬時(shí),有輕微的誤差,但試驗(yàn)次數(shù)為 1000000 次時(shí),誤差幾乎完全消失。隨著我們?cè)黾釉囼?yàn)次數(shù),與預(yù)期平均數(shù)的偏差在不斷減小。聽起來很耳熟是不是?

當(dāng)然,我們可以自己扔硬幣,但是通過在 Python 代碼中模擬這一過程可以為節(jié)省大量時(shí)間。隨著我們獲得越來越多的數(shù)據(jù),現(xiàn)實(shí)世界(結(jié)果)開始與理想世界(預(yù)期)重合。因此,給定足夠的數(shù)據(jù),統(tǒng)計(jì)就可以讓我們根據(jù)現(xiàn)實(shí)世界的觀察來估計(jì)概率。概率提供了理論,而統(tǒng)計(jì)提供了使用數(shù)據(jù)來檢驗(yàn)該理論的工具。于是,統(tǒng)計(jì)樣本的數(shù)值特征,特別是均值和標(biāo)準(zhǔn)差,成為了理論的替代。

你可能會(huì)問:「如果我本來就可以計(jì)算理論概率,那我為什么還要用一個(gè)替代品?」投擲硬幣是一個(gè)非常簡(jiǎn)單的例子,但有些更有趣的概率問題并沒有這么容易計(jì)算。隨著時(shí)間的推移,一個(gè)人患病的可能性有多大?當(dāng)你開車時(shí),一個(gè)關(guān)鍵的汽車部件出故障的概率是多少?

計(jì)算概率沒有什么簡(jiǎn)單的方法,所以我們必須依靠數(shù)據(jù)和統(tǒng)計(jì)。給定更多的數(shù)據(jù),我們的結(jié)果有更多的置信度,確信計(jì)算結(jié)果代表了這些重要事件發(fā)生的真實(shí)概率。

假設(shè)我是一名在職侍酒師,購(gòu)買之前,我要先弄清楚哪些葡萄酒品質(zhì)更優(yōu)。我手頭已有很多數(shù)據(jù),所以我們將使用統(tǒng)計(jì)數(shù)據(jù)來指導(dǎo)決策。

數(shù)據(jù)和分布

在解決「哪種葡萄酒更好」的問題之前,我們需要注意數(shù)據(jù)的性質(zhì)。直觀來說,我們想通過打分來選出比較好的葡萄酒,但問題是:分?jǐn)?shù)通常分布在一個(gè)范圍內(nèi)。那我們要如何比較不同類型葡萄酒的得分,并在一定程度上確定一種葡萄酒比另一種更好呢?

若有一個(gè)正態(tài)分布(也稱為高斯分布),它是概率和統(tǒng)計(jì)領(lǐng)域中一個(gè)特別重要的現(xiàn)象。正態(tài)分布如下所示:

 

 

正態(tài)分布最重要的特質(zhì)是對(duì)稱性和形狀,以及其廣泛的普適性。我們一直稱其為分布,但是分布的到底是什么?我們可以直觀地認(rèn)為概率分布是一個(gè)任務(wù)中所有可能存在的事件及其對(duì)應(yīng)的概率,例如在「拋硬幣」任務(wù)中,「正面」和「反面」兩個(gè)事件,以及它們對(duì)應(yīng)出現(xiàn)的概率 1/2 可以組成一個(gè)分布。

在概率中,正態(tài)分布是所有事件及對(duì)應(yīng)概率的特定分布。x 軸表示我們想知道概率的事件,y 軸是與每個(gè)事件相關(guān)聯(lián)的概率——從 0-1。在這里,我們沒有深入討論概率分布,但是知道正態(tài)分布是一種特別重要的概率分布。

在統(tǒng)計(jì)中,正態(tài)分布是數(shù)據(jù)值的分布。在這里,x 軸是數(shù)據(jù)的值,y 軸是這些值的計(jì)數(shù)。以下是兩張相同的正態(tài)分布圖,但是根據(jù)概率和統(tǒng)計(jì)來進(jìn)行標(biāo)記:

 

 

在概率的正態(tài)分布中,最高點(diǎn)表示發(fā)生概率最大的事件。離這個(gè)事件越遠(yuǎn),概率下降越厲害,最后形成一個(gè)鐘的形狀。而在統(tǒng)計(jì)的正態(tài)分布中,最高點(diǎn)代表均值,與概率中的情況類似,離均值越遠(yuǎn),頻率下降越厲害。也就是說,兩端的點(diǎn)與均值存在極高的偏差,且樣本非常罕見。

如果你通過正態(tài)分布懷疑概率和統(tǒng)計(jì)之間存在另一種關(guān)系,那么你沒猜錯(cuò)!我們將在本文后面探討這種重要關(guān)系,先別著急。

既然打算用質(zhì)量分?jǐn)?shù)的分布來比較不同的葡萄酒,我們需要設(shè)置一些條件來搜索感興趣的葡萄酒。我們將收集葡萄酒的數(shù)據(jù),然后分離出一些感興趣的葡萄酒質(zhì)量分?jǐn)?shù)。

為了取得數(shù)據(jù),我們需要以下代碼:

數(shù)據(jù)以表格形式顯示在下面。我們需要 points 列,所以我們將把它提取到自己的列表中。一位葡萄酒專家告訴我們匈牙利的托卡伊白葡萄酒非常棒,而一位朋友則建議我們以意大利的藍(lán)布魯斯科紅葡萄酒開始入手。我們可以用數(shù)據(jù)來比較這些葡萄酒!

如果你不記得數(shù)據(jù)是什么樣子的,下面有一個(gè)簡(jiǎn)要的表格供你參考和重新了解。

 

 

如果把每組質(zhì)量分?jǐn)?shù)可視化為正態(tài)分布,我們可以根據(jù)它們所處的位置立即判斷兩種分布是否相同,但如下所示用這種方法很快會(huì)遇到問題。因?yàn)槲覀冇写罅繑?shù)據(jù),所以假設(shè)分?jǐn)?shù)會(huì)呈正態(tài)分布。雖然這種假設(shè)在這里沒問題,但實(shí)際上這么做很危險(xiǎn),這點(diǎn)將在稍后討論。

 

 

當(dāng)兩個(gè)分?jǐn)?shù)分布重疊太多時(shí),最好假設(shè)你的分?jǐn)?shù)是來自同一個(gè)而非不同的分布。在另一種極端即兩個(gè)分布沒有重疊的情況下,可以安全地假設(shè)它們來自不同的分布。麻煩在于有些重疊的情況比較特殊。例如,一個(gè)分布的極高點(diǎn)可能與另一個(gè)分布的極低點(diǎn)相交,這種情況下我們?cè)撊绾闻袛噙@些分?jǐn)?shù)是否來自不同的分布。

因此,我們?cè)俅纹谕龖B(tài)分布可以給我們一個(gè)答案,并在統(tǒng)計(jì)學(xué)和概率之間架起一座橋梁。

重新審視正態(tài)分布

正態(tài)分布對(duì)概率和統(tǒng)計(jì)學(xué)來說至關(guān)重要,原因有二:中心極限定理和 3σ 準(zhǔn)則。

中心極限定理

在上一節(jié)中,我們展示了如果把擲硬幣的試驗(yàn)重復(fù)十次,正面朝上的平均結(jié)果將接近理想的 50%。隨著試驗(yàn)次數(shù)的增加,平均結(jié)果會(huì)越接近真實(shí)概率,即使個(gè)別試驗(yàn)本身并不完美。這種想法或數(shù)學(xué)上稱為依概收斂就是中心極限定理的一個(gè)關(guān)鍵原則。

在擲硬幣的例子中,一次試驗(yàn)扔 10 次硬幣,我們會(huì)估計(jì)每次試驗(yàn)正面朝上的次數(shù)為 5。之所以是估計(jì),是因?yàn)槲覀冎澜Y(jié)果并沒有那么完美(即,不會(huì)每次都得到 5 次正面朝上的結(jié)果)。如果我們做出很多估計(jì),根據(jù)中心極限定理,這些估計(jì)的分布將看起來像正態(tài)分布,這種分布的頂點(diǎn)或估計(jì)值的期望將與真實(shí)值一致。我們觀察到,在統(tǒng)計(jì)學(xué)中正態(tài)分布的頂點(diǎn)與平均值一致。因此,給定多次「試驗(yàn)」作為數(shù)據(jù),中心極限定理表明,即使我們不知道真正的概率,我們也可以通過數(shù)據(jù)估計(jì)出分布可能的形狀。

中心極限定理讓我們知道多次試驗(yàn)的平均值將接近真實(shí)平均值,而 3σ準(zhǔn)則將告訴我們有多少數(shù)據(jù)將圍繞這個(gè)平均值分布。

3σ 準(zhǔn)則

3σ 準(zhǔn)則(也被稱為經(jīng)驗(yàn)法則或 68-95-99.7 法則),是我們觀察到有多少數(shù)據(jù)落在平均值某一距離內(nèi)的一種表達(dá)。注意,標(biāo)準(zhǔn)差(又名「sigma」)是數(shù)據(jù)觀測(cè)值與平均值之間的平均距離。

3σ 準(zhǔn)則規(guī)定,給定正態(tài)分布,68% 的觀測(cè)值將落在平均值的一個(gè)標(biāo)準(zhǔn)差之間,95% 將落在兩個(gè)標(biāo)準(zhǔn)差以內(nèi),99.7% 將落在三個(gè)標(biāo)準(zhǔn)差以內(nèi)。很多復(fù)雜的數(shù)學(xué)都涉及這些值的推導(dǎo),因此,具體不在本文的討論范圍之內(nèi)。關(guān)鍵是要知道,3σ 準(zhǔn)則使我們能夠了解正態(tài)分布的不同區(qū)間內(nèi)分別包含了多少數(shù)據(jù)。下圖是對(duì) 3σ 準(zhǔn)則所代表內(nèi)容的總結(jié)。

 

 

我們將把這些概念與葡萄酒數(shù)據(jù)聯(lián)系起來。根據(jù)假設(shè),作為一個(gè)品酒師,我們想知道與普通葡萄酒相比,霞多麗白葡萄酒和黑皮諾葡萄酒更受歡迎的程度。我們收集了成千上萬條關(guān)于葡萄酒的評(píng)論,而根據(jù)中心極限定理,這些評(píng)論的平均分?jǐn)?shù)應(yīng)該與葡萄酒質(zhì)量(由評(píng)論者判斷)的「真實(shí)」表征一致。

雖然 3σ 準(zhǔn)則說明了你的數(shù)據(jù)有多少在已知值范圍內(nèi),但它也說明了極端值的罕見性。任何偏離平均值三個(gè)標(biāo)準(zhǔn)差的值都應(yīng)小心處理。通過 3σ準(zhǔn)則和 Z-score,我們最終可以通過數(shù)值度量霞多麗白葡萄酒、黑皮諾葡萄酒與普通葡萄酒的區(qū)別程度。

Z-score

Z-score 是一個(gè)簡(jiǎn)單的計(jì)算,它回答了這樣一個(gè)問題:「給定一個(gè)數(shù)據(jù)點(diǎn),它離平均值有多少標(biāo)準(zhǔn)差?」下面是 Z-score 方程:

 

 

Z-score 本身并沒有給你提供很多少信息。但當(dāng)與一個(gè) Z-table 比較時(shí),它就非常有價(jià)值,該表列出了一個(gè)標(biāo)準(zhǔn)正態(tài)分布的累積概率,直到給定 Z-score。標(biāo)準(zhǔn)正態(tài)分布是平均值為 0、標(biāo)準(zhǔn)差為 1 的正態(tài)分布。即使我們的正態(tài)分布不是標(biāo)準(zhǔn)的,Z-score 也允許我們參考 Z-table。

累積概率(或稱為概率分布函數(shù))是給定點(diǎn)出現(xiàn)之前所有值的概率之和。一個(gè)簡(jiǎn)單的例子是平均值本身。平均值是正態(tài)分布的正中間部分,所以我們知道從左向右取值到平均值的所有概率之和為 50%。如果你想計(jì)算標(biāo)準(zhǔn)差之間的累計(jì)概率,3σ準(zhǔn)則的值實(shí)際上會(huì)出現(xiàn)。下圖是累積概率的可視化圖。

 

 

所有概率之和必須等于 100%,所以我們用 Z-table 來計(jì)算正態(tài)分布下 Z-score 兩邊的概率。

 

 

這種超過某個(gè) Z-score 的概率計(jì)算對(duì)我們很有用。它讓我們從「一個(gè)值離平均值有多遠(yuǎn)?」的問題升級(jí)到「一個(gè)值與同一組觀測(cè)值的平均值相差特定距離的可能性有多大?」因此,從 Z-score 和 Z-table 得出的概率將回答我們關(guān)于葡萄酒的問題。

看起來朋友的推薦并不是很好!為了本文的目的,我們把托卡伊白葡萄酒和藍(lán)布魯斯科紅葡萄酒的分?jǐn)?shù)都視為正態(tài)分布。因此,每種葡萄酒的平均分?jǐn)?shù)將代表它們?cè)谫|(zhì)量方面的「真實(shí)」分?jǐn)?shù)。我們將計(jì)算 Z-score,看看托卡伊白葡萄酒的平均值與藍(lán)布魯斯科紅葡萄酒的平均值相差多少。

答案是差距很小。但這到底意味著什么?這種概率的無窮小量可能需要詳細(xì)解釋。

假設(shè)托卡伊白葡萄酒和藍(lán)布魯斯科紅葡萄酒的質(zhì)量沒有什么差別。也就是說,二者的品質(zhì)差不多。同樣,由于葡萄酒之間的個(gè)體差異,這些葡萄酒的分?jǐn)?shù)會(huì)有一些分散。根據(jù)中心極限定理,如果我們制作這兩種葡萄酒分?jǐn)?shù)的直方圖,將會(huì)產(chǎn)生服從正態(tài)分布的質(zhì)量分?jǐn)?shù)。

現(xiàn)在,我們可以利用一些數(shù)據(jù)計(jì)算出這兩種葡萄酒的平均值和標(biāo)準(zhǔn)差。這些值可以檢驗(yàn)它們的品質(zhì)是否相似。我們將使用藍(lán)布魯斯科紅葡萄酒分?jǐn)?shù)作為基礎(chǔ),并比較了托卡伊白葡萄酒的平均分?jǐn)?shù),反過來做也很簡(jiǎn)單。唯一不同的是負(fù) Z-score。

Z-score 為 4.01!假設(shè)托卡伊和藍(lán)布魯斯科的品質(zhì)相似,根據(jù) 3σ準(zhǔn)則,99.7% 的數(shù)據(jù)應(yīng)該在 3 個(gè)標(biāo)準(zhǔn)差范圍內(nèi)。在托卡伊和藍(lán)布魯斯科被視為品質(zhì)相同的情況下,遠(yuǎn)離質(zhì)量分?jǐn)?shù)平均值的概率非常非常小。這種概率如此之小,以至于我們不得不考慮相反的情況:如果托卡伊不同于藍(lán)布魯斯科,將會(huì)產(chǎn)生不同的分?jǐn)?shù)分布。

此處我們仔細(xì)選擇了措辭:我沒有說「托卡伊比藍(lán)布魯斯科好」。因?yàn)槲覀冇?jì)算了這種概率,雖然微觀上很小,但不是零。確切地,可以說托卡伊和藍(lán)布魯斯科絕對(duì)不是來自同一個(gè)分布,但不能就此說其中一種比另一種更好或更差。

這種推理屬于推理統(tǒng)計(jì)的范疇,而本文只想做一個(gè)簡(jiǎn)單的介紹。本文介紹了很多概念,所以如果你覺得有些頭疼,不妨回頭慢慢看。

總結(jié)

我們從描述性統(tǒng)計(jì)開始,然后將其與概率聯(lián)系起來。根據(jù)概率,我們開發(fā)了一種定量顯示兩組分?jǐn)?shù)是否來自同一分布的方法。根據(jù)這種方法,我們比較了別人推薦的兩種葡萄酒,發(fā)現(xiàn)它們很可能來自不相同的質(zhì)量分?jǐn)?shù)分布。也就是說,一種葡萄酒很可能比另一種更好。

統(tǒng)計(jì)不是只屬于統(tǒng)計(jì)學(xué)家的領(lǐng)域,作為一名數(shù)據(jù)科學(xué)家,對(duì)常用的統(tǒng)計(jì)方法有一個(gè)直觀的理解將有助于你構(gòu)建自己的理論,以及隨后測(cè)試這些理論的能力。在這里我們幾乎沒有觸及推理統(tǒng)計(jì),但是同樣的想法將有助于指導(dǎo)理解統(tǒng)計(jì)原理。本文討論了正態(tài)分布的優(yōu)點(diǎn),但是統(tǒng)計(jì)學(xué)家也開發(fā)了非正態(tài)分布的技術(shù)。

原文鏈接:https://www.dataquest.io/blog/basic-statistics-in-python-probability/

標(biāo)簽: seo 安全 代碼 搜索

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:AI從業(yè)者需要應(yīng)用的10種深度學(xué)習(xí)方法(下)

下一篇:醫(yī)療AI應(yīng)該更關(guān)注數(shù)據(jù)還是人?數(shù)據(jù)工程師反思機(jī)器學(xué)習(xí)模型的力量