閱讀327 返回首頁    go 阿裏雲 go 技術社區[雲棲]


每個數據科學專家都應該知道的六個概率分布

介紹

假設你是一所大學的老師。在對一周的作業進行了檢查之後,你給所有的學生打了分數。你把這些打了分數的論文交給大學的數據錄入人員,並告訴他創建一個包含所有學生成績的電子表格。但這個人卻隻存儲了成績,而沒有包含對應的學生。

他又犯了另一個錯誤,在匆忙中跳過了幾項,但我們卻不知道丟了誰的成績。我們來看看如何來解決這個問題吧。

一種方法是將成績可視化,看看是否可以在數據中找到某種趨勢。

上麵展示的圖形稱為數據的頻率分布。其中有一個平滑的曲線,但你注意到有一個異常情況了嗎?在某個特定的分數範圍內,數據的頻率異常低。所以,最準確的猜測就是丟失值了,從而導致在分布中出現了凹陷。

這個過程展示了你該如何使用數據分析來嚐試解決現實生活中的問題。對於任何一位數據科學家、學生或從業者來說,分布是必須要知道的概念,它為分析和推理統計提供了基礎。

雖然概率為我們提供了數學上的計算,而分布卻可以幫助我們把內部發生的事情可視化。

在本文中,我將介紹一些重要的概率分布,並會清晰全麵地對它們進行解釋。

注意:本文假設你已經具有了概率方麵的基本知識。如果沒有,可以參考這篇有關概率基礎的文章。

目錄

  1. 常見的數據類型
  2. 分布的類型     2.1. 伯努利分布     2.2. 均勻分布     2.3. 二項分布     2.4. 正態分布     2.5. 泊鬆分布     2.6. 指數分布
  3. 各個分布之間的關係

常見的數據類型

在開始詳細講述分布之前,先來看看我們會遇到哪些種類的數據。數據可以分為離散的和連續的。

離散數據:顧名思義,隻包含指定的值。例如,當你投骰子的時候,輸出結果隻可能是1、2、3、4、5或6,而不可能出現1.5或2.45。

連續數據:可以在給定的範圍內取任何值。範圍可以是有限的,也可以是無限的。例如,女孩的體重或身高、路程的長度。女孩的體重可以是54千克、54.5千克,或54.5436千克。

現在我們開始學習分布的類型。

分布的類型

伯努利分布

我們首先從最簡單的分布伯努利分布開始。

伯努利分布隻有兩種可能的結果,1(成功)和0(失敗)。因此,具有伯努利分布的隨機變量X可以取值為1,也就是成功的概率,可以用p來表示,也可以取值為0,即失敗的概率,用q或1-p來表示。

概率質量函數由下式給出:px(1-p)1-x, 其中x € (0, 1)。它也可以寫成:

成功與失敗的概率不一定相等。這裏,成功的概率(p)與失敗的概率不同。所以,下圖顯示了我們之間比賽結果的伯努利分布。

這裏,成功的概率 = 0.15,失敗的概率 = 0.85 。如果我打了你,我可能會期待你向我打回來。任何分布的基本預期值是分布的平均值。來自伯努利分布的隨機變量X的期望值如為:

E(X) = 1*p + 0*(1-p) = p

隨機變量與二項分布的方差為:

V(X) = E(X²) – [E(X)]² = p – p² = p(1-p)

伯努利分布的例子有很多,比如說明天是否要下雨,如果下雨則表示成功,如果不下雨,則表示失敗。

均勻分布

對於投骰子來說,結果是1到6。得到任何一個結果的概率是相等的,這就是均勻分布的基礎。與伯努利分布不同,均勻分布的所有可能結果的n個數也是相等的。

如果變量X是均勻分布的,則密度函數可以表示為:

均勻分布的曲線是這樣的:

你可以看到,均勻分布曲線的形狀是一個矩形,這也是均勻分布又稱為矩形分布的原因。其中,a和b是參數。

花店每天銷售的花束數量是均勻分布的,最多為40,最少為10。我們來計算一下日銷售量在15到30之間的概率。

日銷售量在15到30之間的概率為(30-15)*(1/(40-10)) = 0.5

同樣地,日銷售量大於20的概率為 = 0.667

遵循均勻分布的X的平均值和方差為:

平均值 -> E(X) = (a+b)/2

方差 -> V(X) =  (b-a)²/12

標準均勻密度的參數 a = 0 和 b = 1,因此標準均勻密度由下式給出:

二項分布

讓我們來看看玩板球這個例子。假設你今天贏了一場比賽,這表示一個成功的事件。你再比了一場,但你輸了。如果你今天贏了一場比賽,但這並不表示你明天肯定會贏。我們來分配一個隨機變量X,用於表示贏得的次數。 X可能的值是多少呢?它可以是任意值,這取決於你擲硬幣的次數。

隻有兩種可能的結果,成功和失敗。因此,成功的概率 = 0.5,失敗的概率可以很容易地計算得到:q = p – 1 = 0.5。

二項式分布就是隻有兩個可能結果的分布,比如成功或失敗、得到或者丟失、贏或敗,每一次嚐試成功和失敗的概率相等。

結果有可能不一定相等。如果在實驗中成功的概率為0.2,則失敗的概率可以很容易地計算得到 q = 1 - 0.2 = 0.8。

每一次嚐試都是獨立的,因為前一次投擲的結果不能決定或影響當前投擲的結果。隻有兩個可能的結果並且重複n次的實驗叫做二項式。二項分布的參數是n和p,其中n是試驗的總數,p是每次試驗成功的概率。

在上述說明的基礎上,二項式分布的屬性包括:

  1. 每個試驗都是獨立的。
  2. 在試驗中隻有兩個可能的結果:成功或失敗。
  3. 總共進行了n次相同的試驗。
  4. 所有試驗成功和失敗的概率是相同的。 (試驗是一樣的)

二項分布的數學表示由下式給出:

成功概率不等於失敗概率的二項分布圖:

現在,當成功的概率 = 失敗的概率時,二項分布圖如下

二項分布的均值和方差由下式給出:

平均值 -> µ = n*p

方差 -> Var(X) = n*p*q

正態分布

正態分布代表了宇宙中大多數情況的運轉狀態。大量的隨機變量被證明是正態分布的。任何一個分布隻要具有以下特征,則可以稱為正態分布:

  1. 分布的平均值、中位數和模式一致。
  2. 分布曲線是鍾形的,關於線 x = μ 對稱。
  3. 曲線下的總麵積為1。
  4. 有一半的值在中心的左邊,另一半在右邊。

正態分布與二項分布有著很大的不同。然而,如果試驗次數接近於無窮大,則它們的形狀會變得十分相似。

遵循正態分布的隨機變量X的值由下式給出:

正態分布的隨機變量X的均值和方差由下式給出:

均值 -> E(X) = µ

方差 -> Var(X) = σ^2

其中,μ(平均)和σ(標準偏差)是參數。
隨機變量X〜N(μ,σ)的圖如下所示。

標準正態分布定義為平均值等於0,標準偏差等於1的分布:

泊鬆分布

假設你在一個唿叫中心工作,一天裏你大概會接到多少個電話?它可以是任何一個數字。現在,唿叫中心一天的唿叫總數可以用泊鬆分布來建模。這裏有一些例子:

  1. 醫院在一天內錄製的緊急電話的數量。
  2. 某個地區在一天內報告的失竊的數量。
  3. 在一小時內抵達沙龍的客戶人數。
  4. 在特定城市上報的自殺人數。
  5. 書中每一頁打印錯誤的數量。

泊鬆分布適用於在隨機時間和空間上發生事件的情況,其中,我們隻關注事件發生的次數。

當以下假設有效時,則稱為**泊鬆分布**

  1. 任何一個成功的事件都不應該影響另一個成功的事件。
  2. 在短時間內成功的概率必須等於在更長的間內成功的概率。
  3. 時間間隔變小時,在給間隔時間內成功的概率趨向於零。

泊鬆分布中使用了這些符號:

  • λ是事件發生的速率
  • t是時間間隔的長
  • X是該時間間隔內的事件數。

其中,X稱為泊鬆隨機變量,X的概率分布稱為泊鬆分布。

令μ表示長度為t的間隔中的平均事件數。那麼,µ = λ*t。

泊鬆分布的X由下式給出:

平均值μ是該分布的參數。 μ也定義為該間隔的λ倍長度。泊鬆分布圖如下所示:

下圖顯示了隨著平均值的增加曲線的偏移情況:

可以看出,隨著平均值的增加,曲線向右移動。

泊鬆分布中X的均值和方差:

均值 -> E(X) = µ
方差 -> Var(X) = µ

指數分布

讓我們再一次看看唿叫中心的那個例子。不同唿叫之間的時間間隔是多少呢?在這裏,指數分布模擬了唿叫之間的時間間隔。

其他類似的例子有:

  1. 地鐵到達時間間隔
  2. 到達加油站的時間
  3. 空調的壽命

指數分布廣泛用於生存分析。從機器的預期壽命到人類的預期壽命,指數分布都能成功地提供結果。

具有**的指數分布**的隨機變量X:

f(x) = { λe-λx,  x ≥ 0

參數 λ>0 也稱為速率。

對於生存分析,λ被稱為任何時刻t的設備的故障率,假定它已經存活到t時刻。

遵循指數分布的隨機變量X的均值和方差為:

平均值 -> E(X) = 1/λ

方差 -> Var(X) = (1/λ)²

此外,速率越大,曲線下降越快,速率越慢,曲線越平坦。下麵的圖很好地解釋了這一點。

為了簡化計算,下麵給出一些公式。

P{X≤x} = 1 – e-λx 對應於x左側曲線下的麵積。

PP{X>x} = e-λx 對應於x右側曲線下的麵積。

P{x1-λx1 – e-λx2, corresponds to the area under the density curve between x1 and x2.

P{x1-λx1 – e-λx2 對應於x1和x2之間地曲線下的麵積。

各種分布之間的關係

伯努利與二項分布之間的關係

  1. 伯努利分布是具有單項試驗的二項式分布的特殊情況。

  2. 伯努利分布和二項式分布隻有兩種可能的結果,即成功與失敗。

  3. 伯努利分布和二項式分布都具有獨立的軌跡。

泊鬆與二項式分布之間的關係

泊鬆分布在滿足以下條件的情況下是二項式分布的極限情況:

  1. 試驗次數無限大或n → ∞。
  2. 每個試驗成功的概率是相同的,無限小的,或p → 0。
  3. np = λ,是有限的。

正態分布與二項式分布之間的關係,以及正態分布與泊鬆分布之間的關係

正態分布是在滿足以下條件的情況下二項分布的另一種限製形式:

  1. 試驗次數無限大,n → ∞。
  2. p和q都不是無限小。

正態分布也是參數λ → ∞的泊鬆分布的極限情況。

指數和泊鬆分布之間的關係

如果隨機事件之間的時間遵循速率為λ的指數分布,則時間長度t內的事件總數遵循具有參數λt的泊鬆分布。

結束語

概率分布在許多領域都很常見,包括保險、物理、工程、計算機科學甚至社會科學,如心理學和醫學。它易於應用,並應用很廣泛。本文重點介紹了日常生活中經常能遇到的六個重要分布,並解釋了它們的應用。現在,你已經能夠識別、關聯和區分這些分布了。

文章原標題《6 Common Probability Distributions every data science professional should know》,作者:RADHIKA NIJHAWAN,譯者:夏天,審校:主題曲。

文章為簡譯,更為詳細的內容,請查看原文

最後更新:2017-09-25 17:04:33

  上一篇:go  米菲代理下單係統
  下一篇:go  9月25日雲棲精選夜讀:阿裏雲發布自研商用關係型數據庫POLARDB