洗牌算法

幾乎所有的程序員都寫過類似於“洗牌”的算法，也就是將一個數組隨機打亂後輸出，雖然很簡單，但是深入研究起來，這個小小的算法也是大有講究。我在麵試程序員的時候，就會經常讓他們當場寫一個洗牌的函數，從中可以觀察到他們對於這個問題的理解和寫程序的基本功。

在深入討論之前，必須先定義出一個基本概念：究竟洗牌算法的本質是什麼？也就是說，什麼樣的洗牌結果是“正確”的？

雲風曾經有一篇博文，專門討論了這個問題，他也給出了一個比較確切的定義，在經過洗牌函數後，如果能夠保證每一個數據出現在所有位置的概率是相等的，那麼這種算法是符合要求的。在這個前提下，盡量降低時間複雜度和空間複雜度就能得到好的算法。

第一個洗牌算法：

隨機抽出一張牌，檢查這張牌是否被抽取過，如果已經被抽取過，則重新抽取，直到找到沒被抽出過的牌，然後把這張牌放入洗好的隊列中，重複該過程，直到所有的牌被抽出。

大概是比較符合大腦對於洗牌的直觀思維，這個算法經常出現在我遇到的麵試結果中，雖然它符合我們對於洗牌算法的基本要求，但這個算法並不好，首先它的複雜度為O(N2)，而且需要額外的內存空間保存已經被抽出的牌的索引。所以當數據量比較大時，會極大降低效率。

第二個算法：

設牌的張數為n，首先準備n個不容易碰撞的隨機數，然後進行排序，通過排序可以得到一個打亂次序的序列，按照這個序列將牌打亂。

這也是一個符合要求的算法，但是同樣需要額外的存儲空間，在複雜度上也會取決於所采用的排序算法，所以仍然不是一個好的算法。

第三個算法：

每次隨機抽出兩張牌交換，重複交換一定次數次後結束

void shuffle(int* data, int length)

{

for(int i=0; i<SWAP_COUNTS; i++)

{

//Rand(min, max)返回[min, max)區間內的隨機數

int index1 = Rand(0, length);

int index2 = Rand(0, length);

std::swap(data[index1], data[index2]);

}

這又是一個常見的洗牌方法，比較有意思的問題是其中的“交換次數”，我們該如何確定一個合適的交換次數？簡單的計算，交換m次後，具體某張牌始終沒有被抽到的概率為((n-2)/n)^m，如果我們要求這個概率小於1/1000,那麼 m>-3*ln(10)/ln(1-2/n),對於52張牌，這個數大約是176次，需要注意的是，這是滿足“具體某張牌”始終沒有被抽到的概率，如果需要滿足“任意一張牌”沒被抽到的概率小於1/1000，需要的次數還要大一些，但這個概率計算起來比較複雜，有興趣的朋友可以試一下。

Update: 這個概率是洗牌算法的學問 - 22andy22 - 22andy22的博客，推算過程可以參考這裏，根據這個概率，需要交換280次才能符合要求

第四個算法：

從第一張牌開始，將每張牌和隨機的一張牌進行交換

void shuffle(int* data, int length)

{

for(int i=0; i<length; i++)

{

int index = Rand(0, length);

std::swap(data[i], data[index]);

}

很明顯，這個算法是符合我們先前的要求的，時間複雜度為O(N)，而且也不需要額外的臨時空間，似乎我們找到了最優的算法，然而事實並非如此，看下一個算法。

第五個算法：

void shuffle(int* data, int length)

{

for(int i=1; i<length; i++)

{

int index = Rand(0, i);

std::swap(data[i], data[index]);

}

一個有意思的情況出現了，這個算法和第三種算法非常相似，從直覺來說，似乎使數據“雜亂”的能力還要弱於第三種，但事實上，這種算法要強於第三種。要想嚴格的證明這一點並不容易，需要一些數學功底，有興趣的朋友可以參照一下這篇論文，或者matrix67大牛的博文，也可以這樣簡單理解一下，對於n張牌的數據，實際排列的可能情況為n! 種，但第四種算法能夠產生n^n種排列，遠遠大於實際的排列情況，而且n^n不能被n!整除，所以經過算法四所定義的牌與牌之間的交換程序，很可能一張牌被換來換去又被換回到原來的位置，所以這個算法不是最優的。而算法五輸出的可能組合恰好是n!種，所以這個算法才是完美的。

事情並沒有結束，如果真的要找一個最優的算法，還是請出最終的冠軍吧！

第六個算法：

void shuffle(int* data, int length)

{

std::random_shuffle(data, data+length);

}

沒錯，用c++的標準庫函數才是最優方案，事實上，std::random_shuffle在實現上也是采取了第四種方法，看來還是那句話，“不要重複製造輪子”

最後更新：2017-04-03 18:51:55

洗牌算法

上一篇： Mysql JDBC驅動版本與Mysql版本的對應問題

下一篇：有關逗號表達式

相關內容

熱門內容

最新內容

洗牌算法

上一篇： Mysql JDBC驅動版本與Mysql版本的對應問題

下一篇： 有關逗號表達式

相關內容

熱門內容

最新內容

下一篇：有關逗號表達式