《大數據算法》一1.4 本書的內容
本節書摘來異步社區《大數據算法》一書中的第1章 ,第1.4節,王宏誌 編著, 更多章節內容可以訪問雲棲社區“異步社區”公眾號查看。
1.4 本書的內容
基於大數據的定義、大數據算法的定義以及大數據算法的特點,本書按照如下方式組織:
第一部分是亞線性算法,包括時間亞線性算法(第2章)和空間亞線性算法(第3章),其中包括如何利用近似算法和隨機化算法設計思想來設計和分析亞線性算法。
第二部分是外存算法,將討論如何麵向外存來設計I/O有效的算法,包括外存算法概述(第4章)、外存查找結構(第5章)和外存圖數據算法(第6章)。
第三部分是並行算法,由於並行算法的內容非常廣泛,本書僅介紹數據密集型並行算法,包括MapReduce算法概述(第7章)、MapReduce算法例析(第8章)和超越MapReduce的並行大數據處理(第9章)。
最後,第10章介紹眾包算法,討論如何利用眾包解決問題,使用眾包時有哪些算法設計問題。
由於本書篇幅有限,覆蓋的內容偏廣,每一部分算法的例子有限,如果讀者想進一步了解更多的例子,請閱讀相應的文獻。
習題
1.1 談談對“大數據”這個詞的理解,以及對業界競爭關係的分析和未來發展方向的判斷。
1.2 請舉出需要亞線性算法的實例,並說明何種問題需要何種資源的亞線性。
1.3 請針對你所了解的推薦係統,討論推薦係統中需要哪些大數據算法。
1.4 請說出你所接觸過的最大數據量,以及在這種大數據量的數據上進行了何種計算,運用了何種大數據算法。
最後更新:2017-06-21 13:02:02