pyspark原理簡介
概述
這是前段時間在看spark的python支持的時候,簡單過了一下pyspark裏的python代碼,整理了一個大致流程。雖然幾乎不會python,但基本上能看懂pyspark是怎麼讓不同虛擬機之間傳輸數據的、如何在python環境調用java類的、pyspark SDK的豐富程度取決於什麼、需要做些什麼流程和封裝等。
我看了下,應該隻有Pyspark Internals這篇wiki裏介紹了pyspark的實現機製,大體是下麵這張圖就可以表示:
最後更新:2017-04-03 05:39:34