閱讀753 返回首頁    go Python


玩轉大數據分析!Spark2.X Python 精華實戰課程

課程背景

本套課程策劃非常實用,集合了Python及最新版Spark一起來分析大數據,日常數據分析使用的語言最多的是R或者Python,但是這樣的腳本語言先天隻能在一台機器上發展,不適合分析大數據,因此需要其他大數據軟件來處理,一般的大數據軟件如HADOOP等又不太熟悉。而Spark是由Scala編寫,也推出Pyspark,讓熟悉Python者能夠輕易熟悉操作大數據。

本課程免費試聽課程:https://edu.hellobi.com/course/215

課程特色

手把手實戰教學大數據分析, 結合 Python 以及最新的 Spark 2.x 從0開始掌握大數據.適合:數據分析師,數據科學家,對大數據分析有興趣的同學。

講師介紹

Bryan投身於大數據處理分析超過五年,曾任職美國上市公司資料科學家,同時也是SparkTW創始人之一。

曾任職於程序化廣告,雲端服務以及電信公司。

課前準備

硬體配置

CPU: 4 core 以上

RAM: 8 G 以上

作業係統

CentOS 7.0 +

基礎知識

Bash 基本操作

Python 基本操作

SQL 基本操作

Docker or VM

軟件版本

Spark 2.0+

Python 2.7/3.5+

課程大綱

1、大數據時代

1.1什麼是大數據

1.2大數據與生活

1.3大數據下的分析工具

2、大數據的瑞士刀- Spark

2.1Hadoop與生態係

2.2Spark vs Hadoop

2.3Spark 核心概念

2.4Pyspark 基本操作

2.5SQL in Spark

2.6Spark 與機器學習

3、Spark 實戰環境設定

3.1一分鍾建立 Spark 環境

3.2建立Hadoop 集群

3.3安裝與設定 Spark 集群

3.4安裝與設定 Hive

3.5打造交互式 Spark 環境

4、活用 Pyspark

4.1Python 語法複習

4.2用 Pyspark 建立第一個Spark RDD

4.3RDD 的操作與觀察

4.4RDD 與 Map Reduce

4.5共享變數

4.6RDD 運算實例

4.7撰寫第一隻 Spark 程序

4.8遞交你的 Spark 程序

5、Spark ETL 實戰

5.1認識資料單元格式

5.2觀察資料

5.3選擇,篩選與聚合

5.4儲存數據

5.5用 Spark 建立 SQL Server

6、Spark 與分布式機器學習

6.1認識數據格式

6.2描述統計

6.3資料清理與變形

6.4認識 pipiline

6.5羅吉斯回歸原理與應用

6.6判定樹原理與應用

6.7建立預測模型

天善SVIP

天善智能SVIP全年團課包(包含Excel BI、Python爬蟲案例、Python機器學習、Python數據科學家、大數據、數據分析報告、數據分析師體係、深度學習、R語言案例等10套課程。)隻要1499元火熱報名中!https://www.hellobi.com/svip

備注

課程配套資料請到課程公告下載。

最後更新:2017-10-08 16:56:13

  上一篇:go Python入門公開課
  下一篇:go Python 的學習階段