Tutorial Info 課程說明
Abstract 摘要
Spark 是處理大數據最熱門的框架之一,透過 PySpark 可以方便熟悉 Python 的資料科學家處理大量資料. 本堂課程將手把手實戰教學大數據分析,結合 Python 以及最新的 Spark 2.2 從 0 開始掌握 Spark.
適合:數據分析師,數據科學家,對大數據分析有興趣的同學.
背景知識:需要 linux, hadoop 以及 python 的基本認識
Goal 目標
目標聽眾:數據分析師,數據科學家,對大數據分析有興趣的同學.
- 由簡入深熟悉 Spark 的運作原理。
- 學會 Spark rdd 的操作方式。
- 透過 SparkSQL 讀取資料,觀察資料。
- 使用 MLlib 建立機器學習模型。
Speaker Bio 講者介紹
- Bryan Yang
- 講師現任 SparkTW 以及資料工程協會成員,有多年資料分析、處理、以及踩雷的經驗.更多有趣的內容皆在部落格--亂點技能的跨界人生 (https://medium.com/bryanyang0528) 中.
Detail Description 詳細說明
About Apache Spark
Apache Spark 是著名的大數據處理框架.可以幫助使用者處理分散式系統上的資料,支援 Scala, java,以及 python 的 API. Spark 中的 sparkSQL 可以讓使用者讀取各種熱門的資料來源,並以近似 SQL 的語句來處理資料,常用於 ETL 以及資料清洗上.sparkML 則內建多種分散式機器學習方法,可以幫助使用者在分散式系統上分析資料與建模.
official website: https://spark.apache.org/
Outline 大綱
- Spark 簡介 (50min)
- RDD 原理 (50min)
- 安裝環境 (20min)
- RDD 動手做 (50 min)
- SparkSQL 做資料處理 (90 min)
- 訓練一個 ML 模型吧 (50 min)
Requirement 要求
- Linux 環境(如果是Windows 的同學)
- 安裝 Docker 最新版本
Receipt Policy 發票處理說明
- Payment receipt will be sent over email.
可提供發票,我們將寄送電子發票到您的電子信箱。 - Please provide your Company Name and Unified Business Number.
請註明統一編號和公司抬頭。