PyCon Taiwan 2018 Tutorial - 老司機帶你飛~手把手使用 PySpark 探索大數據

Tutorial Info 課程說明

Abstract 摘要

Spark 是處理大數據最熱門的框架之一,透過 PySpark 可以方便熟悉 Python 的資料科學家處理大量資料. 本堂課程將手把手實戰教學大數據分析,結合 Python 以及最新的 Spark 2.2 從 0 開始掌握 Spark.

適合:數據分析師,數據科學家,對大數據分析有興趣的同學.

背景知識:需要 linux, hadoop 以及 python 的基本認識

Goal 目標

目標聽眾:數據分析師,數據科學家,對大數據分析有興趣的同學.

  1. 由簡入深熟悉 Spark 的運作原理。
  2. 學會 Spark rdd 的操作方式。
  3. 透過 SparkSQL 讀取資料,觀察資料。
  4. 使用 MLlib 建立機器學習模型。

Speaker Bio 講者介紹

Bryan Yang
講師現任 SparkTW 以及資料工程協會成員,有多年資料分析、處理、以及踩雷的經驗.更多有趣的內容皆在部落格--亂點技能的跨界人生 (https://medium.com/bryanyang0528) 中.

Detail Description 詳細說明

About Apache Spark

Apache Spark 是著名的大數據處理框架.可以幫助使用者處理分散式系統上的資料,支援 Scala, java,以及 python 的 API. Spark 中的 sparkSQL 可以讓使用者讀取各種熱門的資料來源,並以近似 SQL 的語句來處理資料,常用於 ETL 以及資料清洗上.sparkML 則內建多種分散式機器學習方法,可以幫助使用者在分散式系統上分析資料與建模.

official website: https://spark.apache.org/

Outline 大綱

  1. Spark 簡介 (50min)
  2. RDD 原理 (50min)
  3. 安裝環境 (20min)
  4. RDD 動手做 (50 min)
  5. SparkSQL 做資料處理 (90 min)
  6. 訓練一個 ML 模型吧 (50 min)

Requirement 要求

  • Linux 環境(如果是Windows 的同學)
  • 安裝 Docker 最新版本

Receipt Policy 發票處理說明

  • Payment receipt will be sent over email.
    可提供發票,我們將寄送電子發票到您的電子信箱。
  • Please provide your Company Name and Unified Business Number.
    請註明統一編號和公司抬頭。
資策會科技服務大樓 102 會議室 / 台北市民生東路四段133號

Event Tickets

Ticket Type Sale Period Price
Student 學生票

2018/04/26 00:00(+0800) ~ 2018/05/27 23:30(+0800) End of Sale
  • TWD$1,500
Regular 一般票

2018/04/26 00:00(+0800) ~ 2018/05/27 23:30(+0800) End of Sale
  • TWD$2,500
Next Step