PyConAPAC 2015 Tutorial - Play Probability Modeling and Text Mining

課程簡介

本課程將透由一連串的實作練習,帶領聽眾學習 Probability Modeling 和 Text Mining 的各種技巧!

在課程中,你將會學到:

  • 如何設計,規劃,並建構一個機率模型 (以簡易的樂透下注模型為例)
  • Text Mining 和 Language Modeling 的各種技術
  • 文本分析技巧 (以 PTT 或 Facebook 等論壇文章為例)
  • streaming 文本分析,如何動態抽取新詞,動態觀察熱門關鍵字詞 (可能會搭配 elasticsearch)
  • 文本的分類與分群問題,如何解決?以及如何加速?

不論是在學習任何的事物時,「觀察直覺」以及「實作技術」都是最重要的兩大塊。只有深刻的直覺,才可以駕馭藝術般的實作技術;同樣的,也只有在透徹了解「各種實作技術的缺點與限制」時,才能在許多的碰撞與挫折的經驗中,翠練出深刻的直覺與觀察力。

同樣的,在資料分析的各個領域中,「技術」與「直覺」也常常是相輔相成的,必須一起學習,才能夠深入而淺出!因此,講者特別設計的一套課程,可以讓大家 (甚至是沒作過任何資料分析的人),都可以運用最方便的技術與工具,在最少的操作障礙之下,體驗資料分析中最重要的「技術」與「直覺」。

教學的過程,將採取一個短演講,搭配一個長操作的交替方式進行。在每一個主題的前行短演講中,講者將會介紹該主題中,最重要的「觀察直覺」與「思考哲學」,讓大家可以預先「認識問題」、「思考問題」、「了解問題」、或甚至「換個方式看問題」﹍ (這部份的課程,主要著重於「直覺與觀念的建立」與「創意的發想與思考」。)

而其後所接的操作時段,則是讓大家可以跳脫「憑空想像」,更進一步的「動手去感覺資料」、「和資料互動」、「挖掘問題背後的解答」、並且「感覺解答背後的問題」﹍(這部份的課程,主要著重於「實際的操作並分析資料」與「感覺各種方法的侷限與障礙」。)

課程大綱

[3hrs] Probability Modeling
** What is Probability ?
Probability is in your mind ! 
How to guess the probability ?  
What is the information behind evidences ?
What is a fair coin ?
Why need Probability Modeling ?
What is the difference between Probability Modeling and other methods? 

** Problems in Infinite Dimensional Vector Space
Problems in NLP
Problems in Lottery
Problems in Stocks
Problems in Audio Mining and Computer Vision
Problems in Recommendation System


** Hands-on Probability Modeling with Lottery, Stock and PTT Data
無敵的 Join Probability
像微分般的 Conditional Probability
GroupBy 與 Join Probability
兩種不同的 DataFrame:
States Table
Pivot Table
Pivot Table 與 Conditional Probability

** Hands-on Language Modeling
N-Gram Models
Model Smoothing
backoff models
construct new Probability Model from old Probability Models

** Hands-on Advanced Probability Models
Graphical Models
Conditional Random Fields
Sturcture Learning Models (不一定有時間講到)
Markov Random Fields (不一定有時間講到)

講師

1. 張家齊 (c3h3)

講者是一位熱愛分析資料的工程師,熱愛分析資料,建立模型,討論數學。

常出沒各種類似的場子,也常常舉辦類似的活動,像 Taiwan R User Group 社群和 MLDM Monday 聚會等等。同時,喜歡於各大會議分享相關的使用心得與經驗。

以往演講:

2. 陳嘉葳 (Jiawei)

Taiwan R User Group Co-Organizer,目前為台灣某電子商務資料工程師

曾在社群分享中文自然語言處理與網路新詞挖掘等相關主題, 平常喜歡研究機率圖模型、網路意見挖掘、即時事件/異常行為偵測等相關技術,歡迎和大家一起討論交流。

以往演講:

3. 張富傑(Mark Chang)

畢業於臺大電子所,目前為台灣某雲端服務公司的演算法工程師,也是g0v社群的工程師。喜歡資訊檢索與自然語言處理等相關技術,曾在社群分享過如何用程式自動產生藏頭詩,喜歡與大家分享理論與實務經驗。

以往演講:

淡江大學台北校區 (捷運東門站) 404 教室 / 台北市金華街199巷5號

Event Tickets

Ticket Type Sale Period Price
Regular / 一般票

2015/04/20 10:00(+0800) ~ 2015/05/31 17:00(+0800) End of Sale
  • TWD$5,000
Student / 學生票

2015/04/20 10:00(+0800) ~ 2015/05/31 17:00(+0800) End of Sale
  • TWD$3,500
Next Step