課程簡介
本課程將透由一連串的實作練習,帶領聽眾學習 Probability Modeling 和 Text Mining 的各種技巧!
在課程中,你將會學到:
- 如何設計,規劃,並建構一個機率模型 (以簡易的樂透下注模型為例)
- Text Mining 和 Language Modeling 的各種技術
- 文本分析技巧 (以 PTT 或 Facebook 等論壇文章為例)
- streaming 文本分析,如何動態抽取新詞,動態觀察熱門關鍵字詞 (可能會搭配 elasticsearch)
- 文本的分類與分群問題,如何解決?以及如何加速?
不論是在學習任何的事物時,「觀察直覺」以及「實作技術」都是最重要的兩大塊。只有深刻的直覺,才可以駕馭藝術般的實作技術;同樣的,也只有在透徹了解「各種實作技術的缺點與限制」時,才能在許多的碰撞與挫折的經驗中,翠練出深刻的直覺與觀察力。
同樣的,在資料分析的各個領域中,「技術」與「直覺」也常常是相輔相成的,必須一起學習,才能夠深入而淺出!因此,講者特別設計的一套課程,可以讓大家 (甚至是沒作過任何資料分析的人),都可以運用最方便的技術與工具,在最少的操作障礙之下,體驗資料分析中最重要的「技術」與「直覺」。
教學的過程,將採取一個短演講,搭配一個長操作的交替方式進行。在每一個主題的前行短演講中,講者將會介紹該主題中,最重要的「觀察直覺」與「思考哲學」,讓大家可以預先「認識問題」、「思考問題」、「了解問題」、或甚至「換個方式看問題」﹍ (這部份的課程,主要著重於「直覺與觀念的建立」與「創意的發想與思考」。)
而其後所接的操作時段,則是讓大家可以跳脫「憑空想像」,更進一步的「動手去感覺資料」、「和資料互動」、「挖掘問題背後的解答」、並且「感覺解答背後的問題」﹍(這部份的課程,主要著重於「實際的操作並分析資料」與「感覺各種方法的侷限與障礙」。)
課程大綱
[3hrs] Probability Modeling ** What is Probability ? Probability is in your mind ! How to guess the probability ? What is the information behind evidences ? What is a fair coin ? Why need Probability Modeling ? What is the difference between Probability Modeling and other methods? ** Problems in Infinite Dimensional Vector Space Problems in NLP Problems in Lottery Problems in Stocks Problems in Audio Mining and Computer Vision Problems in Recommendation System ** Hands-on Probability Modeling with Lottery, Stock and PTT Data 無敵的 Join Probability 像微分般的 Conditional Probability GroupBy 與 Join Probability 兩種不同的 DataFrame: States Table Pivot Table Pivot Table 與 Conditional Probability ** Hands-on Language Modeling N-Gram Models Model Smoothing backoff models construct new Probability Model from old Probability Models ** Hands-on Advanced Probability Models Graphical Models Conditional Random Fields Sturcture Learning Models (不一定有時間講到) Markov Random Fields (不一定有時間講到)
講師
1. 張家齊 (c3h3)
講者是一位熱愛分析資料的工程師,熱愛分析資料,建立模型,討論數學。
常出沒各種類似的場子,也常常舉辦類似的活動,像 Taiwan R User Group 社群和 MLDM Monday 聚會等等。同時,喜歡於各大會議分享相關的使用心得與經驗。
以往演講:
- [MLDM Monday] Visualization with Python (part1)
https://www.youtube.com/watch?v=9K3B3OYMtjY - [MLDM Monday] Hacking Models with R
https://www.youtube.com/watch?v=qwG3e_wjbZ4 - [COSCUP 2013] 不寫程式也可以玩 Data -- Orange 套件使用與外掛開發
https://www.youtube.com/watch?v=escsixrqG6M - [PyConTW 2013] 超級比一比 比字、比價、比商品
https://www.youtube.com/watch?v=bL4zZNnkeRw
2. 陳嘉葳 (Jiawei)
Taiwan R User Group Co-Organizer,目前為台灣某電子商務資料工程師
曾在社群分享中文自然語言處理與網路新詞挖掘等相關主題, 平常喜歡研究機率圖模型、網路意見挖掘、即時事件/異常行為偵測等相關技術,歡迎和大家一起討論交流。
以往演講:
- [MLDM Monday] 中文自然語言處理 - word2vec
http://www.meetup.com/Taiwan-R/events/190510772/ - [資料科學愛好者年會] 非結構化資料處理
http://twconf.data-sci.org/agenda/tutorial/
3. 張富傑(Mark Chang)
畢業於臺大電子所,目前為台灣某雲端服務公司的演算法工程師,也是g0v社群的工程師。喜歡資訊檢索與自然語言處理等相關技術,曾在社群分享過如何用程式自動產生藏頭詩,喜歡與大家分享理論與實務經驗。
以往演講:
- [MLDM Monday] 藏頭詩自動產生器
http://www.meetup.com/Taiwan-R/events/220410044/