107年第2學期-5695 大數據技術平台與應用 課程資訊

評分方式

評分項目 配分比例 說明
出席與討論 20
作業 60
期末考與期末分組專題 20

選課分析

本課程名額為 70人,已有40 人選讀,尚餘名額30人。


登入後可進行最愛課程追蹤 [按此登入]。

授課教師

楊朝棟

教育目標

「巨量資料/大數據(Big Data)」在我們的生活裡已經掀起滔天巨浪,繼雲端運算(Cloud Computing) 之後,儼然成為學術界跟科技業中最熱門的潮字,似乎每家公司都在進行有關的研究,三句不離大數 據。巨量資料時代,統計與資料分析是根本中的根本。數據專家(Data Scientist)或量化分析師(Quantitative Analyst)的專業包含了統計學、電腦科學和數學,過去這些人才都搶著要進華爾街工 作,但多虧了 Big Data 帶來的風潮,現在各行各業都在尋找擁有量化分析、統計學背景的工程師、數據專家。本課程將以實際體驗Hadoop多台主機的分散式叢集架構,做到HDFS分散式儲存和MapReduce的叢集運算,達到Big Data的處理與分析。學習Hadoop儲存系統與資源管理框架及Spark In-Memory巨量資料相關關鍵技術。資料分析軟體及程式語言-Python或R語言做為進入巨量資料分 析的初階基本課程,相信要進大數據一行不成問題。 在大數據技術平台與應用這門課程中,將帶領學生了解當前最當紅的與大數據技術與平台,並利用相關的開放源碼框架實作學習,使學生學習到符合目前與未來發展趨勢的基礎原理與相關的實作技術。從服務雲端化至大數據軟體環境建置及應用實作,達到理論與實務兼備的教學目標。 讓學生暸解與熟悉代表性的巨量資料分析技術之操作、應用與實現的方法 讓學生暸解與熟悉常見的巨量資料運算平台之原理、架構,並實際建置與操作 讓學生暸解與熟悉巨量資料之熱門議題,如:高效能運算(High Performance Computing)、機器學習(Machine Learning)、雲端計算(Cloud Computing)、資料探勘(Data Mining) 提高學生對於巨量資料分析技術與相關應用的興趣,培植國內相關領域之可用人才。 利用實作達到理論與實務兼備的教學目的。 實驗1:Data analytics on single machine,利用巨量資料分析技術(Python或R、Weka或Scikit-Learn)觀察生活現象,在本課程提供了四個搭乘計程車的問題供學生實作。 實驗2:Big Data analytics on Big Data platform,使用Java、Scala或Python在Hadoop平台上運行Spark處理大數據資料,本課程要求學生實作”word count”範例程式作為練習,再將此程式修改並搭配實驗一的題目來做更深入的研究與討論。

課程資訊

參考書目

https://link.springer.com/bookseries/11970 (Big Data)
https://link.springer.com/search?facet-series=%2211970%22&facet-content-type=%22Book%22
https://link.springer.com/book/10.1007/978-3-030-01566-4
https://link.springer.com/book/10.1007/978-3-319-91815-0 (Text Mining)
https://link.springer.com/book/10.1007/978-981-13-0550-4 (Spark)
https://link.springer.com/book/10.1007/978-3-030-03359-0

開課紀錄

您可查詢過去本課程開課紀錄。 大數據技術平台與應用歷史開課紀錄查詢