兼讀制
大數據 中級課程
課程大綱
由數據開始 漫遊數據海洋
網頁刮取
網頁刮取乃是現今數據科學界不可或缺的一部份。眾所周知,大部份有用的數據,都並非以開放數據API型式發佈,而是以普通網頁的形式發佈。本部份將會教授使用功能全面的網頁刮取工具———Puppeteer,由熱門網站中掫取數據,連單頁面應用程式亦能輕鬆處理,同時亦會使用世上最廣泛使用的程式環境NodeJS。
此部份將深入探討以下內容:
- Node環境
- Node套件
- Puppeteer
- 實例分析
NoSQL數據資料庫
Firebase為一個NoSQL文件面向之雲端資料庫,開發者可以運用Firebase,無端很多繁瑣設定之下,就能輕易儲存大量數據。 Firebase深受初學者喜愛,非常適合儲存大數據時代之非結構化數據
此部份將深入探討以下內容:
- 雲端NoSQL資料庫Firebase
- 以Node存取Firebase
- 將已刮取的內容以Firebase儲存
Python入門
Python是數據科學界最多人使用的程式語言,本部份將教授基本環境設置、開發工具、Python基本知識,同學將能夠學以致用,再進一步學會使用Python的數據科學程式庫。
此部份將深入探討以下內容
- Python環境設置
- Python開發工具
- 基礎及進階Python
數據科學入門
近年有許多數據科學程式庫湧現,大大減輕了數據科學的難度,同學運用這些程式庫,將能夠掫取、清理、視覺化雲端Firebase數據裏的數據,亦能夠進一步處理、分析數據,從而完成一個基礎的資料數據。
此部份將探討以下內容:
- Numpy - 支援高階矩陣運算的程式庫
- Pandas - 多格式數據處理工具
- Seaborn - 統計視覺化工具
- Matplotlib - 2D圖表工具