兼讀制
大數據 中級課程
課程大綱
由數據開始 漫遊數據海洋
![網頁刮取](/static/00b17b0305affef43177c88b84eacb8c/8d59c/5ced247996faaibd_ws.png)
網頁刮取
網頁刮取乃是現今數據科學界不可或缺的一部份。眾所周知,大部份有用的數據,都並非以開放數據API型式發佈,而是以普通網頁的形式發佈。本部份將會教授使用功能全面的網頁刮取工具———Puppeteer,由熱門網站中掫取數據,連單頁面應用程式亦能輕鬆處理,同時亦會使用世上最廣泛使用的程式環境NodeJS。
此部份將深入探討以下內容:
- Node環境
- Node套件
- Puppeteer
- 實例分析
![JavaScript](/static/a709fc2ddcc03f0f7c2df464de808f04/7ab40/5c2f830312580node.png)
![Puppeteer](/static/a38452e8a11af6761f3a6db27fdca819/a0db4/5ceb8fd487444lib_puppeteer.png)
![NoSQL數據資料庫](/static/a6f95fa7afc52fb74316084fc6706aaa/8d59c/5ced24784aeb9ibd_db.png)
NoSQL數據資料庫
Firebase為一個NoSQL文件面向之雲端資料庫,開發者可以運用Firebase,無端很多繁瑣設定之下,就能輕易儲存大量數據。 Firebase深受初學者喜愛,非常適合儲存大數據時代之非結構化數據
此部份將深入探討以下內容:
- 雲端NoSQL資料庫Firebase
- 以Node存取Firebase
- 將已刮取的內容以Firebase儲存
![Firebase](/static/b2598d50dc609490c70365710a1c11a1/6a99f/5ceb8f8c4d554ibs_firebase.png)
![Python入門](/static/bc20a3697c488d7dce17ad89c20640a8/8d59c/5ced24792661fibd_python.png)
Python入門
Python是數據科學界最多人使用的程式語言,本部份將教授基本環境設置、開發工具、Python基本知識,同學將能夠學以致用,再進一步學會使用Python的數據科學程式庫。
此部份將深入探討以下內容
- Python環境設置
- Python開發工具
- 基礎及進階Python
![Python](/static/eac37ff10e2406634d30b5b6deed3af8/7ab40/5c303cc9c0cf9python.png)
![數據科學入門](/static/3e30fa275e389d22bd1421cac62bddf0/8d59c/5ced2478b6a91ibd_ds.png)
數據科學入門
近年有許多數據科學程式庫湧現,大大減輕了數據科學的難度,同學運用這些程式庫,將能夠掫取、清理、視覺化雲端Firebase數據裏的數據,亦能夠進一步處理、分析數據,從而完成一個基礎的資料數據。
此部份將探討以下內容:
- Numpy - 支援高階矩陣運算的程式庫
- Pandas - 多格式數據處理工具
- Seaborn - 統計視覺化工具
- Matplotlib - 2D圖表工具
![Matplotlib](/static/70b2a87f5f65a34b92fe00fb896c1433/7ab40/5c2c3b8417f092000px-Created_with_Matplotlib-logo.svg.png)
![NumPy](/static/873627467f6fc64a216ed02248f0fb78/82a4d/5c303e29b371fnumpy.png)