Ecosyste.ms: Awesome

An open API service indexing awesome lists of open source software.

Awesome Lists | Featured Topics | Projects

https://github.com/alincode/learning-web-crawler


https://github.com/alincode/learning-web-crawler

web-crawler

Last synced: 11 days ago
JSON representation

Awesome Lists containing this project

README

        

# 簡介

紀錄研究網路爬蟲時寫的筆記

## 緒

什麼是研究 Big Data 第一步要做的事?

> 大數據必須藉由計算機對資料進行統計、比對、解析方能得出客觀結果。 >>> [Wiki](https://zh.wikipedia.org/wiki/%E5%A4%A7%E6%95%B8%E6%93%9A)

所以我們得先要有資料,才有所謂的大數據分析,如果你分析的資料可由公司內部的資料庫取出,那非常幸運的你不需要操心這件事,但是往往我們沒這麼幸運,於是我們得辛苦的把這些資料爬回來。我們把這個辛苦的工兵叫[網路爬蟲(Crawler)](https://zh.wikipedia.org/wiki/%E7%B6%B2%E8%B7%AF%E8%9C%98%E8%9B%9B)。

### 作者

劉艾霖

* 軟體技術顧問 / 遠端工作者 / 自由工作者
* 技術社群講者 / 企業內訓講師 / 大專院校產學合作業師
* 網站開發家教 (線上一對一教學,有需求者,請來信詢問)
* [email protected]

### 作者簡介

是全端工程師、後端工程師、測試開發工程師、企業內訓講師,具有 7~8 年軟體開發相關資歷,專精於網站開發及協助技術導入與培訓。

### 教學 / 講師經歷

* 16/06/25 CTJS - 講者 light talk 淺談 WebdriverIO 測試框架
* 16/07/20 Trunk studio - 講者 WebdriverIO 起手式
* 16/08/24-25 Modern Web 2016 - 講者 無痛前端測試
* 16/10/22-23 JSDC.tw 2016 - 講者 淺談網站自動化測試 - 以 WebdriverIO 框架為例
* 16/12 正修科技大學 HTML5 TQC 輔導考照
* 2017 啟德電子 - 企業內訓課程 Bootstrap

### 勘誤通知

如發現內容勘誤,歡迎利用這些管道和我們聯繫:

* 使用 GitHub Issues 回報錯誤或發 pull request。
* 寄信到 [email protected]

### 分享的主題

* 透過熟悉爬蟲框架,來瞭解爬蟲應該怎麼寫。
* 爬蟲框架幫我們做了什麼事?還有有哪些選擇?
* 如何使用這個爬蟲框架?
* 一個簡單的範例