Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/alincode/learning-web-crawler
https://github.com/alincode/learning-web-crawler
web-crawler
Last synced: 11 days ago
JSON representation
- Host: GitHub
- URL: https://github.com/alincode/learning-web-crawler
- Owner: alincode
- License: mit
- Created: 2017-02-20T08:58:10.000Z (almost 8 years ago)
- Default Branch: master
- Last Pushed: 2021-02-25T00:52:40.000Z (almost 4 years ago)
- Last Synced: 2024-11-06T07:27:10.079Z (about 2 months ago)
- Topics: web-crawler
- Homepage: https://alincode.github.io/learning-web-crawler/
- Size: 998 KB
- Stars: 1
- Watchers: 2
- Forks: 1
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
README
# 簡介
紀錄研究網路爬蟲時寫的筆記
## 緒
什麼是研究 Big Data 第一步要做的事?
> 大數據必須藉由計算機對資料進行統計、比對、解析方能得出客觀結果。 >>> [Wiki](https://zh.wikipedia.org/wiki/%E5%A4%A7%E6%95%B8%E6%93%9A)
所以我們得先要有資料,才有所謂的大數據分析,如果你分析的資料可由公司內部的資料庫取出,那非常幸運的你不需要操心這件事,但是往往我們沒這麼幸運,於是我們得辛苦的把這些資料爬回來。我們把這個辛苦的工兵叫[網路爬蟲(Crawler)](https://zh.wikipedia.org/wiki/%E7%B6%B2%E8%B7%AF%E8%9C%98%E8%9B%9B)。
### 作者
劉艾霖
* 軟體技術顧問 / 遠端工作者 / 自由工作者
* 技術社群講者 / 企業內訓講師 / 大專院校產學合作業師
* 網站開發家教 (線上一對一教學,有需求者,請來信詢問)
* [email protected]### 作者簡介
是全端工程師、後端工程師、測試開發工程師、企業內訓講師,具有 7~8 年軟體開發相關資歷,專精於網站開發及協助技術導入與培訓。
### 教學 / 講師經歷
* 16/06/25 CTJS - 講者 light talk 淺談 WebdriverIO 測試框架
* 16/07/20 Trunk studio - 講者 WebdriverIO 起手式
* 16/08/24-25 Modern Web 2016 - 講者 無痛前端測試
* 16/10/22-23 JSDC.tw 2016 - 講者 淺談網站自動化測試 - 以 WebdriverIO 框架為例
* 16/12 正修科技大學 HTML5 TQC 輔導考照
* 2017 啟德電子 - 企業內訓課程 Bootstrap### 勘誤通知
如發現內容勘誤,歡迎利用這些管道和我們聯繫:
* 使用 GitHub Issues 回報錯誤或發 pull request。
* 寄信到 [email protected]### 分享的主題
* 透過熟悉爬蟲框架,來瞭解爬蟲應該怎麼寫。
* 爬蟲框架幫我們做了什麼事?還有有哪些選擇?
* 如何使用這個爬蟲框架?
* 一個簡單的範例