https://github.com/alincode/learning-web-crawler

web-crawler

Last synced: 6 months ago
JSON representation

Host: GitHub
URL: https://github.com/alincode/learning-web-crawler
Owner: alincode
License: mit
Created: 2017-02-20T08:58:10.000Z (over 9 years ago)
Default Branch: master
Last Pushed: 2021-02-25T00:52:40.000Z (over 5 years ago)
Last Synced: 2025-04-18T11:37:36.804Z (over 1 year ago)
Topics: web-crawler
Homepage: https://alincode.github.io/learning-web-crawler/
Size: 998 KB
Stars: 1
Watchers: 1
Forks: 1
Open Issues: 0
Metadata Files:
- Readme: README.md
- License: LICENSE

Awesome Lists containing this project

README

# 簡介

紀錄研究網路爬蟲時寫的筆記

## 緒

什麼是研究 Big Data 第一步要做的事？

> 大數據必須藉由計算機對資料進行統計、比對、解析方能得出客觀結果。 >>> [Wiki](https://zh.wikipedia.org/wiki/%E5%A4%A7%E6%95%B8%E6%93%9A)

所以我們得先要有資料，才有所謂的大數據分析，如果你分析的資料可由公司內部的資料庫取出，那非常幸運的你不需要操心這件事，但是往往我們沒這麼幸運，於是我們得辛苦的把這些資料爬回來。我們把這個辛苦的工兵叫[網路爬蟲(Crawler)](https://zh.wikipedia.org/wiki/%E7%B6%B2%E8%B7%AF%E8%9C%98%E8%9B%9B)。

### 作者

劉艾霖

* 軟體技術顧問 / 遠端工作者 / 自由工作者
* 技術社群講者 / 企業內訓講師 / 大專院校產學合作業師
* 網站開發家教 (線上一對一教學，有需求者，請來信詢問)
* alincode@gmail.com

### 作者簡介

是全端工程師、後端工程師、測試開發工程師、企業內訓講師，具有 7~8 年軟體開發相關資歷，專精於網站開發及協助技術導入與培訓。

### 教學 / 講師經歷

* 16/06/25 CTJS - 講者 light talk 淺談 WebdriverIO 測試框架
* 16/07/20 Trunk studio - 講者 WebdriverIO 起手式
* 16/08/24-25 Modern Web 2016 - 講者無痛前端測試
* 16/10/22-23 JSDC.tw 2016 - 講者淺談網站自動化測試 - 以 WebdriverIO 框架為例
* 16/12 正修科技大學 HTML5 TQC 輔導考照
* 2017 啟德電子 - 企業內訓課程 Bootstrap

### 勘誤通知

如發現內容勘誤，歡迎利用這些管道和我們聯繫：

* 使用 GitHub Issues 回報錯誤或發 pull request。
* 寄信到 alincode@gmail.com

### 分享的主題

* 透過熟悉爬蟲框架，來瞭解爬蟲應該怎麼寫。
* 爬蟲框架幫我們做了什麼事？還有有哪些選擇？
* 如何使用這個爬蟲框架？
* 一個簡單的範例

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/alincode/learning-web-crawler

Awesome Lists containing this project

README