https://github.com/zhaoqize/node-cnblogs-spider
Node实现的虫子--爬取博客园文章
https://github.com/zhaoqize/node-cnblogs-spider
nodejs spider-cnblogs
Last synced: 3 months ago
JSON representation
Node实现的虫子--爬取博客园文章
- Host: GitHub
- URL: https://github.com/zhaoqize/node-cnblogs-spider
- Owner: zhaoqize
- License: mit
- Created: 2016-11-27T05:08:25.000Z (over 8 years ago)
- Default Branch: master
- Last Pushed: 2018-02-19T08:52:56.000Z (over 7 years ago)
- Last Synced: 2025-02-15T05:15:24.417Z (4 months ago)
- Topics: nodejs, spider-cnblogs
- Language: HTML
- Homepage:
- Size: 37.1 KB
- Stars: 1
- Watchers: 3
- Forks: 3
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
README
[](https://travis-ci.org/zhaoqize/node-cnblogs-spider)
[](https://github.com/zhaoqize/weex-cnode/blob/master/LICENSE)
[]()
[](https://www.oschina.net/search?scope=project&q=node-cnblogs-spider)[](https://nodei.co/npm/node-cnblogs-spider/)
## spider_cnblogs
spider_cnblogs 是专门爬取博客园的文章并自动将文章转成 `.md` 存储至本地的爬虫。## 安装
```js
npm install node-cnblogs-spider --save
```## 使用
```js
var ncs = require('node-cnblogs-spider')
ncs([
http://xxxx,
http://xxxx
])
```## 示例
## 依赖
[to-markdown]() 将`html`转`md`[cheerio]() 类似于`Sizzle`的`nodejs`的实现
[bluebird]() 是对`es6`种`Promise`方法的封装与`ose`展库
## 文档
- [[译] NodeJS 错误处理最佳实践](https://segmentfault.com/a/1190000002741935)
- [Nodejs异步异常处理domain](http://blog.fens.me/nodejs-core-domain/)
- 使用Promise尽量脱离回调地狱,使得代码可读性更高
- html转md格式的包还是有缺陷的,不然完美展现出`.md`
- 生成本地文件使用的是stream实现,效率更高。但是要注意文件的命名规范。## License
MIT