https://github.com/est/cx-extractor

Automatically exported from code.google.com/p/cx-extractor
https://github.com/est/cx-extractor

Last synced: over 1 year ago
JSON representation

Automatically exported from code.google.com/p/cx-extractor

Host: GitHub
URL: https://github.com/est/cx-extractor
Owner: est
Created: 2015-03-15T07:42:19.000Z (over 11 years ago)
Default Branch: master
Last Pushed: 2015-03-15T07:52:52.000Z (over 11 years ago)
Last Synced: 2024-10-30T00:52:50.782Z (over 1 year ago)
Language: HTML
Size: 3.31 MB
Stars: 7
Watchers: 3
Forks: 6
Open Issues: 5
Metadata Files:
- Readme: Readme.txt

Awesome Lists containing this project

README

建议：

1. 如果要提取娱乐类的网页，尤其是在图片把正文分割的比较支离破碎时，
建议用Java版代码。Java版实现时对多个正文片段进行合并，可以很好
的处理这一问题。但缺点是正文结尾可能会有少许噪声。

2. Perl和PHP的实现版本，一遍扫描只求最大行块，不进行拼接。如果出
现特别支离破碎的正文时，可能会有丢失。但优点是边缘的噪声去除的
很好。

有任何问题，欢迎随时联系我：）
****************************************
陈鑫
Email: cx3180@gmail.com
Blog: http://hi.baidu.com/爱心同盟_陈鑫
****************************************

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/est/cx-extractor

Awesome Lists containing this project

README