Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/j-hoplin/naver_news_headtopic_news_scraper
네이버 뉴스에서 헤드라인 뉴스 스크레이핑
https://github.com/j-hoplin/naver_news_headtopic_news_scraper
crawler naver-news scraper
Last synced: about 1 month ago
JSON representation
네이버 뉴스에서 헤드라인 뉴스 스크레이핑
- Host: GitHub
- URL: https://github.com/j-hoplin/naver_news_headtopic_news_scraper
- Owner: J-Hoplin
- Created: 2020-06-20T13:20:13.000Z (over 4 years ago)
- Default Branch: deletescriptTag
- Last Pushed: 2021-01-05T13:14:22.000Z (about 4 years ago)
- Last Synced: 2024-01-15T21:58:49.265Z (12 months ago)
- Topics: crawler, naver-news, scraper
- Language: Python
- Homepage:
- Size: 127 KB
- Stars: 1
- Watchers: 2
- Forks: 1
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
Naver News Scraper : Topic by Topic
===
***1 . 기능 : [네이버 뉴스](https://news.naver.com/)를 보시면 각 분야(ex : 정치, 경제, 그날의 헤드라인 등)의 대표 뉴스들이 있습니다. 그 시간대(이 크롤러를 실행하는 시점)의 대표 뉴스들의 제목, 링크, 기사 내용 텍스트를 가져와서 JSON으로 저장하는 크롤러입니다
2 . [코드](https://github.com/J-hoplin1/Naver_News_Headtopic_News_Scraper/blob/master/Naver_News_Scraper_Algorithm/Basic_Crawler.py)
3 . [예시 JSON](https://github.com/J-hoplin1/Naver_News_Headtopic_News_Scraper/blob/master/Naver_News_Scraper_Algorithm/NaverNewsHeadlineScrape_2020-06-21.json)
***
- 2020 / 12 / 14
- Bug fix : http.client.RemoteDisconnected: Remote end closed connection without response 라는 메세지의 에러가 발생
- Fix : Header에 User-Agent값을 넣어서 봇으로 인식하는것을 방지
- TODO : asyncio 모듈을 활용하여 비동기적 scraping 처리- 2021 / 01 / 05
- Bug fix : [불필요한 script tag의 주석 text가 기사문에 함께 반환되는것을 방지](https://github.com/J-hoplin1/Naver_News_Headtopic_News_Scraper/blob/0454da61755f1f69e0b507a242fb41fe6cf1e1e9/Naver_News_Scraper_Algorithm/Basic_Crawler.py#L51)