Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/teslamint/tgd-scrap
Scrapy scripts for crawling article you wrote in tgd.kr
https://github.com/teslamint/tgd-scrap
Last synced: 3 months ago
JSON representation
Scrapy scripts for crawling article you wrote in tgd.kr
- Host: GitHub
- URL: https://github.com/teslamint/tgd-scrap
- Owner: teslamint
- Created: 2024-06-03T15:26:16.000Z (7 months ago)
- Default Branch: main
- Last Pushed: 2024-07-06T02:23:12.000Z (6 months ago)
- Last Synced: 2024-07-06T04:50:32.108Z (6 months ago)
- Language: Python
- Homepage:
- Size: 96.7 KB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# 트게더 작성글 크롤러
[트게더](https://tgd.kr)에 작성한 글을 백업하기 위한 [Scrapy](https://scrapy.org) 스크립트입니다.
## 실행 방법
### Poetry 설치
```bash
# 예) macOS에서 Homebrew로 설치하기
brew install poetry
```### 리포지터리 복제
```bash
git clone https://github.com/teslamint/tgd-scrap
cd tgd-scrap
```### 패키지 설치
```bash
poetry install
```### 트게더 세션 아이디 가져오기
트게더 사이트에 로그인한 후 `tgdsess` 쿠키값을 가져옵니다.
### 스파이더 실행
* 예: JSON 파일로 저장하기
```bash
cd tgd_my
poetry run scrapy crawl my -a tgd_session=[가져온 세션 아이디값] -o [저장할 파일명]:json
```## FAQ
* 403 에러가 나요.
트게더 사이트에 적용된 [CloudFlare](https://www.cloudflare.com) 방화벽에 의해 일시적으로 차단된 상태입니다. 재시도 설정을 추가했기 때문에 실행된 상태로 두고 기다리면 스크랩됩니다.