Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/minsoo-web/py-scraper
python과 selenium을 통해 구현한 네이버 쇼핑몰 리뷰, 연관 검색어 크롤링 앱입니다.
https://github.com/minsoo-web/py-scraper
bs4 flask python scraper selnium
Last synced: 24 days ago
JSON representation
python과 selenium을 통해 구현한 네이버 쇼핑몰 리뷰, 연관 검색어 크롤링 앱입니다.
- Host: GitHub
- URL: https://github.com/minsoo-web/py-scraper
- Owner: minsoo-web
- License: mit
- Created: 2019-11-28T18:10:40.000Z (almost 5 years ago)
- Default Branch: master
- Last Pushed: 2020-12-31T06:35:59.000Z (almost 4 years ago)
- Last Synced: 2024-04-17T04:09:42.834Z (7 months ago)
- Topics: bs4, flask, python, scraper, selnium
- Language: Python
- Homepage:
- Size: 2.37 MB
- Stars: 1
- Watchers: 2
- Forks: 1
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
README
Python Web Scraper
[이미지 출처](https://www.scrapingbee.com/blog/selenium-python/)
## 🚀 What is this
`bs4`와 `selenium`을 이용해서 만든 웹스크레퍼입니다.
1. [네이버 쇼핑몰](https://shopping.naver.com/)의 상세 페이지에서 리뷰들을 가져와 csv 파일로 추출할 수 있습니다.
2. 특정 item의 연관 검색어를 list로 추출할 수 있습니다.
3. 특정 item의 전체 검색 갯수를 int로 추출할 수 있습니다.
4. 네이버 검색에서의 카테고리별 추천 순서를 모바일/데스크톱 화면 기준으로 추출할 수 있습니다.
5. 네이버 검색에서의 섹션 순서를 모바일/데스크톱 화면 기준으로 추출할 수 있습니다.### 리뷰 추출 데이터
> 평점, 판매 회사(구매한 곳), 리뷰 작성 날짜, 제목, 내용
## 🍿 Setup
```bash
# clone this project
$ cd py-scraper
$ pip install -r requirements.txt# 설치 리스트
requests
Flask
beautifulsoup4
bs4
selenium
```## 🔥 Run Program
```bash
# ~/your_work_space/py-scraper
$ python app.py review -u {url} -l {limits of page} # 리뷰 크롤링
$ python app.py related -i {search_item} # 연관 검색어
$ python app.py keyword -i {search_item} # 쇼핑 키워드 순서 추출
```### ✔️ 예제
```bash
# 예제 2 페이지만 스크랩
$ python app.py review -u "https://search.shopping.naver.com/catalog/15784793132?cat_id=50002334&nv_mid=15784793132&query=jbl+free+x" -l 2
# 예제 모든 페이지 스크랩 default 가 모든 페이지입니다. 함축표현 'csv' 로도 가능합니다.
$ python app.py csv -u "https://search.shopping.naver.com/catalog/15784793132?cat_id=50002334&nv_mid=15784793132&query=jbl+free+x"# 인자 값 도움말
$ python app.py --help
```### ✔️ 연관 검색어 예제
```bash
# 네이버 쇼핑에서 제공하는 가디건과 관련된 연관 검색어를 추출
$ python app.py related --item "가디건"
# 함축 표현
$ python app.py re -i "롱패딩"
```### ✔️ 쇼핑 키워드 예제
```bash
# 네이버 검색에서 데스크톱 / 모바일 기준으로 쇼핑 카테고리 + 섹션 순서를 추출
$ python app.py keyword --item "키보드"
$ python app.py key -i "물통"
```### 📷 실행 화면
![실행 화면](./images/run.png)
## 👀 result
### naver_review.csv
```csv
평점,만족도,날짜,제목,내용
1,1,18.10.08,리뷰제목,리뷰내용
1,1,18.10.08,리뷰제목,리뷰내용
1,1,18.10.08,리뷰제목,리뷰내용
1,1,18.10.08,리뷰제목,리뷰내용
...
```### 연관 검색어
![실행 화면](./images/run2.png)
### 쇼핑 키워드
![실행 화면](./images/shop_keyword.png)
### 📷 리뷰 csv 파일
![결과 화면](./images/result.png)