https://github.com/martjanz/vizcacha

Web scrapers using Scrapy framework to collect prices from online supermarkets and other sources.
https://github.com/martjanz/vizcacha

prices python scraping scrapy

Last synced: 6 months ago
JSON representation

Web scrapers using Scrapy framework to collect prices from online supermarkets and other sources.

Host: GitHub
URL: https://github.com/martjanz/vizcacha
Owner: martjanz
Created: 2017-02-03T04:43:54.000Z (over 8 years ago)
Default Branch: master
Last Pushed: 2017-10-13T06:31:34.000Z (about 8 years ago)
Last Synced: 2024-08-01T22:49:11.899Z (about 1 year ago)
Topics: prices, python, scraping, scrapy
Language: Python
Homepage:
Size: 23.4 KB
Stars: 11
Watchers: 3
Forks: 7
Open Issues: 1
Metadata Files:
- Readme: README.md

Awesome Lists containing this project

README

# Vizcacha

Recolectores de precios de supermercados y otros catálogos usando
[Scrapy](https://scrapy.org/) Framework.

## Primero
Salvo el de Walmart, el resto de los scrapers estaban funcionando al menos hasta
mediados de 2016. Dado que los scrapers dependen directamente de la estructura
del sitio web posiblemente ahora (casi un año después) no funcionen correctamente.

Cuando vayas a ejecutar cada crawler chequeá antes su correspondiente `settings.py`,
donde se determinan los límites de conexiones simultáneas, cantidad de requests
por segundo, etc. Un request por segundo es una buena medida. Más que eso es vicio.

## Crawlers

Todos supermercados online, salvo donde se aclara.

* [Coto Digital](www.cotodigital.com.ar)
* [Disco.com.ar](http://disco.com.ar/)
* [Jumbo Supermercado Online](https://www.jumbo.com.ar/)
* [Kairos Web](http://ar.kairosweb.com/) (vademecum de medicamentos)
* [Tu Alacena](http://tualacena.com/) (agregador de precios de supermercados)
* [Vea Digital](http://veadigital.com.ar/)
* [Walmart Online](http://walmartonline.com.ar/)

## Requerimientos

* Git
* Python
* pip (Python Package Manager)
* Virtualenv (Python Virtual Environment Builder)

```sh
# Para instalarlo
pip install virtualenv
```

## Instalación

* Cloná este repositorio

```sh
git clone http://github.com/martjanz/vizcacha
```

* Entrá al directorio

```sh
cd scrawls
```

* Creá y activá el entorno virtual Python

```sh
virtualenv venv
source venv/bin/activate
```

* Instalá dependencias

```
pip install -r requirements.txt
```

## Uso

Un ejemplo: para scrapear precios de Coto Digital a un archivo separado por comas (_.csv_).

```sh
# Si no tenés activado el entorno virtual...
source venv/bin/activate

# ...y luego
cd coto
scrapy crawl coto_articles -o ../coto.csv
```

## Colaboraciones, a voluntad
Cualquier mejora o correción va a ser muy bienvenida. Para eso:
1. Hacé un fork de este repo.
2. Hacé commits (en tu repo) con los cambios.
3. Mandame un Pull Request con los cambios explicando qué cambiaste o agregaste.

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/martjanz/vizcacha

Awesome Lists containing this project

README