Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/geotribu/scraping_old_site
Outillage d'extraction du contenu de l'ancien site de Geotribu (web scraping, conversion en markdown...)
https://github.com/geotribu/scraping_old_site
drupal-7 html-to-markdown scrapy
Last synced: 6 days ago
JSON representation
Outillage d'extraction du contenu de l'ancien site de Geotribu (web scraping, conversion en markdown...)
- Host: GitHub
- URL: https://github.com/geotribu/scraping_old_site
- Owner: geotribu
- License: mit
- Created: 2020-03-31T15:02:02.000Z (over 4 years ago)
- Default Branch: master
- Last Pushed: 2024-04-01T21:57:48.000Z (8 months ago)
- Last Synced: 2024-05-02T21:27:41.767Z (7 months ago)
- Topics: drupal-7, html-to-markdown, scrapy
- Language: Python
- Homepage: https://geotribu-web-scraping-resurrection.readthedocs.io/
- Size: 164 KB
- Stars: 1
- Watchers: 4
- Forks: 0
- Open Issues: 8
-
Metadata Files:
- Readme: README.md
- Contributing: CONTRIBUTING.md
- License: LICENSE
Awesome Lists containing this project
README
# Outillage de récupération de l'ancien site de GeoTribu
![Python quality basics](https://github.com/geotribu/scraping_old_site/workflows/Python%20quality%20basics/badge.svg)
[![Code style: black](https://img.shields.io/badge/code%20style-black-000000.svg)](https://github.com/psf/black)
[![Documentation Status](https://readthedocs.org/projects/geotribu-web-scraping-resurrection/badge/?version=latest)](https://geotribu-web-scraping-resurrection.readthedocs.io/)L'objectif est de récupérer le contenu depuis l'ancien site de Geotribu (2007-2015) pour l'intégrer au [nouveau site basé sur MkDocs et dont le contenu est donc en markdown](https://github.com/geotribu/website).
Deux volets au projet :
- [web scraping](https://fr.wikipedia.org/wiki/Web_scraping) avec [Scrapy](https://scrapy.org/)
- conversion et export des contenus en markdown avec [markdownify](https://pypi.org/project/markdownify/)Pour plus d'infos techniques, [consulter la documentation](https://geotribu-web-scraping-resurrection.readthedocs.io/).
## Pré-requis
- Python 3.7+
- disposer de l'ancien site déployé sur une URL accessible. URL par défaut : .