https://github.com/cquest/raa
Scrap des Reccueil des Actes Administratifs préfectoraux
https://github.com/cquest/raa
Last synced: 10 months ago
JSON representation
Scrap des Reccueil des Actes Administratifs préfectoraux
- Host: GitHub
- URL: https://github.com/cquest/raa
- Owner: cquest
- License: wtfpl
- Created: 2022-07-30T08:09:15.000Z (almost 4 years ago)
- Default Branch: main
- Last Pushed: 2022-07-30T08:10:23.000Z (almost 4 years ago)
- Last Synced: 2025-02-23T16:55:14.246Z (over 1 year ago)
- Language: Python
- Size: 4.88 KB
- Stars: 1
- Watchers: 2
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# Reccueil des Actes Administratifs préfectoraux
Scripts de téléchargement des RAA disponibles sur les sites web des préfectures.
## Principe
raa.csv: contient les URL de base des pages donnant accès aux RAA.
scrap.py : récupére les pages puis les analyse pour télécharger les fichiers PDF correspondants.
extract.py : extrait le contenu textuel des fichiers PDF
## Dépendances
requests : pour récupération des pages et PDF
Beautifulsoup: pour l'analyse de l'HTML des pages web
PyPDF2 : pour analyse des PDF
Pour installation:
`pip install -r requirements.txt`