https://github.com/qanastek/parseur-pdf
https://trello.com/b/SbT2XGyF/g%C3%A9nie-logiciel-scrum
https://github.com/qanastek/parseur-pdf
beautifulsoup4 numpy python
Last synced: about 1 month ago
JSON representation
https://trello.com/b/SbT2XGyF/g%C3%A9nie-logiciel-scrum
- Host: GitHub
- URL: https://github.com/qanastek/parseur-pdf
- Owner: qanastek
- License: mit
- Created: 2019-11-28T09:11:12.000Z (over 6 years ago)
- Default Branch: master
- Last Pushed: 2021-04-20T16:49:20.000Z (about 5 years ago)
- Last Synced: 2025-09-01T03:15:32.608Z (10 months ago)
- Topics: beautifulsoup4, numpy, python
- Language: Python
- Homepage:
- Size: 5.35 MB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
README
# Parseur-PDF
### Fonctionnement:
Vous trouverez ci-dessous le fonctionnement du programme implémenté pendant les sprints :
### Informations:
Ce logiciel a été develloppé durant le cours de Génie Logiciel de l'année universitaire 2019/2020 au CERI, Avignon University (France), par les étudiants suivants:
* Mohamed BEN YAMNA
* Quentin Capdepon
* Yanis Labrak
* Valentin Vougeot
* Zihao Zheng
### Extraction des nom des fichiers, titres et résumés:
Aller à la racine du repertoire où ce trouve les différents fichiers .PDF et lancer le programme à l'aide de:
TXT Output:
```console
user@user: python ../src/main/Extraction_Informations.py -t
> 0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
```
XML Output:
```console
user@user: python ../src/main/Extraction_Informations.py -x
> 0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
```
Vous trouverez par la suite un fichier **resultat.txt** ou **xml** à l'endroit où vous avez exécuté le programme.
### Dépendences
__Linux__:
```bash
xargs sudo apt-get install -y