Ecosyste.ms: Awesome

An open API service indexing awesome lists of open source software.

Awesome Lists | Featured Topics | Projects

https://github.com/geraki/tpe

Extracts parameter values from templates in Wikipedia
https://github.com/geraki/tpe

mediawiki templates wiki wikipedia

Last synced: 5 days ago
JSON representation

Extracts parameter values from templates in Wikipedia

Awesome Lists containing this project

README

        

Template Parameter Extractor
============================

Περιγραφή
---------

Το **Template Parameter Extractor** είναι ένα script σε Python που επιτρέπει την εξαγωγή των παραμέτρων από τη χρήση ενός συγκεκριμένου προτύπου στην ελληνική Wikipedia. Το script αναζητά όλες τις σελίδες που χρησιμοποιούν το δεδομένο πρότυπο, συλλέγει τις τιμές των παραμέτρων για κάθε χρήση και τις αποθηκεύει σε ένα αρχείο μορφής TSV (Tab-Separated Values). Το αρχείο που παράγεται έχει μία σειρά για κάθε σελίδα και μία στήλη για κάθε παράμετρο.

Χαρακτηριστικά
--------------

- Εξαγωγή παραμέτρων προτύπων από σελίδες της ελληνικής Wikipedia.
- Δημιουργία αρχείου TSV με τις παραμέτρους ως στήλες και τα λήμματα ως σειρές.
- Καθαρισμός των τιμών των παραμέτρων από ειδικούς χαρακτήρες (newlines, tabs) για σωστή μορφοποίηση του αρχείου.
- Υποστήριξη ορισμού του ονόματος του προτύπου μέσω της command line, ή εναλλακτικά με εισαγωγή από τον χρήστη.

Απαιτήσεις
----------

- Python 3.x
- Βιβλιοθήκες:
- `pywikibot`
- `mwparserfromhell`
- `argparse`
- `csv`

Εγκατάσταση
-----------

1. Κλωνοποιήστε ή κατεβάστε το repository με το script.
2. Εγκαταστήστε τις απαραίτητες βιβλιοθήκες με την εντολή:

bash

Copy code

`pip install pywikibot mwparserfromhell`

3. Ρυθμίστε το `pywikibot` για να δουλεύει με την ελληνική Wikipedia, ακολουθώντας τις οδηγίες στο επίσημο documentation του pywikibot.

Χρήση
-----

Μπορείτε να τρέξετε το script από την command line με δύο τρόπους:

### 1\. Δίνοντας το όνομα του προτύπου από την command line:

bash

Copy code

`python tpe.py --template Κουτί_Πληροφοριών`

ή

bash

Copy code

`python tpe.py -t Κουτί_Πληροφοριών`

### 2\. Χωρίς να δώσετε το όνομα του προτύπου από την command line:

bash

Copy code

`python tpe.py`

Στη συνέχεια, το script θα σας ζητήσει να εισάγετε το όνομα του προτύπου:

Copy code

`Δώσε το όνομα του προτύπου:`

Αποτελέσματα
------------

Το script θα δημιουργήσει ένα αρχείο TSV με όνομα `{template_name}_parameters.tsv`, όπου το `{template_name}` είναι το όνομα του προτύπου που δόθηκε. Το αρχείο TSV θα περιέχει τις εξής πληροφορίες:

- Η πρώτη στήλη περιέχει το όνομα της σελίδας (τίτλος του λήμματος).
- Οι επόμενες στήλες περιέχουν τις παραμέτρους του προτύπου. Αν κάποια παράμετρος δεν υπάρχει σε συγκεκριμένο λήμμα, η αντίστοιχη στήλη θα είναι κενή.

Παράδειγμα
----------

Αν εκτελέσετε το script με το πρότυπο `Κουτί_Πληροφοριών`, το αρχείο TSV θα έχει την εξής μορφή:

Page Title | παράμετρος1 | παράμετρος2 | παράμετρος3 | ...
---------------------------------------------------------------
Λήμμα1 | τιμή1 | τιμή2 | τιμή3 | ...
Λήμμα2 | τιμή1 | | τιμή3 | ...
Λήμμα3 | | τιμή2 | | ...

Σφάλματα
--------

Εάν προκύψει κάποιο σφάλμα κατά τη διάρκεια της εκτέλεσης του script (π.χ. προβλήματα με συγκεκριμένες σελίδες), το σφάλμα θα εμφανιστεί στο terminal, και το script θα συνεχίσει να επεξεργάζεται τις υπόλοιπες σελίδες.

Δημιουργός
----------

Αυτό το script αναπτύχθηκε από τον [Geraki](https://el.wikipedia.org/wiki/User:Geraki) για την αυτοματοποίηση της συλλογής πληροφοριών από πρότυπα στην ελληνική Wikipedia.