Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/aajanki/eduskunta-vkk
Finnish sentence classification dataset
https://github.com/aajanki/eduskunta-vkk
dataset finnish nlp text-classification
Last synced: about 2 months ago
JSON representation
Finnish sentence classification dataset
- Host: GitHub
- URL: https://github.com/aajanki/eduskunta-vkk
- Owner: aajanki
- License: other
- Created: 2019-04-07T08:30:52.000Z (over 5 years ago)
- Default Branch: master
- Last Pushed: 2022-12-08T12:39:51.000Z (about 2 years ago)
- Last Synced: 2024-04-24T03:01:44.186Z (9 months ago)
- Topics: dataset, finnish, nlp, text-classification
- Language: Jupyter Notebook
- Size: 4.47 MB
- Stars: 1
- Watchers: 1
- Forks: 0
- Open Issues: 8
-
Metadata Files:
- Readme: README.md
- Changelog: changelog.md
- License: LICENSE
Awesome Lists containing this project
README
# Lauseluokitteludatasetti: Ministerien vastaukset kirjallisiin kysymyksiin
English summary: This package contains a Finnish NLP sentence
classification dataset based on cabinet ministers' answers to written
questions by members of parliament.Tämä paketti sisältää suomenkielisen lauseaineiston esimerkiksi
luonnollisen kielen käsittelymenetelmien opettamiseen tai
testaamiseen.Ainesto perustuu eduskunnan avoimena datana julkaisemiin ministerien
vastauksiin kansanedustajien kirjallisiin kysymyksiin vuosilta
2015-2019. Vastaukset on jaettu lauseiksi ja ennustettavana
kohdemuuttujana on se ministeriö, jonka vastauksesta lause on
poimittu.[Muutoshistoria](changelog.md)
## Lausetiedostot
Aineisto on saatavilla bzip2-pakattuina CSV-tiedostoina:
* [Opetusaineisto](https://github.com/aajanki/eduskunta-vkk/blob/v2/vkk/dev.csv.bz2)
* [Kehitysaineisto](https://github.com/aajanki/eduskunta-vkk/blob/v2/vkk/dev.csv.bz2)
* [Testiaineisto](https://github.com/aajanki/eduskunta-vkk/blob/v2/vkk/test.csv.bz2)Jokainen tiedosto on CSV-muotoinen (sarake-erottimena pilkku) ja sisältää kaksi saraketta: sentence ja ministry. Tiedoston ensimmäisellä rivillä on sarakeotsikot. Jokainen sentence-sarakeen rivi on yksi lause satunnaisesta vastauksesta ja vastaava ministry-sarakeeen rivi kertoo minkä ministeriön vastauksesta lause on poimittu. Välimerkit on eroteltu niitä edeltävistä ja seuraavista sanoista lisäämällä tarvittaessa välilyöntejä.
Jako opetus-, kehitys- ja testiaineistoihin on tehty jakamalla lauseet satunnaisesti kolmeen osaan.
## Aineistoa kuvailevia tilastoja
Luokkien lukumäärä: 15
Lauseiden lukumäärät:
* Opetusaineisto: 49106
* Kehitysaineisto: 3000
* Testiaineisto: 3000Lauseiden mediaanipituus on 16 tokenia ja maksimipituus 176 tokenia.
Luokat ja lauseiden lukumäärät luokittain opetusaineistossa:
| Luokka | Lauseiden lukumäärä |
| ------ | ---- |
| perhe- ja peruspalveluministeri | 7923 |
| maatalous- ja ympäristöministeri | 7365 |
| oikeus- ja työministeri | 6057 |
| sisäministeri | 5581 |
| opetus- ja kulttuuriministeri | 5417 |
| liikenne- ja viestintäministeri | 3691 |
| sosiaali- ja terveysministeri | 3581 |
| valtiovarainministeri | 2718 |
| elinkeinoministeri | 1931 |
| ulkoministeri | 946 |
| kunta- ja uudistusministeri | 920 |
| pääministeri | 798 |
| eurooppa-, kulttuuri- ja urheiluministeri | 795 |
| puolustusministeri | 756 |
| ulkomaankauppa- ja kehitysministeri | 627 |Testi- ja kehitysaineistojen luokkajakaumat vastaavat opetusaineiston jakaumaa.
## Esimerkkilauseita
| Lause | Luokka |
| ----- | ------ |
| Lääkkeelliset kaasut kuten lääkehappi ovat lääkkeitä ( lääkelaki 395/1987 , 3 § ) . | sosiaali- ja terveysministeri |
| Kilpailutuskriteereissä noudatetaan lakia julkisista hankinnoista ja muita asiaan vaikuttavia säädöksiä . | sisäministeri |
| Poissaolot tulee selvittää ensisijaisesti opiston ja opiskelijan kesken . | sisäministeri |
| Tavoitteeksi asetettiin Porkkalan luonnonsuojelualueen perustaminen . | maatalous- ja ympäristöministeri |
| Vihapuhetyöryhmä antaa suosituksensa huhtikuun 2019 lopussa . | oikeus- ja työministeri |
| Toissijaisuuden arviointi jää viime kädessä tuomioistuinten ratkaistavaksi . | liikenne- ja viestintäministeri |## Yksinkertainen luokitin
Olen opettanut [yksinkertaisen luokittimen](baseline_classifier/baseline.ipynb), jota voi käyttää vertailukohtana edistyneempiä luokittimia opetettaessa.
## Aineiston muodostaminen
Ainesto on valmiiksi käytettävässä muodossa [vkk-alihakemistossa](vkk).
Jos kuitenkin haluat ladata tuoreen aineiston eduskunnan palvelimelta ja toistaa esikäsittelyn, asenna aluksi tarvittavat ohjelmat Tesseract suomen kielen tuella, pdftotext (Poppler) ja ImageMagick. Ubuntussa:
```
sudo apt install tesseract-ocr-fin imagemagick poppler-utils
```Suorita sitten seuraava komento:
```
pipenv run scripts/prepare_dataset.sh
```## Käyttöehdot
Dokumentit on alunperin julkaistu [eduskunnan avoimen datan arkistossa](http://avoindata.eduskunta.fi/). Alkuperäiset dokumentit ja tässä julkaistu edelleenkäsitelty aineisto on julkaistu CC Nimeä 4.0 –lisenssillä. Katso [LICENSE.data-tiedosto](LICENSE.data).
Datan esikäsittelyskriptit on julkaistu MIT-lisenssillä. Katso [LICENSE-tiedosto](LICENSE).