https://github.com/hugovk/everyfinnishword
Every Finnish word
https://github.com/hugovk/everyfinnishword
corpus finnish language words
Last synced: 4 months ago
JSON representation
Every Finnish word
- Host: GitHub
- URL: https://github.com/hugovk/everyfinnishword
- Owner: hugovk
- License: lgpl-2.1
- Created: 2015-05-22T21:45:17.000Z (over 10 years ago)
- Default Branch: master
- Last Pushed: 2015-05-22T22:23:09.000Z (over 10 years ago)
- Last Synced: 2025-03-27T19:53:30.417Z (7 months ago)
- Topics: corpus, finnish, language, words
- Homepage: https://twitter.com/kaikkisanat
- Size: 1.01 MB
- Stars: 32
- Watchers: 2
- Forks: 2
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE.txt
Awesome Lists containing this project
README
# Every Finnish Word
Words from the [Institute for the Languages of Finland](http://kaino.kotus.fi/sanat/nykysuomi/) (Kotimaisten kielten keskus in Finnish, or KOTUS).
The [kotus-sanalista_v1](/kotus-sanalista_v1) directory contains the original files from KOTUS. The file [kaikkisanat.txt](kaikkisanat.txt) contains a plaintext list of the words from the [XML file](kotus-sanalista_v1/kotus-sanalista_v1.xml), with suffixes (e.g. -aatteinen) and duplicates removed. This plaintext file is used by [@kaikkisanat](https://twitter.com/kaikkisanat) on Twitter.
Files are licensed under GNU LGPL (Lesser General Public License), EUPL v.1.1 (European Union Public Licence) and CC Attribution 3.0 Unported.
Here's the original KOTUS description:
---
## KOTIMAISTEN KIELTEN KESKUKSEN NYKYSUOMEN SANALISTA
Kotimaisten kielten keskus julkaisee taivutustiedoin täydennetyn nykysuomen sanalistan. Sanalista ei ole tyhjentävä tai auktoritatiivinen luettelo suomen kielen sanoista, vaan sen on tarkoitus mm. toimia apuvälineenä suomen kieltä käsittelevien tietokoneohjelmien ja suomenkielisten käyttöliittymien kehitystyössä.
Sanalista julkaistaan lisensseillä GNU LGPL (Lesser General Public License), EUPL v.1.1 (Euroopan unionin yleinen lisenssi) ja CC Nimeä 3.0 Muokkaamaton.
Sanalistan laajuus on 94 110 sanatietuetta. Sanalista on XML-muodossa ja merkistönä on UTF-8. Listaan voidaan tehdä myöhemmin muutoksia, jolloin listan versionumero muuttuu.
### Sanatietueiden elementit
`` sanatietue
`` sana
`` homonyyminumero
`` taivutustiedot
` taivutusnumero
`` astevaihtelutiedot### Esimerkkikatkelma
```xml
aloitteikas41A
-aloitteinen38
aloittelija12
aloitus39
aloituskorkeus
aloitusmerkki
aloituspaikka
aloitussyöttö
aloitusviisikko
alokas41A
alokasaika9D
alokasaste
alokasmainen38
aloke48A
alpakka114A
alpakka214A
alpakkainen138
alpakkainen238
alpakkalusikka
alpi7E5
```### Sanojen taivutus
Sanan taivutus on osoitettu sanalistassa numerolla (esim. 72) ja sanaan liittyvä astevaihtelu kirjaimella (esim. A). Numerot ja kirjaimet viittaavat mallisarjoihin Taivutustyypit ja Astevaihtelutyypit, joissa taivutus ja astevaihtelu on esitetty vastaavan numeron ja kirjaimen kohdalla mallisanojen avulla. Jos sana taipuu kahdella eri tavalla, sillä on kaksi taivutusnumeroa.
Taivutukseen liittyvää lisätietoa on annettu t-elementin ja av-elementin attribuuttien avulla. Elementillä t voi olla attribuutti *taivutus*. Elementillä av voi olla attribuutti *astevaihtelu*.
*taivutus*-attribuutin arvot:
* harvinainen – t-elementin mukainen taivutus on harvinainen
* mahdollinen – t-elementin mukainen taivutus on mahdollinen
* yksikössä – sana taipuu tn-elementin mukaisesti yksikössä
* monikossa – sana taipuu tn-elementin mukaisesti monikossa*astevaihtelu*-attribuutin arvo:
* valinnainen – sana voidaan taivuttaa astevaihtelullisena tai ilman astevaihteluaYhdyssanoihin ei ole yleensä merkitty taivutusnumeroa, jos perusosa on listassa itsenäisenä sanana. Taivutustieto on kuitenkin merkitty niihin yhdyssanoihin, joiden perusosa on homonyymi (esim. iltakuusi 27 ja joulukuusi 24). Yhdysnomineihin on merkitty taivutusnumero silloin, kun on haluttu osoittaa, että sanan alkuosa taipuu (kuten hienosokeri : hienonsokerin, taivutusnumero 51) tai jää taipumatta (isoäiti :isoäidin, taivutusnumero 50). Taipumattomat tai vaillinaisesti taipuvat sanat on merkitty numerolla 99. Pronominien jäljessä ei ole taivutusnumeroa, koska niille ei voida esittää mallitaivutusta. Lukusanojen taivutus ei aina selviä suoraan mallisanan avulla (esim. lukusanat seitsemän, kahdeksan ja yhdeksän taipuvat niin kuin nominatiivit olisivat seitsemä, kahdeksa ja yhdeksä, ja kymmenen taipuu niin kuin nominatiivi olisi kymmen). Lukusanatyyppien kaksitoista, kaksikymmentä, kaksisataa ja kaksituhatta taivutusta ei ole osoitettu.