Ecosyste.ms: Awesome

An open API service indexing awesome lists of open source software.

Awesome Lists | Featured Topics | Projects

https://github.com/bumbeishvili/geowordsdatabase

Around 310 000 unique Georgian words (5 000 000 + from other sources)
https://github.com/bumbeishvili/geowordsdatabase

csv database georgia mysql words

Last synced: 15 days ago
JSON representation

Around 310 000 unique Georgian words (5 000 000 + from other sources)

Awesome Lists containing this project

README

        

# GeoWordsDatabase
This Mysql database contains around 310 000 unique Georgian words.

check [db statistics](http://bumbeishvili.github.io/GeoWordsDatabase/) and [words cloud visualization](https://bl.ocks.org/bumbeishvili/raw/9ca6cdcfdd50b36af09c0b9d729a4adb/2d941a6fbba72c7cdfba6e2b947671a43cc1f70c/)

# Other datasets
1. [akalongman (Avtandil Kikabidze) / geo-words](https://github.com/akalongman/geo-words)
2. [0xh3x (Giorgi Jvaridze) / scraped-words](https://github.com/bumbeishvili/GeoWordsDatabase/tree/master/DifferentDatasets/Scraped)
3. [sandrinio( Sandro Sukhitashvili) / Scraped / GeoWordsDatabase](https://github.com/sandrinio1/GeorgianWordsDataBase)
4. [Kevin Scannell / Scraped](http://crubadan.org/languages/ka)
5. [Irakli Koberidze / Merged / Frequency_Dictionary_GE_363_202](https://github.com/irakli97/Frequency_Dictionary_GE_363_202)



# Linked Applications
* [ka_GE.spell](https://github.com/gamag/ka_GE.spell) - Georgian spell checking dictionary
* [geowords](https://github.com/bumbeishvili/geoWords) - web client (web app is not online)
* [ritma](https://github.com/bumbeishvili/ionic2-apps#ritma) - mobile client (apk can be downloaded, but is not in play store)
* [რითმა](https://github.com/bumbeishvili/fb-ritma-messenger-bot) - fb chat bot (online)


# Database structure

![Database Relations image](assets/relations.png)

# Statistics




უნიკალური სიტყვების რაოდენობა


309,916







მთლიანი სიტყვების რაოდენობა


2,970,640







ასო-ბგერების რაოდენობა


19,737,919







ყველაზე განმეორებადი სიტყვა



და
(4.46 %)







ყველაზე განმეორებადი ასო-ბგერა




(15.01 %)







ნაკლებ განმეორებადი ასო-ბგერა




(0.07 %)









33 ყველაზე განმეორებადი სიტყვა



#
სიტყვა
რაოდენობა ბაზაში
პროცენტული ფარდობა


1
და
132,585
4.463 %

2
რომ
26,542
0.893 %

3
არ
24,154
0.813 %

4
ამ
14,984
0.504 %

5
ეს
13,588
0.457 %

6
თუ
13,429
0.452 %

7
რომელიც
11,946
0.402 %

8
იყო
11,768
0.396 %

9

11,682
0.393 %

10
კი
11,448
0.385 %

11
მაგრამ
11,055
0.372 %

12
ან
10,780
0.363 %

13
არა
9,955
0.335 %

14
უნდა
9,948
0.335 %

15
ის
9,173
0.309 %

16
მისი
8,718
0.293 %

17
მე
8,416
0.283 %

18
როგორც
8,335
0.281 %

19
რა
8,168
0.275 %

20
არის
7,169
0.241 %

21
მას
7,154
0.241 %

22
იგი
6,844
0.230 %

23
იმ
6,811
0.229 %

24
ერთი
6,686
0.225 %

25
რაც
5,922
0.199 %

26
შემდეგ
5,573
0.188 %

27
სხვა
5,430
0.183 %

28
მათ
5,238
0.176 %

29
ილია
5,177
0.174 %

30
მხოლოდ
5,117
0.172 %

31
ვერ
4,957
0.167 %

32

4,912
0.165 %

33
მის
4,857
0.164 %






ასო ბგერათა სიხშირე



#
ასო-ბგერა
რაოდენობა ბაზაში
პროცენტული ფარდობა


1

2,963,523
15.014 %

2

2,257,751
11.439 %

3

1,738,635
8.809 %

4

1,290,017
6.536 %

5

1,173,323
5.945 %

6

1,072,087
5.432 %

7

987,471
5.003 %

8

852,648
4.320 %

9

832,634
4.218 %

10

818,302
4.146 %

11

711,784
3.606 %

12

688,035
3.486 %

13

561,099
2.843 %

14

542,778
2.750 %

15

454,138
2.301 %

16

317,244
1.607 %

17

295,257
1.496 %

18

288,025
1.459 %

19

285,833
1.448 %

20

264,382
1.339 %

21

190,572
0.966 %

22

176,053
0.892 %

23

156,242
0.792 %

24

143,723
0.728 %

25

142,221
0.721 %

26

120,430
0.610 %

27

107,048
0.542 %

28

95,529
0.484 %

29

82,122
0.416 %

30

43,684
0.221 %

31

41,305
0.209 %

32

30,314
0.154 %

33

13,710
0.069 %