Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/bumbeishvili/geowordsdatabase
Around 310 000 unique Georgian words (5 000 000 + from other sources)
https://github.com/bumbeishvili/geowordsdatabase
csv database georgia mysql words
Last synced: 15 days ago
JSON representation
Around 310 000 unique Georgian words (5 000 000 + from other sources)
- Host: GitHub
- URL: https://github.com/bumbeishvili/geowordsdatabase
- Owner: bumbeishvili
- License: mit
- Created: 2015-12-05T11:56:15.000Z (almost 9 years ago)
- Default Branch: master
- Last Pushed: 2017-12-09T13:12:06.000Z (almost 7 years ago)
- Last Synced: 2024-08-04T04:05:03.813Z (3 months ago)
- Topics: csv, database, georgia, mysql, words
- Homepage: http://bumbeishvili.github.io/GeoWordsDatabase/
- Size: 36.8 MB
- Stars: 67
- Watchers: 7
- Forks: 11
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: License
Awesome Lists containing this project
README
# GeoWordsDatabase
This Mysql database contains around 310 000 unique Georgian words.check [db statistics](http://bumbeishvili.github.io/GeoWordsDatabase/) and [words cloud visualization](https://bl.ocks.org/bumbeishvili/raw/9ca6cdcfdd50b36af09c0b9d729a4adb/2d941a6fbba72c7cdfba6e2b947671a43cc1f70c/)
# Other datasets
1. [akalongman (Avtandil Kikabidze) / geo-words](https://github.com/akalongman/geo-words)
2. [0xh3x (Giorgi Jvaridze) / scraped-words](https://github.com/bumbeishvili/GeoWordsDatabase/tree/master/DifferentDatasets/Scraped)
3. [sandrinio( Sandro Sukhitashvili) / Scraped / GeoWordsDatabase](https://github.com/sandrinio1/GeorgianWordsDataBase)
4. [Kevin Scannell / Scraped](http://crubadan.org/languages/ka)
5. [Irakli Koberidze / Merged / Frequency_Dictionary_GE_363_202](https://github.com/irakli97/Frequency_Dictionary_GE_363_202)
# Linked Applications
* [ka_GE.spell](https://github.com/gamag/ka_GE.spell) - Georgian spell checking dictionary
* [geowords](https://github.com/bumbeishvili/geoWords) - web client (web app is not online)
* [ritma](https://github.com/bumbeishvili/ionic2-apps#ritma) - mobile client (apk can be downloaded, but is not in play store)
* [რითმა](https://github.com/bumbeishvili/fb-ritma-messenger-bot) - fb chat bot (online)
# Database structure![Database Relations image](assets/relations.png)
# Statistics
უნიკალური სიტყვების რაოდენობა
309,916
მთლიანი სიტყვების რაოდენობა
2,970,640
ასო-ბგერების რაოდენობა
19,737,919
ყველაზე განმეორებადი სიტყვა
და
(4.46 %)
ყველაზე განმეორებადი ასო-ბგერა
ა
(15.01 %)
ნაკლებ განმეორებადი ასო-ბგერა
ჟ
(0.07 %)
33 ყველაზე განმეორებადი სიტყვა
#
სიტყვა
რაოდენობა ბაზაში
პროცენტული ფარდობა
1
და
132,585
4.463 %
2
რომ
26,542
0.893 %
3
არ
24,154
0.813 %
4
ამ
14,984
0.504 %
5
ეს
13,588
0.457 %
6
თუ
13,429
0.452 %
7
რომელიც
11,946
0.402 %
8
იყო
11,768
0.396 %
9
ა
11,682
0.393 %
10
კი
11,448
0.385 %
11
მაგრამ
11,055
0.372 %
12
ან
10,780
0.363 %
13
არა
9,955
0.335 %
14
უნდა
9,948
0.335 %
15
ის
9,173
0.309 %
16
მისი
8,718
0.293 %
17
მე
8,416
0.283 %
18
როგორც
8,335
0.281 %
19
რა
8,168
0.275 %
20
არის
7,169
0.241 %
21
მას
7,154
0.241 %
22
იგი
6,844
0.230 %
23
იმ
6,811
0.229 %
24
ერთი
6,686
0.225 %
25
რაც
5,922
0.199 %
26
შემდეგ
5,573
0.188 %
27
სხვა
5,430
0.183 %
28
მათ
5,238
0.176 %
29
ილია
5,177
0.174 %
30
მხოლოდ
5,117
0.172 %
31
ვერ
4,957
0.167 %
32
მ
4,912
0.165 %
33
მის
4,857
0.164 %
ასო ბგერათა სიხშირე
#
ასო-ბგერა
რაოდენობა ბაზაში
პროცენტული ფარდობა
1
ა
2,963,523
15.014 %
2
ი
2,257,751
11.439 %
3
ე
1,738,635
8.809 %
4
ს
1,290,017
6.536 %
5
რ
1,173,323
5.945 %
6
მ
1,072,087
5.432 %
7
ო
987,471
5.003 %
8
დ
852,648
4.320 %
9
ლ
832,634
4.218 %
10
ნ
818,302
4.146 %
11
ვ
711,784
3.606 %
12
ბ
688,035
3.486 %
13
თ
561,099
2.843 %
14
უ
542,778
2.750 %
15
გ
454,138
2.301 %
16
ხ
317,244
1.607 %
17
შ
295,257
1.496 %
18
ც
288,025
1.459 %
19
ტ
285,833
1.448 %
20
კ
264,382
1.339 %
21
ქ
190,572
0.966 %
22
წ
176,053
0.892 %
23
ზ
156,242
0.792 %
24
ყ
143,723
0.728 %
25
ფ
142,221
0.721 %
26
პ
120,430
0.610 %
27
ღ
107,048
0.542 %
28
ძ
95,529
0.484 %
29
ჩ
82,122
0.416 %
30
ჯ
43,684
0.221 %
31
ჭ
41,305
0.209 %
32
ჰ
30,314
0.154 %
33
ჟ
13,710
0.069 %