Ecosyste.ms: Awesome

An open API service indexing awesome lists of open source software.

Awesome Lists | Featured Topics | Projects

https://github.com/ehsan957/mainwords

Collection of most repeated words in every languages
https://github.com/ehsan957/mainwords

Last synced: about 2 months ago
JSON representation

Collection of most repeated words in every languages

Awesome Lists containing this project

README

        

The goal of this project is to find the most repeated words in each different language. In this, I don't want to focus only on official texts, so unofficial and conversational texts are important too.
Now I began with finding the most repeated words in Farsi (my native language that also called Persian). for collecting the words I used the RSS feed of 171 blogs.
The result of reading the feed was 743646 words and 55442 unique words.
I stored all words and unique words in two SQL tables that you can access theme in the Farsi folder, also for ease I stored the top 100 and top 500 most repeated Farsi words in two files.
You can see the source of farsi texts on topblogsrss.txt


هدف از این پروژه یافتن کلمات پرتکرار در زبان‌های مختلف است. در این پروژه ما نه فقط به متون رسمی بلکه به متون غیر رسمی و محاوره‌ای هم توجه می‌کنیم.
من این کار را با زبان فارسی شروع کردم، و برای این هدف به سراغ فید آر‌اس‌اس ۱۷۱ وبلاگ رفتم. دلیل این کار وجود متن‌های رسمی و محاوره‌ای در وبلاگ‌ها بود.
و نتیجه‌ی خواندن این فیدها ۷۴۳۶۴۶ کلمه و ۵۵۴۴۲ کلمه‌ی منحصر به فرد بود.
من همه‌ی این کلمات و همچنین کلمات منحصر به فرد را به صورت دو فایل SQL در پوشه‌ی فارسی ذخیره کردم. همچنین برای راحتی کار به صورت جداگانه ۱۰۰ کلمه و ۵۰۰ کلمه‌ی پرتکرار را هم در دو فایل مجزا ذخیره کردم.
همچنین آدرس فیدهای آراس‌اسی که کلمات فارسی را از آن‌ها استخراج کردم را هم در فایل topblogsrss.txt منتشر کردم