Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/herotux/mozilla-voice-fa
مجموعه ای از جملات به زبان فارسی برای پروژه common voice موزیلا
https://github.com/herotux/mozilla-voice-fa
Last synced: 3 months ago
JSON representation
مجموعه ای از جملات به زبان فارسی برای پروژه common voice موزیلا
- Host: GitHub
- URL: https://github.com/herotux/mozilla-voice-fa
- Owner: herotux
- License: cc0-1.0
- Created: 2018-12-03T12:32:57.000Z (almost 6 years ago)
- Default Branch: master
- Last Pushed: 2020-09-01T04:40:33.000Z (about 4 years ago)
- Last Synced: 2024-06-28T09:37:23.304Z (5 months ago)
- Language: Python
- Homepage:
- Size: 2.88 MB
- Stars: 16
- Watchers: 3
- Forks: 5
- Open Issues: 1
-
Metadata Files:
- Readme: README.md
- Contributing: CONTRIBUTING.md
- License: LICENSE.md
Awesome Lists containing this project
README
# جملات فارسی برای common voiceمجموعه ای از جملات به زبان فارسی برای پروژه common voice موزیلا
## مشارکت:
برای کمک به پروژه متن باز [common voice](https://voice.mozilla.org/) بنیاد موزیلا ما نیاز به جملاتی داریم که بعدا توسط دیگر فارسی زبان ها ضبط بشه و به دیتابیس اضافه بشه چند نکته در این مورد وجود داره که حتما باید رعایت بکنید.
دو راه برای نوشتن جمله ها وجود داره:
* خود شما جملات رو بنویسید.
* جملات موجود در سایت های عمومی(به دلیل مسائل کپی رایت) رو مرتب کنید و بنویسید.
--------------------------------------------------------------------------
۱. خود شما جملات رو بنویسید.* در حالت ایده آل، باید 5 ثانیه خواندن هر جمله (حداکثر 10 ثانیه) طول بکشه. بنابراین برای جملات تقریبا 5 تا 10 کلمه را هدف قرار دهید.
* جملات 1 یا 2 کلمهای نیز خوب است، اما نه برای همه جملات! سعی کنید ترکیب جملات کوتاه و متوسط داشته باشید، اما سعی کنید همه آنها را زیر 10 ثانیه خوانده شدن حفظ کنید
* سعی کنید از کلمات مختلف استفاده کنید. این کار به غنی سازی واژگان ابزارهای یادگیری ماشین کمک خواهد کرد.
* استفاده از جملات با نشانه های نگارشی(نقطه ؛ کاما وعلامت سوال) نیز عالی است، اما زیاد خود را درگیر ان نکنید
* اگر زبان شما از هر نماد خاص استفاده می کند (به عنوان مثال ُ ، ِ ، َ ) این عالی است. با استفاده از نحوه تلفظ ان ها به فارسی، به دستگاه برای تشخیص صداهای مختلف کمک می کند.
* سعی کنید اسم های مناسب (نام ها(محمد علی و ....) و نام های خانوادگی پر استفاده (محمدی احمدی و......) ، نام خیابان ها، مکان ها و غیره) را وارد کنید.* اعداد خوب هستند، اما لطفا عدد را به جای نوشتن ارقام به صورت حروف بنویسید (به عنوان مثال "پانصد و بیست و هفت" به جای "527")
۲. جملات موجود در سایت های عمومی(به دلیل مسائل کپی رایت) رو مرتب کنید و بنویسید.
* بهترین منابع مورد نظر شما، پادکست ها، روزنامه ها، وبلاگ ها ، زیرنویس های فیلم و هر چیز دیگری است که ممکن است شامل مکالمات روزمره باشد.
* جلسات دولتی، کتاب ها و مقالات نیز بسیار عالی است هرچند که متون رسمی کمتردر اولویت ماست.
* متاسفانه ما هنوز نمی توانیم مقالات ویکیپدیا را داشته باشیم. بنابراین از آنجا کپی نکنید(مسائل کپی رایت).
* دو منبع عالی برای بررسی عبارتند از: Crawl Common وOpen Subtitles. اگر هر مجموعه مشابهی را در زبان محلی خود پیدا کنید، عالی است## سخن آخر
این که هرچند مسائل کپی رایت در ایران جدی گرفته نمیشه اما شما سعی کنید اون ها رو رعایت کنید منابع بسیاری برای بهره گیری وجود داره و در اخر کیفیت مهم تر از کمیت هست
## نحوه نوشتن جملات (هر سطر یک جمله)
علی به خانه رفت.
چرا ما اینجاییم؟
جامعه متن باز بسیار بزرگ است.
منبع: [Common Voice](https://voice-sprint.mozilla.community/)