Ecosyste.ms: Awesome

An open API service indexing awesome lists of open source software.

Awesome Lists | Featured Topics | Projects

https://github.com/herotux/mozilla-voice-fa

مجموعه ای از جملات به زبان فارسی برای پروژه common voice موزیلا
https://github.com/herotux/mozilla-voice-fa

Last synced: 3 months ago
JSON representation

مجموعه ای از جملات به زبان فارسی برای پروژه common voice موزیلا

Awesome Lists containing this project

README

        



# جملات فارسی برای common voice

مجموعه ای از جملات به زبان فارسی برای پروژه common voice موزیلا

## مشارکت:

برای کمک به پروژه متن باز [common voice](https://voice.mozilla.org/) بنیاد موزیلا ما نیاز به جملاتی داریم که بعدا توسط دیگر فارسی زبان ها ضبط بشه و به دیتابیس اضافه بشه چند نکته در این مورد وجود داره که حتما باید رعایت بکنید.

دو راه برای نوشتن جمله ها وجود داره:

* خود شما جملات رو بنویسید.

* جملات موجود در سایت های عمومی(به دلیل مسائل کپی رایت) رو مرتب کنید و بنویسید.
--------------------------------------------------------------------------
۱. خود شما جملات رو بنویسید.

* در حالت ایده آل، باید 5 ثانیه خواندن هر جمله (حداکثر 10 ثانیه) طول بکشه. بنابراین برای جملات تقریبا 5 تا 10 کلمه را هدف قرار دهید.
* جملات 1 یا 2 کلمه‌ای نیز خوب است، اما نه برای همه جملات! سعی کنید ترکیب جملات کوتاه و متوسط داشته باشید، اما سعی کنید همه آنها را زیر 10 ثانیه خوانده شدن حفظ کنید
* سعی کنید از کلمات مختلف استفاده کنید. این کار به غنی سازی واژگان ابزارهای یادگیری ماشین کمک خواهد کرد.
* استفاده از جملات با نشانه های نگارشی(نقطه ؛ کاما وعلامت سوال) نیز عالی است، اما زیاد خود را درگیر ان نکنید
* اگر زبان شما از هر نماد خاص استفاده می کند (به عنوان مثال ُ ، ِ ، َ ) این عالی است. با استفاده از نحوه تلفظ ان ها به فارسی، به دستگاه برای تشخیص صداهای مختلف کمک می کند.
* سعی کنید اسم های مناسب (نام ها(محمد علی و ....) و نام های خانوادگی پر استفاده (محمدی احمدی و......) ، نام خیابان ها، مکان ها و غیره) را وارد کنید.

* اعداد خوب هستند، اما لطفا عدد را به جای نوشتن ارقام به صورت حروف بنویسید (به عنوان مثال "پانصد و بیست و هفت" به جای "527")

۲. جملات موجود در سایت های عمومی(به دلیل مسائل کپی رایت) رو مرتب کنید و بنویسید.
* بهترین منابع مورد نظر شما، پادکست ها، روزنامه ها، وبلاگ ها ، زیرنویس های فیلم و هر چیز دیگری است که ممکن است شامل مکالمات روزمره باشد.
* جلسات دولتی، کتاب ها و مقالات نیز بسیار عالی است هرچند که متون رسمی کمتردر اولویت ماست.
* متاسفانه ما هنوز نمی توانیم مقالات ویکیپدیا را داشته باشیم. بنابراین از آنجا کپی نکنید(مسائل کپی رایت).
* دو منبع عالی برای بررسی عبارتند از: Crawl Common وOpen Subtitles. اگر هر مجموعه مشابهی را در زبان محلی خود پیدا کنید، عالی است

## سخن آخر

این که هرچند مسائل کپی رایت در ایران جدی گرفته نمیشه اما شما سعی کنید اون ها رو رعایت کنید منابع بسیاری برای بهره گیری وجود داره و در اخر کیفیت مهم تر از کمیت هست

## نحوه نوشتن جملات (هر سطر یک جمله)

علی به خانه رفت.

چرا ما اینجاییم؟

جامعه متن باز بسیار بزرگ است.

منبع: [Common Voice](https://voice-sprint.mozilla.community/)