{"id":48717350,"url":"https://github.com/Brand24-AI/mms_benchmark","last_synced_at":"2026-04-27T14:00:35.632Z","repository":{"id":174935615,"uuid":"651483776","full_name":"Brand24-AI/mms_benchmark","owner":"Brand24-AI","description":"The most extensive open massively multilingual corpus of datasets for training sentiment models. The corpus consists of 79 manually selected from over 350 datasets reported in the scientific literature based on strict quality criteria and covers 27 languages.","archived":false,"fork":false,"pushed_at":"2023-11-14T11:02:37.000Z","size":2722,"stargazers_count":14,"open_issues_count":2,"forks_count":0,"subscribers_count":0,"default_branch":"main","last_synced_at":"2024-01-29T18:15:27.331Z","etag":null,"topics":["benchmarking","data-quality","dataset","datasets","leaderboard","llm","nlp","sentiment-analysis","sentiment-classification"],"latest_commit_sha":null,"homepage":"https://brand24-ai.github.io/mms_benchmark/","language":"Jupyter Notebook","has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":"other","status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/Brand24-AI.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":"LICENSE","code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null,"roadmap":null,"authors":null}},"created_at":"2023-06-09T10:36:24.000Z","updated_at":"2023-10-07T19:16:35.000Z","dependencies_parsed_at":null,"dependency_job_id":"c9ba77f6-1397-4009-b49b-2f35cc2312a3","html_url":"https://github.com/Brand24-AI/mms_benchmark","commit_stats":{"total_commits":22,"total_committers":4,"mean_commits":5.5,"dds":"0.13636363636363635","last_synced_commit":"ec53a9c4134291fe64fc44aaf7786cbe16dbcee7"},"previous_names":["brand24-ai/mms_benchmark"],"tags_count":0,"template":false,"template_full_name":null,"purl":"pkg:github/Brand24-AI/mms_benchmark","repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/Brand24-AI%2Fmms_benchmark","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/Brand24-AI%2Fmms_benchmark/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/Brand24-AI%2Fmms_benchmark/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/Brand24-AI%2Fmms_benchmark/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/Brand24-AI","download_url":"https://codeload.github.com/Brand24-AI/mms_benchmark/tar.gz/refs/heads/main","sbom_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/Brand24-AI%2Fmms_benchmark/sbom","scorecard":null,"host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":286080680,"owners_count":32339290,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2026-04-26T23:26:28.701Z","status":"online","status_checked_at":"2026-04-27T02:00:06.769Z","response_time":128,"last_error":null,"robots_txt_status":"success","robots_txt_updated_at":"2025-07-24T06:49:26.215Z","robots_txt_url":"https://github.com/robots.txt","online":true,"can_crawl_api":true,"host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":["benchmarking","data-quality","dataset","datasets","leaderboard","llm","nlp","sentiment-analysis","sentiment-classification"],"created_at":"2026-04-11T18:00:30.625Z","updated_at":"2026-04-27T14:00:35.624Z","avatar_url":"https://github.com/Brand24-AI.png","language":"Jupyter Notebook","funding_links":[],"categories":["Resources"],"sub_categories":["Datasets"],"readme":"MMS Dataset and Benchmark\n================\n\n\u003c!-- WARNING: THIS FILE WAS AUTOGENERATED! DO NOT EDIT! --\u003e\n\nDespite impressive advancements in multilingual corpora collection and\nmodel training, developing large-scale deployments of multilingual\nmodels still presents a significant challenge. This is particularly true\nfor language tasks that are culture-dependent. One such example is the\narea of multilingual sentiment analysis, where affective markers can be\nsubtle and deeply ensconced in culture.\n\nThis work presents the most extensive open massively multilingual corpus\nof datasets for training sentiment models. The corpus consists of 79\nmanually selected datasets from over 350 datasets reported in the\nscientific literature based on strict quality criteria. The corpus\ncovers 27 languages representing 6 language families. Datasets can be\nqueried using several linguistic and functional features. In addition,\nwe present a multi-faceted sentiment classification benchmark\nsummarizing hundreds of experiments conducted on different base models,\ntraining objectives, dataset collections, and fine-tuning strategies.\n\n## Dataset\n\n[Massively Multilingual Sentiment\nDatasets](https://huggingface.co/datasets/Brand24/mms)\n\n## Analysis and benchmarking\n\n[HuggingFace Spaces with Analysis and\nBenchmark](https://huggingface.co/spaces/Brand24/mms_benchmark)\n\n## General statistics about the dataset\n\n\u003e It may take some time to download the dataset and generate train set\n\u003e inside HuggingFace dataset. Please be patient.\n\n``` python\nmms_dataset = datasets.load_dataset(\"Brand24/mms\")\n```\n\n``` python\nmms_dataset_df = mms_dataset[\"train\"].to_pandas()\n```\n\nHow many examples do we have?\n\n``` python\nmms_dataset.num_rows\n```\n\n    {'train': 6164762}\n\n## Features\n\nWe provide not only texts and sentiment labels but we assigned many\nadditional dimensions for datasets and languages, hence it is possible\nto splice and dice them as you want and need.\n\n``` python\nmms_dataset[\"train\"].features\n```\n\n    {'_id': Value(dtype='int32', id=None),\n     'text': Value(dtype='string', id=None),\n     'label': ClassLabel(names=['negative', 'neutral', 'positive'], id=None),\n     'original_dataset': Value(dtype='string', id=None),\n     'domain': Value(dtype='string', id=None),\n     'language': Value(dtype='string', id=None),\n     'Family': Value(dtype='string', id=None),\n     'Genus': Value(dtype='string', id=None),\n     'Definite articles': Value(dtype='string', id=None),\n     'Indefinite articles': Value(dtype='string', id=None),\n     'Number of cases': Value(dtype='string', id=None),\n     'Order of subject, object, verb': Value(dtype='string', id=None),\n     'Negative morphemes': Value(dtype='string', id=None),\n     'Polar questions': Value(dtype='string', id=None),\n     'Position of negative word wrt SOV': Value(dtype='string', id=None),\n     'Prefixing vs suffixing': Value(dtype='string', id=None),\n     'Coding of nominal plurality': Value(dtype='string', id=None),\n     'Grammatical genders': Value(dtype='string', id=None),\n     'cleanlab_self_confidence': Value(dtype='float32', id=None)}\n\n### Example\n\n``` python\nmms_dataset[\"train\"][2001000]\n```\n\n    {'_id': 2001000,\n     'text': 'I was a tomboy and this has such great memories for me. They fit exactly how I remember, PERFECTLY!!',\n     'label': 2,\n     'original_dataset': 'en_amazon',\n     'domain': 'reviews',\n     'language': 'en',\n     'Family': 'Indo-European',\n     'Genus': 'Germanic',\n     'Definite articles': 'definite word distinct from demonstrative',\n     'Indefinite articles': 'indefinite word distinct from one',\n     'Number of cases': '2',\n     'Order of subject, object, verb': 'SVO',\n     'Negative morphemes': 'negative particle',\n     'Polar questions': 'interrogative word order',\n     'Position of negative word wrt SOV': 'SNegVO',\n     'Prefixing vs suffixing': 'strongly suffixing',\n     'Coding of nominal plurality': 'plural suffix',\n     'Grammatical genders': 'no grammatical gender',\n     'cleanlab_self_confidence': 0.9978116750717163}\n\n### Classes\n\n``` python\nlabels = mms_dataset[\"train\"].features[\"label\"].names\nlabels\n```\n\n    ['negative', 'neutral', 'positive']\n\n``` python\nmms_dataset_df[\"label_name\"] = mms_dataset_df[\"label\"].apply(lambda x: labels[x])\n```\n\n### Classes distribution\n\n``` python\nlabels_stats_df = pd.DataFrame(mms_dataset_df.label_name.value_counts())\nlabels_stats_df[\"percentage\"] = (labels_stats_df[\"label_name\"] / labels_stats_df[\"label_name\"].sum()).round(3)\nlabels_stats_df\n```\n\n\u003cdiv\u003e\n\u003cstyle scoped\u003e\n    .dataframe tbody tr th:only-of-type {\n        vertical-align: middle;\n    }\n\n    .dataframe tbody tr th {\n        vertical-align: top;\n    }\n\n    .dataframe thead th {\n        text-align: right;\n    }\n\u003c/style\u003e\n\u003ctable border=\"1\" class=\"dataframe\"\u003e\n  \u003cthead\u003e\n    \u003ctr style=\"text-align: right;\"\u003e\n      \u003cth\u003e\u003c/th\u003e\n      \u003cth\u003elabel_name\u003c/th\u003e\n      \u003cth\u003epercentage\u003c/th\u003e\n    \u003c/tr\u003e\n  \u003c/thead\u003e\n  \u003ctbody\u003e\n    \u003ctr\u003e\n      \u003cth\u003epositive\u003c/th\u003e\n      \u003ctd\u003e3494478\u003c/td\u003e\n      \u003ctd\u003e0.567\u003c/td\u003e\n    \u003c/tr\u003e\n    \u003ctr\u003e\n      \u003cth\u003eneutral\u003c/th\u003e\n      \u003ctd\u003e1341354\u003c/td\u003e\n      \u003ctd\u003e0.218\u003c/td\u003e\n    \u003c/tr\u003e\n    \u003ctr\u003e\n      \u003cth\u003enegative\u003c/th\u003e\n      \u003ctd\u003e1328930\u003c/td\u003e\n      \u003ctd\u003e0.216\u003c/td\u003e\n    \u003c/tr\u003e\n  \u003c/tbody\u003e\n\u003c/table\u003e\n\u003c/div\u003e\n\n## Sentiment orientation for each language\n\n``` python\ncols = ['language', 'label_name']\nmms_dataset_df[cols].value_counts().to_frame().reset_index().rename(columns={0: 'count'}).sort_values(by=cols, ascending=True)\n```\n\n\u003cdiv\u003e\n\u003cstyle scoped\u003e\n    .dataframe tbody tr th:only-of-type {\n        vertical-align: middle;\n    }\n\n    .dataframe tbody tr th {\n        vertical-align: top;\n    }\n\n    .dataframe thead th {\n        text-align: right;\n    }\n\u003c/style\u003e\n\u003ctable border=\"1\" class=\"dataframe\"\u003e\n  \u003cthead\u003e\n    \u003ctr style=\"text-align: right;\"\u003e\n      \u003cth\u003e\u003c/th\u003e\n      \u003cth\u003elanguage\u003c/th\u003e\n      \u003cth\u003elabel_name\u003c/th\u003e\n      \u003cth\u003ecount\u003c/th\u003e\n    \u003c/tr\u003e\n  \u003c/thead\u003e\n  \u003ctbody\u003e\n    \u003ctr\u003e\n      \u003cth\u003e7\u003c/th\u003e\n      \u003ctd\u003ear\u003c/td\u003e\n      \u003ctd\u003enegative\u003c/td\u003e\n      \u003ctd\u003e138899\u003c/td\u003e\n    \u003c/tr\u003e\n    \u003ctr\u003e\n      \u003cth\u003e4\u003c/th\u003e\n      \u003ctd\u003ear\u003c/td\u003e\n      \u003ctd\u003eneutral\u003c/td\u003e\n      \u003ctd\u003e192774\u003c/td\u003e\n    \u003c/tr\u003e\n    \u003ctr\u003e\n      \u003cth\u003e1\u003c/th\u003e\n      \u003ctd\u003ear\u003c/td\u003e\n      \u003ctd\u003epositive\u003c/td\u003e\n      \u003ctd\u003e600402\u003c/td\u003e\n    \u003c/tr\u003e\n    \u003ctr\u003e\n      \u003cth\u003e53\u003c/th\u003e\n      \u003ctd\u003ebg\u003c/td\u003e\n      \u003ctd\u003enegative\u003c/td\u003e\n      \u003ctd\u003e13930\u003c/td\u003e\n    \u003c/tr\u003e\n    \u003ctr\u003e\n      \u003cth\u003e41\u003c/th\u003e\n      \u003ctd\u003ebg\u003c/td\u003e\n      \u003ctd\u003eneutral\u003c/td\u003e\n      \u003ctd\u003e28657\u003c/td\u003e\n    \u003c/tr\u003e\n    \u003ctr\u003e\n      \u003cth\u003e...\u003c/th\u003e\n      \u003ctd\u003e...\u003c/td\u003e\n      \u003ctd\u003e...\u003c/td\u003e\n      \u003ctd\u003e...\u003c/td\u003e\n    \u003c/tr\u003e\n    \u003ctr\u003e\n      \u003cth\u003e62\u003c/th\u003e\n      \u003ctd\u003eur\u003c/td\u003e\n      \u003ctd\u003eneutral\u003c/td\u003e\n      \u003ctd\u003e8585\u003c/td\u003e\n    \u003c/tr\u003e\n    \u003ctr\u003e\n      \u003cth\u003e67\u003c/th\u003e\n      \u003ctd\u003eur\u003c/td\u003e\n      \u003ctd\u003epositive\u003c/td\u003e\n      \u003ctd\u003e5836\u003c/td\u003e\n    \u003c/tr\u003e\n    \u003ctr\u003e\n      \u003cth\u003e9\u003c/th\u003e\n      \u003ctd\u003ezh\u003c/td\u003e\n      \u003ctd\u003enegative\u003c/td\u003e\n      \u003ctd\u003e117967\u003c/td\u003e\n    \u003c/tr\u003e\n    \u003ctr\u003e\n      \u003cth\u003e21\u003c/th\u003e\n      \u003ctd\u003ezh\u003c/td\u003e\n      \u003ctd\u003eneutral\u003c/td\u003e\n      \u003ctd\u003e69016\u003c/td\u003e\n    \u003c/tr\u003e\n    \u003ctr\u003e\n      \u003cth\u003e6\u003c/th\u003e\n      \u003ctd\u003ezh\u003c/td\u003e\n      \u003ctd\u003epositive\u003c/td\u003e\n      \u003ctd\u003e144719\u003c/td\u003e\n    \u003c/tr\u003e\n  \u003c/tbody\u003e\n\u003c/table\u003e\n\u003cp\u003e81 rows × 3 columns\u003c/p\u003e\n\u003c/div\u003e\n\n## Per language\n\n``` python\ncols = ['language']\nmms_dataset_df[cols].value_counts().to_frame().reset_index().rename(columns={0: 'count'}).sort_values(by=cols, ascending=True)\n```\n\n\u003cdiv\u003e\n\u003cstyle scoped\u003e\n    .dataframe tbody tr th:only-of-type {\n        vertical-align: middle;\n    }\n\n    .dataframe tbody tr th {\n        vertical-align: top;\n    }\n\n    .dataframe thead th {\n        text-align: right;\n    }\n\u003c/style\u003e\n\u003ctable border=\"1\" class=\"dataframe\"\u003e\n  \u003cthead\u003e\n    \u003ctr style=\"text-align: right;\"\u003e\n      \u003cth\u003e\u003c/th\u003e\n      \u003cth\u003elanguage\u003c/th\u003e\n      \u003cth\u003ecount\u003c/th\u003e\n    \u003c/tr\u003e\n  \u003c/thead\u003e\n  \u003ctbody\u003e\n    \u003ctr\u003e\n      \u003cth\u003e1\u003c/th\u003e\n      \u003ctd\u003ear\u003c/td\u003e\n      \u003ctd\u003e932075\u003c/td\u003e\n    \u003c/tr\u003e\n    \u003ctr\u003e\n      \u003cth\u003e15\u003c/th\u003e\n      \u003ctd\u003ebg\u003c/td\u003e\n      \u003ctd\u003e62150\u003c/td\u003e\n    \u003c/tr\u003e\n    \u003ctr\u003e\n      \u003cth\u003e20\u003c/th\u003e\n      \u003ctd\u003ebs\u003c/td\u003e\n      \u003ctd\u003e36183\u003c/td\u003e\n    \u003c/tr\u003e\n    \u003ctr\u003e\n      \u003cth\u003e8\u003c/th\u003e\n      \u003ctd\u003ecs\u003c/td\u003e\n      \u003ctd\u003e196287\u003c/td\u003e\n    \u003c/tr\u003e\n    \u003ctr\u003e\n      \u003cth\u003e4\u003c/th\u003e\n      \u003ctd\u003ede\u003c/td\u003e\n      \u003ctd\u003e315887\u003c/td\u003e\n    \u003c/tr\u003e\n    \u003ctr\u003e\n      \u003cth\u003e0\u003c/th\u003e\n      \u003ctd\u003een\u003c/td\u003e\n      \u003ctd\u003e2330486\u003c/td\u003e\n    \u003c/tr\u003e\n    \u003ctr\u003e\n      \u003cth\u003e2\u003c/th\u003e\n      \u003ctd\u003ees\u003c/td\u003e\n      \u003ctd\u003e418712\u003c/td\u003e\n    \u003c/tr\u003e\n    \u003ctr\u003e\n      \u003cth\u003e23\u003c/th\u003e\n      \u003ctd\u003efa\u003c/td\u003e\n      \u003ctd\u003e13525\u003c/td\u003e\n    \u003c/tr\u003e\n    \u003ctr\u003e\n      \u003cth\u003e6\u003c/th\u003e\n      \u003ctd\u003efr\u003c/td\u003e\n      \u003ctd\u003e210631\u003c/td\u003e\n    \u003c/tr\u003e\n    \u003ctr\u003e\n      \u003cth\u003e25\u003c/th\u003e\n      \u003ctd\u003ehe\u003c/td\u003e\n      \u003ctd\u003e8619\u003c/td\u003e\n    \u003c/tr\u003e\n    \u003ctr\u003e\n      \u003cth\u003e22\u003c/th\u003e\n      \u003ctd\u003ehi\u003c/td\u003e\n      \u003ctd\u003e16999\u003c/td\u003e\n    \u003c/tr\u003e\n    \u003ctr\u003e\n      \u003cth\u003e12\u003c/th\u003e\n      \u003ctd\u003ehr\u003c/td\u003e\n      \u003ctd\u003e77594\u003c/td\u003e\n    \u003c/tr\u003e\n    \u003ctr\u003e\n      \u003cth\u003e16\u003c/th\u003e\n      \u003ctd\u003ehu\u003c/td\u003e\n      \u003ctd\u003e56682\u003c/td\u003e\n    \u003c/tr\u003e\n    \u003ctr\u003e\n      \u003cth\u003e24\u003c/th\u003e\n      \u003ctd\u003eit\u003c/td\u003e\n      \u003ctd\u003e12065\u003c/td\u003e\n    \u003c/tr\u003e\n    \u003ctr\u003e\n      \u003cth\u003e7\u003c/th\u003e\n      \u003ctd\u003eja\u003c/td\u003e\n      \u003ctd\u003e209780\u003c/td\u003e\n    \u003c/tr\u003e\n    \u003ctr\u003e\n      \u003cth\u003e26\u003c/th\u003e\n      \u003ctd\u003elv\u003c/td\u003e\n      \u003ctd\u003e5790\u003c/td\u003e\n    \u003c/tr\u003e\n    \u003ctr\u003e\n      \u003cth\u003e5\u003c/th\u003e\n      \u003ctd\u003epl\u003c/td\u003e\n      \u003ctd\u003e236688\u003c/td\u003e\n    \u003c/tr\u003e\n    \u003ctr\u003e\n      \u003cth\u003e9\u003c/th\u003e\n      \u003ctd\u003ept\u003c/td\u003e\n      \u003ctd\u003e157834\u003c/td\u003e\n    \u003c/tr\u003e\n    \u003ctr\u003e\n      \u003cth\u003e11\u003c/th\u003e\n      \u003ctd\u003eru\u003c/td\u003e\n      \u003ctd\u003e110930\u003c/td\u003e\n    \u003c/tr\u003e\n    \u003ctr\u003e\n      \u003cth\u003e17\u003c/th\u003e\n      \u003ctd\u003esk\u003c/td\u003e\n      \u003ctd\u003e56623\u003c/td\u003e\n    \u003c/tr\u003e\n    \u003ctr\u003e\n      \u003cth\u003e10\u003c/th\u003e\n      \u003ctd\u003esl\u003c/td\u003e\n      \u003ctd\u003e113543\u003c/td\u003e\n    \u003c/tr\u003e\n    \u003ctr\u003e\n      \u003cth\u003e18\u003c/th\u003e\n      \u003ctd\u003esq\u003c/td\u003e\n      \u003ctd\u003e44284\u003c/td\u003e\n    \u003c/tr\u003e\n    \u003ctr\u003e\n      \u003cth\u003e13\u003c/th\u003e\n      \u003ctd\u003esr\u003c/td\u003e\n      \u003ctd\u003e76368\u003c/td\u003e\n    \u003c/tr\u003e\n    \u003ctr\u003e\n      \u003cth\u003e19\u003c/th\u003e\n      \u003ctd\u003esv\u003c/td\u003e\n      \u003ctd\u003e41346\u003c/td\u003e\n    \u003c/tr\u003e\n    \u003ctr\u003e\n      \u003cth\u003e14\u003c/th\u003e\n      \u003ctd\u003eth\u003c/td\u003e\n      \u003ctd\u003e72319\u003c/td\u003e\n    \u003c/tr\u003e\n    \u003ctr\u003e\n      \u003cth\u003e21\u003c/th\u003e\n      \u003ctd\u003eur\u003c/td\u003e\n      \u003ctd\u003e19660\u003c/td\u003e\n    \u003c/tr\u003e\n    \u003ctr\u003e\n      \u003cth\u003e3\u003c/th\u003e\n      \u003ctd\u003ezh\u003c/td\u003e\n      \u003ctd\u003e331702\u003c/td\u003e\n    \u003c/tr\u003e\n  \u003c/tbody\u003e\n\u003c/table\u003e\n\u003c/div\u003e\n\n## Example of filtering datasets\n\n### Choose only Polish\n\n``` python\npl = mms_dataset.filter(lambda row: row['language'] == 'pl')\n```\n\n    Filter:   0%|          | 0/6164762 [00:00\u003c?, ? examples/s]\n\n``` python\npl[\"train\"].to_pandas().sample(5)\n```\n\n\u003cdiv\u003e\n\u003cstyle scoped\u003e\n    .dataframe tbody tr th:only-of-type {\n        vertical-align: middle;\n    }\n\n    .dataframe tbody tr th {\n        vertical-align: top;\n    }\n\n    .dataframe thead th {\n        text-align: right;\n    }\n\u003c/style\u003e\n\u003ctable border=\"1\" class=\"dataframe\"\u003e\n  \u003cthead\u003e\n    \u003ctr style=\"text-align: right;\"\u003e\n      \u003cth\u003e\u003c/th\u003e\n      \u003cth\u003e_id\u003c/th\u003e\n      \u003cth\u003etext\u003c/th\u003e\n      \u003cth\u003elabel\u003c/th\u003e\n      \u003cth\u003eoriginal_dataset\u003c/th\u003e\n      \u003cth\u003edomain\u003c/th\u003e\n      \u003cth\u003elanguage\u003c/th\u003e\n      \u003cth\u003eFamily\u003c/th\u003e\n      \u003cth\u003eGenus\u003c/th\u003e\n      \u003cth\u003eDefinite articles\u003c/th\u003e\n      \u003cth\u003eIndefinite articles\u003c/th\u003e\n      \u003cth\u003eNumber of cases\u003c/th\u003e\n      \u003cth\u003eOrder of subject, object, verb\u003c/th\u003e\n      \u003cth\u003eNegative morphemes\u003c/th\u003e\n      \u003cth\u003ePolar questions\u003c/th\u003e\n      \u003cth\u003ePosition of negative word wrt SOV\u003c/th\u003e\n      \u003cth\u003ePrefixing vs suffixing\u003c/th\u003e\n      \u003cth\u003eCoding of nominal plurality\u003c/th\u003e\n      \u003cth\u003eGrammatical genders\u003c/th\u003e\n      \u003cth\u003ecleanlab_self_confidence\u003c/th\u003e\n    \u003c/tr\u003e\n  \u003c/thead\u003e\n  \u003ctbody\u003e\n    \u003ctr\u003e\n      \u003cth\u003e215921\u003c/th\u003e\n      \u003ctd\u003e5119386\u003c/td\u003e\n      \u003ctd\u003eTypujcie jaki dziś będzie wynik St.Pats - Legi...\u003c/td\u003e\n      \u003ctd\u003e2\u003c/td\u003e\n      \u003ctd\u003epl_twitter_sentiment\u003c/td\u003e\n      \u003ctd\u003esocial_media\u003c/td\u003e\n      \u003ctd\u003epl\u003c/td\u003e\n      \u003ctd\u003eIndo-European\u003c/td\u003e\n      \u003ctd\u003eSlavic\u003c/td\u003e\n      \u003ctd\u003eno article\u003c/td\u003e\n      \u003ctd\u003eno article\u003c/td\u003e\n      \u003ctd\u003e6-7\u003c/td\u003e\n      \u003ctd\u003eSVO\u003c/td\u003e\n      \u003ctd\u003enegative particle\u003c/td\u003e\n      \u003ctd\u003equestion particle\u003c/td\u003e\n      \u003ctd\u003eSNegVO\u003c/td\u003e\n      \u003ctd\u003estrongly suffixing\u003c/td\u003e\n      \u003ctd\u003eplural suffix\u003c/td\u003e\n      \u003ctd\u003emasculine, feminine, neuter\u003c/td\u003e\n      \u003ctd\u003e0.589098\u003c/td\u003e\n    \u003c/tr\u003e\n    \u003ctr\u003e\n      \u003cth\u003e86525\u003c/th\u003e\n      \u003ctd\u003e4989990\u003c/td\u003e\n      \u003ctd\u003e@KaczmarSF Przyjemne ciarki mam, gdy patrzę na...\u003c/td\u003e\n      \u003ctd\u003e2\u003c/td\u003e\n      \u003ctd\u003epl_twitter_sentiment\u003c/td\u003e\n      \u003ctd\u003esocial_media\u003c/td\u003e\n      \u003ctd\u003epl\u003c/td\u003e\n      \u003ctd\u003eIndo-European\u003c/td\u003e\n      \u003ctd\u003eSlavic\u003c/td\u003e\n      \u003ctd\u003eno article\u003c/td\u003e\n      \u003ctd\u003eno article\u003c/td\u003e\n      \u003ctd\u003e6-7\u003c/td\u003e\n      \u003ctd\u003eSVO\u003c/td\u003e\n      \u003ctd\u003enegative particle\u003c/td\u003e\n      \u003ctd\u003equestion particle\u003c/td\u003e\n      \u003ctd\u003eSNegVO\u003c/td\u003e\n      \u003ctd\u003estrongly suffixing\u003c/td\u003e\n      \u003ctd\u003eplural suffix\u003c/td\u003e\n      \u003ctd\u003emasculine, feminine, neuter\u003c/td\u003e\n      \u003ctd\u003e0.950756\u003c/td\u003e\n    \u003c/tr\u003e\n    \u003ctr\u003e\n      \u003cth\u003e66031\u003c/th\u003e\n      \u003ctd\u003e4969496\u003c/td\u003e\n      \u003ctd\u003eszkoda bylo czasu i kasy .\u003c/td\u003e\n      \u003ctd\u003e0\u003c/td\u003e\n      \u003ctd\u003epl_polemo\u003c/td\u003e\n      \u003ctd\u003ereviews\u003c/td\u003e\n      \u003ctd\u003epl\u003c/td\u003e\n      \u003ctd\u003eIndo-European\u003c/td\u003e\n      \u003ctd\u003eSlavic\u003c/td\u003e\n      \u003ctd\u003eno article\u003c/td\u003e\n      \u003ctd\u003eno article\u003c/td\u003e\n      \u003ctd\u003e6-7\u003c/td\u003e\n      \u003ctd\u003eSVO\u003c/td\u003e\n      \u003ctd\u003enegative particle\u003c/td\u003e\n      \u003ctd\u003equestion particle\u003c/td\u003e\n      \u003ctd\u003eSNegVO\u003c/td\u003e\n      \u003ctd\u003estrongly suffixing\u003c/td\u003e\n      \u003ctd\u003eplural suffix\u003c/td\u003e\n      \u003ctd\u003emasculine, feminine, neuter\u003c/td\u003e\n      \u003ctd\u003e0.940540\u003c/td\u003e\n    \u003c/tr\u003e\n    \u003ctr\u003e\n      \u003cth\u003e137768\u003c/th\u003e\n      \u003ctd\u003e5041233\u003c/td\u003e\n      \u003ctd\u003e@shinyvalentine mam ja w dupie lecz bylo to kr...\u003c/td\u003e\n      \u003ctd\u003e0\u003c/td\u003e\n      \u003ctd\u003epl_twitter_sentiment\u003c/td\u003e\n      \u003ctd\u003esocial_media\u003c/td\u003e\n      \u003ctd\u003epl\u003c/td\u003e\n      \u003ctd\u003eIndo-European\u003c/td\u003e\n      \u003ctd\u003eSlavic\u003c/td\u003e\n      \u003ctd\u003eno article\u003c/td\u003e\n      \u003ctd\u003eno article\u003c/td\u003e\n      \u003ctd\u003e6-7\u003c/td\u003e\n      \u003ctd\u003eSVO\u003c/td\u003e\n      \u003ctd\u003enegative particle\u003c/td\u003e\n      \u003ctd\u003equestion particle\u003c/td\u003e\n      \u003ctd\u003eSNegVO\u003c/td\u003e\n      \u003ctd\u003estrongly suffixing\u003c/td\u003e\n      \u003ctd\u003eplural suffix\u003c/td\u003e\n      \u003ctd\u003emasculine, feminine, neuter\u003c/td\u003e\n      \u003ctd\u003e0.220028\u003c/td\u003e\n    \u003c/tr\u003e\n    \u003ctr\u003e\n      \u003cth\u003e118766\u003c/th\u003e\n      \u003ctd\u003e5022231\u003c/td\u003e\n      \u003ctd\u003e@itiNieWracaj pokazują to gdzieś?\u003c/td\u003e\n      \u003ctd\u003e2\u003c/td\u003e\n      \u003ctd\u003epl_twitter_sentiment\u003c/td\u003e\n      \u003ctd\u003esocial_media\u003c/td\u003e\n      \u003ctd\u003epl\u003c/td\u003e\n      \u003ctd\u003eIndo-European\u003c/td\u003e\n      \u003ctd\u003eSlavic\u003c/td\u003e\n      \u003ctd\u003eno article\u003c/td\u003e\n      \u003ctd\u003eno article\u003c/td\u003e\n      \u003ctd\u003e6-7\u003c/td\u003e\n      \u003ctd\u003eSVO\u003c/td\u003e\n      \u003ctd\u003enegative particle\u003c/td\u003e\n      \u003ctd\u003equestion particle\u003c/td\u003e\n      \u003ctd\u003eSNegVO\u003c/td\u003e\n      \u003ctd\u003estrongly suffixing\u003c/td\u003e\n      \u003ctd\u003eplural suffix\u003c/td\u003e\n      \u003ctd\u003emasculine, feminine, neuter\u003c/td\u003e\n      \u003ctd\u003e0.139179\u003c/td\u003e\n    \u003c/tr\u003e\n  \u003c/tbody\u003e\n\u003c/table\u003e\n\u003c/div\u003e\n\n## Use cases\n\n### Case 1\n\nThus, when training a sentiment classifier using our dataset, one may\ndownload different facets of the collection. For instance, one can\ndownload all datasets in `Slavic` languages in which polar questions are\nformed using the interrogative word order or download all datasets from\nthe `Afro-Asiatic` language family with no morphological case-making.\n\n``` python\nslavic = mms_dataset.filter(lambda row: row[\"Genus\"] == \"Slavic\" and row[\"Polar questions\"] == \"interrogative word order\")\n```\n\n    Filter:   0%|          | 0/6164762 [00:00\u003c?, ? examples/s]\n\n``` python\nslavic\n```\n\n    DatasetDict({\n        train: Dataset({\n            features: ['_id', 'text', 'label', 'original_dataset', 'domain', 'language', 'Family', 'Genus', 'Definite articles', 'Indefinite articles', 'Number of cases', 'Order of subject, object, verb', 'Negative morphemes', 'Polar questions', 'Position of negative word wrt SOV', 'Prefixing vs suffixing', 'Coding of nominal plurality', 'Grammatical genders', 'cleanlab_self_confidence'],\n            num_rows: 252910\n        })\n    })\n\n### Case 2\n\n``` python\nafro_asiatic = mms_dataset.filter(lambda row: row[\"Family\"] == \"Afro-Asiatic\" and row[\"Number of cases\"] == \"no morphological case-making\")\n```\n\n    Filter:   0%|          | 0/6164762 [00:00\u003c?, ? examples/s]\n\n``` python\nafro_asiatic\n```\n\n    DatasetDict({\n        train: Dataset({\n            features: ['_id', 'text', 'label', 'original_dataset', 'domain', 'language', 'Family', 'Genus', 'Definite articles', 'Indefinite articles', 'Number of cases', 'Order of subject, object, verb', 'Negative morphemes', 'Polar questions', 'Position of negative word wrt SOV', 'Prefixing vs suffixing', 'Coding of nominal plurality', 'Grammatical genders', 'cleanlab_self_confidence'],\n            num_rows: 8619\n        })\n    })\n\n## Dataset Curators\n\nThe corpus was put together by\n\n- [@laugustyniak](https://www.linkedin.com/in/lukaszaugustyniak/)\n- [@swozniak](https://www.linkedin.com/in/wscode/)\n- [@mgruza](https://www.linkedin.com/in/marcin-gruza-276b2512b/)\n- [@pgramacki](https://www.linkedin.com/in/piotrgramacki/)\n- [@krajda](https://www.linkedin.com/in/krzysztof-rajda/)\n- [@mmorzy](https://www.linkedin.com/in/mikolajmorzy/)\n- [@tkajdanowicz](https://www.linkedin.com/in/kajdanowicz/)\n\n## Citation\n\n``` bibtex\n@misc{augustyniak2023massively,\n      title={Massively Multilingual Corpus of Sentiment Datasets and Multi-faceted Sentiment Classification Benchmark}, \n      author={Łukasz Augustyniak and Szymon Woźniak and Marcin Gruza and Piotr Gramacki and Krzysztof Rajda and Mikołaj Morzy and Tomasz Kajdanowicz},\n      year={2023},\n      eprint={2306.07902},\n      archivePrefix={arXiv},\n      primaryClass={cs.CL}\n}\n```\n\n## Acknowledgements\n\n- BRAND24 - https://brand24.com\n- CLARIN-PL-Biz - https://clarin.biz\n\n## Licensing Information\n\nThese data are released under this licensing scheme. We do not own any\ntext from which these data and datasets have been extracted.\n\nWe license the actual packaging of these data under the\nAttribution-NonCommercial 4.0 International (CC BY-NC 4.0)\nhttps://creativecommons.org/licenses/by-nc/4.0/\n\nThis work is published from Poland.\n\nShould you consider that our data contains material that is owned by you\nand should, therefore not be reproduced here, please: \\* Clearly\nidentify yourself with detailed contact data such as an address,\ntelephone number, or email address at which you can be contacted. \\*\nClearly identify the copyrighted work claimed to be infringed. \\*\nClearly identify the material claimed to be infringing and the\ninformation reasonably sufficient to allow us to locate the material.\n\nWe will comply with legitimate requests by removing the affected sources\nfrom the next release of the corpus.\n","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2FBrand24-AI%2Fmms_benchmark","html_url":"https://awesome.ecosyste.ms/projects/github.com%2FBrand24-AI%2Fmms_benchmark","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2FBrand24-AI%2Fmms_benchmark/lists"}