Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/kunishou/databricks-dolly-15k-ja
https://github.com/kunishou/databricks-dolly-15k-ja
Last synced: 6 days ago
JSON representation
- Host: GitHub
- URL: https://github.com/kunishou/databricks-dolly-15k-ja
- Owner: kunishou
- License: other
- Created: 2023-04-14T14:43:27.000Z (about 1 year ago)
- Default Branch: main
- Last Pushed: 2023-07-25T15:08:32.000Z (11 months ago)
- Last Synced: 2024-05-02T05:40:38.796Z (about 2 months ago)
- Size: 9.85 MB
- Stars: 81
- Watchers: 5
- Forks: 11
- Open Issues: 4
-
Metadata Files:
- Readme: README.md
- License: LICENSE.txt
Lists
- awesome-stars - kunishou/databricks-dolly-15k-ja - (Others)
README
# databricks-dolly-15k-ja
databricks/dolly-v2-12b の学習データに使用されたdatabricks-dolly-15k.jsonl を日本語に翻訳したデータセットになります。 日本語大規模言語モデルの作成にご活用下さい。なお、データセットのライセンスは、翻訳元のデータセットのライセンスを継承し`CC BY SA 3.0`になります。
This dataset can be used for any purpose, whether academic or commercial, under the terms of the `Creative Commons Attribution-ShareAlike 3.0 Unported License`.
**データセット内で翻訳誤り、誤字、脱字、文脈の違和感等あるレコードがあった場合はPull requests いただけると助かります(英語弱者なのでPRは日本語で大丈夫です)。**
**huggingface**
https://huggingface.co/datasets/kunishou/databricks-dolly-15k-ja---
**databricks-dolly-69k-ja-en-translation**
https://huggingface.co/datasets/kunishou/databricks-dolly-69k-ja-en-translationDollyデータセットとこれを日本語に翻訳したときのデータを活用して作成した69Kの翻訳タスクデータセットも公開しています。databricks-dolly-15k-ja にマージしてファインチューニングを行うことで翻訳タスクもできるLLMを作ることができると思います。なお、こちらのデータセットは databricks-dolly-15k-ja の更新のタイミングで再作成を実施し、huggingface上のデータセットも最新のものに差し替えます。