{"id":18398894,"url":"https://github.com/lyeoni/corpus","last_synced_at":"2025-07-15T11:34:59.046Z","repository":{"id":196956104,"uuid":"356161850","full_name":"lyeoni/corpus","owner":"lyeoni","description":null,"archived":false,"fork":false,"pushed_at":"2021-06-21T13:44:46.000Z","size":13,"stargazers_count":0,"open_issues_count":0,"forks_count":0,"subscribers_count":1,"default_branch":"main","last_synced_at":"2025-04-12T16:18:25.838Z","etag":null,"topics":[],"latest_commit_sha":null,"homepage":null,"language":"Python","has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":null,"status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/lyeoni.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":null,"code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null}},"created_at":"2021-04-09T06:31:06.000Z","updated_at":"2021-06-21T13:44:49.000Z","dependencies_parsed_at":"2023-09-28T11:47:29.554Z","dependency_job_id":null,"html_url":"https://github.com/lyeoni/corpus","commit_stats":null,"previous_names":["lyeoni/corpus"],"tags_count":0,"template":false,"template_full_name":null,"purl":"pkg:github/lyeoni/corpus","repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/lyeoni%2Fcorpus","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/lyeoni%2Fcorpus/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/lyeoni%2Fcorpus/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/lyeoni%2Fcorpus/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/lyeoni","download_url":"https://codeload.github.com/lyeoni/corpus/tar.gz/refs/heads/main","sbom_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/lyeoni%2Fcorpus/sbom","host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":265432188,"owners_count":23764039,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2022-07-04T15:15:14.044Z","host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":[],"created_at":"2024-11-06T02:24:53.521Z","updated_at":"2025-07-15T11:34:59.024Z","avatar_url":"https://github.com/lyeoni.png","language":"Python","funding_links":[],"categories":[],"sub_categories":[],"readme":"# Corpus\n\n## Overivew\n|Corpus|Size|#Sentences|Content|Source|\n|:-:|:-:|:-:|:-:|:-:|\n|문어 말뭉치|6.96GB (10.31GB)|27,355,222|책 등 저작물 문서 20,188개|[국립국어원 - 모두의 말뭉치](https://corpus.korean.go.kr/main.do)|\n|구어 말뭉치|68MB (7.22GB)|856,932|방송, 강연 등의 공적 구어, 드라마 대본 등의 준구어 총 25,696건|[국립국어원 - 모두의 말뭉치](https://corpus.korean.go.kr/main.do)|\n|일상 대화 말뭉치 2020|1.6MB (0.32GB)||일상 대화 총 2,232건|[국립국어원 - 모두의 말뭉치](https://corpus.korean.go.kr/main.do)|\n|한국어-영어 번역(병렬) 말뭉치|0.28GB||문어체 110만, 구어체 50만 문장(한영 번역)|[AI Hub](https://aihub.or.kr/aidata/87)|\n\n\\* Size열의 괄호는 코퍼스 원본 파일 크기를 의미\n\n\u003cbr\u003e\n\n## Usage\n```python\nfrom corpus import *\ncorpus = CorpusWrittenKo(root='NIKL_WRITTEN(v1.0)')\ncorpus.save() # Save corpus to root directory.\n```\n\n## Details\n\u003c\u003c\u003c\u003c\u003c\u003c\u003c HEAD\n=======\n\n\u003e\u003e\u003e\u003e\u003e\u003e\u003e 035daa8172aa96e20c44be32dfa3d3f664680b35\n### 문어 말뭉치 (CorpusWrittenKo)\n**책**, 잡지, 보고서 등 저작물 20,188종의 문어 원시 말뭉치\n- 책 : 상상 4,946종 (24.50%) / 정보 14,757종 (73.10)\n- 잡지 73종 (0.36%) / 보고서 등 412종 (2.04%)\n\n#### Content\n- 문서는 `'\\n\\n'`, 문장은 `'\\n'` 으로 구분\n    ```\n    [문서1_문장1]\n    ...\n    [문서1_문장N]\n    \n    [문서2_문장1]\n    ...\n    ```\n\n\n\u003chr\u003e\n\n\n### 구어 말뭉치 (CorpusSpokenKo)\n방송, 강연 등의 공적 구어 자료, 드라마 대본 등의 준구어 자료로 구성한 구어 말뭉치\n- 공적 독백 2,490건 / 공적 대화 19,104건\n- 준구어-대본 4,102건(드라마 4,102회 분량)\n\n#### Content\n- 대화는 `'\\n\\n'`, 대화 내 발화는 `'\\n'` 으로 구분\n    ```\n    [대화1_화자1_발화]\n    [대화1_화자2_발화]\n    ...\n    [대화1_화자3_발화]\n\n    [대화2_화자1_발화]\n    ...\n    ```\n\n#### Parameters\nnoise가 될 수 있는 들리지 않는 음절, 전혀 들리지 않는 부분, ­불완전 발화, 비식별화 기호들을 제거하기 위한 parameter 제공\n\n- `complete_sentence`: 기호들을 제거한 완전한 문장만을 보존. Default: `True`.\n    - `complete_sentnece==False`: 1.05GB / 대화 25,696 건 / 14,286,065 발화 턴 \n- `complete_conversation`: 기호들을 제거한 완전한 대화만을 보존. Default: `True` (`complete_sentence==True`).\n    - `complete_conversation==True`: 68MB / 대화 4,292 건 / 856,932 발화 턴\n    - `complete_conversation==False`: 985MB / 대화 25,696 건 / 13,660,968 발화 턴\n\n\n\u003chr\u003e\n\n\n### 일상 대화 말뭉치 2020 (CorpusDialogueKo)\n15개 주제, 13개의 제시 자료(국립국어원 신문 말뭉치(버전 1.0)에서 선정한 신문 기사)를 대상\n으로 두 명의 화자가 자유롭게 대화를 나눈 일상 대화(총 2,739명 화자, 대화당 약 15분 분량,\n총 500시간 분량) 자료를 전사하여 구성한 말뭉치\n\n일상 대화 총 2,232건\n- 15개 주제 대화 1,818건\n- 13개 제시 자료 대화 414건\n\n#### Content\n- 자세한 파일 내용은 아래의 `Parameters` 참고\n- 대화는 `'\\n\\n'`, 대화 내 발화는 `'\\n'` 으로 구분\n- example\n```\n[대화1_화자1_발화]\n[대화1_화자2_발화]\n...\n[대화1_화자3_발화]\n\n[대화2_화자1_발화]\n...\n```\n\n#### Parameters\n구어 말뭉치(CorpusSpokenKo)와 동일한 parameter 제공\n- `complete_sentence`: 기호들을 제거한 완전한 문장만을 보존. Default: `True`.\n    - `complete_sentnece==False`: 27MB / 대화 2,232 건 / 30,555 발화 턴 \n- `complete_conversation`: 기호들을 제거한 완전한 대화만을 보존. Default: `True` (`complete_sentence==True`).\n    - `complete_conversation==True`: 2MB / 대화 146건 / 2,125 발화 턴\n    - `complete_conversation==False`: 27MB / 대화 2,232 건 / 30,488 발화 턴\n\n\u003chr\u003e\n\n### 서울말 낭독체 발화 말뭉치\n말뭉치 파일 사이즈의 많은 부분을 음성 파일이 차지하고 있음. 때문에 텍스트는 상당히 적어 활용 하지 않음.\n","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Flyeoni%2Fcorpus","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Flyeoni%2Fcorpus","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Flyeoni%2Fcorpus/lists"}