https://github.com/lyeoni/corpus
https://github.com/lyeoni/corpus
Last synced: 11 months ago
JSON representation
- Host: GitHub
- URL: https://github.com/lyeoni/corpus
- Owner: lyeoni
- Created: 2021-04-09T06:31:06.000Z (about 5 years ago)
- Default Branch: main
- Last Pushed: 2021-06-21T13:44:46.000Z (almost 5 years ago)
- Last Synced: 2025-04-12T16:18:25.838Z (about 1 year ago)
- Language: Python
- Size: 12.7 KB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# Corpus
## Overivew
|Corpus|Size|#Sentences|Content|Source|
|:-:|:-:|:-:|:-:|:-:|
|문어 말뭉치|6.96GB (10.31GB)|27,355,222|책 등 저작물 문서 20,188개|[국립국어원 - 모두의 말뭉치](https://corpus.korean.go.kr/main.do)|
|구어 말뭉치|68MB (7.22GB)|856,932|방송, 강연 등의 공적 구어, 드라마 대본 등의 준구어 총 25,696건|[국립국어원 - 모두의 말뭉치](https://corpus.korean.go.kr/main.do)|
|일상 대화 말뭉치 2020|1.6MB (0.32GB)||일상 대화 총 2,232건|[국립국어원 - 모두의 말뭉치](https://corpus.korean.go.kr/main.do)|
|한국어-영어 번역(병렬) 말뭉치|0.28GB||문어체 110만, 구어체 50만 문장(한영 번역)|[AI Hub](https://aihub.or.kr/aidata/87)|
\* Size열의 괄호는 코퍼스 원본 파일 크기를 의미
## Usage
```python
from corpus import *
corpus = CorpusWrittenKo(root='NIKL_WRITTEN(v1.0)')
corpus.save() # Save corpus to root directory.
```
## Details
<<<<<<< HEAD
=======
>>>>>>> 035daa8172aa96e20c44be32dfa3d3f664680b35
### 문어 말뭉치 (CorpusWrittenKo)
**책**, 잡지, 보고서 등 저작물 20,188종의 문어 원시 말뭉치
- 책 : 상상 4,946종 (24.50%) / 정보 14,757종 (73.10)
- 잡지 73종 (0.36%) / 보고서 등 412종 (2.04%)
#### Content
- 문서는 `'\n\n'`, 문장은 `'\n'` 으로 구분
```
[문서1_문장1]
...
[문서1_문장N]
[문서2_문장1]
...
```
### 구어 말뭉치 (CorpusSpokenKo)
방송, 강연 등의 공적 구어 자료, 드라마 대본 등의 준구어 자료로 구성한 구어 말뭉치
- 공적 독백 2,490건 / 공적 대화 19,104건
- 준구어-대본 4,102건(드라마 4,102회 분량)
#### Content
- 대화는 `'\n\n'`, 대화 내 발화는 `'\n'` 으로 구분
```
[대화1_화자1_발화]
[대화1_화자2_발화]
...
[대화1_화자3_발화]
[대화2_화자1_발화]
...
```
#### Parameters
noise가 될 수 있는 들리지 않는 음절, 전혀 들리지 않는 부분, 불완전 발화, 비식별화 기호들을 제거하기 위한 parameter 제공
- `complete_sentence`: 기호들을 제거한 완전한 문장만을 보존. Default: `True`.
- `complete_sentnece==False`: 1.05GB / 대화 25,696 건 / 14,286,065 발화 턴
- `complete_conversation`: 기호들을 제거한 완전한 대화만을 보존. Default: `True` (`complete_sentence==True`).
- `complete_conversation==True`: 68MB / 대화 4,292 건 / 856,932 발화 턴
- `complete_conversation==False`: 985MB / 대화 25,696 건 / 13,660,968 발화 턴
### 일상 대화 말뭉치 2020 (CorpusDialogueKo)
15개 주제, 13개의 제시 자료(국립국어원 신문 말뭉치(버전 1.0)에서 선정한 신문 기사)를 대상
으로 두 명의 화자가 자유롭게 대화를 나눈 일상 대화(총 2,739명 화자, 대화당 약 15분 분량,
총 500시간 분량) 자료를 전사하여 구성한 말뭉치
일상 대화 총 2,232건
- 15개 주제 대화 1,818건
- 13개 제시 자료 대화 414건
#### Content
- 자세한 파일 내용은 아래의 `Parameters` 참고
- 대화는 `'\n\n'`, 대화 내 발화는 `'\n'` 으로 구분
- example
```
[대화1_화자1_발화]
[대화1_화자2_발화]
...
[대화1_화자3_발화]
[대화2_화자1_발화]
...
```
#### Parameters
구어 말뭉치(CorpusSpokenKo)와 동일한 parameter 제공
- `complete_sentence`: 기호들을 제거한 완전한 문장만을 보존. Default: `True`.
- `complete_sentnece==False`: 27MB / 대화 2,232 건 / 30,555 발화 턴
- `complete_conversation`: 기호들을 제거한 완전한 대화만을 보존. Default: `True` (`complete_sentence==True`).
- `complete_conversation==True`: 2MB / 대화 146건 / 2,125 발화 턴
- `complete_conversation==False`: 27MB / 대화 2,232 건 / 30,488 발화 턴
### 서울말 낭독체 발화 말뭉치
말뭉치 파일 사이즈의 많은 부분을 음성 파일이 차지하고 있음. 때문에 텍스트는 상당히 적어 활용 하지 않음.