https://github.com/jeongukjae/branching-entropy-with-pos-tagger
Branching Entropy를 형태소 분석기와 함께 써보았어요.
https://github.com/jeongukjae/branching-entropy-with-pos-tagger
Last synced: about 2 months ago
JSON representation
Branching Entropy를 형태소 분석기와 함께 써보았어요.
- Host: GitHub
- URL: https://github.com/jeongukjae/branching-entropy-with-pos-tagger
- Owner: jeongukjae
- License: apache-2.0
- Created: 2022-02-15T16:18:21.000Z (over 3 years ago)
- Default Branch: main
- Last Pushed: 2022-07-11T06:11:04.000Z (over 3 years ago)
- Last Synced: 2025-03-24T12:51:43.987Z (7 months ago)
- Language: Python
- Homepage:
- Size: 50.8 KB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
README
# branching-entropy-with-pos-tagger
Branching Entropy를 형태소 분석과 함께 신조어 탐색에 써볼 수 없을까 생각하며 테스트해본 레포지토리입니다.
[나무위키 코퍼스](https://jeongukjae.github.io/tfds-korean/datasets/namuwiki_corpus.html)를 기준으로 형태소 분절 후 Branching Entropy를 계산하였습니다.설명 블로그 글:
## 방법
1. [nori-clone](https://github.com/jeongukjae/nori-clone)을 활용하여 약 200만 문장을 분절
2. 분절된 형태소 기준으로 branching entropy를 계산
3. entropy가 높은 순대로 csv로 덤프특정 형태소가 포함되거나, 특정 형태소로 끝나는 경우는 분석 결과에서 제외했습니다.
## 결과
* [left -> right entropy 계산 결과](./entropy-table-left.csv)
* [right -> left entropy 계산 결과](./entropy-table-right.csv)## 실행
```
./download.sh
python extract.py
```## 참고
*
*