https://github.com/iml1111/imltokenzier
한국어를 위한 Mecab 커스텀 토크나이저
https://github.com/iml1111/imltokenzier
mecab python tokenizer
Last synced: 6 months ago
JSON representation
한국어를 위한 Mecab 커스텀 토크나이저
- Host: GitHub
- URL: https://github.com/iml1111/imltokenzier
- Owner: iml1111
- License: mit
- Created: 2020-10-11T10:17:45.000Z (almost 5 years ago)
- Default Branch: main
- Last Pushed: 2021-06-12T15:23:21.000Z (over 4 years ago)
- Last Synced: 2025-02-03T15:55:47.768Z (8 months ago)
- Topics: mecab, python, tokenizer
- Language: Python
- Homepage:
- Size: 71.3 KB
- Stars: 2
- Watchers: 2
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
README
# IMLTokenizer
**한국어를 위한 커스텀 형태소 분석기 Ver 1.0**입니다.Konlpy-mecab 클래스를 상속받아 구현하였고, 형태소 분석기는 100%의 정확도 성능을 보여줄 수 없기에,
토큰화 과정에서 잘못 분석된 토큰에 대한 예외처리를 중심으로 추출기를 구현해보았습니다.
## Install Dependencies
**Supported: Xenial(16.04.3 LTS), Bionic(18.04.3 LTS), Disco(19.04), Eoan(19.10)**```
$ ./requirements/requirements.sh
```# Get Started
```python
from IMLTokenizer import Tokenizer
from IMLTokenizer import Refinermsg = (
"@%!@$% 아름다운 개는 짖는다."
"사람은 밥을 먹는다. 커스터마이징,"
" 그래디언트 디센트"
)refiner = Refiner()
msg = refiner.char_filter(msg)tokenizer = Tokenizer()
print(tokenizer.get_nouns(msg))
# ['개', '사람', '밥', '커스터마이징', '그래디언트', '디센트']
print(tokenizer.get_tokens(msg))
# ['아름다운', '개', '짖', '다', '사람', '밥', '먹', '다', '커스터마이징', '그래디언트', '디센트']
```# References
https://konlpy.org/ko/latest/install/#ubuntu