https://github.com/iml1111/imltokenzier

한국어를 위한 Mecab 커스텀 토크나이저
https://github.com/iml1111/imltokenzier

mecab python tokenizer

Last synced: 6 months ago
JSON representation

한국어를 위한 Mecab 커스텀 토크나이저

Host: GitHub
URL: https://github.com/iml1111/imltokenzier
Owner: iml1111
License: mit
Created: 2020-10-11T10:17:45.000Z (almost 5 years ago)
Default Branch: main
Last Pushed: 2021-06-12T15:23:21.000Z (over 4 years ago)
Last Synced: 2025-02-03T15:55:47.768Z (8 months ago)
Topics: mecab, python, tokenizer
Language: Python
Homepage:
Size: 71.3 KB
Stars: 2
Watchers: 2
Forks: 0
Open Issues: 0
Metadata Files:
- Readme: README.md
- License: LICENSE

Awesome Lists containing this project

README

          # IMLTokenizer

**한국어를 위한 커스텀 형태소 분석기 Ver 1.0**입니다.

Konlpy-mecab 클래스를 상속받아 구현하였고, 형태소 분석기는 100%의 정확도 성능을 보여줄 수 없기에,

토큰화 과정에서 잘못 분석된 토큰에 대한 예외처리를 중심으로 추출기를 구현해보았습니다.

## Install Dependencies

**Supported: Xenial(16.04.3 LTS), Bionic(18.04.3 LTS), Disco(19.04), Eoan(19.10)**

```

$ ./requirements/requirements.sh

```

# Get Started

```python

from IMLTokenizer import Tokenizer

from IMLTokenizer import Refiner

msg = (

	"@%!@$% 아름다운 개는 짖는다."

	"사람은 밥을 먹는다. 커스터마이징,"

	" 그래디언트 디센트"

)

refiner = Refiner()

msg = refiner.char_filter(msg)

tokenizer = Tokenizer()

print(tokenizer.get_nouns(msg))

# ['개', '사람', '밥', '커스터마이징', '그래디언트', '디센트']

print(tokenizer.get_tokens(msg))

# ['아름다운', '개', '짖', '다', '사람', '밥', '먹', '다', '커스터마이징', '그래디언트', '디센트']

```

# References

https://konlpy.org/ko/latest/install/#ubuntu

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/iml1111/imltokenzier

Awesome Lists containing this project

README