Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/suminb/hanja
한글, 한자 라이브러리
https://github.com/suminb/hanja
hangul hanja nlp python
Last synced: about 8 hours ago
JSON representation
한글, 한자 라이브러리
- Host: GitHub
- URL: https://github.com/suminb/hanja
- Owner: suminb
- Created: 2013-04-20T04:49:12.000Z (over 11 years ago)
- Default Branch: develop
- Last Pushed: 2024-04-24T16:41:03.000Z (8 months ago)
- Last Synced: 2024-05-03T01:16:45.378Z (8 months ago)
- Topics: hangul, hanja, nlp, python
- Language: Python
- Homepage:
- Size: 693 KB
- Stars: 122
- Watchers: 6
- Forks: 14
- Open Issues: 9
-
Metadata Files:
- Readme: README.rst
Awesome Lists containing this project
- awesome-hangul - hanja - 한자-한글 변환 라이브러리 (Programming Languages / Python)
README
hanja: 한자-한글 변환 라이브러리
================================`한자-한글 변환기`__\ 에서 사용되는 모듈입니다.
__ http://hanja.suminb.com
Improve Hanja Library
---------------------사용 하시다가 빠진 한자 또는 틀린 독음을 발견하시면 `이 링크
`_\
를 통해 제보해주세요. 확인 후 반영하도록 하겠습니다. GitHub을 통해 직접 PR을
보내주셔도 좋습니다.Installation
------------.. code-block:: console
pip install hanja
Usage
------필요한 모듈 import 하기
```````````````````````.. code-block:: python
>>> import hanja
>>> from hanja import hangul한글 초성, 중성, 종성 분리
``````````````````````````
.. code-block:: python>>> hangul.separate('가')
(0, 0, 0)
>>> hangul.separate('까')
(1, 0, 0)튜플(tuple)의 마지막 원소가 0이면 종성이 없는 글자라고 판단할 수 있다.
.. code-block:: python
>>> hangul.separate('한')
(18, 0, 4)'ㅎ'은 19번째 자음, 'ㅏ'는 첫번째 모음, 'ㄴ'은 다섯번째 자음이라는 것을 알 수 있다.
초성, 중성, 종성을 조합하여 한 글자를 만듦
``````````````````````````````````````````.. code-block:: python
>>> hangul.build(0, 0, 0)
'가'주어진 글자가 한글인지의 여부를 판별
````````````````````````````````````.. code-block:: python
>>> hangul.is_hangul('가')
True
>>> hangul.is_hangul('a')
False한글로 된 부분과 한자로 된 부분을 분리
``````````````````````````````````````리스트가 아닌 제네레이터(generator)를 반환한다.
.. code-block:: python
>>> '|'.join(hanja.split_hanja('大韓民國은 民主共和國이다.'))
大韓民國|은 |民主共和國|이다.>>> [x for x in hanja.split_hanja('大韓民國은 民主共和國이다.')]
['大韓民國', '은 ', '民主共和國', '이다.']주어진 글자가 한자인지의 여부를 판별
````````````````````````````````````.. code-block:: python
>>> hanja.is_hanja('韓')
True>>> hanja.is_hanja('한')
False문장 변환
`````````치환 모드 변환:
.. code-block:: python
>>> hanja.translate('大韓民國은 民主共和國이다.', 'substitution')
'대한민국은 민주공화국이다.'혼용 모드 변환 (text):
.. code-block:: python
>>> hanja.translate('大韓民國은 民主共和國이다.', 'combination-text')
'大韓民國(대한민국)은 民主共和國(민주공화국)이다.'혼용 모드 변환 version 2 (text):
.. code-block:: python
>>> hanja.translate('大韓民國은 民主共和國이다.', 'combination-text-reversed')
'대한민국(大韓民國)은 민주공화국(民主共和國)이다.'혼용 모드 변환 (HTML):
.. code-block:: python
>>> hanja.translate(u'大韓民國은 民主共和國이다.', 'combination-html')
'大韓民國(대한민국)은 民主共和國(민주공화국)이다.'