{"id":18059430,"url":"https://github.com/9bow/komoranpostagger","last_synced_at":"2025-04-05T11:42:19.543Z","repository":{"id":86207431,"uuid":"104348530","full_name":"9bow/KOMORANPoSTagger","owner":"9bow","description":"PoS-Tagger for KOMORAN","archived":false,"fork":false,"pushed_at":"2017-09-21T15:45:09.000Z","size":60,"stargazers_count":2,"open_issues_count":0,"forks_count":0,"subscribers_count":2,"default_branch":"master","last_synced_at":"2025-04-02T23:41:50.839Z","etag":null,"topics":["java","komoran","korean","nlp","pos-tagging","tagger"],"latest_commit_sha":null,"homepage":"http://komoran.kr","language":"Java","has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":"apache-2.0","status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/9bow.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":"LICENSE","code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null,"roadmap":null,"authors":null,"dei":null,"publiccode":null,"codemeta":null}},"created_at":"2017-09-21T13:00:17.000Z","updated_at":"2017-10-12T09:03:18.000Z","dependencies_parsed_at":"2023-05-13T10:15:51.807Z","dependency_job_id":null,"html_url":"https://github.com/9bow/KOMORANPoSTagger","commit_stats":null,"previous_names":[],"tags_count":0,"template":false,"template_full_name":null,"repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/9bow%2FKOMORANPoSTagger","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/9bow%2FKOMORANPoSTagger/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/9bow%2FKOMORANPoSTagger/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/9bow%2FKOMORANPoSTagger/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/9bow","download_url":"https://codeload.github.com/9bow/KOMORANPoSTagger/tar.gz/refs/heads/master","host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":247332524,"owners_count":20921852,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2022-07-04T15:15:14.044Z","host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":["java","komoran","korean","nlp","pos-tagging","tagger"],"created_at":"2024-10-31T03:22:11.541Z","updated_at":"2025-04-05T11:42:19.507Z","avatar_url":"https://github.com/9bow.png","language":"Java","funding_links":[],"categories":[],"sub_categories":[],"readme":"# KOMORANPoSTagger\n* **KO**rean **MOR**phological **AN**alyzer **P**art-**o**f-**S**peech **Tagger**\n* 오픈소스 형태소 분석기인 [코모란(KOMORAN)](https://github.com/shin285/KOMORAN)을 이용하여 파일 단위 말뭉치의 형태소 분석 결과를 태깅할 수 있습니다.\n\n\n# 빠른 사용법 (Quick Start)\n* KOMORANPoSTagger 프로젝트를 [내려받거나](https://github.com/9bow/KOMORANPoSTagger/archive/master.zip) `git clone` 한 후, 다음과 같이 실행합니다.\n```\ngit clone https://github.com/9bow/KOMORANPoSTagger\ncd KOMORANPoSTagger\n./gradlew run\n```\n* 이 때, 분석할 파일명이 주어지지 않으면 기본 입력 파일(`./data/sample.corpus`)을 형태소 분석 및 품사 태깅하여 저장합니다.\n* 형태소 분석 및 품사 태깅된 출력 파일은 `./output/` 경로에 `.tagged` 접미사가 붙은 파일명으로 저장됩니다.\n    * 예. `./data/sample.corpus` =\u003e `./output/sample.corpus.tagged`\n* 입력 파일명을 지정하려면 다음과 같이 실행합니다. (단, 입력 파일 내에는 한 줄에 한 문장이 들어갈 수 있도록 저장합니다.)\n```\n./gradlew run -P corpus='filepath/filename'\n```\n\n\n# 사용법 (Usage)\n* KOMORANPoSTagger 프로젝트를 [내려받거나](https://github.com/9bow/KOMORANPoSTagger/archive/master.zip) `git clone`한 후, 다음과 같이 실행 가능한 jar 파일을 생성합니다.\n```\ngit clone https://github.com/9bow/KOMORANPoSTagger\ncd KOMORANPoSTagger\n./gradlew jar\n```\n* 생성된 jar 파일(`build/libs/KOMORANPoSTagger.jar`)을 실행합니다.\n```\njava -jar ./build/libs/KOMORANPoSTagger.jar\n```\n* 이 때, 분석할 파일명이 주어지지 않으면 기본 입력 파일(`./data/sample.corpus`)을 형태소 분석 및 품사 태깅하여 저장합니다.\n* 형태소 분석 및 품사 태깅된 출력 파일은 `./output/` 경로에 `.tagged` 접미사가 붙은 파일명으로 저장됩니다.\n    * 예. `./data/sample.corpus` =\u003e `./output/sample.corpus.tagged`\n* 입력 파일을 지정하려면 다음과 같이 실행합니다. (단, 입력 파일 내에는 한 줄에 한 문장이 들어갈 수 있도록 저장합니다.)\n```\njava -jar ./build/libs/KOMORANPoSTagger.jar filepath/filename\n```\n\n\n# 설정 변경하기 (Using config.properties)\n* Config 파일(`src/main/resources/config.properties`)에서 아래의 기본 설정을 변경할 수 있습니다.\n* 지원하는 설정의 종류는 다음과 같습니다.\n\n| 설정명 | 설명 | 기본값 |\n|------|-----|------|\n| `input.sample` | (입력 파일이 지정되지 않았을 때) 기본 입력 파일 | `./data/sample.corpus` |\n| `input.charset` | 입력 파일의 인코딩 | `UTF-8` |\n| `output.dirpath` | 출력 파일의 저장 경로 | `./output/` |\n| `output.postfix` | 출력 파일의 접미사 (파일명은 입력 파일과 동일) | `.tagged` |\n| `output.charset` | 입력 파일의 인코딩 | `UTF-8` |\n| `delimiter.pos` | 품사 앞의 구분자 | `/` |\n| `delimiter.item` | 단어 간의 구분자 | 공백 문자(Space, `\\u0020`) |\n| `delimiter.line` | 입력 줄 간의 구분자 | 개행 문자(Newline, `\\n`) |\n| `model.type` | 형태소 분석에 사용할 모델의 종류 (full, light) | `full` |\n| `remove.space` | 고유명사 등, 형태소에 공백이 포함된 경우 제거 여부 (true, false) | `true` |\n\n\n# 입출력 파일 예시 (Example of input/output file)\n* 입력 파일의 예\n```\n제1조\n① 대한민국은 민주공화국이다.\n② 대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다.\n```\n\n* 출력 파일의 예\n```\n제/XPN 1/SN 조/NR\n①/SW 대한민국/NNP 은/JX 민주공화국/NNP 이/VCP 다/EF ./SF\n②/SW 대한민국/NNP 의/JKG 주권/NNP 은/JX 국민/NNG 에게/JKB 있/VV 고/EC ,/SP 모든/MM 권력/NNG 은/JX 국민/NNG 으로부터/JKB 나오/VV ㄴ다/EF ./SF\n```","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2F9bow%2Fkomoranpostagger","html_url":"https://awesome.ecosyste.ms/projects/github.com%2F9bow%2Fkomoranpostagger","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2F9bow%2Fkomoranpostagger/lists"}