https://github.com/elecbug/han-graph
漢-Graph(HAN-GRAPH)는 한자 기반 한국어 단어를 네트워크 그래프 형태로 구축하고, 이를 기반으로 외국인 학습자의 한국어 이해 능력을 향상시키기 위한 프로젝트입니다.
https://github.com/elecbug/han-graph
graph-theory korea korean korean-language
Last synced: about 2 months ago
JSON representation
漢-Graph(HAN-GRAPH)는 한자 기반 한국어 단어를 네트워크 그래프 형태로 구축하고, 이를 기반으로 외국인 학습자의 한국어 이해 능력을 향상시키기 위한 프로젝트입니다.
- Host: GitHub
- URL: https://github.com/elecbug/han-graph
- Owner: elecbug
- License: other
- Created: 2025-10-09T08:08:40.000Z (9 months ago)
- Default Branch: master
- Last Pushed: 2026-05-02T16:35:35.000Z (about 2 months ago)
- Last Synced: 2026-05-02T17:24:49.182Z (about 2 months ago)
- Topics: graph-theory, korea, korean, korean-language
- Language: Go
- Homepage:
- Size: 280 KB
- Stars: 0
- Watchers: 0
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
README
# 漢-Graph
漢-Graph(HAN-GRAPH)는 한자 기반 한국어 단어를 네트워크 그래프 형태로 구축하고, 이를 기반으로 외국인 학습자의 한국어 이해 능력을 향상시키기 위한 프로젝트입니다.
본 프로젝트는 단순한 한자 사전이나 단어 암기 프로그램이 아니라,
학습자가 처음 보는 한국어 단어를 스스로 분해하고 추론하는 능력을 기르는 것을 핵심 목표로 합니다.
---
## 프로젝트 목적
본 프로젝트는 다음과 같은 목적을 갖습니다.
1. 비 한자권 외국인의 한국어 구성 중심 학습을 위한 데이터베이스 구축
2. 두 글자 이상의 한자어 조합으로 이루어진 한국어의 네트워크 그래프 구조 분석
3. 한자 기반 단어 연결 구조의 그래프 이론적 특성 연구
4. 외국인 학습자의 "미지 단어 추론 능력" 향상
5. ~~내 한자 공부~~
기타 자세한 내용은 [docs](./docs/) 항목을 참조해 주세요.
*본 프로젝트는 나의 소중한 여자친구 I. I. K. Sobirova를 위해 시작되었습니다.*
---
## 프로젝트 배경
한국어 능력시험(TOPIK) 중급 이상의 학습자들 중에는 상당한 어휘력을 갖고 있음에도 불구하고, 처음 보는 단어를 구성 요소 단위로 분석하지 못하는 경우가 존재합니다.
예를 들어 학습자가 `분수`라는 단어를 처음 본다고 가정합니다.
### 경우 1 — 단어 전체를 모르는 경우
학습자는 `분수`를 하나의 새로운 문자열로만 인식합니다.
```text
분수 = ??? (모르는 단어)
```
이 경우 문맥이 없으면 의미 추론이 어렵습니다.
---
### 경우 2 — 한자 구성 기반으로 이해하는 경우
학습자는 다음과 같이 접근합니다.
```text
분 = divide / spray
수 = water / number
```
그리고 문맥을 바탕으로:
```text
分數 = 나눈 수 → fraction
噴水 = 물을 뿜음 → fountain
```
과 같이 의미를 추론할 수 있습니다.
본 프로젝트는 바로 이 능력, 즉:
> "처음 보는 한국어 단어를 구성 요소 단위로 분석하고 의미를 추론하는 능력"
을 강화하는 것을 목표로 합니다.
---
## 핵심 아이디어
### 1. 단어는 그래프이다
한국어 한자어는 독립된 단어들의 집합이 아니라, 서로 연결된 의미 네트워크입니다.
예를 들어:
```text
文化 = 문화
文學 = 문학
文字 = 문자
文法 = 문법
```
은 모두 `文`이라는 공통 개념을 공유합니다.
또한:
```text
電話 = 전기 + 말
水道 = 물 + 길
火山 = 불 + 산
```
과 같은 구조는 조합적 의미 추론을 가능하게 만듭니다.
본 프로젝트는 이러한 구조를 그래프 형태로 저장합니다.
---
### 2. 데이터는 단어 중심으로 구축한다
본 프로젝트는 "한자별 예문 수집" 방식보다,
"단어 기반 데이터베이스 구축" 방식을 채택합니다.
예를 들어:
```json
{
"word": "문화",
"hanja": "文化",
"meaning_en": "culture"
}
```
라는 단어 하나는 자동으로:
```text
文 네트워크
化 네트워크
```
양쪽에 동시에 연결됩니다.
즉:
```text
단어 데이터 구축
→ 자동 역색인
→ 한자 그래프 생성
```
구조를 사용합니다.
---
## 데이터 구조
### 1. 한자 데이터
각 한자는 다음과 같은 구조를 가집니다.
```json
{
"type": "character",
"id": "hwa002",
"hanja": "火",
"meaning_ko": ["불"],
"meaning_en": ["fire"]
}
```
특징:
* 음별(meta) 그룹 존재
* 중등 한자: `000~099`
* 고등 한자: `100~199`
* 확장 한자: `200~`
---
### 2. 단어 데이터
단어는 다음과 같이 저장됩니다.
```json
{
"word": "전화",
"hanja": "電話",
"meaning_ko": "전화",
"meaning_en": "telephone",
"components": ["電", "話"],
"semantic_hint": "전기로 말함"
}
```
---
### 3. 그래프 구조
단어와 한자는 내부적으로 그래프로 연결됩니다.
예시:
```text
文 ─ 文化
│
├─ 文學
│
├─ 文字
│
└─ 文法
```
또한:
```text
水 ─ 水道
│
├─ 水泳
│
├─ 海水
│
└─ 噴水
```
와 같이 확장됩니다.
---
## Program
본 프로젝트는 데이터베이스를 구축하는 것에서 끝나지 않으며,
그래프 기반 언어 학습 프로그램을 함께 개발하는 것을 목표로 합니다.
---
## 1. 프로그램 목적
본 프로젝트의 프로그램은:
* 한자 기반 한국어 학습 지원
* 단어 구조 기반 의미 추론 훈련
* 네트워크 그래프 시각화 기반 언어 학습
* 미지 단어 분석 능력 향상
을 목표로 합니다.
학습자는 각 한자를 사전처럼 탐색할 수 있어야 하며:
* 발음
* 의미
* 연결 단어
* 예문
* 연관 한자
* 그래프 연결 구조
를 시각적으로 확인할 수 있어야 합니다.
---
## 2. 핵심 학습 방식
본 프로그램은 단순 암기형 학습이 아니라,
"구성 요소 기반 추론 훈련"을 목표로 합니다.
예를 들어:
```text
수학 시간에 분수를 배웠다.
```
라는 문장이 주어지면:
```text
分數 = 나눈 수
噴水 = 물을 뿜음
```
중 어떤 의미인지 문맥 기반으로 선택하도록 학습합니다.
---
## 3. 그래프 기반 시각화
프로그램은 내부 데이터를 네트워크 그래프로 시각화하는 기능을 목표로 합니다.
예시:
```text
電 ─ 電話
│
├─ 電氣
│
├─ 電力
│
└─ 發電
```
사용자는 특정 한자를 중심으로:
* 연결 강도
* 사용 빈도
* 의미 군집
* 단어 거리
등을 시각적으로 탐색할 수 있습니다.
---
## 4. 사용 언어 및 플랫폼
사용 언어에 제한은 두지 않지만, 다음 목표를 우선합니다.
### 4.1 성능
1800개 이상의 한자와 수천 개 이상의 단어 네트워크를 처리해야 하므로:
* 빠른 그래프 탐색
* 병렬 처리
* 대규모 시각화
를 고려해야 합니다.
---
### 4.2 접근성
다음 중 하나 이상을 목표로 합니다.
* 웹 기반 서비스
* 크로스 플랫폼 데스크탑 앱
* 모바일 접근 지원
언제 어디서나 학습 가능해야 합니다.
---
### 4.3 다국어 지원
우선 지원 언어:
* 한국어
* 영어
향후 지원 예정:
* 러시아어
* 중국어
* 일본어
---
## 5. 장기 목표
본 프로젝트는 단순한 학습 앱을 넘어:
* 한국어 한자어 그래프 연구
* 언어 네트워크 분석
* 의미 기반 단어 추론 모델
* 외국인 학습자 맞춤형 언어 지도
* 한국어 의미 연결 시각화
등으로 확장되는 것을 목표로 합니다.
또한 장기적으로는:
```text
단어 → 한자 → 의미 → 문맥 → 추론
```
의 과정을 인간 학습자와 AI가 함께 활용할 수 있는 구조로 발전시키고자 합니다.