https://github.com/elecbug/han-graph

漢-Graph(HAN-GRAPH)는 한자 기반 한국어 단어를 네트워크 그래프 형태로 구축하고, 이를 기반으로 외국인 학습자의 한국어 이해 능력을 향상시키기 위한 프로젝트입니다.
https://github.com/elecbug/han-graph

graph-theory korea korean korean-language

Last synced: about 2 months ago
JSON representation

漢-Graph(HAN-GRAPH)는 한자 기반 한국어 단어를 네트워크 그래프 형태로 구축하고, 이를 기반으로 외국인 학습자의 한국어 이해 능력을 향상시키기 위한 프로젝트입니다.

Host: GitHub
URL: https://github.com/elecbug/han-graph
Owner: elecbug
License: other
Created: 2025-10-09T08:08:40.000Z (9 months ago)
Default Branch: master
Last Pushed: 2026-05-02T16:35:35.000Z (about 2 months ago)
Last Synced: 2026-05-02T17:24:49.182Z (about 2 months ago)
Topics: graph-theory, korea, korean, korean-language
Language: Go
Homepage:
Size: 280 KB
Stars: 0
Watchers: 0
Forks: 0
Open Issues: 0
Metadata Files:
- Readme: README.md
- License: LICENSE

Awesome Lists containing this project

README

# 漢-Graph

본 프로젝트는 단순한 한자 사전이나 단어 암기 프로그램이 아니라,
학습자가 처음 보는 한국어 단어를 스스로 분해하고 추론하는 능력을 기르는 것을 핵심 목표로 합니다.

---

## 프로젝트 목적

본 프로젝트는 다음과 같은 목적을 갖습니다.

1. 비 한자권 외국인의 한국어 구성 중심 학습을 위한 데이터베이스 구축
2. 두 글자 이상의 한자어 조합으로 이루어진 한국어의 네트워크 그래프 구조 분석
3. 한자 기반 단어 연결 구조의 그래프 이론적 특성 연구
4. 외국인 학습자의 "미지 단어 추론 능력" 향상
5. ~~내 한자 공부~~

기타 자세한 내용은 [docs](./docs/) 항목을 참조해 주세요.

*본 프로젝트는 나의 소중한 여자친구 I. I. K. Sobirova를 위해 시작되었습니다.*

---

## 프로젝트 배경

한국어 능력시험(TOPIK) 중급 이상의 학습자들 중에는 상당한 어휘력을 갖고 있음에도 불구하고, 처음 보는 단어를 구성 요소 단위로 분석하지 못하는 경우가 존재합니다.

예를 들어 학습자가 `분수`라는 단어를 처음 본다고 가정합니다.

### 경우 1 — 단어 전체를 모르는 경우

학습자는 `분수`를 하나의 새로운 문자열로만 인식합니다.

```text
분수 = ??? (모르는 단어)
```

이 경우 문맥이 없으면 의미 추론이 어렵습니다.

---

### 경우 2 — 한자 구성 기반으로 이해하는 경우

학습자는 다음과 같이 접근합니다.

```text
분 = divide / spray
수 = water / number
```

그리고 문맥을 바탕으로:

```text
分數 = 나눈 수 → fraction
噴水 = 물을 뿜음 → fountain
```

과 같이 의미를 추론할 수 있습니다.

본 프로젝트는 바로 이 능력, 즉:

> "처음 보는 한국어 단어를 구성 요소 단위로 분석하고 의미를 추론하는 능력"

을 강화하는 것을 목표로 합니다.

---

## 핵심 아이디어

### 1. 단어는 그래프이다

한국어 한자어는 독립된 단어들의 집합이 아니라, 서로 연결된 의미 네트워크입니다.

예를 들어:

```text
文化 = 문화
文學 = 문학
文字 = 문자
文法 = 문법
```

은 모두 `文`이라는 공통 개념을 공유합니다.

또한:

```text
電話 = 전기 + 말
水道 = 물 + 길
火山 = 불 + 산
```

과 같은 구조는 조합적 의미 추론을 가능하게 만듭니다.

본 프로젝트는 이러한 구조를 그래프 형태로 저장합니다.

---

### 2. 데이터는 단어 중심으로 구축한다

본 프로젝트는 "한자별 예문 수집" 방식보다,
"단어 기반 데이터베이스 구축" 방식을 채택합니다.

예를 들어:

```json
{
"word": "문화",
"hanja": "文化",
"meaning_en": "culture"
}
```

라는 단어 하나는 자동으로:

```text
文 네트워크
化 네트워크
```

양쪽에 동시에 연결됩니다.

즉:

```text
단어 데이터 구축
→ 자동 역색인
→ 한자 그래프 생성
```

구조를 사용합니다.

---

## 데이터 구조

### 1. 한자 데이터

각 한자는 다음과 같은 구조를 가집니다.

```json
{
"type": "character",
"id": "hwa002",
"hanja": "火",
"meaning_ko": ["불"],
"meaning_en": ["fire"]
}
```

특징:

* 음별(meta) 그룹 존재
* 중등 한자: `000~099`
* 고등 한자: `100~199`
* 확장 한자: `200~`

---

### 2. 단어 데이터

단어는 다음과 같이 저장됩니다.

```json
{
"word": "전화",
"hanja": "電話",
"meaning_ko": "전화",
"meaning_en": "telephone",
"components": ["電", "話"],
"semantic_hint": "전기로 말함"
}
```

---

### 3. 그래프 구조

단어와 한자는 내부적으로 그래프로 연결됩니다.

예시:

```text
文 ─ 文化
│
├─ 文學
│
├─ 文字
│
└─ 文法
```

또한:

```text
水 ─ 水道
│
├─ 水泳
│
├─ 海水
│
└─ 噴水
```

와 같이 확장됩니다.

---

## Program

본 프로젝트는 데이터베이스를 구축하는 것에서 끝나지 않으며,
그래프 기반 언어 학습 프로그램을 함께 개발하는 것을 목표로 합니다.

---

## 1. 프로그램 목적

본 프로젝트의 프로그램은:

* 한자 기반 한국어 학습 지원
* 단어 구조 기반 의미 추론 훈련
* 네트워크 그래프 시각화 기반 언어 학습
* 미지 단어 분석 능력 향상

을 목표로 합니다.

학습자는 각 한자를 사전처럼 탐색할 수 있어야 하며:

* 발음
* 의미
* 연결 단어
* 예문
* 연관 한자
* 그래프 연결 구조

를 시각적으로 확인할 수 있어야 합니다.

---

## 2. 핵심 학습 방식

본 프로그램은 단순 암기형 학습이 아니라,
"구성 요소 기반 추론 훈련"을 목표로 합니다.

예를 들어:

```text
수학 시간에 분수를 배웠다.
```

라는 문장이 주어지면:

```text
分數 = 나눈 수
噴水 = 물을 뿜음
```

중 어떤 의미인지 문맥 기반으로 선택하도록 학습합니다.

---

## 3. 그래프 기반 시각화

프로그램은 내부 데이터를 네트워크 그래프로 시각화하는 기능을 목표로 합니다.

예시:

```text
電 ─ 電話
│
├─ 電氣
│
├─ 電力
│
└─ 發電
```

사용자는 특정 한자를 중심으로:

* 연결 강도
* 사용 빈도
* 의미 군집
* 단어 거리

등을 시각적으로 탐색할 수 있습니다.

---

## 4. 사용 언어 및 플랫폼

사용 언어에 제한은 두지 않지만, 다음 목표를 우선합니다.

### 4.1 성능

1800개 이상의 한자와 수천 개 이상의 단어 네트워크를 처리해야 하므로:

* 빠른 그래프 탐색
* 병렬 처리
* 대규모 시각화

를 고려해야 합니다.

---

### 4.2 접근성

다음 중 하나 이상을 목표로 합니다.

* 웹 기반 서비스
* 크로스 플랫폼 데스크탑 앱
* 모바일 접근 지원

언제 어디서나 학습 가능해야 합니다.

---

### 4.3 다국어 지원

우선 지원 언어:

* 한국어
* 영어

향후 지원 예정:

* 러시아어
* 중국어
* 일본어

---

## 5. 장기 목표

본 프로젝트는 단순한 학습 앱을 넘어:

* 한국어 한자어 그래프 연구
* 언어 네트워크 분석
* 의미 기반 단어 추론 모델
* 외국인 학습자 맞춤형 언어 지도
* 한국어 의미 연결 시각화

등으로 확장되는 것을 목표로 합니다.

또한 장기적으로는:

```text
단어 → 한자 → 의미 → 문맥 → 추론
```

의 과정을 인간 학습자와 AI가 함께 활용할 수 있는 구조로 발전시키고자 합니다.

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/elecbug/han-graph

Awesome Lists containing this project

README