https://github.com/x-tabdeveloping/augustine-will
Serveren til semantisk graphtegner baseret på Augustine-Will teksterne
https://github.com/x-tabdeveloping/augustine-will
Last synced: 6 months ago
JSON representation
Serveren til semantisk graphtegner baseret på Augustine-Will teksterne
- Host: GitHub
- URL: https://github.com/x-tabdeveloping/augustine-will
- Owner: x-tabdeveloping
- Created: 2021-12-19T14:48:06.000Z (about 4 years ago)
- Default Branch: main
- Last Pushed: 2023-04-17T06:31:04.000Z (almost 3 years ago)
- Last Synced: 2024-10-28T16:19:21.805Z (over 1 year ago)
- Language: Python
- Size: 33.9 MB
- Stars: 1
- Watchers: 1
- Forks: 3
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# augustine-will
Serveren til semantisk graphtegner baseret på Augustine-Will teksterne
## Sådan virker værktøjet:
Værktøjet har to separate funktioner:
1. Semantisk graph
2. Ordanalyse
### 1. Semantisk graph
- Graphen tegnes baseret på en **word2vec** model fil der skal indsættes til folderen `/dat`.
- Når en bruger taster nogle ord ind til værktøjet de bliver lemmatiseret med lemmatizeren i `latin.py` og anvendt som **seeds** til en semantisk kernel
- Oprettelsen af en semantisk kernel:
1. _k_ ord der er tættest på **seederne** samles til en liste, de bliver kaldt for kernellens **types**
2. _m_ ord der er tættest på **types** samles
3. Alle de her ord sættes sammen til en liste, **types** og **seeds** med store bogstaver
4. En graph tegnes til alle de ord man får ud af denne process
### 2. Ordanalyse
- `/dat/token_table.csv` anvendes til at se på ordbrug i corpus. Denne fil skal forudberegnes
- **seederne** bliver anvendt som de kommer, de bliver ikke lemmatiseret
- To grapher tegnes:
1. Ordforbrug i alt af **seederne**
2. Ordborbrug over tiden enten med absolute tal eller procentvis