https://github.com/ilyasyoy/similar-articles-poc
This repository contains the service that builds models that provide a way to find similar articles.
https://github.com/ilyasyoy/similar-articles-poc
Last synced: 7 months ago
JSON representation
This repository contains the service that builds models that provide a way to find similar articles.
- Host: GitHub
- URL: https://github.com/ilyasyoy/similar-articles-poc
- Owner: IlyasYOY
- License: mit
- Created: 2018-12-17T09:14:46.000Z (almost 7 years ago)
- Default Branch: master
- Last Pushed: 2019-05-04T20:34:07.000Z (over 6 years ago)
- Last Synced: 2025-02-14T07:51:22.630Z (9 months ago)
- Language: Python
- Size: 78.1 KB
- Stars: 1
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
README
# similar-articles-poc
Данный сервис состоит из нескольких частей:
- `static`. `templates`
Данные папки содержат данные, которые нжны для работы сервиса, `CSS` файлы, `favicon.ico`, `Jinja2`-шаблоны `HTML` страниц.
- `trainers`
Данный пакет содержит скрипты, которые обучают модели над данных которые находятся в папке `data`.
- `settings.json`
Я использую такие настройки приложения.
```jsonld
{
"test-data-path": "data/test.json", // Путь к данным.
"chunk-size": 1000, // размер единицы, о обработке которой система будет уведомлять логами.
"vectors-path": "data/glove.w2v.6B.300d.txt" // Путь к модели эмбеддингов.
}
```
Стоит заметить, чтоя я использовал уже обученную модель **GloVe** для обработки своих данных. Могла использоваться любая другая модель, просто данная модельбыла выбрана как золотая середина между более сложными: **FastText**, **ELMo** --- и более простыми: **Word2vec**.
Характеристики этой модели:
- Вектор размерности 300.
- 400.000 слов в словаре.
- Обучено на 6 миллиардах слов.
Для зупуска приложения сначала трубется обучить данные:
```bash
$ train-everything.sh
```
После запустить сервис:
```bash
$ pip install -r requirements.txt && python app.py
```
Как выглядит приложение:
Основной экран:

Рекоменадация:

