https://github.com/ilyasyoy/similar-articles-poc

This repository contains the service that builds models that provide a way to find similar articles.
https://github.com/ilyasyoy/similar-articles-poc

Last synced: 7 months ago
JSON representation

This repository contains the service that builds models that provide a way to find similar articles.

Host: GitHub
URL: https://github.com/ilyasyoy/similar-articles-poc
Owner: IlyasYOY
License: mit
Created: 2018-12-17T09:14:46.000Z (almost 7 years ago)
Default Branch: master
Last Pushed: 2019-05-04T20:34:07.000Z (over 6 years ago)
Last Synced: 2025-02-14T07:51:22.630Z (9 months ago)
Language: Python
Size: 78.1 KB
Stars: 1
Watchers: 1
Forks: 0
Open Issues: 0
Metadata Files:
- Readme: README.md
- License: LICENSE

Awesome Lists containing this project

README

# similar-articles-poc
Данный сервис состоит из нескольких частей:

- `static`. `templates`

Данные папки содержат данные, которые нжны для работы сервиса, `CSS` файлы, `favicon.ico`, `Jinja2`-шаблоны `HTML` страниц.

- `trainers`

Данный пакет содержит скрипты, которые обучают модели над данных которые находятся в папке `data`.

- `settings.json`

Я использую такие настройки приложения.

```jsonld
{
"test-data-path": "data/test.json", // Путь к данным.
"chunk-size": 1000, // размер единицы, о обработке которой система будет уведомлять логами.
"vectors-path": "data/glove.w2v.6B.300d.txt" // Путь к модели эмбеддингов.
}
```

Стоит заметить, чтоя я использовал уже обученную модель **GloVe** для обработки своих данных. Могла использоваться любая другая модель, просто данная модельбыла выбрана как золотая середина между более сложными: **FastText**, **ELMo** --- и более простыми: **Word2vec**.

Характеристики этой модели:
- Вектор размерности 300.
- 400.000 слов в словаре.
- Обучено на 6 миллиардах слов.

Для зупуска приложения сначала трубется обучить данные:

```bash
$ train-everything.sh
```

После запустить сервис:

```bash
$ pip install -r requirements.txt && python app.py
```

Как выглядит приложение:

Основной экран:
![](https://i.imgur.com/p5Xq4ET.png)

Рекоменадация:
![](https://i.imgur.com/nUln1IU.png)
![](https://i.imgur.com/RyGYbIr.png)

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/ilyasyoy/similar-articles-poc

Awesome Lists containing this project

README