https://github.com/koldim2001/rag_llm

Чат-бот с LLL + RAG
https://github.com/koldim2001/rag_llm

chatbot docker-compose llm llm-inference milvus multimodal qwen2-5 reranking retrieval-augmented-generation streamlit text-embedding

Last synced: about 1 month ago
JSON representation

Чат-бот с LLL + RAG

Host: GitHub
URL: https://github.com/koldim2001/rag_llm
Owner: Koldim2001
Created: 2025-01-17T10:57:44.000Z (9 months ago)
Default Branch: main
Last Pushed: 2025-08-12T15:55:02.000Z (about 2 months ago)
Last Synced: 2025-08-12T17:33:14.494Z (about 2 months ago)
Topics: chatbot, docker-compose, llm, llm-inference, milvus, multimodal, qwen2-5, reranking, retrieval-augmented-generation, streamlit, text-embedding
Language: Python
Homepage: https://github.com/Koldim2001/RAG_LLM/tree/GPT_VQA_Example
Size: 339 KB
Stars: 5
Watchers: 1
Forks: 0
Open Issues: 0
Metadata Files:
- Readme: README.md

Awesome Lists containing this project

README

# RAG (Retrieval Augmented Generation) with LLM

Сделано приложение, способное осуществлять QA при учитывании контента из любых предоставляемых сайтов. Надо передать список ссылок и далее можно задавать вопросы по данному материалу.

---

### Запуск сервисов:
```
docker compose up -d --build
```
![Внешний вид сайта](https://github.com/user-attachments/assets/8d8da6d9-8c11-4dd3-b611-be1675e4ea74)
Сайт по работе с LLM (чат-бот с рагом) станет доступен после запуска компоуза по этому адресу - http://localhost:8501/

Код для работы с раг из python - *rag_example.ipynb*

Туториал по проекту - [видео](https://rutube.ru/video/private/236899f9912c7ebaabd3f4142c672684/?p=00pHeMu2UAZse16c78_wDA)

---
Модели, что использованы в проекте (поднимаются локально):
```
LLM: Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4
Embedder : intfloat/multilingual-e5-large-instruct
Reranker : BAAI/bge-reranker-v2-m3
```

Как предустановить модель Qwen чтобы вольюм ее увидел и без инета запускал:
```
cd models/nlp/llm
git clone https://huggingface.co/Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4
```
PS: если заменить `command: --model /models/Qwen2.5-7B-Instruct-GPTQ-Int4` на `--model Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4` то модель сама скачается в кэш и не надо будет ее через git скачивать с хагингфеса (но тогда при каждом перезапуске будет качать ее)

---

В ветке [**GPT_VQA_Example**](https://github.com/Koldim2001/RAG_LLM/tree/GPT_VQA_Example) можно найти примеры инференса готовых моделей в python по api. В том числе там пример с Visual LLM (VQA).

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/koldim2001/rag_llm

Awesome Lists containing this project

README