https://github.com/koldim2001/rag_llm
Чат-бот с LLL + RAG
https://github.com/koldim2001/rag_llm
chatbot docker-compose llm llm-inference milvus multimodal qwen2-5 reranking retrieval-augmented-generation streamlit text-embedding
Last synced: about 1 month ago
JSON representation
Чат-бот с LLL + RAG
- Host: GitHub
- URL: https://github.com/koldim2001/rag_llm
- Owner: Koldim2001
- Created: 2025-01-17T10:57:44.000Z (9 months ago)
- Default Branch: main
- Last Pushed: 2025-08-12T15:55:02.000Z (about 2 months ago)
- Last Synced: 2025-08-12T17:33:14.494Z (about 2 months ago)
- Topics: chatbot, docker-compose, llm, llm-inference, milvus, multimodal, qwen2-5, reranking, retrieval-augmented-generation, streamlit, text-embedding
- Language: Python
- Homepage: https://github.com/Koldim2001/RAG_LLM/tree/GPT_VQA_Example
- Size: 339 KB
- Stars: 5
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# RAG (Retrieval Augmented Generation) with LLM
Сделано приложение, способное осуществлять QA при учитывании контента из любых предоставляемых сайтов. Надо передать список ссылок и далее можно задавать вопросы по данному материалу.
---
### Запуск сервисов:
```
docker compose up -d --build
```

Сайт по работе с LLM (чат-бот с рагом) станет доступен после запуска компоуза по этому адресу - http://localhost:8501/Код для работы с раг из python - *rag_example.ipynb*
Туториал по проекту - [видео](https://rutube.ru/video/private/236899f9912c7ebaabd3f4142c672684/?p=00pHeMu2UAZse16c78_wDA)
---
Модели, что использованы в проекте (поднимаются локально):
```
LLM: Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4
Embedder : intfloat/multilingual-e5-large-instruct
Reranker : BAAI/bge-reranker-v2-m3
```Как предустановить модель Qwen чтобы вольюм ее увидел и без инета запускал:
```
cd models/nlp/llm
git clone https://huggingface.co/Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4
```
PS: если заменить `command: --model /models/Qwen2.5-7B-Instruct-GPTQ-Int4` на `--model Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4` то модель сама скачается в кэш и не надо будет ее через git скачивать с хагингфеса (но тогда при каждом перезапуске будет качать ее)---
В ветке [**GPT_VQA_Example**](https://github.com/Koldim2001/RAG_LLM/tree/GPT_VQA_Example) можно найти примеры инференса готовых моделей в python по api. В том числе там пример с Visual LLM (VQA).