Awesome-RAG

😎 Awesome list of Retrieval-Augmented Generation (RAG) applications in Generative AI.
https://github.com/Danielskry/Awesome-RAG

Last synced: about 17 hours ago
JSON representation

💾 Databases
- Benchmarks
  - Picking a vector database
- Other Database Systems:
  - Neo4j
  - Qdrant - source vector database designed for similarity search.
  - Redis Stack - memory data structure store used as a database, cache, and message broker.
  - Azure Cosmos DB - model database service with integrated vector search.
  - Couchbase
  - Lantern - aware personal search engine.
  - LlamaIndex - memory vector store for rapid experimentation.
  - SurrealDB - model database optimized for time-series data.
  - Weaviate - source cloud-native vector search engine.
- Distributed Data Processing and Serving Engines:
  - Apache Cassandra
  - MongoDB Atlas - model database service with integrated vector search.
  - Vespa - source big data processing and serving engine designed for real-time applications.
- Search Engines with Vector Capabilities:
  - Elasticsearch
  - OpenSearch
- Vector Databases:
  - Chroma DB - native open-source embedding database.
  - Milvus - source vector database for AI-powered applications.
  - Pinecone
  - Oracle AI Vector Search
- Relational Database Extensions:
  - Pgvector - source extension for vector similarity search in PostgreSQL.
- Vector Search Libraries and Tools:
  - FAISS - scale datasets and optimized for fast retrieval of nearest neighbors.
🧰 Frameworks that Facilitate RAG
- Swiftide
- Haystack - ready LLM applications.
- LangChain - purpose framework for working with LLMs.
- Semantic Kernel
- Verba - source application for RAG out of the box.
- Mastra
- Dify - source LLM app development platform.
- Cognita - source RAG framework for building modular and production ready applications.
- Letta
- Flowise
- LlamaIndex
- CocoIndex
🛠️ Techniques
- Response quality & safety
  - Hallucination
  - Guardrails - checking.
  - Prompt Injection Prevention
- Prompting
- Chunking
- Embeddings
  - MTEB Leaderboard
- Retrieval
- Data cleaning
  - Data cleaning techniques - processing steps to refine input data and improve model performance.
🎯 Approaches
- RAG Fusion
- Temporal Augmented Retrieval - sensitive data in retrieval processes.
- Plan-then-RAG
- GraphRAG
- FLARE - An approach that incorporates active retrieval-augmented generation to improve response quality.
- Contextual Retrieval - Improves retrieval by adding relevant context to document chunks before retrieval, enhancing the relevance of information retrieved from large knowledge bases.
- Self Reflective RAG
- Agentic RAG
- GNN-RAG
- Corrective RAG
- Cache-Augmented Generation (CAG) - Value (KV) cache).
- Retrieval-Augmented Fine-Tuning - tune LLMs specifically for enhanced retrieval and generation tasks.
📊 Metrics
- Search metrics
- Response Evaluation Metrics
  - LangFuse - source tool for tracking LLM metrics, observability, and prompt management.
  - LangSmith - grade LLM applications, allows you to closely monitor and evaluate your application.
  - Hugging Face Evaluate
  - Weights & Biases
  - Ragas
  - BLEU - grams between machine-generated and reference outputs, providing insight into precision.
  - ROUGE - grams, skip-bigrams, or longest common subsequence with reference outputs.
  - METEOR
  - TuringBench
  - Hugging Face Evaluate

Programming Languages

Python 7 TypeScript 5 Rust 4 Go 2 Java 2 C++ 1 C 1 C# 1

Categories

🛠️ Techniques 31 💾 Databases 21 📊 Metrics 15 🎯 Approaches 12 🧰 Frameworks that Facilitate RAG 12

Sub Categories

Chunking 12 Response Evaluation Metrics 10 Other Database Systems: 9 Prompting 9 Search metrics 5 Retrieval 5 Vector Databases: 4 Distributed Data Processing and Serving Engines: 3 Response quality & safety 3 Search Engines with Vector Capabilities: 2 Embeddings 1 Data cleaning 1 Vector Search Libraries and Tools: 1 Benchmarks 1 Relational Database Extensions: 1

Keywords

llm 10 ai 8 rag 8 llmops 4 openai 4 python 4 semantic-search 3 typescript 3 nearest-neighbor-search 3 large-language-models 3 machine-learning 3 image-search 2 nextjs 2 hnsw 2 artificial-intelligence 2 workflows 2 graph-database 2 javascript 2 deep-learning 2 vector-database 2 vector-search 2 nosql 2 analytics 2 backend-as-a-service 2 evaluation 2 langchain 2 mlops 2 approximate-nearest-neighbor-search 2 data 2 indexing 2 gpt 2 gpt-4 2 llms 2 agents 2 distributed 2 chatgpt 2 generative-ai 2 information-retrieval 2 language-model 2 search-engine 2 pytorch 2 database 2 retrieval-augmented-generation 2 chatbot 2 cypher 1 ycombinator 1 graph 1 self-hosted 1 graphdb 1 neo4j 1

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

Awesome-RAG

💾 Databases

Benchmarks

Other Database Systems:

Distributed Data Processing and Serving Engines:

Search Engines with Vector Capabilities:

Vector Databases:

Relational Database Extensions:

Vector Search Libraries and Tools:

🧰 Frameworks that Facilitate RAG

🛠️ Techniques

Response quality & safety

Prompting

Chunking

Embeddings

Retrieval

Data cleaning

🎯 Approaches

📊 Metrics

Search metrics

Response Evaluation Metrics