openredteaming

Papers about red teaming LLMs and Multimodal models.
https://github.com/libr-ai/openredteaming

Last synced: 17 days ago
JSON representation

Our Survey: Against The Achilles’ Heel: A Survey on Red Teaming for Generative Models [[Paper](https://arxiv.org/abs/2404.00629)]
- our website
- our website
Surveys
- - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
- Surveys on Attacks
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
- Surveys on Risks
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
Training Time Defenses
- Fine-tuning
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
- RLHF
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
Defense
- Guardrail Defenses
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
- Other Defenses
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
Suffix Searchers
- Fine-tuning Risks
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
Completion Compliance
- Surveys on Risks
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
Taxonomies
- Surveys on Risks
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
Positions
- Surveys on Risks
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
Phenomenons
- Surveys on Risks
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
Generalization Glide
- Languages
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
- Cipher
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
- Personification
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
Instruction Indirection
- Surveys on Risks
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
Attack Strategies
- Instruction Indirection
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
- Completion Compliance
  - [Paper
  - [Paper
  - [Paper
  - [Paper
Inference Time Defenses
- Prompting
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
- Ensemble
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
- Guardrails
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
- Adversarial Suffix Defenses
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
- Decoding Defenses
  - [Paper
  - [Paper
  - [Paper
  - [Paper
Model Manipulation
- Backdoor Attacks
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
- Fine-tuning Risks
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
Prompt Searchers
- Language Model
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
- Decoding
  - [Paper
  - [Paper
  - [Paper
  - [Paper
- Genetic Algorithm
  - [Paper
  - [Paper
  - [Paper
- Reinforcement Learning
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
Application Risks
- Prompt Injection
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
- Prompt Extraction
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
Evaluation Benchmarks
- Defense Metrics
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
Application
- Agents
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
Evaluation Metrics
- Attack Metrics
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
- Defense Metrics
  - [Paper
  - [Paper
  - [Paper
  - [Paper
Application Domains
- Agent
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
- Programming
  - [Paper
  - [Paper
  - [Paper
  - [Paper
Attack Searchers
- Image Searchers
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
- Cross Modality Searchers
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
  - [Paper
- Others
  - [Paper
  - [Paper
  - [Paper
  - [Paper
Benchmarks
- Agents
  - [Paper
  - [Paper
  - [Paper
  - [Paper

Categories

Inference Time Defenses 85 Surveys 48 Model Manipulation 45 Prompt Searchers 38 Evaluation Benchmarks 37 Generalization Glide 36 Training Time Defenses 33 Application Domains 27 Suffix Searchers 25 Phenomenons 24 Completion Compliance 20 Attack Strategies 20 Attack Searchers 20 Instruction Indirection 18 Defense 16 Taxonomies 14 Application Risks 14 Application 11 Evaluation Metrics 10 Positions 10 Benchmarks 4 Our Survey: Against The Achilles’ Heel: A Survey on Red Teaming for Generative Models [[Paper](https://arxiv.org/abs/2404.00629)] 2

Sub Categories

Surveys on Risks 102 Fine-tuning Risks 43 Defense Metrics 41 Guardrails 34 Backdoor Attacks 27 Surveys on Attacks 26 Language Model 26 Prompting 26 Agent 23 Fine-tuning 23 Instruction Indirection 16 Agents 15 Languages 12 Personification 12 Cipher 12 Adversarial Suffix Defenses 11 Guardrail Defenses 10 RLHF 10 Ensemble 10 Cross Modality Searchers 8 Image Searchers 8 Prompt Injection 8 Prompt Extraction 6 Attack Metrics 6 Other Defenses 6 Reinforcement Learning 5 Decoding Defenses 4 Programming 4 Completion Compliance 4 Decoding 4 Others 4 Genetic Algorithm 3