Awesome-Jailbreak-on-LLMs

Awesome-Jailbreak-on-LLMs is a collection of state-of-the-art, novel, exciting jailbreak methods on LLMs. It contains papers, codes, datasets, evaluations, and analyses.
https://github.com/yueliu1999/Awesome-Jailbreak-on-LLMs

Last synced: about 3 hours ago
JSON representation

Papers
- Jailbreak Attack
  - link - |
  - link - |
  - link - |
  - link - AI/curiosity_redteam) |
  - link - autodan) |
  - link - Fangxu/COLD-Attack) |
  - link - SysML/Jailbreak_LLM) |
  - link - N/AutoDAN) |
  - link - NLP-Group/AmpleGCG) |
  - link - attack-llm) |
  - link
  - link
  - link - GCG) |
  - link - |
  - link - |
  - link - gibbs/multi-turn_jailbreak_attack_datasets) |
  - link - EPFL/Charmer) |
  - link - |
  - link - |
  - link - sg/I-FSJ) |
  - link - GCG) |
  - link
  - link
  - link - |
  - link - |
  - link - |
  - link - |
  - link - Jailbreak-Vision-Language-Models-via-Bi-Modal-Adversarial-Prompt) |
  - link
  - link
  - link - Minseon/APGP) |
  - link - hijacks) |
  - link - Luo/CroPA) |
  - link - |
  - link
  - link
  - link - |
  - link - |
  - link - |
  - link - |
  - link - llms) |
  - link - ->
  - link - aught/space_attack) |
  - link - |
  - link - |
  - link - Yan-Yang-Yan/SoP) |
  - link - |
  - link - sg/Agent-Smith) |
  - link - |
  - link - |
  - link - |
  - link - DRA/DRA/) |
  - link - epfl/llm-adaptive-attacks) |
  - link
  - link
  - link - FSS/jailbreak-langchain) |
  - link - group/DeepInception) |
  - link - |
  - link - |
  - link
  - link
  - link - |
  - link - |
  - link - |
  - link - |
  - link
  - link - |
  - link - |
  - link - li/DrAttack) |
  - link - |
  - link - L/CodeChameleon) |
  - link
  - link - |
  - link - |
  - link - |
  - link - |
  - link - |
  - link - group/CognitiveOverload) |
  - link - |
  - link
  - link - |
  - link - |
  - link - |
  - link
  - link - |
  - link - |
  - link
  - link
  - link - KnowComp/LLM-Multistep-Jailbreak) |
  - link - |
  - link
  - link - me/AttackVLM) |
  - link - ml/Attack-Bard) |
  - link - codes/AdvCLIP) |
  - link - 2020/SGA) |
  - link - |
  - link - for-goodness/Co-Attack) |
  - link - B4C4/README.md) |
  - link - gasp/gasp) |
  - link - |
  - link - 4F3B/) |
  - link - |
  - link - |
  - link - security) |
  - link - |
  - link
  - link
  - Link
  - Link - |
  - link
  - link - |
  - link
  - link
  - link - |
  - link - KEG/Knowledge-to-Jailbreak/) |
  - link
  - link - hippo/red_queen) |
  - link
  - link - ExtractingData) |
  - Link - |
  - link - |
  - link - |
  - link - TY/llm_Implicit_reference) |
  - link - Prompt-Translator) |
  - link - |
  - link - VLAA/AttnGCG-attack) |
  - link - |
  - link - |
  - link - LLM) |
  - link
  - link - |
  - link - Leyang/LLM-Safeguard) |
  - link - WISC/AutoDAN-Turbo) |
  - link - |
  - link - |
  - link - Injection-Jailbreak) |
  - link
  - link - |
  - link - |
  - link - Language-Model-Break-AI) |
  - link - |
  - link - Multimodal-Jailbreak) |
  - link - |
  - link - |
  - link
  - link - ai/JOOD) |
  - link
  - link - ai/BoT) |
  - link - reasoning-openai-o1o3-deepseek-r1) |
  - link - |
  - link - |
- Jailbreak Defense
  - link - |
  - link
  - Link - |
  - link
  - link - |
  - link - |
  - link - |
  - link - coai/SafeUnlearning) |
  - link - group/prompt-injection-defense) |
  - link - coai/JailbreakDefense_GoalPriority) |
  - link - Enhanced-Alignment) |
  - link - Safeguard) |
  - link - |
  - link
  - link
  - link - |
  - link - |
  - link - Alignment/safe-rlhf) |
  - link - leon/self-eval) |
  - link - nsl/SafeDecoding) |
  - link - |
  - link - llm) |
  - link - Zh/PARDEN) |
  - link - self-defense) |
  - link - |
  - link
  - link - pisano/Bergeron) |
  - link
  - link
  - link - safety) |
  - link - WISC/AdaShield) |
  - link - llm-safety) |
  - link - |
  - link - NLP-Chang/SemanticSmooth) |
  - link - Reminder/) |
  - link
  - link - |
  - link - |
  - link - Guidance) |
  - link - Jailbreaking-Defense-Backtranslation) |
  - link - |
  - link - |
  - link - |
  - link - |
  - link - |
  - link - |
  - link - |
  - link
  - link - |
  - link - |
  - link - State-Filtering-8652/) |
  - link - |
  - link - XL/G4D) |
  - link - NLP-SG/multilingual-safety-for-LLMs) |
  - link - lab/persuasive_jailbreaker) |
  - link - |
  - link - AI-Content-Safety-LlamaGuard-Defensive-1.0) |
  - link - llama/Llama-Guard-3-1B) |
  - link - 2-Guard) |
  - link - llama/PurpleLlama/blob/main/Llama-Guard2/MODEL_CARD.md) |
  - link - llama/PurpleLlama/tree/main/Llama-Guard) |
  - link - |
  - link
  - link - api-release) |
  - link
  - link - liu/IB4LLMs) |
  - link - |
  - link - |
  - link
- Evaluation \& Analysis
  - link - llm) |
  - Link - 66CB/README.md) |
  - link - llm-red-teaming) |
  - link - |
  - link
  - link - |
  - link
  - link - |
  - link - |
  - link - |
  - link - hkust/Bag_of_Tricks_for_LLM_Jailbreaking) |
  - link - piexl/JailbreakZoo) |
  - link - |
  - link
  - link - space-jailbreak) |
  - link
  - link - |
  - link
  - link - |
  - link - |
  - link - |
  - link - Group/TechHazardQA) |
  - link
  - link - |
  - link - |
  - link - |
  - link
  - link - Ye/ToolSword) |
  - link
  - link
  - link - |
  - link - |
  - link - |
  - link - VLAA/vllm-safety-benchmark) |
  - link - |
  - link - |
  - link - |
  - link - Tuning-Safety/LLMs-Finetuning-Safety) |
  - link - |
  - link - |
  - link - |
  - link - |
  - link - attacks/llm-attacks) |
  - link
  - link - coai/Safety-Prompts) |
  - link - |
  - link - |
  - link - |
  - link - nsl/ArtPrompt) |
  - link - |
  - link - |
  - link - |
  - link - |
  - link - evaluation) |
  - link - Jailbreak-evaluation-MMJ-bench) |
  - link - 2b) |
  - link - coai/Agent-SafetyBench) |
  - link - hkust/Jailjudge) |
  - link - maybe-feature/adver-suffix-maybe-features) |
  - link
  - Link - |
  - link - F2B0/README.md) |
  - link - threat-model) |
  - link
  - link - lab/red-instruct) |
  - Link
  - link - crawl-statistics/plots/languages.html) |
  - link
  - link
  - link
  - link - Safety_Benchmark) |
- Application
  - link - NLP/PopupAttack) |
  - link - |
  - link - sg/Cheating-LLM-Benchmarks) |
  - link
  - link - XL/ChemSafety) |
  - link - |
Other Related Awesome Repository
- Application

Programming Languages

Python 1 JavaScript 1

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

Awesome-Jailbreak-on-LLMs

Papers

Jailbreak Attack

Jailbreak Defense

Evaluation \& Analysis

Application

Application

Awesome-Jailbreak-on-LLMs

Papers

Jailbreak Attack

Jailbreak Defense

Evaluation \& Analysis

Application

Other Related Awesome Repository

Application