Ecosyste.ms: Awesome

An open API service indexing awesome lists of open source software.

Awesome Lists | Featured Topics | Projects

awesome-RLAIF

A continually updated list of literature on Reinforcement Learning from AI Feedback (RLAIF)
https://github.com/mengdi-li/awesome-RLAIF

Last synced: 3 days ago
JSON representation

Papers
- 2024
- 2023
  - Datasets and models
  - Code
  - Code & Model Weights & Dataset
  - Code
  - Code
  - Code & Prompts
  - Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models - blue)
  - Reinforced Self-Training (ReST) for Language Modeling - blue)
  - Eureka: Human-Level Reward Design via Coding Large Language Models - blue)
  - Project website - research/Eureka)
  - Accelerating Reinforcement Learning of Robotic Manipulations via Feedback from Large Language Models - blue)
  - RAIN: Your Language Models Can Align Themselves without Finetuning - blue)
  - Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision - blue)
  - Motif: Intrinsic Motivation from Artificial Intelligence Feedback - blue)
  - Language Model Self-improvement by Reinforcement Learning Contemplation - blue)
  - Language to Rewards for Robotic Skill Synthesis - blue)
  - Project website - deepmind/language_to_reward_2023)
  - Language Instructed Reinforcement Learning for Human-AI Coordination - blue)
  - Guiding Pretraining in Reinforcement Learning with Large Language Models - blue)
  - Reward Design with Language Models - blue)
  - UltraFeedback: Boosting Language Models with High-quality Feedback - blue)
- 2022
  - Dataset
  - Constitutional AI: Harmlessness from AI Feedback - blue)
Related Awesome Repos
- 2022
  - awesome-RLHF
Related Blogs
- 2022
  - Beyond human data: RLAIF needs a rebrand

Programming Languages

Python 8 Jupyter Notebook 1

Categories

Papers 42 Related Blogs 1 Related Awesome Repos 1

Sub Categories

2023 21 2024 19 2022 4

Keywords

large-language-models 1 alignment 1 ai-safety 1 vision-language-learning 1 rlaif-v 1 multimodal 1 minicpm-v 1 llava-next 1 llava 1 gpt-4v 1 chatbot 1