https://github.com/zhjohnchan/awesome-reinforcement-learning-in-nlp

A curated list of reinforcement learning in NLP. :-)
https://github.com/zhjohnchan/awesome-reinforcement-learning-in-nlp
List: awesome-reinforcement-learning-in-nlp
Last synced: 3 months ago
JSON representation
A curated list of reinforcement learning in NLP. :-)
Host: GitHub
URL: https://github.com/zhjohnchan/awesome-reinforcement-learning-in-nlp
Owner: zhjohnchan
Created: 2021-10-30T16:09:42.000Z (over 3 years ago)
Default Branch: main
Last Pushed: 2021-10-30T16:11:07.000Z (over 3 years ago)
Last Synced: 2024-04-09T20:15:28.678Z (about 1 year ago)
Homepage:
Size: 7.81 KB
Stars: 20
Watchers: 1
Forks: 1
Open Issues: 0
Metadata Files:
- Readme: README.md
Awesome Lists containing this project

awesome-interesting-topics-in-nlp - NLP
ultimate-awesome - awesome-reinforcement-learning-in-nlp - A curated list of reinforcement learning in NLP. :-). (Other Lists / Julia Lists)
README

        # Awesome Reinforcement Learning in NLP[![Awesome](https://awesome.re/badge.svg)](https://awesome.re)



  



A curated list of reinforcement learning in NLP. :-)

## Contributing

Please feel free to send me [pull requests](https://github.com/zhjohnchan/awesome-reinforcement-learning-in-nlp/pulls) or email ([email protected]) to add links.

## Table of Contents

- [Papers](#papers)

  - [Survey](#survey)

  - [Research Paper](#research-paper)

## Papers 
### Research Paper 
|   Year | Venue 
|-------:|:----- 
|   2001 | NAACL 
|   2005 | EMNLP 
|   2006 | EMNLP 
|   2006 | NAACL 
|   2006 | EACL 
|   2006 | EACL 
|   2007 | ACL 
|   2008 | COLING 
|   2008 | CL 
|   2009 | ACL 
|   2009 | NAACL 
|   2010 | ACL 
|   2010 | COLING 
|   2011 | ACL 
|   2011 | ACL 
|   2011 | EMNLP 
|   2012 | EMNLP 
|   2012 | EACL 
|   2012 | CoNLL 
|   2014 | ACL 
|   2014 | ACL 
|   2014 | EMNLP 
|   2014 | EMNLP 
|   2014 | COLING 
|   2014 | EACL 
|   2015 | EMNLP 
|   2016 | ACL 
|   2016 | EMNLP 
|   2016 | EMNLP 
|   2016 | EMNLP 
|   2016 | EMNLP 
|   2017 | ACL 
|   2017 | ACL 
|   2017 | ACL 
|   2017 | EMNLP 
|   2017 | EMNLP 
|   2017 | EMNLP 
|   2017 | EMNLP 
|   2017 | EMNLP 
|   2017 | EMNLP 
|   2017 | EMNLP 
|   2017 | EMNLP 
|   2017 | EMNLP 
|   2017 | EACL 
|   2017 | EACL 
|   2018 | ACL 
|   2018 | ACL 
|   2018 | ACL 
|   2018 | ACL 
|   2018 | ACL 
|   2018 | ACL 
|   2018 | ACL 
|   2018 | ACL 
|   2018 | ACL 
|   2018 | EMNLP 
|   2018 | EMNLP 
|   2018 | EMNLP 
|   2018 | EMNLP 
|   2018 | EMNLP 
|   2018 | EMNLP 
|   2018 | EMNLP 
|   2018 | EMNLP 
|   2018 | EMNLP 
|   2018 | EMNLP 
|   2018 | EMNLP 
|   2018 | EMNLP 
|   2018 | EMNLP 
|   2018 | NAACL 
|   2018 | NAACL 
|   2018 | NAACL 
|   2018 | NAACL 
|   2018 | NAACL 
|   2018 | COLING 
|   2018 | COLING 
|   2018 | COLING 
|   2018 | COLING 
|   2018 | COLING 
|   2019 | ACL 
|   2019 | ACL 
|   2019 | ACL 
|   2019 | ACL 
|   2019 | ACL 
|   2019 | ACL 
|   2019 | ACL 
|   2019 | ACL 
|   2019 | ACL 
|   2019 | ACL 
|   2019 | EMNLP 
|   2019 | EMNLP 
|   2019 | EMNLP 
|   2019 | EMNLP 
|   2019 | EMNLP 
|   2019 | EMNLP 
|   2019 | EMNLP 
|   2019 | EMNLP 
|   2019 | EMNLP 
|   2019 | EMNLP 
|   2019 | EMNLP 
|   2019 | EMNLP 
|   2019 | EMNLP 
|   2019 | EMNLP 
|   2019 | NAACL 
|   2019 | NAACL 
|   2019 | NAACL 
|   2019 | NAACL 
|   2019 | NAACL 
|   2019 | NAACL 
|   2019 | NAACL 
|   2019 | NAACL 
|   2019 | NAACL 
|   2020 | ACL 
|   2020 | ACL 
|   2020 | ACL 
|   2020 | ACL 
|   2020 | ACL 
|   2020 | ACL 
|   2020 | EMNLP 
|   2020 | EMNLP 
|   2020 | EMNLP 
|   2020 | EMNLP 
|   2020 | EMNLP 
|   2020 | EMNLP 
|   2020 | EMNLP 
|   2020 | EMNLP 
|   2020 | EMNLP 
|   2020 | EMNLP 
|   2020 | COLING 
|   2020 | COLING 
|   2020 | COLING 
|   2020 | COLING 
|   2020 | COLING 
|   2020 | AACL 
|   2020 | AACL 
|   2020 
|   2020 
|   2021 | ACL 
|   2021 | ACL 
|   2021 | ACL 
|   2021 | ACL 
|   2021 | ACL 
|   2021 | ACL 
|   2021 | ACL 
|   2021 | ACL 
|   2021 | NAACL 
|   2021 | NAACL 
|   2021 | NAACL 
|   2021 | EACL 
|   2021 | EACL 
|   2021 | EACL 
|   2021 
|   2021 
|   2021 
|   2021

| Title                                                                                                                                                                             | ----|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------| | [Learning Optimal Dialogue Management Rules by Using Reinforcement Learning and Inductive Logic Programming](https://aclanthology.org/N01-1028.pdf)                               | | [Learning Mixed Initiative Dialog Strategies By Using Reinforcement Learning On Both Conversants](https://aclanthology.org/H05-1127.pdf)                                          | | [Unsupervised Information Extraction Approach Using Graph Mutual Reinforcement](https://aclanthology.org/W06-1659.pdf)                                                            | | [Comparing the Utility of State Features in Spoken Dialogue Using Reinforcement Learning](https://aclanthology.org/N06-1035.pdf)                                                  | | [Using Reinforcement Learning to Build a Better Model of Dialogue State](https://aclanthology.org/E06-1037.pdf)                                                                   | | [An ISU Dialogue System Exhibiting Reinforcement Learning of Dialogue Policies: Generic Slot-Filling in the TALK In-car System](https://aclanthology.org/E06-2009.pdf)            | | [Towards an Iterative Reinforcement Approach for Simultaneous Document Summarization and Keyword Extraction](https://aclanthology.org/P07-1070.pdf)                               | | [PNR2: Ranking Sentences with Positive and Negative Reinforcement for Query-Oriented Update Summarization](https://aclanthology.org/C08-1062.pdf)                                 | | [Hybrid Reinforcement/Supervised Learning of Dialogue Policies from Fixed Data Sets](https://aclanthology.org/J08-4002.pdf)                                                       | | [Reinforcement Learning for Mapping Instructions to Actions](https://aclanthology.org/P09-1010.pdf)                                                                               | | [An Iterative Reinforcement Approach for Fine-Grained Opinion Mining](https://aclanthology.org/N09-1055.pdf)                                                                      | | [From Structured Prediction to Inverse Reinforcement Learning](https://aclanthology.org/P10-5005.pdf)                                                                             | | [Simultaneous Ranking and Clustering of Sentences: A Reinforcement Approach to Multi-Document Summarization](https://aclanthology.org/C10-1016.pdf)                               | | [Hierarchical Reinforcement Learning and Hidden Markov Models for Task-Oriented Natural Language Generation](https://aclanthology.org/P11-2115.pdf)                               | | [Beyond Structured Prediction: Inverse Reinforcement Learning](https://aclanthology.org/P11-5001.pdf)                                                                             | | [Improved Transliteration Mining Using Graph Reinforcement](https://aclanthology.org/D11-1128.pdf)                                                                                | | [Framework of Automatic Text Summarization Using Reinforcement Learning](https://aclanthology.org/D12-1024.pdf)                                                                   | | [A Comparative Study of Reinforcement Learning Techniques on Dialogue Management](https://aclanthology.org/E12-3003.pdf)                                                          | | [Framework of Automatic Text Summarization Using Reinforcement Learning](https://aclanthology.org/D12-1024.pdf)                                                                   | | [Single-Agent vs. Multi-Agent Techniques for Concurrent Reinforcement Learning of Negotiation Dialogue Policies](https://aclanthology.org/P14-1047.pdf)                           | | [Comparing Multi-label Classification with Reinforcement Learning for Summarisation of Time-series Data](https://aclanthology.org/P14-1116.pdf)                                   | | [Fear the REAPER: A System for Automatic Multi-Document Summarization with Reinforcement Learning](https://aclanthology.org/D14-1075.pdf)                                         | | [Don’t Until the Final Verb Wait: Reinforcement Learning for Simultaneous Machine Translation](https://aclanthology.org/D14-1140.pdf)                                             | | [Reinforcement Learning of Cooperative Persuasive Dialogue Policies using Framing](https://aclanthology.org/C14-1161.pdf)                                                         | | [Undirected Machine Translation with Discriminative Reinforcement Learning](https://aclanthology.org/E14-1002.pdf)                                                                | | [Language Understanding for Text-based Games using Deep Reinforcement Learning](https://aclanthology.org/D15-1001.pdf)                                                            | | [Deep Reinforcement Learning with a Natural Language Action Space](https://aclanthology.org/P16-1153.pdf)                                                                         | | [Deep Reinforcement Learning for Dialogue Generation](https://aclanthology.org/D16-1127.pdf)                                                                                      | | [Deep Reinforcement Learning with a Combinatorial Action Space for Predicting Popular Reddit Threads](https://aclanthology.org/D16-1189.pdf)                                      | | [Deep Reinforcement Learning for Mention-Ranking Coreference Models](https://aclanthology.org/D16-1245.pdf)                                                                       | | [Improving Information Extraction by Acquiring External Evidence with Reinforcement Learning](https://aclanthology.org/D16-1261.pdf)                                              | | [Towards End-to-End Reinforcement Learning of Dialogue Agents for Information Access](https://aclanthology.org/P17-1045.pdf)                                                      | | [Hybrid Code Networks: practical and efficient end-to-end dialog control with supervised and reinforcement learning](https://aclanthology.org/P17-1062.pdf)                       | | [From Language to Programs: Bridging Reinforcement Learning and Maximum Marginal Likelihood](https://aclanthology.org/P17-1097.pdf)                                               | | [DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning](https://aclanthology.org/D17-1060.pdf)                                                                  | | [Task-Oriented Query Reformulation with Reinforcement Learning](https://aclanthology.org/D17-1061.pdf)                                                                            | | [Sentence Simplification with Deep Reinforcement Learning](https://aclanthology.org/D17-1062.pdf)                                                                                 | | [Learning how to Active Learn: A Deep Reinforcement Learning Approach](https://aclanthology.org/D17-1063.pdf)                                                                     | | [Reinforced Video Captioning with Entailment Rewards](https://aclanthology.org/D17-1103.pdf)                                                                                      | | [Mapping Instructions and Visual Observations to Actions with Reinforcement Learning](https://aclanthology.org/D17-1106.pdf)                                                      | | [Reinforcement Learning for Bandit Neural Machine Translation with Simulated Human Feedback](https://aclanthology.org/D17-1153.pdf)                                               | | [Composite Task-Completion Dialogue Policy Learning via Hierarchical Deep Reinforcement Learning](https://aclanthology.org/D17-1237.pdf)                                          | | [Speeding up Reinforcement Learning-based Information Extraction Training using Asynchronous Methods](https://aclanthology.org/D17-1281.pdf)                                      | | [Tackling Error Propagation through Reinforcement Learning: A Case of Greedy Dependency Parsing](https://aclanthology.org/E17-1064.pdf)                                           | | [Evaluating Persuasion Strategies and Deep Reinforcement Learning methods for Negotiation Dialogue agents](https://aclanthology.org/E17-2077.pdf)                                 | | [Deep Reinforcement Learning for Chinese Zero Pronoun Resolution](https://aclanthology.org/P18-1053.pdf)                                                                          | | [Fast Abstractive Summarization with Reinforce-Selected Sentence Rewriting](https://aclanthology.org/P18-1063.pdf)                                                                | | [Unpaired Sentiment-to-Sentiment Translation: A Cycled Reinforcement Learning Approach](https://aclanthology.org/P18-1090.pdf)                                                    | | [Discourse Marker Augmented Network with Reinforcement Learning for Natural Language Inference](https://aclanthology.org/P18-1091.pdf)                                            | | [Reliability and Learnability of Human Bandit Feedback for Sequence-to-Sequence Reinforcement Learning](https://aclanthology.org/P18-1165.pdf)                                    | | [Robust Distant Supervision Relation Extraction via Deep Reinforcement Learning](https://aclanthology.org/P18-1199.pdf)                                                           | | [End-to-End Reinforcement Learning for Automatic Taxonomy Induction](https://aclanthology.org/P18-1229.pdf)                                                                       | | [Reinforced Extractive Summarization with Question-Focused Rewards](https://aclanthology.org/P18-3015.pdf)                                                                        | | [Deep Reinforcement Learning for NLP](https://aclanthology.org/P18-5007.pdf)                                                                                                      | | [Improving Reinforcement Learning Based Image Captioning with Natural Language Prior](https://aclanthology.org/D18-1083.pdf)                                                      | | [Automatic Essay Scoring Incorporating Rating Schema via Reinforcement Learning](https://aclanthology.org/D18-1090.pdf)                                                           | | [Automatic Poetry Generation with Mutual Reinforcement Learning](https://aclanthology.org/D18-1353.pdf)                                                                           | | [Playing 20 Question Game with Policy-Based Reinforcement Learning](https://aclanthology.org/D18-1361.pdf)                                                                        | | [A Study of Reinforcement Learning for Neural Machine Translation](https://aclanthology.org/D18-1397.pdf)                                                                         | | [Paraphrase Generation with Deep Reinforcement Learning](https://aclanthology.org/D18-1421.pdf)                                                                                   | | [APRIL: Interactively Learning to Summarise by Combining Active Preference Learning and Reinforcement Learning](https://aclanthology.org/D18-1445.pdf)                            | | [Macquarie University at BioASQ 6b: Deep learning and deep reinforcement learning for query-based summarisation](https://aclanthology.org/W18-5303.pdf)                           | | [Joint Modeling for Query Expansion and Information Extraction with Reinforcement Learning](https://aclanthology.org/W18-5506.pdf)                                                | | [Autonomous Sub-domain Modeling for Dialogue Policy with Hierarchical Deep Reinforcement Learning](https://aclanthology.org/W18-5702.pdf)                                         | | [A Reinforcement Learning-driven Translation Model for Search-Oriented Conversational Systems](https://aclanthology.org/W18-5705.pdf)                                             | | [Curriculum Learning Based on Reward Sparseness for Deep Reinforcement Learning of Task Completion Dialogue Management](https://aclanthology.org/W18-5707.pdf)                    | | [Approximate Dynamic Oracle for Dependency Parsing with Reinforcement Learning](https://aclanthology.org/W18-6021.pdf)                                                            | | [Reinforced Co-Training](https://aclanthology.org/N18-1113.pdf)                                                                                                                   | | [Ranking Sentences for Extractive Summarization with Reinforcement Learning](https://aclanthology.org/N18-1158.pdf)                                                               | | [Multi-Reward Reinforced Summarization with Saliency and Entailment](https://aclanthology.org/N18-2102.pdf)                                                                       | | [Feudal Reinforcement Learning for Dialogue Management in Large Domains](https://aclanthology.org/N18-2112.pdf)                                                                   | | [Bootstrapping a Neural Conversational Agent with Dialogue Self-Play, Crowdsourcing and On-Line Reinforcement Learning](https://aclanthology.org/N18-3006.pdf)                    | | [Neural Math Word Problem Solver with Reinforcement Learning](https://aclanthology.org/C18-1018.pdf)                                                                              | | [A New Concept of Deep Reinforcement Learning based Augmented General Tagging System](https://aclanthology.org/C18-1143.pdf)                                                      | | [A Reinforcement Learning Framework for Natural Question Generation using Bi-discriminators](https://aclanthology.org/C18-1150.pdf)                                               | | [Distantly Supervised NER with Partial Annotation Learning and Reinforcement Learning](https://aclanthology.org/C18-1183.pdf)                                                     | | [Source Critical Reinforcement Learning for Transferring Spoken Language Understanding to a New Language](https://aclanthology.org/C18-1305.pdf)                                  | | [End-to-end Deep Reinforcement Learning Based Coreference Resolution](https://aclanthology.org/P19-1064.pdf)                                                                      | | [Reinforced Training Data Selection for Domain Adaptation](https://aclanthology.org/P19-1189.pdf)                                                                                 | | [Reinforced Dynamic Reasoning for Conversational Question Generation](https://aclanthology.org/P19-1203.pdf)                                                                      | | [Neural Keyphrase Generation via Reinforcement Learning with Adaptive Rewards](https://aclanthology.org/P19-1208.pdf)                                                             | | [Aspect Sentiment Classification Towards Question-Answering with Reinforced Bidirectional Attention Network](https://aclanthology.org/P19-1345.pdf)                               | | [Rewarding Smatch: Transition-Based AMR Parsing with Reinforcement Learning](https://aclanthology.org/P19-1451.pdf)                                                               | | [A Hierarchical Reinforced Sequence Operation Method for Unsupervised Text Style Transfer](https://aclanthology.org/P19-1482.pdf)                                                 | | [A Deep Reinforced Sequence-to-Set Model for Multi-Label Classification](https://aclanthology.org/P19-1518.pdf)                                                                   | | [Using Semantic Similarity as Reward for Reinforcement Learning in Sentence Generation](https://aclanthology.org/P19-2056.pdf)                                                    | | [Implementing a Multi-lingual Chatbot for Positive Reinforcement in Young Learners](https://aclanthology.org/W19-3629.pdf)                                                        | | [Learning the Extraction Order of Multiple Relational Facts in a Sentence with Reinforcement Learning](https://aclanthology.org/D19-1035.pdf)                                     | | [Hierarchical Text Classification with Reinforced Label Assignment](https://aclanthology.org/D19-1042.pdf)                                                                        | | [Reinforced Product Metadata Selection for Helpfulness Assessment of Customer Reviews](https://aclanthology.org/D19-1177.pdf)                                                     | | [Deep Reinforcement Learning-based Text Anonymization against Private-Attribute Inference](https://aclanthology.org/D19-1240.pdf)                                                 | | [Incorporating Graph Attention Mechanism into Knowledge Graph Reasoning Based on Deep Reinforcement Learning](https://aclanthology.org/D19-1264.pdf)                              | | [Clickbait? Sensational Headline Generation with Auto-tuned Reinforcement Learning](https://aclanthology.org/D19-1303.pdf)                                                        | | [Answers Unite! Unsupervised Metrics for Reinforced Summarization Models](https://aclanthology.org/D19-1320.pdf)                                                                  | | [Neural Topic Model with Reinforcement Learning](https://aclanthology.org/D19-1350.pdf)                                                                                           | | [LexicalAT: Lexical-Based Adversarial Reinforcement Training for Robust Sentiment Classification](https://aclanthology.org/D19-1554.pdf)                                          | | [Human-Like Decision Making: Document-level Aspect Sentiment Classification via Hierarchical Reinforcement Learning](https://aclanthology.org/D19-1560.pdf)                       | | [An Empirical Comparison on Imitation Learning and Reinforcement Learning for Paraphrase Generation](https://aclanthology.org/D19-1619.pdf)                                       | | [Deep Reinforcement Learning with Distributional Semantic Rewards for Abstractive Summarization](https://aclanthology.org/D19-1623.pdf)                                           | | [Transfer in Deep Reinforcement Learning Using Knowledge Graphs](https://aclanthology.org/D19-5301.pdf)                                                                           | | [Reinforcement-based denoising of distantly supervised NER with partial annotation](https://aclanthology.org/D19-6125.pdf)                                                        | | [Learning Interpretable Negation Rules via Weak Supervision at Document Level: A Reinforcement Learning Approach](https://aclanthology.org/N19-1038.pdf)                          | | [Courteously Yours: Inducing courteous behavior in Customer Care responses using Reinforced Pointer Generator Network](https://aclanthology.org/N19-1091.pdf)                     | | [Rethinking Action Spaces for Reinforcement Learning in End-to-end Dialog Agents with Latent Variable Models](https://aclanthology.org/N19-1123.pdf)                              | | [Reinforcement Learning based Curriculum Optimization for Neural Machine Translation](https://aclanthology.org/N19-1208.pdf)                                                      | | [Posterior-regularized REINFORCE for Instance Selection in Distant Supervision](https://aclanthology.org/N19-1290.pdf)                                                            | | [Accelerated Reinforcement Learning for Sentence Generation by Vocabulary Prediction](https://aclanthology.org/N19-1315.pdf)                                                      | | [Reinforcement Learning Based Text Style Transfer without Parallel Training Corpus](https://aclanthology.org/N19-1320.pdf)                                                        | | [Playing Text-Adventure Games with Graph-Based Deep Reinforcement Learning](https://aclanthology.org/N19-1358.pdf)                                                                | | [Learning When Not to Answer: a Ternary Reward Structure for Reinforcement Learning Based Question Answering](https://aclanthology.org/N19-2016.pdf)                              | | [Zero-shot Text Classification via Reinforced Self-training](https://aclanthology.org/2020.acl-main.272.pdf)                                                                      | | [A Reinforced Generation of Adversarial Examples for Neural Machine Translation](https://aclanthology.org/2020.acl-main.319.pdf)                                                  | | [Improving Entity Linking through Semantic Reinforced Entity Embeddings](https://aclanthology.org/2020.acl-main.612.pdf)                                                          | | [Meta-Reinforced Multi-Domain State Generator for Dialogue Systems](https://aclanthology.org/2020.acl-main.636.pdf)                                                               | | [Noise Pollution in Hospital Readmission Prediction: Long Document Classification with Reinforcement Learning](https://aclanthology.org/2020.bionlp-1.10.pdf)                     | | [A Deep Reinforced Model for Zero-Shot Cross-Lingual Summarization with Bilingual Semantic Similarity Rewards](https://aclanthology.org/2020.ngt-1.7.pdf)                         | | [Multi-document Summarization with Maximal Marginal Relevance-guided Reinforcement Learning](https://aclanthology.org/2020.emnlp-main.136.pdf)                                    | | [Dynamic Context Selection for Document-level Neural Machine Translation via Reinforcement Learning](https://aclanthology.org/2020.emnlp-main.175.pdf)                            | | [Human-centric dialog training via offline reinforcement learning](https://aclanthology.org/2020.emnlp-main.327.pdf)                                                              | | [Few-Shot Complex Knowledge Base Question Answering via Meta Reinforcement Learning](https://aclanthology.org/2020.emnlp-main.469.pdf)                                            | | [Interactive Fiction Game Playing as Multi-Paragraph Reading Comprehension with Reinforcement Learning](https://aclanthology.org/2020.emnlp-main.624.pdf)                         | | [Knowledge-guided Open Attribute Value Extraction with Reinforcement Learning](https://aclanthology.org/2020.emnlp-main.693.pdf)                                                  | | [Data Boost: Text Data Augmentation Through Reinforcement Learning Guided Conditional Generation](https://aclanthology.org/2020.emnlp-main.726.pdf)                               | | [Production-based Cognitive Models as a Test Suite for Reinforcement Learning Algorithms](https://aclanthology.org/2020.cmcl-1.3.pdf)                                             | | [Reinforcement Learning with Imbalanced Dataset for Data-to-Text Medical Report Generation](https://aclanthology.org/2020.findings-emnlp.202.pdf)                                 | | [Rethinking Supervised Learning and Reinforcement Learning in Task-Oriented Dialogue Systems](https://aclanthology.org/2020.findings-emnlp.316.pdf)                               | | [A Learning-Exploring Method to Generate Diverse Paraphrases with Multi-Objective Deep Reinforcement Learning](https://aclanthology.org/2020.coling-main.209.pdf)                 | | [Reinforced Multi-task Approach for Multi-hop Question Generation](https://aclanthology.org/2020.coling-main.249.pdf)                                                             | | [Combining Cognitive Modeling and Reinforcement Learning for Clarification in Dialogue](https://aclanthology.org/2020.coling-main.391.pdf)                                        | | [Answer-driven Deep Question Generation based on Reinforcement Learning](https://aclanthology.org/2020.coling-main.452.pdf)                                                       | | [Interactive Question Clarification in Dialogue via Reinforcement Learning](https://aclanthology.org/2020.coling-industry.8.pdf)                                                  | | [ExpanRL: Hierarchical Reinforcement Learning for Course Concept Expansion in MOOCs](https://aclanthology.org/2020.aacl-main.77.pdf)                                              | | [Text Simplification with Reinforcement Learning Using Supervised Rewards on Grammaticality, Meaning Preservation, and Simplicity](https://aclanthology.org/2020.aacl-srw.22.pdf) | | Findings | [Reinforcement Learning with Imbalanced Dataset for Data-to-Text Medical Report Generation](https://aclanthology.org/2020.findings-emnlp.202.pdf)                                 | | Findings | [Rethinking Supervised Learning and Reinforcement Learning in Task-Oriented Dialogue Systems](https://aclanthology.org/2020.findings-emnlp.316.pdf)                               | | [How Helpful is Inverse Reinforcement Learning for Table-to-Text Generation?](https://aclanthology.org/2021.acl-short.11.pdf)                                                     | | [Reinforcement Learning for Abstractive Question Summarization with Question-aware Semantic Rewards](https://aclanthology.org/2021.acl-short.33.pdf)                              | | [Efficient Text-based Reinforcement Learning by Jointly Leveraging State and Commonsense Graph Representations](https://aclanthology.org/2021.acl-short.91.pdf)                   | | [A Proposal: Interactively Learning to Summarise Timelines by Reinforcement Learning](https://aclanthology.org/2021.internlp-1.4.pdf)                                             | | [Meta-Reinforcement Learning for Mastering Multiple Skills and Generalizing across Environments in Text-based Games](https://aclanthology.org/2021.metanlp-1.1.pdf)               | | [Interactive Reinforcement Learning for Table Balancing Robot](https://aclanthology.org/2021.splurobonlp-1.8.pdf)                                                                 | | [RewardsOfSum: Exploring Reinforcement Learning Rewards for Summarisation](https://aclanthology.org/2021.spnlp-1.1.pdf)                                                           | | [Offline Reinforcement Learning from Human Feedback in Real-World Sequence-to-Sequence Tasks](https://aclanthology.org/2021.spnlp-1.4.pdf)                                        | | [Improving Pretrained Models for Zero-shot Multi-label Text Classification through Reinforced Label Hierarchy Reasoning](https://aclanthology.org/2021.naacl-main.83.pdf)         | | [Revisiting the Weaknesses of Reinforcement Learning for Neural Machine Translation](https://aclanthology.org/2021.naacl-main.133.pdf)                                            | | [Quantitative Day Trading from Natural Language using Reinforcement Learning](https://aclanthology.org/2021.naacl-main.316.pdf)                                                   | | [ECOL-R: Encouraging Copying in Novel Object Captioning with Reinforcement Learning](https://aclanthology.org/2021.eacl-main.104.pdf)                                             | | [Implicit Unlikelihood Training: Improving Neural Text Generation with Reinforcement Learning](https://aclanthology.org/2021.eacl-main.123.pdf)                                   | | [Exploiting Multimodal Reinforcement Learning for Simultaneous Machine Translation](https://aclanthology.org/2021.eacl-main.281.pdf)                                              | | Findings | [Better Chinese Sentence Segmentation with Reinforcement Learning](https://aclanthology.org/2021.findings-acl.25.pdf)                                                             | | Findings | [Language-based General Action Template for Reinforcement Learning Agents](https://aclanthology.org/2021.findings-acl.187.pdf)                                                    | | Findings | [Rule-Aware Reinforcement Learning for Knowledge Graph Reasoning](https://aclanthology.org/2021.findings-acl.412.pdf)                                                             | | Findings | [Phrase-Level Action Reinforcement Learning for Neural Dialog Response Generation](https://aclanthology.org/2021.findings-acl.446.pdf)                                            |

## Licenses

[![CC0](http://i.creativecommons.org/p/zero/1.0/88x31.png)](http://creativecommons.org/publicdomain/zero/1.0/)

To the extent possible under law, [Zhihong Chen](https://github.com/zhjohnchan) has waived all copyright and related or neighboring rights to this work.
ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/zhjohnchan/awesome-reinforcement-learning-in-nlp

Awesome Lists containing this project

README