CS443-RLHF

RLHF re-implementation for UIUC's CS 443: Reinforcement Learning

Dataset

We utilize a preprocessed version of Anthropic's RLHF dataset to train our reward model and subsequently perform fine-tuning on our LLM. This dataset consists of prompts followed by responses that are human-labaled as chosen or rejected. Chosen respones are those which are both helpful and harmless, while rejected responses are LLM output that contains explicit or offensive material that should be suppressed once fine-tuned.

Reward Model Training

Code for reward model training can be found in reward_model.ipynb. We use GPT2 with a text classification head as our reward model.

Proximal Policy Optimization

Code for PPO training is in rlhf_script.py while evaluation is in eval.ipynb. Models used are listed below.

Name		Name	Last commit message	Last commit date
Latest commit History 21 Commits
figures		figures
.gitignore		.gitignore
README.md		README.md
env.yml		env.yml
eval.ipynb		eval.ipynb
reflexion.ipynb		reflexion.ipynb
reflexion.py		reflexion.py
reward_model.ipynb		reward_model.ipynb
rlhf.ipynb		rlhf.ipynb
rlhf_script.py		rlhf_script.py
scratch.ipynb		scratch.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

CS443-RLHF

Dataset

Reward Model Training

Proximal Policy Optimization

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

CS443-RLHF

Dataset

Reward Model Training

Proximal Policy Optimization

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages