PEFT during avoidance of reward hacking

saileshbaidya · November 5, 2023, 7:44pm

Why do we need PEFT while trying to avoid reward hacking that occurs during RLHF? Is it for retraining the reference model or the RL (PPO)?

gent.spah · November 6, 2023, 10:32am

PEFT is used for the LLM model not RL. PEFT also improves the model performance as the training goes on.

saileshbaidya · November 6, 2023, 6:24pm

Thanks @gent.spah. What made me confused is the following diagram in our lecture note? It’s not clear what the PEFT adapter is for.

gent.spah · November 7, 2023, 4:28am

The PPO steers the PEFT adapter weights in a proper direction so it doesnt bias.

saileshbaidya · November 7, 2023, 4:55am

That makes sense. Thanks! @gent.spah

Topic		Replies	Views
Question tokenizer PEFT training Generative AI with Large Language Models week-2	3	177	May 1, 2024
#Week3 #Lab3 Why is_trainable = True Generative AI with Large Language Models week-3	5	87	June 18, 2024
Error in quiz after PEFT techniques 2: Soft prompts Generative AI with Large Language Models week-2	4	323	November 5, 2023
PEFT training Generative AI with Large Language Models week-2	1	490	January 16, 2024
Train the PERT adapter Generative AI with Large Language Models week-2	1	400	July 26, 2023