Reward Model Training vs User Feedback: Preferences and Finetuning

AI Dynamics

Global AI News Aggregator

Reward Model Training vs User Feedback: Preferences and Finetuning

–

29 June 2023 15h16

Good question. In their original finetuning, they train a reward model based on relative preference (rankings among multiple responses). And from the user feedback, there's only thumbs up & down. You can probably use that for supervised finetuning I guess.

→ View original post on X — @rasbt,

29 June 2023

AI Dynamics

Reward Model Training vs User Feedback: Preferences and Finetuning

Commentaires

Leave a Reply Cancel reply

MORE ARTICLES

AI Generates Perfect Jokes Using Image Generation Skills

Codex App Transformation: Atlas Integration Reshapes User Experience

AI File Access Limitations: Screenshot vs Disk Storage Issues

Synthetic Aperture Radar: Satellite Tech for Global Monitoring