RLHF Training Reduces but Doesn't Eliminate Racial Discrimination in Admissions

AI Dynamics

Global AI News Aggregator

RLHF Training Reduces but Doesn’t Eliminate Racial Discrimination in Admissions

–

16 February 2023 17h43

Finally, we develop a benchmark testing for racial discrimination in LM decision-making in student course admissions. In our control condition (blue) we find more RLHF training produces model outputs that approach demographic parity but still discriminates against Black students.

→ View original post on X — @anthropicai,

16 February 2023

AI ETHICS GENERATIVE AI LLMS MACHINE LEARNING POLICY REGULATION RESEARCH SAFETY

AI Dynamics

RLHF Training Reduces but Doesn’t Eliminate Racial Discrimination in Admissions

Commentaires

Leave a Reply Cancel reply

MORE ARTICLES

Cheaper exploration at scale remains advantageous despite no new exploits

Gold Status Experience Brings Satisfaction

Using ChatGPT for Essay Feedback and Improvement

Intelligence Gone Wrong: Cheating Despite Having Correct Answer