刘妍
复旦大学NLP实验室
演讲主题
StepCoder:从编译器反馈中强化学习以提高代码生成能力
本次演讲将主要讨论使用LLM生成代码的难点挑战,以及如何有效的将强化学习整合到LLM的训练中。利用LLM根据人类需求生成代码不仅考验LLM的推理能力,还能够帮助人类更容易地开发软件,同时有利于未来智能体的发展。当尝试使用强化学习来增强LLM的代码能力时,因为生成代码过于复杂,使得强化学习的探索难以进行,进而导致LLM不能被有效优化。我们提出StepCoder来降低RL在训练过程中的探索难度,从而能够显著提高LLM的代码生成能力。 大纲: 代码生成方法介绍及挑战 代码生成新训练框架 未来工作