免费领取大会全套演讲PPT    

报名领取

我要参会

刘妍

复旦大学NLP实验室

演讲主题

StepCoder:从编译器反馈中强化学习以提高代码生成能力

本次演讲将主要讨论使用LLM生成代码的难点挑战,以及如何有效的将强化学习整合到LLM的训练中。利用LLM根据人类需求生成代码不仅考验LLM的推理能力,还能够帮助人类更容易地开发软件,同时有利于未来智能体的发展。当尝试使用强化学习来增强LLM的代码能力时,因为生成代码过于复杂,使得强化学习的探索难以进行,进而导致LLM不能被有效优化。我们提出StepCoder来降低RL在训练过程中的探索难度,从而能够显著提高LLM的代码生成能力。 大纲: 代码生成方法介绍及挑战 代码生成新训练框架 未来工作

© boolan.com 博览 版权所有

沪ICP备15014563号-6

沪公网安备31011502003949号