Publications

Training Language Models to Self-Correct via Reinforcement Learning

Aviral Kumar

Vincent Zhuang

Rishabh Agarwal

Yi Su

John D Co-Reyes

Avi Singh

Kate Baumli

Shariq Iqbal

Colton Bishop

Rebecca Roelofs

Lei M Zhang

Kay McKinney

Disha Shrivastava

Cosmin Paduraru

George Tucker

Doina Precup

Feryal Behbahani

Aleksandra Faust

Self-correction is a highly desirable capability of large language models (LLMs), yet it has consistently been found to be largely ineffecti… (see more)ve in modern LLMs. Existing approaches for training self-correction either require multiple models or rely on a more capable model or other forms of supervision. To this end, we develop a multi-turn online reinforcement learning (RL) approach, SCoRe, that significantly improves an LLM's self-correction ability using entirely self-generated data. To build SCoRe, we first show that variants of supervised fine-tuning (SFT) on offline model-generated correction traces are insufficient for instilling self-correction behavior. In particular, we observe that training via SFT either suffers from a distribution mismatch between the training data and the model's own responses or implicitly prefers only a certain mode of correction behavior that is often not effective at test time. SCoRe addresses these challenges by training under the model's own distribution of self-generated correction traces and using appropriate regularization to steer the learning process into learning a self-correction strategy that is effective at test time as opposed to simply fitting high-reward responses for a given prompt. This regularization prescribes running a first phase of RL on a base model to generate a policy initialization that is less susceptible to collapse and then using a reward bonus to amplify self-correction during training. When applied to Gemini 1.0 Pro and 1.5 Flash models, we find that SCoRe achieves state-of-the-art self-correction performance, improving the base models' self-correction by 15.6% and 9.1% respectively on the MATH and HumanEval benchmarks.

2025-01-01

ICLR (published)

doi.org

openreview.net

Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training

Brian R. Bartoldson

Siddarth Venkatraman

James Diffenderfer

Moksh J. Jain

Tal Ben-Nun

Seanie Lee

Minsu Kim

Johan Samir Obando Ceron

Yoshua Bengio

Bhavya Kailkhura

2025-01-01

arXiv.org (preprint)

doi.org

Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training

Brian R. Bartoldson

Siddarth Venkatraman

James Diffenderfer

Moksh J. Jain

Tal Ben-Nun

Seanie Lee

Minsu Kim

Johan Samir Obando Ceron

Yoshua Bengio

Bhavya Kailkhura

2025-01-01

arXiv.org (preprint)

doi.org

The Romantic Historicism and The Rise of the Historical Novel in the 19th Century Romanian Literature

Alexandra Olteanu

2024-12-31

Philobiblon. Transylvanian Journal of Multidisciplinary Research in the Humanities (published)

doi.org

Medium-scale flexible integrated circuits based on 2D semiconductors

Yalin Peng

Chenyang Cui

Lu Liu

Yuchen Wang

Qinqin Wang

Jinpeng Tian

Zhiheng Huang

Biying Huang

Yangkun Zhang

Xiuzhen Li

Jian Tang

Yanbang Chu

Wei Yang

Dongxia Shi

Luojun Du

Na Li

Guangyu Zhang

2024-12-30

Nature Communications (published)

doi.org

Sliding ferroelectric memories and synapses based on rhombohedral-stacked bilayer MoS2

Xiuzhen Li

Biao Qin

Yaxian Wang

Yue Xi

Zhiheng Huang

Mengze Zhao

Yalin Peng

Zitao Chen

Zitian Pan

Jundong Zhu

Chenyang Cui

Rong Yang

Wei Yang

Sheng Meng

Dongxia Shi

Xuedong Bai

Can Liu

Na Li

Jian Tang

Kaihui Liu … (see 3 more)

Kai-Wen Liu

Luojun Du

Guangyu Zhang

2024-12-30

Nature Communications (published)

doi.org

arxiv.org

AfriHG: News headline generation for African Languages

Toyib Ogunremi

Serah Akojenu

Anthony Soronnadi

Olubayo Adekanmbi

David Ifeoluwa Adelani

This paper introduces AfriHG -- a news headline generation dataset created by combining from XLSum and MasakhaNEWS datasets focusing on 16 l… (see more)anguages widely spoken by Africa. We experimented with two seq2eq models (mT5-base and AfriTeVa V2), and Aya-101 LLM. Our results show that Africa-centric seq2seq models such as AfriTeVa V2 outperform the massively multilingual mT5-base model. Finally, we show that the performance of fine-tuning AfriTeVa V2 with 313M parameters is competitive to prompting Aya-101 LLM with more than 13B parameters.

2024-12-28

ArXiv (preprint)

arxiv.org

Exploring Compound Loss Functions for Brain Tumor Segmentation

Anita Kriz

Raghav Mehta

Brennan Nichyporuk

Tal Arbel

2024-12-28

Lecture Notes in Computer Science (published)

doi.org

The design and technology development of the JUNO central detector

Angel Abusleme

Thomas Adam

Shakeel Ahmad

Rizwan Ahmed

Sebastiano Aiello

Muhammad Akram

Abid Aleem

Tsagkarakis Alexandros

Fengpeng An

Qi An

Giuseppe Andronico

Nikolay Anfimov

Vito Antonelli

Tatiana Antoshkina

Burin Asavapibhop

J. D. de André

João Pedro Athayde Marcondes de André

Didier Auguste

Weidong Bai

Nikita Balashov … (see 615 more)

Wander Baldini

Andrea Barresi

Davide Basilico

Eric Baussan

Marco Bellato

Marco Beretta

Antonio Bergnoli

Daniel Bick

Thilo Birkenfeld

David Blum

Simon Blyth

Anastasia Bolshakova

Mathieu Bongrand

Clément Bordereau

Dominique Breton

Augusto Brigatti

Riccardo Brugnera

Riccardo Bruno

Antonio Budano

Jose Busto

Anatael Cabrera

Barbara Caccianiga

Hao Cai

Xiao Cai

Yanke Cai

Zhiyan Cai

Zucong Cai

Stéphane Callier

Antonio Cammi

Agustin Campeny

Chuanya Cao

C. Cao

Guofu Cao

Jun Cao

Rossella Caruso

Cédric Cerna

Vanessa Cerrone

Chi Chan

Jinfan Chang

Yun Chang

Guoming Chen

Pingping Chen

Shaomin Chen

Yixue Chen

Yu Chen

Zhiyuan Chen

Zikang Chen

Jie Cheng

Yaping Cheng

Yu Chin Cheng

Yuanyuan Zhang

Alexander Chepurnov

Alexey Chetverikov

Davide Chiesa

Pietro Chimenti

Ziliang Chu

Artem Chukanov

Gérard Claverie

Catia Clementi

Barbara Clerbaux

Marta Colomer Molla

Selma Conforti Di Lorenzo

Alberto Coppi

Daniele Corti

Flavio Dal Corso

Olivia Dalager

Christophe De La Taille

Zhi Deng

Ziyan Deng

Wilfried Depnering

Marco Diaz

Xuefeng Ding

Yayun Ding

Bayu Dirgantara

Sergey Dmitrievsky

Tadeas Dohnal

Dmitry Dolzhikov

Georgy Donchenko

Jianmeng Dong

Evgeny Doroshkevich

Wei Dou

Marcos Dracos

Frédéric Druillole

Ran Du

S. X. Du

Shuxian Du

Stefano Dusini

Hongyue Duyang

Timo Enqvist

Andrea Fabbri

Ulrike Fahrendholz

Lei Fan

Jian Fang

Wenxing Fang

Marco Fargetta

Dmitry Fedoseev

Zhengyong Fei

Li-Cheng Feng

Qichun Feng

Federico Ferraro

Amélie Fournier

H. Gan

Haonan Gan

Feng Gao

Alberto Garfagnini

Arsenii Gavrikov

Marco Giammarchi

Nunzio Giudice

Maxim Gonchar

Guanghua Gong

Hui Gong

Yuri Gornushkin

Alexandre Göttel

A. Gottel

Marco Grassi

Maxim Gromov

Vasily Gromov

Minghao Gu

Xiaofei Gu

Xiang Gu

Yu Gu

Yunting Gu

Mengyun Guan

M. Guan

Yuduo Guan

Nunzio Guardone

Cong Guo

Wanlei Guo

Xinheng Guo

Yuhang Guo

Caren Hagner

Ran Han

Yang Han

Jiajun Hao

Miao He

Wei He

Tobias Heinz

Patrick Hellmuth

Yuekun Heng

Rafael Herrera

Yuenkeung Hor

Shaojing Hou

Yee Hsiung

Bei-Zhen Hu

Hang Hu

Jianrun Hu

Jun Hu

Shouyang Hu

Tao Hu

Yuxiang Hu

Zhuojun Hu

Guihong Huang

Hanxiong Huang

Kaixi Huang

Kaixuan Huang

Wenhao Huang

Xin Huang

Xingtao Huang

Yongbo Huang

Jiaqi Hui

Lei Huo

Wenju Huo

Cédric Huss

Safeer Hussain

Ara Ioannisian

Roberto Isocrate

Beatrice Jelmini

Ignacio Jeria

Xiaolu Ji

Huihui Jia

Junji Jia

Siyu Jian

Di Jiang

Wei Jiang

Xiaoshan Jiang

Xiaoping Jing

Xiang Jing

Cécile Jollet

Philipp Kampmann

Li Kang

Rebin Karaparambil

Narine Kazarian

Ali Khan

Amina Khatun

Khanchai Khosonthongkee

Denis Korablev

Konstantin Kouzakov

Alexey Krasnoperov

Nikolay Kutovskiy

Pasi Kuusiniemi

Tobias Lachenmaier

Cecilia Landini

Sébastien Leblanc

Victor Lebrin

Frederic Lefevre

Rui Li

Rupert Leitner

Jason Leung

Daozheng Li

Demin Li

Fei Li

Yi Wang

Fule Li

Gaosong Li

Huiling Li

Mengzhao Li

Min Li

Nan Li

Qingjiang Li

Ruhui Li

Ruiting Lei

Shanfeng Li

Tao Li

Teng Li

Weidong Li

Weiguo Li

Xiaomei Li

Xiaonan Li

Xinglong Li

Xiwen Li

Yi Li

Yichen Li

Yufeng Li

Zepeng Li

Zhaohan Li

Zhibing Li

Ziyuan Li

Zonghai Li

Hao Liang

Jiaming Yan

Jiajun Liao

Ayut Limphirat

Guey-Lin Lin

Shengxin Lin

Tao Lin

Jiajie Ling

Ivano Lippi

Caimei Liu

Yang Liu

Haidong Liu

Haotian Liu

Hongbang Liu

Hongjuan Liu

Hongtao Liu

Hui Liu

Jianglai Liu

Jinchang Liu

Min Liu

Qian Liu

Qin Liu

Runxuan Liu

Shubin Liu

Shulin Liu

Xiaowei Liu

Xiwen Liu

Yong Liu

Yunzhe Liu

Alexey Lokhov

Paolo Lombardi

Claudio Lombardo

Kai Loo

Chuan Lu

Haoqi Lu

Jingbin Lu

Junguang Lu

Peizhi Lu

Shuxiang Lu

Bayarto Lubsandorzhiev

Sultim Lubsandorzhiev

Livia Ludhova

Arslan Lukanov

Daibin Luo

F. Luo

Fengjiao Luo

Guang Luo

Jianyi Luo

Shu Luo

Wuming Luo

Xiaojie Luo

Xiaolan Luo

Vladimir Lyashuk

Biao Ma

Bing Ma

Bangzheng Ma

R. Q. Ma

Si Ma

Qiumei Ma

Xiaoyan Ma

Xubo Ma

Jihane Maalmi

Marco Magoni

Jingyu Mai

Yury Malyshkin

Roberto Carlos Mandujano

Fabio Mantovani

Xin Mao

Yajun Mao

S. Mari

Stefano M. Mari

Filippo Marini

Agnese Martini

Matthias Mayer

Davit Mayilyan

Ints Mednieks

Yu Meng

Anita Meraviglia

Anselmo Meregaglia

Emanuela Meroni

David Meyhöfer

Mauro Mezzetto

Lino Miramonti

Paolo Montini

Michele Montuschi

Axel Muller

M. Nastasi

Massimiliano Nastasi

Dmitry V. Naumov

Elena Naumova

Diana Navas-Nicolas

Igor Nemchenok

Minh Thuan Nguyen Thi

Alexey Nikolaev

F. Ning

Feipeng Ning

Zhe Ning

Hiroshi Nunokawa

Lothar Oberauer

Juan Pedro Ochoa-Ricoux

Alexander Olshevskiy

Domizia Orestano

Fausto Ortica

Rainer Othegraven

A. Paoloni

Alessandro Paoloni

Sergio Parmeggiano

Y. P. Pei

Yatian Pei

Luca Pelicci

Anguo Peng

Yu Peng

Haiping Peng

Yuefeng Peng

Z-R Peng

Frédéric Perrot

Zhaoyuan Peng

P. Petitjean

Pierre-Alexandre Petitjean

Fabrizio Petrucci

Oliver Pilarczyk

Luis Felipe Piñeres Rico

Artyom Popov

Pascal Poussot

Ezio Previtali

Fazhi Qi

Ming Qi

Sen Qian

Xiaohui Qian

Zhen Qian

Hao Qiao

Zhonghua Qin

S. Qiu

Shoukang Qiu

Gioacchino Ranucci

Reem Rasheed

A. Re

Alessandra Re

Abdel Rebii

Mariia Redchuk

Bin Ren

Jie Ren

Barbara Ricci

Mariam Rifai

Mathieu Roche

Narongkiat Rodphai

Aldo Romani

Bedřich Roskovec

Xichao Ruan

Arseniy Rybnikov

Andrey Sadovsky

Paolo Saggese

Simone Sanfilippo

Anut Sangka

Utane Sawangwit

Julia Sawatzki

Michaela Schever

Cédric Schwab

Konstantin Schweizer

Alexandr Selyunin

Andrea Serafini

Giulio Settanta

M. Settimo

Zhuang Shao

Mariangela Settimo

V. Sharov

Arina Shaydurova

Vladislav Sharov

Jingyan Shi

Yanan Shi

Vitaly Shutov

Andrey Sidorenkov

Fedor Šimkovic

Chiara Sirignano

Jaruchit Siripak

Monica Sisti

Maciej Slupecki

Mikhail Smirnov

Oleg Smirnov

Thiago Sogo-Bezerra

Sergey Sokolov

Wuying Song

Julanan Songwadhana

Boonrucksar Soonthornthum

Albert Sotnikov

Ondřej Šrámek

Warintorn Sreethawong

Achim Stahl

Luca Stanco

Konstantin Stankevich

Dušan Štefánik

Hans Steiger

Jochen Steinmann

Tobias Sterr

M. Stock

Virginia Strati

Matthias Raphael Stock

Alexander Studenikin

Jun Su

Shifeng Sun

Xilei Sun

Yongjie Sun

Yongzhao Sun

Zhengyang Sun

Narumon Suwonjandee

Michal Szelezniak

Akira Takenaka

Jian Tang

Qiang Tang

Quan Tang

Xiao Tang

Vidhya Thara Hariharan

Eric Theisen

Alexander Tietzsch

Igor Tkachev

Tomas Tmej

M. Torri

Francesco Tortorici

Marco Danilo Claudio Torri

K. Treskov

Andrea Triossi

Konstantin Treskov

Riccardo Triozzi

Giancarlo Troni

Wladyslaw Trzaska

Y. Tung

Cristina Tuve

Nikita Ushakov

Yu-Chen Tung

Vadim Vedin

Giuseppe Verde

Maxim Vialkov

Benoit Viaud

Cornelius Moritz Vollbrecht

Katharina von Sturm

Vit Vorobel

Dmitriy Voronin

Lucia Votano

Pablo Walker

Caishen Wang

Chung-Hsiang Wang

Derun Wang

En Wang

Guoli Wang

Jian Wang

Jun Wang

Lucinda W. Wang

Meng Wang

Ruiguang Wang

Lu Wang

Siguang Wang

Wei Wang

Wenshuai Wang

Xi Wang

Xiangyue Wang

Yangfu Wang

Yaoguang Wang

Yi Xing Wang

Yifang Wang

Yuanqing Wang

Yuman Wang

Zhe Wang

Zheng Wang

Zhimin Wang

Apimook Watcharangkool

Wei Wei

Wenlu Wei

Yadong Wei

K. Wen

Kaile Wen

Jun Weng

Christopher Wiebusch

Rosmarie Wirth

Bjoern Wonsak

Liangjian Wen

Diru Wu

Qun Wu

Shuai Wu

Zhi Wu

Michael Wurm

Jacques Wurtz

Christian Wysotzki

Yufei Xi

Dongmei Xia

Xiang Xiao

Xiaochuan Xie

Yuguang Xie

Zhangquan Xie

Zhao Xin

Zhizhong Xing

Benda Xu

Cheng Xu

Donglian Xu

Fanrong Xu

Hangkun Xu

Jilei Xu

Jing Xu

Meihang Xu

Yin Xu

Yu Xu

Baojun Yan

Qiyu Yan

Taylor Yan

Wenqi Yan

Xiongbo Yan

Yupeng Yan

Changgen Yang

Chengfeng Yang

Jie Yang

Lei Yang

Xiaoyu Yang

Yifan Yang

Haifeng Yao

Jiaxuan Ye

Mei Ye

Ziping Ye

Frédéric Yermia

Zhengyun You

Boxiang Yu

Chiye Yu

Chunxu Yu

Guojun Yu

Hongzhao Yu

Miao Yu

Xianghui Yu

Zeyuan Yu

Zezhong Yu

Cenxi Yuan

Chengzhuo Yuan

Jing-Yu Tang

Zhenxiong Yuan

Baobiao Yue

Noman Zafar

Vitalii Zavadskyi

Shan Zeng

Tingxuan Zeng

Yuda Zeng

Liang Zhan

Aiqiang Zhang

Bin Zhang

Binting Zhang

Feiyang Zhang

Honghao Zhang

Jiawen Zhang

Jie Zhang

Jin Zhang

Jingbo Zhang

Jinnan Zhang

Mohan Zhang

Peng Zhang

Qingmin Zhang

Shiqi Zhang

Shu Zhang

Tao Zhang

Xiaomei Zhang

Xin Zhang

Xuantong Zhang

Yinhong Zhang

Yiyu Zhang

Yongpeng Zhang

Yu Zhang

Yumei Zhang

Zhenyu Zhang

Zhijian Zhang

Jie Zhao

Rong Zhao

Runze Zhao

Shujun Zhao

Dongqin Zheng

Hua Zheng

Yangheng Zheng

Weirong Zhong

Jing Zhou

Li Zhou

Nan Zhou

Shun Zhou

Tong Zhou

Xiang Zhou

Jingsen Zhu

Kangfu Zhu

Kejun Zhu

Zhihang Zhu

Bo Zhuang

Honglin Zhuang

Liang Zong

Jiaheng Zou

Sebastian Zwickel

2024-12-26

The European Physical Journal Plus (published)

doi.org

arxiv.org

Torque-Aware Momentum

Pranshu Malviya

Goncalo Mordido

Aristide Baratin

Reza Babanezhad Harikandeh

Gintare Karolina Dziugaite

Razvan Pascanu

Sarath Chandar

Efficiently exploring complex loss landscapes is key to the performance of deep neural networks. While momentum-based optimizers are widely … (see more)used in state-of-the-art setups, classical momentum can still struggle with large, misaligned gradients, leading to oscillations. To address this, we propose Torque-Aware Momentum (TAM), which introduces a damping factor based on the angle between the new gradients and previous momentum, stabilizing the update direction during training. Empirical results show that TAM, which can be combined with both SGD and Adam, enhances exploration, handles distribution shifts more effectively, and improves generalization performance across various tasks, including image classification and large language model fine-tuning, when compared to classical momentum-based optimizers.

2024-12-25

ArXiv (preprint)

doi.org

arxiv.org

Torque-Aware Momentum

Pranshu Malviya

Goncalo Mordido

Aristide Baratin

Reza Babanezhad Harikandeh

Gintare Karolina Dziugaite

Razvan Pascanu

Sarath Chandar

2024-12-25

ArXiv (preprint)

doi.org

arxiv.org

Torque-Aware Momentum

Pranshu Malviya

Goncalo Mordido

Aristide Baratin

Reza Babanezhad Harikandeh

Gintare Karolina Dziugaite

Razvan Pascanu

Sarath Chandar

Efficiently exploring complex loss landscapes is key to the performance of deep neural networks. While momentum-based optimizers are widely … (see more)used in state-of-the-art setups, classical momentum can still struggle with large, misaligned gradients, leading to oscillations. To address this, we propose Torque-Aware Momentum (TAM), which introduces a damping factor based on the angle between the new gradients and previous momentum, stabilizing the update direction during training. Empirical results show that TAM, which can be combined with both SGD and Adam, enhances exploration, handles distribution shifts more effectively, and improves generalization performance across various tasks, including image classification and large language model fine-tuning, when compared to classical momentum-based optimizers.

2024-12-25

ArXiv (preprint)

doi.org

arxiv.org

AI Advantage

Leveraging AI for a Sustainable Future

Mila AI Policy Fellowship

AI Advantage

Leveraging AI for a Sustainable Future

Publications

AI Advantage

Leveraging AI for a Sustainable Future

Mila AI Policy Fellowship

AI Advantage

Leveraging AI for a Sustainable Future

Popular keywords:

Publications