新智元报道
编辑:alan 【新智元导读】1/10训练数据激发高级推理能力!近日,来自清华的研究者提出了PRIME,通过隐式奖励来进行过程强化,提高了语言模型的推理能力,超越了SFT以及蒸馏等方法。 Tell me and I forget, teach me and I remember, involve me and I learn. 告诉我,我会忘记,教我,我会记住,让我参与,我就能学会。 ——本杰明·富兰克林
打破数据墙,我们还能做些什么?
近日,来自清华UIUC等机构的研究者提出了PRIME(Process Reinforcement through IMplicit REwards):通过隐式奖励来进行过程强化。