[Paper][Seed]: Reverse-Engineered Reasoning for Open-Ended Generation
链接
https://arxiv.org/pdf/2509.06160
https://github.com/HaozheH3/REER_DeepWriter
https://zhuanlan.zhihu.com/p/1951284215594324456
一句话主要贡献
提出一种新的推理数据构建方法——逆向工程推理(REER),区别以往目标从生成解决方案转变为发现潜在的推理过程,并证明了使用该合成数据集微调后的模型在复杂生成能力上有提升。
思考路径生成方案
- PPL 实现
Ray 计算既定输出token概率(From GPT):
https://chatgpt.com/share/68d37756-f890-800b-a779-d0fd4f7ed597
https://zhuanlan.zhihu.com/p/1948848652907938167
https://huggingface.co/datasets/m-a-p/DeepWriting-20K