TTT-Discover
互联网
2026-02-03 10:57:43
TTT-Discover(Test-Time Training to Discover)是斯坦福、英伟达等机构推出的AI科学发现方法。TTT-Discover在测试阶段对模型进行强化学习训练,非冻结权重仅做搜索。通过熵目标函数优化最大奖励,结合PUCT启发的状态重用机制,让模型从具体问题的尝试中实时学习。TTT-Discover基于开源模型gpt-oss-120b,在数学、GPU内核工程、算法竞赛和生物信息学等领域达到SOTA,单问题成本仅数百美元。







