Mobile GUI Agent
通用 GUI 智能体基座 MAI-UI
大佬说
唐杰THU
实践派
大润发杀鱼工:RL的一整年
天晴:用 RL 做 LLM 后训练:半年踩过的坑与心得
周星星:Agent 元年复盘
无大算力时,LLM 还有哪些值得做的研究
论文
自所&腾讯团队首次揭示大模型RL新机制
RL、Pre-training、Mid-training 对模型能力提升的区别
理解 LLM RL 稳定性的 insight 和实用 recipe
GPT-5-Thinking新训练方法
总结内容
深挖PPO,聊聊前身TRPO
大模型强化学习算法的演进与对比 (PPO, GRPO, DAPO, GSPO, SAPO)
LLM模型评估方法
青稞AI:唐杰和 Karpathy 的共识:AI 应用的本质是替代或增强人类工种,而不是为了做 App 而做 App
深入理解 KL 散度
多模态大模型主流架构