102. 和张祥雨聊，多模态研究的挣扎史和未来两年的 2 个“GPT-4 时刻”

发布于 2025-06-02/时长 02:28:58/访问网站

Show Notes

今天这集，《商业访谈录》第一次迎来一位co-host，是大家熟悉的李广密。

广密邀请了大模型公司阶跃星辰的首席科学家张祥雨，来聊聊，多模态的前世今生和未来技术的前沿走向。

张祥雨在这集节目详细阐述了：他参与的多模态的10年历史，对多模态的全新思考，以及所预见的下一个“GPT-4时刻”。

他提到一个细节：在训练过程中他曾经发现一件百思不得其解的现象——模型的通用对话能力、情商和知识量都是随着模型变大变得更强，但模型的推理能力（尤其是数学）表现却是先上升后平缓，再扩大反而是下降——这点在业界还未引发广泛讨论。关于这个怪现象，他也给出了自己的解答。

下面是广密和祥雨的聊天。

2025，我们和AI共同进步！

我们的播客节目在腾讯新闻首发，大家可以前往关注哦，这样可以第一时间获取节目信息和更多新闻资讯：）

多模态研究的10年史：迷茫和转机

张祥雨的学术经历和个人研究主线

CV（计算机视觉）向NLP（自然语言处理）的学习历史

2022年我开始对单纯靠视觉学出“CV领域的GPT时刻”比较悲观

纯视觉这个domain有什么问题？GPT这样的生成模型你可以同时拥有生成、理解和人类对齐，而静态图像这三者是割裂的

我停止了对静态图像表征的研究，构思新的研究主题：短期内利用视觉和语言的对齐关系

经过尝试还是没做到图像的理解、生成和对齐一体化，我得到一个越来越强的生成模型，和一个越来越强的理解模型，没有起到叠加效果——为什么如此难以融合？

做了大半年十分迷茫，但在此刻出现了转机

训练大模型发现的怪事、蛛丝马迹与办法

训练过程中发现了一件百思不得其解的怪事：模型的通用对话能力、情商、知识量确实模型越大越强，但模型的推理能力（尤其是数学）表现是先上升后平缓，再扩大反而是下降

一些蛛丝马迹：更大的模型做数学题倾向于跳步，不老实

经过分析，这是next token prediction的本质缺陷

更大的压缩率未必对应更高的计算精度，我们来做一个思想实验

生成模型的“特征坍缩现象”

解决方案就是引入RL（强化学习）

o1的核心是思维链的pattern——“做思考模型，pattern is all you need”

当模型走到某一步，摆在面前有两个分支——走左边？还是走右边？——一个token之内到底能不能解决？（critical decision）——不能，所以引入反思pattern

o1范式的本质是一种Meta-CoT ，是CoT的CoT

对多模态研究的新思考和新进展

研究完o1，返回研究为什么视觉生成可控性这么差，就有了眉目

简单把生成和理解做到一起，难度非常大，缺失了重要一环CoT

去年中开启新的project：视觉理解（视觉空间的Long CoT）

尝试了半年，结果给大家透露一下吧！

o系列不仅泛化了domain，更吸引人的是泛化了pattern

博弈类问题是难以泛化的领域，有很多无效思考和低级错误

o1激发的反思pattern，在预训练语料中都有分布了

关于预训练加多模态数据有两种说法：影响了text智商？还是增强了scaling law？

往后两条腿走：扩充预训练语料和扩展动作空间

多模态的“GPT-4时刻”还有多久

预见下一个“GPT-4时刻”

long context和多模型协作

架构不重要，架构是服务算法和系统的（为什么我说Linear Transformer不本质）

下一个“GPT-4时刻”？模型的在线学习/自主学习

澄清一些有关Agent的观点

人虽然没有生成器官，但人有世界模型

我们的智能水平还在为视觉挣扎，机器人领域在抢跑

【更多信息】

联络我们：微博@张小珺-Benita

更多信息欢迎关注公众号：张小珺