张小珺 Jùn|商业访谈录
和你一起,从这里,探索新世界! 《张小珺商业访谈录》是一档深度访谈节目,以 2 至 7 小时的长对话为形式,聚焦真实的人物表达与高密度的前沿信息。由语言即世界工作室出品。 主持人张小珺是财经媒体人,专注中国科技业深度报道,覆盖 AI、科技巨头、风险投资与知名人物。曾 13 次获得国内外新闻奖项,其中 2022 年至 2024 年连续三届获得亚洲卓越新闻奖(SOPA)——被称为“亚洲普利策”。她也是语言即世界工作室的创始人。 “如果我的访谈能陪你走一段孤独的未知的路,也许有一天可以离目的地更近一点,我就很温暖。”——张小珺
-
今天的嘉宾,我们很开心邀请了 OpenAI 研究员姚顺雨。 2025 年 4 月,姚顺雨发布了一篇有名的博文《The Second Half》,宣告 AI 主线程的游戏已进入下半场。这之后,我们与他进行了一场播客对谈。 姚顺雨毕业于清华和普林斯顿大学,开始智能体的研究非常早。在博士期间他意识到语言可能是人类发明的最接近本质的工具,于是转向语言智能体研究,至今已 6 年。他有许多有代表性的工作。 我们的谈话从个体出发,共同探索由人、组织、AI、人与机器的交互,所抵达的这个世界智能的边界以及人类与机器的全景。 前不久,我刚刚创立了一家新的内容工作室「语言即世界工作室」,顺雨很意外地从另一个角度帮我回答了,我们工作室创立的初心。 为什么我们相信语言是这个世界的本质奥秘?他的表达是:“语言是人为了实现泛化而发明出来的工具,这一点比其他东西更本质。” (本次访谈发生在 2025 年 5 月,访谈为个人观点,与所供职公司无关。) 02:58 第一部分:人 感觉我前 28 年的人生,非常的乖 我一直有这个非共识:我想要去做 Agent 第一年最大收获是,要用 GPT,不要用 BERT;第二个 learning 是任务或环境非常重要 我的研究有两个核心:一是怎么去做一些有价值、和现实世界更相关的任务和环境;二是怎么去做一些简单、但又通用的方法 17:50 第二部分:系统 Agent 是一个非常古老的概念,任何能进行自我决策、与环境交互,并试图优化奖励的系统,都可以被称为 Agent Agent 演变的三波兴衰:大家可能更多注意到方法线,容易忽视任务线,但这两条线是相辅相成的 Agent 发展最关键的两个方向:一个是让它拥有自己的 reward(奖励),能自己探索;另一个是 Multi-Agent(多智能体),让它们之间能形成组织结构 Code 有点像人的手,它是 AI 最重要的 affordance(环境给予行动者的可能性) 任务的设定 泛化的工具 奖励的机制 48:38 第三部分:吞噬的边界 创业公司最大机会是:能设计不同的 interface(交互方式) 可能模型的能力会产生 beyond ChatGPT(超越 ChatGPT)的交互方式,变成 Super App 拥有一个 Super App 对于公司是双刃剑,当你有像 ChatGPT 这样的 Super App,很自然你的研究就会围绕这个 Super App Assistant、Her,或者像人一样的交互方式,显然是最重要的交互方式之一;不显然的是,我能不能基于不像人的交互方式? 这世界是个相互抄的关系,而不是一个单向抄的关系 OpenAI 可能会成为一个类似 Google 的公司,成为新世界里非常重要的一环,但这并不代表,这个世界就会被这样一个单极系统垄断 最终的智能边界,是由不同的交互方式决定的,而不是由一个 single model(单一模型)决定 前年冬天,我读到冯诺依曼临终前写的一本书:The Computer and the Brain 环境永远是记忆层级中最外层的部分,这很哲学 模型公司的 Chatbot 系统会演化成一个很自然的 Agent 系统 01:05:01 第四部分:人类的全局 人与系统:Agent 要不要像人?“是一个效用问题” OpenAI 是一个 bottom-up(自下而上)的公司 如果你没有一个 different bet(不同的下注方向),很难超越前面的霸主 我导师是 GPT‑1 第二作者,他在 OpenAI 待了一年,他对这件事是有点怀疑的 如果你成为了伯克希尔的 CEO,未来要拿出 500 亿美金 allocate(分配)到 AGI 行业,你会怎么 allocate 这笔钱? 真正的危险,不是一个类似微信的东西打败了微信,而是一个不一样的东西打败了微信 恰好这个时代,做上限更高的事更好 【更多信息】 文字版同步上线 文字版请前往公众号:语言即世界 language is world
-
今天的嘉宾是萨洛蒙中国区总经理殷一和小红书商业服饰潮流行业负责人欧迪。我们一起来聊聊,这两年比较火的一个户外品牌,萨洛蒙。 萨洛蒙和始祖鸟都属于亚玛芬集团,2019 年亚玛芬被安踏收购;2021 年以后,萨洛蒙这个 70 多岁的法国品牌,意外在中国开启了增长之路。 这个最早从滑雪品类起步,逐步扩展到越野跑鞋的小众品牌,在中国的传统消费群体以男性以及专业滑雪、越野跑爱好者为主;但近几年,他们通过在小红书的一系列品牌行为,成功吸引女性消费群体和新户外人群,扩圈增长,而这又进一步反向刺激了男性消费者以及核心运动人群的增长。 希望这些新鲜的品牌知识,也能给你带来新的启发:) 02:00 两位嘉宾的自我介绍 03:06 萨洛蒙 1947 年诞生于法国,雪是 DNA 里最深的那道烙印 04:39 我们曾经被阿迪达斯收购,阿迪达斯帮我们做了 sports style 06:04 越野跑核心人群,十年前只有 10 万人,今年也是 10 万人,区别是什么? 11:52 品牌应该从小众走向大众,还是从大众走向小众? 16:22 2019 年母公司亚玛芬被安踏收购后,萨洛蒙发生了什么? 18:07 中国女性占比最高接近七成,现在是六成不到 20:45 女性对男性的拉新高于男性对女性的拉新 23:21 2021 年以后,越来越多海外户外品牌主动地集中进入中国 27:31 小红书帮萨洛蒙拓展人群:“尖货尝新档”和“色彩敏感控” 34:55 以人为主体的品牌策略:找到“超级用户代表” 43:26 10 年前我们做品牌会更注重 the winning moments,现在更注重成长的过程和细节 45:37 萨门少女背后的消费者洞察:女性不再追求仪式感的堆叠,更追求内心的松弛 48:36 结合小红书和安福路萨洛蒙门店,线上和线下循环流量 55:24 萨洛蒙拉新女性消费者,又反哺了男性消费者的增长 58:16 如果一个非常男性化的品牌想要女性化,应该怎么做? 01:00:43 潮流化会不会削弱专业户外基因? 01:01:33 年轻人消费新变化 01:08:05 当做 AI 品牌也像做消费品品牌,从品牌角度给 AI 创始人一些建议 分享一下漂亮的录制现场:
-
今天的嘉宾是月之暗面创始人兼 CEO 杨植麟,距离他上一次来我们的节目(《商业访谈录》59 集)已经过去 1 年半。 就在刚刚过去的 7 月,Kimi K2 模型发布,引发了比较广泛的关注。K2 是一个基于 MoE 架构的开源编程和 Agentic 大语言模型。形象来说,模型借助编程能力走出封闭的“缸中之脑”,长出了“手”,开始操控外部数字世界。 今天这集节目我和杨植麟聊了聊 K2 的研发和他当下的技术认知、技术判断。 以及,在过去一年的舆论风暴与创业起伏中,作为创始人,他的心情与思考。 01:49 一座无限的山这有点像我最近在看的一本书:The Beginning of Infinity(无穷的开始) 也许有一天会发现,这座雪山没有尽头,我希望它一直没有尽头 但它还是一个“缸中之脑”:想象一个鱼缸,你把一个脑子放在里面,跟外界没有联系 不管是基于长思考的强化学习,还是 Agent 的强化学习,都指向同一个东西:test-time scaling(测试时扩展) 还有一个很有意思的趋势是,现在有更多模型公司去做“一方的 Agent 产品” L1 到 L5 不一定是串行关系,Claude 就 bet 这一点:它在 Reasoning 上做得不是特别多,但在 Agent 上做得非常好 只有当模型参与到开发过程,才能解锁真正的 Innovator(L4)阶段 24:58 K2 是乔戈里峰 K2 的重点有几个:一,我们希望它是一个非常好的基础模型 我们希望能最大化使用每一份数据,就是所谓 token efficiency——喂一样多的数据,“脑子”长得更多 我们会对数据做很多 Rephrase(改写)操作 我们很关注 Muon 优化器,它对 token efficiency 提升很大 二,我们希望 K2 有好的 Agentic 能力,对于 Agentic 模型来讲,最大挑战是模型的泛化 它可能是一个从“缸中之脑”变成可以跟世界交互,因为所谓 Agent 最重要的特征是,可以多轮地使用工具 人是所谓的 universal constructor(万能构造器) 有一种潜在思路,需要用更 AI native(原生人工智能)的方式去训练 AI Muon 你去训的时候,它会炸 54:08 既简单又复杂的系统为什么 Kimi 从闭源转向开源? 模型训练完成,产品也基本完成了,做交互上的改进当然有价值,但那是锦上添花的一步 多模态不损伤“脑子”已经很好了 你可能学出来的多模态是个“傻的多模态”,我们希望它是个“聪明的多模态” Scaling Law 遇到数据墙了,这是客观事实 数据飞轮很依赖外部环境的 feedback(反馈),我们不希望 feedback 有很多噪声,但现在没有把这个问题解决得非常好 现在看起来,基于 FLOPs 的 scaling 是更有效路径,但这个平衡什么时候会发生变化? 很多 Long Context 架构会影响“智商” 纯粹的 Linear Attention(线性注意力机制)可能影响智商,因为这个架构会有一些 bias(偏差) 基座模型公司和做 Agent 产品的应用公司,长期看边界在哪? 今天怎么思考商业模式?API 是好生意吗? Kimi 能赚钱吗? 01:25:05 在自己的故事里面 Tim(周昕宇)天天跟我讲——要用 RL 的方式去管理,而不是用 SFT 用 RL 管理团队最大问题是,你容易被 hack 很多复杂性都是人为强行加上去的,实际并没有那么复杂 只能说是在自己的这个故事里面——你不断地感受自己到底是什么样的一个人,你为什么要做这个事情 这个问题我也问过 Kimi,他说,AI 是“人类文明的放大器” 这也是 Kimi 跟我讲的——任何中间状态都有可能成为被批评的对象 肯定有恐惧,更多要关注你当前这一步,能做什么?——想这个问题更重要 2024 年对杨植麟的访谈: 《和杨植麟聊大模型创业这一年:人类理想的增量、有概率的非共识和 Sora》 【更多信息】 文字和视频版同步上线 文字版请前往公众号:语言即世界 language is world 视频版请前往 Bilibili:张小珺商业访谈录
-
在大家的强烈催更下,新一集的《全球大模型季报》终于来了。 这一集有两个关键词。 第一个关键词是分化。硅谷各个模型公司在这个季度,开始分化到各个领域,除了 Google Gemini 和 OpenAI 还在做通用的模型;Anthropic 分化到 Coding、Agentic 的模型能力;Mira 的 Thinking Machines 分化到多模态和下一代交互。 第二个关键词是产品。《大模型季报》过去一直把视角放在模型的智能探索上,而广密开始浓墨重彩地聊产品,这还是第一次。 这里是《全球大模型季报》的第 7 集,如果大家喜欢我们的系列,希望大家多多给我们一些鼓励和支持。你们的夸奖对我们来说,非常的重要。 2025,期待我们和 AI 共同进步! 03:54 模型在分化 通用各项能力的模型 - Gemini/OpenAI All in Coding+Agentic 能力 - Anthropic 多模态原生 - Thinking Machines Lab Grok 今天还在摸索自己生态位置 Meta 原创 0-1 的基因还是很弱 最领先的这几家很像 F1 竞赛 21:37 横向全家桶,纵向垂直整合 C 端是一个非常明显的头部收敛趋势,ChatGPT 可能在 C 端会收敛掉很多产品 作为投资人或 AI 创业者,一面兴奋是技术每个月都在进步,另一面有点绝望 横向全家桶的例子是 ChatGPT,已经包含了 Chat+搜索+Coding+Agent+WorkSpace 纵向垂直整合的例子是 Gemini,从 TPU 芯片,到 Gemini 模型,到上面 Agent 应用,再到 Google 文档/Chrome 浏览器/安卓操作系统/YouTube 视频,可以做超级集成 33:35 智能和产品都重要 过去 3 年一直是对智能上限的探索极度上头,但在过去两个月开始重视产品了 ChatGPT 身上有很多非技术性壁垒,而 Coding 或模型公司只是技术壁垒 OpenAI 是平衡最好的一家,一边探索智能上限,一边又把智能红利转化成产品流量和品牌心智 38:52 做 AI 产品很像挖矿,保鲜窗口很关键 挖矿:第一个做出来让用户惊叹的体验很重要,哪怕 token 消耗很大,只要你是第一个做出来让用户惊叹的 Magic moments,就等于你起码得到了 5 亿美金的营销费用,比如 Perplexity/Cursor/Manus 但这个窗口期又特别有意思,窗口是逐渐在缩短的:从 2 年、1 年、3 个月 产品公司能赢过模型公司做的产品吗? 44:21 L4 级别的体验 最优秀的俩 Agent 都有了 L4 体验:ChatGPT 的 Deep Research + Anthropic 的 Claude Code,分别对应信息搜索+软件开发 今天最大红利还是 language/code 红利,尤其是 code,还不是多模态/世界模型/机器人 Claude Code 最近大杀四方,Claude Code 是一个 L4 的体验 接下来还有哪些领域能有 L4 级别体验? 52:43 对 Google 看法的转变 一个猜想是,ChatGPT 后面肯定会做广告平台,因为最近招了新的商业化 CEO 但我在想 Google 还是全球最好的广告平台,最后大家产品形态上都会殊途同归,融合到一起的,就是全家桶逻辑,Search 也会演变 55:53 其他话题 AGI 有泡沫吗?假如 AGI 有泡沫,什么事情会是导火索,戳破泡沫? 人类和大猩猩的智能水平差异在哪? 最近湾区有没有什么新的讨论比较高的话题? “犹太人的金融,华人的 AGI” (免责声明:本节目不构成投资建议) 【全球大模型季报】系列 2023 年:口述全球大模型这一年:人类千亿科学豪赌与参差的中美景观 2024 年 Q1:和广密聊 AGI 大基建时代:电+芯片=产出智能 2024 年 Q2:口述全球大模型这半年:Perplexity 突然火爆和尚未爆发的 AI 应用生态 2024 年 Q3:AGI 范式大转移:和广密预言草莓、OpenAI o1 和 self-play RL 2024 年 Q4:大模型季报年终特辑:和广密预言 LLM 产品超越 Google 之路 2025 年 Q1:大模型季报:和广密聊当下最大非共识、AGI 的主线与主峰
-
过去 10 年,中国新能源汽车产业从无到有,经历蓬勃发展。大家最熟悉的可能是理想、小鹏、蔚来这些整车品牌,但另一面这场变革背后的产业链企业也在变化。 《商业访谈录》的 108 集对余凯和本集对禾赛联合创始人和 CEO 李一帆的 3 小时访谈,关注的都是汽车产业链上的隐形选手。 这集也是李一帆对他们做激光雷达 11 年硬核科技创业的一部口述史。 随着中国科技创新从互联网的模式创新,走向硬核科技的前沿创新,中国也许还会出现更多的技术型创业者。禾赛的故事也许能提供一个参考样本。 (本次访谈录制于 2025 年 4 月) 00:02:00 开始的快问快答 00:02:33 股价过山车 00:03:40 激光雷达 99.5%的降本 00:12:05 家庭和成长 00:32:13 罕见的 3 人平分股份 00:43:35 融资的伎俩 00:49:02 第一笔 2000 万大单 00:55:45 想说完蛋了… 01:10:06 余凯比多我一个 0 01:20:47 定价心思 01:38:15 开始倒戈 01:58:07 进入汽车大本营 02:38:34 新钱和老钱 03:02:16 最后的快问快答 【从蒸汽机到无人驾驶】系列 《对李想的 3 小时访谈(播客版):宅男、AI、家庭、游戏和天梯》 《和何小鹏聊,FSD、“在血海游泳”、乱世中的英雄与狗熊》 《对话奔驰全球 CEO 康林松:转型期 CEO 和转型之中的 139 岁奔驰》 《余凯口述 30 年史:世界不止刀光剑影,是一部人来人往的江湖故事》 《和楼天城聊聊 Robotaxi 和 ACRush:“L2 做得越厉害,离 L4 越远”》
-
我们又来读论文啦!!! 今天我们要读的论文是最近几个星期内最值得品读的几篇技术报告,分别是:Kimi K2、ChatGPT Agent、Qwen3-Coder 的技术报告,以及 Manus 的一篇技术博文。他们的相关性是,这几篇内容都和 Agent 有关系。 今天的嘉宾是俄亥俄州立大学(The Ohio State University)的在读博士郑博元,他的研究方向是 Language Agent,他会带我们一起读上述技术报告和博文。 这是《商业访谈录》的“技术之美”系列,期待和你一起读论文,领略科技平权,感受技术之美——做你的赛博组会:) 00:02:00 给 Agent 下定义和分类 00:14:50 Kimi K2、ChatGPT Agent、Qwen3-Coder、Manus 的技术路线对比 00:28:29 Agent Training 的关键环节:合成数据、强化学习、安全 00:30:57 第一篇技术报告:Kimi K2: Open Agentic Intelligence github.com 00:43:50 第二篇技术报告和访谈:Introducing ChatGPT agent: bridging research and action openai.com 红杉访谈 OpenAI:OpenAI Just Released ChatGPT Agent, Its Most Powerful Agent Yet www.sequoiacap.com 01:53:38 第三篇技术报告:Qwen3-Coder: Agentic Coding in the World qwenlm.github.io 01:59:04 第四篇技术博文:AI 代理的上下文工程:构建 Manus 的经验教训(作者:Yichao 'Peak' Ji) manus.im 02:06:06 展望:也许会有一个新的范式 02:15:20 我感觉 Agent 是“我拓展的大脑”,我背后有一个“军团”(Family of Agents) 02:16:41 不同 Bot 的语言风格:DeepSeek 嘴臭,元宝舔狗 智能体定义 Agent 是一种能够与环境进行交互(interaction)的智能系统。 它具备两个基本能力: 感知能力(Perception) 能够观察环境的状态,包括获取外部信息、读取反馈信号、解析上下文等。 行动能力(Action) 能够在环境中执行动作,例如调用工具、生成输出、控制界面、修改变量等。 简言之,Agent = 感知 + 行动 在一个循环中不断执行“观察 → 决策 → 行动”的流程,以达成任务目标。 Agent 的定义与分类 1. Coding Agent(代码智能体) 代表产品:Cursor、Windsurf 特点:代码生成与编辑能力强,用户体验优秀 应用场景:代码补全、代码重构、多人协作编程 2. Search Agent(搜索型智能体) 特点:结合搜索引擎,自动完成信息检索和汇总 应用场景:市场调研、报告生成、竞争对手分析等 潜力:在企业级场景中有很强的应用价值 3. Tool-Use Agent(工具使用型智能体) 特点:能够调用多种外部工具完成复杂任务 应用重点:是目前 Agent 研究和落地的主要方向 举例:ReAct(推理 + 行动)类 Agent,通过 tool calling 执行任务 4. Computer Use Agent(电脑操作型智能体) 代表产品:OpenAI Operator、Claude 的 Computer Use 特点:模拟人类使用电脑,完成跨应用的复杂操作 应用场景:执行流程自动化、远程助理、办公代理 Agent 的技术路线对比 1. In-Context Learning(上下文学习) 特点:依赖强大的预训练模型,通过提示构造实现任务规划与执行 优势:无需微调,灵活性高 局限:泛化能力弱,rollout 长度有限,容易失控 2. End-to-End Training(端到端训练) 特点:将 Agent 的全部行为编码进模型权重 优势:推理稳定,可控性强 局限:训练成本高,环境构建复杂 Agent Training 的关键环节 1. Data Synthesis(数据合成) 方法:生成大量高质量的 trajectory(行动轨迹) 用途:训练 Agent 在任务中如何决策、调用工具、管理 memory(记忆) 2. Reinforcement Learning(强化学习) 条件:需要定义清晰的 task(任务)与 verifiable reward(可验证奖励) 挑战:任务难度与环境反馈设计直接影响 Agent 的行为质量 3. Safety(安全性)问题 风险:Agent 具备自主决策能力,容易误用工具、走偏轨迹 对策:加入 sandbox(沙盒)限制、行为约束机制、Human-in-the-loop(人类监控) 展望:也许会有一个新的范式 生成数据的核心会从 input-output 式的数据标注,转向构建 environment(环境)以及对应的 task-reward(任务-奖励)。比如 Scale AI 提出的 rubrics as reward(用评分标准作为奖励机制) Agent 能不能实现自我提升(self-improve)?一方面,Agent 在和环境交互的过程中会不断获得新数据;那它能不能自己找到或构造 verifiable reward(可验证的奖励)?交互中积累的 experience(经验),能不能被更有效地利用起来?
-
今天又是一集机器人专场。嘉宾是光轮智能创始人兼 CEO 谢晨,他曾在英伟达、Cruise 及蔚来汽车担任自动驾驶仿真负责人。我们的话题非常具体,即:仿真与合成数据。 今天的具身智能尚且没有找到 scaling law 的有效配方,其中,数据是一个关键卡点。我们 106 集的嘉宾银河通用创始人王鹤就提到,真实数据在他们的训练数据比重仅仅 1%,合成数据挑起大梁。 今天这集节目,我与谢晨聊了聊仿真与合成数据的实操细节。 02:00 开始的快问快答 02:48 高频词汇解析:Sim2Real(从仿真到现实)、Sim2Real 的 gap、合成数据 04:31 从 Cruise 到英伟达到蔚来,怎么做合成数据和仿真? 14:11 制作合成数据的具体流程?合成数据与真实数据的配比? 16:17 在合成数据上,智能驾驶和具身智能的区别(智能驾驶是视觉的游戏,具身智能的物理交互最关键) 32:41 物理的 Real2Sim(真实到仿真)工作流是怎样的?怎么评估成功的仿真?关键技术节点? 46:18 Physical Intelligence(π)对仿真与合成数据的两难态度 48:55 辣评 Meta 300 亿美金收购 Scale AI 和极其 aggressive 的 Alexandr Wang 53:57 合成数据目前面临的瓶颈 55:25 全球具身智能产业链 Mapping: 硬件公司(宇树) 基座模型公司(π、Skild、英伟达和 DeepMind) 在垂域落地的软硬结合公司(Figure,特斯拉 Optimas、The Bot Company) 以仿真为中心做端到端落地的公司(光轮) (“特斯拉 Optimas 的管理文化和π完全不一样”) 01:09:22 美国存在具身模型层的创业机会,中国在我看来字节、小米、理想更适合做“大脑” 01:15:33 老黄在内部说:NV is a simulation company 01:21:25 终局的模型应该是是跨宇宙、跨世界、跨本体(提升跨宇宙的能力,本质是提升泛化性) 01:23:28 具身智能的产业还在 GPT-1 阶段,还没找到 scaling law 的配方 01:28:21 我创业刚开始,从具身的本科开始学起 01:37:37 最后的快问快答 【机器人专场】 逐篇讲解机器人基座模型和 VLA 经典论文——“人就是最智能的 VLA” 和王鹤聊,具身智能的学术边缘史和资本轰炸后的人为乱象
-
今天的嘉宾是地平线创始人兼 CEO 余凯博士。 在过去 49 年人生中,他一路闯关过德美学术圈、中国互联网圈、创投圈、资本圈、汽车圈。在每个圈子和江湖,都从籍籍无名的无名小卒开始升级打怪。到最后,在每个圈子,他混得都不错。 一位与他打过交道的前企业高层评价,余凯是科学家里非常具有社会智慧的一位。 余凯毕业于南京大学和慕尼黑大学,毕业后,先后就职西门子、NEC 研究院,于 2012 年回国加入百度,又于 2015 年离职创立地平线。 很巧的是,2025 年正好是地平线创立 10 年。今年上半年,我与余凯博士聊了两次,这集节目是他的一部口述史。 随着大语言模型浪潮爆发,更多人工智能科学家从高校系统涌入创业轨道。余凯的创业观,也许能给大家一些启示——创业不仅是技术和商业,也不仅仅有刀光剑影,更是一部人来人往的江湖故事。 就像电视剧《少帅》张作霖的台词:“江湖不是打打杀杀,江湖是人情世故。” 2025 年,我们和 AI 共同进步! 03:06 初入学术江湖一开始在学术圈籍籍无名,算命先生说我 24 岁前“籍籍无名,劳而无功” 发表过 100 篇论文,我很陶醉,夜深人静都会翻我以前的 paper 自我欣赏 结识 Geoffrey Hinton、Yann LeCun、吴恩达的故事 我这边的对面坐了一个人特别的沉默,没人搭理他,一个人在那吃闷饭——这个人叫 Richard Sutton,前段时间拿了图灵奖 31:18 再入互联网江湖我应该是旅美人工智能华人学者第一个回国的 我立刻就跟 Geoffrey Hinton 写信,他回信:Kai,挺好的,但你介不介意我也问一下其他公司? 我当时拿到的授权是,最高出到 2400 万美金,2400 美金以后,每一次出价就要跟国内商量 我为了小概率能赢,抢先第一个出价,1200 万美金 “哎呀,你看 Geoffrey Hinton 开会好像不太出现啊,他在干嘛…?” 我就问他:唉,Andrew(吴恩达)你在干嘛?各方面怎么样?开始试探他 吴恩达一下子震惊到了!说:你小子把我忽悠到百度,你自己跑掉,太不够意思了吧? 51:19 又入创业江湖我做了 3 个投资:买了英伟达,买了特斯拉,全身心把我投到地平线 这个哥们跟我讲:兄弟,你知道吗?我现在在我家的地位,就靠你那句话! 地平线刚创立那一天我看了一下,英伟达才是一个 107 亿美金公司,现在是 3 万亿! 吴恩达在 Google lead 谷歌大脑,有一个 frustration(沮丧)是什么?不能买 GPU! 共识要么是错的,要么是没价值的 你的商业的 secret 是什么?有什么东西你看见了别人没有看见?这个世界是不是有 Bug?这个世界是不是有通向未来的窄门,而大部分人没有关注到? 01:11:21 也入资本江湖我们一页 BP 没写,就融了第一轮,我觉得:哎呀,Life is so easy! 结果第二轮就发现,见了 50-60 家机构,没一个下单。特别 tough……没人理解…… 我说的简直是口干舌燥……地老天荒……昏天黑地……也没人动心 我定了一个铁律:我跟投资人第一次见面,绝不能在他办公室,一定要在我办公室 我继续装!我说:我真的没时间,我就是一个专注的、情商低的科学家,正在倒腾我自己的事情,懒得理你 我们创造了 C 轮业界传奇的 12 小轮,一把拿了 16 亿美金——这也是一个反共识——中间没有加 1 分钱估值 哇,地平线竟然有 102 家股东投资机构,我都不知道我怎么磕出来的 01:21:39 转战汽车江湖科学家创业通常有这个问题:360 度扫射 曾鸣那堂课上完以后,我们班好多同学回去都去砍方向、裁团队 有天晚上睡觉,我梦中突然一惊:我靠,这样不对啊! 和长安:故意输球,你们要优雅地、不露声色地、故意地输啊 和李想:李想在 2019 年初,我们俩爬山他讲:你应该聚焦汽车方向 和何小鹏:我现在还没有磕下小鹏————有的时候你要强攻,有的时候你要迂回 和王传福:我们逮着机会窗口,相当于这个门开一个小缝,咱们就呲溜一声冲进去 02:09:48 我不是江湖人领导者我的 role model 是刘邦 电影这些角色,你知道我最喜欢谁吗?《飘》里的白瑞德 我的名字姓余,公司的名字地平线——余地,余地,做人做事永远要留有余地 智能驾驶:主机厂未来不会自研,它是一个标准化的功能 3 年完成 100%hands-off,5 年完成 100%eyes-off,10 年完成 100%minds-off 死门是什么? 机器人的 CUDA 下一代芯片创新 02:35:23 最后的快问快答这个世界我认为是写好了程序,每个人都是按照剧本来演 02:39:26 补充花絮传授技巧:如果你决心离职,不要说公司任何不好 闫俊杰的发型像我(玩笑) 我和吴恩达在美国 serious 讨论过创业 我为了调一个校招生喝茅台,不像李想手起刀落 微信头像为什么关公? 【从蒸汽机到无人驾驶】系列 《对李想的 3 小时访谈(播客版):宅男、AI、家庭、游戏和天梯》 《和何小鹏聊,FSD、“在血海游泳”、乱世中的英雄与狗熊》 《对话奔驰全球 CEO 康林松:转型期 CEO 和转型之中的 139 岁奔驰》 《和楼天城聊聊 Robotaxi 和 ACRush:“L2 做得越厉害,离 L4 越远”》 本集文字版:《对话余凯:世界不止刀光剑影,是一部人来人往的江湖故事》
-
这集没有宏大叙事,相当随性。嘉宾是清流资本创始合伙人、百度前技术 VP 梦秋。 关注《商业访谈录》比较久的朋友可能知道,梦秋基本每年都会来返场一次,和我们一起 catch-up 当下的创投水温以及她自己的生活。在狼性文化蓬勃的中国投资人圈里,梦秋一直是很佛系也很道家的存在。 这一集更是松弛,她直言工作挺无聊,所以在聊了正经话题以后,我们也聊了聊读书、旅行、观影和女生的碎碎念。 (本次节目录制在 4 月底) 我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:) 02:00 2025 年资本寒冬过去了吗?没… 04:00 DeepSeek 的出现,让 AI 应用创业变得活跃了吗?没… 10:45 现阶段各种 Bot 的体验:神婆?舔狗?尤其点评微信、元宝和小红书 25:28 探讨一下,微信里怎么做 Agent?通用 Agent 成立吗? 31:25 垂直 Agent 的创业机会和创业者 35:52 现在的组织倾向于小组织,这可能利好年轻创业者 37:42 为啥组织更小,融资额却更高了? 38:18 除了 Agent,还在看的是具身智能(仿真器很重要) 43:57 可穿戴设备 54:54 大模型公司 58:31 这两年工作很 boring,我的旅行之路 01:03:55 我的读书之路 01:12:34 聊影视行业(梦秋是中影独董)、《好东西》和女性主义 梦秋此前的节目: 《1. 和投资人梦秋聊聊加州、投资寒潮和林黛玉》 《21. 投资人视角下的大模型和市场真实水温|和梦秋聊 ChatGPT》 《65. 风险投资的钥匙失灵了吗?和梦秋聊:蛰伏、更少人的游戏和啮齿动物》 【更多信息】 联络我们:微博@张小珺-Benita 更多信息欢迎关注公众号:张小珺
-
今天继续《商业访谈录》的机器人专场,嘉宾是北京大学助理教授、银河通用创始人兼 CTO 王鹤。 王鹤毕业于清华和斯坦福大学。他给我们从“具身智能”的学术缘起开始聊起,这是一个学术流派从一个学科中萌芽到边缘再到主流渗透的全过程。 而随着 ChatGPT 诞生,“具身智能”这个小众概念,在过去 2 年成了新的资本宠儿——但一时间,也带来了新的乱象。 我们探讨了一些具身智能产业界关键问题: 1/具身智能起源于计算机视觉的学术流派,视觉、语言、智能的关系是什么?为什么 VLM(视觉语言模型)的表现显著弱于 LLM(大语言模型)? 2/具身智能的最大困境之一是数据采集,合成数据是正解吗?具体应该怎么做? 3/如果大模型提倡的是“智能即产品”,那么具身智能呢?王鹤的回答是“生产力即产品”。 去年底,英伟达创始人黄仁勋来华访问。答谢宴上,王鹤不仅和黄仁勋同桌,而且就在做黄仁勋旁边(挨着坐)。在节目最后,我们也聊了聊这个有趣的插曲——他提到,那晚黄仁勋吃了不少水煮肉片。 2025,我们和 AI 共同进步! 我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:)03:00 开始的自问自答 05:58 语言不是智能的本质,而是“一次跃变”“具身智能”和“机器人”是不同学术流派 “具身智能”起源于“计算机视觉”的研究流派 视觉有智能吗?纯视觉智能的可解释性差,是端到端的 语言不是智能的本质,不能说没有语言就没有智能 智能的本质是什么?“一种视情况对环境做出反应的能力” 语言是人类能产生这么高智能的“一次跃变” 视觉的本质是一种非常强的 sensor(传感器) 25:08 具身智能的学术边缘史具身智能最早兴起的 task(任务)是,导航 加入视觉模态,强调 Perception–Action Loop(感知-动作循环),成为具身智能研究流派能立起来的核心叙事 标志性事件:“具身智能是计算机视觉未来的三颗北极星之一”(李飞飞) 我和 Skild 创始人 Deepak Pathak 在 Facebook 人工智能实验室 FAIR 打过交道 41:15 我的学术之路 2016 年,博士第一个项目:从人类视频里学多步的人与物体交互过程的生成(动画领域) 在 Stanford 博士第一年,在不喜欢的方向非常挣扎,后来换组、换方向 Stanford 是高度自由的市场:你可以随时踢你老板,你老板可以随时踢你 第一篇论文憋了很久,很绝望 完全从视频中学习,学习世界模型,还没成为当下能推进具身智能的技术 我的第二个项目:位姿估计和合成数据相关 2020 年李开复曾在湾区丽思卡尔顿组织 brunch,观点分歧 回国坚定以家庭机器人为目标推进 research,根本没有 allies(盟军) 01:25:08 具身智能的软件和硬件是螺旋上升的问题 ChatGPT 火了以后,很多人开始找我创业,我说创不了 所有工业机械臂在去年的全球总产值才 1000 亿 RMB,和理想一家车企产值相当 如果采取不成熟的激进的硬件方案,对智能会是一种拖累 在这个硬件基础上,我们的方案是,做相对专用的智能和越来越通用的智能 VLM 为什么显著弱于 LLM?互联网视觉数据/所有人眼观测的覆盖〈〈〈互联网文字数据/人类所有说的话的覆盖(VLM 数据不够,VLA 的 Action 数据是最近两年才开始收集的) 01:44:34 我们要避免陷入以下泥潭这一代具身智能公司相比此前机器人公司,差异在哪? 在我看来,具身智能公司如果陷入以下两个泥潭,天花板会很有限: 1、“长期漂浮”的公司;2、“算不过来账”的公司,边际成本不降 我们要做一个应用场景内的泛化(现在选择的是货架场景) 在我看来,机器人领域的头部效应很重 01:55:17 具身智能是,“生产力即产品”雇人摇操采真实数据的成本到底有多高?一笔经济账 真实数据在我们训练数据的比重是 1%,合成数据管线挑起大梁 行业内的 tricky 现象:把没有功能的机器人卖给别人(这是一种商业模式) 关于合成数据和 Sim-to-Real(仿真到现实迁移)的常见误区 有出货量后的数据回流和数据飞轮 如果大模型是“智能即产品”,那么具身智能就是“生产力即产品” 02:13:51 资本轰炸后的人为乱象谁在创造生产力,谁在讲故事,这是最乱的——这个源自美国 对 Figure 的估值 400 亿美元的两种逻辑 有的人胆子很大,不告诉别人我是摇操,但实际摇操 呼吁:真实展示!不要摇操! 5 年内我们一定要有万台以上的应用,如果做不到这个,我们这个领域就被证伪了! 不要去搞一些砸我们行业招牌的事情!这些模式是很可怕的,是在砸这个行业的饭碗 通用机器人的到来不要想得那么快 02:25:25 一个插曲去年黄仁勋访华为什么和黄仁勋同桌且在旁边?聊了什么? 黄仁勋能吃辣,吃了很多水煮肉片 02:28:26 最后的快问快答 【机器人专场】 逐篇讲解机器人基座模型和 VLA 经典论文——“人就是最智能的 VLA” 【更多信息】 联络我们:微博@张小珺-Benita 更多信息欢迎关注公众号:张小珺