正在加载

返回列表
张小珺 Jùn|商业访谈录

张小珺 Jùn|商业访谈录

努力做中国最优质的科技、商业访谈。 张小珺:财经作者,写作中国商业深度报道,范围包括 AI、科技巨头、风险投资和知名人物,也是播客《张小珺 Jùn | 商业访谈录》制作人。 如果我的访谈能陪你走一段孤独的未知的路,也许有一天可以离目的地更近一点,我就很温暖:)

分集
  • 2025-11-28 / 02:06:15

    今天的嘉宾是 Google DeepMind 机器人团队的高级研究科学家兼技术负责人谭捷,他的研究方向是将基础模型和深度强化学习方法应用于机器人领域。 中美在机器人领域一直存在两种叙事:市场普遍认为,中国在硬件上发展更快,美国在机器人大脑设计上更领先。 本期节目中,谭捷将带我们一窥硅谷视角,尤其是 Google DeepMind 视角下的机器人前沿叙事。 前不久,他们刚发布了新工作 “Gemini Robotics 1.5 brings AI agents into the physical world”(Gemini Robotics 1.5 将 AI Agents 带入物理世界),我们也聊了聊他们的最新发现。 由于嘉宾工作环境的原因,会出现一定程度的中英夹杂,还大家多多包容和支持。 02:00 机器人是在真实世界里做图形学,图形学是在 simulation 里做机器人嘉宾小传:小时候喜欢打游戏,读博士读的计算机图形学 从图形学转型机器人的变轨 我在 Google 的第一篇论文《Sim-to-Real: Learning Agile Locomotion For Quadruped Robots》(从仿真到现实:学习四足机器人敏捷运动),开创了强化学习和 seem to real 在足式机器人上的应用 Paradigm Shift,过去十年第一个是强化学习,第二个是大语言模型 大语言模型对机器人的影响(大语言模型类似大脑,强化学习类似小脑) 13:06 机器人基座大模型到底是不是一个非常独立的学科?So far, not yet 今天的机器人发展到什么阶段了? 从 demo 到真正落地,隔十年并不是一个非常夸张的事 从我的角度来说,我不得不承认,最近几年的机器人智能发展主要还是依赖于多模态大模型 但多模态模型缺什么呢?缺少 robot action 的输出 当你真正有一个 generalist model(通用模型)的时候,specialized model(专有模型)就完全不能与之竞争 23:44 Robotics 最大问题是数据,它在一个非常复杂的 unstructured environment 里,可以发生任何事情最大的问题还是数据问题 但是 robotics 是在一个非常复杂的 unstructured environment(非结构化环境)里,可以发生任何事情 它需要极大量的、非常 diverse(多元)的数据,但这些数据现在是不存在的 现在有很多 startup 叫 data factory(数据工厂) 所谓“数据金字塔”包括哪些? ​27:52 Gemini Robotics 1.5:我们有一个方法叫 motion transfer,这是独门秘诀 Gemini Robotics 1.5 最重要的发现是什么? 第一个是我们把“thinking”加入了 VLA 模型 第二个非常重要的突破是 cross-embodiment transfer(跨具身迁移) Gemini Robotics 1.5 的工作中,我们做了一个快慢模型的划分 它应该是个过渡的方式,因为现在受制于算力的限制、模型大小的限制 当你要一个 unify model(统一模型)的时候,它必须非常大 Motion Transfer?It’s very secret 47:32 生成极大量仿真数据,是弥补它缺点的一个重要手段我们比较重视的一点还是数据、数据、数据 遥操作是非常难以获取的数据 我们会花更多的精力,比如利用 simulation 数据,利用 human video(人类视频),利用 YouTube 上的一些数据,甚至利用模型生成的数据,比如 VEO 生成的一些数据 真实数据没有 sim-to-real gap(仿真到现实差距),但是泛化性是由数据的 coverage(覆盖)导致的,并不是因为它本身是真实数据还是虚拟数据 在不远的将来,传统物理模拟仿真会慢慢地被生成式模型的仿真所取代 我信仰的是 scalable data 01:03:48 世界模型就是 Vision-Language-Vision,vision 和 language in,生成下一帧的图像世界模型的定义是:如果给上前一帧,再给上机器人的动作,你可以预测下一帧 从另外一个角度,VEO 它是一个视频生成模型,但是 Genie 它更像一个世界模型 当你在每一帧的时候,可以有一个输入来改变你的下一帧,那个感觉就是世界模型;但是如果它是一个已经生成好的、几秒钟的静态视频,那就不是 世界模型其实就是 Vision-Language-Vision,vision 和 language in,它可以生成下一帧的图像 01:08:29 如果你有灵巧手,触觉就非常重要,之所以我前面觉得触觉不重要,是受限于当时的硬件如果你有灵巧手,触觉就非常重要 之所以我前面觉得触觉不重要,是因为它其实受限于当时的硬件 现在还在夹爪时代 在所有夹爪能完成的任务里,我还是觉得视觉可能可以解决 95%的问题 在未来,人形机器人不会成为唯一的形态,但一定是个主流的形态 如果你的目标是 solve AGI in the physical world(在物理世界实现 AGI),那么我会非常聚焦于最终的形态是什么样子,其他的东西可能都是 distraction(干扰) 01:17:35 一个有使命感的人,他不会容忍说“I’m on a wrong ship”这几年 Google AI 或者 robotics 的研究文化上有没有发生过变化? 不管是从 promotion、performance review、incentive,还是各种各样的 structure 上,Google 想创造一个环境,使得更多的人可以一起解决更大的事情 像 Gemini Robotics,它更多是自上而下 我发觉好像国内不一定比我卷,我一周可能工作 70 到 80 个小时 真的,这个时代真的是等不起,不然别人都做出来了 AI 有很多是数学,华人数学比较好 《106. 和王鹤聊,具身智能的学术边缘史和资本轰炸后的人为乱象》 《109. 机器人遭遇数据荒?与谢晨聊:仿真与合成数据、Meta 天价收购和 Alexandr Wang》 【更多信息】 本集的文字版本已发布,请搜索我们工作室的官方公众号: 语言即世界 language is world

  • 2025-11-18 / 01:48:45

    今天的嘉宾是小鹏汽车自动驾驶中心负责人刘先明。 就在 2025 年 10 月 9 日,小鹏汽车突然宣布,原自动驾驶中心负责人李力耘将卸任,由世界基座模型负责人刘先明接任。 这意味着,刘先明成为小鹏在自动驾驶上,既谷俊丽、吴新宙(现英伟达自动驾驶中国团队负责人)、李力耘之后的第四任负责人。外界对他有诸多的好奇。 这是刘先明上任后首次接受专访。我们访谈的时间是 2025 年 10 月 30 日。这集节目,我们聊了聊他上任后拆掉大模型 Language 等关键技术决策,以及一家车企的 AI 战略转型。 02:16 人物小记曾在 Meta、Cruise,从事机器学习与计算机视觉研究 恰好 Cruise 当时是第二名,加入第二名再逆袭的故事永远是令人兴奋的 加入小鹏汽车始末:2024 年 1 月在美国办公室与何小鹏见面 1 小时 所亲历过的自动驾驶的技术 stage 19:00 大模型拆 Language 我们的做法简单直接,把 VLA 的 Language 拆掉就完了 模型是机器,燃料是数据,一旦掺入 Language 会让效率变得极低 我们干脆把 Language 全都拆掉好了:输入 V-L 联合语料,直接输出 Action “拆 L”的过程、“简单就是美” 关键的数据问题 33:53 小鹏汽车向物理 AI 战略的转型为什么一家汽车公司的自动驾驶战略需要向 AI 战略转型? 转型的开端可能是去年小鹏汽车 10 周年 自动驾驶企业关心的是 KPI、接管率,AI 企业关注底层的技术指标,甚至 risky 的长期指标 刘先明的短期和长期 KPI AI 对于小鹏汽车意味着什么?“是乘法因子” 除了今年拆 Language,之前还拆了激光雷达、规控规则、端到端 人工智能发展为什么一直在经历着拆拆拆的过程? 世界模型 明年对 L4 的规划 54:30 换帅的背后过去 1 年做过“头铁”的事情 看起来我性格很好,我也拍过桌子、发过火 “拆 L”过程中遇到很大阻力,因为这很反 paper 里的常识 DeepSeek-OCR 的反共识 现在关注的 AI 前沿方向 回应地平线创始人余凯的观点(“自动驾驶应该交给供应商”) 为什么国内自动驾驶还没有代际差? AI 是车企下一阶段的重要赛点,做不好会被淘汰 何小鹏对于 AI 的关注时间、方式和最近的 3 次话题 制造企业和 AI 企业的基因问题 接下来,对于我的挑战 小鹏智驾一号位,每个人的历史使命 《70. 和何小鹏聊,FSD、“在血海游泳”、乱世中的英雄与狗熊》

  • 2025-11-03 / 01:43:25

    今天这集节目,我们将讨论一个在当下非常关键的话题:人工智能的算法与架构创新。 嘉宾是我们的往期嘉宾返场,她是 MIT 在读博士杨松琳,研究方向是线性注意力机制。 我们将从最新发布的几个模型 Kimi Linear、Minimax M2、Qwen3-Next 切入。松琳参与讨论 Kimi Linear 和 Qwen3-Next 的部分工作,是 Kimi Linear 论文的作者之一。 算法创新为什么在 2025 年变得尤为重要? 它的背后原因是,数据、算力和算法是驱动人工智能的三驾火车,在数据撞墙的无奈前提下,各个模型公司不得不重新开始“雕模型架构”,以期 Scaling Law 的魔法继续。而由于中国的算力相对美国有限,这反而让中国的 AI 算法创新走在了世界前沿。 这集节目你将听到,近几年架构最大突破是 DeepSeek 的 MoE(混合专家模型),它让 MoE 成为了全球共识;而下一个突破的重要方向可能就是 Attention(注意力机制)。 中国公司在 Attention 展开了不同技术 bet(押注): 截至目前已发布模型,DeepSeek 正在探索 Sparse Attention(稀疏注意力机制); Kimi 正在探索 Linear Attention(线性注意力机制); Minimax 在年初的 M1 版本中探索 Linear Attention,而在刚发布的 M2 版本中又回退到 Full Attention(全局注意力机制)。 节目中,松琳将讲解她参与的这篇《Kimi Linear: An Expressive, Efficient Attention Architecture》的工作,并分析以上这些公司在 Attention 上的不同抉择; 与此同时,她也将带领大家考古人工智能算法变种史,并预演未来算法与架构的改进方案。 本集比较硬核,会有一些专业难度,大家可以根据自己的实际需要收听嗷:)因为嘉宾的工作环境会出现中英夹杂,希望大家多多理解和支持。 04:00 个人、研究主线与线性注意力机制的探索之路 06:27 松琳做过一个开源库:flash-linear-attention(简称 FLA) 07:04 怎么通俗理解 Linear Attention 的 Linear? 11:19 聊聊最近参与的新工作,前几天刚发布的《Kimi Linear: An Expressive, Efficient Attention Architecture》(Kimi Linear:一种具有强表达能力与高效率的注意力架构) (FLA 库的另一个作者 Zhang, Yu 邀请) 12:20 为什么 Kimi 在年初开始需要重新设计注意力机制?设计的背景和目标 在 Linear Attention 下,推理阶段的计算与显存成本都显著降低;而使用 Full Attention 时,长文本解码的代价会非常高昂 14:39 《Kimi Linear》论文重点讲解:KDA 模块(Kimi Delta Attention,增量注意力机制) 18:56 Kimi 内部有一个 Scaling Ladder(规模阶梯),在一个规模下面表现好就在下一个规模下面去 scale,就像通关 20:20 Kimi Linear Attention vs DeepSeek Sparse Attention:Kimi 走线性注意力路线,DeepSeek 走稀疏注意力路线,都想解决长文本 decoding(长上下文生成)的效率问题 23:01 Minimax 从 M1 到 M2 的架构变化,从 Linear Attention 退回到 Full Attention,为什么? 27:00 硅谷的注意力机制方案不方便说,但可以浅聊一下 OpenAI 有 paper 的方案 28:05 Linear Attention 从 2020 年发明出来开始后的前进线索 每一次大家关心 Linear Attention 都是因为大家撞到了 Context Wall 最近长文本的 decoding 卷土重来,让人们不由自主审视这一套技术 38:16 纯 Linear Attention 是无效的,混合注意力机制还是有很多全局注意力层,这样下限有保证 40:30 Kimi Linear 每 3 层 KDA 插入 1 层全注意力层,三比一的比例快变成共识了 Minimax 之前用的是七比一,但现在大家逐渐回到三比一——这成为不共识的混合注意力机制中的共识了 42:32 权衡(Trade-off)表达能力(expressivity)与计算效率(efficiency) Minimax 曾经也提到,混合线性注意力/混合滑窗注意力在“多跳推理”上会有缺陷 对于“多跳推理”,如果我们开发一些硬件高效但表达能力更好的 RNN(循环神经网络),这个 GAP 有可能缩小 46:28 chunkwise algorithm for parallelization(分块并行算法) 47:55 如何设计 Attention?两条主流和一些非主流路线 49:36 结合 Linear Attention 和 Sparse Attention 的未来理想方案 Linear Attention 和 Sparse Attention 没什么竞争关系,Linear Attention 的竞争对手可能是 Sliding-Window Attention(滑窗注意力) 工业界 Linear Attention 和 Sparse Attention 结合的探索似乎还没开始 我想象中的理想方案是:把混合注意力的全局注意力(Full Attention)换成稀疏注意力(Sparse Attention) 只要 Sparse Attention 选得准,完全可以取代 Full Attention,但现在的问题是它选不准 55:36 公平的比较:Linear Attention vs Sliding-Window Attention(滑窗注意力) 57:05 Transformer → MoE → Linear/Sparse Attention 的算法演变,背后动因是给定你相同的 FLOPs(浮点运算量),利用这些 FLOPs,取得更低的损失函数 MoE(混合专家)是更高效的 FNN(前馈神经网络)的替代品 58:26 近几年架构方面突破最大的是 MoE,下一个突破可能是 Attention;Transformer 就两个模块,一个是 FFN,一个是 Attention;现在 FFN 已经雕成 MoE,现在 Attention 大家也可以雕一下 01:01:28 数据、算法、算力是驱动人工智能的三驾马车,当数据遇到数据强,算法创新变得更重要 01:02:48 架构的未来:1、能不能干掉全局注意力?它是阻止 context window 继续 scale up 的主要瓶颈 2、Continue Learning,让 AI 自己学习 01:04:30 如何把 Linear Attention 的 Transformer 继续 scale up? 01:07:43 中国 AI 的算法创新相比海外肯定是更强的——因为没有那么多卡( 不过美国公司更多投入优化器一点,国内在逐步重视 01:10:56 其他训练细节:NoPE vs. RoPE 01:12:09 DeepSeek-OCR 01:12:55 松琳也参与了 Qwen3-Next,没有参与 Minimax M2 01:13:39 “雕”架构的人 01:15:16 自己的心路:“当你很清楚你要做什么的时候,你是不会遇到什么挫折的” 经验分享:PhD 还挺顺利的,得益于我入学之前的半年考古 01:23:12 说到考古,我们在最后聊聊从 Transformer 开始的算法变种历史 01:29:50 Delta Rule 算法、硬件亲和、DeepSeek 非常追求硬件和算法的匹配 01:42:23 给更年轻的年轻人的建议 嘉宾往期节目: 《逐篇讲解 DeepSeek、Kimi、MiniMax 注意力机制新论文——“硬件上的暴力美学”》 谈到的论文: 《Kimi Linear: An Expressive, Efficient Attention Architecture》 《MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention》 《DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models》

  • 2025-10-30 / 02:46:22

    2025 年 4 月,我与理想创始人兼 CEO 李想录制 AI Talk 第二季。那次对谈持续了很长时间,播出版仅 1 小时,今天你看到的是完整版。 这一集节目的发布比预期晚了些。过去几个月实在太忙了,我一度犹豫要不要继续放出。但当我重新整理这些内容时,仍然被它打动——这是一份关于人工智能技术变革的“节点式思考存档”。 你可以结合 2024 年底我们那场 3 小时谈话一起观看,感受两次对话之间,思考的延展与呼应。 这次,我把李想当作一个“CEO 大模型”来提问。 假设他是一种 MoE(Mixture of Experts,专家混合)架构的模型,我在对话的前三个回合调用了他的三位“专家”:技术专家、战略专家、组织专家。而当谈话深入到后半程,我们开始讨论人、能量、亲密关系、记忆程序与人类的智慧。 “AI 与人的关系”,是本次对话的母题。 (录制于 2025 年 4 月) 02:35 第一章:假若你是一个 CEO 大模型人类做熵减,AI 做熵增 工具的三个分级:“信息工具”、“辅助工具”、“生产工具” “生产工具”重要的衡量是:你愿意为它付钱 梁文锋极简运用了人类最佳实践 按照最佳实践是反人性的,随心所欲才满足人性 我只能做最好的自己,我一直在自己的长板延长线上 理想为什么还做基座大模型? 当时我们比较担心陈伟团队(基座模型自研团队)怎么想?这个压力挺大的 36:18 第二章:调用 MoE 之技术专家李想手把手教你训 VLA 达到 VLA 不是突变的过程,是进化的过程,经历了三个阶段 我给你讲一下 VLA 是怎么训的,以及 VLA 自己怎么去工作的 我不会做超长 CoT,我的 CoT 链条一般两步到三步 至少 5 年内不会有通用 Agent,但会有一个 Agent OS 要顺着人性去说,逆着人性去做 如果大家不想做前面包子的积累,只想吃第 10 个包子,很像练《葵花宝典》 黑盒、世界模型和定价逻辑 每 1 万公里的验证成本,我们做到从最开始 18 万降到 4000 块钱 01:25:36 第三章:调用 MoE 之战略专家 2025 年雁栖湖战略会 如果看战略,中间的圈是规模,圈外边有三个变量:用户需求、技术产品、组织能力 具备这四个特点的,就是 AGI 时代的终端:360 度对物理世界感知的能力、认知决策的能力、Action 的能力、反思反馈能力 到了 AGI 时代的终端,对于能力的要求变得不一样了 如果看到 2030 年,我们希望能够成为全球领先的人工智能终端企业 这是我们未来的 3-6 年要去解的题 李想的理想会不会太过于理想? 构建 3-7 人能量体 高维组织兼容低维组织 02:09:26 第四章:智慧是我们和万物的关系我的记忆程序 创业不容易,但是没必要苦哈哈的 大女儿 我们家里实现了一个“三人支撑”,这让家里的能量大幅地提升 人是用来发挥的,人不是用来改变的 不要构建那么多亲密关系,亲密关系太多了就证明这个人不会经营关系 把智慧当成一个重要的人类特质去发展 对李想的第一次 3 小时访谈: 《对李想的 3 小时访谈(播客版):宅男、AI、家庭、游戏和天梯》 本集节目同步上线文字版和视频版: 文章:公众号(语言即世界 language is world) 视频:Bilibili(张小珺商业访谈录)

  • 2025-10-28 / 04:22:37

    今天的嘉宾是谢青池,他是美团光年之外的产品负责人。 一个月前,青池找到我,说他用了一年多的时间一篇一篇地啃完了 200 多篇 AI 论文,从开始全然不得要领,到后来逐渐地入门——而他希望将他的论文探索之旅开源给大家。 就这样,我们有了今天这集特别的节目。 他从 200 多篇论文中精选了 36 篇经典,4 小时讲解,带你穿越 AI 变迁史。 他说,读论文是“给你打开一扇门”,让你能直接“与这个世界最聪明的头脑对话”。 2025 年,期待我们和 AI 共同进步! 01:30 探索的缘起 07:25 怎么读论文?(用 AI 学 AI) 10:20 辅助小工具和路书 论文讲解的主干: 19:35 Part 1:模型的范式变迁 故事要从 1999 年的第一颗 GPU 开始讲起 Brook: 用 GPU 进行计算 (2004.08) AlexNet: 深度学习的开端(2012.10) 对序列建模:seq2seq 和 Attention 的引入(2014.09) 蒸馏:模型能被学习吗?(2015.03) ResNet: 比深更深(2015.12) Transformer 来了!拉开一个时代的序幕(2017.06) AlphaGo Zero: 强化学习的突破(2017.10) 现代 MoE 的开端(2017.01) CoT: Prompt Engineering 的奠基之作(2022.01) LoRA: 那个我们每天都在用的东西(2021.06) ReAct: Agent 从理论到落地(2022.10) The Bitter Lesson: 过去 70 年的教训(2018.08) 01:52:58 Part 2:Infra 与数据的变迁 ZeRO: 大规模的 GPU 并行计算(2019.10) Scaling Law & Chinchilla: 上帝的指挥棒(2020.01 2022.03) LAION-5B: 开源社区的英雄主义(2022.10) The RefinedWeb: 互联网的数据也很够用(2023.06) MegaScale: 万卡 GPU 集群的训练(2024.02) 02:21:29 Part 3:语言模型的发展 Word2Vec: 用机器学习将单词向量化(2013.01) Google Translate: 神经网络的大规模线上部署(2016.09) GPT-1,它来了(2018.06) BERT: 曾经的王(2018.10) GPT-2: 是时候告别微调了(2019.02) GPT-3: ChatGPT 来临前夜(2020.05) InstructGPT: 给 LLM 以文明(2022.03) Tulu 3: 后训练的开源(2024.11) 03:08:08 Part 4:多模态模型的发展 DeepVideo: 深度学习进入视频领域,Andrej 初出茅庐(2014.06) 双流网络: Karén 和学术重镇牛津登场(2014.06) 图像生成的序章: GAN 来了(2014.06) Diffusion: 在 GAN 的阴影下,悄然成长(2015.03) DDPM: Diffusion 重回图像舞台的中央(2020.06) ViT: 当图像遇到 Transformer(2020.10) CLIP: 文生图的奠基石(2021.03) Stable Diffusion,它来了(2021.12) DiT: 人们期待一个融合的未来(2022.12) 03:56:38 最后的聊天 架构抱住了硬件的大腿 今天技术的边界到达了哪? 给“站在 AI 世界门外张望的人”和“已经在体系中工作多年的人”的建议 【技术之美】系列: 逐句讲解 DeepSeek-R1、Kimi K1.5、OpenAI o1 技术报告——“最优美的算法最干净” 逐篇讲解 DeepSeek 关键 9 篇论文及创新点——“勇敢者的游戏” 逐篇讲解 DeepSeek、Kimi、MiniMax 注意力机制新论文——“硬件上的暴力美学” 逐篇讲解机器人基座模型和 VLA 经典论文——“人就是最智能的 VLA” 逐段讲解 Kimi K2 报告并对照 ChatGPT Agent、Qwen3-Coder 等:“系统工程的力量” 【更多信息】 本集的投屏视频版已经同步发布于 Bilibili(张小珺商业访谈录):https://www.bilibili.com/video/BV1pkyqBxEdB/?spm_id_from=333.1365.list.card_archive.click&vd_source=aa7c66a3d015be4b5bfcd520784f2790 50 页完整 PPT 开源地址(所有论文链接附在 PPT 上):https://w7py8ou4dk.feishu.cn/wiki/KacewdlmSiSGC9kUOKDch9gwnKf?from=from_copylink

  • 2025-10-09 / 03:47:45

    今天的嘉宾吴明辉是明略科技的创始人、CEO 兼 CTO,明略科技于 2025 年 8 月 29 日获境外发行上市备案通知书,不久后将于香港上市。 这是一次上市前的访谈,吴明辉口述一家 To B 公司漫长的 19 年故事,其间经历了好多次的分分合合、沉浮与急转。你能在这里面找到许多我们节目嘉宾的身影——肖弘、李广密、杨植麟。 我们也聊了聊面向全新的 AI 时代,企业服务级 AI 与 Agentic Model 的前景。 但这个故事的最开始,要从他与峰瑞资本创始合伙人李丰的公司合并聊起。 2025 年,我们和 AI 共同进步! 02:11 Part 1:第一段创业 开始的快问快答 和我们嘉宾广密、Red 的渊源 创业的开始:祝伟投资吴明辉和李丰合并后的公司 最开始罗永浩、李笑来是我们的股东 第一版商业计划书就是推荐系统,为什么没做今日头条? 奥林匹克竞技训练的心理调适 秒针系统的成功 眼睁睁看着今日头条的流量哗啦啦起来 56:08 Part 2:第二段创业 “老板上完商学院,团队遭殃” 同时创立明略科技、云迹机器人 学习美国一家数据分析公司 Palantir,但从 To G 转向 To B 收购 Red 的决策,我希望他做我的 CEO successor 2020-2021 年:战场开得太宽、走过的弯路 2022 年:痛苦的急转,人生最 suffer 的一年 有 AI 以后,预计企业级服务会出现并购潮 01:45:01 Part 3:企业服务级 AI 基于公开数据训基础模型、以卖 Token 为商业模式的公司会很卷,卷成电费 有私有 Data 的公司能产生差异化价值 现实世界的数值游戏 新产品“DeepMiner”的由来 Agent 或 Tool Use 在企业服务领域产生了新的链接 Agent 是一种交互技术,对 To C 和 To B 互联网都会产生革命性变化 那些不提供供给侧能力、只提供链接网络,而这个网络又不是根结点的公司,会很危险 将来企业只有两类人?老板和合伙人(合伙人不是公司员工) 一个幸福的老板,个人使命、家庭使命和公司使命高度相关

  • 2025-09-11 / 02:31:32

    今天的嘉宾,我们很开心邀请了 OpenAI 研究员姚顺雨。 2025 年 4 月,姚顺雨发布了一篇有名的博文《The Second Half》,宣告 AI 主线程的游戏已进入下半场。这之后,我们与他进行了一场播客对谈。 姚顺雨毕业于清华和普林斯顿大学,开始智能体的研究非常早。在博士期间他意识到语言可能是人类发明的最接近本质的工具,于是转向语言智能体研究,至今已 6 年。他有许多有代表性的工作。 我们的谈话从个体出发,共同探索由人、组织、AI、人与机器的交互,所抵达的这个世界智能的边界以及人类与机器的全景。 前不久,我刚刚创立了一家新的内容工作室「语言即世界工作室」,顺雨很意外地从另一个角度帮我回答了,我们工作室创立的初心。 为什么我们相信语言是这个世界的本质奥秘?他的表达是:“语言是人为了实现泛化而发明出来的工具,这一点比其他东西更本质。” (本次访谈发生在 2025 年 5 月,访谈为个人观点,与所供职公司无关。) 02:58 第一部分:人 感觉我前 28 年的人生,非常的乖 我一直有这个非共识:我想要去做 Agent 第一年最大收获是,要用 GPT,不要用 BERT;第二个 learning 是任务或环境非常重要 我的研究有两个核心:一是怎么去做一些有价值、和现实世界更相关的任务和环境;二是怎么去做一些简单、但又通用的方法 17:50 第二部分:系统 Agent 是一个非常古老的概念,任何能进行自我决策、与环境交互,并试图优化奖励的系统,都可以被称为 Agent Agent 演变的三波兴衰:大家可能更多注意到方法线,容易忽视任务线,但这两条线是相辅相成的 Agent 发展最关键的两个方向:一个是让它拥有自己的 reward(奖励),能自己探索;另一个是 Multi-Agent(多智能体),让它们之间能形成组织结构 Code 有点像人的手,它是 AI 最重要的 affordance(环境给予行动者的可能性) 任务的设定 泛化的工具 奖励的机制 48:38 第三部分:吞噬的边界 创业公司最大机会是:能设计不同的 interface(交互方式) 可能模型的能力会产生 beyond ChatGPT(超越 ChatGPT)的交互方式,变成 Super App 拥有一个 Super App 对于公司是双刃剑,当你有像 ChatGPT 这样的 Super App,很自然你的研究就会围绕这个 Super App Assistant、Her,或者像人一样的交互方式,显然是最重要的交互方式之一;不显然的是,我能不能基于不像人的交互方式? 这世界是个相互抄的关系,而不是一个单向抄的关系 OpenAI 可能会成为一个类似 Google 的公司,成为新世界里非常重要的一环,但这并不代表,这个世界就会被这样一个单极系统垄断 最终的智能边界,是由不同的交互方式决定的,而不是由一个 single model(单一模型)决定 前年冬天,我读到冯诺依曼临终前写的一本书:The Computer and the Brain 环境永远是记忆层级中最外层的部分,这很哲学 模型公司的 Chatbot 系统会演化成一个很自然的 Agent 系统 01:05:01 第四部分:人类的全局 人与系统:Agent 要不要像人?“是一个效用问题” OpenAI 是一个 bottom-up(自下而上)的公司 如果你没有一个 different bet(不同的下注方向),很难超越前面的霸主 我导师是 GPT‑1 第二作者,他在 OpenAI 待了一年,他对这件事是有点怀疑的 如果你成为了伯克希尔的 CEO,未来要拿出 500 亿美金 allocate(分配)到 AGI 行业,你会怎么 allocate 这笔钱? 真正的危险,不是一个类似微信的东西打败了微信,而是一个不一样的东西打败了微信 恰好这个时代,做上限更高的事更好 【更多信息】 文字版同步上线 文字版请前往公众号:语言即世界 language is world

  • 2025-09-06 / 01:18:27

    今天的嘉宾是萨洛蒙中国区总经理殷一和小红书商业服饰潮流行业负责人欧迪。我们一起来聊聊,这两年比较火的一个户外品牌,萨洛蒙。 萨洛蒙和始祖鸟都属于亚玛芬集团,2019 年亚玛芬被安踏收购;2021 年以后,萨洛蒙这个 70 多岁的法国品牌,意外在中国开启了增长之路。 这个最早从滑雪品类起步,逐步扩展到越野跑鞋的小众品牌,在中国的传统消费群体以男性以及专业滑雪、越野跑爱好者为主;但近几年,他们通过在小红书的一系列品牌行为,成功吸引女性消费群体和新户外人群,扩圈增长,而这又进一步反向刺激了男性消费者以及核心运动人群的增长。 希望这些新鲜的品牌知识,也能给你带来新的启发:) 02:00 两位嘉宾的自我介绍 03:06 萨洛蒙 1947 年诞生于法国,雪是 DNA 里最深的那道烙印 04:39 我们曾经被阿迪达斯收购,阿迪达斯帮我们做了 sports style 06:04 越野跑核心人群,十年前只有 10 万人,今年也是 10 万人,区别是什么? 11:52 品牌应该从小众走向大众,还是从大众走向小众? 16:22 2019 年母公司亚玛芬被安踏收购后,萨洛蒙发生了什么? 18:07 中国女性占比最高接近七成,现在是六成不到 20:45 女性对男性的拉新高于男性对女性的拉新 23:21 2021 年以后,越来越多海外户外品牌主动地集中进入中国 27:31 小红书帮萨洛蒙拓展人群:“尖货尝新档”和“色彩敏感控” 34:55 以人为主体的品牌策略:找到“超级用户代表” 43:26 10 年前我们做品牌会更注重 the winning moments,现在更注重成长的过程和细节 45:37 萨门少女背后的消费者洞察:女性不再追求仪式感的堆叠,更追求内心的松弛 48:36 结合小红书和安福路萨洛蒙门店,线上和线下循环流量 55:24 萨洛蒙拉新女性消费者,又反哺了男性消费者的增长 58:16 如果一个非常男性化的品牌想要女性化,应该怎么做? 01:00:43 潮流化会不会削弱专业户外基因? 01:01:33 年轻人消费新变化 01:08:05 当做 AI 品牌也像做消费品品牌,从品牌角度给 AI 创始人一些建议 分享一下漂亮的录制现场:

  • 2025-08-27 / 01:41:13

    今天的嘉宾是月之暗面创始人兼 CEO 杨植麟,距离他上一次来我们的节目(《商业访谈录》59 集)已经过去 1 年半。 就在刚刚过去的 7 月,Kimi K2 模型发布,引发了比较广泛的关注。K2 是一个基于 MoE 架构的开源编程和 Agentic 大语言模型。形象来说,模型借助编程能力走出封闭的“缸中之脑”,长出了“手”,开始操控外部数字世界。 今天这集节目我和杨植麟聊了聊 K2 的研发和他当下的技术认知、技术判断。 以及,在过去一年的舆论风暴与创业起伏中,作为创始人,他的心情与思考。 01:49 一座无限的山这有点像我最近在看的一本书:The Beginning of Infinity(无穷的开始) 也许有一天会发现,这座雪山没有尽头,我希望它一直没有尽头 但它还是一个“缸中之脑”:想象一个鱼缸,你把一个脑子放在里面,跟外界没有联系 不管是基于长思考的强化学习,还是 Agent 的强化学习,都指向同一个东西:test-time scaling(测试时扩展) 还有一个很有意思的趋势是,现在有更多模型公司去做“一方的 Agent 产品” L1 到 L5 不一定是串行关系,Claude 就 bet 这一点:它在 Reasoning 上做得不是特别多,但在 Agent 上做得非常好 只有当模型参与到开发过程,才能解锁真正的 Innovator(L4)阶段 24:58 K2 是乔戈里峰 K2 的重点有几个:一,我们希望它是一个非常好的基础模型 我们希望能最大化使用每一份数据,就是所谓 token efficiency——喂一样多的数据,“脑子”长得更多 我们会对数据做很多 Rephrase(改写)操作 我们很关注 Muon 优化器,它对 token efficiency 提升很大 二,我们希望 K2 有好的 Agentic 能力,对于 Agentic 模型来讲,最大挑战是模型的泛化 它可能是一个从“缸中之脑”变成可以跟世界交互,因为所谓 Agent 最重要的特征是,可以多轮地使用工具 人是所谓的 universal constructor(万能构造器) 有一种潜在思路,需要用更 AI native(原生人工智能)的方式去训练 AI Muon 你去训的时候,它会炸 54:08 既简单又复杂的系统为什么 Kimi 从闭源转向开源? 模型训练完成,产品也基本完成了,做交互上的改进当然有价值,但那是锦上添花的一步 多模态不损伤“脑子”已经很好了 你可能学出来的多模态是个“傻的多模态”,我们希望它是个“聪明的多模态” Scaling Law 遇到数据墙了,这是客观事实 数据飞轮很依赖外部环境的 feedback(反馈),我们不希望 feedback 有很多噪声,但现在没有把这个问题解决得非常好 现在看起来,基于 FLOPs 的 scaling 是更有效路径,但这个平衡什么时候会发生变化? 很多 Long Context 架构会影响“智商” 纯粹的 Linear Attention(线性注意力机制)可能影响智商,因为这个架构会有一些 bias(偏差) 基座模型公司和做 Agent 产品的应用公司,长期看边界在哪? 今天怎么思考商业模式?API 是好生意吗? Kimi 能赚钱吗? 01:25:05 在自己的故事里面 Tim(周昕宇)天天跟我讲——要用 RL 的方式去管理,而不是用 SFT 用 RL 管理团队最大问题是,你容易被 hack 很多复杂性都是人为强行加上去的,实际并没有那么复杂 只能说是在自己的这个故事里面——你不断地感受自己到底是什么样的一个人,你为什么要做这个事情 这个问题我也问过 Kimi,他说,AI 是“人类文明的放大器” 这也是 Kimi 跟我讲的——任何中间状态都有可能成为被批评的对象 肯定有恐惧,更多要关注你当前这一步,能做什么?——想这个问题更重要 2024 年对杨植麟的访谈: 《和杨植麟聊大模型创业这一年:人类理想的增量、有概率的非共识和 Sora》 【更多信息】 文字和视频版同步上线 文字版请前往公众号:语言即世界 language is world 视频版请前往 Bilibili:张小珺商业访谈录

  • 2025-08-18 / 01:09:11

    在大家的强烈催更下,新一集的《全球大模型季报》终于来了。 这一集有两个关键词。 第一个关键词是分化。硅谷各个模型公司在这个季度,开始分化到各个领域,除了 Google Gemini 和 OpenAI 还在做通用的模型;Anthropic 分化到 Coding、Agentic 的模型能力;Mira 的 Thinking Machines 分化到多模态和下一代交互。 第二个关键词是产品。《大模型季报》过去一直把视角放在模型的智能探索上,而广密开始浓墨重彩地聊产品,这还是第一次。 这里是《全球大模型季报》的第 7 集,如果大家喜欢我们的系列,希望大家多多给我们一些鼓励和支持。你们的夸奖对我们来说,非常的重要。 2025,期待我们和 AI 共同进步! 03:54 模型在分化 通用各项能力的模型 - Gemini/OpenAI All in Coding+Agentic 能力 - Anthropic 多模态原生 - Thinking Machines Lab Grok 今天还在摸索自己生态位置 Meta 原创 0-1 的基因还是很弱 最领先的这几家很像 F1 竞赛 21:37 横向全家桶,纵向垂直整合 C 端是一个非常明显的头部收敛趋势,ChatGPT 可能在 C 端会收敛掉很多产品 作为投资人或 AI 创业者,一面兴奋是技术每个月都在进步,另一面有点绝望 横向全家桶的例子是 ChatGPT,已经包含了 Chat+搜索+Coding+Agent+WorkSpace 纵向垂直整合的例子是 Gemini,从 TPU 芯片,到 Gemini 模型,到上面 Agent 应用,再到 Google 文档/Chrome 浏览器/安卓操作系统/YouTube 视频,可以做超级集成 33:35 智能和产品都重要 过去 3 年一直是对智能上限的探索极度上头,但在过去两个月开始重视产品了 ChatGPT 身上有很多非技术性壁垒,而 Coding 或模型公司只是技术壁垒 OpenAI 是平衡最好的一家,一边探索智能上限,一边又把智能红利转化成产品流量和品牌心智 38:52 做 AI 产品很像挖矿,保鲜窗口很关键 挖矿:第一个做出来让用户惊叹的体验很重要,哪怕 token 消耗很大,只要你是第一个做出来让用户惊叹的 Magic moments,就等于你起码得到了 5 亿美金的营销费用,比如 Perplexity/Cursor/Manus 但这个窗口期又特别有意思,窗口是逐渐在缩短的:从 2 年、1 年、3 个月 产品公司能赢过模型公司做的产品吗? 44:21 L4 级别的体验 最优秀的俩 Agent 都有了 L4 体验:ChatGPT 的 Deep Research + Anthropic 的 Claude Code,分别对应信息搜索+软件开发 今天最大红利还是 language/code 红利,尤其是 code,还不是多模态/世界模型/机器人 Claude Code 最近大杀四方,Claude Code 是一个 L4 的体验 接下来还有哪些领域能有 L4 级别体验? 52:43 对 Google 看法的转变 一个猜想是,ChatGPT 后面肯定会做广告平台,因为最近招了新的商业化 CEO 但我在想 Google 还是全球最好的广告平台,最后大家产品形态上都会殊途同归,融合到一起的,就是全家桶逻辑,Search 也会演变 55:53 其他话题 AGI 有泡沫吗?假如 AGI 有泡沫,什么事情会是导火索,戳破泡沫? 人类和大猩猩的智能水平差异在哪? 最近湾区有没有什么新的讨论比较高的话题? “犹太人的金融,华人的 AGI” (免责声明:本节目不构成投资建议) 【全球大模型季报】系列 2023 年:口述全球大模型这一年:人类千亿科学豪赌与参差的中美景观 2024 年 Q1:和广密聊 AGI 大基建时代:电+芯片=产出智能 2024 年 Q2:口述全球大模型这半年:Perplexity 突然火爆和尚未爆发的 AI 应用生态 2024 年 Q3:AGI 范式大转移:和广密预言草莓、OpenAI o1 和 self-play RL 2024 年 Q4:大模型季报年终特辑:和广密预言 LLM 产品超越 Google 之路 2025 年 Q1:大模型季报:和广密聊当下最大非共识、AGI 的主线与主峰

00:00
00:00 / 00:00
未播放