张小珺 Jùn｜商业访谈录

和你一起，从这里，探索新世界！《张小珺商业访谈录》是一档深度访谈节目，以 2 至 7 小时的长对话为形式，聚焦真实的人物表达与高密度的前沿信息。由语言即世界工作室出品。主持人张小珺是财经媒体人，专注中国科技业深度报道，覆盖 AI、科技巨头、风险投资与知名人物。曾 13 次获得国内外新闻奖项，其中 2022 年至 2024 年连续三届获得亚洲卓越新闻奖（SOPA）——被称为“亚洲普利策”。她也是语言即世界工作室的创始人。 “如果我的访谈能陪你走一段孤独的未知的路，也许有一天可以离目的地更近一点，我就很温暖。”——张小珺

分集

2025-12-16 / 01:24:26

125. Freda 的投资札记第 1 集：下注 OpenAI、Robinhood 往事，美国资本坏小孩、算盘与泡沫

在年终对话系列【站在 2025 年之外】的前两集节目中：朱啸虎提出“三年不会有泡沫”，“泡沫论调纯属无稽之谈”；戴雨森则预测，2026 年是“Year of R”，将会是一个现实回归之年。今天推出的是系列第三集节目，嘉宾来自一线的硅谷视角。 1 个多月前，在 2025 年 11 月初，Sam Altman 上了一档由美国基金 Altimeter Capital 创始人主持的播客节目，在主持人连续追问 OpenAI 如何为 1.4 万亿美元级别算力与基础设施承诺买单时，Sam 称：“If you want to sell your shares, I’ll find you a buyer. Enough.”（“如果你想卖掉你的股份，我可以帮你找到买家。够了。”）——随后，AI 板块整体出现波动，关于 AI 是否存在泡沫的讨论进一步升温。我们今天的嘉宾 Freda Duan 就来自这个名叫 Altimeter Capital 的基金，她担任合伙人。 Altimeter 是一个硅谷科技基金，横跨一二级。在一级市场投资案例有 OpenAI、Anthropic、字节跳动等，在二级市场投资案例有 NVIDIA、Snowflake、Robinhood 等。这集节目，Freda 将深入分析美国这些明星公司，给他们的巨额投入算算账；她也从一线硅谷投资人的视角聊聊，美国资本的新秩序，他们眼中的坏小孩、反叛者、刺猬型和哪吒型创始人，以及泡沫。 2025 年，让我们和 AI 共同进步！（录制于 2025 年 11 月） 03:30 Freda 的自我介绍 04:41 2020-2025 每一年的硅谷关键词 08:12 今天美股投资三条主线：AI + Re-industrilization（再工业化） + Digitization of Finance（金融产业创新），三条主线非常有意思，因为中间有很多联系 10:20 美国投资人怎么看待中国市场？ 10:59 投资 OpenAI 12:14 给 OpenAI 的商业模式算算账（对比 Netflix） 16:45 OpenAI 的收入四个支柱 20:49 OpenAI 的竞争 23:32 Google 的变化 26:27 OpenAI 的投资回报和 IPO 28:25 投资 Anthropic 31:25 Neo labs 32:31 投资 Robinhood 40:29 硅谷资本喜欢乖小孩还是坏小孩？ 44:26 发现新物种（market prediction） 46:07 自动驾驶和机器人 55:25 “一级靠共识，二级靠非共识” 57:13 美国不同基金看人的 taste：刺猬型、反叛者、哪吒型创始人 58:22 美国基金整体变化：更集中仓位下重注 01:03:43 复盘硅谷 2025 年最重点方向 01:09:51 这些 AI 公司的巨额收入从谁的口袋里来？ 01:14:11 巨额 AI 投资的投入产出比 01:15:04 我们在 AI bubble 中吗？ 01:16:31 展望 2026 年年终对话【站在 2025 年之外】：《122. 朱啸虎现实主义故事的第三次连载：人工智能的盛筵与泡泡》《124. 和戴雨森聊 2026 年预期、The Year of R、回调、我们如何下注》【更多信息】免责声明：本内容不作为投资建议。

查看详情
2025-12-13 / 03:23:03

124. 雨森的创投观察第 1 集：2026 年预期、The Year of R、回调、我们如何下注

不知不觉，我们来到了 2025 年的最后一个月，在北京的初雪之中，我们希望和大家一起做一个回顾与展望系列：【站在 2025 年之外】。今天的嘉宾是真格基金管理合伙人戴雨森。在 122 集节目中，朱啸虎声称，三年之内不会有泡沫，泡沫论调纯属无稽之谈，创业者 2026 年当全速前进。雨森今天带来全新的看法。在他看来，2026 年的关键词是“The Year of R”——回报与研究会再次变得重要。某种意义上，2026 年将是一个现实与回调之年。 02:00 复盘 2025 年 02:00 从模型侧看进展： o1 为代表的 Thinking Time Scaling 带来模型能力大幅提升 OpenAI、Anthropic、Google 三家的旗舰模型追赶很紧，又各有特点，预期和叙事轮动中国模型公司一年下来 dominate 开源生态 28:13 从应用侧看进展：模型能力带来应用大爆发应用是有护城河的，开始看到复杂应用在 context、environment 等层面产生壁垒模型公司不能没有产品，大家都下场做最重要的第一方应用中国 AI 应用出海表现不错 52:31 2025 年真格出手了多少项目？20 个左右对比中美 AI 公司估值，中国公司对于全球来说有很高期权价值： Thinking Machines 天使轮估值在没有产品的情况下已是中国 AI 公司估值总和模型公司：Mistral 14b，Kimi 4b，Mistral 自己都不怎么做 Pre-train 了，benchmark 也就是和 Kimi 对标应用公司：在美国 Manus 这样一家几个月做到 100m ARR，几十个点 gross margin，MoM20%增长的公司应该是 3-5bn 01:03:15 预测 2026 年：The Year of R The Year of R：Return、Research、Remember、多模态 Reasoning 01:03:15 Return：为什么 Return 很重要？ ROI，过去 3 年交易的是 investment，因为大家被潜在的大 return 吸引，但现在随着 I 越来越大，大家对 R 的落地越来越关注，因为有 R 才能推动未来的 I 为什么我们认为 2026 年大家会加大对 return 的关注？模型：模型能力进步是这一波 AI 革命最本质的驱动力，但模型的能力进步正在放缓；美国头部 labs 的投入（Capex，人工等）大了很多，但无法阻止中国模型低成本跟进，Scaling Law 不能简单理解成为投入大力出奇迹应用：AI 应用的叙事从无所不能威胁人类的 AGI 收敛到现在的三种主要商业模式，是从梦想回归现实的过程订阅制是 OpenAI 现在的核心商业模式：超过 5 亿 DAU 后，全球知识工作者低垂的果实已摘得差不多了，面临 Gemini 等的激烈竞争，针对普通用户再提价会比较难被寄予厚望的广告 + 电商：首先其中大部分是分 Meta、Google、字节的存量蛋糕，对于 Chatbot 这样新形态的应用，探索广告和电商变现的速度不会很快广告 + 电商：首先大量是存量分蛋糕，然后对于新形态的应用，速度没那么快 AI Coding/图片视频生成等“基于用量付费”的生产力产品：Token 用量会持续增长，但 Token 价格也在持续下降，用户只会为 SOTA 的智能按用量付费；原来值钱的任务会很快变得不值钱，所以 AI 替代了很多程序员，并不意味着 AI 能长期赚到这些程序员的工资 AI+行业的企业服务：这部分首先还在早期市场，规模有限，尝鲜的企业多，长期留存未必好，一个例子是微软 Copilot 的发展持续低于预期，大公司有数据安全、权限、隐私、工作流再造等一系列阻碍，使用新技术的速度比小公司和个人要慢不少结论：需要实现 Satya 说的 GDP 加速增长，把蛋糕做大才是真正的 AGI，比如说 AI 创造新的药物，发现新的知识，真正解放人类注意力等投入：现在美国基础设施建设慢，算力贬值快，人员工资高，巨额投入需要尽快看到回报 2025 年底二级市场的预期也和 2024 年底完全不一样：去年底是市场预期不高，但我们看到 ChatGPT 增速很快，Coding、Agentic 模型提升的确定性带来应用机会；现在是投入很大预期很高，但短期模型端看不到革命性的新能力，新的范式变化还在萌芽期对创业者的启示？负毛利烧钱一味追求增长的逻辑正在过去，需要有增长和毛利率并重的高质量增长。尤其是在美国非常宽松的融资环境可能会放缓，中美创投市场的价格鸿沟将会缩短 01:16:13 Research： new paradigm：AI 历史上都是阶跃提高，需要有新的 paradigm 从新带来 AI 能力的大增长，Ilya：scaling 和 research 是交替的，现在又到了 research 的时候目前看 Online Learning、世界模型等都是重要的研究方向 neo labs：Thinking machines, SSI, Reflection, 到近期的 Humans&，Periodic，Isara 等）因为做工程和产品和做研究是很不一样的，需要有宽松的环境，自由探索的文化，不设时间和 KPI 限制，大家希望 neo labs 能够探索和现在头部模型公司有差异化的新路径 new benchmark：现在的 benchmark 已经不能很好体现 AI 能力的区别，也不利于作为模型训练的目标，如何衡量一个在大多数领域超过人类表现的模型？姚顺雨指出的下半场已到，需要新的 benchmark 对创业者的启示：要关注前沿研究的进展，研究的突破可能会解锁新的应用机会 01:21:00 Remember（Memory）： Memory 是 AI 应用关键的差异化，现在的 Memory 能力已经对 ChatGPT 留存产生了很大的提高现在的 Memory 基本上还是基于 retrieval 的，没有做到真正的理解，这部分也是研究的兵家必争之地，如果做好会带来进一步的提高 Proactive Agent：有 memory 和 context 才能解锁 Proactive Agent 的机会，而 Proactive Agent 非常重要，因为人主动去用 AI 意图有限，AI 主动为人服务才能有 10x 的场景机会 01:24:06 多模态： Visual Reasoning 可能会有大的突破，人本质上是 Pixel Machine，通过视觉输入理解世界，可以关注 Zerobench 这个 Visual Reasoning Benchmark 的表现提升，现在头部模型基本上还是不到 10 分 Nano Nanana 意味着图片生成进入到 Sonnet 3.5 这样的可用时代，那么 Cursor of Image-gen 会是什么？ GPT-3.5 解锁了 ChatGPT，Sonnet 3.5 解锁了 Cursor，Sonnet 3.7 解锁了 Manus，Nano Nanana/Veo 会解锁什么应用的机会？在 ChatGPT 里面用 Imagegen/Videogen 显然不是很舒服的体验语音是很重要的机会，更好更自然的交互，理解用户的 Context，Plaud，Granola，Wispr flow/Typeless，Suno？ 01:30:29 AI Bubble 从二级市场来讲，明年有可能出现大的回调，时间点可能是下半年《Boom: Bubbles and the End of Stagnation》书中提到了两种泡沫：好的泡沫和坏的泡沫如果预期是回调，明年的投资策略变化是什么？二级会如何传导到一级？怎么看朱啸虎说：“至少三年内看不到泡沫”、“他们的论点是无稽之谈”？ “我个人现在是全部空仓的” 中美的估值差距预期会缩短 01:47:38 创业端变化和建议基于 Year of R 的理论，对创业者的建议？ AI 时代怎么判断创始人？和互联网时代最大不同是什么？创业像 F1 赛车这两年 miss 什么项目没？有哪些方向是因为 AI 出现带来增量的？ Chatbot 之外不错的交互是什么？今年个人聊了 150 个项目，只投了 2 个 02:18:31 也谈谈人生对个人的思考：今年的读书、思考与人生对 VC 的思考：年轻的投资人要差异化对普通人的思考：学会在一个智能充沛的世界里生活 02:29:50 最后的快问快答最后一个问题：你提出 Year of R，你也清空了二级市场股票，那么你会做空吗？ 02:36:10 在这集节目的结束，我又放了一段和雨森在录节目之前的一场闲谈，比较随意。我们点评了一下那些时常会被议论起的 AI 公司。如果你觉得有意思，也可以继续听下去 02:36:30 OpenAI 02:46:38 Google（我并不觉得 Genimi 能阻止 ChatGPT 的增长，不觉得 Google 已经脱离危险） 03:06:36 Anthropic 03:11:05 Manus 03:19:47 Thinking Machines Lab、Safe Superintelligence Inc. 年终对话【站在 2025 年之外】：《122. 朱啸虎现实主义故事的第三次连载：人工智能的盛筵与泡泡》【更多信息】免责声明：本内容不作为投资建议。

查看详情
2025-12-12 / 03:42:54

123. 对 ONE2X 创始人王冠 3 小时访谈：生成系统、没有中间商赚差价、内容平台的权力分配

今天的嘉宾是一位创业者，ONE2X 联合创始人兼 CEO 王冠，他们现在的产品是 AI 视频生成器 Medeo。王冠是一名产品经理型的创业者，我和他认识了很长时间，那时他刚从 Kimi 离职出来创业，此前他是 Kimi 模型产品负责人。（哦对了，上一个 Kimi 产品离职来我们节目的是明超平。）除了 AI 时代应用型公司怎么做产品、搭组织之外，由于我也是一名内容创作者，所以我也很好奇地与他讨论了许多关于新时代的内容平台，生成系统，AI、创作者与平台权力分配的话题。 2025 年，期待我们和 AI 共同进步！ 02:00 自我介绍、产品经理的经历和创业的开端 28:39 第一次听说“压缩即智能”，大为震撼 32:25 从月之暗面第一个离职创业的人 37:11 数据是智能的第一性原理，数据决定的智能的边界 42:23 数据三个阶段：公域数据>领域数据>产品内生数据 01:05:36 为什么选择视频生成方向？ 01:26:15 AI 如何重塑现有互联网格局？ 01:30:50 广义 AGI vs 狭义 AGI 01:41:59 应用公司与模型公司的边界会变得模糊 02:01:44 AI 时代的公司最终都是生成系统公司 02:25:49 权力重心向消费者端渗透，平台和创作者会如何演变？ 02:38:11 生成系统和推荐系统的本质区别是？“没有中间商赚差价” 02:50:34 应该怎么做 AI 产品？北极星指标是智慧程度 03:05:45 一个远程办公的组织 03:20:18 未来的平台会从分销平台到产销平台我们对 AI 应用型公司的过往访谈：《95. 对 Manus 创始人肖弘的 3 小时访谈：世界不是线性外推，做博弈中的重要变量》《103. Lovart 创始人陈冕复盘应用创业这两年：这一刻就是好爽啊！！哈哈哈哈哈》《101. 对 YouWare 创始人明超平 3 小时访谈：今天 Agent 像大猩猩刚拿起一根烧火棍》本集中提到的其他节目：《59. 和杨植麟聊大模型创业这一年：人类理想的增量、有概率的非共识和 Sora》《113. 和杨植麟时隔 1 年的对话：K2、Agentic LLM、缸中之脑和“站在无限的开端”》《115. 对 OpenAI 姚顺雨 3 小时访谈：6 年 Agent 研究、人与系统、吞噬的边界、既单极又多元的世界》

查看详情
2025-12-09 / 00:48:00

122. 朱啸虎现实主义故事的第三次连载：人工智能的盛筵与泡泡

2024 年 3 月、2025 年 2 月，我曾两次更新朱啸虎的中国现实主义 AIGC 故事，现在又过去了快 1 年时间。站在 2025 年的尾巴上，AI 产业有泡沫吗？泡沫会破吗？投资人对 2026 年的预期乐观吗？现在还是投资英伟达、OpenAI 的好时候吗？——这里是朱啸虎现实主义故事的第三次连载。 2025 年的最后一个月，还想和大家说那句：期待我们和 AI 共同进步！ 01:40 越来越现实的 OpenAI：你看 Sam Altman 就知道了，今年几乎不太提 AGI 了，对吧？ 05:46 AI 的超级入口之争：必然的就是超级入口之争，而且是日活之争、时长之争 08:34 三年内看不到泡沫：他们讲的这些论点，我觉得都是无稽之谈 13:24 你持有英伟达、OpenAI 吗？ 16:16 大家低估了 DeepSeek：如果没有 DeepSeek，可能人类的 AI 是被几个私有公司控制的 19:06 和共识错开 15 度，那性价比一下子拉出来了，是吧？ 24:41 离开大厂三条马路，离开大厂三条马路，对吧？ 30:21 大家知道，我投不投都是十分钟 38:30 今天的 VC 共识太集中了：每个项目上都是 Club Deal（俱乐部交易），每个股份比例都很小，那怎么赚钱？——GP 赚不了大钱，LP 也很不开心 40:50 手机游戏打个《王者荣耀》，单独抽半小时、二十分钟就够了《62. 你们要的朱啸虎，来了》《90. 朱啸虎又来了：中国现实主义 AIGC 故事的 1 周年连载》【更多信息】本集由语言即世界工作室与微博财经联合呈现。免责声明：本内容不作为投资建议。

查看详情
2025-11-28 / 02:06:15

121. 对 DeepMind 谭捷的访谈：机器人、跨本体、世界模型、Gemini Robotics 1.5 和 Google

今天的嘉宾是 Google DeepMind 机器人团队的高级研究科学家兼技术负责人谭捷，他的研究方向是将基础模型和深度强化学习方法应用于机器人领域。中美在机器人领域一直存在两种叙事：市场普遍认为，中国在硬件上发展更快，美国在机器人大脑设计上更领先。本期节目中，谭捷将带我们一窥硅谷视角，尤其是 Google DeepMind 视角下的机器人前沿叙事。前不久，他们刚发布了新工作 “Gemini Robotics 1.5 brings AI agents into the physical world”（Gemini Robotics 1.5 将 AI Agents 带入物理世界），我们也聊了聊他们的最新发现。由于嘉宾工作环境的原因，会出现一定程度的中英夹杂，还大家多多包容和支持。 02:00 机器人是在真实世界里做图形学，图形学是在 simulation 里做机器人嘉宾小传：小时候喜欢打游戏，读博士读的计算机图形学从图形学转型机器人的变轨我在 Google 的第一篇论文《Sim-to-Real: Learning Agile Locomotion For Quadruped Robots》（从仿真到现实：学习四足机器人敏捷运动），开创了强化学习和 seem to real 在足式机器人上的应用 Paradigm Shift，过去十年第一个是强化学习，第二个是大语言模型大语言模型对机器人的影响（大语言模型类似大脑，强化学习类似小脑） 13:06 机器人基座大模型到底是不是一个非常独立的学科？So far, not yet 今天的机器人发展到什么阶段了？从 demo 到真正落地，隔十年并不是一个非常夸张的事从我的角度来说，我不得不承认，最近几年的机器人智能发展主要还是依赖于多模态大模型但多模态模型缺什么呢？缺少 robot action 的输出当你真正有一个 generalist model（通用模型）的时候，specialized model（专有模型）就完全不能与之竞争 23:44 Robotics 最大问题是数据，它在一个非常复杂的 unstructured environment 里，可以发生任何事情最大的问题还是数据问题但是 robotics 是在一个非常复杂的 unstructured environment（非结构化环境）里，可以发生任何事情它需要极大量的、非常 diverse（多元）的数据，但这些数据现在是不存在的现在有很多 startup 叫 data factory（数据工厂）所谓“数据金字塔”包括哪些？ 27:52 Gemini Robotics 1.5：我们有一个方法叫 motion transfer，这是独门秘诀 Gemini Robotics 1.5 最重要的发现是什么？第一个是我们把“thinking”加入了 VLA 模型第二个非常重要的突破是 cross-embodiment transfer（跨具身迁移） Gemini Robotics 1.5 的工作中，我们做了一个快慢模型的划分它应该是个过渡的方式，因为现在受制于算力的限制、模型大小的限制当你要一个 unify model（统一模型）的时候，它必须非常大 Motion Transfer？It’s very secret 47:32 生成极大量仿真数据，是弥补它缺点的一个重要手段我们比较重视的一点还是数据、数据、数据遥操作是非常难以获取的数据我们会花更多的精力，比如利用 simulation 数据，利用 human video（人类视频），利用 YouTube 上的一些数据，甚至利用模型生成的数据，比如 VEO 生成的一些数据真实数据没有 sim-to-real gap（仿真到现实差距），但是泛化性是由数据的 coverage（覆盖）导致的，并不是因为它本身是真实数据还是虚拟数据在不远的将来，传统物理模拟仿真会慢慢地被生成式模型的仿真所取代我信仰的是 scalable data 01:03:48 世界模型就是 Vision-Language-Vision，vision 和 language in，生成下一帧的图像世界模型的定义是：如果给上前一帧，再给上机器人的动作，你可以预测下一帧从另外一个角度，VEO 它是一个视频生成模型，但是 Genie 它更像一个世界模型当你在每一帧的时候，可以有一个输入来改变你的下一帧，那个感觉就是世界模型；但是如果它是一个已经生成好的、几秒钟的静态视频，那就不是世界模型其实就是 Vision-Language-Vision，vision 和 language in，它可以生成下一帧的图像 01:08:29 如果你有灵巧手，触觉就非常重要，之所以我前面觉得触觉不重要，是受限于当时的硬件如果你有灵巧手，触觉就非常重要之所以我前面觉得触觉不重要，是因为它其实受限于当时的硬件现在还在夹爪时代在所有夹爪能完成的任务里，我还是觉得视觉可能可以解决 95%的问题在未来，人形机器人不会成为唯一的形态，但一定是个主流的形态如果你的目标是 solve AGI in the physical world（在物理世界实现 AGI），那么我会非常聚焦于最终的形态是什么样子，其他的东西可能都是 distraction（干扰） 01:17:35 一个有使命感的人，他不会容忍说“I’m on a wrong ship”这几年 Google AI 或者 robotics 的研究文化上有没有发生过变化？不管是从 promotion、performance review、incentive，还是各种各样的 structure 上，Google 想创造一个环境，使得更多的人可以一起解决更大的事情像 Gemini Robotics，它更多是自上而下我发觉好像国内不一定比我卷，我一周可能工作 70 到 80 个小时真的，这个时代真的是等不起，不然别人都做出来了 AI 有很多是数学，华人数学比较好《106. 和王鹤聊，具身智能的学术边缘史和资本轰炸后的人为乱象》《109. 机器人遭遇数据荒？与谢晨聊：仿真与合成数据、Meta 天价收购和 Alexandr Wang》【更多信息】本集的文字版本已发布，请搜索我们工作室的官方公众号：语言即世界 language is world

查看详情
2025-11-18 / 01:48:45

120. 小鹏新上任的刘先明首次访谈：Language 是毒药、拆掉 L、简单即美、换帅、小鹏的 AI 转型

今天的嘉宾是小鹏汽车自动驾驶中心负责人刘先明。就在 2025 年 10 月 9 日，小鹏汽车突然宣布，原自动驾驶中心负责人李力耘将卸任，由世界基座模型负责人刘先明接任。这意味着，刘先明成为小鹏在自动驾驶上，既谷俊丽、吴新宙（现英伟达自动驾驶中国团队负责人）、李力耘之后的第四任负责人。外界对他有诸多的好奇。这是刘先明上任后首次接受专访。我们访谈的时间是 2025 年 10 月 30 日。这集节目，我们聊了聊他上任后拆掉大模型 Language 等关键技术决策，以及一家车企的 AI 战略转型。 02:16 人物小记曾在 Meta、Cruise，从事机器学习与计算机视觉研究恰好 Cruise 当时是第二名，加入第二名再逆袭的故事永远是令人兴奋的加入小鹏汽车始末：2024 年 1 月在美国办公室与何小鹏见面 1 小时所亲历过的自动驾驶的技术 stage 19:00 大模型拆 Language 我们的做法简单直接，把 VLA 的 Language 拆掉就完了模型是机器，燃料是数据，一旦掺入 Language 会让效率变得极低我们干脆把 Language 全都拆掉好了：输入 V-L 联合语料，直接输出 Action “拆 L”的过程、“简单就是美” 关键的数据问题 33:53 小鹏汽车向物理 AI 战略的转型为什么一家汽车公司的自动驾驶战略需要向 AI 战略转型？转型的开端可能是去年小鹏汽车 10 周年自动驾驶企业关心的是 KPI、接管率，AI 企业关注底层的技术指标，甚至 risky 的长期指标刘先明的短期和长期 KPI AI 对于小鹏汽车意味着什么？“是乘法因子” 除了今年拆 Language，之前还拆了激光雷达、规控规则、端到端人工智能发展为什么一直在经历着拆拆拆的过程？世界模型明年对 L4 的规划 54:30 换帅的背后过去 1 年做过“头铁”的事情看起来我性格很好，我也拍过桌子、发过火 “拆 L”过程中遇到很大阻力，因为这很反 paper 里的常识 DeepSeek-OCR 的反共识现在关注的 AI 前沿方向回应地平线创始人余凯的观点（“自动驾驶应该交给供应商”）为什么国内自动驾驶还没有代际差？ AI 是车企下一阶段的重要赛点，做不好会被淘汰何小鹏对于 AI 的关注时间、方式和最近的 3 次话题制造企业和 AI 企业的基因问题接下来，对于我的挑战小鹏智驾一号位，每个人的历史使命《70. 和何小鹏聊，FSD、“在血海游泳”、乱世中的英雄与狗熊》

查看详情
2025-11-03 / 01:43:25

119. Kimi Linear、Minimax M2？和杨松琳考古算法变种史，并预演未来架构改进方案

今天这集节目，我们将讨论一个在当下非常关键的话题：人工智能的算法与架构创新。嘉宾是我们的往期嘉宾返场，她是 MIT 在读博士杨松琳，研究方向是线性注意力机制。我们将从最新发布的几个模型 Kimi Linear、Minimax M2、Qwen3-Next 切入。松琳参与讨论 Kimi Linear 和 Qwen3-Next 的部分工作，是 Kimi Linear 论文的作者之一。算法创新为什么在 2025 年变得尤为重要？它的背后原因是，数据、算力和算法是驱动人工智能的三驾火车，在数据撞墙的无奈前提下，各个模型公司不得不重新开始“雕模型架构”，以期 Scaling Law 的魔法继续。而由于中国的算力相对美国有限，这反而让中国的 AI 算法创新走在了世界前沿。这集节目你将听到，近几年架构最大突破是 DeepSeek 的 MoE（混合专家模型），它让 MoE 成为了全球共识；而下一个突破的重要方向可能就是 Attention（注意力机制）。中国公司在 Attention 展开了不同技术 bet（押注）：截至目前已发布模型，DeepSeek 正在探索 Sparse Attention（稀疏注意力机制）； Kimi 正在探索 Linear Attention（线性注意力机制）； Minimax 在年初的 M1 版本中探索 Linear Attention，而在刚发布的 M2 版本中又回退到 Full Attention（全局注意力机制）。节目中，松琳将讲解她参与的这篇《Kimi Linear: An Expressive, Efficient Attention Architecture》的工作，并分析以上这些公司在 Attention 上的不同抉择；与此同时，她也将带领大家考古人工智能算法变种史，并预演未来算法与架构的改进方案。本集比较硬核，会有一些专业难度，大家可以根据自己的实际需要收听嗷:)因为嘉宾的工作环境会出现中英夹杂，希望大家多多理解和支持。 04:00 个人、研究主线与线性注意力机制的探索之路 06:27 松琳做过一个开源库：flash-linear-attention（简称 FLA） 07:04 怎么通俗理解 Linear Attention 的 Linear？ 11:19 聊聊最近参与的新工作，前几天刚发布的《Kimi Linear: An Expressive, Efficient Attention Architecture》（Kimi Linear：一种具有强表达能力与高效率的注意力架构）（FLA 库的另一个作者 Zhang, Yu 邀请） 12:20 为什么 Kimi 在年初开始需要重新设计注意力机制？设计的背景和目标在 Linear Attention 下，推理阶段的计算与显存成本都显著降低；而使用 Full Attention 时，长文本解码的代价会非常高昂 14:39 《Kimi Linear》论文重点讲解：KDA 模块（Kimi Delta Attention，增量注意力机制） 18:56 Kimi 内部有一个 Scaling Ladder（规模阶梯），在一个规模下面表现好就在下一个规模下面去 scale，就像通关 20:20 Kimi Linear Attention vs DeepSeek Sparse Attention：Kimi 走线性注意力路线，DeepSeek 走稀疏注意力路线，都想解决长文本 decoding（长上下文生成）的效率问题 23:01 Minimax 从 M1 到 M2 的架构变化，从 Linear Attention 退回到 Full Attention，为什么？ 27:00 硅谷的注意力机制方案不方便说，但可以浅聊一下 OpenAI 有 paper 的方案 28:05 Linear Attention 从 2020 年发明出来开始后的前进线索每一次大家关心 Linear Attention 都是因为大家撞到了 Context Wall 最近长文本的 decoding 卷土重来，让人们不由自主审视这一套技术 38:16 纯 Linear Attention 是无效的，混合注意力机制还是有很多全局注意力层，这样下限有保证 40:30 Kimi Linear 每 3 层 KDA 插入 1 层全注意力层，三比一的比例快变成共识了 Minimax 之前用的是七比一，但现在大家逐渐回到三比一——这成为不共识的混合注意力机制中的共识了 42:32 权衡（Trade-off）表达能力（expressivity）与计算效率（efficiency） Minimax 曾经也提到，混合线性注意力/混合滑窗注意力在“多跳推理”上会有缺陷对于“多跳推理”，如果我们开发一些硬件高效但表达能力更好的 RNN（循环神经网络），这个 GAP 有可能缩小 46:28 chunkwise algorithm for parallelization（分块并行算法） 47:55 如何设计 Attention？两条主流和一些非主流路线 49:36 结合 Linear Attention 和 Sparse Attention 的未来理想方案 Linear Attention 和 Sparse Attention 没什么竞争关系，Linear Attention 的竞争对手可能是 Sliding-Window Attention（滑窗注意力）工业界 Linear Attention 和 Sparse Attention 结合的探索似乎还没开始我想象中的理想方案是：把混合注意力的全局注意力（Full Attention）换成稀疏注意力（Sparse Attention）只要 Sparse Attention 选得准，完全可以取代 Full Attention，但现在的问题是它选不准 55:36 公平的比较：Linear Attention vs Sliding-Window Attention（滑窗注意力） 57:05 Transformer → MoE → Linear/Sparse Attention 的算法演变，背后动因是给定你相同的 FLOPs（浮点运算量），利用这些 FLOPs，取得更低的损失函数 MoE（混合专家）是更高效的 FNN（前馈神经网络）的替代品 58:26 近几年架构方面突破最大的是 MoE，下一个突破可能是 Attention；Transformer 就两个模块，一个是 FFN，一个是 Attention；现在 FFN 已经雕成 MoE，现在 Attention 大家也可以雕一下 01:01:28 数据、算法、算力是驱动人工智能的三驾马车，当数据遇到数据强，算法创新变得更重要 01:02:48 架构的未来：1、能不能干掉全局注意力？它是阻止 context window 继续 scale up 的主要瓶颈 2、Continue Learning，让 AI 自己学习 01:04:30 如何把 Linear Attention 的 Transformer 继续 scale up? 01:07:43 中国 AI 的算法创新相比海外肯定是更强的——因为没有那么多卡（不过美国公司更多投入优化器一点，国内在逐步重视 01:10:56 其他训练细节：NoPE vs. RoPE 01:12:09 DeepSeek-OCR 01:12:55 松琳也参与了 Qwen3-Next，没有参与 Minimax M2 01:13:39 “雕”架构的人 01:15:16 自己的心路：“当你很清楚你要做什么的时候，你是不会遇到什么挫折的” 经验分享：PhD 还挺顺利的，得益于我入学之前的半年考古 01:23:12 说到考古，我们在最后聊聊从 Transformer 开始的算法变种历史 01:29:50 Delta Rule 算法、硬件亲和、DeepSeek 非常追求硬件和算法的匹配 01:42:23 给更年轻的年轻人的建议嘉宾往期节目：《逐篇讲解 DeepSeek、Kimi、MiniMax 注意力机制新论文——“硬件上的暴力美学”》谈到的论文：《Kimi Linear: An Expressive, Efficient Attention Architecture》《MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention》《DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models》

查看详情
2025-10-30 / 02:46:22

118. 对李想的第二次 3 小时访谈：CEO 大模型、MoE、梁文锋、VLA、能量、记忆、对抗人性、亲密关系、人类的智慧

2025 年 4 月，我与理想创始人兼 CEO 李想录制 AI Talk 第二季。那次对谈持续了很长时间，播出版仅 1 小时，今天你看到的是完整版。这一集节目的发布比预期晚了些。过去几个月实在太忙了，我一度犹豫要不要继续放出。但当我重新整理这些内容时，仍然被它打动——这是一份关于人工智能技术变革的“节点式思考存档”。你可以结合 2024 年底我们那场 3 小时谈话一起观看，感受两次对话之间，思考的延展与呼应。这次，我把李想当作一个“CEO 大模型”来提问。假设他是一种 MoE（Mixture of Experts，专家混合）架构的模型，我在对话的前三个回合调用了他的三位“专家”：技术专家、战略专家、组织专家。而当谈话深入到后半程，我们开始讨论人、能量、亲密关系、记忆程序与人类的智慧。 “AI 与人的关系”，是本次对话的母题。（录制于 2025 年 4 月） 02:35 第一章：假若你是一个 CEO 大模型人类做熵减，AI 做熵增工具的三个分级：“信息工具”、“辅助工具”、“生产工具” “生产工具”重要的衡量是：你愿意为它付钱梁文锋极简运用了人类最佳实践按照最佳实践是反人性的，随心所欲才满足人性我只能做最好的自己，我一直在自己的长板延长线上理想为什么还做基座大模型？当时我们比较担心陈伟团队（基座模型自研团队）怎么想？这个压力挺大的 36:18 第二章：调用 MoE 之技术专家李想手把手教你训 VLA 达到 VLA 不是突变的过程，是进化的过程，经历了三个阶段我给你讲一下 VLA 是怎么训的，以及 VLA 自己怎么去工作的我不会做超长 CoT，我的 CoT 链条一般两步到三步至少 5 年内不会有通用 Agent，但会有一个 Agent OS 要顺着人性去说，逆着人性去做如果大家不想做前面包子的积累，只想吃第 10 个包子，很像练《葵花宝典》黑盒、世界模型和定价逻辑每 1 万公里的验证成本，我们做到从最开始 18 万降到 4000 块钱 01:25:36 第三章：调用 MoE 之战略专家 2025 年雁栖湖战略会如果看战略，中间的圈是规模，圈外边有三个变量：用户需求、技术产品、组织能力具备这四个特点的，就是 AGI 时代的终端：360 度对物理世界感知的能力、认知决策的能力、Action 的能力、反思反馈能力到了 AGI 时代的终端，对于能力的要求变得不一样了如果看到 2030 年，我们希望能够成为全球领先的人工智能终端企业这是我们未来的 3-6 年要去解的题李想的理想会不会太过于理想？构建 3-7 人能量体高维组织兼容低维组织 02:09:26 第四章：智慧是我们和万物的关系我的记忆程序创业不容易，但是没必要苦哈哈的大女儿我们家里实现了一个“三人支撑”，这让家里的能量大幅地提升人是用来发挥的，人不是用来改变的不要构建那么多亲密关系，亲密关系太多了就证明这个人不会经营关系把智慧当成一个重要的人类特质去发展对李想的第一次 3 小时访谈：《对李想的 3 小时访谈（播客版）：宅男、AI、家庭、游戏和天梯》本集节目同步上线文字版和视频版：文章：公众号（语言即世界 language is world）视频：Bilibili（张小珺商业访谈录）

查看详情
2025-10-28 / 04:22:37

117. 开源一段论文探索之旅：模型范式、Infra 和数据、语言、多模态的完整变迁史

今天的嘉宾是谢青池，他是美团光年之外的产品负责人。一个月前，青池找到我，说他用了一年多的时间一篇一篇地啃完了 200 多篇 AI 论文，从开始全然不得要领，到后来逐渐地入门——而他希望将他的论文探索之旅开源给大家。就这样，我们有了今天这集特别的节目。他从 200 多篇论文中精选了 36 篇经典，4 小时讲解，带你穿越 AI 变迁史。他说，读论文是“给你打开一扇门”，让你能直接“与这个世界最聪明的头脑对话”。 2025 年，期待我们和 AI 共同进步！ 01:30 探索的缘起 07:25 怎么读论文？（用 AI 学 AI） 10:20 辅助小工具和路书论文讲解的主干： 19:35 Part 1：模型的范式变迁故事要从 1999 年的第一颗 GPU 开始讲起 Brook: 用 GPU 进行计算（2004.08） AlexNet: 深度学习的开端（2012.10）对序列建模：seq2seq 和 Attention 的引入（2014.09）蒸馏：模型能被学习吗？（2015.03） ResNet: 比深更深（2015.12） Transformer 来了！拉开一个时代的序幕（2017.06） AlphaGo Zero: 强化学习的突破（2017.10）现代 MoE 的开端（2017.01） CoT: Prompt Engineering 的奠基之作（2022.01） LoRA: 那个我们每天都在用的东西（2021.06） ReAct: Agent 从理论到落地（2022.10） The Bitter Lesson: 过去 70 年的教训（2018.08） 01:52:58 Part 2：Infra 与数据的变迁 ZeRO: 大规模的 GPU 并行计算（2019.10） Scaling Law & Chinchilla: 上帝的指挥棒（2020.01 2022.03） LAION-5B: 开源社区的英雄主义（2022.10） The RefinedWeb: 互联网的数据也很够用（2023.06） MegaScale: 万卡 GPU 集群的训练（2024.02） 02:21:29 Part 3：语言模型的发展 Word2Vec: 用机器学习将单词向量化（2013.01） Google Translate: 神经网络的大规模线上部署（2016.09） GPT-1，它来了（2018.06） BERT: 曾经的王（2018.10） GPT-2: 是时候告别微调了（2019.02） GPT-3: ChatGPT 来临前夜（2020.05） InstructGPT: 给 LLM 以文明（2022.03） Tulu 3: 后训练的开源（2024.11） 03:08:08 Part 4：多模态模型的发展 DeepVideo: 深度学习进入视频领域，Andrej 初出茅庐（2014.06）双流网络: Karén 和学术重镇牛津登场（2014.06）图像生成的序章: GAN 来了（2014.06） Diffusion: 在 GAN 的阴影下，悄然成长（2015.03） DDPM: Diffusion 重回图像舞台的中央（2020.06） ViT: 当图像遇到 Transformer（2020.10） CLIP: 文生图的奠基石（2021.03） Stable Diffusion，它来了（2021.12） DiT: 人们期待一个融合的未来（2022.12） 03:56:38 最后的聊天架构抱住了硬件的大腿今天技术的边界到达了哪？给“站在 AI 世界门外张望的人”和“已经在体系中工作多年的人”的建议【技术之美】系列：逐句讲解 DeepSeek-R1、Kimi K1.5、OpenAI o1 技术报告——“最优美的算法最干净” 逐篇讲解 DeepSeek 关键 9 篇论文及创新点——“勇敢者的游戏” 逐篇讲解 DeepSeek、Kimi、MiniMax 注意力机制新论文——“硬件上的暴力美学” 逐篇讲解机器人基座模型和 VLA 经典论文——“人就是最智能的 VLA” 逐段讲解 Kimi K2 报告并对照 ChatGPT Agent、Qwen3-Coder 等：“系统工程的力量” 【更多信息】本集的投屏视频版已经同步发布于 Bilibili（张小珺商业访谈录）：https://www.bilibili.com/video/BV1pkyqBxEdB/?spm_id_from=333.1365.list.card_archive.click&vd_source=aa7c66a3d015be4b5bfcd520784f2790 50 页完整 PPT 开源地址（所有论文链接附在 PPT 上）：https://w7py8ou4dk.feishu.cn/wiki/KacewdlmSiSGC9kUOKDch9gwnKf?from=from_copylink

查看详情
2025-10-09 / 03:47:45

116. 吴明辉口述 19 年史：漫长的沉浮、痛苦急转、企业级 Agentic Model、现实世界的数值游戏、IPO

今天的嘉宾吴明辉是明略科技的创始人、CEO 兼 CTO，明略科技于 2025 年 8 月 29 日获境外发行上市备案通知书，不久后将于香港上市。这是一次上市前的访谈，吴明辉口述一家 To B 公司漫长的 19 年故事，其间经历了好多次的分分合合、沉浮与急转。你能在这里面找到许多我们节目嘉宾的身影——肖弘、李广密、杨植麟。我们也聊了聊面向全新的 AI 时代，企业服务级 AI 与 Agentic Model 的前景。但这个故事的最开始，要从他与峰瑞资本创始合伙人李丰的公司合并聊起。 2025 年，我们和 AI 共同进步！ 02:11 Part 1：第一段创业开始的快问快答和我们嘉宾广密、Red 的渊源创业的开始：祝伟投资吴明辉和李丰合并后的公司最开始罗永浩、李笑来是我们的股东第一版商业计划书就是推荐系统，为什么没做今日头条？奥林匹克竞技训练的心理调适秒针系统的成功眼睁睁看着今日头条的流量哗啦啦起来 56:08 Part 2：第二段创业 “老板上完商学院，团队遭殃” 同时创立明略科技、云迹机器人学习美国一家数据分析公司 Palantir，但从 To G 转向 To B 收购 Red 的决策，我希望他做我的 CEO successor 2020-2021 年：战场开得太宽、走过的弯路 2022 年：痛苦的急转，人生最 suffer 的一年有 AI 以后，预计企业级服务会出现并购潮 01:45:01 Part 3：企业服务级 AI 基于公开数据训基础模型、以卖 Token 为商业模式的公司会很卷，卷成电费有私有 Data 的公司能产生差异化价值现实世界的数值游戏新产品“DeepMiner”的由来 Agent 或 Tool Use 在企业服务领域产生了新的链接 Agent 是一种交互技术，对 To C 和 To B 互联网都会产生革命性变化那些不提供供给侧能力、只提供链接网络，而这个网络又不是根结点的公司，会很危险将来企业只有两类人？老板和合伙人（合伙人不是公司员工）一个幸福的老板，个人使命、家庭使命和公司使命高度相关

查看详情