正在加载

返回列表
张小珺 Jùn|商业访谈录

张小珺 Jùn|商业访谈录

和你一起,从这里,探索新世界! 《张小珺商业访谈录》是一档深度访谈节目,以 2 至 7 小时的长对话为形式,聚焦真实的人物表达与高密度的前沿信息。由语言即世界工作室出品。 主持人张小珺是财经媒体人,专注中国科技业深度报道,覆盖 AI、科技巨头、风险投资与知名人物。曾 13 次获得国内外新闻奖项,其中 2022 年至 2024 年连续三届获得亚洲卓越新闻奖(SOPA)——被称为“亚洲普利策”。她也是语言即世界工作室的创始人。 “如果我的访谈能陪你走一段孤独的未知的路,也许有一天可以离目的地更近一点,我就很温暖。”——张小珺

分集
  • 2025-12-16 / 01:24:26

    在年终对话系列【站在 2025 年之外】的前两集节目中: 朱啸虎提出“三年不会有泡沫”,“泡沫论调纯属无稽之谈”; 戴雨森则预测,2026 年是“Year of R”,将会是一个现实回归之年。 今天推出的是系列第三集节目,嘉宾来自一线的硅谷视角。 1 个多月前,在 2025 年 11 月初,Sam Altman 上了一档由美国基金 Altimeter Capital 创始人主持的播客节目,在主持人连续追问 OpenAI 如何为 1.4 万亿美元级别算力与基础设施承诺买单时,Sam 称:“If you want to sell your shares, I’ll find you a buyer. Enough.”(“如果你想卖掉你的股份,我可以帮你找到买家。够了。”)——随后,AI 板块整体出现波动,关于 AI 是否存在泡沫的讨论进一步升温。 我们今天的嘉宾 Freda Duan 就来自这个名叫 Altimeter Capital 的基金,她担任合伙人。 Altimeter 是一个硅谷科技基金,横跨一二级。在一级市场投资案例有 OpenAI、Anthropic、字节跳动等,在二级市场投资案例有 NVIDIA、Snowflake、Robinhood 等。 这集节目,Freda 将深入分析美国这些明星公司,给他们的巨额投入算算账;她也从一线硅谷投资人的视角聊聊,美国资本的新秩序,他们眼中的坏小孩、反叛者、刺猬型和哪吒型创始人,以及泡沫。 2025 年,让我们和 AI 共同进步! (录制于 2025 年 11 月) 03:30 Freda 的自我介绍 04:41 2020-2025 每一年的硅谷关键词 08:12 今天美股投资三条主线:AI + Re-industrilization(再工业化) + Digitization of Finance(金融产业创新),三条主线非常有意思,因为中间有很多联系 10:20 美国投资人怎么看待中国市场? 10:59 投资 OpenAI 12:14 给 OpenAI 的商业模式算算账(对比 Netflix) 16:45 OpenAI 的收入四个支柱 20:49 OpenAI 的竞争 23:32 Google 的变化 26:27 OpenAI 的投资回报和 IPO 28:25 投资 Anthropic 31:25 Neo labs 32:31 投资 Robinhood 40:29 硅谷资本喜欢乖小孩还是坏小孩? 44:26 发现新物种(market prediction) 46:07 自动驾驶和机器人 55:25 “一级靠共识,二级靠非共识” 57:13 美国不同基金看人的 taste:刺猬型、反叛者、哪吒型创始人 58:22 美国基金整体变化:更集中仓位下重注 01:03:43 复盘硅谷 2025 年最重点方向 01:09:51 这些 AI 公司的巨额收入从谁的口袋里来? 01:14:11 巨额 AI 投资的投入产出比 01:15:04 我们在 AI bubble 中吗? 01:16:31 展望 2026 年 年终对话【站在 2025 年之外】: 《122. 朱啸虎现实主义故事的第三次连载:人工智能的盛筵与泡泡》 《124. 和戴雨森聊 2026 年预期、The Year of R、回调、我们如何下注》 【更多信息】 免责声明:本内容不作为投资建议。

  • 2025-12-13 / 03:23:03

    不知不觉,我们来到了 2025 年的最后一个月,在北京的初雪之中,我们希望和大家一起做一个回顾与展望系列:【站在 2025 年之外】。 今天的嘉宾是真格基金管理合伙人戴雨森。 在 122 集节目中,朱啸虎声称,三年之内不会有泡沫,泡沫论调纯属无稽之谈,创业者 2026 年当全速前进。 雨森今天带来全新的看法。在他看来,2026 年的关键词是“The Year of R”——回报与研究会再次变得重要。某种意义上,2026 年将是一个现实与回调之年。 02:00 复盘 2025 年 02:00 从模型侧看进展: o1 为代表的 Thinking Time Scaling 带来模型能力大幅提升 OpenAI、Anthropic、Google 三家的旗舰模型追赶很紧,又各有特点,预期和叙事轮动 中国模型公司一年下来 dominate 开源生态 28:13 从应用侧看进展: 模型能力带来应用大爆发 应用是有护城河的,开始看到复杂应用在 context、environment 等层面产生壁垒 模型公司不能没有产品,大家都下场做最重要的第一方应用 中国 AI 应用出海表现不错 52:31 2025 年真格出手了多少项目?20 个左右 对比中美 AI 公司估值,中国公司对于全球来说有很高期权价值: Thinking Machines 天使轮估值在没有产品的情况下已是中国 AI 公司估值总和 模型公司:Mistral 14b,Kimi 4b,Mistral 自己都不怎么做 Pre-train 了,benchmark 也就是和 Kimi 对标 应用公司:在美国 Manus 这样一家几个月做到 100m ARR,几十个点 gross margin,MoM20%增长的公司应该是 3-5bn 01:03:15 预测 2026 年:The Year of R The Year of R:Return、Research、Remember、多模态 Reasoning 01:03:15 Return: 为什么 Return 很重要? ROI,过去 3 年交易的是 investment,因为大家被潜在的大 return 吸引,但现在随着 I 越来越大,大家对 R 的落地越来越关注,因为有 R 才能推动未来的 I 为什么我们认为 2026 年大家会加大对 return 的关注? 模型:模型能力进步是这一波 AI 革命最本质的驱动力,但模型的能力进步正在放缓;美国头部 labs 的投入(Capex,人工等)大了很多,但无法阻止中国模型低成本跟进,Scaling Law 不能简单理解成为投入大力出奇迹 应用:AI 应用的叙事从无所不能威胁人类的 AGI 收敛到现在的三种主要商业模式,是从梦想回归现实的过程 订阅制是 OpenAI 现在的核心商业模式:超过 5 亿 DAU 后,全球知识工作者低垂的果实已摘得差不多了,面临 Gemini 等的激烈竞争,针对普通用户再提价会比较难 被寄予厚望的广告 + 电商:首先其中大部分是分 Meta、Google、字节的存量蛋糕,对于 Chatbot 这样新形态的应用,探索广告和电商变现的速度不会很快广告 + 电商:首先大量是存量分蛋糕,然后对于新形态的应用,速度没那么快 AI Coding/图片视频生成等“基于用量付费”的生产力产品:Token 用量会持续增长,但 Token 价格也在持续下降,用户只会为 SOTA 的智能按用量付费;原来值钱的任务会很快变得不值钱,所以 AI 替代了很多程序员,并不意味着 AI 能长期赚到这些程序员的工资 AI+行业的企业服务:这部分首先还在早期市场,规模有限,尝鲜的企业多,长期留存未必好,一个例子是微软 Copilot 的发展持续低于预期,大公司有数据安全、权限、隐私、工作流再造等一系列阻碍,使用新技术的速度比小公司和个人要慢不少 结论: 需要实现 Satya 说的 GDP 加速增长,把蛋糕做大才是真正的 AGI,比如说 AI 创造新的药物,发现新的知识,真正解放人类注意力等 投入:现在美国基础设施建设慢,算力贬值快,人员工资高,巨额投入需要尽快看到回报 2025 年底二级市场的预期也和 2024 年底完全不一样:去年底是市场预期不高,但我们看到 ChatGPT 增速很快,Coding、Agentic 模型提升的确定性带来应用机会;现在是投入很大预期很高,但短期模型端看不到革命性的新能力,新的范式变化还在萌芽期 对创业者的启示? 负毛利烧钱一味追求增长的逻辑正在过去,需要有增长和毛利率并重的高质量增长。尤其是在美国非常宽松的融资环境可能会放缓,中美创投市场的价格鸿沟将会缩短 01:16:13 Research: new paradigm:AI 历史上都是阶跃提高,需要有新的 paradigm 从新带来 AI 能力的大增长,Ilya:scaling 和 research 是交替的,现在又到了 research 的时候 目前看 Online Learning、世界模型等都是重要的研究方向 neo labs:Thinking machines, SSI, Reflection, 到近期的 Humans&,Periodic,Isara 等) 因为做工程和产品和做研究是很不一样的,需要有宽松的环境,自由探索的文化,不设时间和 KPI 限制,大家希望 neo labs 能够探索和现在头部模型公司有差异化的新路径 new benchmark:现在的 benchmark 已经不能很好体现 AI 能力的区别,也不利于作为模型训练的目标,如何衡量一个在大多数领域超过人类表现的模型?姚顺雨指出的下半场已到,需要新的 benchmark 对创业者的启示:要关注前沿研究的进展,研究的突破可能会解锁新的应用机会 01:21:00 Remember(Memory): Memory 是 AI 应用关键的差异化,现在的 Memory 能力已经对 ChatGPT 留存产生了很大的提高 现在的 Memory 基本上还是基于 retrieval 的,没有做到真正的理解,这部分也是研究的兵家必争之地,如果做好会带来进一步的提高 Proactive Agent:有 memory 和 context 才能解锁 Proactive Agent 的机会,而 Proactive Agent 非常重要,因为人主动去用 AI 意图有限,AI 主动为人服务才能有 10x 的场景机会 01:24:06 多模态: Visual Reasoning 可能会有大的突破,人本质上是 Pixel Machine,通过视觉输入理解世界,可以关注 Zerobench 这个 Visual Reasoning Benchmark 的表现提升,现在头部模型基本上还是不到 10 分 Nano Nanana 意味着图片生成进入到 Sonnet 3.5 这样的可用时代,那么 Cursor of Image-gen 会是什么? GPT-3.5 解锁了 ChatGPT,Sonnet 3.5 解锁了 Cursor,Sonnet 3.7 解锁了 Manus,Nano Nanana/Veo 会解锁什么应用的机会?在 ChatGPT 里面用 Imagegen/Videogen 显然不是很舒服的体验 语音是很重要的机会,更好更自然的交互,理解用户的 Context,Plaud,Granola,Wispr flow/Typeless,Suno? 01:30:29 AI Bubble 从二级市场来讲,明年有可能出现大的回调,时间点可能是下半年 《Boom: Bubbles and the End of Stagnation》书中提到了两种泡沫:好的泡沫和坏的泡沫 如果预期是回调,明年的投资策略变化是什么? 二级会如何传导到一级? 怎么看朱啸虎说:“至少三年内看不到泡沫”、“他们的论点是无稽之谈”? “我个人现在是全部空仓的” 中美的估值差距预期会缩短 01:47:38 创业端变化和建议 基于 Year of R 的理论,对创业者的建议? AI 时代怎么判断创始人?和互联网时代最大不同是什么? 创业像 F1 赛车 这两年 miss 什么项目没? 有哪些方向是因为 AI 出现带来增量的? Chatbot 之外不错的交互是什么? 今年个人聊了 150 个项目,只投了 2 个 02:18:31 也谈谈人生 对个人的思考:今年的读书、思考与人生 对 VC 的思考:年轻的投资人要差异化 对普通人的思考:学会在一个智能充沛的世界里生活 02:29:50 最后的快问快答 最后一个问题:你提出 Year of R,你也清空了二级市场股票,那么你会做空吗? 02:36:10 在这集节目的结束,我又放了一段和雨森在录节目之前的一场闲谈,比较随意。我们点评了一下那些时常会被议论起的 AI 公司。如果你觉得有意思,也可以继续听下去 02:36:30 OpenAI 02:46:38 Google(我并不觉得 Genimi 能阻止 ChatGPT 的增长,不觉得 Google 已经脱离危险) 03:06:36 Anthropic 03:11:05 Manus 03:19:47 Thinking Machines Lab、Safe Superintelligence Inc. 年终对话【站在 2025 年之外】: 《122. 朱啸虎现实主义故事的第三次连载:人工智能的盛筵与泡泡》 【更多信息】 免责声明:本内容不作为投资建议。

  • 2025-12-12 / 03:42:54

    今天的嘉宾是一位创业者,ONE2X 联合创始人兼 CEO 王冠,他们现在的产品是 AI 视频生成器 Medeo。 王冠是一名产品经理型的创业者,我和他认识了很长时间,那时他刚从 Kimi 离职出来创业,此前他是 Kimi 模型产品负责人。(哦对了,上一个 Kimi 产品离职来我们节目的是明超平。) 除了 AI 时代应用型公司怎么做产品、搭组织之外,由于我也是一名内容创作者,所以我也很好奇地与他讨论了许多关于新时代的内容平台,生成系统,AI、创作者与平台权力分配的话题。 2025 年,期待我们和 AI 共同进步! 02:00 自我介绍、产品经理的经历和创业的开端 28:39 第一次听说“压缩即智能”,大为震撼 32:25 从月之暗面第一个离职创业的人 37:11 数据是智能的第一性原理,数据决定的智能的边界 42:23 数据三个阶段:公域数据>领域数据>产品内生数据 01:05:36 为什么选择视频生成方向? 01:26:15 AI 如何重塑现有互联网格局? 01:30:50 广义 AGI vs 狭义 AGI 01:41:59 应用公司与模型公司的边界会变得模糊 02:01:44  AI 时代的公司最终都是生成系统公司 02:25:49 权力重心向消费者端渗透,平台和创作者会如何演变? 02:38:11 生成系统和推荐系统的本质区别是?“没有中间商赚差价” 02:50:34 应该怎么做 AI 产品?北极星指标是智慧程度 03:05:45 一个远程办公的组织 03:20:18 未来的平台会从分销平台到产销平台 我们对 AI 应用型公司的过往访谈: 《95. 对 Manus 创始人肖弘的 3 小时访谈:世界不是线性外推,做博弈中的重要变量》 《103. Lovart 创始人陈冕复盘应用创业这两年:这一刻就是好爽啊!!哈哈哈哈哈》 《101. 对 YouWare 创始人明超平 3 小时访谈:今天 Agent 像大猩猩刚拿起一根烧火棍》 本集中提到的其他节目: 《59. 和杨植麟聊大模型创业这一年:人类理想的增量、有概率的非共识和 Sora》 《113. 和杨植麟时隔 1 年的对话:K2、Agentic LLM、缸中之脑和“站在无限的开端”》 《115. 对 OpenAI 姚顺雨 3 小时访谈:6 年 Agent 研究、人与系统、吞噬的边界、既单极又多元的世界》

  • 2025-12-09 / 00:48:00

    2024 年 3 月、2025 年 2 月,我曾两次更新朱啸虎的中国现实主义 AIGC 故事,现在又过去了快 1 年时间。 站在 2025 年的尾巴上,AI 产业有泡沫吗?泡沫会破吗?投资人对 2026 年的预期乐观吗?现在还是投资英伟达、OpenAI 的好时候吗?——这里是朱啸虎现实主义故事的第三次连载。 2025 年的最后一个月,还想和大家说那句:期待我们和 AI 共同进步! 01:40 越来越现实的 OpenAI:你看 Sam Altman 就知道了,今年几乎不太提 AGI 了,对吧? 05:46 AI 的超级入口之争:必然的就是超级入口之争,而且是日活之争、时长之争 08:34 三年内看不到泡沫:他们讲的这些论点,我觉得都是无稽之谈 13:24 你持有英伟达、OpenAI 吗? 16:16 大家低估了 DeepSeek:如果没有 DeepSeek,可能人类的 AI 是被几个私有公司控制的 19:06 和共识错开 15 度,那性价比一下子拉出来了,是吧? 24:41 离开大厂三条马路,离开大厂三条马路,对吧? 30:21 大家知道,我投不投都是十分钟 38:30 今天的 VC 共识太集中了:每个项目上都是 Club Deal(俱乐部交易),每个股份比例都很小,那怎么赚钱?——GP 赚不了大钱,LP 也很不开心 40:50 手机游戏打个《王者荣耀》,单独抽半小时、二十分钟就够了 《62. 你们要的朱啸虎,来了》 《90. 朱啸虎又来了:中国现实主义 AIGC 故事的 1 周年连载》 【更多信息】 本集由语言即世界工作室与微博财经联合呈现。 免责声明:本内容不作为投资建议。

  • 2025-11-28 / 02:06:15

    今天的嘉宾是 Google DeepMind 机器人团队的高级研究科学家兼技术负责人谭捷,他的研究方向是将基础模型和深度强化学习方法应用于机器人领域。 中美在机器人领域一直存在两种叙事:市场普遍认为,中国在硬件上发展更快,美国在机器人大脑设计上更领先。 本期节目中,谭捷将带我们一窥硅谷视角,尤其是 Google DeepMind 视角下的机器人前沿叙事。 前不久,他们刚发布了新工作 “Gemini Robotics 1.5 brings AI agents into the physical world”(Gemini Robotics 1.5 将 AI Agents 带入物理世界),我们也聊了聊他们的最新发现。 由于嘉宾工作环境的原因,会出现一定程度的中英夹杂,还大家多多包容和支持。 02:00 机器人是在真实世界里做图形学,图形学是在 simulation 里做机器人嘉宾小传:小时候喜欢打游戏,读博士读的计算机图形学 从图形学转型机器人的变轨 我在 Google 的第一篇论文《Sim-to-Real: Learning Agile Locomotion For Quadruped Robots》(从仿真到现实:学习四足机器人敏捷运动),开创了强化学习和 seem to real 在足式机器人上的应用 Paradigm Shift,过去十年第一个是强化学习,第二个是大语言模型 大语言模型对机器人的影响(大语言模型类似大脑,强化学习类似小脑) 13:06 机器人基座大模型到底是不是一个非常独立的学科?So far, not yet 今天的机器人发展到什么阶段了? 从 demo 到真正落地,隔十年并不是一个非常夸张的事 从我的角度来说,我不得不承认,最近几年的机器人智能发展主要还是依赖于多模态大模型 但多模态模型缺什么呢?缺少 robot action 的输出 当你真正有一个 generalist model(通用模型)的时候,specialized model(专有模型)就完全不能与之竞争 23:44 Robotics 最大问题是数据,它在一个非常复杂的 unstructured environment 里,可以发生任何事情最大的问题还是数据问题 但是 robotics 是在一个非常复杂的 unstructured environment(非结构化环境)里,可以发生任何事情 它需要极大量的、非常 diverse(多元)的数据,但这些数据现在是不存在的 现在有很多 startup 叫 data factory(数据工厂) 所谓“数据金字塔”包括哪些? ​27:52 Gemini Robotics 1.5:我们有一个方法叫 motion transfer,这是独门秘诀 Gemini Robotics 1.5 最重要的发现是什么? 第一个是我们把“thinking”加入了 VLA 模型 第二个非常重要的突破是 cross-embodiment transfer(跨具身迁移) Gemini Robotics 1.5 的工作中,我们做了一个快慢模型的划分 它应该是个过渡的方式,因为现在受制于算力的限制、模型大小的限制 当你要一个 unify model(统一模型)的时候,它必须非常大 Motion Transfer?It’s very secret 47:32 生成极大量仿真数据,是弥补它缺点的一个重要手段我们比较重视的一点还是数据、数据、数据 遥操作是非常难以获取的数据 我们会花更多的精力,比如利用 simulation 数据,利用 human video(人类视频),利用 YouTube 上的一些数据,甚至利用模型生成的数据,比如 VEO 生成的一些数据 真实数据没有 sim-to-real gap(仿真到现实差距),但是泛化性是由数据的 coverage(覆盖)导致的,并不是因为它本身是真实数据还是虚拟数据 在不远的将来,传统物理模拟仿真会慢慢地被生成式模型的仿真所取代 我信仰的是 scalable data 01:03:48 世界模型就是 Vision-Language-Vision,vision 和 language in,生成下一帧的图像世界模型的定义是:如果给上前一帧,再给上机器人的动作,你可以预测下一帧 从另外一个角度,VEO 它是一个视频生成模型,但是 Genie 它更像一个世界模型 当你在每一帧的时候,可以有一个输入来改变你的下一帧,那个感觉就是世界模型;但是如果它是一个已经生成好的、几秒钟的静态视频,那就不是 世界模型其实就是 Vision-Language-Vision,vision 和 language in,它可以生成下一帧的图像 01:08:29 如果你有灵巧手,触觉就非常重要,之所以我前面觉得触觉不重要,是受限于当时的硬件如果你有灵巧手,触觉就非常重要 之所以我前面觉得触觉不重要,是因为它其实受限于当时的硬件 现在还在夹爪时代 在所有夹爪能完成的任务里,我还是觉得视觉可能可以解决 95%的问题 在未来,人形机器人不会成为唯一的形态,但一定是个主流的形态 如果你的目标是 solve AGI in the physical world(在物理世界实现 AGI),那么我会非常聚焦于最终的形态是什么样子,其他的东西可能都是 distraction(干扰) 01:17:35 一个有使命感的人,他不会容忍说“I’m on a wrong ship”这几年 Google AI 或者 robotics 的研究文化上有没有发生过变化? 不管是从 promotion、performance review、incentive,还是各种各样的 structure 上,Google 想创造一个环境,使得更多的人可以一起解决更大的事情 像 Gemini Robotics,它更多是自上而下 我发觉好像国内不一定比我卷,我一周可能工作 70 到 80 个小时 真的,这个时代真的是等不起,不然别人都做出来了 AI 有很多是数学,华人数学比较好 《106. 和王鹤聊,具身智能的学术边缘史和资本轰炸后的人为乱象》 《109. 机器人遭遇数据荒?与谢晨聊:仿真与合成数据、Meta 天价收购和 Alexandr Wang》 【更多信息】 本集的文字版本已发布,请搜索我们工作室的官方公众号: 语言即世界 language is world

  • 2025-11-18 / 01:48:45

    今天的嘉宾是小鹏汽车自动驾驶中心负责人刘先明。 就在 2025 年 10 月 9 日,小鹏汽车突然宣布,原自动驾驶中心负责人李力耘将卸任,由世界基座模型负责人刘先明接任。 这意味着,刘先明成为小鹏在自动驾驶上,既谷俊丽、吴新宙(现英伟达自动驾驶中国团队负责人)、李力耘之后的第四任负责人。外界对他有诸多的好奇。 这是刘先明上任后首次接受专访。我们访谈的时间是 2025 年 10 月 30 日。这集节目,我们聊了聊他上任后拆掉大模型 Language 等关键技术决策,以及一家车企的 AI 战略转型。 02:16 人物小记曾在 Meta、Cruise,从事机器学习与计算机视觉研究 恰好 Cruise 当时是第二名,加入第二名再逆袭的故事永远是令人兴奋的 加入小鹏汽车始末:2024 年 1 月在美国办公室与何小鹏见面 1 小时 所亲历过的自动驾驶的技术 stage 19:00 大模型拆 Language 我们的做法简单直接,把 VLA 的 Language 拆掉就完了 模型是机器,燃料是数据,一旦掺入 Language 会让效率变得极低 我们干脆把 Language 全都拆掉好了:输入 V-L 联合语料,直接输出 Action “拆 L”的过程、“简单就是美” 关键的数据问题 33:53 小鹏汽车向物理 AI 战略的转型为什么一家汽车公司的自动驾驶战略需要向 AI 战略转型? 转型的开端可能是去年小鹏汽车 10 周年 自动驾驶企业关心的是 KPI、接管率,AI 企业关注底层的技术指标,甚至 risky 的长期指标 刘先明的短期和长期 KPI AI 对于小鹏汽车意味着什么?“是乘法因子” 除了今年拆 Language,之前还拆了激光雷达、规控规则、端到端 人工智能发展为什么一直在经历着拆拆拆的过程? 世界模型 明年对 L4 的规划 54:30 换帅的背后过去 1 年做过“头铁”的事情 看起来我性格很好,我也拍过桌子、发过火 “拆 L”过程中遇到很大阻力,因为这很反 paper 里的常识 DeepSeek-OCR 的反共识 现在关注的 AI 前沿方向 回应地平线创始人余凯的观点(“自动驾驶应该交给供应商”) 为什么国内自动驾驶还没有代际差? AI 是车企下一阶段的重要赛点,做不好会被淘汰 何小鹏对于 AI 的关注时间、方式和最近的 3 次话题 制造企业和 AI 企业的基因问题 接下来,对于我的挑战 小鹏智驾一号位,每个人的历史使命 《70. 和何小鹏聊,FSD、“在血海游泳”、乱世中的英雄与狗熊》

  • 2025-11-03 / 01:43:25

    今天这集节目,我们将讨论一个在当下非常关键的话题:人工智能的算法与架构创新。 嘉宾是我们的往期嘉宾返场,她是 MIT 在读博士杨松琳,研究方向是线性注意力机制。 我们将从最新发布的几个模型 Kimi Linear、Minimax M2、Qwen3-Next 切入。松琳参与讨论 Kimi Linear 和 Qwen3-Next 的部分工作,是 Kimi Linear 论文的作者之一。 算法创新为什么在 2025 年变得尤为重要? 它的背后原因是,数据、算力和算法是驱动人工智能的三驾火车,在数据撞墙的无奈前提下,各个模型公司不得不重新开始“雕模型架构”,以期 Scaling Law 的魔法继续。而由于中国的算力相对美国有限,这反而让中国的 AI 算法创新走在了世界前沿。 这集节目你将听到,近几年架构最大突破是 DeepSeek 的 MoE(混合专家模型),它让 MoE 成为了全球共识;而下一个突破的重要方向可能就是 Attention(注意力机制)。 中国公司在 Attention 展开了不同技术 bet(押注): 截至目前已发布模型,DeepSeek 正在探索 Sparse Attention(稀疏注意力机制); Kimi 正在探索 Linear Attention(线性注意力机制); Minimax 在年初的 M1 版本中探索 Linear Attention,而在刚发布的 M2 版本中又回退到 Full Attention(全局注意力机制)。 节目中,松琳将讲解她参与的这篇《Kimi Linear: An Expressive, Efficient Attention Architecture》的工作,并分析以上这些公司在 Attention 上的不同抉择; 与此同时,她也将带领大家考古人工智能算法变种史,并预演未来算法与架构的改进方案。 本集比较硬核,会有一些专业难度,大家可以根据自己的实际需要收听嗷:)因为嘉宾的工作环境会出现中英夹杂,希望大家多多理解和支持。 04:00 个人、研究主线与线性注意力机制的探索之路 06:27 松琳做过一个开源库:flash-linear-attention(简称 FLA) 07:04 怎么通俗理解 Linear Attention 的 Linear? 11:19 聊聊最近参与的新工作,前几天刚发布的《Kimi Linear: An Expressive, Efficient Attention Architecture》(Kimi Linear:一种具有强表达能力与高效率的注意力架构) (FLA 库的另一个作者 Zhang, Yu 邀请) 12:20 为什么 Kimi 在年初开始需要重新设计注意力机制?设计的背景和目标 在 Linear Attention 下,推理阶段的计算与显存成本都显著降低;而使用 Full Attention 时,长文本解码的代价会非常高昂 14:39 《Kimi Linear》论文重点讲解:KDA 模块(Kimi Delta Attention,增量注意力机制) 18:56 Kimi 内部有一个 Scaling Ladder(规模阶梯),在一个规模下面表现好就在下一个规模下面去 scale,就像通关 20:20 Kimi Linear Attention vs DeepSeek Sparse Attention:Kimi 走线性注意力路线,DeepSeek 走稀疏注意力路线,都想解决长文本 decoding(长上下文生成)的效率问题 23:01 Minimax 从 M1 到 M2 的架构变化,从 Linear Attention 退回到 Full Attention,为什么? 27:00 硅谷的注意力机制方案不方便说,但可以浅聊一下 OpenAI 有 paper 的方案 28:05 Linear Attention 从 2020 年发明出来开始后的前进线索 每一次大家关心 Linear Attention 都是因为大家撞到了 Context Wall 最近长文本的 decoding 卷土重来,让人们不由自主审视这一套技术 38:16 纯 Linear Attention 是无效的,混合注意力机制还是有很多全局注意力层,这样下限有保证 40:30 Kimi Linear 每 3 层 KDA 插入 1 层全注意力层,三比一的比例快变成共识了 Minimax 之前用的是七比一,但现在大家逐渐回到三比一——这成为不共识的混合注意力机制中的共识了 42:32 权衡(Trade-off)表达能力(expressivity)与计算效率(efficiency) Minimax 曾经也提到,混合线性注意力/混合滑窗注意力在“多跳推理”上会有缺陷 对于“多跳推理”,如果我们开发一些硬件高效但表达能力更好的 RNN(循环神经网络),这个 GAP 有可能缩小 46:28 chunkwise algorithm for parallelization(分块并行算法) 47:55 如何设计 Attention?两条主流和一些非主流路线 49:36 结合 Linear Attention 和 Sparse Attention 的未来理想方案 Linear Attention 和 Sparse Attention 没什么竞争关系,Linear Attention 的竞争对手可能是 Sliding-Window Attention(滑窗注意力) 工业界 Linear Attention 和 Sparse Attention 结合的探索似乎还没开始 我想象中的理想方案是:把混合注意力的全局注意力(Full Attention)换成稀疏注意力(Sparse Attention) 只要 Sparse Attention 选得准,完全可以取代 Full Attention,但现在的问题是它选不准 55:36 公平的比较:Linear Attention vs Sliding-Window Attention(滑窗注意力) 57:05 Transformer → MoE → Linear/Sparse Attention 的算法演变,背后动因是给定你相同的 FLOPs(浮点运算量),利用这些 FLOPs,取得更低的损失函数 MoE(混合专家)是更高效的 FNN(前馈神经网络)的替代品 58:26 近几年架构方面突破最大的是 MoE,下一个突破可能是 Attention;Transformer 就两个模块,一个是 FFN,一个是 Attention;现在 FFN 已经雕成 MoE,现在 Attention 大家也可以雕一下 01:01:28 数据、算法、算力是驱动人工智能的三驾马车,当数据遇到数据强,算法创新变得更重要 01:02:48 架构的未来:1、能不能干掉全局注意力?它是阻止 context window 继续 scale up 的主要瓶颈 2、Continue Learning,让 AI 自己学习 01:04:30 如何把 Linear Attention 的 Transformer 继续 scale up? 01:07:43 中国 AI 的算法创新相比海外肯定是更强的——因为没有那么多卡( 不过美国公司更多投入优化器一点,国内在逐步重视 01:10:56 其他训练细节:NoPE vs. RoPE 01:12:09 DeepSeek-OCR 01:12:55 松琳也参与了 Qwen3-Next,没有参与 Minimax M2 01:13:39 “雕”架构的人 01:15:16 自己的心路:“当你很清楚你要做什么的时候,你是不会遇到什么挫折的” 经验分享:PhD 还挺顺利的,得益于我入学之前的半年考古 01:23:12 说到考古,我们在最后聊聊从 Transformer 开始的算法变种历史 01:29:50 Delta Rule 算法、硬件亲和、DeepSeek 非常追求硬件和算法的匹配 01:42:23 给更年轻的年轻人的建议 嘉宾往期节目: 《逐篇讲解 DeepSeek、Kimi、MiniMax 注意力机制新论文——“硬件上的暴力美学”》 谈到的论文: 《Kimi Linear: An Expressive, Efficient Attention Architecture》 《MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention》 《DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models》

  • 2025-10-30 / 02:46:22

    2025 年 4 月,我与理想创始人兼 CEO 李想录制 AI Talk 第二季。那次对谈持续了很长时间,播出版仅 1 小时,今天你看到的是完整版。 这一集节目的发布比预期晚了些。过去几个月实在太忙了,我一度犹豫要不要继续放出。但当我重新整理这些内容时,仍然被它打动——这是一份关于人工智能技术变革的“节点式思考存档”。 你可以结合 2024 年底我们那场 3 小时谈话一起观看,感受两次对话之间,思考的延展与呼应。 这次,我把李想当作一个“CEO 大模型”来提问。 假设他是一种 MoE(Mixture of Experts,专家混合)架构的模型,我在对话的前三个回合调用了他的三位“专家”:技术专家、战略专家、组织专家。而当谈话深入到后半程,我们开始讨论人、能量、亲密关系、记忆程序与人类的智慧。 “AI 与人的关系”,是本次对话的母题。 (录制于 2025 年 4 月) 02:35 第一章:假若你是一个 CEO 大模型人类做熵减,AI 做熵增 工具的三个分级:“信息工具”、“辅助工具”、“生产工具” “生产工具”重要的衡量是:你愿意为它付钱 梁文锋极简运用了人类最佳实践 按照最佳实践是反人性的,随心所欲才满足人性 我只能做最好的自己,我一直在自己的长板延长线上 理想为什么还做基座大模型? 当时我们比较担心陈伟团队(基座模型自研团队)怎么想?这个压力挺大的 36:18 第二章:调用 MoE 之技术专家李想手把手教你训 VLA 达到 VLA 不是突变的过程,是进化的过程,经历了三个阶段 我给你讲一下 VLA 是怎么训的,以及 VLA 自己怎么去工作的 我不会做超长 CoT,我的 CoT 链条一般两步到三步 至少 5 年内不会有通用 Agent,但会有一个 Agent OS 要顺着人性去说,逆着人性去做 如果大家不想做前面包子的积累,只想吃第 10 个包子,很像练《葵花宝典》 黑盒、世界模型和定价逻辑 每 1 万公里的验证成本,我们做到从最开始 18 万降到 4000 块钱 01:25:36 第三章:调用 MoE 之战略专家 2025 年雁栖湖战略会 如果看战略,中间的圈是规模,圈外边有三个变量:用户需求、技术产品、组织能力 具备这四个特点的,就是 AGI 时代的终端:360 度对物理世界感知的能力、认知决策的能力、Action 的能力、反思反馈能力 到了 AGI 时代的终端,对于能力的要求变得不一样了 如果看到 2030 年,我们希望能够成为全球领先的人工智能终端企业 这是我们未来的 3-6 年要去解的题 李想的理想会不会太过于理想? 构建 3-7 人能量体 高维组织兼容低维组织 02:09:26 第四章:智慧是我们和万物的关系我的记忆程序 创业不容易,但是没必要苦哈哈的 大女儿 我们家里实现了一个“三人支撑”,这让家里的能量大幅地提升 人是用来发挥的,人不是用来改变的 不要构建那么多亲密关系,亲密关系太多了就证明这个人不会经营关系 把智慧当成一个重要的人类特质去发展 对李想的第一次 3 小时访谈: 《对李想的 3 小时访谈(播客版):宅男、AI、家庭、游戏和天梯》 本集节目同步上线文字版和视频版: 文章:公众号(语言即世界 language is world) 视频:Bilibili(张小珺商业访谈录)

  • 2025-10-28 / 04:22:37

    今天的嘉宾是谢青池,他是美团光年之外的产品负责人。 一个月前,青池找到我,说他用了一年多的时间一篇一篇地啃完了 200 多篇 AI 论文,从开始全然不得要领,到后来逐渐地入门——而他希望将他的论文探索之旅开源给大家。 就这样,我们有了今天这集特别的节目。 他从 200 多篇论文中精选了 36 篇经典,4 小时讲解,带你穿越 AI 变迁史。 他说,读论文是“给你打开一扇门”,让你能直接“与这个世界最聪明的头脑对话”。 2025 年,期待我们和 AI 共同进步! 01:30 探索的缘起 07:25 怎么读论文?(用 AI 学 AI) 10:20 辅助小工具和路书 论文讲解的主干: 19:35 Part 1:模型的范式变迁 故事要从 1999 年的第一颗 GPU 开始讲起 Brook: 用 GPU 进行计算 (2004.08) AlexNet: 深度学习的开端(2012.10) 对序列建模:seq2seq 和 Attention 的引入(2014.09) 蒸馏:模型能被学习吗?(2015.03) ResNet: 比深更深(2015.12) Transformer 来了!拉开一个时代的序幕(2017.06) AlphaGo Zero: 强化学习的突破(2017.10) 现代 MoE 的开端(2017.01) CoT: Prompt Engineering 的奠基之作(2022.01) LoRA: 那个我们每天都在用的东西(2021.06) ReAct: Agent 从理论到落地(2022.10) The Bitter Lesson: 过去 70 年的教训(2018.08) 01:52:58 Part 2:Infra 与数据的变迁 ZeRO: 大规模的 GPU 并行计算(2019.10) Scaling Law & Chinchilla: 上帝的指挥棒(2020.01 2022.03) LAION-5B: 开源社区的英雄主义(2022.10) The RefinedWeb: 互联网的数据也很够用(2023.06) MegaScale: 万卡 GPU 集群的训练(2024.02) 02:21:29 Part 3:语言模型的发展 Word2Vec: 用机器学习将单词向量化(2013.01) Google Translate: 神经网络的大规模线上部署(2016.09) GPT-1,它来了(2018.06) BERT: 曾经的王(2018.10) GPT-2: 是时候告别微调了(2019.02) GPT-3: ChatGPT 来临前夜(2020.05) InstructGPT: 给 LLM 以文明(2022.03) Tulu 3: 后训练的开源(2024.11) 03:08:08 Part 4:多模态模型的发展 DeepVideo: 深度学习进入视频领域,Andrej 初出茅庐(2014.06) 双流网络: Karén 和学术重镇牛津登场(2014.06) 图像生成的序章: GAN 来了(2014.06) Diffusion: 在 GAN 的阴影下,悄然成长(2015.03) DDPM: Diffusion 重回图像舞台的中央(2020.06) ViT: 当图像遇到 Transformer(2020.10) CLIP: 文生图的奠基石(2021.03) Stable Diffusion,它来了(2021.12) DiT: 人们期待一个融合的未来(2022.12) 03:56:38 最后的聊天 架构抱住了硬件的大腿 今天技术的边界到达了哪? 给“站在 AI 世界门外张望的人”和“已经在体系中工作多年的人”的建议 【技术之美】系列: 逐句讲解 DeepSeek-R1、Kimi K1.5、OpenAI o1 技术报告——“最优美的算法最干净” 逐篇讲解 DeepSeek 关键 9 篇论文及创新点——“勇敢者的游戏” 逐篇讲解 DeepSeek、Kimi、MiniMax 注意力机制新论文——“硬件上的暴力美学” 逐篇讲解机器人基座模型和 VLA 经典论文——“人就是最智能的 VLA” 逐段讲解 Kimi K2 报告并对照 ChatGPT Agent、Qwen3-Coder 等:“系统工程的力量” 【更多信息】 本集的投屏视频版已经同步发布于 Bilibili(张小珺商业访谈录):https://www.bilibili.com/video/BV1pkyqBxEdB/?spm_id_from=333.1365.list.card_archive.click&vd_source=aa7c66a3d015be4b5bfcd520784f2790 50 页完整 PPT 开源地址(所有论文链接附在 PPT 上):https://w7py8ou4dk.feishu.cn/wiki/KacewdlmSiSGC9kUOKDch9gwnKf?from=from_copylink

  • 2025-10-09 / 03:47:45

    今天的嘉宾吴明辉是明略科技的创始人、CEO 兼 CTO,明略科技于 2025 年 8 月 29 日获境外发行上市备案通知书,不久后将于香港上市。 这是一次上市前的访谈,吴明辉口述一家 To B 公司漫长的 19 年故事,其间经历了好多次的分分合合、沉浮与急转。你能在这里面找到许多我们节目嘉宾的身影——肖弘、李广密、杨植麟。 我们也聊了聊面向全新的 AI 时代,企业服务级 AI 与 Agentic Model 的前景。 但这个故事的最开始,要从他与峰瑞资本创始合伙人李丰的公司合并聊起。 2025 年,我们和 AI 共同进步! 02:11 Part 1:第一段创业 开始的快问快答 和我们嘉宾广密、Red 的渊源 创业的开始:祝伟投资吴明辉和李丰合并后的公司 最开始罗永浩、李笑来是我们的股东 第一版商业计划书就是推荐系统,为什么没做今日头条? 奥林匹克竞技训练的心理调适 秒针系统的成功 眼睁睁看着今日头条的流量哗啦啦起来 56:08 Part 2:第二段创业 “老板上完商学院,团队遭殃” 同时创立明略科技、云迹机器人 学习美国一家数据分析公司 Palantir,但从 To G 转向 To B 收购 Red 的决策,我希望他做我的 CEO successor 2020-2021 年:战场开得太宽、走过的弯路 2022 年:痛苦的急转,人生最 suffer 的一年 有 AI 以后,预计企业级服务会出现并购潮 01:45:01 Part 3:企业服务级 AI 基于公开数据训基础模型、以卖 Token 为商业模式的公司会很卷,卷成电费 有私有 Data 的公司能产生差异化价值 现实世界的数值游戏 新产品“DeepMiner”的由来 Agent 或 Tool Use 在企业服务领域产生了新的链接 Agent 是一种交互技术,对 To C 和 To B 互联网都会产生革命性变化 那些不提供供给侧能力、只提供链接网络,而这个网络又不是根结点的公司,会很危险 将来企业只有两类人?老板和合伙人(合伙人不是公司员工) 一个幸福的老板,个人使命、家庭使命和公司使命高度相关

00:00
00:00 / 00:00
未播放