张小珺 Jùn｜商业访谈录

和你一起，从这里，探索新世界！《张小珺商业访谈录》是一档深度访谈节目，以 2 至 7 小时的长对话为形式，聚焦真实的人物表达与高密度的前沿信息。由语言即世界工作室出品。主持人张小珺是财经媒体人，专注中国科技业深度报道，覆盖 AI、科技巨头、风险投资与知名人物。曾 13 次获得国内外新闻奖项，其中 2022 年至 2024 年连续三届获得亚洲卓越新闻奖（SOPA）——被称为“亚洲普利策”。她也是语言即世界工作室的创始人。 “如果我的访谈能陪你走一段孤独的未知的路，也许有一天可以离目的地更近一点，我就很温暖。”——张小珺

分集

2025-06-19 / 01:32:15

105. 和奔驰王忻聊，产业大转折下的德国汽车、话语权和技术 battle

《商业访谈录》访谈过很多中国新能源车企的 CEO 和高层，今天的嘉宾来自一家德国百年车企，他是奔驰中国自动驾驶与车联网研发负责人王忻。我们聊了聊中国汽车产业 20 年变革的历程，以及一家德国车企的转型与秘密故事。我们的播客节目在腾讯新闻首发，大家可以前往关注哦，这样可以第一时间获取节目信息和更多新闻资讯：）产业大转型 01:25 20 年前，就连波导手机也做过汽车 07:54 我曾在汽车 Tier 1 德尔福 18 年，3 年前加入奔驰，背后是产业大转折 09:30 过去 20 年全球汽车产业的几个技术周期（2004 年以前，2004-2014 年，2014-2020 年，2020 年至今） 11:31 现在转变成数据驱动的时代，Tier 1 黑盒交付的时代不再话语权 27:40 中国团队和德国总部的话语权是争夺过来的吗？ 28:27 奔驰中国研发团队组织架构、沟通机制和 battle 34:08 德国企业的 battle 文化和美国企业是不同的 41:23 为中国设计生产的功能要反向输出全球的时候，需要哪些流程？新技术 43:21 智能化是不可逆的趋势，但不能激进 46:50 车车通讯在 L3 实现以后需要重新定义 51:54 科技和豪华的关系：如果智能平权，豪华的标准变了吗 01:01:49 去年从规则算法切换到端到端的过程挺煎熬的 01:04:40 激光雷达是一个很好的冗余 01:05:35 CLA 和豆包合作大语言模型 139 岁车企 01:09:36 以人为本 01:11:08 安全的步骤 01:13:08 世界上第一位汽车驾驶员是奔驰创始人的太太 01:15:00 在百年企业工作是什么体验——荣耀是什么？负担是什么？ 01:17:48 百年一遇的大转型、大变革 01:33:22 奔驰 CEO 康林松会发脾气吗？相关单集：对话奔驰全球 CEO 康林松：转型期 CEO 和转型之中的 139 岁奔驰【更多信息】联络我们：微博@张小珺-Benita 更多信息欢迎关注公众号：张小珺

查看详情
2025-06-15 / 02:08:56

104. 和 Rokid 祝铭明聊，吴妈、阿里、硬件创业黑森林的第 11 年

随着 AI 的软件能力向硬件溢出，除了具身智能，智能眼镜或许是另一个会受益的产业。今天的嘉宾是智能眼镜公司 Rokid 创始人祝铭明（Misa），2025 上半年 Misa 佩戴其公司开发的智能眼镜出现在一次演讲中，一度引发关注，今年也是他在硬件黑森林里创业的第 11 个年头。我们从他的第一家公司 1000 万美金被阿里并购开始聊起——聊了聊马云和吴妈，也聊了聊他的第二段创业、智能眼镜市场的中美对比、阶段与趋势。我们的播客节目在腾讯新闻首发，大家可以前往关注哦，这样可以第一时间获取节目信息和更多新闻资讯：）02:00 开始的快问快答 02:36 阿里 1000 万美金收购我的第一个创业公司，全部换成了股票 05:14 最糟糕的时候，马云找我聊，引荐了 Joe Cai（蔡崇信），又引荐了王坚博士 08:05 我还有两个星期发薪水，账上只有 4000 块 15:55 在阿里当高管，吴妈（吴泳铭）提出想做 AI，成立 M lab 22:43 Rokid 的融资、马云的建议 27:40 吴妈当年是我的顶头上司，对吴妈的 comments 31:41 2019 年重要决策：一星期内从 AI 切换 AR 赛道 48:00 像器官一样的硬件会从手机切换到智能眼镜？ 59:17 重要决策之后裁员了一大半，清空了一幢楼 01:05:45 转型后第一次 PMF 01:09:55 现在的智能眼镜在黑莓到 iPhone 1 的中间阶段 01:11:52 AI 在硬件上的展开：具身智能、随身智能 01:13:05 在智能眼镜，明年上半年会是与巨头竞争的时间点 01:19:29 马云总结创业公司和巨头竞争的 4 个机会：4 个不 01:23:38 中美定义智能眼镜产品的不同 01:41:35 公司价值观第一条是玩心，老板总是那个 trouble maker 01:48:32 聊聊杭州创业者们 01:59:05 硬件创业的黑森林 02:27:00 最后的快问快答【更多信息】联络我们：微博@张小珺-Benita 更多信息欢迎关注公众号：张小珺

查看详情
2025-06-08 / 01:45:27

103. Lovart 创始人陈冕复盘应用创业这两年：这一刻就是好爽啊！！哈哈哈哈哈

今天的嘉宾又是一位 AI 应用创业者，Lovart 创始人陈冕。他的产品成为 2025 年既 Manus 之后，另一个在全球斩获一定知名度的 Agent。不同的是，Manus 是通用 Agent，Lovart 是垂直 Agent，面向设计师使用。与其说他是做产品的 CEO，他的精神状态更贴近一名“战斗型 CEO”。这次访谈发生 Lovart 火了之后，你能感受到陈冕在过去 2 年遭遇了补贴战争、产品下架、账上只剩 4000 块现金的绝境、怎么都融不到资等一系列愤懑之后——此时此刻，充斥着的要溢出的快乐。这是 2025 年对一位 Agent 创业者精神状态的截取。浪潮的大幕才刚刚拉开。 2025，期待我们和 AI 共同进步！我们的播客节目在腾讯新闻首发，大家可以前往关注哦，这样可以第一时间获取节目信息和更多新闻资讯：）03:00 开始的快问快答漂泊 05:00 一个 90 后的不断跳槽的 10 年移动互联网经历（腾讯、360、百度、滴滴、摩拜、美团、每日优鲜、字节教育和剪映） 07:02 经历了两次战斗，战斗正酣的时候是顶点，后面一地鸡毛 13:58 从 0 到 1 做瓜瓜龙，刚升字节 4-1，就撞上双减了 15:18 换一种选择，会更好吗？ AI 来了，觉得自己被解救了 25:25 AI 至少是电脑的发明，比肩信息革命的变革（智能化 vs 信息化） 28:58 被救赎的一刻：“希望是一切痛苦的解药，是一切痛苦的意义” 29:51 避开大模型主航道和语言主轴，选择多模态、创作 2023 年：前一秒赢了中国第一，下一秒被下架了、裁员了、没钱了 36:00 见的第一个投资人是张予彤 37:43 2023 年 6 月-9 月，我全情的战斗！——3 个月烧了 200 万美金 39:03 前一秒刚赢了中国第一，下一秒被下架了、裁员了、没钱了 40:45 怎么看投流？怎么看 Kimi 投流？ 42:35 被下架什么心情？奔溃啊 44:09 公司账上只剩 4000 块 45:17 现在获客成本是多少？怎么有效获取用户？ 49:38 时机稍纵即逝，好的节奏时一定要扩大战果 2024 年：哐哐哐狂投 50:05 2024 年哐哐狂投，一个月一轮融资，close 了 3 轮 52:21 我们非常清楚第一代产品 liblib 的局限性，开始考虑第二代产品 55:58 第二代产品 Lovart 是怎么预研的？ 2025 年：Lovart 火了 59:48 如果这个设计师叫 Lovart，他/她又 Love art，还蛮酷的 01:01:47 争抢“全球第一个 XX Agent”究竟带来什么？ 01:03:00 为啥搞邀请码成了标配？ 01:03:56 Lovart 火了之后 01:07:30 AI 应用创业的 know-how 这是我创业最！！爽的！！东西！！01:19:57 我是双子座，时而发狂，时而很软 01:24:04 与焦虑共生，就是干！ 01:25:26 这是我创业最！！爽的！！东西！！ 01:28:00 但在这一刻就是好爽啊！！！我爽了好一会儿——就是我朴实的快乐哈哈哈哈哈 01:28:32 给我多少钱、给我多少职级，都买不到 01:32:35 在陌生领域的创新，就像用火柴在潮湿的木头上反复地滑动，点燃又熄灭；直到有一天，你抓住了某一个缝隙，把木柴点燃，火势弥漫整个山洞 01:33:58 2023 年底去高瓴办公室，阳光中，我恍惚了大闹一场，悄然离去 01:35:00 童年：漂泊、武侠小说和电脑游戏 01:26:01 我不知道故乡是哪，只能一直往前走 01:38:46 给其他 AI 应用创业者的建议 01:42:29 最后的快问快答【2025 上半年 Agent 创业三部曲】对 Manus 创始人肖弘的 3 小时访谈：世界不是线性外推，做博弈中的重要变量对 YouWare 创始人明超平 3 小时访谈：今天 Agent 像大猩猩刚拿起一根烧火棍 Lovart 创始人陈冕复盘应用创业这两年：这一刻就是好爽啊！！哈哈哈哈哈【更多信息】联络我们：微博@张小珺-Benita 更多信息欢迎关注公众号：张小珺

查看详情
2025-06-02 / 02:28:58

102. 和张祥雨聊，多模态研究的挣扎史和未来两年的 2 个“GPT-4 时刻”

今天这集，《商业访谈录》第一次迎来一位 co-host，是大家熟悉的李广密。广密邀请了大模型公司阶跃星辰的首席科学家张祥雨，来聊聊，多模态的前世今生和未来技术的前沿走向。张祥雨在这集节目详细阐述了：他参与的多模态的 10 年历史，对多模态的全新思考，以及所预见的下一个“GPT-4 时刻”。他提到一个细节：在训练过程中他曾经发现一件百思不得其解的现象——模型的通用对话能力、情商和知识量都是随着模型变大变得更强，但模型的推理能力（尤其是数学）表现却是先上升后平缓，再扩大反而是下降——这点在业界还未引发广泛讨论。关于这个怪现象，他也给出了自己的解答。下面是广密和祥雨的聊天。 2025，我们和 AI 共同进步！我们的播客节目在腾讯新闻首发，大家可以前往关注哦，这样可以第一时间获取节目信息和更多新闻资讯：）多模态研究的 10 年史：迷茫和转机 02:00 张祥雨的学术经历和个人研究主线 12:25 CV（计算机视觉）向 NLP（自然语言处理）的学习历史 17:14 2022 年我开始对单纯靠视觉学出“CV 领域的 GPT 时刻”比较悲观 18:22 纯视觉这个 domain 有什么问题？GPT 这样的生成模型你可以同时拥有生成、理解和人类对齐，而静态图像这三者是割裂的 24:23 我停止了对静态图像表征的研究，构思新的研究主题：短期内利用视觉和语言的对齐关系 29:10 经过尝试还是没做到图像的理解、生成和对齐一体化，我得到一个越来越强的生成模型，和一个越来越强的理解模型，没有起到叠加效果——为什么如此难以融合？ 38:45 做了大半年十分迷茫，但在此刻出现了转机训练大模型发现的怪事、蛛丝马迹与办法 41:11 训练过程中发现了一件百思不得其解的怪事：模型的通用对话能力、情商、知识量确实模型越大越强，但模型的推理能力（尤其是数学）表现是先上升后平缓，再扩大反而是下降 43:10 一些蛛丝马迹：更大的模型做数学题倾向于跳步，不老实 44:33 经过分析，这是 next token prediction 的本质缺陷 45:42 更大的压缩率未必对应更高的计算精度，我们来做一个思想实验 47:27 生成模型的“特征坍缩现象” 50:48 解决方案就是引入 RL（强化学习） 53:28 o1 的核心是思维链的 pattern——“做思考模型，pattern is all you need” 01:01:52 当模型走到某一步，摆在面前有两个分支——走左边？还是走右边？——一个 token 之内到底能不能解决？（critical decision）——不能，所以引入反思 pattern 01:10:16 o1 范式的本质是一种 Meta-CoT ，是 CoT 的 CoT 对多模态研究的新思考和新进展 01:10:57 研究完 o1，返回研究为什么视觉生成可控性这么差，就有了眉目 01:15:13 简单把生成和理解做到一起，难度非常大，缺失了重要一环 CoT 01:15:54 去年中开启新的 project：视觉理解（视觉空间的 Long CoT） 01:19:06 尝试了半年，结果给大家透露一下吧！ 01:21:30 o 系列不仅泛化了 domain，更吸引人的是泛化了 pattern 01:22:16 博弈类问题是难以泛化的领域，有很多无效思考和低级错误 01:24:07 o1 激发的反思 pattern，在预训练语料中都有分布了 01:31:31 关于预训练加多模态数据有两种说法：影响了 text 智商？还是增强了 scaling law？ 01:36:43 往后两条腿走：扩充预训练语料和扩展动作空间 01:45:42 多模态的“GPT-4 时刻”还有多久预见下一个“GPT-4 时刻”01:46:56 long context 和多模型协作 02:07:09 架构不重要，架构是服务算法和系统的（为什么我说 Linear Transformer 不本质） 02:08:30 下一个“GPT-4 时刻”？模型的在线学习/自主学习 02:21:22 澄清一些有关 Agent 的观点 02:25:00 人虽然没有生成器官，但人有世界模型 02:26:34 我们的智能水平还在为视觉挣扎，机器人领域在抢跑【更多信息】联络我们：微博@张小珺-Benita 更多信息欢迎关注公众号：张小珺

查看详情
2025-05-28 / 02:42:44

101. 对 YouWare 创始人明超平 3 小时访谈：今天 Agent 像大猩猩刚拿起一根烧火棍

今天的嘉宾是明超平（小明/Leon），一名 AI 应用创业者。 2024 年的 AI 叙事还是大模型，《商业访谈录》访谈了杨植麟、王小川、李开复等大模型公司创始人；稍一转眼，2025 年的 AI 叙事已然变成应用公司和 Agent——新的主角登场了。这集节目和往期《对 Manus 创始人肖弘的 3 小时访谈：世界不是线性外推，做博弈中的重要变量》一样，也是来自一线“AI 应用爆发”、“Agent 爆发”的前沿声音。在中国创投圈，明超平是一位创业伊始就受到资本相对共识的创业者。他出生于 95 年，曾先后在 OnePlus、ByteDance、Moonshot 做产品。这是他第一次做 CEO，发的第一个产品叫 YouWare。他和我们此前的两位嘉宾有一些渊源：一个是杨植麟，2023 年他和杨植麟深谈了 10 个小时，从白天到黑夜，聊完决定加入 Moonshot；另一个是肖宏，有时候我会听到创投业人士将小明与小红对比来聊，说他们都属于“Hands-on 型、产品型创业者”。是不是这样呢？今天的 3 小时访谈希望能呈现小明的真实状态，是不是大家说了算。不过，虽然老被关联，小红与小明至今没见过。期待 2025，我们和 AI 共同进步：）我们的播客节目在腾讯新闻首发，大家可以前往关注哦，这样可以第一时间获取节目信息和更多新闻资讯：） 03:16 开始的快问快答那些散漫的叛逆的挫败的少年成长 04:36 童年和少年片段 06:52 我在武大打辩论，尤其擅长四辩 13:00 辩论让我学会的最重要的：“永远具有第三方视角，辩论不是说服你的对手”，“1 秒钟把自己变成傻子”（by 张小龙） 14:40 大学后两年基本睡在实验室里，沉浸式打“智能汽车竞赛”，拿了国奖 19:43 哎，好惨，惨痛的经历——我是输掉比赛最多的队员，也是拿最佳辩手最多的队员 23:06 那是学长的退役比赛，我到今天还很愧疚产品经理之路的前三站：OnePlus、ByteDance、Moonshot 26:37 产品经理之路第一站：OnePlus 导师带我们去坐地铁、逛商场 30:18 “体验不是数据”：续航数据和续航体验不划等号，95-100%和 0-5%电量是用户对体验最敏感焦虑的时候 33:58 产品经理之路第二站：刚去字节极不适应，觉得自己很菜 37:42 字节产品方法论劣势是什么？“它会磨灭掉很多灵光一现的创意” 39:35 “数据是‘开车的后视镜’，但它不能指引你前进” 41:03 字节没有乔布斯，字节没有张小龙，但字节有一鸣啊——有一些很小很小的创业团队，一鸣都聊过了 42:08 怎么看字节过去这些年出来了许多创业者，但无人大成？ 43:28 23 年和杨植麟聊了 10 个小时，聊音乐、艺术、爱好、产品、过去的经历，实在是到晚上 8 点我们要去吃 pizza，我说“要不给我讲讲技术吧” 50:14 海外产品 Noisee 的走红与骤停 01:03:03 字节能成为字节，契合了时代几个重要变量（移动设备普及、带宽速度、推荐引擎）跳下大船创业啦！ 01:05:05 立马就遇到 the bitter lesson（苦涩的教训） 01:11:59 想雕花的本能，情不自禁给它更多脚手架，你会和这个时代的最大变量背道而驰 01:12:45 突然意识到，这个东西不对劲——产品没上线就停掉了 01:13:18 失眠的顿悟：AI 时代关键指标之一是“token 消耗速度”，要追求“per token valuation” 01:16:33 “壳”被低估了，应该叫“容器”和“环境”（环境是人的反应器） 01:17:52 只给用户一个 Chatbot 输入框，是蛮不负责任的 01:21:18 今天 Coding 发展和当年 Camera 类似，早期聊相机说的是“拿着单反的人”，巨大变化是出现了新的人群——“手机摄影师” 01:23:50 早期趋势变量是出现新的人群，增速快，今天的新人群是“Vibe Coder（氛围编程师）” 01:25:23 今天 Anthropic 是不是承担索尼的角色？其他创业公司把时间花在 Camera/基座模型上，还是花在——随着 Camera 迭代出现了 Snapchat、Instagram、TikTok、TikTok Live 今天的 Agent 就像大猩猩刚拿起一根烧火棍 01:37:12 Agent 未来可能的两种生态：类比新加坡 vs 美国 01:40:44 Page rank 变成 Agent rank 01:42:07 如果你把所有 to C 公司都变成 to B 公司，会受到大家的反抗 01:44:02 Agent 的网络效应 01:46:02 我们也想成为 OS Agent 呀！——路径不告诉你：） 01:46:30 我对团队说：“咱们 99.9%是要死掉的” 01:46:57 今天的 Agent 像一个大猩猩拿起石头开始砸东西 01:47:58 “永远相信 Model 会变好，永远相信 Model 和你无关” 01:49:50 基础模型在造更聪明的人，应用公司在通过环境/经验适用我们的生产需求 01:53:54 我设想的 OS Agent：它是活的 01:58:26 Agent 接下来会像人类社会出现部落，遇到信任问题，需要身份证、密码锁 02:03:33 过去 2 年对 AI 技术和产品的观察（以更高效的方式消耗 token、压榨智能）第一次做 CEO 02:14:50 给你的员工提供情绪价值 02:19:53 90 后 founders 更自信、更洒脱、更叛逆 02:21:17 融资风生水起，我却感觉如履薄冰 02:23:35 有意识地对抗 Ego 02:33:45 棋手和对弈的人 02:36:57 最后的快问快答相关单集：和杨植麟聊大模型创业这一年：人类理想的增量、有概率的非共识和 Sora 和王小川聊再创业这一年：回应朱啸虎与中国 AGI 第三种可能和李开复聊聊：如果美国形成 AGI 霸权，我们应该怎么办？对 Manus 创始人肖弘的 3 小时访谈：世界不是线性外推，做博弈中的重要变量【更多信息】联络我们：微博@张小珺-Benita，小红书@张小珺更多信息欢迎关注公众号：张小珺

查看详情
2025-05-23 / 00:57:57

100. 对话奔驰全球 CEO 康林松：转型期 CEO 和转型之中的 139 岁奔驰

2025 年 3 月底，奔驰汽车全球 CEO 康林松先生（Ola Källenius）来华 9 天，期间我对他做了一次访谈。奔驰是世界上第一个发明了燃油车的公司，现在正处于奔驰 139 年历史上最重大变革时期，可以说康林松是主导这场关键变革的“一名转型期 CEO”。他 1969 年出生于瑞典，1993 年加入了奔驰，绝大多数职业生涯都在奔驰；6 年前，他在 2019 年担任了奔驰全球 CEO。值得一提的是，他是奔驰历史上第一位在上任时非德裔的 CEO。我和康林松先生聊了聊他上任 6 年的重要战略决策（包括豪华车战略、电动化战略）、中国市场的成与败、科技平权与豪华车是否有悖论，以及在他领导之下的这场奔驰有史以来最重大的关键变革。我想给大家呈现的是一个，转折之中的 139 岁巨人。我们的播客节目在腾讯新闻首发，大家可以前往关注哦，这样可以第一时间获取节目信息和更多新闻资讯：） 04:12 第一部分：谈中国市场过去 6 年，你对中国市场最重要的观点是什么？你们在中国的市场份额过去 3 年一直下降，什么原因导致的? 这是否意味你们在中国的电动车之战中，输了？你们更强调豪华车战略，而不是电动化转型，是这样吗？你喜欢中国汽车里的彩电、冰箱、大沙发吗？你们在中国市场的成败会决定全球转型的成败吗? 计划采用哪些创新策略来扭转在中国市场的局面? 18:24 第二部分：谈 AI 和新技术外界说特斯拉在电动车上比你们领先 10 年，你如何回应? 但如果你们无法控制所有技术，你们能控制自己的豪华车吗？随着汽车行业转向电动化和智能驾驶，奔驰没有完全引领这些新技术，奔驰还能主导豪华吗？你们正在测试固态电池，能否分享更多进展？人工智能将如何改变全球汽车行业的游戏规则？中国 DeepSeek 正在全球范围内崛起，你会考虑合作吗？随着“技术民主化”，技术不再是超级排他性，消费者还需要豪华车吗？如果必须在豪华和科技之间选择，你会选择哪一个？如果卡尔本茨先生还在世，你觉得他会选哪一个？ 40:17 第三部分：谈转型期 CEO 和转型之中的奔驰拥有 139 年历史的奔驰巨头，如今正处于其历史上前所未有的转折点上？回到 2019 年 5 月 22 日，你接任首席执行官的那一天，那天都发生了什么？作为变革时期掌舵者，请说出你至今面临过的最大困境特斯拉和中国车企仍然是创始人驱动，而德国汽车制造商经历了几代职业经理人，这是否会让德国汽车制造商更加保守？你有没有感觉过，这位 139 岁的巨人转型缓慢？当你做出每一个重大决定时，有没有觉得本茨先生在关注着你？这会让你有很大压力吗？如果能问卡尔本茨先生一个问题，你想问什么？

查看详情
2025-04-28 / 02:34:35

99. 对能量奇点创始人杨钊 3 小时访谈：人类驯服可控核聚变还有多少路程？

2021 年，Sam Altman 以个人名义向美国核聚变初创公司 Helion Energy 注资 3.75 亿美金，这是他迄今最大的一笔个人下注。Helion 豪言称，将在 2028 年前建成全球首座 50 兆瓦聚变电厂。马斯克持不同看法。他曾说：“我们的头顶一直就有一个取之不尽、用之不竭的核聚变反应堆——太阳”。他相信太阳能才是人类能源问题的根本路径。不过，在许多人眼中，可控核聚变仍然是“能源界的圣杯”。随着今天我们向 AGI 迈进，能源将是文明演进的最大瓶颈——毕竟，AGI 或许不惧怕人类，但一定害怕断电。这集节目，我邀请了中国可控核聚变创业公司、能量奇点创始人杨钊来聊聊。相比 AI，可控核聚变是一条更漫长、更人迹罕至的创业之路。它几乎是面对人类有史以来最复杂的物理难题之一，站在科技与人类文明的边界上，做技术摸索。节目中，杨钊帮我们做了一次关于可控核聚变的前沿技术科普；作为中国可控核聚变事业的参与者，他也相对清晰地计算出了，人类驯服可控核聚变还需要多少资金要消耗？还有多少路程要走？我们也聊了聊，在更远处的未来，当能源成为无限，我们的世界、我们的文明又将怎样？我们的播客节目在腾讯新闻首发，大家可以前往关注哦，这样可以第一时间获取节目信息和更多新闻资讯：）03:00 开始的快问快答高频专业名词解释 04:10 核聚变、核裂变、可控核聚变、托卡马克、高温超导托卡马克，全世界只有 3 台全低温超导装置 13:22 多国联合推出的“国际热核聚变实验堆计划”（ITER），一个超大型托卡马克装置，已投入资金 250 亿欧元，建设周期 30 年 14:47 高温超导材料和低温超导材料都是低温（高温超导在的能量增益的条件下，可以将装置体积缩小两个数量级，也意味建造成本大约缩小两个数量级） 19:17 一个关键指标：Q 值/能量增益由三乘积（等离子体的密度×温度×约束时间）决定，Q 值全球最高刚过 1，目前追求 Q>10 可控核聚变的历史 21:55 从爱因斯坦质能方程 E=MC²开始说起，非常小质量损失会产生巨大能量 27:09 从氢弹到惯性约束到磁约束，不同磁场形状对应不同磁约束分叉技术路线 27:50 上个世纪 60 年代，苏联想到用甜甜圈一样的磁场位形托卡马克路线 28:50 全世界大概有 100 台以上托卡马克装置 29:11 从用铜做托卡马克的时代过渡到用超导做托卡马克 30:17 2024 年，我们建成全世界第一台全高温超导托卡马克（“洪荒 70”装置）核聚变创业这 4 年 34:01 2021 年想法：也许高温超导显著缩小装置体积，将成本两个数量级降低 39:43 想清楚以后搭团队，最开始 4 个人 41:05 杨钊的个人背景：斯坦福博士方向是比较底层的物理，量子引力、弦论、量子引力和量子信息的交叉，离这个世界比较远的基础物理 46:36 人类科学的“明珠”和“有生之年”系列 51:05 从博士毕业到核聚变创业之间？在金沙江创投美国做 EIR（驻场准创业者）、第一段人工智能和音乐教育结合的创业 55:36 2021 年初，针对核聚变科研院所和供应商的市场调研 “洪荒 70”、“洪荒 170”和经天磁体 59:37 “洪荒 70”是怎么建造的？做一台全高温超导托卡马克需要几步？ 01:07:33 每个环节都在不断出问题，你越接近实物状态，你的问题越大、问题越多，改动修补成本越高 01:15:43 “洪荒 70”的意义 01:18:49 通往第一个可控核聚变商品的“三步走” 01:21:10 经天磁体（大孔径磁体）和“洪荒 170”的意义 01:35:18 点评世界上 3 台全低温超导装置（中国合肥的 EAST、韩国的 KSTAR、日本的 JT-60SA） 01:38:40 “洪荒 380”，按照完整能长时间运行的示范电站的要求做人类驯服可控核聚变还有多少路程？01:41:40 Sam Altman 迄今为止最大的一笔个人投资是 Helion Energy：“磁场位形是直线性的，不像我们是甜甜圈” 01:45:06 核聚变和 AI 的关系是什么？ 01:52:13 中美核聚变市场格局的分割与差异 01:54:10 我们和 CFS（Commonwealth Fusion Systems，美国麻省理工学院分拆出来的联邦核聚变系统公司）技术路线是相似的 01:56:40 真正聚变商业化的原料需要用氘氘去发电，而不是氘氚 02:03:16 当能源无限，世界会怎么样？ 02:04:57 聊聊自我与组织、登山与跌落 02:30:57 最后的快问快答位于上海临港的能量奇点现场及装置图：（上图：公司外）（上图：厂房内）（上图：“洪荒 70”建设中）（上图：“洪荒 70”等离子体）（上图：“洪荒 70”建成时刻）（上图：“经天磁体”）（上图：“经天磁体”的测试系统，“经天磁体”躺在大罐子里）【更多信息】联络我们：微博@张小珺-Benita 更多信息欢迎关注公众号：张小珺

查看详情
2025-04-06 / 02:29:41

98. 逐篇讲解机器人基座模型和 VLA 经典论文——“人就是最智能的 VLA”

今天的嘉宾是清华大学交叉信息研究院助理教授、星动纪元创始人陈建宇。他的研究和创业方向都是人形机器人。大语言模型浪潮爆发后，学界和工业界看见了机器人从专用走向通用的可能迹象，机器人革命随之而来。其中，本轮革命最重要的是，对机器人底层架构，也就是机器人“大脑”的探索。但通用机器人还在科学研究阶段，处于产业发展早期。这集节目，陈老师将带领大家，概览式阅读机器人基座模型和当下最前沿的架构 VLA 架构（Vision-Language-Action Model，视觉语言动作模型）的经典论文。希望我们的节目能直观地帮助更多人靠近科学前线，感受技术之美，并且能直观感知当前技术拐点。还是那句话：期待 2025，我们和 AI 共同进步！（因为因为，陈老师真的分享了很多很多的动图和视频，本集结合视频服用效果更佳噢！可以前往：含投屏的视频版本。嘿嘿！预祝你学得开心！学得顺利啦！）我们的播客节目在腾讯新闻首发，大家可以前往关注哦，这样可以第一时间获取节目信息和更多新闻资讯：）02:30 陈建宇的研究和创业方向 04:11 讲解开始前，先提问几个小问题 17:36 当下最大变量：从专用模型到通用模型（robot foundation model）的可能性 21:12 大模型浪潮爆发后，机器人领域经历了两个阶段：从利用基础模型进行机器人研究（leveraging foundation models in robotics）到为机器人预训练基础模型（pretraining foundation models for robotics）第一阶段：利用基础模型进行机器人研究（leveraging foundation models in robotics）21:59 机器人传统三板块：Planning+Perception+Actuation（规划+感知+执行）——第一步，用 LLM（Large Language Model，大语言模型）替代 Planning 23:54 由 Google Robotics 团队提出的具身智能开创性论文 Say Can《Do As I Can, Not As I Say: Grounding Language in Robotic Affordances》（中文名：我能做到，而不是我说到：将语言与机器人的可供性相结合） 27:03 第二步，用 VLM（Vision-Language Models，视觉语言模型）替代 Perception 27:52 来自 Google 的论文《Inner Monologue: Embodied Reasoning through Planning with Language Models》（中文名：内心独白：通过语言模型规划进行具身推理） 29:51 由清华和上海姚期智研究院提出的《DoReMi: Grounding Language Model by Detecting and Recovering from Plan-Execution Misalignment》（中文名：DoReMi：通过检测和恢复规划-执行不一致来落地语言模型） 32:47 第三步，想把 Actuation 进一步自动化，用 Code LM（专门用于代码相关任务的大型语言模型）来替代 Actuation 32:24 由李飞飞团队提出的《VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models》（中文名：VoxPoser：使用语言模型进行机器人操作的可组合 3D 价值地图）第二阶段：为机器人预训练基础模型（pretraining foundation models for robotics）38:36 VLA 端到端模型（Vision-Language-Action Model，视觉语言动作模型）——“人是很智能的 VLA Agent” 39:53 关于 VLA 的经典论文及分类： 40:17 Aloha 论文《Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware》（中文名：学习用低成本硬件进行精细双手操作） 47:36 Mobile Aloha 论文《Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation》（中文名：移动 ALOHA：使用低成本全身远程操作学习双手移动操作） 50:15 论文《A Generalist Agent》介绍了一个名为 Gato 的通用型人工智能代理（中文名：通用型代理） 52:45 RT-1 论文《RT-1: Robotics Transformer for Real-World Control at Scale》（中文名：RT-1：机器人 Transformer 用于大规模现实世界控制） 59:02 Octo 论文《Octo: An Open-Source Generalist Robot Policy》（中文名：Octo：一个开源的通用机器人策略） 01:02:20 CrossFormer 论文《Scaling Cross-Embodied Learning: One Policy for Manipulation, Navigation, Locomotion and Aviation》（中文名：扩展跨具身学习：操控、导航、运动和飞行的统一策略） 01:06:58 字节跳动 AI Lab 的两个工作 GR-1 和 GR-2：《Unleashing Large-Scale Video Generative Pre-Training For Visual Robot Manipulation》（为视觉机器人操控释放大规模视频生成预训练模型）《A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation》（用于机器人操作的网络规模知识生成视频-语言-动作模型》） 01:15:02 Palm-E 论文《PaLM-E: An Embodied Multimodal Language Model》（中文名：PaLM-E：具身多模态语言模型） 01:20:02 当前 VLA 最有名的开山工作：Google 推出的 RT-2 论文《RT-2：Vision-Language-Action Models Transfer Web Knowledge to Robotic Control》（中文名：RT-2：视觉-语言-动作模型将网络知识迁移到机器人控制中） 01:26:05 RT-X 论文《Open X-Embodiment: Robotic Learning Datasets and RT-X Models》（中文名：开放 X 具身：机器人学习数据集与 RT-X 模型） 01:31:16 《OpenVLA: An Open-Source Vision-Language-Action Model》（约等于开源版 RT-2）（中文名：OpenVLA：一个开源的视觉-语言-动作模型） 01:32:56 陈建宇课题组《HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers》（中文名：HiRT：利用分层机器人 Transformer 增强机器人控制） 01:38:40 Figure AI Helix，没发论文，但是今年 Figure 最新架构 01:39:28 Pi0 论文《π₀: A Vision-Language-Action Flow Model for General Robot Control》（中文名：π₀：一个视觉-语言-动作的流模型用于通用机器人控制） 01:41:36 英伟达最近发布的 GROOT N1 模型《GR00T N1: An Open Foundation Model for Generalist Humanoid Robots》（中文名：GR00T N1：通用人形机器人的开放基础模型） 01:42:32 《Diffusion Policy: Visuomotor Policy Learning via Action Diffusion》（中文名：扩散策略：通过动作扩散进行视觉运动策略学习） 01:47:39 清华发布的《RDT-1B: A Diffusion Foundation Model for Bimanual Manipulation》（中文名：RDT-1B：双手操作机器人的扩散基础模型） 01:51:04 《Prediction with Action: Visual Policy Learning via Joint Denoising Process》（动作预测：通过联合去噪过程进行视觉策略学习）和续作《Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations》（视频预测策略：一个预测视觉表征的通才机器人策略） 02:03:06 两个未来方向：《UP-VLA: A Unified Understanding and Prediction Model for Embodied Agent》（UP-VLA：具身智能体的统一理解与预测模型）《Improving Vision-Language-Action Model with Online Reinforcement Learning》（通过在线强化学习改进视觉-语言-动作模型） 02:09:22 最后的提问【技术之美】系列：逐句讲解 DeepSeek-R1、Kimi K1.5、OpenAI o1 技术报告——“最优美的算法最干净” 逐篇讲解 DeepSeek 关键 9 篇论文及创新点——“勇敢者的游戏” 逐篇讲解 DeepSeek、Kimi、MiniMax 注意力机制新论文——“硬件上的暴力美学” 【更多信息】联络我们：微博@张小珺-Benita，小红书@张小珺更多信息欢迎关注公众号：张小珺

查看详情
2025-03-30 / 02:01:10

97. 25 年 Q1 大模型季报：和广密聊当下最大非共识、AGI 的主线与主峰

很多人在催更《全球大模型季报》的 2025 年第一集，在 Q1 的最后一天，终于和大家见面了！这一集广密依然带来了信息满满的有关于全球大模型最新的的前沿认知。经历了最近几个月的全球 AI 格局巨变，他最大的变化是，重新坚信了 Pre-training（预训练）——认为只有 Pre-training 才能决定模型内在的上限，涌现新能力，而 Post-training+RL（后训练+强化学习）是加强。在这一集季报中，我们对于 Q1 的全球明星 DeepSeek、作为模型“盗火者”的 Manus、OpenAI 的烟雾弹、硅谷的认知分歧与价值观、未来的范式级新路线，都进行了一一讨论。更重要的是，他更新了在一位 AGI 原教旨主义者的眼中，AGI 的主线、珠峰与路途。希望《全球大模型季报》能持续陪伴你，2025，我们和 AI 共同进步！我们的播客节目在腾讯新闻首发，大家可以前往关注哦，这样可以第一时间获取节目信息和更多新闻资讯：）04:22 Pre-training 叙事卷土重来今天最大非共识是 Pre-training 空间还非常大，Pre-training 决定了模型内在的上限还是要再喊一下，大家还是要重视 Pre-training 了，这个最本质 OpenAI 现在不那么重视 Pre-training，为什么？OpenAI 的 Pre-train 核心团队一直挺动荡 11:56 Coding 是最通用赛博世界的环境，是模型的手我对两年内实现 AGI 有前所未有的信心 Coding 意义不在于编程本身，而在于 Coding 是数字经济 GDP 活动最重要的环境，是最通用的赛博世界的环境 Coding 是比搜索引擎和推荐引擎重要的东西 19:55 OpenAI vs Anthropic：战略是不同组织能力的表达 OpenAI 和 Anthropic 同宗同源，最开始路线一样，但走着走着，核心战略 bet 或路线已经发生了分化 OpenAI 是 frontier team 做出了 O 系列，frontier team 的老大 Mark Chen 现在成为了仅次于 Sam/Greg 的三号人物硅谷的认知分歧？这个问题本质是：智能重要，还是流量重要？我有点担心 OpenAI 过早的走向一家消费互联网公司 30:18 一位 AGI 原教旨主义眼中的 AGI roadmap（路线图）智能提升是唯一主线，智能本身就是最大应用今天回头看，ChatGPT 只是这座高山山脚的第一站，后面还有很多个山头：Coding、Coding Agent、General Agent、AI for Science、Robotics ChatGPT 只是前菜，接下来 Agent 才是正餐今天还是围绕智能主线，最重要的是 push 智能能力往上走，做应用的要构建一个环境或容器，承接研究溢出的智能红利文生图有可能是 OpenAI 烟雾弹今天做 Robotics Foundation model/Research 的做法不够本质 26/27 年可能是 AI for Science 爆发的时间点 43:00 智能的本质是什么？这是个极好的问题——大家有想法可以打在评论区：）人类进化就 3 个关键词：1. 生存，2. 探索，3. 自动化智能进步的衡量标志是什么？一个 Chatbot 对话可能消耗几千个 Token，一个 Perplexity 搜索大概几十 K Token，但一个 Manus 平均可能要 70-80 万个 Token 48:03 Agent 是新物种“智能水平离 AGI 越近，可能就越像宇宙大爆炸” Agent 落地最关键的 3 个能力：1. Long Context reasoning, 2. Tool use, 3. Instruction following 指令遵循 AGI 接下来的 milestone 是 long-term memory，这个会取代 long context 55:49 未来范式级的路线，可能 Online Learning 是一个如果说未来还有范式级的路线，可能 Online Learning 是一个，让模型可以在线自主探索并学习对 GPU 或者英伟达叙事影响有多大？怎么看待贾扬清的公司（Lepton AI）被卖掉？英伟达在下一盘什么大棋？ 01:02:45 模型与产品的关系、壁垒和商业模式今天定价为什么 20 美元，是 copy SaaS 的定价吗？但 SaaS 不会消耗大量 token 裸模型发布的时代即将结束？形成壁垒主要是两个：一是成为 Cloud，OpenAI 自己变成微软的 Azure Cloud；二是成为 OS，要有生态，后面打造新的 Operating System 投资人怎么投 AI 应用？模型长期会把产品吃掉吗？本质是，feature system vs Learning system 哪个更快 Perplexity/Cursor/Manus 都是“模型的盗火者” 01:15:11 全球大模型公司竞争格局和全球 AI 产品公司 GPT-4.5 算不算领先？GPT-5 为什么一直在跳票？OpenAI 有没有失败的风险？怎么看待 OpenAI 支持了 Anthropic 的 MCP 协议？OpenAI 和微软为什么会有裂痕？分家对微软影响多大？ Manus vs Perplexity，都是执行力很强的团队，被称作“套壳之王” 理想的投资组合：25% Anthropic, 25% Bytedance, 10% OpenAI, 10% Mira Thinking Machine Lab, 5% SSI, 5% Cursor, 5% Manus, 另外 15%还没想好如果 DeepSeek 融资，我会放基金的 25% 01:54:32 中美格局：如何跨越地缘封锁科技投资不是靠“混”能混出结果的，很多 VC investor 到处混圈子，其实没意义，还是得靠“创造” 【全球大模型季报】系列 2023 年：口述全球大模型这一年：人类千亿科学豪赌与参差的中美景观 2024 年 Q1：和广密聊 AGI 大基建时代：电+芯片=产出智能 2024 年 Q2：口述全球大模型这半年：Perplexity 突然火爆和尚未爆发的 AI 应用生态 2024 年 Q3：AGI 范式大转移：和广密预言草莓、OpenAI o1 和 self-play RL 2024 年 Q4：大模型季报年终特辑：和广密预言 LLM 产品超越 Google 之路【免责声明】单纯内容分享，不作为投资建议。【更多信息】联络我们：微博@张小珺-Benita，小红书@张小珺更多信息欢迎关注公众号：张小珺

查看详情
2025-03-16 / 02:00:19

96. 和郎咸朋聊，自动驾驶 10 年演进史、关键技术细节和特斯拉

今天发布的是和理想汽车自动驾驶研发副总裁郎咸朋的聊天。本次访谈发生在 2024 年 12 月，和我们之前发布的《对李想的 3 小时访谈》在同一时期进行。郎咸朋 13-18 年在百度做自动驾驶，18 年加入理想，过去 10 年都在中国的自动驾驶领域。他以亲历者的视角聊了自动驾驶 10 年演进史，详解了其中的关键节点和技术细节。这次谈话更像是对自动驾驶的一次技术科普。我觉得我们聊的还不错，所以决定分享给大家。（因为访谈发生在去年，如果大家听到今年，指的是 24 年；如果听到去年，指的是 23 年。）期待 2025，我们和 AI 共同进步！我们的播客节目在腾讯新闻首发，大家可以前往关注哦，这样可以第一时间获取节目信息和更多新闻资讯：）01:32 10 年前的自动驾驶当成有轨电车研发，现在看起来很可笑 04:30 2018 年，从高精地图+激光雷达到 BEV+Transformer，Tesla 是标杆 12:07 当年激光雷达 50-60 万/台，早期百度/Cruise 一辆车 7-8 个激光雷达，传感器成本远高于这辆车（当时我们在百度，一辆车 500 万人民币） 13:09 为什么特斯拉要用视觉解决问题？为什么自己造芯片？ 15:16 特斯拉一辆车的传感器+芯片成本？一辆车有几个芯片？ 20:06 特斯拉总在用“升维”方式解决问题 25:06 激光雷达和 camera 解决方案区别 28:46 端到端、“我们以前做自动驾驶都做错了” 41:14 我的工作经历：13-18 年在百度，18 年开始在理想 50:50 “L3 不是 L2 的延长，而是 L4 的先导” 01:15:15 端到端是最典型的强化学习，端到端+VLM+世界模型是 RL 架构 01:26:40 2024 年 3 月李想对智驾团队发火 01:32:23 “卫城”项目：“他就觉得你一定要跪下来求他”“老子就算死也要站着死” 01:35:51 想过职业生涯栽在这儿吗？李想脾气不太好？【从蒸汽机到无人驾驶】系列对李想的 3 小时访谈（播客版）：宅男、AI、家庭、游戏和天梯和何小鹏聊，FSD、“在血海游泳”、乱世中的英雄与狗熊和楼天城聊聊 Robotaxi 和 ACRush：“L2 做得越厉害，离 L4 越远” 从蒸汽机到无人驾驶 3｜和孟醒聊特斯拉 FSD 进化史从蒸汽机到无人驾驶 4｜Waymo 和它的对手们：我暗中考察了四个月【更多信息】联络我们：微博@张小珺-Benita，小红书@张小珺更多信息欢迎关注公众号：张小珺

查看详情