正在加载

返回列表
张小珺 Jùn|商业访谈录

张小珺 Jùn|商业访谈录

努力做中国最优质的科技、商业访谈。 张小珺:财经作者,写作中国商业深度报道,范围包括 AI、科技巨头、风险投资和知名人物,也是播客《张小珺 Jùn | 商业访谈录》制作人。 如果我的访谈能陪你走一段孤独的未知的路,也许有一天可以离目的地更近一点,我就很温暖:)

分集
  • 2025-08-27 / 01:41:13

    今天的嘉宾是月之暗面创始人兼 CEO 杨植麟,距离他上一次来我们的节目(《商业访谈录》59 集)已经过去 1 年半。 就在刚刚过去的 7 月,Kimi K2 模型发布,引发了比较广泛的关注。K2 是一个基于 MoE 架构的开源编程和 Agentic 大语言模型。形象来说,模型借助编程能力走出封闭的“缸中之脑”,长出了“手”,开始操控外部数字世界。 今天这集节目我和杨植麟聊了聊 K2 的研发和他当下的技术认知、技术判断。 以及,在过去一年的舆论风暴与创业起伏中,作为创始人,他的心情与思考。 01:49 一座无限的山这有点像我最近在看的一本书:The Beginning of Infinity(无穷的开始) 也许有一天会发现,这座雪山没有尽头,我希望它一直没有尽头 但它还是一个“缸中之脑”:想象一个鱼缸,你把一个脑子放在里面,跟外界没有联系 不管是基于长思考的强化学习,还是 Agent 的强化学习,都指向同一个东西:test-time scaling(测试时扩展) 还有一个很有意思的趋势是,现在有更多模型公司去做“一方的 Agent 产品” L1 到 L5 不一定是串行关系,Claude 就 bet 这一点:它在 Reasoning 上做得不是特别多,但在 Agent 上做得非常好 只有当模型参与到开发过程,才能解锁真正的 Innovator(L4)阶段 24:58 K2 是乔戈里峰 K2 的重点有几个:一,我们希望它是一个非常好的基础模型 我们希望能最大化使用每一份数据,就是所谓 token efficiency——喂一样多的数据,“脑子”长得更多 我们会对数据做很多 Rephrase(改写)操作 我们很关注 Muon 优化器,它对 token efficiency 提升很大 二,我们希望 K2 有好的 Agentic 能力,对于 Agentic 模型来讲,最大挑战是模型的泛化 它可能是一个从“缸中之脑”变成可以跟世界交互,因为所谓 Agent 最重要的特征是,可以多轮地使用工具 人是所谓的 universal constructor(万能构造器) 有一种潜在思路,需要用更 AI native(原生人工智能)的方式去训练 AI Muon 你去训的时候,它会炸 54:08 既简单又复杂的系统为什么 Kimi 从闭源转向开源? 模型训练完成,产品也基本完成了,做交互上的改进当然有价值,但那是锦上添花的一步 多模态不损伤“脑子”已经很好了 你可能学出来的多模态是个“傻的多模态”,我们希望它是个“聪明的多模态” Scaling Law 遇到数据墙了,这是客观事实 数据飞轮很依赖外部环境的 feedback(反馈),我们不希望 feedback 有很多噪声,但现在没有把这个问题解决得非常好 现在看起来,基于 FLOPs 的 scaling 是更有效路径,但这个平衡什么时候会发生变化? 很多 Long Context 架构会影响“智商” 纯粹的 Linear Attention(线性注意力机制)可能影响智商,因为这个架构会有一些 bias(偏差) 基座模型公司和做 Agent 产品的应用公司,长期看边界在哪? 今天怎么思考商业模式?API 是好生意吗? Kimi 能赚钱吗? 01:25:05 在自己的故事里面 Tim(周昕宇)天天跟我讲——要用 RL 的方式去管理,而不是用 SFT 用 RL 管理团队最大问题是,你容易被 hack 很多复杂性都是人为强行加上去的,实际并没有那么复杂 只能说是在自己的这个故事里面——你不断地感受自己到底是什么样的一个人,你为什么要做这个事情 这个问题我也问过 Kimi,他说,AI 是“人类文明的放大器” 这也是 Kimi 跟我讲的——任何中间状态都有可能成为被批评的对象 肯定有恐惧,更多要关注你当前这一步,能做什么?——想这个问题更重要 2024 年对杨植麟的访谈: 《和杨植麟聊大模型创业这一年:人类理想的增量、有概率的非共识和 Sora》 【更多信息】 文字和视频版同步上线 文字版请前往公众号:语言即世界 language is world 视频版请前往 Bilibili:张小珺商业访谈录

  • 2025-08-18 / 01:09:11

    在大家的强烈催更下,新一集的《全球大模型季报》终于来了。 这一集有两个关键词。 第一个关键词是分化。硅谷各个模型公司在这个季度,开始分化到各个领域,除了 Google Gemini 和 OpenAI 还在做通用的模型;Anthropic 分化到 Coding、Agentic 的模型能力;Mira 的 Thinking Machines 分化到多模态和下一代交互。 第二个关键词是产品。《大模型季报》过去一直把视角放在模型的智能探索上,而广密开始浓墨重彩地聊产品,这还是第一次。 这里是《全球大模型季报》的第 7 集,如果大家喜欢我们的系列,希望大家多多给我们一些鼓励和支持。你们的夸奖对我们来说,非常的重要。 2025,期待我们和 AI 共同进步! 03:54 模型在分化 通用各项能力的模型 - Gemini/OpenAI All in Coding+Agentic 能力 - Anthropic 多模态原生 - Thinking Machines Lab Grok 今天还在摸索自己生态位置 Meta 原创 0-1 的基因还是很弱 最领先的这几家很像 F1 竞赛 21:37 横向全家桶,纵向垂直整合 C 端是一个非常明显的头部收敛趋势,ChatGPT 可能在 C 端会收敛掉很多产品 作为投资人或 AI 创业者,一面兴奋是技术每个月都在进步,另一面有点绝望 横向全家桶的例子是 ChatGPT,已经包含了 Chat+搜索+Coding+Agent+WorkSpace 纵向垂直整合的例子是 Gemini,从 TPU 芯片,到 Gemini 模型,到上面 Agent 应用,再到 Google 文档/Chrome 浏览器/安卓操作系统/YouTube 视频,可以做超级集成 33:35 智能和产品都重要 过去 3 年一直是对智能上限的探索极度上头,但在过去两个月开始重视产品了 ChatGPT 身上有很多非技术性壁垒,而 Coding 或模型公司只是技术壁垒 OpenAI 是平衡最好的一家,一边探索智能上限,一边又把智能红利转化成产品流量和品牌心智 38:52 做 AI 产品很像挖矿,保鲜窗口很关键 挖矿:第一个做出来让用户惊叹的体验很重要,哪怕 token 消耗很大,只要你是第一个做出来让用户惊叹的 Magic moments,就等于你起码得到了 5 亿美金的营销费用,比如 Perplexity/Cursor/Manus 但这个窗口期又特别有意思,窗口是逐渐在缩短的:从 2 年、1 年、3 个月 产品公司能赢过模型公司做的产品吗? 44:21 L4 级别的体验 最优秀的俩 Agent 都有了 L4 体验:ChatGPT 的 Deep Research + Anthropic 的 Claude Code,分别对应信息搜索+软件开发 今天最大红利还是 language/code 红利,尤其是 code,还不是多模态/世界模型/机器人 Claude Code 最近大杀四方,Claude Code 是一个 L4 的体验 接下来还有哪些领域能有 L4 级别体验? 52:43 对 Google 看法的转变 一个猜想是,ChatGPT 后面肯定会做广告平台,因为最近招了新的商业化 CEO 但我在想 Google 还是全球最好的广告平台,最后大家产品形态上都会殊途同归,融合到一起的,就是全家桶逻辑,Search 也会演变 55:53 其他话题 AGI 有泡沫吗?假如 AGI 有泡沫,什么事情会是导火索,戳破泡沫? 人类和大猩猩的智能水平差异在哪? 最近湾区有没有什么新的讨论比较高的话题? “犹太人的金融,华人的 AGI” (免责声明:本节目不构成投资建议) 【全球大模型季报】系列 2023 年:口述全球大模型这一年:人类千亿科学豪赌与参差的中美景观 2024 年 Q1:和广密聊 AGI 大基建时代:电+芯片=产出智能 2024 年 Q2:口述全球大模型这半年:Perplexity 突然火爆和尚未爆发的 AI 应用生态 2024 年 Q3:AGI 范式大转移:和广密预言草莓、OpenAI o1 和 self-play RL 2024 年 Q4:大模型季报年终特辑:和广密预言 LLM 产品超越 Google 之路 2025 年 Q1:大模型季报:和广密聊当下最大非共识、AGI 的主线与主峰

  • 2025-08-07 / 03:08:32

    过去 10 年,中国新能源汽车产业从无到有,经历蓬勃发展。大家最熟悉的可能是理想、小鹏、蔚来这些整车品牌,但另一面这场变革背后的产业链企业也在变化。 《商业访谈录》的 108 集对余凯和本集对禾赛联合创始人和 CEO 李一帆的 3 小时访谈,关注的都是汽车产业链上的隐形选手。 这集也是李一帆对他们做激光雷达 11 年硬核科技创业的一部口述史。 随着中国科技创新从互联网的模式创新,走向硬核科技的前沿创新,中国也许还会出现更多的技术型创业者。禾赛的故事也许能提供一个参考样本。 (本次访谈录制于 2025 年 4 月) 00:02:00 开始的快问快答 00:02:33 股价过山车 00:03:40 激光雷达 99.5%的降本 00:12:05 家庭和成长 00:32:13 罕见的 3 人平分股份 00:43:35 融资的伎俩 00:49:02 第一笔 2000 万大单 00:55:45 想说完蛋了… 01:10:06 余凯比多我一个 0 01:20:47 定价心思 01:38:15 开始倒戈 01:58:07 进入汽车大本营 02:38:34 新钱和老钱 03:02:16 最后的快问快答 【从蒸汽机到无人驾驶】系列 《对李想的 3 小时访谈(播客版):宅男、AI、家庭、游戏和天梯》 《和何小鹏聊,FSD、“在血海游泳”、乱世中的英雄与狗熊》 《对话奔驰全球 CEO 康林松:转型期 CEO 和转型之中的 139 岁奔驰》 《余凯口述 30 年史:世界不止刀光剑影,是一部人来人往的江湖故事》 《和楼天城聊聊 Robotaxi 和 ACRush:“L2 做得越厉害,离 L4 越远”》

  • 2025-07-30 / 02:20:45

    我们又来读论文啦!!! 今天我们要读的论文是最近几个星期内最值得品读的几篇技术报告,分别是:Kimi K2、ChatGPT Agent、Qwen3-Coder 的技术报告,以及 Manus 的一篇技术博文。他们的相关性是,这几篇内容都和 Agent 有关系。 今天的嘉宾是俄亥俄州立大学(The Ohio State University)的在读博士郑博元,他的研究方向是 Language Agent,他会带我们一起读上述技术报告和博文。 这是《商业访谈录》的“技术之美”系列,期待和你一起读论文,领略科技平权,感受技术之美——做你的赛博组会:) 00:02:00 给 Agent 下定义和分类 00:14:50 Kimi K2、ChatGPT Agent、Qwen3-Coder、Manus 的技术路线对比 00:28:29 Agent Training 的关键环节:合成数据、强化学习、安全 00:30:57 第一篇技术报告:Kimi K2: Open Agentic Intelligence github.com 00:43:50 第二篇技术报告和访谈:Introducing ChatGPT agent: bridging research and action openai.com 红杉访谈 OpenAI:OpenAI Just Released ChatGPT Agent, Its Most Powerful Agent Yet www.sequoiacap.com 01:53:38 第三篇技术报告:Qwen3-Coder: Agentic Coding in the World qwenlm.github.io 01:59:04 第四篇技术博文:AI 代理的上下文工程:构建 Manus 的经验教训(作者:Yichao 'Peak' Ji) manus.im 02:06:06 展望:也许会有一个新的范式 02:15:20 我感觉 Agent 是“我拓展的大脑”,我背后有一个“军团”(Family of Agents) 02:16:41 不同 Bot 的语言风格:DeepSeek 嘴臭,元宝舔狗 智能体定义 Agent 是一种能够与环境进行交互(interaction)的智能系统。 它具备两个基本能力: 感知能力(Perception) 能够观察环境的状态,包括获取外部信息、读取反馈信号、解析上下文等。 行动能力(Action) 能够在环境中执行动作,例如调用工具、生成输出、控制界面、修改变量等。 简言之,Agent = 感知 + 行动 在一个循环中不断执行“观察 → 决策 → 行动”的流程,以达成任务目标。 Agent 的定义与分类 1. Coding Agent(代码智能体) 代表产品:Cursor、Windsurf 特点:代码生成与编辑能力强,用户体验优秀 应用场景:代码补全、代码重构、多人协作编程 2. Search Agent(搜索型智能体) 特点:结合搜索引擎,自动完成信息检索和汇总 应用场景:市场调研、报告生成、竞争对手分析等 潜力:在企业级场景中有很强的应用价值 3. Tool-Use Agent(工具使用型智能体) 特点:能够调用多种外部工具完成复杂任务 应用重点:是目前 Agent 研究和落地的主要方向 举例:ReAct(推理 + 行动)类 Agent,通过 tool calling 执行任务 4. Computer Use Agent(电脑操作型智能体) 代表产品:OpenAI Operator、Claude 的 Computer Use 特点:模拟人类使用电脑,完成跨应用的复杂操作 应用场景:执行流程自动化、远程助理、办公代理 Agent 的技术路线对比 1. In-Context Learning(上下文学习) 特点:依赖强大的预训练模型,通过提示构造实现任务规划与执行 优势:无需微调,灵活性高 局限:泛化能力弱,rollout 长度有限,容易失控 2. End-to-End Training(端到端训练) 特点:将 Agent 的全部行为编码进模型权重 优势:推理稳定,可控性强 局限:训练成本高,环境构建复杂 Agent Training 的关键环节 1. Data Synthesis(数据合成) 方法:生成大量高质量的 trajectory(行动轨迹) 用途:训练 Agent 在任务中如何决策、调用工具、管理 memory(记忆) 2. Reinforcement Learning(强化学习) 条件:需要定义清晰的 task(任务)与 verifiable reward(可验证奖励) 挑战:任务难度与环境反馈设计直接影响 Agent 的行为质量 3. Safety(安全性)问题 风险:Agent 具备自主决策能力,容易误用工具、走偏轨迹 对策:加入 sandbox(沙盒)限制、行为约束机制、Human-in-the-loop(人类监控) 展望:也许会有一个新的范式 生成数据的核心会从 input-output 式的数据标注,转向构建 environment(环境)以及对应的 task-reward(任务-奖励)。比如 Scale AI 提出的 rubrics as reward(用评分标准作为奖励机制) Agent 能不能实现自我提升(self-improve)?一方面,Agent 在和环境交互的过程中会不断获得新数据;那它能不能自己找到或构造 verifiable reward(可验证的奖励)?交互中积累的 experience(经验),能不能被更有效地利用起来?

  • 2025-07-15 / 01:41:09

    今天又是一集机器人专场。嘉宾是光轮智能创始人兼 CEO 谢晨,他曾在英伟达、Cruise 及蔚来汽车担任自动驾驶仿真负责人。我们的话题非常具体,即:仿真与合成数据。 今天的具身智能尚且没有找到 scaling law 的有效配方,其中,数据是一个关键卡点。我们 106 集的嘉宾银河通用创始人王鹤就提到,真实数据在他们的训练数据比重仅仅 1%,合成数据挑起大梁。 今天这集节目,我与谢晨聊了聊仿真与合成数据的实操细节。 02:00 开始的快问快答 02:48 高频词汇解析:Sim2Real(从仿真到现实)、Sim2Real 的 gap、合成数据 04:31 从 Cruise 到英伟达到蔚来,怎么做合成数据和仿真? 14:11 制作合成数据的具体流程?合成数据与真实数据的配比? 16:17 在合成数据上,智能驾驶和具身智能的区别(智能驾驶是视觉的游戏,具身智能的物理交互最关键) 32:41 物理的 Real2Sim(真实到仿真)工作流是怎样的?怎么评估成功的仿真?关键技术节点? 46:18 Physical Intelligence(π)对仿真与合成数据的两难态度 48:55 辣评 Meta 300 亿美金收购 Scale AI 和极其 aggressive 的 Alexandr Wang 53:57 合成数据目前面临的瓶颈 55:25 全球具身智能产业链 Mapping: 硬件公司(宇树) 基座模型公司(π、Skild、英伟达和 DeepMind) 在垂域落地的软硬结合公司(Figure,特斯拉 Optimas、The Bot Company) 以仿真为中心做端到端落地的公司(光轮) (“特斯拉 Optimas 的管理文化和π完全不一样”) 01:09:22 美国存在具身模型层的创业机会,中国在我看来字节、小米、理想更适合做“大脑” 01:15:33 老黄在内部说:NV is a simulation company 01:21:25 终局的模型应该是是跨宇宙、跨世界、跨本体(提升跨宇宙的能力,本质是提升泛化性) 01:23:28 具身智能的产业还在 GPT-1 阶段,还没找到 scaling law 的配方 01:28:21 我创业刚开始,从具身的本科开始学起 01:37:37 最后的快问快答 【机器人专场】 逐篇讲解机器人基座模型和 VLA 经典论文——“人就是最智能的 VLA” 和王鹤聊,具身智能的学术边缘史和资本轰炸后的人为乱象

  • 2025-07-07 / 02:57:07

    今天的嘉宾是地平线创始人兼 CEO 余凯博士。 在过去 49 年人生中,他一路闯关过德美学术圈、中国互联网圈、创投圈、资本圈、汽车圈。在每个圈子和江湖,都从籍籍无名的无名小卒开始升级打怪。到最后,在每个圈子,他混得都不错。 一位与他打过交道的前企业高层评价,余凯是科学家里非常具有社会智慧的一位。 余凯毕业于南京大学和慕尼黑大学,毕业后,先后就职西门子、NEC 研究院,于 2012 年回国加入百度,又于 2015 年离职创立地平线。 很巧的是,2025 年正好是地平线创立 10 年。今年上半年,我与余凯博士聊了两次,这集节目是他的一部口述史。 随着大语言模型浪潮爆发,更多人工智能科学家从高校系统涌入创业轨道。余凯的创业观,也许能给大家一些启示——创业不仅是技术和商业,也不仅仅有刀光剑影,更是一部人来人往的江湖故事。 就像电视剧《少帅》张作霖的台词:“江湖不是打打杀杀,江湖是人情世故。” 2025 年,我们和 AI 共同进步! 03:06 初入学术江湖一开始在学术圈籍籍无名,算命先生说我 24 岁前“籍籍无名,劳而无功” 发表过 100 篇论文,我很陶醉,夜深人静都会翻我以前的 paper 自我欣赏 结识 Geoffrey Hinton、Yann LeCun、吴恩达的故事 我这边的对面坐了一个人特别的沉默,没人搭理他,一个人在那吃闷饭——这个人叫 Richard Sutton,前段时间拿了图灵奖 31:18 再入互联网江湖我应该是旅美人工智能华人学者第一个回国的 我立刻就跟 Geoffrey Hinton 写信,他回信:Kai,挺好的,但你介不介意我也问一下其他公司? 我当时拿到的授权是,最高出到 2400 万美金,2400 美金以后,每一次出价就要跟国内商量 我为了小概率能赢,抢先第一个出价,1200 万美金 “哎呀,你看 Geoffrey Hinton 开会好像不太出现啊,他在干嘛…?” 我就问他:唉,Andrew(吴恩达)你在干嘛?各方面怎么样?开始试探他 吴恩达一下子震惊到了!说:你小子把我忽悠到百度,你自己跑掉,太不够意思了吧? 51:19 又入创业江湖我做了 3 个投资:买了英伟达,买了特斯拉,全身心把我投到地平线 这个哥们跟我讲:兄弟,你知道吗?我现在在我家的地位,就靠你那句话! 地平线刚创立那一天我看了一下,英伟达才是一个 107 亿美金公司,现在是 3 万亿! 吴恩达在 Google lead 谷歌大脑,有一个 frustration(沮丧)是什么?不能买 GPU! 共识要么是错的,要么是没价值的 你的商业的 secret 是什么?有什么东西你看见了别人没有看见?这个世界是不是有 Bug?这个世界是不是有通向未来的窄门,而大部分人没有关注到? 01:11:21 也入资本江湖我们一页 BP 没写,就融了第一轮,我觉得:哎呀,Life is so easy! 结果第二轮就发现,见了 50-60 家机构,没一个下单。特别 tough……没人理解…… 我说的简直是口干舌燥……地老天荒……昏天黑地……也没人动心 我定了一个铁律:我跟投资人第一次见面,绝不能在他办公室,一定要在我办公室 我继续装!我说:我真的没时间,我就是一个专注的、情商低的科学家,正在倒腾我自己的事情,懒得理你 我们创造了 C 轮业界传奇的 12 小轮,一把拿了 16 亿美金——这也是一个反共识——中间没有加 1 分钱估值 哇,地平线竟然有 102 家股东投资机构,我都不知道我怎么磕出来的 01:21:39 转战汽车江湖科学家创业通常有这个问题:360 度扫射 曾鸣那堂课上完以后,我们班好多同学回去都去砍方向、裁团队 有天晚上睡觉,我梦中突然一惊:我靠,这样不对啊! 和长安:故意输球,你们要优雅地、不露声色地、故意地输啊 和李想:李想在 2019 年初,我们俩爬山他讲:你应该聚焦汽车方向 和何小鹏:我现在还没有磕下小鹏————有的时候你要强攻,有的时候你要迂回 和王传福:我们逮着机会窗口,相当于这个门开一个小缝,咱们就呲溜一声冲进去 02:09:48 我不是江湖人领导者我的 role model 是刘邦 电影这些角色,你知道我最喜欢谁吗?《飘》里的白瑞德 我的名字姓余,公司的名字地平线——余地,余地,做人做事永远要留有余地 智能驾驶:主机厂未来不会自研,它是一个标准化的功能 3 年完成 100%hands-off,5 年完成 100%eyes-off,10 年完成 100%minds-off 死门是什么? 机器人的 CUDA 下一代芯片创新 02:35:23 最后的快问快答这个世界我认为是写好了程序,每个人都是按照剧本来演 02:39:26 补充花絮传授技巧:如果你决心离职,不要说公司任何不好 闫俊杰的发型像我(玩笑) 我和吴恩达在美国 serious 讨论过创业 我为了调一个校招生喝茅台,不像李想手起刀落 微信头像为什么关公? 【从蒸汽机到无人驾驶】系列 《对李想的 3 小时访谈(播客版):宅男、AI、家庭、游戏和天梯》 《和何小鹏聊,FSD、“在血海游泳”、乱世中的英雄与狗熊》 《对话奔驰全球 CEO 康林松:转型期 CEO 和转型之中的 139 岁奔驰》 《和楼天城聊聊 Robotaxi 和 ACRush:“L2 做得越厉害,离 L4 越远”》 本集文字版:《对话余凯:世界不止刀光剑影,是一部人来人往的江湖故事》

  • 2025-06-29 / 01:30:07

    这集没有宏大叙事,相当随性。嘉宾是清流资本创始合伙人、百度前技术 VP 梦秋。 关注《商业访谈录》比较久的朋友可能知道,梦秋基本每年都会来返场一次,和我们一起 catch-up 当下的创投水温以及她自己的生活。在狼性文化蓬勃的中国投资人圈里,梦秋一直是很佛系也很道家的存在。 这一集更是松弛,她直言工作挺无聊,所以在聊了正经话题以后,我们也聊了聊读书、旅行、观影和女生的碎碎念。 (本次节目录制在 4 月底) 我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:) 02:00 2025 年资本寒冬过去了吗?没… 04:00 DeepSeek 的出现,让 AI 应用创业变得活跃了吗?没… 10:45 现阶段各种 Bot 的体验:神婆?舔狗?尤其点评微信、元宝和小红书 25:28 探讨一下,微信里怎么做 Agent?通用 Agent 成立吗? 31:25 垂直 Agent 的创业机会和创业者 35:52 现在的组织倾向于小组织,这可能利好年轻创业者 37:42 为啥组织更小,融资额却更高了? 38:18 除了 Agent,还在看的是具身智能(仿真器很重要) 43:57 可穿戴设备 54:54 大模型公司 58:31 这两年工作很 boring,我的旅行之路 01:03:55 我的读书之路 01:12:34 聊影视行业(梦秋是中影独董)、《好东西》和女性主义 梦秋此前的节目: 《1. 和投资人梦秋聊聊加州、投资寒潮和林黛玉》 《21. 投资人视角下的大模型和市场真实水温|和梦秋聊 ChatGPT》 《65. 风险投资的钥匙失灵了吗?和梦秋聊:蛰伏、更少人的游戏和啮齿动物》 【更多信息】 联络我们:微博@张小珺-Benita 更多信息欢迎关注公众号:张小珺

  • 2025-06-22 / 02:38:52

    今天继续《商业访谈录》的机器人专场,嘉宾是北京大学助理教授、银河通用创始人兼 CTO 王鹤。 王鹤毕业于清华和斯坦福大学。他给我们从“具身智能”的学术缘起开始聊起,这是一个学术流派从一个学科中萌芽到边缘再到主流渗透的全过程。 而随着 ChatGPT 诞生,“具身智能”这个小众概念,在过去 2 年成了新的资本宠儿——但一时间,也带来了新的乱象。 我们探讨了一些具身智能产业界关键问题: 1/具身智能起源于计算机视觉的学术流派,视觉、语言、智能的关系是什么?为什么 VLM(视觉语言模型)的表现显著弱于 LLM(大语言模型)? 2/具身智能的最大困境之一是数据采集,合成数据是正解吗?具体应该怎么做? 3/如果大模型提倡的是“智能即产品”,那么具身智能呢?王鹤的回答是“生产力即产品”。 去年底,英伟达创始人黄仁勋来华访问。答谢宴上,王鹤不仅和黄仁勋同桌,而且就在做黄仁勋旁边(挨着坐)。在节目最后,我们也聊了聊这个有趣的插曲——他提到,那晚黄仁勋吃了不少水煮肉片。 2025,我们和 AI 共同进步! 我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:)03:00 开始的自问自答 05:58 语言不是智能的本质,而是“一次跃变”“具身智能”和“机器人”是不同学术流派 “具身智能”起源于“计算机视觉”的研究流派 视觉有智能吗?纯视觉智能的可解释性差,是端到端的 语言不是智能的本质,不能说没有语言就没有智能 智能的本质是什么?“一种视情况对环境做出反应的能力” 语言是人类能产生这么高智能的“一次跃变” 视觉的本质是一种非常强的 sensor(传感器) 25:08 具身智能的学术边缘史具身智能最早兴起的 task(任务)是,导航 加入视觉模态,强调 Perception–Action Loop(感知-动作循环),成为具身智能研究流派能立起来的核心叙事 标志性事件:“具身智能是计算机视觉未来的三颗北极星之一”(李飞飞) 我和 Skild 创始人 Deepak Pathak 在 Facebook 人工智能实验室 FAIR 打过交道 41:15 我的学术之路 2016 年,博士第一个项目:从人类视频里学多步的人与物体交互过程的生成(动画领域) 在 Stanford 博士第一年,在不喜欢的方向非常挣扎,后来换组、换方向 Stanford 是高度自由的市场:你可以随时踢你老板,你老板可以随时踢你 第一篇论文憋了很久,很绝望 完全从视频中学习,学习世界模型,还没成为当下能推进具身智能的技术 我的第二个项目:位姿估计和合成数据相关 2020 年李开复曾在湾区丽思卡尔顿组织 brunch,观点分歧 回国坚定以家庭机器人为目标推进 research,根本没有 allies(盟军) 01:25:08 具身智能的软件和硬件是螺旋上升的问题 ChatGPT 火了以后,很多人开始找我创业,我说创不了 所有工业机械臂在去年的全球总产值才 1000 亿 RMB,和理想一家车企产值相当 如果采取不成熟的激进的硬件方案,对智能会是一种拖累 在这个硬件基础上,我们的方案是,做相对专用的智能和越来越通用的智能 VLM 为什么显著弱于 LLM?互联网视觉数据/所有人眼观测的覆盖〈〈〈互联网文字数据/人类所有说的话的覆盖(VLM 数据不够,VLA 的 Action 数据是最近两年才开始收集的) 01:44:34 我们要避免陷入以下泥潭这一代具身智能公司相比此前机器人公司,差异在哪? 在我看来,具身智能公司如果陷入以下两个泥潭,天花板会很有限: 1、“长期漂浮”的公司;2、“算不过来账”的公司,边际成本不降 我们要做一个应用场景内的泛化(现在选择的是货架场景) 在我看来,机器人领域的头部效应很重 01:55:17 具身智能是,“生产力即产品”雇人摇操采真实数据的成本到底有多高?一笔经济账 真实数据在我们训练数据的比重是 1%,合成数据管线挑起大梁 行业内的 tricky 现象:把没有功能的机器人卖给别人(这是一种商业模式) 关于合成数据和 Sim-to-Real(仿真到现实迁移)的常见误区 有出货量后的数据回流和数据飞轮 如果大模型是“智能即产品”,那么具身智能就是“生产力即产品” 02:13:51 资本轰炸后的人为乱象谁在创造生产力,谁在讲故事,这是最乱的——这个源自美国 对 Figure 的估值 400 亿美元的两种逻辑 有的人胆子很大,不告诉别人我是摇操,但实际摇操 呼吁:真实展示!不要摇操! 5 年内我们一定要有万台以上的应用,如果做不到这个,我们这个领域就被证伪了! 不要去搞一些砸我们行业招牌的事情!这些模式是很可怕的,是在砸这个行业的饭碗 通用机器人的到来不要想得那么快 02:25:25 一个插曲去年黄仁勋访华为什么和黄仁勋同桌且在旁边?聊了什么? 黄仁勋能吃辣,吃了很多水煮肉片 02:28:26 最后的快问快答 【机器人专场】 逐篇讲解机器人基座模型和 VLA 经典论文——“人就是最智能的 VLA” 【更多信息】 联络我们:微博@张小珺-Benita 更多信息欢迎关注公众号:张小珺

  • 2025-06-19 / 01:32:15

    《商业访谈录》访谈过很多中国新能源车企的 CEO 和高层,今天的嘉宾来自一家德国百年车企,他是奔驰中国自动驾驶与车联网研发负责人王忻。 我们聊了聊中国汽车产业 20 年变革的历程,以及一家德国车企的转型与秘密故事。 我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:) 产业大转型 01:25 20 年前,就连波导手机也做过汽车 07:54 我曾在汽车 Tier 1 德尔福 18 年,3 年前加入奔驰,背后是产业大转折 09:30 过去 20 年全球汽车产业的几个技术周期(2004 年以前,2004-2014 年,2014-2020 年,2020 年至今) 11:31 现在转变成数据驱动的时代,Tier 1 黑盒交付的时代不再 话语权 27:40 中国团队和德国总部的话语权是争夺过来的吗? 28:27 奔驰中国研发团队组织架构、沟通机制和 battle 34:08 德国企业的 battle 文化和美国企业是不同的 41:23 为中国设计生产的功能要反向输出全球的时候,需要哪些流程? 新技术 43:21 智能化是不可逆的趋势,但不能激进 46:50 车车通讯在 L3 实现以后需要重新定义 51:54 科技和豪华的关系:如果智能平权,豪华的标准变了吗 01:01:49 去年从规则算法切换到端到端的过程挺煎熬的 01:04:40 激光雷达是一个很好的冗余 01:05:35 CLA 和豆包合作大语言模型 139 岁车企 01:09:36 以人为本 01:11:08 安全的步骤 01:13:08 世界上第一位汽车驾驶员是奔驰创始人的太太 01:15:00 在百年企业工作是什么体验——荣耀是什么?负担是什么? 01:17:48 百年一遇的大转型、大变革 01:33:22 奔驰 CEO 康林松会发脾气吗? 相关单集: 对话奔驰全球 CEO 康林松:转型期 CEO 和转型之中的 139 岁奔驰 【更多信息】 联络我们:微博@张小珺-Benita 更多信息欢迎关注公众号:张小珺

  • 2025-06-15 / 02:08:56

    随着 AI 的软件能力向硬件溢出,除了具身智能,智能眼镜或许是另一个会受益的产业。 今天的嘉宾是智能眼镜公司 Rokid 创始人祝铭明(Misa),2025 上半年 Misa 佩戴其公司开发的智能眼镜出现在一次演讲中,一度引发关注,今年也是他在硬件黑森林里创业的第 11 个年头。 我们从他的第一家公司 1000 万美金被阿里并购开始聊起——聊了聊马云和吴妈,也聊了聊他的第二段创业、智能眼镜市场的中美对比、阶段与趋势。 我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:)02:00 开始的快问快答 02:36 阿里 1000 万美金收购我的第一个创业公司,全部换成了股票 05:14 最糟糕的时候,马云找我聊,引荐了 Joe Cai(蔡崇信),又引荐了王坚博士 08:05 我还有两个星期发薪水,账上只有 4000 块 15:55 在阿里当高管,吴妈(吴泳铭)提出想做 AI,成立 M lab 22:43 Rokid 的融资、马云的建议 27:40 吴妈当年是我的顶头上司,对吴妈的 comments 31:41 2019 年重要决策:一星期内从 AI 切换 AR 赛道 48:00 像器官一样的硬件会从手机切换到智能眼镜? 59:17 重要决策之后裁员了一大半,清空了一幢楼 01:05:45 转型后第一次 PMF 01:09:55 现在的智能眼镜在黑莓到 iPhone 1 的中间阶段 01:11:52 AI 在硬件上的展开:具身智能、随身智能 01:13:05 在智能眼镜,明年上半年会是与巨头竞争的时间点 01:19:29 马云总结创业公司和巨头竞争的 4 个机会:4 个不 01:23:38 中美定义智能眼镜产品的不同 01:41:35 公司价值观第一条是玩心,老板总是那个 trouble maker 01:48:32 聊聊杭州创业者们 01:59:05 硬件创业的黑森林 02:27:00 最后的快问快答 【更多信息】 联络我们:微博@张小珺-Benita 更多信息欢迎关注公众号:张小珺

00:00
00:00 / 00:00
未播放