AlphaGo之父来了:寻找新方法避免大规模模型并探索超级智能

又一个大人物开始创业了。几周前,有消息证实,谷歌 DeepMind 前首席科学家、AlphaGo 核心负责人 David Silver 正式辞职,并在伦敦创立了一家人工智能初创公司 Ineffable Intelligence。据报道,该公司正在筹集 10 亿美元种子轮资金,目前已接近完成。这一资金数额追平了前 OpenAI 首席科学家 Ilya Satskeva 在 2024 年创立 Safe Superintelligence(SSI)时创下的纪录。 David Silva(来源:YouTube)与目前依赖大量预训练文本的大规模模型不同,Silva 的新公司明确表示将避开既定的 LLM 范式,回归强化学习(RL)的根源,构建不依赖人类现有知识、能够探索新知识的智能系统。唯有知识。 DeepMind 联合创始人 Demis Hassabis 的密友和长期合作伙伴,Silva 的离职代表这是公司历史上最重大的人事变动之一。 DeepMind 发言人在一份简短声明中证实了这一消息,并表示:“David 的贡献是无价的,我们非常感谢他对 DeepMind 工作的贡献。” Silva不仅是技术参考者,也是强化学习路线的狂热支持者。作为图灵奖获得者 Charlie Sutton 的学生,其论文被引用超过 28 万次,并荣获 2019 年 ACM 计算奖。他主张回归强化学习的核心思想。 2025年4月,席尔瓦与导师萨顿联合发表论文《欢迎来到体验时代》,提出新一代人工智能系统不应仅仅依靠静态数据训练,而应更加关注智能体与其环境的交互学习:通过不断试错、自我迭代和长期交互来积累经验。这家公司ncept基于Intel Ineffable,也是智能的技术基础。 (来源:arXiv)Ineffable Intelligence 高达 10 亿美元的融资目标在当前的风险投资环境中尤为引人注目。了解该交易的投资者表示,资本市场愿意向尚未推出产品的公司开出如此大额的支票,主要基于两个因素。一是对席尔瓦个人技术声誉的信心,二是对他所捍卫的“后大模型时代”技术道路的战略押注。目前,领先的AI模型,例如OpenAI的GPT系列和Google的Gemini系列,它们都是基于“预训练+微调”范式。这些模型通过从互联网上的大量文本数据中学习并掌握统计规则来预测下一个单词,展示了强大的生成和交互能力。但席尔瓦认为这条道路有其固有的局限性。 AI能力上限较低被“人类数据”本身所困扰。席尔瓦在私生活中多次表达了对当前技术走向的担忧。他指出,大规模语言模型在训练后阶段主要依靠“人类反馈的强化学习”(RLHF),即通过人类评估者的评估来优化模型。这意味着模型所能达到的最高水平不能超过人类评估者的认知极限。 “我们想要超越人类认知,为此我们需要一种不同的方法。” 2025年4月,席尔瓦很少在播客中公开解释他的哲学。 “这种方法需要人工智能真正自主探索并发现人类尚不知道的新事物。” Ineffable Intelligence 的核心愿景是构建不受人类知识限制的系统。据知情人士透露,新公司将专注于开发“能够持续学习的超级智能”。这种智能不仅处理语言值,但也可以从第一原理得出问题的最佳解决方案。通过在模拟环境中的自我对弈以及反复试验。席尔瓦的坚韧,他的力量是由强劲的成绩支撑的。作为AlphaGo的首席设计师,他领导了2016年震惊世界的人类与机器大战,在与李世石的第二场比赛中,著名的“37步”不符合众所周知的围棋公式,因此两位专家认为这是一个错误。然而,在后来的棋局中,这却成为决定胜负的重要一步。席尔瓦称这种现象是“难以形容的”智慧。通过计算,人工智能发现了人类尚未掌握的规律。这就是新公司名称的由来。 (来源:Google Deepmind) 此后,Silva 团队开发的 AlphaZero 和 MuZero 进一步测试了该理论。 AlphaZero 不依赖任何人类对弈记录,他只是学习了规则,并在三天内击败了 AlphaGo。 MuZero可以独立在不了解规则的情况下探索围棋、国际象棋和雅达利游戏的规则,达到超人的水平。这些成果构成了席尔瓦技术路线的基础。凭借明确的规则和可模拟的系统,纯粹的强化学习可以完全超越人类智能。他坚信,只要设计合理的奖励机制,人工智能就可以在更复杂的现实任务中复制AlphaZero的成功,而不是“假装”模仿和认为人类语言是大规模的语言模型。席尔瓦的创业精神也反映出人工智能研究领域正在经历“当然的重大变化”。随着大规模语言模型在商业应用中的普及,越来越多的顶尖科学家担心技术发展可能遇到的障碍。 2024年,前OpenAI首席科学家Ilya Satsukvi创立了Safe Superintelligence(SSI),该公司也获得了大量资金。 SSI和Ineffable Intelligence瞄准“超级智能”Ilya 主张通过增加计算规模和优化模型结构来实现智能进步,而 Silva 更从根本上改变学习范式,将“监督学习”转变为“强化学习”。此外,一些参与 AlphaGo 和 AlphaZero 项目的科学家最近辞去了工作,创立了 Reflection AI。由图灵奖获得者 Yann LeCun 领导的 Meta 人工智能部门已重组其超级智能实验室,以探索远离 Transformer 架构的新路径 一位行业观察家表示:“目前的情况与 2010 年代初期非常相似,当时正值深度学习爆发的前夕。每个人都认识到,现有的法学硕士虽然强大,但可能不是通向 AGI 的门户。他们就是最终的答案。然而,一些批评者指出,虽然强化学习在规则明确的环境中效果很好,例如围棋或游戏,但我ts 有效性下降。它尚未在规则模糊的开放环境中经过充分测试,efeedback 就像现实世界一样。大规模语言模型之所以成功,是因为语言本身就是人类智慧的高度压缩版本。通过学习语言,人工智能可以以较低的成本获得常识。如果完全放弃这条路,Ineffable Intelligence将不得不为AI构建极其复杂的数字孪生系统,以进行数亿次的试错训练,而计算能力的成本将是天文数字。世界领先的强化学习研究人员。尽管该公司尚未公布具体的产品时间表,但其技术路线图和资源投入可能是影响AI技术演进方向的下一个重要力量1。https://www.ft.com/content/dffe72d0-4064-4412-8ebc-50198a30d40e。
特别提示:以上内容(包括图片和视频,如果是hubiera)均为上传并发布由自有媒体平台“网易号”.vinegar的用户发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布。 ich是一个社交媒体平台,仅提供信息存储服务。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注