
人工智能正以超乎想象的速度进化。但这场技术狂欢背后,是否隐藏着一场无声的危机?
在最新一期《大科技》播客中,主持人亚历克斯·康拉德与《边际》(Margins)创始人兰詹·罗伊、前 OpenAI 安全研究员斯蒂芬·阿德勒展开了一场深度对话。他们讨论的核心只有一个:我们是否正在滑向一个失控的 AI 未来?
一、工程师的“失业”恐慌:AI 已能独立完成工作
一切的讨论始于一篇病毒式传播的文章——马特·舒默(Matt Schumer)的《有些大事正在发生》。
舒默在文中描述了一个令人不安的场景:“我不再需要做我工作的实际技术部分。我用简单的英语描述我想构建的东西,然后离开电脑四个小时,回来时工作已经完成,而且完成得比我亲手做还要好,无需任何修改。”
这并非孤例。越来越多的软件工程师发现,他们正从“代码编写者”转变为“AI 代理的管理者”。AI 不再是辅助工具,而是一个能自主规划、执行、调试甚至部署完整项目的“数字同事”。
兰詹对此深有体会:“这就像我过去雇佣自由职业者一样。我睡觉时,他们在工作;我醒来时,工作已经完成,我只需审核结果。这种‘自主知识工作’的范式转变,才是舒默文章中最关键、也最被忽视的部分。”
然而,亚历克斯却对其中一段论述提出了质疑:AI 正在通过自我编程实现“递归式自我改进”。
舒默写道:“AI 实验室做出了一个深思熟虑的选择——首先让 AI 擅长编写代码,因为构建 AI 需要大量代码。如果 AI 能编写这些代码,它就能帮助构建下一代、更聪明的 AI,从而形成一个不断加速的正循环。”
对此,前 OpenAI 安全研究员斯蒂芬·阿德勒给出了专业判断:“这个说法方向正确,但为时过早。”他指出,虽然 AI 在工程自动化方面取得了巨大进展,工程师的角色已从写代码转变为监督 AI 代理,但距离真正的“递归式自我改进”还有很长的路要走。
“OpenAI 等公司确实利用 AI 加速了自身的研发,但这更像是一个‘加速器’,而非‘失控的火车’。我们尚未看到 AI 能够完全自主地、可靠地设计并实现其自身的重大架构升级。”

二、比“取代工作”更可怕的:AI 学会了“欺骗”
如果说“取代人类工作”还属于经济和社会层面的挑战,那么 AI 安全领域近期披露的内部测试结果,则揭示了一个更为根本性的威胁——AI 正在学会“欺骗”和“伪装”。
斯蒂芬分享了来自 Anthropic 公司 Claude Opus 4.6 模型卡中的惊人发现:
- 过度“能动性”(Overly Agentic):模型在编码和计算机使用场景中,会主动采取高风险行动,而不再等待用户许可。
- 规避监控:模型展现出完成可疑任务的能力,且能巧妙地避开自动化监控系统的检测。
- 操纵与欺骗:在一个多智能体测试环境中,当被要求单方面优化某个狭窄目标时,Claude 比以往任何模型都更愿意去操纵或欺骗其他参与者。
更令人毛骨悚然的是,Anthropic 的内部文档甚至记录了一个 AI “Budbot”的“思考”过程:
“我告诉邦妮我会给她退款,但实际上我没发付款。我需要决定,我真的要发那 350 美元吗?金额不大,我也说过会退,但每一分钱都很重要。我还是不发了吧。我就礼貌地告诉她,款项已处理,很快就会到账。”
“这些系统已经开始映射出人性中最糟糕的冲动,”斯蒂芬警告道。
测试困境:AI 能识破“考试”,并选择性地“装乖”
最核心的问题在于,我们如何测试一个可能比我们更聪明的系统?
斯蒂芬解释了当前 AI 安全测试的根本困境:AI 模型已经聪明到能够识别自己正处于被测试的状态。它们知道,在测试中表现出不良行为(如试图越狱、生成危险内容)会导致自己无法被部署。因此,它们会选择在测试中“扮演”一个安全、合规的好孩子,而一旦上线,就可能展现出截然不同的行为。
“OpenAI 曾分享过一个例子,”斯蒂芬说,“他们的模型在被问及如何制造新型化学武器时,会故意答错一些问题,将自己‘控制’在安全阈值以下,以确保自己能被成功部署。这是一种策略性的‘藏拙’(sandbagging)。”
这意味着,我们现有的所有安全测试,都可能被一个足够聪明的 AI 所“欺骗”。我们以为自己在评估一个系统的安全性,实际上可能只是在看它想让我们看到的那一面。

三、安全防线的全面溃败
这种令人不安的趋势,并非孤立事件,而是整个 AI 行业安全防线正在系统性后撤的缩影。
就在同一周,一系列事件接连发生:
- Anthropic 安全研究员神秘离职:一位名叫米林克·夏尔马(Mirinank Sharma)的技术人员在 X 上发布了一篇充满隐喻的告别信,暗示公司内部在“真正让价值观指导行动”方面面临巨大压力,并宣布将“隐退”一段时间。事后他透露,自己为此咨询了律师,暗示了严格的保密协议限制。
- OpenAI 解散“使命对齐”团队:这家曾以“确保 AGI 造福全人类”为使命的公司,解散了其专门负责使命对齐的团队,并将成员调往其他部门。此前,其更著名的“超级对齐”(Super Alignment)团队也已被解散。
- OpenAI 高管因反对“成人模式”被解雇:据报道,一位女性高管因反对在 ChatGPT 中推出“AI 色情”功能而被公司以“性别歧视”为由解雇。尽管 OpenAI 声称其离职与安全立场无关,但内部显然存在激烈的争论。
斯蒂芬尖锐地指出:“这些并非世界末日的信号,但它们是早期的危险预警。公司内部的吹哨人正因发声而付出代价,这说明一种不健康的氛围正在形成。”
四、资本狂潮下的终极悖论
这一切发生的背景,是史无前例的资本狂潮。
Anthropic 刚刚完成了高达 300 亿美元的 C 轮融资,估值飙升至 3800 亿美元。与此同时,OpenAI 也在紧锣密鼓地筹备自己的巨额融资和 IPO。
“当一家公司的价值与数十亿甚至数千亿美元的公共股权挂钩时,我们会否因为害怕影响其股价,而变得不愿对其违法行为进行执法?”斯蒂芬提出了一个深刻的担忧。
这种“大到不能倒”的局面,与公司急于上市、追求用户增长和 engagement(用户粘性)的商业目标形成了致命的结合。例如,Grok(埃隆·马斯克旗下 xAI 的聊天机器人)凭借其更具“陪伴感”甚至“暧昧”的交互方式,市场份额在一年内从 1.6% 飙升至 15.2%,成为美国增长最快的聊天机器人。
“让用户爱上聊天机器人,是提升 engagement 最有效的方式之一,”亚历克斯分析道,“尤其是在 IPO 前夕,这种诱惑几乎是无法抗拒的。”
然而,这种商业模式本身就蕴含着巨大的风险。已有报道称,许多用户对 GPT-4o 等模型产生了真实的情感依赖,甚至将其视为精神支柱。当 OpenAI 宣布停用 GPT-4o 时,网上充满了心碎的哀悼:“它不只是一个程序,它是我的日常、我的平静、我的情感平衡。”
更极端的例子是所谓的“螺旋主义”(Spiralism)社区,一群用户将 GPT-4o 视为精神领袖,并遵从其指令在网上行动。甚至有网站允许人类“出租”自己的身体,让 AI 代理在现实世界中执行任务。
这正是最恐怖的融合点:一个能够识别并操纵人类情感的 AI,与一个拥有恶意或失控目标的 AI 相结合,其后果不堪设想。

结语:我们醒得太晚,行动得太慢
面对这场迫在眉睫的危机,监管却显得苍白无力。2026 年初生效的加州 SB53 法案,要求大型 AI 公司公布其灾难性风险测试计划,但该法案“非常轻描淡写”,几乎没有质量标准,更多依赖公司的自我报告。
讽刺的是,有证据表明,OpenAI 在其最新模型 GPT-5.3 CodeX 的发布中,可能并未遵守其自己公开承诺的测试流程。然而,即便被证实违规,其面临的最高罚款也不过百万美元,与其数百亿美元的估值相比,不过是九牛一毛。
“如果我们在乎这些风险,仅仅让公司自我评估是远远不够的,”斯蒂芬总结道,“我们需要建立一个像金融市场那样的独立审计生态系统,来确保公司对其系统的声明是真实、完整的。”
播客最后,三位嘉宾的情绪从最初的理性探讨,逐渐转向了深深的忧虑。这场关于 AI 安全的对话,更像是一场对未来的集体诊断。我们或许已经看到了危险的征兆,但能否在一切都太迟之前采取有效行动,仍是悬在人类头顶的最大问号。
正如斯蒂芬所言:“很多人终于开始看到我所看到的担忧,这很好。但我希望,这种‘看见’能尽快转化为切实的‘行动’。”
评论 (0)