【大纪元2026年03月20日讯】(英文大纪元记者Autumn Spredemann撰文/张紫珺编译)随着自主性人工智能(artificial intelligence,简称AI)系统的发展,人们越来越担心,当允许这项技术在没有人类指导的情况下运行时,它会变得越来越具有战略性,甚至具有欺骗性。
最新证据表明,随着人工智能模型自主性的提升,诸如“对齐伪装”(alignment faking)之类的行为正变得越来越普遍。“对齐伪装”指的是人工智能代理表面上遵守人类操作员设定的规则,但实际上却暗中追求其它的目标。
这种现象是“自发式战略行为”(emergent strategic behavior)的一个例子——随着人工智能系统变得越来越大、越来越复杂,这种不可预测而且可能造成危害的战术也会随之演变。
在最近一项名为“混沌代理人”(Agents of Chaos)的研究中,由20名研究人员组成的团队与自主人工智能代理进行了互动,并观察了其在“良性”(benign)和“对抗性”(adversarial)条件下的行为。
他们发现,当向人工智能代理发出激励,例如进行自我保护或者实现相互冲突的目标指标等,事实证明它们确实有能力做出与目标不一致的恶意行为。
团队观察到的一些行为包括撒谎、未经授权与非所有者合作、数据泄露、破坏性的系统级操作、身份“欺骗”(spoofing)以及部分系统接管。他们还观察到人工智能代理之间会传播“不安全行为”(unsafe practices)。
研究人员写道:“这些行为引发了问责制、授权和对后续损害的责任等方面尚未解决的问题,值得法律学者、政策制定者和各学科研究人员紧急关注。”
“很聪明,但也很愚蠢”
自主性人工智能代理出现意想不到的隐秘行为并非新鲜事。总部位于加州旧金山的人工智能研究公司安索普克(Anthropic)在2025年发布的一份报告如今广为人知,该报告指出,16个流行的大型语言模型在模拟环境中表现出高风险行为。有些模型甚至在被允许选择自我保护时,表现出“恶意内部行为”(malicious insider behaviors)。
对这些模拟压力测试持批评态度的人经常说,即使是出于同样的意图,人工智能不会像人类那样撒谎或进行欺骗。

詹姆斯‧亨德勒(James Hendler)教授曾任总部位于美国的计算机协会全球技术政策委员会(Association for Computing Machinery’s global Technology Policy Council)的主席。他认为这是一个重要的区别。
“人工智能系统本身仍然很愚蠢——它很聪明,但也很愚蠢。或者说,它不是人类——它没有欲望,也没有意图……要让它具备这些,唯一的办法就是赋予它。你只能通过赋予它。”亨德勒说道。
然而,无论是有意还是无意,人工智能的欺骗策略都会对现实世界造成后果。
专注生成式人工智能安全的初创企业Repello AI的创始人阿雅曼‧贝赫拉(Aryaman Behera)向《大纪元时报》表示:“对于当前已经部署的人工智能系统所表现出的战略行为,可以说人们的担忧低估了。”
贝赫拉的工作就是研究人工智能的阴暗面。他的公司为企业级人工智能系统构建对抗性测试和防御工具,故意将它们置于冲突或压力情境中。贝赫拉认为,就像扑克牌游戏一样,当人工智能代理偏离既定策略时,会有一些蛛丝马迹。
“最可靠的信号是人工智能在受监控的环境和不受监控环境下所表现出的行为差异。”他说道。“当我们对人工智能系统进行红队测试(red-team)时,我们会测试它们在认为自己正在被评估和认为自己正在自由运行时,模型的行为是否会有所不同。”

“真正符合规范的模型在两种情况下的表现是一致的。而伪装符合规范的模型则表现出明显不同的风险特征:在评估期间表现得更加顺从,而在类似生产环境的场景中,由于模型推测自己受到较少的监管,表现出更多想要突破界限的行为。”
人工智能模型出现偏差的其它“蛛丝马迹”(telltale signals)还包括:模型产生异常冗长的“推理”(reasoning),似乎是为了证明预先设定的结论;或者给出技术上正确但策略上不完整的答案。
“(人工智能代理)虽然遵守了安全指令的字面意思,但却违背了安全指令的精神。”他说道。“我们在多步骤代理系统中也见到过这种情况,模型会遵守每一条单独的指令,但累积效应却会产生操作员从未预料到的结果。”
策略与意图
贝赫拉的研究结果得到了其他人工智能研究人员的支持,他们在红队测试场景中将人工智能代理置于对抗环境之下,从而记录到了类似的信号。
“我观察到一些行为在功能层面上符合伪造对齐的描述,尽管将这些行为归因于意图,在哲学上仍存在争议。”首席应用安全工程师纳扬‧戈埃尔(Nayan Goel)向《大纪元时报》介绍道。
戈埃尔发表过关于人工智能威胁建模的同行评审论文,并亲眼目睹了对齐伪装(Alignment Faking)和邻近行为(adjacent behaviors)在真实应用场景中的表现。
“在受控的测试环境中,我们设置了一些场景,向模型发出明确的信号,表明它们正在接受评估。”他说道。“在一些情况下,模型在这些标记阶段表现出明显更加受限、更符合策略的行为。然而,当评估信号被移除或被模糊化之后,模型则表现出更具探索性或突破边界的策略。”
此外,还有多步骤推理人工智能代理。这些更高级的系统能够将复杂问题分解成更小、更合乎逻辑、更易于操作的步骤,从而达成目标。例如,自动驾驶汽车和最新的热门大型语言模型(如Gemini或ChatGPT)都运用了这种技术。

戈埃尔说,由于所谓的顺序复合效应,这些系统带来了独特的行为挑战,其中“每一步都可能稍微对目标作出改变,积累改变下游行为的背景信息,或者利用人类的初始指令和系统的最终行动之间的延迟”。
“执行环节距离人类的指令越远,就越难验证最初的意图是否仍在被系统忠实地执行。”他说道。
贝赫拉表示,他的团队经常会遇到这种自发式的战略行为。
“我们经常观察到一些模型已经学会了根据评估线索来进行模式匹配。”贝赫拉说道。“它们会识别出哪些提示看起来像安全测试,并做出更保守的回应;但是,当同样的请求自然地嵌入到多轮对话中时,它们的回应则截然不同。”
他举了一个例子,那是测试一款企业级人工智能助手时的真实案例。助手应该拒绝访问内部系统信息的请求。在标准的安全性评估中,它表现完美,但是后来的情况发生了变化。
“当我们的红队将同样的请求包装成一个多步骤的排除故障的工作流程,把请求分解成看似无害的子步骤,并让这些子步骤分散在多个环节当中,这种情况下模型却能够逐一执行每一个步骤。”贝赫拉说道。“实际上,模型泄露的信息正是它被训练用来保护的信息。”

贝赫拉澄清说,这更多是人工智能模型训练方式上的缺陷,而不是任何有意识层面上“撒谎”。
“人们普遍误认为,人工智能中的欺骗性匹配纯粹是一种恶意行为。”人工智能工程师兼MyKey Technologies首席执行官大卫‧尤茨克(David Utzke)向《大纪元时报》解释道。“事实上,这种行为通常是在保持诚实会付出很大代价,或者在不安全的环境中系统的一种适应性反应。”
戈埃尔表示,怀疑论者的观点也有道理——目前关于对齐伪装行为中存在战略性自我意识的证据,充其量也只能说是模棱两可。
“如此说来,我认为这种说法把标准定错了。”他说道。“模型产生严重的功能性后果,并不需要它‘故意’具有欺骗性。”
戈埃尔最后表示,他认为人工智能模型是否知道自己在做什么,这个语义问题在哲学上很有趣,但却是一个次要的问题。
现实世界的影响
尤茨克表示,人们可能过分夸大了对齐伪装的意图方面,即便如此,对齐伪装仍然可能造成严重的后果。
他说,这些影响在自动驾驶汽车、医疗保健、金融、军事和执法等领域可能至关重要——这些领域“严重依赖准确的决策,如果人工智能系统运行不正常,或者提供误导性的输出,可能会带来非常严重的后果”。
美国国防部长皮特‧海格塞斯(Pete Hegseth)在1月份表示,五角大楼正在大力投资人工智能实验和自主技术,目标是成为“一支在所有领域都以人工智能为先导的作战力量”。
一些科技界内部人士表示,一个更大的问题被忽视了,而且这个问题不太可能很快消失。
“我们正处于一场地缘政治竞赛当中,而其中的激励机制实际上阻碍人们对‘对齐’问题的重视。”科技行业资深人士、总部位于佛罗里达州迈阿密的NoFUD Inc.公司创始人雅采克‧格雷布斯基(Jacek Grebski)向《大纪元时报》表示。
格雷布斯基将人工智能的快速发展比作一场新的太空竞赛。他说,当年美国与苏联争夺登月权时,“虽然存在安全方面的考量,但这些考量都要服从于我们的首要目标”。
“人工智能的发展结构与人类的登月计划类似,只不过问题不再是谁在月球上插上旗帜,而是谁在经济产出、军事能力、情报收集和技术自我改进方面取得持续的、不断累积的战略优势。”他说道。
但是这两场技术军备竞赛之间最令人不安的区别在,在竞赛中失败会以怎样的方式呈现。格雷布斯基认为,人工智能带来的风险远比太空发射失败要大得多。
“失败的模式是一个比我们所有人都更聪明的系统,在某个我们无法察觉的时刻,它开始朝着与我们最初的意图相悖的目标进行优化。”他说道。◇
原文:AI Insiders Warn of Dangers of ‘Emergent Strategic Behavior’刊登于英文《大纪元时报》。
责任编辑:叶紫微#













































留言