中共宣传被曝渗入AI模型分析：恐成默认认知

示意图。(Shutterstock)

2026-05-21 14:25 中港台时间|05-21 15:07 更新

人气 863

【大纪元2026年05月21日讯】（大纪元记者孙晨采访报导）国际学术期刊《自然》杂志发表的研究报告显示，中共官媒的大量内容已渗透全球主流人工智能模型训练体系。在涉及中国政治敏感议题时，多个主流模型使用中文回答时更容易出现接近北京官方叙事的表达。网络业内人士透露，当局正在领英等平台高薪招聘美国等西方人工智能工程师，试图实现“弯道超车”。

美国研究人员担忧，中共宣传系统正藉人工智能进入新的信息传播渠道。近期，《自然》杂志发表的一项最新研究报告显示，中共官方媒体包括新华社、《人民日报》等发布的大量内容，已被人工智能训练系统广泛抓取，并进入全球主流大语言模型的数据来源。在涉及中国政治敏感议题时，包括ChatGPT、Claude、Gemini在内的多个模型，用中文回答问题时更容易出现接近北京官方叙事的表达；相较之下，英文回答则呈现不同倾向。

研究团队表示，这种现象并不依赖黑客攻击或技术入侵，而可能来自训练数据结构本身。新华社、人民网等媒体长期免费开放、大量转载，并以统一格式持续发布官方内容。相比之下，不少独立媒体存在版权限制、付费墙或反抓取机制。在人工智能抓取体系中，这种差异可能进一步形成数据优势。

人工智能研究学者张子昂接受大纪元采访时说，过往中共宣传主要依赖电视、报纸、搜索引擎和社交平台审查。在人工智能时代出现了新的情况：“宣传系统不一定需要直接介入模型公司，也不需要技术入侵，只要持续、大规模释放内容，就可能通过训练数据反向进入全球人工智能体系。”

张子昂认为，人民网等中共官方媒体平台长期持续输出统一政治表述，并通过转载网络、门户网站和搜索系统不断扩散。他表示：“真正值得警惕的不是几篇宣传文章进入模型，而是模型开始学习一种叙事方式。当用户不断得到同一种解释，时间久了，它可能变成默认认知。这种影响比传统宣传更隐蔽。”

中共宣传渗入AI训练体系

美国多所高校研究人员组成团队，首次通过同行评审方式追踪中共官方媒体进入人工智能训练体系的路径，研究对象包括新华社、《人民日报》、学习强国等官方平台。

研究团队分析开源中文数据集CulturaX发现，该数据库包含约1.89亿份中文文档，中共官方媒体内容规模达到中文维基百科的41倍；在“党代会”“中央委员会”等政治词汇中，官方内容占比达到四分之一。

随后，研究人员测试ChatGPT、Claude、Gemini及DeepSeek等主流模型发现，在涉及中国政治议题时，中文回答与英文回答出现明显差异。部分模型在中文环境下能够自然接续习近平近年来使用的政治论述，并给出较正面的解释；英文回答则相对保留，DeepSeek则在中英文环境中保持高度一致。

参与研究的美国加州大学圣迭戈分校中国数据实验室联合主任Molly Roberts说：“威权政府现在可以通过人工智能，跨越国界塑造全球信息消费。”

中共高薪抢夺美国人工智能专家

广东网络技术工程师冯琪（化名）对记者表示：“报导提到的中共宣传被人工智能抓取是事实。我在使用Claude时发现，关于中国部分的大量用词出自官方叙述，比如把失业说成灵活就业、城镇调查失业率、领导干部、党员干部。这些词汇不该出现在境外模型上，ChatGPT也存在这个问题。”

冯琪透露，中共当局正在挖角美国硅谷的工程师：“广东、浙江、北京的人工智能公司都在领英挖人，尤其在美国硅谷一线AI企业工作的员工和头部AI企业工程师最受欢迎。如果你带着最新技术，将得到几十万元（人民币，下同）到上千万元的奖励。现在国内对研发人工智能的需求比芯片大多了。”

研究指出，这种影响无需技术入侵。新华社、《人民日报》等官方内容可以长期免费开放、大量转载，更容易进入人工智能抓取体系；相比之下，众多独立媒体受版权、付费墙限制。媒体研究学者张诚对记者说：“用户看到的是人工智能给出的答案，却不知道背后是谁长期提供内容”。研究扩大至37国后发现，新闻自由度越低，其语言环境中的AI输出越容易接近政权叙事。

责任编辑：林琮文#

标签

中共渗入AI模型网上高薪招聘人工智能工程师