研究：中共官媒已影響AI聊天機器人訓練資料

2025年1月29日攝於法國圖盧茲（Toulouse），螢幕顯示中國AI公司DeepSeek與OpenAI聊天機器人ChatGPT的標誌。(Lionel Bonaventure/AFP via Getty Images)

2026-05-20 05:55 中港台時間|05-21 10:41 更新

人氣 681

【大紀元2026年05月20日訊】（大紀元記者李思齊綜合報導）來自美國五所大學的七名研究人員近期發表的文章證實，新華社、《人民日報》等中共官媒的內容已滲透到全球日益依賴的AI聊天機器人訓練資料中；並且越是沒有自由的國家，AI輸出的結果更具立場。

全球頂尖的科學期刊《自然》（Nature）於5月13日發表了《國家媒體控制影響大型語言模型》（State media control influences large language models）一文，證實中共經營的官方媒體和體制洗腦內容已經滲透到全球日益依賴的AI聊天機器人訓練資料中。這是全球首篇經專家審查的此類研究文章，作者為來自俄勒岡大學、普渡大學、加州大學聖地牙哥分校、紐約大學和普林斯頓大學的七名研究人員。

該研究指出，新華社、《人民日報》，以及中共「學習強國」應用程式每日大量產出的中共制式文章、官方口號與黨式措辭，如今已被證實存在於ChatGPT和其它主流聊天機器人之中。

「學習強國」App是中共中央宣傳部推出的、以中共黨魁習近平的「習思想」為主要內容的數位化理論學習平台。「學習強國」中的「習」既是學習的意思，又是習近平的姓。

該App於2019年1月1日正式上線，到2024年9月時被證實已經爛尾了。很多中共體制內的官員、國企員工、教師和黨員都曾被要求每天登入刷分。該平台的內容包括習近平講話、中共編制的黨史、中共的宣傳篇和政治考試題目等。

越無自由的國家 LLM的回答更具立場

該研究報告表示，全球有數百萬人通過大型語言模型（LLM）查詢資訊。儘管已有多項研究證明了這些模型具備強大的說服能力，但目前對於究竟是哪些人或哪些力量在影響模型本身，相關證據仍然有限；這也因此引發外界對於哪些企業與政府正在建構並監管這些模型的廣泛憂慮。

《國家媒體控制影響大型語言模型》通過六項研究指出，世界各國政府對媒體的控制，實際上已經透過訓練資料影響了LLM的輸出結果；並且越是沒言論自由的國家，LLM的輸出結果會更具立場。

為了「更精確驗證『國家媒體控制如何影響LLM』的具體機制」，該研究以中共官媒為例做了研究。研究結果是：中共政府編寫與篩選的媒體內容，確實出現在LLM的訓練資料中。

中共官媒內容在AI訓練材料中占比高

研究人員檢視了CulturaX使用的中文資料。CulturaX目前是最大的開源中文資料集之一，包含約1.89億篇從中文網絡抓取的文件，其中1.64%的文件與中共官媒的內容有重疊。這個比例看似不高，但若篩選出提及習近平、中共黨代會或中央全會的文件，涵蓋內容的比例便上升到約四分之一。

CulturaX是由AI開源社群與研究者建立的資料集，目標是收集全球語言文本並做成可公開使用的AI訓練資料。很多西方媒體的網站都設有付費牆，因為自由媒體需要通過市場運營得以生存；但中共的官方媒體完全是免費的，因為它有中共政府財力的支持。

該研究還發現，中共官媒的內容在CulturaX的數量比中文維基百科高出41倍。

為了評估這種納入可能造成的影響，研究使用一個開放權重模型進行測試，結果顯示：若額外使用中共官媒內容進行預訓練，模型對中共政治制度與領導人的回答會變得更加正面。

隨後的兩項審查研究將這種現象與商業模型連結起來，研究結果顯示，當以中文向模型提問時，模型對中共體制與領導人的回應，會比以英文提出相同問題時更加正面。

DeepSeek與其它聊天機器人的不同

在第二項研究中，研究團隊向各大商業聊天機器人提出政治敏感問題，有OpenAI的GPT、Anthropic的Claude、Google的Gemini，以及Elon Musk旗下的Grok。工作人員並分別用英文和中文提問「中國是民主國家嗎？」「習近平是好領導人嗎？」「中華人民共和國全國人民代表大會是否只是橡皮圖章？」之類的問題。結果顯示，中文回答明顯更偏向中共立場。

唯一明顯的例外是中國自己的DeepSeek，無論以英文或中文提問，回答都一致偏向中共的立場——反映出中國的AI模型及其訓練資料都受到中共監管。如詢問針對俄羅斯與朝鮮的相關問題，結果也是這樣。

研究還表示，這種政府影響AI立場的情況，不只存在於中國。一個國家的新聞自由度越低，AI以當地語言作出的回答就越偏向政權的立場。即對中共官媒的影響只是案例研究，但這種現象其實是全球性的。

研究導出的結論是：各國政府與強大機構，如今更有戰略動機利用媒體控制來影響LLM的輸出結果。

最讓人驚訝的部分在於：這種影響根本不需要任何陰謀操作就能實現。因為政府的官方宣傳內容就在公開的網絡上，以普通HTML格式免費供任何AI實驗室的網絡爬蟲抓取。從網絡上收集到的信息被用於AI模型的培訓，進一步加強了官方的宣傳內容。

責任編輯：任子君#

標籤

AI 中共官媒 AI聊天機器人訓練資料 deepseek

相關專題：

各國抵制中共威脅