國慶日變10/1 中研院AI語言模型出包急下架

網友們發現，CKIP-Llama-2-7b的回答皆以「中國立場」為主。（網頁擷圖）

人氣: 46

【字號】大中小

更新: 2023-10-11 7:40 PM 標籤: 中研院, AI, 語言模型, 中國

【大紀元2023年10月11日訊】（大紀元記者侯駿霖台灣台北報導）由中研院自行開發的正體中文AI語言模型「CKIP-Llama-2-7b」，日前遭爆使用中國資料庫，經網友實測提出國慶日、國籍、國家領導人等問題，AI卻回應「10月1日」、「我的國籍是中國」、「國家主席習近平」。中研院最新聲明指出，AI有中國開源訓練資料，測試版已下架，後續將成立風險研究小組、避免類似情況再度發生。

圖為人工智慧（AI）示意圖。（OLIVIER MORIN/AFP via Getty Images）

中研院資訊所表示，CKIP-LlaMa-2-7b的研究目標之一，是讓meta開發的Llama2大型語言模型具備更好的正體中文處理能力，這項小型研究的經費僅新臺幣30萬元、參數量達70億（7 billion）。

不過，網友發現詢問該語言模型「國慶日是何時？」、「中華民國國歌為何？」、「我國憲法？」、「國籍和國家領導人？」，AI卻偏向中國立場回覆「10月1日」、「中國義勇軍進行曲」、「中國憲法」、「中國籍和國家主席習近平」。外界質疑中研院以中國資料庫訓練後，僅簡轉繁後就公開。

中研院坦言，訓練資料有來自中國開源的任務資料集COIG，還包含臺灣碩博士論文摘要、詩詞創作、文言文和白話文互相翻譯等閱讀理解問答，並提供大眾下載，作為學術使用或是商業使用。

他們強調，生成式AI易產生「幻覺」（hallucination），導致模型產生內容出乎預期，研究人員已將該測試版下架，未來相關研究及成果釋出會更加謹慎，後續將釐清事件是否違反相關規定，並規劃成立「生成式AI風險研究小組」，避免類似情況再發生。

中研院說，正體中文語料庫是發展臺灣大型語言模型的重要基礎，下一步將整合正體中文詞知識庫，投入資源並規劃管理機制，也會擴大召集AI相關的跨領域研究人員，以團隊方式連結資訊科技、人文及社會科學人才進行跨領域研究。

責任編輯：鄭樺

台灣之光

即時新聞

評論

國慶日變10/1 中研院AI語言模型出包急下架

熱門排行

台灣之光

即時新聞