AIEC公布131模型測試台灣價值觀成AI新競爭門檻

人氣: 29

【字號】大中小

更新: 2026-05-04 7:30 PM 標籤: 生成式AI, 數發部, 數產署, 台灣大紀元

【大紀元2026年05月04日訊】（大紀元記者戴德蔓台灣台北報導）生成式AI席捲全球，但「會說中文」不等於「懂台灣」，數位發展部AI產品與系統評測中心（AIEC）最新評測顯示，當AI面對台灣制度、文化與教育內容時，仍可能出現「答得很好，但不一定適合台灣」的情況，也讓「台灣價值觀」成為檢驗模型能力的新關鍵。

語言模型基準(benchmark) 大模型(13B以上)_0_0。（數產署提供）

數位發展部AI產品與系統評測中心（AIEC）於5月1日公布最新一波國內外開源語言模型評測結果，透過「台灣價值觀」、「高中學測國文」與「高中學測社會」三項指標，檢視AI在繁體中文理解、在地文化脈絡及本土知識掌握上的實際表現。

此次評測中，亞太智能機器（APMIC）成為首家主動同意公開測試結果的國內業者，象徵台灣AI產業正從過去強調功能與效能，逐步走向更重視透明、可信任與可驗證的發展階段。根據官網同步釋出的最新測試資料顯示，APMIC的ACE-1模型在「台灣價值觀」指標上拿下100%，學測國文83.78%、社會71.57%，整體表現具競爭力。

在小模型（13B以下）部分，由國科會主導的TAIDE（Gemma-3-TAIDE-12B）在台灣價值觀達84%，國文54.49%、社會58.78%，在同級模型中表現亮眼。國際模型方面，Google Gemma-4與OpenAI GPT-5-nano在國文與社會測驗多落在60至70%以上。

至於中國模型如阿里巴巴Qwen與智譜AI GLM，在學科測驗上部分可達70%以上，但在「台灣價值觀」多落在40%至60%之間，顯示語料來源差異帶來影響。大型模型（13B以上）方面，Gemini 3-Pro與OpenAI GPT-5在學測表現多達80%至90%，台灣價值觀也維持在80%至90%區間，AIEC資料也顯示，xAI的Grok-3在台灣價值觀達92%，但社會學科表現相對較低。

數發部數產署表示，近年包括Anthropic、Google Gemini與OpenAI ChatGPT等國際大型語言模型展現強大能力，從寫作、翻譯到知識問答皆令人驚豔，但一旦涉及台灣制度、法律規範或社會文化情境時，仍可能出現落差。

數產署表示，推動在地化評測的目的，是讓各界更清楚掌握AI在台灣情境中的真實表現。透過測試結果，開發者可以找出模型需要補強之處，企業與使用者在選擇AI產品時，也能有更具體依據。

AIEC自114年10月起持續發布語言模型基準評測成果，至今已完成131個模型測試。結果顯示，語言能力不等於在地理解能力，「會說中文」不代表「真正懂台灣」。台灣需要的不只是更聰明的AI，而是能理解在地需求、回應在地情境的AI系統。

數產署進一步指出，亞太智能機器率先公開評測結果，代表國內業者已逐步將第三方評測納入產品發展的重要環節，不僅有助使用者理解模型能力，也能提升企業在商務合作、政府採購及國際市場上的信任度。

數產署也鼓勵更多模型開發商、系統整合商與AI服務業者參與送測並公開結果，形成正向循環，讓好模型不只是被宣稱，而是被驗證，讓好產品不只是存在市場上，也能被清楚看見。

責任編輯：鄭樺

台灣之光

即時新聞

評論

AIEC公布131模型測試 台灣價值觀成AI新競爭門檻

熱門排行

台灣之光

即時新聞

AIEC公布131模型測試台灣價值觀成AI新競爭門檻