【大紀元2026年05月04日訊】(大紀元記者戴德蔓台灣台北報導)生成式AI席捲全球,但「會說中文」不等於「懂台灣」,數位發展部AI產品與系統評測中心(AIEC)最新評測顯示,當AI面對台灣制度、文化與教育內容時,仍可能出現「答得很好,但不一定適合台灣」的情況,也讓「台灣價值觀」成為檢驗模型能力的新關鍵。


數位發展部AI產品與系統評測中心(AIEC)於5月1日公布最新一波國內外開源語言模型評測結果,透過「台灣價值觀」、「高中學測國文」與「高中學測社會」三項指標,檢視AI在繁體中文理解、在地文化脈絡及本土知識掌握上的實際表現。
此次評測中,亞太智能機器(APMIC)成為首家主動同意公開測試結果的國內業者,象徵台灣AI產業正從過去強調功能與效能,逐步走向更重視透明、可信任與可驗證的發展階段。根據官網同步釋出的最新測試資料顯示,APMIC的ACE-1模型在「台灣價值觀」指標上拿下100%,學測國文83.78%、社會71.57%,整體表現具競爭力。
在小模型(13B以下)部分,由國科會主導的TAIDE(Gemma-3-TAIDE-12B)在台灣價值觀達84%,國文54.49%、社會58.78%,在同級模型中表現亮眼。國際模型方面,Google Gemma-4與OpenAI GPT-5-nano在國文與社會測驗多落在60至70%以上。
至於中國模型如阿里巴巴Qwen與智譜AI GLM,在學科測驗上部分可達70%以上,但在「台灣價值觀」多落在40%至60%之間,顯示語料來源差異帶來影響。大型模型(13B以上)方面,Gemini 3-Pro與OpenAI GPT-5在學測表現多達80%至90%,台灣價值觀也維持在80%至90%區間,AIEC資料也顯示,xAI的Grok-3在台灣價值觀達92%,但社會學科表現相對較低。
數發部數產署表示,近年包括Anthropic、Google Gemini與OpenAI ChatGPT等國際大型語言模型展現強大能力,從寫作、翻譯到知識問答皆令人驚豔,但一旦涉及台灣制度、法律規範或社會文化情境時,仍可能出現落差。
數產署表示,推動在地化評測的目的,是讓各界更清楚掌握AI在台灣情境中的真實表現。透過測試結果,開發者可以找出模型需要補強之處,企業與使用者在選擇AI產品時,也能有更具體依據。
AIEC自114年10月起持續發布語言模型基準評測成果,至今已完成131個模型測試。結果顯示,語言能力不等於在地理解能力,「會說中文」不代表「真正懂台灣」。台灣需要的不只是更聰明的AI,而是能理解在地需求、回應在地情境的AI系統。
數產署進一步指出,亞太智能機器率先公開評測結果,代表國內業者已逐步將第三方評測納入產品發展的重要環節,不僅有助使用者理解模型能力,也能提升企業在商務合作、政府採購及國際市場上的信任度。
數產署也鼓勵更多模型開發商、系統整合商與AI服務業者參與送測並公開結果,形成正向循環,讓好模型不只是被宣稱,而是被驗證,讓好產品不只是存在市場上,也能被清楚看見。
責任編輯:鄭樺


