【大纪元2026年05月04日讯】(大纪元记者戴德蔓台湾台北报导)生成式AI席卷全球,但“会说中文”不等于“懂台湾”,数位发展部AI产品与系统评测中心(AIEC)最新评测显示,当AI面对台湾制度、文化与教育内容时,仍可能出现“答得很好,但不一定适合台湾”的情况,也让“台湾价值观”成为检验模型能力的新关键。


数位发展部AI产品与系统评测中心(AIEC)于5月1日公布最新一波国内外开源语言模型评测结果,透过“台湾价值观”、“高中学测国文”与“高中学测社会”三项指标,检视AI在繁体中文理解、在地文化脉络及本土知识掌握上的实际表现。
此次评测中,亚太智能机器(APMIC)成为首家主动同意公开测试结果的国内业者,象征台湾AI产业正从过去强调功能与效能,逐步走向更重视透明、可信任与可验证的发展阶段。根据官网同步释出的最新测试资料显示,APMIC的ACE-1模型在“台湾价值观”指标上拿下100%,学测国文83.78%、社会71.57%,整体表现具竞争力。
在小模型(13B以下)部分,由国科会主导的TAIDE(Gemma-3-TAIDE-12B)在台湾价值观达84%,国文54.49%、社会58.78%,在同级模型中表现亮眼。国际模型方面,Google Gemma-4与OpenAI GPT-5-nano在国文与社会测验多落在60至70%以上。
至于中国模型如阿里巴巴Qwen与智谱AI GLM,在学科测验上部分可达70%以上,但在“台湾价值观”多落在40%至60%之间,显示语料来源差异带来影响。大型模型(13B以上)方面,Gemini 3-Pro与OpenAI GPT-5在学测表现多达80%至90%,台湾价值观也维持在80%至90%区间,AIEC资料也显示,xAI的Grok-3在台湾价值观达92%,但社会学科表现相对较低。
数发部数产署表示,近年包括Anthropic、Google Gemini与OpenAI ChatGPT等国际大型语言模型展现强大能力,从写作、翻译到知识问答皆令人惊艳,但一旦涉及台湾制度、法律规范或社会文化情境时,仍可能出现落差。
数产署表示,推动在地化评测的目的,是让各界更清楚掌握AI在台湾情境中的真实表现。透过测试结果,开发者可以找出模型需要补强之处,企业与使用者在选择AI产品时,也能有更具体依据。
AIEC自114年10月起持续发布语言模型基准评测成果,至今已完成131个模型测试。结果显示,语言能力不等于在地理解能力,“会说中文”不代表“真正懂台湾”。台湾需要的不只是更聪明的AI,而是能理解在地需求、回应在地情境的AI系统。
数产署进一步指出,亚太智能机器率先公开评测结果,代表国内业者已逐步将第三方评测纳入产品发展的重要环节,不仅有助使用者理解模型能力,也能提升企业在商务合作、政府采购及国际市场上的信任度。
数产署也鼓励更多模型开发商、系统整合商与AI服务业者参与送测并公开结果,形成正向循环,让好模型不只是被宣称,而是被验证,让好产品不只是存在市场上,也能被清楚看见。
责任编辑:郑桦


