AIEC公布131模型测试台湾价值观成AI新竞争门槛

人气: 29

【字号】大中小

更新: 2026-05-04 7:30 PM 标签: 生成式AI, 数发部, 数产署, 台湾大纪元

【大纪元2026年05月04日讯】（大纪元记者戴德蔓台湾台北报导）生成式AI席卷全球，但“会说中文”不等于“懂台湾”，数位发展部AI产品与系统评测中心（AIEC）最新评测显示，当AI面对台湾制度、文化与教育内容时，仍可能出现“答得很好，但不一定适合台湾”的情况，也让“台湾价值观”成为检验模型能力的新关键。

语言模型基准(benchmark) 大模型(13B以上)_0_0。（数产署提供）

数位发展部AI产品与系统评测中心（AIEC）于5月1日公布最新一波国内外开源语言模型评测结果，透过“台湾价值观”、“高中学测国文”与“高中学测社会”三项指标，检视AI在繁体中文理解、在地文化脉络及本土知识掌握上的实际表现。

此次评测中，亚太智能机器（APMIC）成为首家主动同意公开测试结果的国内业者，象征台湾AI产业正从过去强调功能与效能，逐步走向更重视透明、可信任与可验证的发展阶段。根据官网同步释出的最新测试资料显示，APMIC的ACE-1模型在“台湾价值观”指标上拿下100%，学测国文83.78%、社会71.57%，整体表现具竞争力。

在小模型（13B以下）部分，由国科会主导的TAIDE（Gemma-3-TAIDE-12B）在台湾价值观达84%，国文54.49%、社会58.78%，在同级模型中表现亮眼。国际模型方面，Google Gemma-4与OpenAI GPT-5-nano在国文与社会测验多落在60至70%以上。

至于中国模型如阿里巴巴Qwen与智谱AI GLM，在学科测验上部分可达70%以上，但在“台湾价值观”多落在40%至60%之间，显示语料来源差异带来影响。大型模型（13B以上）方面，Gemini 3-Pro与OpenAI GPT-5在学测表现多达80%至90%，台湾价值观也维持在80%至90%区间，AIEC资料也显示，xAI的Grok-3在台湾价值观达92%，但社会学科表现相对较低。

数发部数产署表示，近年包括Anthropic、Google Gemini与OpenAI ChatGPT等国际大型语言模型展现强大能力，从写作、翻译到知识问答皆令人惊艳，但一旦涉及台湾制度、法律规范或社会文化情境时，仍可能出现落差。

数产署表示，推动在地化评测的目的，是让各界更清楚掌握AI在台湾情境中的真实表现。透过测试结果，开发者可以找出模型需要补强之处，企业与使用者在选择AI产品时，也能有更具体依据。

AIEC自114年10月起持续发布语言模型基准评测成果，至今已完成131个模型测试。结果显示，语言能力不等于在地理解能力，“会说中文”不代表“真正懂台湾”。台湾需要的不只是更聪明的AI，而是能理解在地需求、回应在地情境的AI系统。

数产署进一步指出，亚太智能机器率先公开评测结果，代表国内业者已逐步将第三方评测纳入产品发展的重要环节，不仅有助使用者理解模型能力，也能提升企业在商务合作、政府采购及国际市场上的信任度。

数产署也鼓励更多模型开发商、系统整合商与AI服务业者参与送测并公开结果，形成正向循环，让好模型不只是被宣称，而是被验证，让好产品不只是存在市场上，也能被清楚看见。

责任编辑：郑桦

AIEC公布131模型测试 台湾价值观成AI新竞争门槛

热门排行

台湾之光

即时新闻

AIEC公布131模型测试台湾价值观成AI新竞争门槛