【大纪元2026年05月20日讯】(大纪元记者戴德蔓台湾台北报导)民进党立委陈培瑜、吴思瑶5月19日在立法院召开“文化石油:AI主权建设下的出版内容产业未来”座谈会,邀集政府、出版业、内容平台与学界讨论主权AI语料库建设。不少出版与内容产业代表在会中直言,台湾若要发展自己的AI,现在最棘手的问题,不只是资料量不够,且中国内容正以“简转繁”大量渗透,甚至可能反过来主导未来AI的繁体中文世界观。

陈培瑜指出,AI早已不是工程师圈内的事情,而是每个人的生活都离不开AI。从报纸、杂志、出版、广播、电视到数位内容,过去累积下来的文化内容,其实都是AI理解台湾的重要养分。
“台湾的内容不能缺席。”陈培瑜说,AI是一台精密运作的机器,而文化内容就是驱动它的燃料。如果台湾自己的内容没有进入大型语言模型,未来AI理解台湾的方式,很可能就会被别人的资料取代。目前国际主流大型语言模型(LLM)中,高达50%使用英文训练,但繁体中文只占约1%,正面临严重边缘化危机。
陈培瑜表示,过去政府推动本地主权AI(TAIDE)时,确实曾有部分产业界免费提供资料协助训练,但如果未来要真正建立大型AI语料库,目前资料量仍远远不足,依照目前估算,至少需要1TB的资料量,若换算成书籍,大约相当于100万本书。
陈培瑜现场还拿起一本《台湾棒球入门》表示,即便这本书整理了大量台湾棒球的重要知识,“现在机器人其实是读不到的”,因为这些内容根本没有真正进入大型语言模型的资料库,“台湾这么多年累积下来、值得骄傲的华语出版内容,要怎么被世界看见?”
吴思瑶表示,台湾虽然是半导体强国,但如果主权AI缺乏在地文化语料,TAIDE最后恐怕只会变成“没有灵魂的空壳”,自己在质询国科会与中研院时就发现,TAIDE部分评测落后,其中重要原因,就是许多核心文化语料因授权问题,至今仍无法纳入模型。
吴思瑶强调,“创作有价”,但单一创作者很难与科技巨头谈判,因此政府未来应建立内容授权、分润与计价机制。她建议,可参考欧盟《AI 法案》与公共出借权制度,由国家建立“集体授权与分润平台”,让文化内容成为台湾主权AI的重要基础。
除了授权与分润,令人更忧心的则是中国内容的大量渗透。亲子天下副总经理林彦杰指出,近年中国“简转繁”电子书已大量进入台湾市场,目前台湾每年申请ISBN前十大出版社中,“至少有五家是中国出版社”,很多中国内容并不是以简体字出现,而是直接转成繁体字,再透过电子书平台进入台湾。
“这还不是AI书喔。”林彦杰警告,如果未来AI语料完全采“自由市场”与“agent to agent”模式,中共很可能以极大量内容灌入台湾语料库。“如果今天token数是百万级,我相信中共可以用千万级、甚至亿级的量灌进来。”
他认为,即便使用者未必主动阅读这些内容,但只要大量资料被放入模型,就可能逐渐影响知识结构与论述方向。他建议政府未来建立主权AI时,不能完全采自由市场模式,而是应建立一定程度的管控与审查机制。
陈培瑜也直言,中国“简转繁”电子书大量进入台湾市场的情况,其实已经非常惊人。目前中国出版内容透过EISBN系统,以电子书形式大量进入台湾平台,“瞬间上架千万本、百万本,我们完全挡不住”。
她坦言,台湾是自由市场与言论自由社会,无法完全禁止中国书籍进入,但问题已不只是出版产业,而是会进一步影响校园阅读与下一代的知识环境。“现在很多孩子会在学校借阅大量图书,这可能才是他们最重要的内容消费市场。”
城邦媒体协理祝本尧则从另一个角度提出警讯,他说,自己平常很喜欢玩战争游戏,但大约从前年开始,突然发现网路上大量出现“十四年抗战”的说法。“我活到这么大,从来没听过十四年抗战。”后来他查资料才发现,这是中共中央重新定调抗战史观后,透过大量网路内容、小红书与历史论述持续推广的结果。
“短短两三年里面,八年抗战跟十四年抗战,竟然可以有差不多的声量。”他说,“AI不会发明新的东西,它一定是重新重组它读过的内容。”换句话说,如果未来AI读到的大量繁体中文内容,本身已经被特定论述大量覆盖,那AI最后生成出来的世界观,也可能逐渐偏移。
对此,陈培瑜也分享,儿子当年准备国中会考时,曾突然跑来问她:“妈,我同学都说抗战是十几年,不是八年吗?”她一度还怀疑是不是自己记错历史,“原来是online game,真的很可怕。”
数发部资料创新司司长庄明芬表示,AI发展下,台湾必须建设自己的主权AI,数发部去年底已建立“台湾主权AI训练语料库”,目前搜集约12亿个tokens语料量。第一阶段先从政府机关做起,累积中央部会与地方政府拥有著作财产权的资料,优先释出到主权AI训练语料库中,第二阶段则希望民间共同响应,让台湾语料能被国内外AI模型训练者看见。截至目前,已有三十多家国内外AI训练单位,包括学研机构与商业公司,运用这套语料库资料进行训练。
针对授权机制,庄明芬表示,数发部在第一阶段释出政府机关资料时,已与经济部智慧财产局合作,研拟“台湾主权AI训练语料库授权条款”,已与二百多个政府部门签订释出资料。至于后续的推动,希望仰赖市场机制,建立合理的授权及回馈机制。◇
责任编辑:昌英



