中國「簡轉繁」攻進AI語料庫出版界憂台灣內容遭洗版

民進黨立委陳培瑜等人召開「文化石油：AI主權建設下的出版內容產業未來座談會」。（宋碧龍／大紀元）

人氣: 159

【字號】大中小

更新: 2026-05-20 1:06 PM 標籤: 出版, 吳思瑤, 台灣大紀元, AI, AI主權, 文化石油, 語料庫

【大紀元2026年05月20日訊】（大紀元記者戴德蔓台灣台北報導）民進黨立委陳培瑜、吳思瑤5月19日在立法院召開「文化石油：AI主權建設下的出版內容產業未來」座談會，邀集政府、出版業、內容平台與學界討論主權AI語料庫建設。不少出版與內容產業代表在會中直言，台灣若要發展自己的AI，現在最棘手的問題，不只是資料量不夠，且中國內容正以「簡轉繁」大量滲透，甚至可能反過來主導未來AI的繁體中文世界觀。

民進黨立委陳培瑜等人召開「文化石油：AI主權建設下的出版內容產業未來座談會」。（宋碧龍／大紀元）

陳培瑜指出，AI早已不是工程師圈內的事情，而是每個人的生活都離不開AI。從報紙、雜誌、出版、廣播、電視到數位內容，過去累積下來的文化內容，其實都是AI理解台灣的重要養分。

「台灣的內容不能缺席。」陳培瑜說，AI是一台精密運作的機器，而文化內容就是驅動它的燃料。如果台灣自己的內容沒有進入大型語言模型，未來AI理解台灣的方式，很可能就會被別人的資料取代。目前國際主流大型語言模型（LLM）中，高達50%使用英文訓練，但繁體中文只占約1%，正面臨嚴重邊緣化危機。

陳培瑜表示，過去政府推動本地主權AI（TAIDE）時，確實曾有部分產業界免費提供資料協助訓練，但如果未來要真正建立大型AI語料庫，目前資料量仍遠遠不足，依照目前估算，至少需要1TB的資料量，若換算成書籍，大約相當於100萬本書。

陳培瑜現場還拿起一本《台灣棒球入門》表示，即便這本書整理了大量台灣棒球的重要知識，「現在機器人其實是讀不到的」，因為這些內容根本沒有真正進入大型語言模型的資料庫，「台灣這麼多年累積下來、值得驕傲的華語出版內容，要怎麼被世界看見？」

吳思瑤表示，台灣雖然是半導體強國，但如果主權AI缺乏在地文化語料，TAIDE最後恐怕只會變成「沒有靈魂的空殼」，自己在質詢國科會與中研院時就發現，TAIDE部分評測落後，其中重要原因，就是許多核心文化語料因授權問題，至今仍無法納入模型。

吳思瑤強調，「創作有價」，但單一創作者很難與科技巨頭談判，因此政府未來應建立內容授權、分潤與計價機制。她建議，可參考歐盟《AI 法案》與公共出借權制度，由國家建立「集體授權與分潤平台」，讓文化內容成為台灣主權AI的重要基礎。

除了授權與分潤，令人更憂心的則是中國內容的大量滲透。親子天下副總經理林彥傑指出，近年中國「簡轉繁」電子書已大量進入台灣市場，目前台灣每年申請ISBN前十大出版社中，「至少有五家是中國出版社」，很多中國內容並不是以簡體字出現，而是直接轉成繁體字，再透過電子書平台進入台灣。

「這還不是AI書喔。」林彥傑警告，如果未來AI語料完全採「自由市場」與「agent to agent」模式，中共很可能以極大量內容灌入台灣語料庫。「如果今天token數是百萬級，我相信中共可以用千萬級、甚至億級的量灌進來。」

他認為，即便使用者未必主動閱讀這些內容，但只要大量資料被放入模型，就可能逐漸影響知識結構與論述方向。他建議政府未來建立主權AI時，不能完全採自由市場模式，而是應建立一定程度的管控與審查機制。

陳培瑜也直言，中國「簡轉繁」電子書大量進入台灣市場的情況，其實已經非常驚人。目前中國出版內容透過EISBN系統，以電子書形式大量進入台灣平台，「瞬間上架千萬本、百萬本，我們完全擋不住」。

她坦言，台灣是自由市場與言論自由社會，無法完全禁止中國書籍進入，但問題已不只是出版產業，而是會進一步影響校園閱讀與下一代的知識環境。「現在很多孩子會在學校借閱大量圖書，這可能才是他們最重要的內容消費市場。」

城邦媒體協理祝本堯則從另一個角度提出警訊，他說，自己平常很喜歡玩戰爭遊戲，但大約從前年開始，突然發現網路上大量出現「十四年抗戰」的說法。「我活到這麼大，從來沒聽過十四年抗戰。」後來他查資料才發現，這是中共中央重新定調抗戰史觀後，透過大量網路內容、小紅書與歷史論述持續推廣的結果。

「短短兩三年裡面，八年抗戰跟十四年抗戰，竟然可以有差不多的聲量。」他說，「AI不會發明新的東西，它一定是重新重組它讀過的內容。」換句話說，如果未來AI讀到的大量繁體中文內容，本身已經被特定論述大量覆蓋，那AI最後生成出來的世界觀，也可能逐漸偏移。

對此，陳培瑜也分享，兒子當年準備國中會考時，曾突然跑來問她：「媽，我同學都說抗戰是十幾年，不是八年嗎？」她一度還懷疑是不是自己記錯歷史，「原來是online game，真的很可怕。」

數發部資料創新司司長莊明芬表示，AI發展下，台灣必須建設自己的主權AI，數發部去年底已建立「台灣主權AI訓練語料庫」，目前蒐集約12億個tokens語料量。第一階段先從政府機關做起，累積中央部會與地方政府擁有著作財產權的資料，優先釋出到主權AI訓練語料庫中，第二階段則希望民間共同響應，讓台灣語料能被國內外AI模型訓練者看見。截至目前，已有三十多家國內外AI訓練單位，包括學研機構與商業公司，運用這套語料庫資料進行訓練。

針對授權機制，莊明芬表示，數發部在第一階段釋出政府機關資料時，已與經濟部智慧財產局合作，研擬「台灣主權AI訓練語料庫授權條款」，已與二百多個政府部門簽訂釋出資料。至於後續的推動，希望仰賴市場機制，建立合理的授權及回饋機制。◇

責任編輯：昌英

台灣之光

即時新聞

評論

中國「簡轉繁」攻進AI語料庫 出版界憂台灣內容遭洗版

熱門排行

台灣之光

即時新聞

中國「簡轉繁」攻進AI語料庫出版界憂台灣內容遭洗版