site logo: www.epochtimes.com

中國「簡轉繁」攻進AI語料庫 出版界憂台灣內容遭洗版

民進黨立委陳培瑜等人召開「文化石油:AI主權建設下的出版內容產業未來座談會」。(宋碧龍/大紀元)
人氣: 16
【字號】    
   標籤: tags: , , , , , ,

【大紀元2026年05月20日訊】(大紀元記者戴德蔓台灣台北報導)民進黨立委陳培瑜、吳思瑤5月19日在立法院召開「文化石油:AI主權建設下的出版內容產業未來」座談會,邀集政府、出版業、內容平台與學界討論主權AI語料庫建設。不少出版與內容產業代表在會中直言,台灣若要發展自己的AI,現在最棘手的問題,不只是資料量不夠,且中國內容正以「簡轉繁」大量滲透,甚至可能反過來主導未來AI的繁體中文世界觀。

民進黨立委陳培瑜等人召開「文化石油:AI主權建設下的出版內容產業未來座談會」。
民進黨立委陳培瑜等人召開「文化石油:AI主權建設下的出版內容產業未來座談會」。(宋碧龍/大紀元)

陳培瑜指出,AI早已不是工程師圈內的事情,而是每個人的生活都離不開AI。從報紙、雜誌、出版、廣播、電視到數位內容,過去累積下來的文化內容,其實都是AI理解台灣的重要養分。

「台灣的內容不能缺席。」陳培瑜說,AI是一台精密運作的機器,而文化內容就是驅動它的燃料。如果台灣自己的內容沒有進入大型語言模型,未來AI理解台灣的方式,很可能就會被別人的資料取代。目前國際主流大型語言模型(LLM)中,高達50%使用英文訓練,但繁體中文只占約1%,正面臨嚴重邊緣化危機。

陳培瑜表示,過去政府推動本地主權AI(TAIDE)時,確實曾有部分產業界免費提供資料協助訓練,但如果未來要真正建立大型AI語料庫,目前資料量仍遠遠不足,依照目前估算,至少需要1TB的資料量,若換算成書籍,大約相當於100萬本書。

陳培瑜現場還拿起一本《台灣棒球入門》表示,即便這本書整理了大量台灣棒球的重要知識,「現在機器人其實是讀不到的」,因為這些內容根本沒有真正進入大型語言模型的資料庫,「台灣這麼多年累積下來、值得驕傲的華語出版內容,要怎麼被世界看見?」

吳思瑤表示,台灣雖然是半導體強國,但如果主權AI缺乏在地文化語料,TAIDE最後恐怕只會變成「沒有靈魂的空殼」,自己在質詢國科會與中研院時就發現,TAIDE部分評測落後,其中重要原因,就是許多核心文化語料因授權問題,至今仍無法納入模型。

吳思瑤強調,「創作有價」,但單一創作者很難與科技巨頭談判,因此政府未來應建立內容授權、分潤與計價機制。她建議,可參考歐盟《AI 法案》與公共出借權制度,由國家建立「集體授權與分潤平台」,讓文化內容成為台灣主權AI的重要基礎。

除了授權與分潤,令人更憂心的則是中國內容的大量滲透。親子天下副總經理林彥傑指出,近年中國「簡轉繁」電子書已大量進入台灣市場,目前台灣每年申請ISBN前十大出版社中,「至少有五家是中國出版社」,很多中國內容並不是以簡體字出現,而是直接轉成繁體字,再透過電子書平台進入台灣。

「這還不是AI書喔。」林彥傑警告,如果未來AI語料完全採「自由市場」與「agent to agent」模式,中共很可能以極大量內容灌入台灣語料庫。「如果今天token數是百萬級,我相信中共可以用千萬級、甚至億級的量灌進來。」

他認為,即便使用者未必主動閱讀這些內容,但只要大量資料被放入模型,就可能逐漸影響知識結構與論述方向。他建議政府未來建立主權AI時,不能完全採自由市場模式,而是應建立一定程度的管控與審查機制。

陳培瑜也直言,中國「簡轉繁」電子書大量進入台灣市場的情況,其實已經非常驚人。目前中國出版內容透過EISBN系統,以電子書形式大量進入台灣平台,「瞬間上架千萬本、百萬本,我們完全擋不住」。

她坦言,台灣是自由市場與言論自由社會,無法完全禁止中國書籍進入,但問題已不只是出版產業,而是會進一步影響校園閱讀與下一代的知識環境。「現在很多孩子會在學校借閱大量圖書,這可能才是他們最重要的內容消費市場。」

城邦媒體協理祝本堯則從另一個角度提出警訊,他說,自己平常很喜歡玩戰爭遊戲,但大約從前年開始,突然發現網路上大量出現「十四年抗戰」的說法。「我活到這麼大,從來沒聽過十四年抗戰。」後來他查資料才發現,這是中共中央重新定調抗戰史觀後,透過大量網路內容、小紅書與歷史論述持續推廣的結果。

「短短兩三年裡面,八年抗戰跟十四年抗戰,竟然可以有差不多的聲量。」他說,「AI不會發明新的東西,它一定是重新重組它讀過的內容。」換句話說,如果未來AI讀到的大量繁體中文內容,本身已經被特定論述大量覆蓋,那AI最後生成出來的世界觀,也可能逐漸偏移。

對此,陳培瑜也分享,兒子當年準備國中會考時,曾突然跑來問她:「媽,我同學都說抗戰是十幾年,不是八年嗎?」她一度還懷疑是不是自己記錯歷史,「原來是online game,真的很可怕。」

數發部資料創新司司長莊明芬表示,AI發展下,台灣必須建設自己的主權AI,數發部去年底已建立「台灣主權AI訓練語料庫」,目前蒐集約12億個tokens語料量。第一階段先從政府機關做起,累積中央部會與地方政府擁有著作財產權的資料,優先釋出到主權AI訓練語料庫中,第二階段則希望民間共同響應,讓台灣語料能被國內外AI模型訓練者看見。截至目前,已有三十多家國內外AI訓練單位,包括學研機構與商業公司,運用這套語料庫資料進行訓練。

針對授權機制,莊明芬表示,數發部在第一階段釋出政府機關資料時,已與經濟部智慧財產局合作,研擬「台灣主權AI訓練語料庫授權條款」,已與二百多個政府部門簽訂釋出資料。至於後續的推動,希望仰賴市場機制,建立合理的授權及回饋機制。◇

責任編輯:昌英

評論