大紀元

台中研院推出中文断词系统 分类资料更聪明

2005-09-29 15:27 中港台时间|2000-01-01 24:00 更新
人气 2

【大纪元9月29日报导】(据中广新闻许佳惠报导)中研院资讯科学研究所在台北国际发明展上,推出一款具有新词辨识和词类标记能力的软体,这套中文断词系统,可以自动帮文件和资料作分类,应用在网站上,可以让搜寻引擎更有效率,准确度已经达百分之九十六,中研院也把技术转给下游厂商,将来可望让民众生活更方便。

每年大考放榜榜单上,都有一大堆菜市场名,在大家忙着取笑名字的同时,科学家已经看到先机!中研院资讯科学研究所中文词知识库小组,就是利用榜单的名字,让中文断词系统更完整。

计划助理蔡瑜方表示,中文断词系统主要是让网路搜寻引擎可以更准确,同时对一些需要作文件、资料分类的公司,可以更有效率,例如新闻分类,这套系统可以自己统计关键词出现的频率,然后自动归类到生活新闻、财经新闻或是政治新闻,这样一来就不需要人工分类,目前辨识准确度已经有百分之九十六。

蔡瑜方也进一步解释,这套系统初期是利用辞海建立资料库,然后才逐步加入词首跟词尾,例如某某部、某某会、某某路,系统侦测到这些“部”、“会”、“路”,就会机灵的往前搜字串,然后组成国科会、信义路等等,人名的部分也是一样,出现姓氏之后,系统会去抓后面的字,看是否为常用名,然后组成一个完整人名。

标签
相关专题:
如果您有新闻线索或资料给大纪元,请进入安全投稿爆料平台

留言

  • 大纪元保留删除恶意留言的权利,包括低俗、误导或攻击信仰等内容
本网站图文內容归大纪元所有, 任何单位及个人未经许可,不得擅自转载使用。
Copyright© 2000 - 2026 The Epoch TimesAssociation Inc.All Rights Reserved.