台中研院推出中文断词系统 分类资料更聪明

人气 2
标签:

【大纪元9月29日报导】(据中广新闻许佳惠报导)中研院资讯科学研究所在台北国际发明展上,推出一款具有新词辨识和词类标记能力的软体,这套中文断词系统,可以自动帮文件和资料作分类,应用在网站上,可以让搜寻引擎更有效率,准确度已经达百分之九十六,中研院也把技术转给下游厂商,将来可望让民众生活更方便。

每年大考放榜榜单上,都有一大堆菜市场名,在大家忙着取笑名字的同时,科学家已经看到先机!中研院资讯科学研究所中文词知识库小组,就是利用榜单的名字,让中文断词系统更完整。

计划助理蔡瑜方表示,中文断词系统主要是让网路搜寻引擎可以更准确,同时对一些需要作文件、资料分类的公司,可以更有效率,例如新闻分类,这套系统可以自己统计关键词出现的频率,然后自动归类到生活新闻、财经新闻或是政治新闻,这样一来就不需要人工分类,目前辨识准确度已经有百分之九十六。

蔡瑜方也进一步解释,这套系统初期是利用辞海建立资料库,然后才逐步加入词首跟词尾,例如某某部、某某会、某某路,系统侦测到这些“部”、“会”、“路”,就会机灵的往前搜字串,然后组成国科会、信义路等等,人名的部分也是一样,出现姓氏之后,系统会去抓后面的字,看是否为常用名,然后组成一个完整人名。

相关新闻
药物过敏跟基因有关:公视为您解读生命密码
台湾职棒联盟新会长 曾志朗允诺接任
曾志朗婉拒接任中华职棒会长
台故宫博物院和法蓝瓷数位典藏新模式
如果您有新闻线索或资料给大纪元,请进入安全投稿爆料平台
评论