美国大学首次大规模分析中国微博“软审查”

人气 1
标签:

【大纪元2012年03月15日讯】(大纪元记者李晓宇编译报导)美国卡内基梅隆大学(Carnegie Mellon University,简称 CMU)计算机学院的语言技术专家分析了5700万条中国的微博信息后,发现被审查的敏感词各种各样,从“法轮功”到“碘盐”等不一而足。敏感词相关信息被删除的频率则因当前时事和地理位置的变化而变化,被删除的强度也有不同。这是首次有正式的学术机构针对中共对社交媒体的网络审查展开大规模分析。

删除博文与事件热点和地理位置相关

卡内基梅隆大学计算机学院的研究人员分析了数以百万条中国的微博,发现了一系列政治上敏感的短语,会引起中共的审查系统的注意。一旦博文中包含这些短语,通常都会被删除,删除的频率与当前事件热点和地理位置有关。

研究人员发现,中国的在线审查高度发达,经常被删除的短语包括广为人知的禁词,比如法轮功,还有人权活动家艾未未。还有些禁词是基于当前事件;在2011年2月期间,当两会成为指称“计划中的抗议”的暗语时,这个本来是指全国人民代表大会和政治协商会议的词成为了删除对象。

CMU的研究也显示某些省份微博的审查频率更高。这一现象在西藏尤其引人注目,西藏高达53%的当地微博被删除。

被删博文各式各样

举例来说,在去年6月底和7月初的时候,网络上开始流传江泽民的死讯,他是在1989年天安门抗议之后掌握权力的中共前总书记。在7月6日,传言达到了高峰,83条带有他的名字的信息当中有64条被删除,在7月7日,31条这样的信息中有29条被删除。

经常被删除的许多微博包括了政治敏感的短语和名字,比如设计“防火长城”的方滨兴,以及提到中宣部的博文。其他的则体现出事件的敏感性,去年七月温州动车事故造成40人死亡,之后“请辞”成为了删除对象,这明显指的是铁道部部长。

被删除的词语并非总是政治性的。2011年3月,日本福岛核灾难发生之后,政治上不敏感的短语,如碘盐和辐射强度都被大量删除。研究者们相信这是因为政府想要遏制谣言,不希望核事故导致囤积盐的行为。

研究人员康纳说:“你会看到在某些微博中,博主甚至会问,‘这会被删除吗?’”2010年年末,纽约时报的专栏作家纪思道(Nicholas Kristof)在中国的(新浪)微博网站上开了一个账号;在他发了一条关于法轮功的消息之后一小时之内,他的账号被关闭了。

新浪微博审查比推特严重的多

研究人员还作了一项调查,把新浪微博上的消息和推特上的中文消息进行对比,后者虽然在中国被屏蔽了,但还是有精通网络的用户能登录。7月6日,每75条推文中就会出现一次江泽民的名字,但在新浪微博上,5666条微博中才会出现一条——这是另一个证据说明在新浪微博上,关于江泽民的讨论被压制了。

研究方法建立 可找出规避审查的暗语

参与这项研究的人员有语言技术学院(LTI)的助理教授诺亚.史密斯(Noah Smith)、博士生大卫.巴曼(David Bamman)和机器学习系的博士生卜兰丹.康纳(Brendan O’Connor)。
研究人员在论文中指出,所谓的“防火长城”用以阻止中国居民登陆如谷歌和Facebook这样的外国网站,这是中国最广为人知的审查工具。

巴曼说,尽管如此,当局如果想要从网上交易或在线教育中受益的话,关闭所有网站是不可能的。替代的方式就是允许登陆网站,但是审查内容,去除那些被认为“有害”的信息。一些信息可以采用自动方式删除,其余的则须通过人工删除。

CMU的团队为了研究这种“软”审查,分析了新浪微博上将近5700万条消息,新浪微博有超过2亿个账号。从2011年6月27日到9月30日,他们用新浪微博提供给开发者的一个应用程序软件(API)来收集样本。

他们后来使用同样的API,以随机的方式检查了部分微博,查看它们是否被删除了,然后再取另一部分包括了已知的敏感词的微博进行测试。如果这条微博被删除,新浪则会回复给开发者一条信息:该微博已不存在。

研究者们建立起了研究中国的软审查的方法,现在他们有了一个工具可以积极地观察社交媒体的审查如何随时间演变,同时也有方法可以让调查更深入,比如找出那些用来规避审查机器的暗语和隐喻。

相关新闻
押王立军返北京的七名官员全部“失踪”
大陆官方另类林书豪热 争祖籍 掩信仰
周五重庆日报头版不见薄熙来
大纪元九评和退党周刊(12-02/05-02/18)
如果您有新闻线索或资料给大纪元,请进入安全投稿爆料平台
评论