多伦多大学报告揭秘微信如何过滤图片

人气: 7038

【字号】大中小

更新: 2019-07-19 12:20 PM 标签: 多伦多大学公民实验室, 微信, 微信+过滤图片, 敏感图片库

【大纪元2019年07月18日讯】（大纪元记者周行多伦多综合报导）有人可能认为，在微信上通过图片对话，可以避开审查，其实没这回事。多伦多大学的一项研究，揭示了微信如何实时、自动地审查聊天中所发送的范围广、数量巨大的图片。

多伦多大学公民实验室（Citizen Lab）在7月15日发表的这份最新研究报告名为“‘未阅先焚’2——微信如何实现实时审查用户对话中的敏感图片”。

按中共政府的规定，网络公司需要对自己平台上的内容进行审查。公民实验室去年发表的研究报告显示，微信通过巨量计算，审查在朋友圈（Moments）发送的图片。这次针对用户聊天中图片审查的研究发现，微信使用较便宜的哈希索引（Hash Index）过滤图片。

该研究对比了微信朋友圈、一对一聊天及群组聊天的图片审查比例，发现这3项功能的敏感图片库并不相同，朋友圈和群组聊天所审查的范围远大于一对一聊天。

不断扩展敏感图片库

公民实验室去年发现，微信审查朋友圈图片使用的是基于光学字符识别（OCR）方法，将图像中的文字与黑名单上的关键字进行比较；用基于视觉的方法将图片上的图像指纹与像黑名单上的图像指纹进行比较。

该实验室今年的报告称，基于光学字符识别的算法计算成本太高，无法应用于聊天的实时过滤。“我们发现，微信使用另一种称为哈希索引的办法，当用户发送的图片被微信服务器之一接到后，这服务器会计算其加密哈希值。如果哈希值在哈希索引（即黑名单）中，该图片就被过滤，即不会被发送给目标用户。”

这是一种可以迅速将一个文件中的数据与指纹（或哈希值）对比的技术，所以，这种计算法适用于实时过滤应用程序。但是，这方法非常不灵活，因为图像的微小变化就会从根本上改变其加密哈希值。

研究人员发现，为克服这些限制，微信在实时过滤通过后，采用计算成本较高的基于光学字符识别算法，来补充哈希索引的不足。研究人员将属于黑名单的图像做了小更改后发出，第一次都能通过审查，“当我们几秒钟后再次发送这张图片时，它就被过滤掉了。”

也就是说，这些图片因为做了小修改，其哈希值变了，所以通过了审查。但微信随即对其做基于光学字符识别算法的审查，发现其属于敏感图片后，把其哈希值加入了黑名单中。

群聊和一对一聊天有不同的黑名单

多伦多大学公民实验室的研究发现，微信使用不同的黑名单来过滤多人聊天及一对一聊天。尽管一对一和群聊都使用哈希索引过滤图片，但它们并不共享黑名单。

研究人员拿一张同时属于朋友圈、群聊和一对一聊天黑名单的图片做了修改，使其拥有新的加密哈希值，然后做了这样的试验：

1. 通过群聊发送一次该图片，不会导致该图片随后在一对一聊天中发送时被过滤。只有在一对一聊天中发送第二次时，该图片才被过滤掉。

2. 同样，通过一对一聊天发送一次该图片，不会导致该图片随后在群聊中发送时被过滤。只有在群聊中发送第二次时，该图片才被过滤掉。

3. 通过朋友圈发送一次这张图片，不会导致该图片随后在群聊或一对一聊天中发送时被过滤。

研究人员对3个不同黑名单的研究发现，朋友圈和群聊的图片黑名单，比一对一聊天的黑名单更长。去年11月15日，研究人员对黑名单中111张敏感图片做了分析，发现有36张敏感图片同属于一对一聊天、朋友圈和群聊的黑名单；另外71张敏感图片在朋友圈和群聊的黑名单中都有。朋友圈和群聊各有2张自己独有的敏感图片；一对一聊天完全没有自己独有的敏感图片。

哪些属于敏感图片？

报告的另一部分内容，是对微信审查图片的主题进行分类。在收集的超过200张被过滤的敏感图中，与中共政府有关的图片有75张，内容不单有讽刺漫画，也有中性的政府政策、领导人图片。比如有一张显示的是习近平2019年3月访问意大利前夕，一名艺术家在意大利使用拖拉机在田野上创作的习近平微笑的巨大头像。

与新闻事件有关的图片有60张，内容涉及文革、天安门事件、范冰冰逃税事件、最高法院卷宗丢失事件、华为孟晚舟事件、中美贸易战、2018美国中期选举、胚胎基因编辑事件，等等。

令人吃惊的是，这些在被过滤的图片中，有中共官媒《环球时报》发表过的5张图片，有些与华为有关，其中一张与持不同政见者郭宝胜有关。还有些被过滤的图片，是中共喉舌机构新华社发表的，其中一张与去年7月官方对疫苗丑闻的调查有关。

多伦多大学公民实验室去年和今年的研究都显示，微信的过滤政策不透明，外界很难推测其审查机制是如何运作的。比如在之前的研究中发现，有些被过滤的内容，只是用中国大陆电话号码注册的账号看不到了，使用国际电话号码注册的账号还可以看到。微信过滤帖子后，不会通知发帖人，发帖人还是可以看到自己贴的、被过滤掉的内容。#