大数据,社会工程学(RR搜索)与刑侦技术

人民公安大学教授谈大数据如何改变现代侦查

郭威:我今天想给大家谈一谈就是我们现在在大数据时代下,我们侦查发生的一些变革。

我们首先看一下大数据它的侦查价值,首先谈到刑侦的话,侦查就是说我们要在通过一些各种蛛丝马迹,发现犯罪线索,然后抽丝剥茧,在这个过程之中,查清楚犯罪事实真相、获取证据这样一个过程。

现在来讲,我们比如通过手机,你拿到一个人的手机可以讲就能够了解一个人。比如说通过他的通讯录,他的通讯录里面,他有哪些社会关系,这些人是干什么的,是吧?比如说他和哪些人其中联系比较密切,这些通过他的通话记录就会有很多的反映。再比如说,他用这个手机进行网上购物,我们就可以知道他的爱好是什么,他的经济水平怎么样,甚至比如说他经常的送货地址就是他的居住地。然后比如说他用现在的一些APP软件,比如说用滴滴打车,通过这些数据,我们就可以知道他经常会在哪,到哪些地方去,可能就是他的居住地或者他工作地,或者和他有关系的一些,关系比较密切的一些地点。我们可以通过这类的话,可以知道这个人什么时间从哪儿出发到了哪里,这些信息无疑对于查明一个事实真相来讲都是有很大帮助的。

下面的话,我们就通过两个案例看一看,就是说在现代的这种大数据时代下,我们侦查、破案是怎么样来进行的。

比如说大家看到这个案例,这个是2011年3月,在北京经济技术开发区发生的一起杀人碎尸案件,作案人把装有尸块的这个行李箱扔在了凉水河旁边这个树丛里面。在这样一个案件里面的话,因为当时也没有说是周围有监控,所有的这些信息的话就围绕可以讲丢在行李箱里面。在进行这个行李箱里面物证检验的时候,就发现有这么几个重要的物证。首先来讲,大家看到黑色的装裹尸块的这个塑料袋,对于这个塑料袋的尺寸、压边、断口,它的厚度、材质等等几个属性方面的话,我们进行检验,对它市面上出售的类似的这些垃圾袋进行一个分析的时候,就会发现这个垃圾袋它只有一种,就是某品牌的简约组合这个垃圾袋,与现场的垃圾袋是一致的。

这样我们就知道了,作案人用的是这样一个垃圾袋,这个垃圾袋经过查询在麦德隆和华润万家超市是有售的。

另外的话,现场上还发现了垃圾袋上面有一个透明的塑料胶带,透明塑料胶带大家注意到上面有一个螺旋形的花纹特征,我们的刑侦人员很棒,他就是从这个特征上面准确地推断出这可能是一个我们常用的劳保用的塑胶手套,这上面的防滑纹。所以说,根据它的这些宽度、印痕、长度、厚度、材质的特征,与也是和市面上我们经常见到的这些品牌进行比较,通过比较以后,就确认现场这个痕迹是妙洁牌的塑胶手套所遗留的痕迹。这个妙洁牌塑胶手套的话在北京有家乐福、华润万家等等一共五个超市都有出售,这个时候,把这些数据的话再进行一个整合的应用。就是说在它两种垃圾袋销售的话都是在华润万家这一家超市是有售的,结合案发的时间和空间信息,也就是说地点信息,这个时候进行一个信息碰撞,就锁定了这么一个购物小票。这个购物小票里面,第一个,这里面大家可以看到,它的案发地点就是和这个发案的地点它是有距离比较近的。另外的话,从购买时间上处在案发时间之前,它这里面的话购买了我们大家可以看到的塑胶手套和黑色的垃圾袋。此外的话,他还买了斩骨刀和一些其他的刀具,所以这块的话就可能和这个犯罪有一定的关联,而且更重要的是,大家看这个人是刷卡买的。所以说,通过这个银行卡,通过这样一个银行信息,我们就能够锁定到一个嫌疑人。

所以,根据这些信息,然后这个案件就得以破获。所以,这个案件的话,大家可以看一下,就是说我们从一个购物信息这些数据我们最后一点一点地去推理,去往前走,最后的话就找到了这个嫌疑人。

我们下面再看这第二个案例,我们这个是发生在江苏省扬州市的一起强奸杀人案。在这起案件里面,一个被害人很晚的时候,回家的时候被一个歹徒强奸杀害以后,尸体抛到了水里面。在接到报案以后,警察在勘察的时候,就在离抛尸现场大概三公里的时候,发现了案发第一现场。为什么说这里确认是案发第一现场,因为在这里找到了受害人的拖鞋、手机,她骑的摩托车等等这样的一些物品。在这个现场附近的话,也发现了一个树上的撞击痕迹以及散落在现场的一些塑料片。根据现场案发的情况,然后调取了周围的录像信息,在这个录像信息里面的时候,我们可以看到,就是说这个是受害人骑车过去以后,其后面尾随着一辆车,这个案发时段的话大家看是晚上或者说是半夜两点零一分。这个时候,这个路上出现的车辆非常少,而后面尾随的这辆摩托车的话又很特殊,他没有开大灯,也很反常。我们再看,从在3点17分的时候,他从原路返回来了,所以说结合这样一个信息的话,这个人或者这一辆车有重大的嫌疑。而且,经过质询比对的话,发现从他的衣着,这个摩托车的特征上面可以认定,初步认定这是同一个人。然后,通过现场这些物证进行检验,推断这应该是一个摩托车的转向灯上面掉落下来的一些碎片。这些碎片的话,经过进一步的查询,就发现其中一个塑料片上面有A046124这样的一些字码,侦查人员就运用了这种数据查询,运用的是什么,互联网的一个公共数据的查询,就发现这个号很可能是一个认证号,生产质量的一个认证号。所以,顺着这个思路,就进一步查询了国家认证认可监督委员会,也就是CNCA上面的一些代码,就查到了这样一个号的话,是福州的一个汽车配件有限公司,它主要就是做摩托车和汽车的灯具,做这样的。

经过进一步对这个厂家以及摩托车销售商的这种走访,最后的话就锁定了这两种摩托车,就是豪爵125T-11和125T-8A。顺着这个车型在浇灌系统的车辆管理系统里面,就找到了全市一共是190条记录,在这里面符合刚才所提到的这两种车型的只有34辆。再结合上一个空间的信息,也就是说地点的信息,最后就锁定到了一个嫌疑人于某。究竟说这个人会不会说一定和这个案件有关系,通过一些其他线索的查询,就发现案发以后,在当天3点54分的时候,他在附近的一个网吧上网,这样的话就进一步增大了他的嫌疑。通过侦查,最后的话抓获了犯罪嫌疑人,并且把现场的这些塑料碎片和他的摩托车进行了一个整体分离痕迹鉴定,从而认为认定这个车就是作案车辆。至此,这个案件就得到了破获。

实际上从刚才讲到这两个案例里面,我们就可以看到现代的侦查之中很广泛地运用到了各种各样的一些数据。这些数据的话,就是不断地会使我们缩小侦查范围,然后不断地去接近事实真相。实际上,在前几年美国的FBI它是有一个数量的统计,就是说它们几年以前在案件里面就是说至少有一半以上的案件涉及到了电子数据。其中这里面的话,85%是提供犯罪线索的作用,实际上就像刚才主持人讲的,这个大数据的概念并不是说今天才有的,实际上在很多年以前,比如说在十几年以前,大家还记得马加爵的案件,是吧?当时马加爵这个案件的话在发案之后,他就逃跑了,公安部在当年3月1号发布了A级通缉令。但是,大家可能不知道的是,当时公安部专门派了电子数据的专家去对马加爵他已经格式化的个人电脑进行了数据恢复,就发现他在出逃之前进行了大量的互联网的访问,访问了海南的很多交通和地理信息。根据这一线索,公安部虽然说全国通缉马加爵,但实际上就进行了布控,专门派员赴海南指导对马加爵的抓捕工作。就在部署做出20多个小时以后,3月15号马加爵在三亚落网。也就是说,大数据这些年来的话,确实是在我们的侦查之中,开始从无到有、从少到多不断在得到应用。到现在的话,这个模式就是可以讲不断在得到强化。

在运用这个大数据的时候,除了我们用到的一些互联网和一些其他的社会资源的一些数据之外的话,公安根据自己的自身需求,这些年来进行了大量的数据建设工作,这里面建立了比如说类似于像指纹、DNA,包括足迹、枪弹等等很多方面的这些数据库。这些数据库的话应该说是不断地在给我们侦查破案提供了一些强有力的手段。比如说这里大家看到,就是说我们讲侦查大数据的建设和应用模式,这几个基本模式是什么,大家看左面,我们一般来讲的话,在侦查之中,信息来源主要是两个方面,一个是案,一个是人。比如说我们以案来说,发生一起刑事案件以后,我们现场采取到一些物证,比如说DNA,我们就会和后面这个右侧这两个数据库进行比较,和案件库比较,如果说新发这起案件DNA和原来的案件里面的DNA这个数据对上了,大家想这是不是说明这两个可能是同一人或者说同一伙人作案?这个就达到了对案件的一个串并的应用。

如果说这个案件里面直接查到了就是和违法犯罪人员库里面的某个数据对上了,可以讲这个案子就直接破案了,我们就知道现场的物证是谁遗留的了。实际上当年公安部的DNA数据库在十几年以前头一次刚上线运行的第一天,在浙江就查中了一起重庆的命案。所以当时公安报一个报道说,千里之外精确指导,所以就是改变了原来的一些遗案、专案的这种侦查模式。

第二个要素的话,我们也可以从人出发,去来和案件,和犯罪人员进行比较。比如说如果查获一个因为某种违法犯罪行为,抓到一个人,把他的DNA数据和案件库进行比较,这可能原来的一些案件就可能得以破获。这个在我们实践之中的话,也是有非常多的这样的案例,就是直接查到这个人以后,就发现他原来做的很多案件直接就对上了,也就是说破获了一系列的案件,或者说这个人的话和违法犯罪人员库中的某个数据对上了,这说明什么,他原来有过一些违法犯罪的一些前科。这样的话,有助于我们现在对这个人查明他的真实身份。

现在来讲,公安系统自己建立的侦查大数据这个除了我刚才提到的指纹、DNA这些数据库之外的话,实际上现在的话不断地有越来越广的一些应用。你比如说对禁毒来讲,我们全国各地收集的这些毒品、样品,我们经过现在对它的这个微量成分的分析,我们就可以知道比如说现在北京的毒品和西安的,和乌鲁木齐的这个毒品可能是同一个来源。这样的话,就可以给它串在一起。然后这样的话,就可以形成一个大的毒源地的分析以及毒品的流转的情况的一些分析。然后,我们也就通过这些数据直接看到了这样一个贩毒的通道,就可以进行有针对性的打击。在大数据时代,侦查破案的话发生了很大变革,但是其中很重要的是什么,就是说我们的一些侦查思维在这里面的话会起到至关重要的作用,这个就是我们屏幕上讲的这三个关键词,就是推理、关联和证明。

小小公交卡藏着大证据 科学大数据告诉你谁最有可能是车上的小偷

首先来讲,我们讲推理。你比如说在一个公交车上,一个人钱包丢了,他报案,接到这样一个报案以后的话,就是对这个公交车上的这些数据进行分析。就发现这些公交卡里面有一个公交卡的乘车信息是很反常的,为什么?大家看,他从这个公交卡上车到下车距离只有三百米,三百米这一趟车的话,发车的频率又不高。所以大多数人对于这样的一个距离会选择走过去,而他就是在这个里面选择了一个乘车,所以说这个公交卡的话是反常的。然后,我们在对应的来看监控的录像,我们就发现刷这张公交卡的人他是应该说接近被害人,实施了这样的一个行为。所以说,通过这个公交卡号的话,我们就能够锁定这样一个犯罪嫌疑人。当然,这个大数据还可以扩展地应用,可能说我们通过这个公交卡反过来再差其他的一些报案信息,怎么样?可能就会查到他以前做的一些其他的案件。所以说,在侦查人员对于现场的数据并不是说所有的数据都是说摆在那里,就能够直接应用的,很多时候的话,需要我们的推理。

你比如说我们再往下看,在接到多起的这种公交车上的扒窃案件的话,然后我们比如说对这些可能案件一这个公交车上,我们可能比如有30张公交车;案件二里边可能有40张公交卡;案件三里边可能有20张公交卡,但是这些大量的案件串在一起的时候,我们就会发现一些公交卡总在里面出现的。通过这样的一种数据找交集的方式,我们就可以把这些犯罪嫌疑人从这些人堆里面就可以捞出来了。或者说还有一些其他的一些应用模式,比如说这个就需要我们去掌握犯罪人的一些行为特点,你比如说在事件之中,发现这样的一些公交卡他们的可以讲乘车信息很反常。通常我们乘车来讲总是从哪儿到哪儿,就是一个交通工具,就是说我是有个目的地的,但是这些人的公交卡可能在同一路车上一天反复的他就在坐车,这是不是很反常?实际上这个的话可能就是一些小偷他的行为特征,所以通过这样的行为特征,我们反过来用这样的数据去查询的时候,我们就很容易地去找到这样的一些线索。

包括说现在的车载的电子设备,比如说也越来越多。比如说像GPS,比如说像我们的车载行车记录仪,这些东西的话可能说它记录的数据也属于大数据的一部分。下面我们来看一下这个方面的一些关联的一些应用的模式。你比如说大家看这个案件里面,这辆车是我们要通过现场的话,它和案件有关联的一辆车,这个车的话,到了这个路口以后它向左转了,这个小路的话并没有探头。这样的话,我们就很难找到这辆车,也很难确认这辆车的一些比如说车牌信息。但是我们发现,在这辆车的后面有一辆比如说私家车,这个车可能是往右拐了,拐到了大路,这面的话是有个高清的探头的。我们通过对高清探头,我们查到车牌号,我们就可以找到这辆小车,找到这台小车,如果它装有行车记录仪,是不是它就拍到了前面这个车的车牌号。所以说,这就是一个推理和关联。这样的话,我们就把来解决不了的问题,通过这样一种推理和关联,然后进行了解决了这些问题。

现在的话,这些侦查方法和我们现在比如说热门APP的一些资料的结合,都会有一些应用。你比如说现在大家都很注重健康,装了很多运动软件,实际上大家看这样一个软件里面,它就有了很多这些人在这个里面什么时间,在哪个地点进行了怎么样一个轨迹的运动。这些的话,很多对于我们查明相关的犯罪事实或者说排除这个嫌疑人来讲,都会有一些重要的作用。所以说,在大数据时代的话,这种推理和关联的话,仍然是非常重要的。再比如说我们看原来南京市的一个诈骗案件,这个诈骗案件的话,因为这个人和事主接触,他一直用的是假身份证,包括他住旅店用的都是假身份证。但是在侦查过程之中,侦查人员就和事主了解这个过程之中,得到了一个细节,说这个人可能不是南京的,因为他几次来往的话,提到了坐飞机,并且打电话的时候有这种机场的背景声音。所以,确认这个人可能是坐飞机来往的。怎么找到这个人?就是通过跟事主回忆,他哪个阶段,比如说9月20号下午两点南京了,那可能是坐一点以前的航班。大家知道在坐航班的时候,会有人专门的检验证件,这些人员对证件识别能力是非常强的。所以说,推测他这个时候留下的身份应该是真的。这样的话,就找到了他一定乘坐航班的几个时间段,在这个时间段里边,到港、出港的旅客可能是上万人,但是没关系,当把这些数据放在一起其进行数据碰撞和关联的时候,最后就锁定了一个人,这个人就是我们要找的犯罪嫌疑人。

所以说,在侦查数据的时候,关键是要有一个正确的侦查思维,然后去运用这些数据。刚才我们讲,除了推理和关联之外,还有一个很重要的就是说是证明。我们上来讲的那个案件,我们讲怎么样找到这个嫌疑人的,就是因为他买了案件里面出现的这些物证。但是,我们不能因为他买了这些,就说他杀人,这个案件的事实是杀人碎尸。但是,我们因为有了这样一个购物卡,我们就可以给我们有线索,比如说我们就知道了这样一个人,我们就进一步地比如说去搜查嫌疑人的办公室。在办公室里面的话,就进一步发挥了,比如说找到了美工刀。比如说找到了受害人相关的证件,比如说找到了凶器,找到了塑料布和现场的塑料布,最后可以认定是同一个塑料布分割开的。而且在现场的话,还找到了斩骨刀这个凶器,上面做DNA检验就可以认定和死者的一致。在地面上的话,还有大量的足迹,这些足迹和现场的足迹最后都会做一个统一认定。也就是说,在大数据面前,我们最后要证明这些数据的价值,仍然需要用我们这些侦查的思维以及客观的这些证据的检验方法,最后才能够达到对这个案件不仅找到线索,找到犯罪嫌疑人,而且要破获案件,要证明犯罪这样一个目的。今天关于大数据侦查的这些应用的话,我们就先介绍到这里。

其他参考资料

《潜行追踪(Hunted)》节目
《本拉登案例的定位细节》
《破案术大全》 拉切尔·莱特(Wright.R.)

补充

In Your Face: China’s all-seeing state
http://www.bbc.com/news/av/world-asia-china-42248056/in-your-face-china-s-all-seeing-state

大华、海康威视、商汤科技支持的“天网系统”
以及交通部的“海燕系统”