摘要:随着互联网的发展和普及,违法犯罪活动逐渐向网络空间渗透,网络诈骗作为一种典型的网络犯罪,严重威胁社会治安稳定。基于裁判文书网数据库的 25 597 份网络诈骗一审判决书,采用自然语言处理技术提取了 2017—2020 年中国县域尺度网络诈骗案件,分析了网络诈骗的时空分布特征。空间自相关分析结果表明,网络诈骗案件多集中在东南沿海地区,包括江苏、浙江、上海、福建以及广东一带。随着时间的变化,2019 年安徽、河南的聚集区逐渐消失,而湖南、重庆等地形成了明显的聚集区。网络诈骗犯罪者主要来自福建、湖北、河南、广东、湖南,不同省份的网络诈骗犯罪者分布模式有显著差异,江苏、浙江的网络诈骗犯罪者来源较为分散,广东、福建、河南的网络诈骗犯罪者来源相对集中。
本文源自项金桥;高春东;马甜;江东;郝蒙蒙;陈帅;, 地理科学 发表时间:2021-06-07
关键词:网络诈骗;县域尺度;空间自相关;莫兰指数;自然语言处理
随着互联网技术的发展和普及,网络空间已经成为人类生产生活的“第二类生存空间” [1,2] ,违法犯罪活动也逐渐向网络空间渗透。网络诈骗是一种典型的网络犯罪,犯罪者以计算机网络为工具,以非法占有为目的,虚构事实,隐瞒真相,骗取公私财物[3,4]。网络诈骗不仅会使受害者遭受经济财产损失,还会威胁社会治安,造成恶劣的社会影响。目前,网络诈骗呈现出地域化、智能化、产业化、规模化等特点[5]。根据中国互联网络信息中心发布的第 47 次《中国互联网络发展状况统计报告 》 ,截至 2020 年 12 月 ,中国网民规模已达到 9.89 亿,网络购物用户规模达 7.82 亿,网络支付用户规模达 8.54 亿,遭遇过各类网络诈骗的网民比例为 16.5%[6]。2021 年 4 月,习近平同志对打击治理电信网络诈骗犯罪工作作出重要指示,强调全面落实打防管控措施,坚决遏制电信网络诈骗犯罪多发高发态势[7]。了解网络诈骗的时空分布特点,对预防和打击网络诈骗犯罪至关重要。
20 世纪 90 年代以来,随着地理信息系统(GIS)技术的发展,犯罪制图、空间分析和时空预测的运用极大地推动了犯罪地理学的形成和发展[8]。犯罪地理学是运用地理学的理论和方法研究犯罪现象空间发生、发展和分布规律的一门学科[9] ,该学科认为社会和地理环境因素通过犯罪行为产生机制影响犯罪活动的空间分布[10]。通过研究犯罪事件及其诸要素的空间分布模式和空间作用过程,犯罪地理学被应用于分析各种形式的犯罪行为,包括盗窃[11] 、抢劫[12] 、儿童拐卖[13] 等,在警务部门预防犯罪和辅助决策中起到了重要作用。
区别于现实空间的传统犯罪活动,网络犯罪通常发生在虚拟的网络空间,犯罪分子通过代理、匿名等技术手段隐藏真实身份,其行动具有隐蔽性和匿名性[14]。但是网络犯罪往往具有很强的空间地域规律,犯罪者对受害者、犯罪地点的选择不是随机的,而是遵循一定的逻辑[15]。同时与地理环境间也存在一定相关性,例如色情网站“境外设站− 境内维护”、网络诈骗“北京建站−福建操控−深圳交易”等模式[16]。犯罪地理学中的日常活动理论认为犯罪的三大核心要素为潜在的犯罪者、合适的目标及有效监管的缺失,这三者在时空上汇聚时,犯罪事件就有可能发生[17]。网络犯罪的发生同样离不开这三者的有效聚合,只是这种聚合发生在虚拟的网络空间中,网络空间的隐蔽性、瞬时性和交互性会使这种聚合变得更加容易且难以监管。
一些实证研究分析了日常活动理论对网络犯罪的适用性[18~20] ,表明传统犯罪地理学的理论和方法在一定程度上也适用于网络犯罪,用户的个体属性和行为特征会影响其受害风险。当前,城市尺度的研究更加关注个体特征、社会背景、地理环境等因素对诈骗犯罪的影响[21,22] ,全国尺度的研究一般以省级行政区为分析单元,侧重于网络诈骗的时空统计规律[23~25] ,缺乏更精细尺度的研究。此外,由于缺少网络诈骗犯罪跨地域流动性特点的考虑,对打击网络诈骗犯罪的实践指导作用有限。本文以 2017—2020 年全国范围内县域尺度的网络诈骗数据为基础,在分析网络诈骗时空分布模式的基础上,挖掘国内网络诈骗犯罪者的来源地分布特征,有助于深入了解中国网络诈骗的时空分布模式和空间流动特征,从而为预防和打击网络诈骗提供借鉴与指导。
1 数据与方法
1.1 数据
本研究采用的数据来源于中国裁判文书网(https://wenshu.court.gov.cn/),该网站公布了全国各级法院已生效的裁判文书,文书总量超过 1 亿篇,覆盖刑事、民事、行政等案件类型。基于裁判文书网数据库,将裁判日期设置为 2017 年 1 月 1 日至 2020 年 12 月 31 日,为防止不同审级的裁判文书对同一案件重复记录,统一将审级设置为“刑事一审”,案由设为“诈骗罪”,文书等级设为“判决书”。通过全文检索筛选其中具有网络诈骗情节的案件,共获得 2017—2020 年关于网络诈骗的一审判决书 25 597 份,其中 2017 年 4461 份,2018 年 4575 份,2019 年 8816 份,2020 年 7745 份。
基于自然语言处理技术[26] ,对裁判文书中的地理位置(案件发生地)进行提取。通过地理编码和属性链接,将地方各级人民法院所审理的网络诈骗案件数量展布到其对应的县级行政单元上,以此作为网络诈骗时空演变分析的基础。此外,对网络诈骗案件数据进一步细分,提取每一起案件中网络诈骗犯罪者的居住地和判决法院所在地,作为网络诈骗犯罪者来源地分析的基础。由于每起案件可能涉及多个犯罪者,去除无效记录后,最终共得到 65 729 条网络诈骗犯罪者来源地记录 。
1.2 研究方法
1.2.1 自然语言处理技术
自然语言处理技术 ( Natural Language Processing, NLP)是计算机科学、人工智能和语言学等学科的交叉领域,主要研究人类自然语言和计算机之间进行有效通讯的理论和方法[26] ,目前已被广泛应用于机器翻译、舆情监测、信息抽取、文本分类等方面。其中,信息抽取是从非结构化文本中提取特定信息并将其转化为结构化数据的过程,包括命名实体识别、关系抽取、实体消歧等内容[27]。
本文采用的裁判文书超过 2.5 万篇,如此海量的数据,无法通过人工逐篇阅读来完成文书的提取、分类等工作。因此,本文采用自然语言处理技术中的信息抽取技术,对裁判文书进行机器阅读和解析,经过中文分词、词性标注、实体识别、关系抽取等步骤,提取网络诈骗裁判文书中的判决法院所在地、犯罪者居住地、日期等主要属性信息。
1.2.2 莫兰指数
本文采用莫兰指数(Moran’s I) [28] 研究中国县域尺度网络诈骗是否存在空间自相关,即网络诈骗的发生是否存在地理上的空间聚集现象。全局莫兰指数(Global Moran’s I)可以评估网络诈骗现象属于聚集模式、离散模式还是随机模式。如果 I 值大于 0,表明网络诈骗现象在空间上是聚集分布;如果 I 值等于 0,表明该现象在空间上随机分布;如果 I 值小于 0,表面该现象在空间上离散分布。此外,局部莫兰指数(Local Moran’s I)通过揭示某一区域网络诈骗发生数量与其周围区域网络诈骗的发生是否存在显著性差异,从而发现网络诈骗在局部上的空间聚集特征。本文采用局部莫兰指数分析中国县域尺度网络诈骗的空间局部聚集特征 ,以得到国内网络诈骗发生的热点区 (高‒ 高聚集区)。若 I 值大于 0,则表明网络诈骗存在高‒高聚集。
本文利用 ArcGIS10.5 实现空间相关分析,其中,空间权重矩阵采用 QUEEN(即八邻近)的邻接方式,从而判断全国范围内(不含港澳台)网络诈骗案件是否存在聚集,并发现中国网络诈骗的聚集热点区分布情况。
2 结果分析
2.1 网络诈骗案件总体分布特征
图 1 为中国 2017—2020 年各省网络诈骗数量的变化趋势,该图显示研究时段内各省网络诈骗案件均呈现上升的趋势,尤其是 2019 年,诈骗案件出现了显著上升。此外,结合网络诈骗案件的县级尺度空间分布(图 2)可发现,沿海发达地区如浙江、江苏、广东、福建以及人口大省河南网络诈骗数量显著高于其它省份,诈骗案件集中分布在沿海地区,并零星分布于中西部的河南、湖南和重庆等省(市)。
研究时段内中国网络诈骗数量最多的 50 个区县 75% 以上集中在浙江、江苏、广东、福建、河南 5 省,由此,统计在全国网络诈骗发生数量排名前 50 的区县中以上 5 省的占比情况(表 1)。结果表明,5 省区县占比 2018 年达到了 92.6%;其中,浙江的网络诈骗案件最为集中,诈骗案件数量也最多,并增长较快,占比从 2017 年的 21.1% 增长为 2020 年的 47.9%,上涨超过 1 倍;而福建、广东等地的高诈骗数占比略有下降。
2.2 网络诈骗案件时空聚集特征分析
基于 2017—2020 年中国范围内县域尺度网络诈骗案件,利用 ArcMap 计算得到全局莫兰指数(表 2),可以看出,2017—2020 年的全局莫兰指数均大于 0,且 P 值均小于 0.01,表明中国网络诈骗案件存在明显的空间聚集特征, 并且聚集特征逐年加强。在此基础上,利用局部莫兰指数分析得到 4 a 间国内网络诈骗案件详细的空间局部聚集特征,如图 3 所示。
图 3 表明,中国网络诈骗案件主要发生在“胡焕庸线”(瑷珲−腾冲一线)[29] 以南,且网络诈骗高− 高集聚区集中在中国东南沿海地区,包括江苏、上海、浙江、福建以及广东一带,验证了图 2 的结果;安徽、河南、湖南等中部地区也存在小规模的高− 高聚集。其中,江苏−浙江−上海(江浙沪)地区、福建地区以及广东地区在 2017—2020 年一直存在网络诈骗聚集情况。但需要注意的是,福建聚集区在逐年变小,由 2017 年的 22 个聚集区县缩减为 2020 年的 14 个区县,而江浙沪聚集区则逐年扩大, 2017 年的 72 个聚集区县于 2020 年扩增到 110 个区县 (表 3)。安徽 、河南等地的零散聚集区在 2019 年开始逐渐消失 ,而湖南 、重庆等地则从 2019 年开始出现了明显的聚集情况。
2.3 网络诈骗犯罪者来源分析
基于从 2017—2020 年中国网络诈骗案件中提取的犯罪者居住地和判决地数据,分析了全国各省网络诈骗犯罪者来源地分布特征(图 4)。结果显示,中国网络诈骗犯罪者来源最多的 10 个省(自治区)依次为福建、湖北、河南、广东、湖南、广西、江西、四川、安徽和海南,占全国 70% 以上。从省级尺度看,不同地区的网络诈骗犯罪者来源地分布模式存在显著差异。总体上,东部沿海地区(江、浙)的网络诈骗以省外流入为主,来源地分散,在“胡焕庸线”以南各省均有分布;南部沿海地区(粤、闽)及长江中游地区(湘、鄂、赣、皖)网络诈骗犯罪者以本省或临近省份居多。具体而言,浙江、江苏网络诈骗犯罪者主要来源于本省及福建、江西、湖南、湖北、河南、广东、安徽等地;广东、河南、安徽的网络诈骗犯罪者来源地相对集中,主要来自本省(自治区),在邻近的广西、福建、湖南、湖北、海南等地也有零星分布。福建、湖北、湖南的网络诈骗犯罪者大部分来自本省。由此可以看出,福建、湖南、湖北、广东、河南等地的网络诈骗犯罪者既在本省活跃,同时也不断向其他省市外流扩散。
从县级尺度看,全国范围内网络诈骗犯罪者来源最多的 10 个区县依次为福建安溪县、广西宾阳县、海南儋州市、广东茂名市电白区、福建龙岩市新罗区、湖南双峰县、湖北孝昌县、湖北天门市、江西余干县和湖北仙桃市,这些地区的网络诈骗犯罪者占全国 14% 以上。浙江网络诈骗犯罪者主要来自福建安溪县、海南儋州市、湖北孝昌县、广东茂名市电白区、福建龙岩市新罗区、广西宾阳县、江西余干县等地;江苏网络诈骗犯罪者主要来自海南儋州市、广西宾阳县、福建安溪县、湖北天门市及南京市鼓楼区等地;河南网络诈骗犯罪者主要来源于河南上蔡县、修武县、商水县、郑州市金水区、中原区、巩义市,以及福建安溪县、广西宾阳县等地;广东的网络诈骗犯罪者主要来广东茂名市电白区、饶平县、普宁市以及广西宾阳县、海南儋州市、福建安溪县等地;福建网络诈骗犯罪者主要来自福建安溪县、南安市以及龙岩市新罗区、永定区、长汀县、漳平市、连城县等地。
3 结论
本研究以 2017—2020 年中国县域尺度的网络诈骗案件为研究对象(未含港澳台),运用 GIS 和空间分析方法分析了网络诈骗的时空分布特征,并对网络诈骗犯罪者的来源地进行了分析,主要结论如下:
1)沿海经济发达地区如浙江、江苏、广东、福建等地网络诈骗数量显著高于其它省份,诈骗案件集中分布于在这些沿海地区,并零星分布于中西部的河南、湖南和重庆等省份。
2)网络诈骗存在明显的空间聚集,聚集区主要为:江苏−浙江−上海地区、福建地区以及广东地区。从 2019 年开始,安徽、河南等地的聚集区逐渐消失,湖南、重庆等地形成了明显的聚集区。
3)通过对网络诈骗犯罪者的来源地进行分析,发现网络诈骗犯罪呈现明显的地域化特点,以福建安溪、广西宾阳、海南儋州、广东茂名电白区、福建龙岩新罗区、湖南涟源−双峰−新化、湖北孝昌− 天门−仙桃、江西余干、河南上蔡为中心形成了网络诈骗犯罪聚集地,这些地方是网络诈骗作案人员的主要流出地区,也是电信网络诈骗挂牌整治的重点地区。
4)不同省份的网络诈骗犯罪者分布模式有显著差异,5 个网络诈骗案件数量最多的省份中,江苏、浙江的网络诈骗犯罪者来源较为分散,主要分布在“胡焕庸线”以南;广东、福建、河南的网络诈骗犯罪者来源相对集中,主要分布在本省或邻近省市。
4 讨论
本文基于中国裁判文书网数据库进行研究,结果表明研究时段内全国网络诈骗案件数量呈现上升的趋势,分布省份与县域的发生数量均有所增加。沿海发达地区网络诈骗数量显著高于其它省份,中部地区网络诈骗形势严峻,需要进一步加大打击力度以遏制网络诈骗的扩散趋势。中国网络诈骗犯罪者的空间流动总体上与人口流动特征相吻合,表现为由经济落后地区流向经济发达地区,省域的经济发展程度对网络诈骗发生频率有着较大的影响,沿海地区经济富裕、外来人口多、社会治安情况复杂,成为犯罪者的首要选择。
网络诈骗犯罪者来源地集中,具有明显的地域性。来源区县大多为国内地域性职业电信网络诈骗犯罪的重点地区,一些甚至形成了产业化运作的诈骗乡、诈骗村,在诈骗手法上具有鲜明的地域特色,如广西宾阳冒充 QQ 好友诈骗、龙岩新罗区网络购物诈骗、茂名电白区假冒熟人诈骗等典型诈骗模式[30,31]。一般来说,从事网络诈骗的犯罪行为人大多来自经济相对落后的地区,这些地区无业、失业人数较多,管理水平滞后,为网络诈骗提供了潜在犯罪者。对于网络诈骗犯罪者主要来源地,应加强源头治理,防止犯罪者外流,同时应加大经济产业扶植力度,扩大就业,加强反诈骗宣传。随着公安机关打击网络诈骗的力度加大,网络诈骗犯罪群体也出现了向周边及外地转移的趋势,分布区域趋向于更加散落的状态,这也为打击网络诈骗带来了更大的挑战。因此,亟需加强各地公安机关的信息共享和区域协作,加强对网络诈骗高危来源地人群的管控。本文的发现可以为各地方的公安机关打击和防范网络诈骗提供有价值的信息,从而实施轻重有别、精准施力的治理策略。
本研究在数据方面存在一定的局限性。一方面,裁判文书数据仅覆盖了已经审理和公开的网络诈骗案件,还存在部分已发生但未立案或已审理但尚未公开的案件,因此数据存在一定的偏向性,不能完全代表整体样本。另一方面,采用自然语言处理技术提取裁判文书中的属性信息时,由于技术限制无法精确提取案件的实际发生时间,因此统一采用案件的判决时间作为分析维度,相较于案件发生时间存在一定程度的滞后。本文仅讨论了网络诈骗的时空特征和来源地分布模式,未来的研究将基于裁判文书数据提取更多属性维度,结合网络诈骗犯罪者和受害者的个体特征(如年龄、文化程度、职业等)及其所在地的社会经济背景,研究影响网络诈骗的主要因素和形成机制。