保险行业欺诈管理

标签:保险行业反欺诈欺诈

访客:38309  发表于:2014-05-07 09:54:42

保险行业欺诈管理

                 董骝焕博士, SAS中国金融反欺诈首席咨询顾问

保险理赔,这块我们想介绍的更多的也是技术方面的介绍,针对保险理赔欺诈的一些经验的分享。

首先第一张还是这个,对于SAS整体的介绍,SAS的保险理赔在咱们国内一般来说主要应用在车险理赔,健康险理赔,还有寿险保全,寿险保全更多的像申请欺诈,就是说我们有一个保单,这个保单有一个受益人,如果你把一些信息丢了的话,有人冒充你,改成另外一个人,这个人就可以去取钱,取了钱之后,过了十来年这个人生病了,他要去取钱了,才发现名字被改掉了。这个概率非常小,但是一出现都是大事情。这个是几个比较典型的三个方面的应用。我们的框架,数据整合、业务规则、异常值分析、预测模型、社群网络分析、可视化分析和报表,这些规则和模型一些网络分析,可以对欺诈的侦测报警生成提供帮助。为什么叫这个为解决方案或者一个框架,实际上他这块可以应用在金融保险乃至于政府、电信等等各个方面对于欺诈或者金融犯罪的识别。这个流程是更具体的,数据源进来之后,通过欺诈数据识别,然后我们开发出相应的异常侦测的模型,高级模式,结合起来可以识别欺诈侦测,可以来实时去侦测相应的理赔欺诈。比如说我车险出险了,一个报案电话进来,可以对车辆、保单信息以及其他信息做一个评分,如果他有GIS系统可以对地图上的位置进行定位,判定是一个什么地区。这些都是对于风险识别是有相应的帮助的。如果说我们实现了一个实时的侦测之后,我们势必做两件事情,一件事情是返回到网络里面看看,它里面是不是符合一些可疑的网络规则,或者复杂的网络分析,看看是不是有一些网络突然一下增长了。两个角度,一方面是定义出来实时侦测的风险,另一方面是侦测是不是有组织的团伙欺诈活动。对于高低风险的评判之后,有可能不一定到特别调查组,他一般会放到理赔流程里面去,根据不同的风险来确定理赔流程,所谓区别化理赔对待,理赔风险高的,我们走一个什么符合,走一个严格的双岗符合,如果是风险很低的,金融也不大的,可能赔掉。这样需要有一个工作流优化的平台,SAS也有一个工作流优化的平台帮助实现工作流的改造。企业级的案件管理,我们要确定下来谁什么时候做什么事情,有什么权限,在这个案件里面,把案件维护好之后,再重新输入到我们后台的欺诈数据里面去做重新的调优,再反过来部署到我们欺诈引擎中去。

再往下,对于理赔一些业务状况的简单介绍,目前的情况下,我们了解,对于很多车险公司我们已经发现了基本上每年有百万的赔偿的公司已经不少了,健康险几十万的赔偿也不少,理赔通量现在已经比较大,目前保险公司信息化都做得不错,流程都非常顺畅,所以有的时候复核工作都做得非常快,所以自动通过理赔的就出现了,这样的话会影响风险的控制。而且在目前比如说车险中,一个七三开,所谓的七三开就是70%的理赔案件或者工作量,处理了30%的金额,这就存在大量的小金额的案件怎么去处理。第二,我针对一些怎么样识别一些高风险的案件,增大核查力度。这两种方式一种就依靠我们模型也好、规则也好,去侦测。下面利用我们网络分析可以多种维度的来观测案件,来实现对高风险案件的核查帮助。同样团伙性欺诈怎么识别,刚才大家也了解到,用网络分析来帮助识别,这个确实是比较好的方式,可以发现出险的车辆,出险的人伤,出险的关系,甚至理赔人员、查勘人员等关系。对于识别理赔系统,尤其对于欺诈管控这一块,我们认为四个阶段,第一个阶段现在很多保险公司都已经做到了,对于风险模式的描述,或者说所谓的规则,比如先出险后投保,比如说出险时间特别近,出险在半夜,或者出险的地方在没有人烟的地方,比如说冒名顶替。这种肯定业务人员也知道一些规则,比如说首先是半夜,第二点,出险之后,离保安的时间相差比较远,这个时间就有一个驾驶员来代驾了,第三是金额比较大,甚至有一些人伤出现,这些是我们对于目前的风险模式都有一些人工的描述。第二点,有些保险公司也做到了对一些风险欺诈概率的定量描述,类似我们利用一些高阶的模型,业界利用的网络模型等等。再往下是未知风险类型,比如说新创造的风险类型,这种情况一般利用的异常值分析模型,大家可以看到,其实利用这几个技术,基本上对各个业务线,对各个行业,对各个业务用法是类似的,只是说对他的业务的里面的内容不太一样。

在保险理赔这边我们会更多的,尤其在车险理赔这边,我们会更多的强调一个事中,越往前越好,尤其是类似于这种醉酒代驾或者先出险后出保的方式,越早就越能控制住。第二,赔出去的钱要回来是很难的。第三个,震慑,如果说一般来说,实际上很多欺诈都多多稍稍关联到一些内部人员,如果内部人员知道这个系统,多多少少会有震慑力。同样的损失曲线,在事前会损失更少。客户体验,优质客户快速赔掉,这样可以增加客户体验,增加客户黏性。

对于SAS来说,我们一般会结合我们的保险业务经验以及我们的数据,因为首先数据确实不会说谎,但是保险中有一些数据确实有一些乱填的现象,比如说在查勘的时候定损的时候都是人工输入,质量可能不太好。

规则,刚才我介绍了,先出险后投保的典型的场景,异常侦测,这是一个健康险的,比如说某个疾病代码下的平均治疗金额1000块,如果标准差300,那么1900以上的就比较可疑。还有一个跟历史比较,也是异常侦测。高阶模型,一般来说在车险理赔中和健康险理赔中比较广泛应用的或者说目前比较多用的两种模型,一种是回归,还一种是神经网络模型,可以帮助来识别任意理赔欺诈的可能性。最后是团伙欺诈的社会网络分析,保险里面的关系也很复杂,有车的,有修理厂的,有保险公司内部人员查勘定损这些岗的,还有人伤,车里面有车牌号、车架号等等,这些信息也是一个多维度的信息,可以通过社会网络分析来识别这些案件之间的关联。要识别这些事情势必要把相应的半结构化的或者非结构化的数据转化成定量数据,有的时候你出险了,有的时候保险公司定损人员觉得这个有问题,叫做你写一个澄清函,类似的行为模式可以通过文本挖掘技术转化成一种定量化的关系。

这是在建模的一个方法论,这里不同的技术实际上是要应对不同的保险类型,我们在最左上角那个是机会主义欺诈,这个大家可能多多少少干过,比如说车刮了一下,然后拿个砖头再敲敲,敲完之后,原来可能有一个理赔的多少的金额限度,敲完之后就能赔了,或者快到保单结束了,赶紧去修一下,报个出险。这种从保险公司层面有时候也可以容忍的,在这种情况下业务规则和异常值侦测的方式会有比较好的去侦测,同样的这些案件一般来说都是一个高通量的低损失的,金额都不大,在一千块钱或者几百块钱左右。更进一步的,一个人有目的的,很多人想尽办法把这个险去赔掉,有目的的去做欺诈的工作,最终的到了最右边的这个连续上,我们有一个多种内部外部的三方合起来的团伙欺诈。比如说修理厂、定损岗、查勘的,比如说有好几辆车牵进来的,这种团伙欺诈,这种我们用预测模型和网络分析可以更好的去识别,识别能力从左到右也是越来越强,而且最右边的这个案件是出现一起,损失有可能几十万甚至几百万。

这个就是我们提到的几种方式的一个识别的能力,事后分析就是说我们拿到一个,如果我们抓到一个欺诈案件之后,我们通过查数据库的方式去分析这个案件和其他案件的关系,当然这个效率很低,而且这都是一些个案。第二种是业务规则,我们基于一些数据分析的方式,把业务规则提炼出来,当然这种方式比这种事后查询直接写个案的业务规则要好一些,因为它毕竟会通览整个数据来写一些。第三个是异常侦测,针对案件异常的程度来决定欺诈的风险。高阶模型,刚才提到的逻辑回归或者网络分析,它会随着方法的混合使用,它的识别率会提高。

这就是这四种模型会有一个互相的帮助,我如果说从链接分析中发现了一些可疑的模式,这个模式可以很好的写成一个业务规则,把它放到实时侦测的环境去。这块是我们预测模型的开发方法,一个开发的平台,也就是我们用的EM,EM上面有很多的模型很多的算法,大家都可以试一下,包括神经网络、决策树等等。有的时候大家会问,用一些预测模型的话会比业务规则来得更加难以理解,但是用非线性的模型,实际上一个线性模型和规则是有类似的,直接对整个的案件进行直线的分割,如果我们用非线性的,可以实现提高更加的识别率。这就是EM,我们广泛使用的一个开发平台,方便使用,居家旅游必备的产品。

线性模型举例,出险减起保天数,几个风险点,通过我们线性模型的训练可以得到一个线性模型的公式。这里面一个缺点,这里面所有的因素都是线性的,没有一些非线性的交互,如果利用神经网络模型,对于隐含层节电,有一个非线性的组合,最后再形成一个评分值这个评分值可以很好的去识别内部的非线性关系,而且根据一般的反欺诈的理论,好多反欺诈的因素都是非线性的组合在一起的。同样的SAS

EM还有一个很好的功能,就是模型的集成,我可以开发出很多模型,他去做投票,比如A模型做的是一个决策树,B模型做的是神经网络,比如说A模型的权重占40%,B模型占60%,很好的组合起来,提高识别率或者保持它的稳定性。这是我们刚才介绍的异常预测模型或者有监督模型的简单的一些介绍,对于异常分析,刚才也略微讲了一下,两个角度,一个角度是对于我这个人或者对于我本体来说,对于我历史上一个异常的行为,历史上是什么样的,为什么平均祝愿天数这个医院跟其他医院不一样,这是一个对照组的比较。这些方法都是在EM里面可以直接拖来用的。网络分析,这个对于车险也可以做出相应的欺诈网络的问题,来识别我们这么多人这么多车这么多事故为什么会关联到一起。当然我们一般来说,车险不会出现这么复杂的网络,但是这种网络是很容易出现的,对于怎么样来分析这样的网络,或者说我们可以把这个网络再放到我们更多的数据的维度,比如说GIS系统,我可以了解这次事故它为什么这两次事故距离那么远,短期之内,或者说,这是一个健康险的案例,为什么病人跑那么远去看病,这个病人也跑那么远去看病,这些可以根据地理系统来做一个网络的分析。

案件管理,刚才已经讲过了,这个是一个必备的对于欺诈案件管理的平台。其实在一开始讲金融那块,主要是讲网络分析的,这一块我们主要讲高级分析的,所谓的建模,或者统计模型,或者有监督模型的一些方面的东西。首先我们对于高级分析,在做之前我们肯定有个指标,一个是红色的部分,横坐标是对欺诈风险的评分,分越高,欺诈风险越高,总坐标是案件量,一般平均下来,高评分的案件量不会很多的,大部分都是低评分的做出评分之后,我们会做一个阈值切割,我们假设以350分为界限,部分界限的红色部分就是属于我们高风险的确实被确认为欺诈的,但是还有一部分是黄色的,在黄色部分,这个是假阴性。肯定的来说,希望黄色部分是越来效果越好,但是做任何欺诈模型来说都是这样的,不管是我们的信用卡交易还是保险理赔等,都是黄色部分越小越来豪华。我们带来改进的优势,红线代表一个随机的案件选取,随便选,它应该就是我这个理赔案件的审查数和我这个识别出来的欺诈案件的概率是一比一的,如果我们用了黄线的,比如用了一个模型,势必可以提高识别概率。同样在这个比如说识别10%的比例的情况下,这边比如只能识别5%,但是这边可能是8%,这边是10%。这就是说利用一个高级的分析模型可以带来的一个最主要的好处。同样的,反过来看,比如说我们为了控制风险,保证5%的或者30%的案件的情况下,我需要投入的审查量是不一样的,这边是少,这边是中的,我就可以实现一个杠杆,我可以审查少量的案件的情况下,大量的通过其他的案件。这就是我们说的在控制风险的情况下,使得这个案件有更大的通量,如果原来我们人工判断都在80%左右,如果人工模型一下子跳到40%,保证假阳性率,健康险的人工审查量还是比较大的,可以提高他的工作效率,势必在这样的工作的效率情况下,他可以扩大他的市场。

举一个简单的例子,首先我们要定义到底识别什么样的欺诈,要定义这个事情才能最终定义出来欺诈标签,拿欺诈标签去做相应的模型的开发。这个是我们台湾同事给我们的一个例子,是我们大中华的,台湾也是大中国的一部分。他们当时主要是做了一个医疗险的主险的短期理赔的欺诈案件,对于医疗险,他一开始会有一个报案,报案之后如果通过之后发现有一些问题,比如说要你以后的保费多交一点,或者下次不跟你签了,或者有通融协议,嵌入整个理赔成里是需要一个嵌入的方式的。在车险过程中就比较简单明了,每个节点都可以放一个检查,因为随着每一个节点进一步的深入,他这个信息会越来越全,越来越准。这样的情况下每个节点都可以做一次打分,有的时候如果是低风险的小金额的,直接就快赔了,如果是高风险的就要关注他做双核,如何跟理赔流程的整合也是非常重要的。刚才提到了数据来源,对于健康险理赔来说有相应的保单、投保人、医生、医疗院所等等,健康理赔风险很大程度是跟地区跟医院是非常有关系的,有一些医院确实高风险,还有一些疾病也是非常高风险的,这些风险因素都是可以通过我们的业务经验配合着模型一起结合到识别工作去。这是健康险的,同样的刚才我们提到了车险,跟健康险不太一样,车险是逐步逐步的增量数据,对数据来源我们也要考虑怎么样更好的去处理,怎么样更好的去管理我们理赔的数据流程。

有了数据了,我们可以做数据分析,显著性分析,相关性检验,建立模型,模型验证,训练这个模型,训练出一个分数出来,对所有人进行打分,这是健康险的,健康险的理赔每一个赔案进行打分。对于汽车险也一样,开发商类似,但是汽车险是随着不同的阶段,它的变量,准确度不一样,所以每一阶段有可能模型是不一样的。这是对于车险的。这里面举了一个简单的线性模型,很多时候反欺诈与信用风险很大的不同是反欺诈的第一要素是识别出欺诈来,当然你要解释,没问题,现有模型解释,神经网络也可以解释,可以通过权重计算,做一个排序,可以告诉你一个主要的因素,并不是说神经网络一定是一个黑盒子,也可以是知道它业务含义的一个评分方式。

通过建立模型之后,当然这是整个一个开发流程,标准的SEMMA,它可以形成相应的非常高效的梳理流程。这个案例是台湾客户通过应用我们SAS的案例之后,他的案件的审查率都有相应的一个增减,平均破案金额都有提高,破案率都有提高,所谓的识别率、假阳性率都有很大的提升。

社群网络分析,刚才提到可视化系统,所谓可视化系统刚才我们的链接系统和链接系统差异,刚才中间提了个问题,链接分析和复杂网络分析的关系,刚才解释了。客户实例,健康险理赔的,我首先知道几个高风险的案件之后,我把这个网络整个画出来,画出来之后我可以分析里面人的关系,比如有的是投保人员,有的是理赔人员,有的是医生等等,都可以放到这个里面来。它可以识别出来为什么这么多的高风险赔案会在这个医院里发生。实际上在很多情况下健康险的风险都在医院。产险理赔比如说车险,我可以通过电话号码产生关联,关联到其他几个高风险的案件。在国内的情况很多车险的案件跟修理厂有很大的关系,修理厂存在一些问题,他的数据的来源都不是非常好,所以在这种情况下,其实SAS的模糊识别可以起到很大的帮助,因为一些定损人员,一些查勘人员在输入修理厂的地址的时候都可能比较乱,通过文本匹配可以把这些匹配上,这样可以把修理厂的因素也加进来,实现一个网络分析。

提问:反欺诈社会网络分析如何获得社会网络信息?

董骝焕:这个问题其实从保险和刚才一开始的银行上来说都差不多,首先有一些自己本公司的或者本银行自己有的信息,这个要通过一些好的我们的分析,然后想办法把比如刚才讲的保险公司自己的修理厂,这个信息非常好,但是有可能维护得不是很好,所以质量不是很好,这样可以通过模糊识别这种方式,把这个数据质量给控制好,给归一化,做很好的数据质量的管理。第二方面,如果本方的数据不够,实际上三方的数据也是比较好的一个补充,现在很多的银行,很多的汽车金融公司都会应用PBOC的数据,比如说公安部的一些数据,银联的数据等等。三方数据现在应该是比较容易的合法得到的。

提问:反欺诈模型采用神经网络如何有效监管或高管,请帮忙解释一下。

董骝焕:刚才我也提到了一句,很多人认为神经网络模型是个黑盒子,也不尽然,因为实际上神经网络,可以看到,刚才那个节点,这边四个,这边两个,这边一个,其实也可以算出权重,只不过是非线性的,可以根据计算,根据其他的样本数据做一个权重计算,本质上也可以算出来,算出来这些因素的排序。最重要的因素是什么,第二个因素是什么。你也可以看到,这里面都是有权重的,只不过看起来比较复杂而已。

再补充一点,因为反欺诈的模型构建和信用风险模型构建不太一样,信用风险模型构建是严格受到监管的,反欺诈模型大家都是八仙过海,各显神通,关键是增加识别率,增加假样率。

提问:一般是在面临一个新问题的时候,特征一般很难去选择,选择哪些属性,因为另一方面也是需要向领导汇报哪些特征比较有效的时候,但是他们一般都还比较关注这个问题,这种比较直接,这种特征的选择一般是怎么做比较好?第二个问题,因为最近也了解到现在深度学习比较火爆,SAS里面会考虑集成深度学习的技术吗,这样的话会有效的帮用户省很大的工作量。

董骝焕:你的意思是一些新算法的引入,其实这个问题问我不太合适。第一个问题挺拔豪华的,第二个问题我先回答一下,这个我可以帮你转给SAS的EM或者开发算法的这些产品经理,帮你问一下,这个我现在确实回答不了。第一个问题,首先比如说如果你不知道一个,尤其我们以这个欺诈的这种模式来看的话,如果你不知道是不是有一种新的模式出现了,首先你要考虑的是你有什么样的数据,这个数据准不准,这个数据是不是乱填的,比如说保险欺诈,保单数据一般比较准,但是理赔的数据乃至于一些人伤的数据都非常不准,这些数据要考虑一下用不用。第二点,如果你确认下来,这些数据确实能用,而且确实有意义的,再去做相应的因子分析或者计算它的WOE。你前期做WOE或者RE的时候,还要做一些类似的操作,操作到太多的话,咱们下面可以再继续。

垃圾信息,一方面找业务人员聊一下,他们一般都知道。第二点,你做一些分布,比如说出现一些很不合理的分布,比如说以前做车险理赔的时候,有一个车龄一百多年的,那肯定输错的,中国我估计没这么老的车,这种可以做数据分析。

提问:欺诈的模型和A卡他们两个用在的环节有什么区别,再就是他们之间,他们万一发生了矛盾,他们两个的结果不太一样,会怎么处理?

董骝焕:这个策略很多情况下,欺诈一般都是属于一票否决的,我觉得他坏的,我肯定要剔出来的,不让他自动通过,这一关过了之后才考虑信用风险。首先我们要确认这个人是来申请的人,你确实是谁,确认好了之后,这是三方欺诈的方式。确认一方欺诈,你没有拿其他的信息里鲍崇,增加你的信用额度,解决好这个问题,之后再考虑他的收入是否稳定和还款意愿。对于A卡和申请反欺诈我们做了一个比较,您可以拍一张片子。

提问:在保险反欺诈分析中,基于业务规则的线性模型与非线性模型哪种效果更好?

董骝焕:一般来说肯定是非线性模型效果更好,这个就是一个很好的事例,一般线性的切分可以看到想把黄色的切出来,你用四条规则来切,而且你切出来的效果不一定好,到底选哪个方块,这个方块只有三个案件,如果非线性的这边可以选四个,实际生活中也是这样,非线性解释程度从某种意义上来说确实不如线性模型解释的意义好,这个牵扯到两个问题,第一个什么叫解释能力,如果能把主要的因素前三四个都告诉你,说为什么这个分高,是因为出险时间在半夜,比如说出险的地点是个高风险地点,只是不告诉你权重,实际上对于业务人员这就够了,甚至这个评分有的时候你都不一定告诉他们。

不同的模型,这个曲线是不一样的,怎么样来实现,实际上识别率和他的稳定性会有一些权衡,实际上我们取一个高识别率的模型,有可能带来模型的不稳定,这种情况下我们关键看想达到什么样的一个,某个模型在这个理赔案件中能得到什么样的识别率,在这个模型我想得到这样的识别率,我想把我赔案的率和案件审查率组合起来观察,比如说这边要达到10%的审查率,我认为神经网络中我取8%,到这里,决策树比如说取2%到这里,可以观测一些这样的指标来确定。

提问:交易欺诈的分析方法和申请欺诈类似吗?

董骝焕:这个问题很好,首先交易欺诈,我们一般指交易欺诈都是信用卡或者网上或者三方支付,这种我们一般首先有一个数据量的问题和一个响应实施的要求的问题,所以在这种角度上,我们更多的会限制他,要他算得快,要他响应得快。第二个,交易欺诈更多的会关注于他的行为模式,申请欺诈更多的是关注于刚才讲的,你有没有被假冒,你有没有假冒自己信用的程度,所以从这种角度上来讲,他的识别的角度不太一样,一个是从更多的维度去识别你这个人,是不是你这个人,或者是不是有冒充,那个是行为模式有没有改变,比如说我被盗刷了这种方式,经常会出现,你跟盗刷你的人的交易模式跟你以前是不一样的,从这种角度来是更多一点。

评论(0)

您可以在评论框内@您的好友一起参与讨论!

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");