分享好友 最新资讯首页 最新资讯分类 切换频道
风控建模十二:数据淘金——如何从APP数据中挖掘出有效变量
2024-11-07 22:16

风控建模十二:数据淘金——如何从APP数据中挖掘出有效变量

智能手机的诞生改变了人类的生活方式,智能手机所承载的功能日臻完善、强大,人们在衣、食、住、行、工作、生活中面临的方方面面问题,似乎都可以在移动设备端找到答案。这也直接导致了人们越来越依赖于移动设备,大量的时间与关注力都花费到了手机上。据统计,国人每天平均使用手机时长超过100分钟,每天使用手机时长超过10个小时的更是大有人在,吃饭、睡觉、交通出行都是机不离手,眼不离屏已然是大部分人的普遍状态。对大部分人来讲,手机才是其最忠实的伴侣,真正了解其人行为习惯、喜恶偏好、日常作息的,非他的手机莫属。 随着这种趋势应运而生的是大量的移动设备数据服务商,实时监控着我们移动设备上各种应用的安装、卸载、活跃以及位置打点信息。在信贷风控领域,移动设备数据早就成为了数字化业务中不可或缺的数据底座,大大小小的信贷平台,只要有数字化业务,都在直接或间接地把移动设备信息作为一个重要维度去刻画客户。目前行业内对移动设备数据的挖掘和应用虽然早已过了“立柱架梁”的阶段,还还远达不到“积厚成势”的程度,所以本文做个初步探讨,讲一下如何从APP数据中进一步挖掘出更多有效信息,用于数字化建模。 目前提供移动设备APP数据的厂商大体分为两类,一类是做SDK服务的厂商,像极光、友盟、个推等等;一类就是基于流量监控的运营商,像移动、联通等,每类厂商的数据都各有优劣。像SDK厂商数据,优势就在于APP信息全面,对于安卓设备来讲,只要嵌入了其SDK服务的APP活跃了,就可以把设备中所有的APP信息统统上报,所以数据服务商那里掌握着大几千万的APP映射关系,这也为APP数据的挖掘提供了广阔的空间;其劣势在于,覆盖度低,主要表现在三个方面,一是只覆盖部分设备,具体而言就是只有这个设备上使用了嵌入其SDK服务的APP,厂商才能获取到该设备的数据,如果一个设备没有安装嵌入其SDK服务的APP,那该设备对厂商来讲就是个盲点,目前没有一家SDK服务商一家独大,SDK服务能覆盖个市面上十万、百万的APP就算有规模了,而这个数字和目前过亿款的APP相比,实在不多;二是活跃上报频次低,一般只有当嵌入其SDK服务的APP活跃时,厂商才能接收到上报的信息,这就导致对于那些不覆盖主流APP的SDK厂商来讲,很多设备一个月也就能看到几次上报信息;三是挑设备,对于IOS设备,由于其安全级别比安卓更高,厂商就只能看到嵌入了其SDK的APP的信息,而不能扫描整个设备列表,导致设备上的其它APP信息完全获取不到。对于运营商来讲,其优势在于覆盖度高,只要该设备在使用此运营商的流量,那这些信息都会被详细地记录下来,虽然在使用WIFI网络情况下的设备信息无从得知,但这个数据全面性相比SDK可算是高多了,但其主要的劣势也比较突出,就是拨测的APP属实有限,目前来看,运营商也就拨测了2万多款APP,除了这2万多款APP,我们可以详细知道设备在哪个时点用了多长时间,其它APP的信息就全然不知了,这相比全量上亿的APP也就只是九牛一毛。 这就是目前我们面临的实际数据情况,这种情况下,想要做到全知全能,无比精细是完全不可能的,甚至想要做一些比较精细化的探索目前阶段也是非常困难的,挖掘工作再深入,也必然逃不出“可能”、“大概”的概率性问题。所以我们的工作就是要在这种现实情况下,尽量挖掘出更多概率性更高的、可用的有效信息。 变量设计通常来自两个思路,一是根据常识知识设计变量,二是根据客户的个例调查,发现异常特征,并提炼形成具有普遍性的变量。从这样正反两个思路出发,最终交汇才能发现并设计出较好用的变量。当我们能看到客户的APP详细列表数据的时候,还可以使用第三种较为特殊的分析方法,即查看APP分布的方法来排查出能识别优质客户或高风险客户的APP,并总结形成可用变量。我们就从这三个思路出发,看一下在实际业务中,如何设计出较为好用的APP变量。

从常识知识出发设计变量,就是利用我们平日的常识认知、经验知识、结合分析过的客户画像、调研报告等等来从APP数据中挖掘可用信息。我们可以从好、坏两个维度出发,从资质、品质两个维度来设计变量。 对于好的维度,从资质角度来讲,一般有稳定工作、特定职业、或有特殊身份的客户我们认为资质较好。怎么判断客户有稳定工作呢,可以从这么几个维度判断

  • 企业微信、钉钉、飞书这样的APP定期活跃
  • 安装有发放企业福利的APP,比如东方福利网、给到等
  • 使用办公类的APP,比如发票报销、思维导图、腾讯会议等
  • 使用个人所得税APP报税等等

特定职业怎么去发现呢,APP里面线索也很多

  • 安装有以教师版、教师端、医生版、医生端结尾的APP
  • 很多公务员有特定的公务出行APP,比如公务之家等
  • 大型企业内部专用的APP,比如中国石油员工宝、中油e学等

特殊身份,包括党员、退役军人、高端差旅人士等都是优质属性

  • 党员,最常见的的学习强国APP可以单独一类
  • 其它党员类APP,比如某某党建平台、红旗飘飘等
  • 退役军人,迷彩网、退役军人之家APP安装等
  • 商旅人士,飞常准、各种商旅、航旅类APP等

对于好的维度,从行为品质维度上也可以挖掘出很多好品质,比如勤于学习、热爱运动、热心公益、自我管理等等,可以从以下思路进行APP的挖掘

  • 勤于学习:网易公开课、CSDN学院、资格证书等APP
  • 热爱运动:Keep、Fit等APP的使用
  • 热心公益:各种志愿者、爱心包裹、社会义工类APP;除此之外,用于核酸采集信息的“采集”APP也是一个很好的线索,安装了这类APP的不是热心公益,就是医护人员
  • 自我管理:像是时光序、小番茄等时间管理类APP使用,Forest专注、时间锁等手机使用时长管理的APP使用,冥想星球、潮汐等冥想类APP的使用、定投理财类财富管理类APP的使用等等

对于坏的维度,我们同样从资质和品质两方面去挖掘。 坏的资质同样可以从不稳定性职业、特殊身份两方面入手去挖掘: 不稳定性职业有以下这些线索

  • 司机,比如以司机端、司机版结尾的APP;万顺车主、首约司机等司机用的APP
  • 外卖快递员,比如快递哥、美团众包等等APP
  • 房屋中介,比如幸福里经纪人、移动经纪人APP等
  • 保险销售,比如神行太保APP等

比较高危的特殊身份有以下这些线索

  • 社区矫正人员,数字化时代,很多社区矫正和服刑人员也开始被施行数字化管理了,市面上可见很多款社区矫正类的APP,比如心岸、浙里矫、音容社矫等
  • 重病人员,比如与癌共舞、癌度、乳腺癌之家等等这样能够大概率识别得了癌症的人群,对于重病人群,我们可以捐助,但不适合给他们商业性贷款,而且,在我们之前的实际业务经验中,会发现一些严重逾期客户在一段时间后直接注销户口了,排查后发现这些人很多借款的时候打点在医院附近,很可能是重病晚期的人在临死前贷了一笔,这种情况也不能不防。
  • 心理疾病,像心药医、抑郁症治愈日记等等APP可以大概识别

对于坏的品质,就比较广泛了,可以从涉及黄赌毒、诈骗、不良行为几个方面入手

  • :涉黄类APP因为和监管审查不断的拉锯,所以更新换名非常快,可以考虑用关键字匹配的方式来识别此类app,比如“狼友、色欲、性感、午夜”之类的
  • :涉赌类APP同样变化无常,同样可以以关键字的形式去识别app,比如“葡京|娱樂場|百家乐|百家樂|威尼斯人”等等
  • :最直接要防控的就是骗贷,可以用“撸卡、撸贷、征信修复、撸口子、上岸之家”等关键词识别APP
  • 虚拟定位:关键词“虚拟定位、位置修改、位置伪装”等等
  • 应用分身:关键词“应用双开、虚拟分身、分身大师”等等
  • VPN翻墙:关键词“翻墙神器、网络梯子”等等

当然还有很多欺诈特征可以识别,这里就不一一列举了。 仅仅依靠常识来设计变量,毕竟是有局限性的,我们应该充分调研外部资料,获取外部信息来帮助我们补充完善变量的设计思路。比如,在一篇永安在线对黑灰产的调查研究报告中,就详细列出了市面上常用的黑灰产APP工具有哪些,而这些信息可以很大程度上帮助我们完善坏行为变量的设计,并拓宽变量的设计思路。 在这里插入图片描述 再比如在一篇列举欺诈APP的文章中展示了很多涉嫌诈骗的APP,虽然我们很难把这些涉嫌诈骗的APP都理全,但从这些APP中我们可以发现一些规律,比如很多涉诈APP名字都会用点号把汉字或字母隔开,那我们就可以根据这个规律提炼出一些挖掘APP的正则规则,把疑似涉诈的APP找出来。这些APP就可以在一定程度上把易于受骗,行为异常的客户体现出来。 在这里插入图片描述 总之,基于常识认知,沿着一个逻辑框架枚举出所有变量设计的思路,并通过广泛地调研各种行业资料和信息进行完善补充,是通过常识知识构造变量的基本做法。

常识知识可以帮我们搭起一个较为完善的变量设计框架,但很难尽善尽美。个例调查,就可以让我们从思路的另一端出发,从个例客户的行为线索中提炼具有普遍意义的变量,让变量设计框架进一步趋于完善。 个例调查可以从逾期较为严重的客户着手,但更好的方式是能够根据贷后催收记录,把逾期客户根据不同的逾期原因进行分类,在明确了一个客户为什么逾期之后,再有针对性地去寻找他的行为线索。 比如,我们针对一个因赌博而严重逾期的客户,调查了他的APP列表,从他的APP列表中我们看不到任何网络赌博类的APP,但有一个比较小众的APP引起了我们的注意,叫做“默往”,经查询后发现默往是一个私密性非常高的聊天交友软件,进一步调查后,我们发现了这样一段内容

在这里插入图片描述

当我们查阅了更多新闻后,发现默往可以说是一个骗子、网络赌博、炒币、黑灰产、涉黄的聚集地,类似默往的这种小众私密聊天软件还有蝙蝠、Instagram等等。当然我们并不是说,使用这种小众私密聊天软件的都是坏人,但安装了这种软件的客户值得我们警惕。我们可以把类似这种私密聊天软件都整理起来,或单独做一个变量,或用它和其它维度组合使用。 我们再来看另一个称自己做生意失败的案例,从这个客户的APP列表中也没有发现什么特别异常的东西,但同样找到了一个小众的APP,叫共信鼎。调查后发现,共信鼎就是传销,我们有理由怀疑这个客户所谓的生意失败,可能就是让这个传销把钱搞没了。 在这里插入图片描述 这同样给我们提供了一个变量衍生的思路,可以把类似这种涉及传销的APP整理归类,做变量的衍生。 除了这些蛛丝马迹的客户线索,我们也调查到一些特征比较明显的客户特征,比如有个客户我们发现他的列表中有这样两类APP在这里插入图片描述 一个是涉黄类的APP特别多,而且很多这类的APP从名字上看并不明显,但我们能把握一个明显的特征,就是很多涉黄APP会以“视频”,“社区”结尾,那我们就可以设置这样的规则,找出所有以视频、社区结尾的APP,并排除主流的社区、视频APP,当做一个疑似涉黄APP类别进行衍生变量。另外,当他安装了大量涉黄APP后,就不得不考虑把这些APP做一个隐藏,不让人轻易发现,从而也就有了第二类APP线索,应用隐藏类APP,这同样给了我们做变量衍生的线索,单独或组合使用。 个例调查就是这样从实践中来,到实践中去,以实践指导理论的方法论。

分布排查,也可以说是一种实践调查的方式,是一种针对APP列表数据的比较特殊的方法。具体来说就是遍历所有客户所有安装的APP,看一看每一款APP到底有多少人安装,安装了这一款APP的客户整体风险表现是怎样的。通过一定的筛选条件,把覆盖一定人群,并且风险表现有明显区分度的APP都展示出来,再做具体分析。 通过这种方法,可以进一步弥补我们之前遗漏的APP类别或是完善已整理类别中的具体APP。比如我们通过这种方式,发现了一些涉及炒虚拟货币或挖矿的APP会覆盖一定的客群,且客群资质较差。

    以上就是本篇文章【风控建模十二:数据淘金——如何从APP数据中挖掘出有效变量】的全部内容了,欢迎阅览 ! 文章地址:http://yy520w.xhstdz.com/news/1741.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 物流网资讯 http://gzhdwind.xhstdz.com/ , 查看更多   
最新新闻
10.Google hacking
这篇文章是21年中旬记录的,平安夜p牛的直播中也谈到,对于渗透测试来说最好有一个checklist,为了避免忘记测试某一部分的内容而
抖音被限流的表现
“云山苍苍,江水泱泱,先生之风,山高水长”的意思:云雾缭绕的高山,郁郁苍苍,大江的水浩浩荡荡,先生的品德啊,比高山还高,
在百度上做广告推广一年要多少钱_百度广告推广费用解析
在当今数字化的商业环境中,百度作为国内(黑帽seo)的搜索引擎平台,拥有庞大的【常熟seo】用户群体和广泛的影响力,许多企业和个
淘宝蓝海虚拟项目4.0,让你最大化15-20天内起店和快速实操
相信大家也看到了,黄岛主最近经常晒朋友圈,晒的都是淘宝蓝海虚拟项目学员做出的成绩反馈,带了这么多期学员没白带,很多学员都
FESE
  原文链接(点击“阅读原文”直接获取)  https://journal.hep.com.cn/fese/EN/10.1007/s11783-022-1542-7  文章出版:Fr
0202是什么意思 0202年梗怎么来的发展经历介绍
  0202是什么梗?指2020年。该词的说法最早出自2017年,原来的形式为都7102年...二者含义用法相同,0202年则是该词的衍生说法
医美整形美容双眼皮营销包装文案
1、医美整形美容双眼皮营销包装文案精致量化眼部整形眯眯眼?死鱼眼?肿泡眼?离桃花美目就那么几毫米的改变?精致量化综合设计一
SEO优化报价背后的科学:成本与收益的平衡艺术 (seo的优化方案)
在数字营销的领域,搜索引擎优化(seo)是提升网站可见性和吸引潜在客户的主要手段。随着时间的推移,SEO已经从简单的关键词堆砌
45天涨粉429万,这届年轻人爱上了东北姥姥
⭐️欢迎关注预约“新榜和ta的朋友”系列直播!可能成成也没想到,为姥姥开设的账号“八零徐姥姥”会火得那么快。9月2日,“八零
抖音最近很火的配音歌曲有哪些 抖音最近很火的配音文案有哪些
很多小伙伴和小编说自己喜欢看一些抖音上面的配音视频,觉得这些抖音原创配音​视频制作的是真的很好,希望自己也有那个能力能制
本企业新闻