“在中国做信用数据分析,一定不能像美国一样只用一套体系,不能全部交给机器做。”在与前Zestfinance风控官顾凌云讨论中国征信分析产品时,罗皓一连说了两个不能。
罗皓做的产品叫聚信立,它与那个已累积获得近一亿美元融资的分析平台Zestfinance类似——利用机器学习和大数据分析的方式,采用社会网络、电子商务等大量消费者在互联网上的信息来评估个人信用资质。
具体来讲,聚信立的数据源包括社交网站,电子商务网站,移动运营商,公积金,网上银行,水电煤,航空公司网站等等,对这些数据进行分析后,可以提供个人身份基本信息、收入支出信息、兴趣爱好、个人影响力、社会关系等方面的相关分析报告。
为了能够拿到以上个人的公开或者相对隐私的信息,聚信立在这个阶段采用的是B2B2C的方式,也就是与小贷公司及渠道合作,进而向他们的客户提供服务。比如你到一家小贷公司去申请贷款,这家公司就会告诉你,可以选择到聚信立这个平台上去开个快速互联网资信证明。
这样,用户就来了。根据金融机构的要求,比如分析该用户是否有不良嗜好、有什么支付偏好,聚信立平台会告诉用户,需要其哪类信息,会读取哪部分,然后用来分析什么,分析报告会提供给谁等等。这时,用户通过聚信立的系统,登录自己的譬如淘宝账号、社交网路账号、网上银行等,聚信立就可以读取用户账户中的信息。然后,生成相应的分析报告。由于聚信立的评估方式和结果已经得到小贷公司的认可,所以它提供的报告,就可以作为小贷公司处理贷款申请时的重要参考。对于消费者来说,聚信立可以将线下繁琐的开证明流程大大简化,同时也可以作为一个有效的增信手段。
不得不说,相较于阿里入股高德、收购微博股份这样的财大气粗的收集数据的做法,聚信立的这种通过B端渠道去驱动用户主动授权并提供数据的方式,几乎零成本,很适合小的创业公司。
但这种由用户自主提供数据源的方式也有一个弊端,就是数据是否充足。数据量太少,分析难以准确。所以,聚信立的做法是,提出最低信息门槛——比如说在过去一年电子商务消费次数必须大于10次。
对于信息的选取,我们之前也介绍过ZestFinance的特点:一切数据皆为信用数据、所有信息看关联不看因果、每一条用户写错信息也是关键信息。对此,罗皓表示完全认同。他和顾凌云讨论也发现,在做数据分析时,大家用的数学、统计的方法也都是相似的。
但罗皓总结,也有不同之处,也就是那两个不能——不能像美国一样只用一套体系,不能全部交给机器做。也就是说,不同的地域要有不同的评价体系。同时,选取哪些字段的数据,不同字段的数据在算法中各占多大的比重,除了通过机器学习的办法来决定之外,加入人的理解和判断也至关重要。这两条紧密相关。因为中国的贫富差距悬殊,地域风俗习惯差异大,这些特征都会投射到互联网上呈现出不同的数据特点。理解这些数据,就必须结合线下的具体情况,不能一刀切。于是,在数据字段的收集和权重设定上就需要做相应调整,不能像美国东西海岸都是一个评价体系和标准。但这个调整,在数据量还不是特别大的情况下,仅仅靠机器学习是难以准确的,因为它不仅是统计学和数学的问题,更多需要对人性,心理学及地域风俗习惯的深刻理解。这一点,特别在前期的风险建模中,不是单一靠增加数据量和换一种计算模型就可以办到,它更需要的是根据对人性及业务的理解,来拓展数据字段的维度。
举个例子,金融风险往往有三个层次:欺诈风险——这个人是不是骗子;信用风险——有无还款意愿;偿还能力——每月能还多少钱?在中国,假设这个人自己的还款能力中间出现问题,会去找自己的亲人朋友借。所以,判断一个人的还款意愿和能力,往往需要同时考察这个人的亲属血缘关系的经济能力。
在团队组成上,聚信立和ZestFinance有着类似的背景,即融合了金融大数据和互联网产品基因。聚信立的团队中大部分是来自金融业的风险建模师和互联网广告业的开发工程师,这个团队精通于大数据挖掘、风险建模和算法设计,并将数学算法产品化。它的创始人罗皓本科在湖南大学精算系就读,研究生在爱尔兰学统计,是国内第一批取得SAS统计师的人。毕业回国,先后在通用资本(GE Capital)、渣打银行、摩根史丹利发现金融公司做个人信用评估和风险评分卡开发。
在做聚信立这个产品之前,这个团队做的是社交数据分析产品,包括对用户的电子商务消费数据的分析。2012年转型做信用数据分析产品聚信立时,他们获得了一笔天使投资。