泛滥与缺失：个人征信 vs. 征信误差评估

王汉生 @北大光华

最近被刺激了！有人被刺激后的反应是以头抢地尔，而教授被刺激的第一反应是：写 Paper！故事的发生是这样的。一天组会，大家东拉西扯，也不知怎么就扯到个人征信上去了。于是突发奇想，我请大家把自己的手机掏出来，每个人查一下自己的 “芝麻信用” 分是多少。王老师的芝麻信用分高居 630 之多，心想：这么高的芝麻信用分，可以秒杀众多学生，然后可以得意地哈哈大笑。

对，就是上面这个样子：哈，哈，哈，哈。额，噢？Hold on，怎么回事，你的得分居然更高？啊，你也更高？What，你们都这么高？天啊！你们每个人的芝麻信用分都比我高！同学们的芝麻信用分最高的有 730，紧跟着一个 700+，剩下的虽然不到 700，但是无一例外，全部比我高。王老师是整个组里芝麻信用分最低的，木有之一，太丢人了！我这下子才醒悟过来，630 不是高考得分，是芝麻信用分。630 是一个不怎么乐观的得分。还亏的我自己研究个人征信呢，结果被芝麻信用秒成渣！瞬间，王老师的心情变成

如前所述，教授被惹毛后的第一反应是：写 Paper！而且必须遵循按照严格的学术规范，先从背景介绍开始。为此，我们首先需要科普一下 “芝麻信用” 是个啥子东东。

假设你有一个手机 APP，叫做 “支付宝”。没有？赶紧安装，要不让你会比王老师还惨。打开支付宝 APP 的主界面，在左侧居中的地方，有一个按钮 “芝麻信用分”。轻轻点开，你就会看到自己的芝麻信用分。

而上图中间这个展示的就是王老师的芝麻信用分：630。不过，现在我已经知道了，这是一个很惨的得分，我希望提升信用，可以吗？答：可以。请 Follow 右下角的 “信用提升” 按钮。进入后发现芝麻给我安排了 2 个 “芝麻任务”。啥子任务？它要我“录入车辆信息” 还有“绑定 Linkedin”。这个悲催，我木有 Linkedin 账号，难不成还得去申请注册一个？还有，我不想告诉你车辆信息可以不？更加逗的是这个“芝麻习惯”：给家人买礼物或生活用品，做一个有家庭责任感的人。这似乎在说：你，是一个木有家庭责任感的人，因为：你不给家人买礼物，甚至生活用品都不买。我勒个去，打开我的京东 APP，

这一堆给孩子买的书，乐器配件，这都不算给家人买礼物哇？如果我拿这几个问题去质问芝麻信用负责人，他会怎么答复我呢？我猜，他会理直气壮地说：你在京东买的东西，支付宝怎么知道呢？说的也是啊，我在京东买的东西，支付宝怎么可能知道呢？对不起，对不起，我错了。我应该在淘宝买东西，而不是京东。我应该使用支付宝，而不是微信支付。否则，你的芝麻信用就该是 630 分！

但是，我又冷静下来，仔细想想，总觉得哪里不对，总觉得自己哪里受了委屈。为什么？我在京东买了啥，支付宝确实不知道。这说明支付宝不了解我。但是，你都不了解我，你咋就评价了我的信用呢？请注意，这两件事情有非常本质的区别：（1）我对你不了解，所以无法对你做信用评分；和（2）我对你了解，认为你信用很差，只有 630。我猜测，还有很多支付宝用户应该是属于（1），但是却按照（2）处理了。否则，我需要一个解释：王老师哪些失信行为，造成了芝麻信用分很低？人非圣贤孰能无过，做得不对的地方，就要积极改进。但是，千万不要告诉我：因为没有完成 “芝麻任务”，没有 “芝麻习惯”，而造成信用得分低，这就欺负人了。

本文到此，吐槽结束，进入严肃点的话题。这里我并不想说 “芝麻信用分” 多么不好。恰恰相反，我个人认为 “芝麻信用分” 是互联网征信这个行业里，可圈可点做得很不错的一个产品。但就像一个普通人一样，再优秀的个体，都会有成长的困惑与烦恼，尤其是当他长得快的时候。“芝麻信用分”所表现出来的问题，是互联网征信整个行业普遍存在，而被忽视的一个普遍问题。那就是缺乏对征信误差（Credit Scoring Error）的深刻认识。造成的后果就是：征信泛滥。不分对象，不分场景，任何一个机构，都敢在大数据的幌子下，给人打分。那么，什么是征信误差？我不知道这个名词在过去的文献中是否存在过。如果没有，请原谅王老师自己瞎编了这个词。主要想说明下面这么一个道理。假设一个人的真实信用情况是 Z，这是一个任何人都看不见的最真实信用情况。如果我们知道了 Z，世界上就不再有 “征信” 这个问题。但是，信用评估机构（例如：芝麻）看到了一系列的，可能同 Z 相关的指标（例如：消费习惯、收入状况、教育程度等）。我们把这所有的相关性指标用一个向量 X 表示。这里，依赖于 X 中采集了多少可见的指标，它的维度有可能很高。那么，征信的核心问题就是：要通过看得见的 X，推测看不见的 Z。

但是，给定 X，就能精确地知道 Z 了吗？当然不可能。我自己都说不清楚我的 Z 是多少，你怎么知道？我借了隔壁老王 100 元，还？还是不还？可能懒得还，我俩老熟了，这点钱还要还。我要是借了 100 万呢？我要是借了 100 亿呢？这说明什么？这说明同一个人的 Z，可能会随着场景的不同而不同。这又说明什么？这说明即使本人都说不清楚自己的 Z 是多少，更何况一个征信机构。但是，征信机构会通过 X，以及大量用户真实的信用行为，学习出一个模型来。然后，通过这个模型去猜测真实的信用 Z。数学上把这个猜测记作：Z*=f(X)。没错，Z * 就是那个征信得分（例如：芝麻信用分），它就是 X 的一个函数。用统计学的语言讲，Z * 是对真实信用 Z 的一个估计量（Estimate）。既然 Z * 是一个估计量，那么他就不会 100% 准确。他同真实的信用 Z 之间，会有一个偏差，而这个偏差就是我所定义的 “征信误差”（Credit Scoring Error），即：CSE=|Z*-Z|。

我们对征信误差的期待是什么？当然是越小越好。怎样才能让 CSE 变小呢？样本量会有帮助吗？有，但是帮助不大。例如：我告诉你全世界每一个人的性别（木有其他信息），这个样本量够大了把？但是，对征信而言，帮助极其有限。因为，对于征信而言，性别不是一个特别重要的指标，而且这还是唯一的指标。所以，真正的可以减少征信误差的方法是：增加 X，让 X 的信息更加丰富，让 X 的维度变得更高。例如：以前 X 里面只有淘宝的数据，现在可以考虑增加京东的；以前 X 里面只有收入水平，现在可以考虑增加教育程度；以前 X 里面只有消费数据，现在可以考虑增加社交信息。只有增加高质量的 X，才可以降低征信误差，从而降低信贷风险。这就难怪，几乎所有征信企业的高管，都忙于拓展数据源，丰富自己的 X。对于什么样的行业、什么样的企业、通过什么样的方式，才可以达成数据分享的联盟，这是每一个征信企业都要思考的问题。

现在我们介绍了征信误差这个概念。接下来的问题是：如何测量 CSE？我们可以精确知道 CSE 是多少吗？当然不可能。因为在 Z * 已知的前提下，如果还精确知道了 CSE，那等价于精确知道了 Z。而如前所述，Z 是不可能精确知道的。那么如何评价 Z * 的误差呢？这是统计学另外一个了不起的创意。它说：如果我们无法知道 CSE 的精确取值，那么就计算一下他的预期（Expectation）吧。其实细想一下，这不是一个值得特别开心的事情。因为，但凡我们可以知道 CSE 的精确取值，就没有必要计算他的预期了。之所以用预期的 CSE（ECSE，Expected Credit Scoring Error），是因为没有更好的办法了。但是，不管怎样，ECSE 应该是一个有用的工具，而且是可以通过模型和相关理论计算出来的。从理论上讲， ECSE 可以有很多种不同的定义。例如：绝对误差和均方误差就是两个可能的不同选择。但是，无论如何定义，一个合理的 ECSE 必须具备一些简单的特征。例如：如果 ECSE=0，那么就会有 Z*=Z。又例如，只要 X 的信息越来越多，ECSE 会单调下降，但是不会无限接近 0。

知道 ECSE 又怎样？为此，我们再检讨一下王老师芝麻信用分的问题。按照现在的这个理论框架，芝麻采集了一些关于王老师 X 的信息。因为王老师很少用支付宝，所以 X 非常有限。这个的后果是，征信估计量 Z*=630 是一个很不准确的得分。如果我们可以计算他的 ECSE，可能是一个很大的数字（例如：50）。这说明，其实 630±2*50 都是王老师真实信用的合理取值范围。最小可以到 530（糟糕透顶），最好可以到 730（极其优秀）。王老师，以小人之心，做一个腹黑的推断：可能，为了增加更多更丰富的 X，芝麻的信用得分里还会惩罚像王老师这样信息不完备的家伙，而鼓励完成 “芝麻任务”，养成“芝麻习惯” 的用户。然而，这些都是在增加 X，降低 ECSE，而无关乎真实的信用。

ECSE 这样一个理论框架，对于未来的征信实践有什么建议？我想至少有两个：（1）对于 ECSE 很大的用户，应该勇敢地说出来，我不了解你，因此对你的信用无法评估。这里的意思是：我不知道你是好人还是坏人，不排除任何一种可能。当然，如果你一定渴望我为你提供一个评估，那么请提供充足的 X 信息，直到 ECSE 降到理想的水平。这个方法的好处是容易操作，但是缺点是要求太高。按照这个要求，我相信绝大多数互联网用户能够提供给征信机构的信息是不充分的，是达不到这个标准的。（2）另外一个解决方案就是：我评估了，但是汇报一下 ECSE，提示一下用户，我们的评估误差估计会有多大。这样做的优点是：更加科学准确，而且可以覆盖更多的用户。但是缺点是太专业，对于普通用户不好懂。一个更好的做法，也许是提供一个关于 Z 的区间估计。为此，统计学中的置信区间（或者预测区间）将大有用武之地。不管是哪一种选择，（1）或者（2），如果没有对征信误差的合理管控，我们将看到的是征信泛滥。我们将看到越来越多的企业机构对个人信用指手画脚，而普通用户一脸茫然，非常被动，进而引起愤怒。这对整个征信行业不是好消息。

因此总结一下：要避免征信泛滥，就要准确评估征信误差。咋评价？认真学习统计学理论呗。额，对不起各位，兜了一个很大的圈子，最后的结论是：统计学好，统计学很重要，统计学都没学好，干啥啥不行，吃嘛嘛不香，后果很严重:-)

泛滥与缺失：个人征信 vs. 征信误差评估

王汉生

关于作者

王汉生