魏旋-宜信大数据实时授信平台
宜信大数据实时授信平台 xuanwei@creditease.cn传统批贷流程 • 上网学习攻略 • 准备申请材料 – 打印、复印、盖章等等 • 到柜台,提交各种证 明材料 • 补交各种证明材料 • 等待若干工作日,通 知结果与额度 – To be or not to be瞬时贷 • 用户提交户个人 信息 – 身份证号,联系人等 • 用户授权获取信用卡账单 – 最近4 个月信用卡账单及明细 • 实时反馈额度 • 等待放款瞬时贷 – 用户体验 • 方便 – 手机上完成,无需任何 线下材料 • 快速 – 实时授信 – 次日放款 • 充分互动 – 第一时间掌握额度瞬时贷 – 宜信体验 • 成本 – 人工成本几乎为0 • 低违约率大数据实时授信平台 • 分析客户的信用状况和欺 诈风险 ,实时估 计授信额度、检测欺诈风 险 , 或 者辅助 非 实时业务进行信用及欺诈 估计Flume Crawler Sqoop HDFS HBase ElasticSearch Web DB Info Extract Knowledge Graph Rule Engine Machine Learning大数据的边界 大数据的边界 • 个人或者商户隐私数据一 定经过 用户的 授 权 – 授权数据只用于宜信自己的业务 • 网络公开数据的边界以通 用搜索 引擎为 参 照架构授信模型 • 传统授信模型 – 作为人工的辅 助手段 – 强特征 – 可解释 • 我们没有边界 – 一切数据皆为信用数据 • 维度无限制,强弱无限制 – 一切模型我们均可使用瞬时贷 – 数据 • 用户提交信息 – 详单信息也非常有用 • 通过姨搜获取用户的一切相关信息 – 用户的常用论坛, 发帖记录 – 用户的消费水平 – 用户不良嗜好 – 用户地址房价高低瞬时贷 – 信用模型 • 数据特点 – 少数强特征 • 账单信息 • 非线性 – 大量弱特征 • 账单详单 • 互联网信息 • 非线性 • 模型 – GLM(LR) • 挖掘海量弱 特征 – Random Forest • 处理强特征 – 模型融合专家知识 • 规则引擎 – 专家根据对申请人群的了解,指定规则 • 用户是否有账单逾期未还 ? • 用户身份信息是否真实 ? – 可以解决很大一部分问题 • 冷启动 – 在产品上线前,没有分类标签 – 专家定义什么是坏客户,模型计算什么人看起来是好 客户,但是很有可能变为坏客户 – 随着产品数据积累,不断更新模型反欺诈模型 • 起点 – 数据校验和黑名单库 • 利用所有数据进行校验 – 直接发现异常、欺诈或者疑似欺诈信 息 – 生成安全问题,确认申请人身份建模总结 • 数据很重要 – 提取更多的特征 – 提取更多的样本 – 积弱为强, 不要丢弃 • Domain Knowledge 很 重要 – 尽量理解数据 • 模型 – AD领域,GLM(LR) 几乎是 唯 一选择 – 但是可以有变种 • 数据依然重要 – 除了视频,我们都去研究 • Domain Knowledge 更加重 要 • 模型 – 复杂模型终于派上用场 – 随着认识的增加,迭代更 合 适的模型系统总结 • 没有一种单一的算法可以解决所有的问题 – 要通过工程将各种算法组 合成强 大的系 统 • 单纯靠机器和单纯靠人 都是不够 的 – 充分发挥专家的先验知识 和机器 的计算 能力 • 道高一尺,魔高一丈 – 监控,报警,更新,进化数据缺失 • 应对 – 数据充足的用户,率先享受便宜快捷 的互联 网 服务 – 数据不足的用户,提供信用估计供其 他产品 线 使用 • 未来 – 继续积累数据 – 加强行业合作Thanks