9c6ffe6f7d86c8aa9b5bc40939eab6b3.png

SQL数据库是数据分析领域必不可缺的工具,学会SQL能更好地帮助我们解决实际问题。这次分析的数据还是LENDING CLUB的贷款数据,希望通过对贷款数据的分析得出一些隐藏在数据下的秘密。

首先给Lendig Club做个简单的背景介绍:

Lending Club 是全球最大的撮合借款人和投资人的线上金融平台,它利用互联网模式建立了一种比传统银行系统更有效率的、能够在借款人和投资人之间自由配置资本的机制。

通过Lending Club 的平台,借款人和小微企业可以获得更低的利率,投资人则可以获得较好的收益。

Lending Club 自2007 年5 月24 日正式上线以来共经历了三个阶段:

1)2007 年5月-2008 年4 月的运营初期;

2)2008 年4 月-2008 年10 月的“静默期”;

3)2008年10 月至今的新模式运营期。

盈利模式:Lending Club 的收入来源为交易手续费、服务费和管理费。


提问:本章分析哪些业务指标,这些指标与需要数据集中哪些字段?

运用脑图明确分析方向:

5fb997e64debcd41a18ea41e486087fa.png

几个用户指标:(贷款金额、信用等级、职业)

1、贷款金额选择区间及人数

2、不同信用等级的贷款人数

3、不同工作年限的平均借款金额

4、不同收入人群的占比以及相同收入人群不同信用等级的占比

字段:

52130bb888c4baabcf427b43d8e8c421.png

下面开始进入真正的操作:

fc642e96bf03a7570ef5a1d1fb4bbe8f.png

一、导入EXCEL数据

72d81bd0bfc7b86f831654d8d78628fe.png
1.打开navigate,右键打开test

920ee171422fe6bf252ad6fb5d8991d4.png
2.打开数据库,然后点击导入向导

1dafd379d8ed090018d1812eb784be6a.png
3.选择合适的格式

f3b400a1b4d609fdcb43705efc3e302a.png
4.选择从哪个地方导入表格

f6d7c35b3d31e5bf6f7f25f74e0f6031.png
5.一直下一步,到第四步注意字段和数据行

41981429b904936419ba1f21fa862f16.png
6.继续下一步,id这里设置主键,字符太长的话要类型设置成text,长度空着

965ae6804f15f268eb397d77b96f6c85.png
7.新导入的表就选第一个

2d84113f2602da0cf8ff28c9f932ee86.png
8.最后一步点开始

6a69fc03466f79bfc47bd47ac8183eb4.png
9.出错就是上一步所说的某些字段太长,这种情况下就需要把该字段数据类型改成text,长度空着

e96ab35876dde01a0fe98c9691d472d8.png
10.导入成功后的表

二、分析问题

1、贷款金额选择区间及人数

SELECT  (CASE WHEN (loan_amnt>0 AND loan_amnt<=3000) THEN  '0-3000'
              WHEN (loan_amnt>3000 AND loan_amnt<=10000)  THEN '3000-10000'
              WHEN (loan_amnt>10000 AND loan_amnt<=20000) THEN   '10000-20000'
              WHEN loan_amnt>20000                        THEN   '20000+'
             ELSE NULL  END) AS '贷款金额' ,COUNT(loan_amnt) ,
          CONCAT(ROUND(COUNT(loan_amnt)*100/(SELECT COUNT(*) from loan),1),'%')
FROM loan
GROUP BY CASE WHEN (loan_amnt>0 AND loan_amnt<=3000) THEN   '0-3000'
              WHEN (loan_amnt>3000 AND loan_amnt<=10000)  THEN '3000-10000'
              WHEN (loan_amnt>10000 AND loan_amnt<=20000) THEN   '10000-20000'
              WHEN loan_amnt>20000                        THEN   '20000+'
              ELSE NULL  END 
ORDER BY CASE WHEN (loan_amnt>0 AND loan_amnt<=3000) THEN   '0-3000'
              WHEN (loan_amnt>3000 AND loan_amnt<=10000)  THEN '3000-10000'
              WHEN (loan_amnt>10000 AND loan_amnt<=20000) THEN   '10000-20000'
              WHEN loan_amnt>20000                        THEN   '20000+'
              ELSE NULL  END  ASC;

5d25de8f62094a14f9353ee28a085a72.png
可以看到借款人数最多的在区间10000-20000,占比将近40%

123e859012226898849ad0419329f375.png

2、不同信用等级的贷款人数

SELECT grade AS '信用等级',COUNT(grade) AS '数量',
CONCAT(ROUND(COUNT(grade)*100/(SELECT count(grade) FROM loan),1),'%') AS '占比'
FROM loan    GROUP BY grade  ORDER BY grade ASC;

30588ed598769fe57061b2d5049f8847.png
A/B/C三个等级的借款人数占比近3/4,征信较差的反而比较少

9f8d5a84fc0cc535c07bb129e75101ba.png

3、不同工作年限的平均借款金额

SELECT (CASE WHEN emp_length>0 AND emp_length<=1 THEN '0-1年'
       WHEN emp_length>1 AND emp_length<=3 THEN '1-3年'
       WHEN emp_length>3 AND emp_length<=5 THEN '3-5年'
       WHEN emp_length>5 AND emp_length<=10 THEN '5-10年'
       ELSE '10年以上' END)AS '工作年限',
AVG(loan_amnt) AS '贷款金额'
 from loan
GROUP BY CASE WHEN emp_length>0 AND emp_length<=1 THEN '0-1年'
       WHEN emp_length>1 AND emp_length<=3 THEN '1-3年'
       WHEN emp_length>3 AND emp_length<=5 THEN '3-5年'
       WHEN emp_length>5 AND emp_length<=10 THEN '5-10年'
       ELSE '10年以上' END
ORDER BY AVG(loan_amnt);

c97d1063e53149ef7ff4487c51406c89.png
各工作期间相差不是很大,但是呈现递进关系

ee012457ac5af108cb1bcfe3023d3831.png

4、不同收入人群的占比以及相同收入人群不同信用等级的占比

SELECT (CASE WHEN annual_inc BETWEEN 0 AND 40000 THEN '低收入人群'
            WHEN annual_inc>40000 AND annual_inc<=100000 THEN '中等收入人群'
            ELSE '高收入人群' END)AS '收入类型',
            COUNT(annual_inc)AS '数量',
            CONCAT(ROUND(COUNT(annual_inc)*100/(SELECT COUNT(annual_inc)FROM loan),0),'%')AS '人群占比' ,
            grade
FROM loan
group BY   CASE WHEN annual_inc BETWEEN 0 AND 40000 THEN '低收入人群'
            WHEN annual_inc>40000 AND annual_inc<=100000 THEN '中等收入人群'
            ELSE '高收入人群' END,grade ASC

101b63ed090bbb9f03798fff14378252.png
中等收入人数最多,且信用最好

d0f1f8dc447140af4219e242c6fa0b0a.png

总结:借贷金额集中在3000-20000,所以这个区间应该是产品大力拓展的方向。接待客户总体资质不错,集中在了A/B/C。随着年龄的增长,人们对贷款金额的需求也不断增大,但需要注意的是工作10年以上的人反而借款需求萎缩,因为他们往往生活已经比较安定,所以我们主要的面向人群是工作0-10年的人。收入4-10W的人群是信用水平最好的,这部分人还款意愿较强。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐