太长的sql怎么分析_SQL分析贷款数据
SQL数据库是数据分析领域必不可缺的工具,学会SQL能更好地帮助我们解决实际问题。这次分析的数据还是LENDING CLUB的贷款数据,希望通过对贷款数据的分析得出一些隐藏在数据下的秘密。首先给Lendig Club做个简单的背景介绍:Lending Club 是全球最大的撮合借款人和投资人的线上金融平台,它利用互联网模式建立了一种比传统银行系统更有效率的、能够在借款...
SQL数据库是数据分析领域必不可缺的工具,学会SQL能更好地帮助我们解决实际问题。这次分析的数据还是LENDING CLUB的贷款数据,希望通过对贷款数据的分析得出一些隐藏在数据下的秘密。
首先给Lendig Club做个简单的背景介绍:
Lending Club 是全球最大的撮合借款人和投资人的线上金融平台,它利用互联网模式建立了一种比传统银行系统更有效率的、能够在借款人和投资人之间自由配置资本的机制。
通过Lending Club 的平台,借款人和小微企业可以获得更低的利率,投资人则可以获得较好的收益。
Lending Club 自2007 年5 月24 日正式上线以来共经历了三个阶段:
1)2007 年5月-2008 年4 月的运营初期;
2)2008 年4 月-2008 年10 月的“静默期”;
3)2008年10 月至今的新模式运营期。
盈利模式:Lending Club 的收入来源为交易手续费、服务费和管理费。
提问:本章分析哪些业务指标,这些指标与需要数据集中哪些字段?
运用脑图明确分析方向:
几个用户指标:(贷款金额、信用等级、职业)
1、贷款金额选择区间及人数
2、不同信用等级的贷款人数
3、不同工作年限的平均借款金额
4、不同收入人群的占比以及相同收入人群不同信用等级的占比
字段:
下面开始进入真正的操作:
一、导入EXCEL数据
二、分析问题
1、贷款金额选择区间及人数
SELECT (CASE WHEN (loan_amnt>0 AND loan_amnt<=3000) THEN '0-3000'
WHEN (loan_amnt>3000 AND loan_amnt<=10000) THEN '3000-10000'
WHEN (loan_amnt>10000 AND loan_amnt<=20000) THEN '10000-20000'
WHEN loan_amnt>20000 THEN '20000+'
ELSE NULL END) AS '贷款金额' ,COUNT(loan_amnt) ,
CONCAT(ROUND(COUNT(loan_amnt)*100/(SELECT COUNT(*) from loan),1),'%')
FROM loan
GROUP BY CASE WHEN (loan_amnt>0 AND loan_amnt<=3000) THEN '0-3000'
WHEN (loan_amnt>3000 AND loan_amnt<=10000) THEN '3000-10000'
WHEN (loan_amnt>10000 AND loan_amnt<=20000) THEN '10000-20000'
WHEN loan_amnt>20000 THEN '20000+'
ELSE NULL END
ORDER BY CASE WHEN (loan_amnt>0 AND loan_amnt<=3000) THEN '0-3000'
WHEN (loan_amnt>3000 AND loan_amnt<=10000) THEN '3000-10000'
WHEN (loan_amnt>10000 AND loan_amnt<=20000) THEN '10000-20000'
WHEN loan_amnt>20000 THEN '20000+'
ELSE NULL END ASC;
2、不同信用等级的贷款人数
SELECT grade AS '信用等级',COUNT(grade) AS '数量',
CONCAT(ROUND(COUNT(grade)*100/(SELECT count(grade) FROM loan),1),'%') AS '占比'
FROM loan GROUP BY grade ORDER BY grade ASC;
3、不同工作年限的平均借款金额
SELECT (CASE WHEN emp_length>0 AND emp_length<=1 THEN '0-1年'
WHEN emp_length>1 AND emp_length<=3 THEN '1-3年'
WHEN emp_length>3 AND emp_length<=5 THEN '3-5年'
WHEN emp_length>5 AND emp_length<=10 THEN '5-10年'
ELSE '10年以上' END)AS '工作年限',
AVG(loan_amnt) AS '贷款金额'
from loan
GROUP BY CASE WHEN emp_length>0 AND emp_length<=1 THEN '0-1年'
WHEN emp_length>1 AND emp_length<=3 THEN '1-3年'
WHEN emp_length>3 AND emp_length<=5 THEN '3-5年'
WHEN emp_length>5 AND emp_length<=10 THEN '5-10年'
ELSE '10年以上' END
ORDER BY AVG(loan_amnt);
4、不同收入人群的占比以及相同收入人群不同信用等级的占比
SELECT (CASE WHEN annual_inc BETWEEN 0 AND 40000 THEN '低收入人群'
WHEN annual_inc>40000 AND annual_inc<=100000 THEN '中等收入人群'
ELSE '高收入人群' END)AS '收入类型',
COUNT(annual_inc)AS '数量',
CONCAT(ROUND(COUNT(annual_inc)*100/(SELECT COUNT(annual_inc)FROM loan),0),'%')AS '人群占比' ,
grade
FROM loan
group BY CASE WHEN annual_inc BETWEEN 0 AND 40000 THEN '低收入人群'
WHEN annual_inc>40000 AND annual_inc<=100000 THEN '中等收入人群'
ELSE '高收入人群' END,grade ASC
总结:借贷金额集中在3000-20000,所以这个区间应该是产品大力拓展的方向。接待客户总体资质不错,集中在了A/B/C。随着年龄的增长,人们对贷款金额的需求也不断增大,但需要注意的是工作10年以上的人反而借款需求萎缩,因为他们往往生活已经比较安定,所以我们主要的面向人群是工作0-10年的人。收入4-10W的人群是信用水平最好的,这部分人还款意愿较强。
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐


所有评论(0)