100字范文,内容丰富有趣,生活中的好帮手!
100字范文 > 山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第三周

山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第三周

时间:2021-04-11 04:07:56

相关推荐

山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第三周

日总结

通过上周对基础知识的学习已经数据预处理后,本周先就已经处理好的数据进行探索性数据分析,通过直方图对各个数据列进行适当的划分bins数后。观察分析直方图,发现其中大多数都按照预期呈现正态分布,但部分列例如DebtRatio列就出现了数据只占据直方图左边的情况,最先以为是bins数不够所导致的问题,但划分更多bins数后仍然出现这种问题,后对数据库的数据进行排序查看发现该列超过90%的数据都是1左右的小位数,后面出现了几千上万甚至上十万的数据,又因为这些数据量小,所以在直方图上几乎不可见,导致虽然出现了横坐标但看起来像一片空白数据全部靠左一样。所以对这些过大的数据在用直方图查看分析的时候,暂时将它们删除后直方图重新恢复正常预期的正态分布。然后通过heatmap进行对各变量相关性系数的显示。

直方图

df.info()df.hist(bins=80,fiqsize=(12,12))plt.show()

相关性系数(heatmap显示)

​tmp_df = df.drop(df.columns[[0, 1]], axis=1)corr = tmp_df.corr()xticks = list(corr.index)yticks = list(corr.index)f, ax1 = plt.subplots(figsize=(12, 12))sns.heatmap(corr, annot=True, fmt='.2f', cmap='rainbow', ax=ax1)ax1.set_xticklabels(xticks, rotation=90, fontsize=10)ax1.set_yticklabels(yticks, rotation=0, fontsize=10)plt.show()​

山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第三周-7(7月12日)

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。