4月份项目实战的总结,前后进行了约20多天。
花了大量时间在清洗数据,虽然耗时但是觉得过程中很享受,喜欢“静静地泡在里面”的感觉。
另外,了解了涉及到的广告投放、业务指标体系、手机设备版本及API等相关知识,有趣!
感受:分析问题的思路 比 代码的实现更为重要
项目背景:科大讯飞AI营销算法大赛,点击去官网
数据集:选用训练集数据round1_iflyad_train.txt ,每一行数据为一个样本,分为5类数据,包含基础广告投放数据、广告素材信息、媒体信息、用户信息和上下文信息,共1001650条数据。数据经过脱敏处理。
语言:Python+panda、numpy、re、seaborn、matplotlib等第三方类库
完成:
无效数据的删选和过滤,比如NaN,unkown等缺失值缺失值的填补:比如设备品牌make大量缺失值,可以用型号model中含有的品牌信息进行补充,效果非常明显使用正则表达式re库匹配数据,比如各类设备品牌的清洗,比如将iphone,ipad,apple,ios等统一为apple;对操作系统版本型号的提取使用pandas,numpy完成数据的去重、排序、统计计算等,对能进行groupby分组操作的特征进行了汇总统计特征提取:如对城市省份代码进行切割提取特征值,对时间维度进行weekday,hour,segment时段的不同角度的分析,在一定程度上增加信息量数据可视化:使用matplotlib、seaborn库完成图形可视化完成数据分析报告
说明:
具体维度的代码实现中,学习到了很多小技能,后续将整理代码陆续上传为了ppt呈现的效果,没有采用pyhton生成的图形,后续做了一版excel版本的图表放入ppt数据经过脱敏处理,数据报告中出现不少数字代码,比如“71”省份,请直接理解为某省份。也正是因为数据脱敏,所以分析更偏向数据,无法对应到业务进行阐述后续代码整理过程中,会进一步完善目前的分析结果
数分报告概图: