前言
这个专栏的系列文章,是一个电商分析平台项目实践过程中的记录和总结。
基于 spark2.4.x 和 scala2.11.x
一. 项目概述
访问电商网站时,我们的一些访问行为会产生相应的埋点日志,日志会被发送到后台服务器,大数据部分根据数据分析用户行为,得出一系列统计指标。
本项目采用模拟的离线数据和实时数据。
二. 需求概述
总共有十个需求,分为四个模块来实现
上图为四个模块:用户访问session统计、页面单跳转化率、区域热门商品统计三个模块属于离线分析,广告流量实时统计属于实时分析
用户访问session统计
页面单跳转化率
页面单跳转化率是一个非常有用的统计数据,可以依据来优化页面布局,调整经营布局等来吸引用户最终进入支付页面。
区域热门商品统计
主要实现每天统计出各个区域的top3热门商品,统计热门商品可以为商品区域调整调度做依据,参考京东本地仓和京东物流的快捷广告流量实时统计
网站给第三方做广告,是一比收入来源,费用的统计通过实时流量来计算。
三. 数据结构解析
1.离线数据解析
离线数据主要包含三张表:动作表、用户表、物品表。表中数据字段如上图
2.实时数据解析
数据模拟模块每5秒向Kafka集群写入数据,spark streaming模块订阅消费Kafka中的数据。
实时数据字段如上图