100字范文 > 个性化实时音乐推荐系统-毕业设计

个性化实时音乐推荐系统-毕业设计

时间：2020-05-04 00:26:05

相关推荐

个性化实时音乐推荐系统-毕业设计

前言

📅大四是整个大学期间最忙碌的时光,一边要忙着准备考研,考公,考教资或者实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校要求的毕设项目越来越难,有不少课题是研究生级别难度的,对本科同学来说是充满挑战。为帮助大家顺利通过和节省时间与精力投入到更重要的就业和考试中去,学长分享优质的选题经验和毕设项目与技术思路。

🚀对毕设有任何疑问都可以问学长哦!

本次分享的课题是

🎯个性化实时音乐推荐系统

课题背景与意义

用过虾米、酷狗、QQ音乐、网易云音乐，个人感受网易云音乐在音乐推荐这块做的真心不错，特别是以“人”为角度的推荐，没有像虾米、酷狗推的那么乱。虾米还可以，但更多的是以歌搜歌的形式。刚注册了一个新的账号，避免有历史数据的干扰，听了一首周杰伦的《一路向北》和陈奕迅的《淘汰》，然后去个性化推荐里看到了蔡健雅的《红色高跟鞋》和曲婉婷的《承认》，给我的感觉还是比较惊喜，像蔡健雅一般听的人比较少，还能推荐到体验不错。当然也有很多不一定特别准，当然听歌这东西就不需要完全准确。音乐推荐算法，就是针对音乐自身的内容特征以及用户的听歌行为，为广大用户提供可能符合他们兴趣爱好的歌曲的算法。而基于大数据的个性化音乐推荐算法，能够通过历史数据，别的用户的历史数据分析出潜在的喜好相似性，为用户更准确地挖掘出潜在的喜欢的音乐。

课题实现技术思路

数据集以及数据预处理

数据集介绍

数据挖掘是在大量的、潜在有用的数据中挖掘出有用模式的过程。因此，原数据的质量直接影响到挖掘的效果，高质量的数据是进行有效挖掘的前提。

本文采用kaggle平台上kkbox举办的—KKBox's Music Recommendation Challenge比赛的公开数据集，KKbox是亚洲领先的音乐流媒体服务商，拥有全球最全面的亚洲流行音乐库，音乐曲目超过3000万首。官方声明比赛数据都来自都来自网页快照的抽样，除了对用户id进行了加密处理，其余数据都是原始数据[4]。

数据集共分为三个维度：用户维度，音乐维度，操作维度。

用户维度信息包括用户ID、居住城市、年龄、性别、注册方式、注册时间；音乐维度信息包括歌曲ID，歌曲长度，流派信息，艺人名字，作曲者，作词者，歌唱语言，歌名，ISRC码；操作维度包括用户ID，歌曲ID，首次操作功能区，首次操作界面名，首次播放类型，首次收听一个月内是否重复完整收听。

数据筛选

在推荐系统中应该建立如下观点：操作次数特别少的用户和操作次数特别少的物品虽然占了绝大多数，但是这部分行为不具备统计规律，不能真实反映用户的喜好，选择这些数据进行训练，不能得到正确的结果。

本文根据实验分析得出，对于本文的数据集应该选择{播放次数大于10次的音乐的操作记录}∩{播放次数大于35次的用户操作记录}进行训练。

数据预处理

用户信息表有21965名用户的城市、性别、年龄、注册方式以及注册时间等信息。经查看，性别缺失率高达47.45%，并且注册时用户填写性别也不一定真实，所以删除该特征。并且通过对年龄信息的查看，年龄0岁的10377人，缺失值也达到了50%，剩余年龄分布集中在22-30岁之间，区分度也不是很大。所以暂时也删除。注册时间的格式为%Y%M%D，全部转化为注册天数的连续变量。并且统计每个特征单个元素的播放次数和重复率，添加到用户信息表中。

音乐信息表中经筛选后的音乐只有一首歌缺失语言信息，经查验，该歌曲为JONGHYUN组合演唱的《White T-Shirt》，为韩文歌，我们进行人工填充，韩语对应的语言类别31；缺失了485首歌曲的genre_ids，缺失率为1.6%，最频繁项为465，出现频次为16735，占据50%的歌曲；因此对于缺失的少数genre_ids，用最频繁项填充。并且80%以上的歌曲只有一个genre类别，除了1首歌，其余歌曲最多两个类别，所以在本文保留两个genre_ids，对于艺人名，作词者作曲者都不做缺失值填充,只进行LabelEncoder标签化处理。统计每个特征单个元素的播放次数和重复率，以及对应歌曲数，添加到音乐信息表单中作为新的数值特征。

用户对音乐的操作信息只出现在了用户操作表中，一共有三个特征，用户操作来源，用户操作界面布局，用户第一次听这首歌的来源，本文把把这三个特征归为操作维度一类。经统计首次操作功能区（9种元素），首次操作界面名（20种元素），首次播放类型（13种元素）组成的子类别在所统计的操作共有479种组合，是9*20*13=2340的1/5左右。分别统计这479中组合的重复收听率，认为操作次数大于20的为有效统计子类别,子类别和target相关系数高，所以对操作维度分析采用子类别进行分析。