100字范文 > 《绝地求生》玩家排名预测

《绝地求生》玩家排名预测

时间：2019-07-11 08:24:36

相关推荐

《绝地求生》玩家排名预测

1.项目背景

2.数据集介绍

3. 项目评估方式

3.1 评估方式

3.2 MAE(Mean Absolute Error)介绍

4.代码实现

4.1获取数据、基本数据信息查看

4.2数据基本处理

4.2.1 数据缺失值处理

4.2.2 特征数据规范化处理

4.2.3 部分变量合成

4.2.4 异常值处理

4.2.5 类别型数据处理

4.2.6 数据截取

4.2.7 确定特征值和目标值

4.2.8 分割训练集和测试集

4.3 机器学习（模型训练）和评估

4.3.1 使用随机森林对模型进行训练

4.3.2 使用lightGBM对模型进行训练

1.项目背景

绝地求生(Player unknown’s Battlegrounds)，俗称吃鸡，是一款战术竞技型射击类沙盒游戏。

这款游戏是一款大逃杀类型的游戏，每一局游戏将有最多100名玩家参与，他们将被投放在绝地岛(battlegrounds)上，在游戏的开始时所有人都一无所有。玩家需要在岛上收集各种资源，在不断缩小的安全区域内对抗其他玩家，让自己生存到最后。

该游戏拥有很高的自由度，玩家可以体验飞机跳伞、开越野车、丛林射击、抢夺战利品等玩法，小心四周埋伏的敌人，尽可能成为最后1个存活的人。

该游戏中，玩家需要在游戏地图上收集各种资源，并在不断缩小的安全区域内对抗其他玩家，让自己生存到最后。

2.数据集介绍

train_V2.csv - 训练集
test_V2.csv - 测试集

数据集局部图如下图所示:

数据集中字段解释：

3. 项目评估方式

3.1 评估方式

你必须创建一个模型，根据他们的最终统计数据预测玩家的排名，从1（第一名）到0（最后一名）。

最后结果通过平均绝对误差（MAE）进行评估，即通过预测的winPlacePerc和真实的winPlacePerc之间的平均绝对误差

3.2 MAE(Mean Absolute Error)介绍

4.代码实现

在接下来的分析中，我们将分析数据集，检测异常值。

然后我们通过随机森林模型对其训练，并对对该模型进行了优化。

# 导入数据基本处理阶段需要用到的apiimport pandas as pdimport matplotlib.pyplot as pltimport numpy as npimport seaborn as sns

4.1获取数据、基本数据信息查看

导入数据，且查看数据的基本信息

可以看到数据一共有4446966条，

4.2数据基本处理

4.2.1 数据缺失值处理

查看目标值，我们发现有一条样本，比较特殊，其“winplaceperc”的值为NaN，也就是目标值是缺失值，

因为只有一个玩家是这样，直接进行删除处理。

4.2.2 特征数据规范化处理

4.2.2.1 查看每场比赛参加的人数

处理完缺失值之后，我们看一下每场参加的人数会有多少呢，是每次都会匹配100个人，才开始游戏吗？

通过观察，发现一局游戏少于75个玩家，就开始的还是比较少

同时大部分游戏都是在接近100人的时候才开始

限制每局开始人数大于等于75，再进行绘制。

猜想：把这些数据在后期加入数据处理，应该会得到的结果更加准确一些

4.2.2.2 规范化输出部分数据

现在我们统计了“每局玩家数量”，那么我们就可以通过“每局玩家数量”来进一步考证其它特征，同时对其规范化设置
试想：一局只有70个玩家的杀敌数，和一局有100个玩家的杀敌数，应该是不可以同时比较的
可以考虑的特征值包括:
1.kills（杀敌数）
2.damageDealt（总伤害）
3.maxPlace（本局最差名次）
4.matchDuration（比赛时长）