用户画像由多个用户标签中的具体标签值构成。
个性化推荐
确定核心群体
指导产品设计
用户数据标签化
用户标签(对某一类特定群体或对象的某项特征进行的抽象分类和概括,其值(标签值)具备可分类型。)
标签不一定是客观的事实
分层标签(与业务相关,要与企业,甲方互动)
分群标签(基本属性),
统计类(一定时间内的汇总或者计算得到)
时点类(直接获取)
利用python做用户画像的基础知识
数据处理(计数得到数据)
Snd#数据框.district##数据框中的一个分类变量.value_counts()#单因子Pd.crosstab##对行列进行频次分析(snd.district,snd.school,).plot(kind=’bar’)#表分析
Snd.price.agg#集合函数([‘mean’平均数,’median’中位数,’sum’求和,’std’标准
差,’skew’偏度])##单变量描述Snd.price.groupby#分组汇总(snd.district).sum()snd.pivot_table(values=’price’,index=’district’,columns=’school’,aggfunc=np.mean)
作图准备
from matplotlib.pylab import mpl
mpl.rcParams['font.sans-serif'] = ['SimHei']
mpl.rcParams['axes.unicode_minus']=False
作图
1 :Snd.district.value_counts().plot(kind=’bar’)##画出条形图(分类变量直接画)2:Pd.crosstab##对行列进行频次分析(snd.district,snd.school,).plot(kind=’bar’) 分类柱形图 stack=ture就是堆叠柱形图(不好用,建议标准化)标准化方法snd.price.hist(bins=20).sns.bosplot#箱线图(x=‘district’#数据框里的数据区district,y=price#数据框里的数据区,data=snd#数据框snd)#画箱线图Snd.plot.scatter#散点图(x=’AREA’,y=’price’)双头图,流量做线,存量做柱子,存在‘率’就率做线,一般做时间序列
× = list(gdp.year)GDP = list(gdp.GDP)
GDPCR = list(gdp.GDPCR)fig = plt.figure()
ax1 = fig.add_subplot(111)ax1.bar(x,GDP)
ax1.set_ylabel('GDP')
ax1.set_title("GDP of China(2000-)")
ax1.set_xlim(2000,)
ax2 = ax1.twinx()
ax2.plot(x,GDPCR,'r')
ax2.set_ylabel( 'Increase Ratio')
ax2.set_xlabel('Year')