100字范文,内容丰富有趣,生活中的好帮手!
100字范文 > 自然语言处理(NLP):02 基于词袋模型(BOW)特征抽取n-gram扩展特征维度数 + 贝

自然语言处理(NLP):02 基于词袋模型(BOW)特征抽取n-gram扩展特征维度数 + 贝

时间:2021-02-11 06:33:20

相关推荐

自然语言处理(NLP):02 基于词袋模型(BOW)特征抽取n-gram扩展特征维度数 + 贝

本章节研究内容: 基于词袋模型(BOW)特征抽取&n-gram&扩展特征维度数 + 贝叶斯算法 文本分类

实践验证:

引入n-gram 和 扩展特征后,发现平均正确率有部分的提升。

kfold accuracy = 0.8662404092071612

->

kfold accuracy = 0.8666879795396419

我们可以把特征做得更棒一点,比如说,我们试试加入抽取2-gram和3-gram的统计特征,比如可以把词库的量放大一点。

1-gram: [‘我’, ‘爱’, ‘自然语言’, ‘处理’]

2-gram: [‘我爱’, ‘爱自然语言’, ‘自然语言处理’]

3-gram: []

CountVectorizer + n-gram 使用

from sklearn.feature_extraction.text import CountVectorizertexts=["dog cat fish",<

自然语言处理(NLP):02 基于词袋模型(BOW)特征抽取n-gram扩展特征维度数 + 贝叶斯算法 文本分类

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。