本章节研究内容: 基于词袋模型(BOW)特征抽取&n-gram&扩展特征维度数 + 贝叶斯算法 文本分类
实践验证:
引入n-gram 和 扩展特征后,发现平均正确率有部分的提升。
kfold accuracy = 0.8662404092071612
->
kfold accuracy = 0.8666879795396419
我们可以把特征做得更棒一点,比如说,我们试试加入抽取2-gram和3-gram的统计特征,比如可以把词库的量放大一点。
1-gram: [‘我’, ‘爱’, ‘自然语言’, ‘处理’]
2-gram: [‘我爱’, ‘爱自然语言’, ‘自然语言处理’]
3-gram: []
CountVectorizer + n-gram 使用
from sklearn.feature_extraction.text import CountVectorizertexts=["dog cat fish",<
自然语言处理(NLP):02 基于词袋模型(BOW)特征抽取n-gram扩展特征维度数 + 贝叶斯算法 文本分类