推荐专题：

100字范文 > 自然语言处理（NLP）：02 基于词袋模型（BOW）特征抽取n-gram扩展特征维度数 + 贝

自然语言处理（NLP）：02 基于词袋模型（BOW）特征抽取n-gram扩展特征维度数 + 贝

时间：2021-02-11 06:33:20

相关推荐

自然语言处理（NLP）：02 基于词袋模型（BOW）特征抽取n-gram扩展特征维度数 + 贝

本章节研究内容：基于词袋模型（BOW）特征抽取&n-gram&扩展特征维度数 + 贝叶斯算法文本分类

实践验证：

引入n-gram 和扩展特征后，发现平均正确率有部分的提升。

kfold accuracy = 0.8662404092071612

->

kfold accuracy = 0.8666879795396419

我们可以把特征做得更棒一点，比如说，我们试试加入抽取2-gram和3-gram的统计特征，比如可以把词库的量放大一点。

1-gram: [‘我’, ‘爱’, ‘自然语言’, ‘处理’]

2-gram: [‘我爱’, ‘爱自然语言’, ‘自然语言处理’]

3-gram: []

CountVectorizer ＋ n-gram 使用

from sklearn.feature_extraction.text import CountVectorizertexts=["dog cat fish",<

自然语言处理（NLP）：02 基于词袋模型（BOW）特征抽取n-gram扩展特征维度数 + 贝叶斯算法文本分类

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。

相关阅读

自然语言处理(nlp)之词袋模型及句子相似度

2022-08-07

NLP：自然语言处理技术中常用的文本特征表示方法(整数编码 one-hot编码法 BOW法 TF

2021-05-16

Transformer一统江湖：自然语言处理三大特征抽取器比较

2024-07-09

自然语言处理三大特征抽取器（CNN/RNN/TF）比较

2019-12-26

扩展阅读

: Transformer一统江湖：自然语言处理三大特征抽取器比较

: Transformer一统江湖：自然语言处理三大特征抽取器比较

: Transformer一统江湖：自然语言处理三大特征抽取器比较

: Transformer一统江湖：自然语言处理三大特征抽取器比较

: 放弃幻想全面拥抱Transformer：自然语言处理三大特征抽取器（CNN/RNN/TF）比较

: 放弃幻想全面拥抱Transformer：自然语言处理三大特征抽取器（CNN/RNN/TF）比较

最近发布

杂交水稻的特点100字

2024-08-12

被讨厌的勇气：改变与成长的启示 (读后感)

2024-08-12

爸爸的红笔：一年级学生的思维世界

2024-08-12

有关感叹的作文不少于100字

2024-08-12

探索百分满分的心得：550字优质作文素材汇总

2024-08-12

最新读游子吟有感100字(实用19篇)

2024-08-12

推荐专题

写长颈鹿的作文100字游乐场日记100字小兵张嘎的故事100字圣诞节日记100字写星空的作文100字大学自我小结100字入团申请书100字 1500米加油稿100字蚂蚁观察日记100字老师祝福语100字雷雨故事梗概100字介绍自己的优点100字美文欣赏100字左右小书虫作文100字高中日记大全100字