100字范文,内容丰富有趣,生活中的好帮手!
100字范文 > python提取文本中的字符串到新的txt_Python实现jieba对文本分词并写入新的文本文件

python提取文本中的字符串到新的txt_Python实现jieba对文本分词并写入新的文本文件

时间:2021-02-25 17:55:08

相关推荐

python提取文本中的字符串到新的txt_Python实现jieba对文本分词并写入新的文本文件

版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。

Python实现jieba对文本分词并写入新的文本文件,然后提取出文本中的关键词思想

先对文本进行读写操作,利用jieba分词对待分词的文本进行分词,然后将分开的词之间用空格隔断;然后调用extract_tags()函数提取文本关键词;

代码#!/usr/bin/env python

# -*- coding: utf-8 -*-

# @Time : /5/19 19:10

# @Author : cunyu

# @Site : cunyu1943.github.io

# @File : Seg.py

# @Software: PyCharm

import jieba

import jieba.analyse

# 待分词的文本路径

sourceTxt = './source.txt'

# 分好词后的文本路径

targetTxt = './target.txt'

# 对文本进行操作

with open(sourceTxt, 'r', encoding = 'utf-8') as sourceFile, open(targetTxt, 'a+', encoding = 'utf-8') as targetFile:

for line in sourceFile:

seg = jieba.cut(line.strip(), cut_all = False)

# 分好词之后之间用空格隔断

output = ' '.join(seg)

targetFile.write(output)

targetFile.write('\n')

prinf('写入成功!')

# 提取关键词

with open(targetTxt, 'r', encoding = 'utf-8') as file:

text = file.readlines()

"""

几个参数解释:

* text : 待提取的字符串类型文本

* topK : 返回TF-IDF权重最大的关键词的个数,默认为20个

* withWeight : 是否返回关键词的权重值,默认为False

* allowPOS : 包含指定词性的词,默认为空

"""

keywords = jieba.analyse.extract_tags(str(text), topK = 10, withWeight=True, allowPOS=())

print(keywords)

print('提取完毕!')

python提取文本中的字符串到新的txt_Python实现jieba对文本分词并写入新的文本文件 然后提取出文本中的关键词...

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。