百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程文章 > 正文

使用 ChatGPT 做词频统计&词云图

qiyuwang 2024-10-10 11:29 7 浏览 0 评论

任务描述

请用Python撰写一个中文文本分析的代码,进行词频统计、绘制词云图。<br>
分析的数据是csv文件,过程使用pandas、pyecharts、jieba等库。<br>
代码生成后,按照数据导入、数据清洗、数据分析、结果展示四个章节部分对代码进行中文讲解,格式为markdown。

说明

- 以下内容,80%左右内容为chatGPT生成,大邓工作主要是准备实验数据,调试代码,编辑章节。
- 实验环境chatGPT PLUS,今天刚刚花了20美元,使用全局网络模式下,chatGPT响应更稳定快速。
- chatGPT PLUS虽然很强,结果依然有问题,最初生成的词云图是基于wordcloud库,
该库不支持中文,绘制的图片是乱码的。这里指导ta改为pyecharts制作词云图。

教程(国内信用卡不支持,绑定需要国外的信用卡), 可以私信大邓 372335839, 备注【姓名-学校-专业


一、数据导入

首先需要导入需要的库:pandas、jieba、pyecharts等。如果电脑没有相应的库,可以命令行中执行以下安装命令

pip3 install pyecharts
pip3 install jieba

读取csv文件,使用pandas库的read_csv函数:

import pandas as pd
import jieba
import matplotlib.pyplot as plt
from pyecharts import options as opts
from pyecharts.charts import Bar, WordCloud


df = pd.read_csv('data.csv', encoding='utf-8')
df.head()

Run


二、数据清洗

清洗数据是文本分析的第一步,这里需要对数据进行去重、去除空值、去除停用词等操作。

# 去重
df = df.drop_duplicates()

# 去除空值
df = df.dropna()

# 加载停用词表
stopwords = []
with open('stopwords.txt', 'r', encoding='utf-8') as f:
for line in f:
stopwords.append(line.strip())

# 分词,并去除停用词
text = ''
for content in df['desc']:
seg_list = jieba.cut(content)
for word in seg_list:
if word not in stopwords:
text += word + ' '

#查看text部分内容
text[:200]
Building prefix dict from the default dictionary ...
Dumping model to file cache /var/folders/y0/4gqxky0s2t94x1c1qhlwr6100000gn/T/jieba.cache
Loading model cost 0.460 seconds.
Prefix dict has been built successfully.

Run

'唐天宝 十四年 长安城 小吏 李善德 突然 接到 一个 任务 贵妃 诞日 之前 岭南 运来 新鲜 荔枝 荔枝 “ 一日 色变 两日 香变 三日 味变 ” 岭南 长安 五千余里 山水 迢 ... ◆ 编辑 推荐 ★ 〇 一年 国际 布克奖 美国 国家图书奖 短 名单 作品 ★ 入选 〇 二一 年度 纽约时报 书评 周刊 十大 好书 ★ 入选 奥巴马 〇 一年 夏季 阅读 书单 ★ .'

三、数据分析

使用jieba库对文本进行分词处理,然后统计每个词语的出现频率。这里使用Python的字典数据结构进行计数。

# 分词
seg_list = jieba.cut(text)

# 统计词频
word_count = {}
for word in seg_list:
if len(word) >= 2: # 只统计长度大于等于2的词语
if word not in word_count:
word_count[word] = 1
else:
word_count[word] += 1

word_count

Run

{'唐天宝': 4,
'十四年': 2,
'长安城': 4,
'小吏': 2,
'李善德': 2,
'突然': 5,
'接到': 2,
......
'文笔': 1,
'行云流水': 1,
'医学': 1,
'研究生': 1,
'大为': 1,
'空怀': 1,
'壮志': 1,
'无职无权': 1,
'时来运转': 1,
'有名': 2,
'有利': 1,
'真切': 1,
'旅程': 1,
'困扰': 1,
'傅真': 1,
'暌违': 1,
'七年': 1,
...}

四、结果展现

接下来,根据统计结果绘制词云图和柱状图。

4.1 词云图

绘制词云图,使用pyecharts的WordCloud库:

import pyecharts.options as opts
from pyecharts.charts import WordCloud


wordfreqs = [(w, str(f)) for w,f in word_count.items()]


(
WordCloud()
.add(series_name="", data_pair=wordfreqs, word_size_range=[20, 100])
.set_global_opts(
title_opts=opts.TitleOpts(title="词频分析", title_textstyle_opts=opts.TextStyleOpts(font_size=23)
),
tooltip_opts=opts.TooltipOpts(is_show=True),
)
.render("词云图.html") #存储位置
)
'/Users/deng/Desktop/2023-02-11-chatgpt-plus-for-text-mining/词云图.html'

4.2 柱状图

绘制柱状图


#
top_n = 20
word_count_sorted = sorted(word_count.items(), key=lambda x: x[1], reverse=True)
word_top_n = word_count_sorted[:top_n]

bar = Bar()
bar.add_xaxis([w[0] for w in word_top_n])
bar.add_yaxis("词频", [w[1] for w in word_top_n])
bar.set_global_opts(title_opts=opts.TitleOpts(title="词频统计"), xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-15)))
bar.render("word_count.html")

'/Users/deng/Desktop/2023-02-11-chatgpt-plus-for-text-mining/word_count.html'


转载来源:大邓和他的Python

相关推荐

# 安装打开 ubuntu-22.04.3-LTS 报错 解决方案

#安装打开ubuntu-22.04.3-LTS报错解决方案WslRegisterDistributionfailedwitherror:0x800701bcError:0x80070...

利用阿里云镜像在ubuntu上安装Docker

简介:...

如何将Ubuntu Kylin(优麒麟)19.10系统升级到20.04版本

UbuntuKylin系统使用一段时间后,有新的版本发布,如何将现有的UbuntuKylin系统升级到最新版本?可以通过下面的方法进行升级。1.先查看相关的UbuntuKylin系统版本情况。使...

Ubuntu 16.10内部代号确认为Yakkety Yak

在正式宣布Ubuntu16.04LTS(XenialXerus)的当天,Canonical创始人MarkShuttleworth还非常开心的在个人微博上宣布Ubuntu下个版本16.10的内...

如何在win11的wsl上装ubuntu(怎么在windows上安装ubuntu)

在Windows11的WSL(WindowsSubsystemforLinux)上安装Ubuntu非常简单。以下是详细的步骤:---...

Win11学院:如何在Windows 11上使用WSL安装Ubuntu

IT之家2月18日消息,科技媒体pureinfotech昨日(2月17日)发布博文,介绍了3中简便的方法,让你轻松在Windows11系统中,使用WindowsSubs...

如何查看Linux的IP地址(如何查看Linux的ip地址)

本头条号每天坚持更新原创干货技术文章,欢迎关注本头条号"Linux学习教程",公众号名称“Linux入门学习教程"。...

怎么看电脑系统?(怎么看电脑系统配置)

要查看电脑的操作系统信息,可以按照以下步骤操作,根据不同的操作系统选择对应的方法:一、Windows系统通过系统属性查看右键点击桌面上的“此电脑”(或“我的电脑”)图标,选择“属性”。在打开的...

如何查询 Linux 内核版本?这些命令一定要会!

Linux内核是操作系统的核心,负责管理硬件资源、调度进程、处理系统调用等关键任务。不同的内核版本可能支持不同的硬件特性、提供新的功能,或者修复了已知的安全漏洞。以下是查询内核版本的几个常见场景:...

深度剖析:Linux下查看系统版本与CPU架构

在Linux系统管理、维护以及软件部署的过程中,精准掌握系统版本和CPU架构是极为关键的基础操作。这些信息不仅有助于我们深入了解系统特性、判断软件兼容性,还能为后续的软件安装、性能优化提供重要依据。接...

504 错误代码解析与应对策略(504错误咋解决)

在互联网的使用过程中,用户偶尔会遭遇各种错误提示,其中504错误代码是较为常见的一种。504错误并非意味着网站被屏蔽,它实际上是指服务器在规定时间内未能从上游服务器获取响应,专业术语称为“Ga...

猎聘APP和官网崩了?回应:正对部分职位整改,临时域名可登录

10月12日,有网友反映猎聘网无法打开,猎聘APP无法登录。截至10月14日,仍有网友不断向猎聘官方微博下反映该情况,而猎聘官方微博未发布相关情况说明,只是在微博内对反映该情况的用户进行回复,“抱歉,...

域名解析的原理是什么?域名解析的流程是怎样的?

域名解析是网站正常运行的关键因素,因此网站管理者了解域名解析的原理和流程对于做好域名管理、解决常见解析问题,保障网站的正常运转十分必要。那么域名解析的原理是什么?域名解析的流程是怎样的?接下来,中科三...

Linux无法解析域名的解决办法(linux 不能解析域名)

如果由于误操作,删除了系统原有的dhcp相关设置就无法正常解析域名。  此时,需要手动修改配置文件:  /etc/resolv.conf  将域名解析服务器手动添加到配置文件中  该文件是DNS域名解...

域名劫持是什么?(域名劫持是什么)

域名劫持是互联网攻击的一种方式,通过攻击域名解析服务器(DNS),或伪造域名解析服务器(DNS)的方法,把目标网站域名解析到错误的地址从而实现用户无法访问目标网站的目的。说的直白些,域名劫持,就是把互...

取消回复欢迎 发表评论: