当前位置: 首页 > news >正文

公众号开发网站建设合同/网站优化推广服务

公众号开发网站建设合同,网站优化推广服务,做论坛网站需要多大空间,免费微信微网站模板下载Python基于词频排序快速挖掘需求大类 作者:虚坏叔叔 博客:https://xuhss.com 早餐店不会开到晚上,想吃的人早就来了!😄 一、所有的代码 这是所有的代码 from collections import defaultdict import jieba.posseg a…

Python基于词频排序快速挖掘需求大类

作者:虚坏叔叔
博客:https://xuhss.com

早餐店不会开到晚上,想吃的人早就来了!😄

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yOHxu25v-1677813328261)(2007.assets/1.png)]

一、所有的代码

这是所有的代码

from collections import defaultdict
import jieba.posseg as jpwith open('keyword.txt','r',encoding='utf-8') as file:keyword_list = file.read().split('\n')not_flag = set(['w','x','y','z','un','m'])
not_word = set(['的','是','有','啊','呢','么','好'])keyword_split = dict()
word_count = defaultdict(int)
for keyword in keyword_list:word_set = set()for word,flag in jp.cut(keyword):if flag in not_flag:continueif word in not_word:continueif word == 'pdf' or word == 'PDF':continueword_count[word] += 1word_set.add(word)keyword_split[keyword] = word_setid_keyword_list = defaultdict(list)
id_count = defaultdict(int)
for keyword,word_set in keyword_split.items():word_sort = dict()for word in word_set:word_sort[word] = word_count[word]word_sort = sorted(word_sort.items(),key=lambda x:x[1],reverse=True)word_id = ','.join([word for word,count in word_sort[0:3]])id_keyword_list[word_id] += [keyword]id_count[word_id] += 1result = []
id_count = sorted(id_count.items(),key=lambda x:x[1],reverse=True)
for word_id,count in id_count:if count < 3:continuefor keyword in id_keyword_list[word_id]:result.append('%s\t%s' % (keyword,word_id))result.append('')with open('result.txt','wb') as file:file.write('\n'.join(result).encode('utf-8'))

二、实现的效果

keyword.txt如下图:

有50万的关于pdf的关键词数据

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AKB02rAM-1677813328262)(2007.assets/image-20230303104426170.png)]

最后的输出result.txt 就是将里面的含有关键词相同的句子统一输出出来:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-X7Ir6o4b-1677813328262)(2007.assets/image-20230303104618885.png)]

这里会将一个句子的3个关键词输出出来 关键词是根据词频排序的。

最后将所有关键词一样的句子组合在一起,就可以知道这些句子表达的意思大致一致

三、代码解读

keyword_list 是从keyword.txt读取到的所有的句子

not_flag 是要排除的标记,不统计这些标记

not_word 是要排除的单词,不统计这些单词

keyword_split 是句子对应到他的所有单词的字典,key是句子,value是他的所有单词的集合

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-I4YUd95w-1677813328263)(2007.assets/image-20230303110731460.png)]

word_count 是所有的拆分后的单词的次数的字典,key是单词,value是单词出现的次数

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PyubuemM-1677813328263)(2007.assets/image-20230303110716066.png)]

id_keyword_list 是一个字典,它的key是一个字符串 value是列表

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iVKE3Mip-1677813328263)(2007.assets/image-20230303111114690.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6IvIdGpN-1677813328264)(2007.assets/image-20230303111153304.png)]

id_count 是一个字典,它的key是一个字符串,value是int

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SpjPT46B-1677813328264)(2007.assets/image-20230303111135264.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wmi3xeVR-1677813328264)(2007.assets/image-20230303110951802.png)]

最后对id_count处理 将结果输出出来

id_count = sorted(id_count.items(), key=lambda x: x[1], reverse=True)
for word_id, count in id_count:if count < 3:continuefor keyword in id_keyword_list[word_id]:result.append('%s\t%s' % (keyword, word_id))result.append('')

四、代码和配套文件下载地址

https://download.csdn.net/download/huangbangqing12/87526844

总结

  • 本文主要介绍jieba的基础用法。
  • 如果觉得文章对你有用处,记得 点赞 收藏 转发 一波哦,博主也支持为铁粉丝制作专属动态壁纸哦~

💬 往期优质文章分享

  • C++ QT结合FFmpeg实战开发视频播放器-01环境的安装和项目部署
  • 解决QT问题:运行qmake:Project ERROR: Cannot run compiler ‘cl‘. Output:
  • 解决安装QT后MSVC2015 64bit配置无编译器和调试器问题
  • Qt中的套件提示no complier set in kit和no debugger,出现黄色感叹号问题解决(MSVC2017)
  • Python+selenium 自动化 - 实现自动导入、上传外部文件(不弹出windows窗口)

🚀 优质教程分享 🚀

  • 🎄如果感觉文章看完了不过瘾,可以来我的其他 专栏 看一下哦~
  • 🎄比如以下几个专栏:Python实战微信订餐小程序、Python量化交易实战、C++ QT实战类项目 和 算法学习专栏
  • 🎄可以学习更多的关于C++/Python的相关内容哦!直接点击下面颜色字体就可以跳转啦!
学习路线指引(点击解锁)知识定位人群定位
🧡 Python实战微信订餐小程序 🧡进阶级本课程是python flask+微信小程序的完美结合,从项目搭建到腾讯云部署上线,打造一个全栈订餐系统。
💛Python量化交易实战 💛入门级手把手带你打造一个易扩展、更安全、效率更高的量化交易系统
❤️ C++ QT结合FFmpeg实战开发视频播放器❤️难度偏高分享学习QT成品的视频播放器源码,需要有扎实的C++知识!
💚 游戏爱好者九万人社区💚互助/吹水九万人游戏爱好者社区,聊天互助,白嫖奖品
💙 Python零基础到入门 💙Python初学者针对没有经过系统学习的小伙伴,核心目的就是让我们能够快速学习Python的知识以达到入门

🚀 资料白嫖,温馨提示 🚀

关注下面卡片即刻获取更多编程知识,包括各种语言学习资料,上千套PPT模板和各种游戏源码素材等等资料。更多内容可自行查看哦!

请添加图片描述

http://www.jmfq.cn/news/5189581.html

相关文章:

  • 网站建设 图纸网/凡科建站登录
  • 技术培训网站/网站优化公司大家好
  • 江西住房和城乡建设信息网站/百度商业平台
  • 怎样做ppt下载网站/桂平seo快速优化软件
  • 做网站 工商 非法经营/沈阳疫情最新消息
  • 安陆市网站/竞价推广托管服务
  • 响应式网站开发原理/微信公众号营销
  • 免费网站建设 百度一下/百度官网电话
  • 网站建设j介绍ppt/智能建站
  • 有经验的做网站/企业获客方式
  • 环保网站建设公司/百度seo点击工具
  • 网站设计制作服务好态度好/seo网站关键词优化软件
  • 帮做ppt网站/百度开户渠道商哪里找
  • 开发app需要哪些审批/关键词搜索引擎优化推广
  • 做谷歌网站吗/宁波seo关键词优化
  • 哈尔滨做网站巨耀公司/推广普通话宣传语
  • c语言网站建设/app拉新佣金排行榜
  • 学校为什么要建设网站/网站建设规划要点详解
  • 河北省网站建设/怎么找网站
  • 怎么获取网站数据做统计数据/市场营销策划方案书
  • 删除hao123主页/seo网站诊断顾问
  • 免费网站建设总部/百度云客服人工电话
  • 企业网站色彩搭配/优化网站内容
  • 做网站哪个部分/网络seo关键词优化技术
  • 添加qq好友的超链接做网站/seo是做什么的
  • 今天刚刚发布的新闻/seo实战
  • 做爰小视频网站/域名查询 站长查询
  • 网站开发 入门 pdf/网络开发
  • 做网站充值犯法吗/seo外链怎么做
  • 合肥专门做网站/关键词在线试听