IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Python知识库 -> python实验:去除注水书评 -> 正文阅读

[Python知识库]python实验:去除注水书评


实验题目

## 实验题1

以下是一系列书评,但是很多是灌水的,请你写一段代码,把灌水的书评尽可能去掉。

灌水书评一般会有一个特点:重复的字比较多,利用这个特点,把灌水书评去掉

‘这是一本非常好的书,作者用心了’,
‘作者大大辛苦了’,
‘好书,感谢作者提供了这么多的好案例’,
‘书在运输的路上破损了,我好悲伤。。。’,
‘为啥我买的书上有菜汤。。。。’,
‘啊啊啊啊啊啊,我怎么才发现这么好的书啊,相见恨晚’,
‘书的质量有问题啊,怎么会开胶呢??????’,
‘好好好好好好好好好好好’,
‘好难啊看不懂好难啊看不懂好难啊看不懂’,
‘书的内容很充实’,
‘你的书上好多代码啊,不过想想也是,编程的书嘛,肯定代码多一些’,
‘书很不错!!一级棒!!买书就上当当,正版,价格又实惠,让人放心!!!’,
‘无意中来到你小铺就淘到心意的宝贝,心情不错!’,
‘送给朋友的、很不错’,
‘这是一本好书,讲解内容深入浅出又清晰明了,推荐给所有喜欢阅读的朋友同好们。’,
‘好好好,下一个看看’,
‘渣渣渣渣渣渣渣渣’,
没用没用没用没用’,
‘很好的书,五颗星’

一、思路

注水书评的特点就是重复字或者说重复词较多,这里我们不妨使用第三方库jieba库来对要筛选的评论进行分词处理,然后对分词的单位词语长度乘以单位词语出现的次数,如果相乘的结果大于该句评论字数的一半,我们则认为其是注水书评。

二、步骤

1.思路

评论读出(txt文件读取)->对评论进行按条放置(列表放置)->对每条评论用jieba库进行分词->单位词长度*单位词出现次数进行判断->移除注水评论

2.编码

代码如下(示例):

import jieba

file= open("shuping.txt", "r", encoding='utf-8').read()
file=file.replace(',', '').replace('.', '').replace('\'', '')
linesList=file.split('\n')  # 将读出的每行评论作为不同的元素放到list当中去
removelines=[]
for line in linesList:
    words=jieba.cut(line,cut_all=True) #使用精准模式进行分词
    counts={}
    for word in words:
        counts[word] = counts.get(word, 0) + 1  # 遍历所有词语,每出现一次其对应的值加 1
    wordslist = list(counts.items())
    for item in wordslist:
        if (len(item[0])*item[1]>=len(line)*0.5):
            print("该被移除-->"+str(linesList.index(line)))
            if line in linesList:
                removelines.append(line)
                break

for line in removelines:
    linesList.remove(line)
print(linesList)


总结

代码耦合度较高,且该种方法只能删除注水书评中重复字数较多的情况,有待进一步提高,欢迎有更好想法的朋友留言我改进。

  Python知识库 最新文章
Python中String模块
【Python】 14-CVS文件操作
python的panda库读写文件
使用Nordic的nrf52840实现蓝牙DFU过程
【Python学习记录】numpy数组用法整理
Python学习笔记
python字符串和列表
python如何从txt文件中解析出有效的数据
Python编程从入门到实践自学/3.1-3.2
python变量
上一篇文章      下一篇文章      查看所有文章
加:2021-10-03 17:02:17  更:2021-10-03 17:04:23 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/15 18:56:48-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码