IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Python知识库 -> 10万弹幕大军带你一起看芒果热播综艺《披荆斩棘的哥哥》 -> 正文阅读

[Python知识库]10万弹幕大军带你一起看芒果热播综艺《披荆斩棘的哥哥》

大家好,我是启航。

其实吧,上周四(8月12日)芒果台《披荆斩棘的哥哥》第1期一经播出,就炸裂来袭,情怀牌、不油腻、有质感,让它上线就获得了大量关注!

将古惑仔、摇滚乐手、rapper、舞者、歌手、功夫演员等等放在同一档综艺节目里,又会产生什么样的化学反应呢?

今天,我们就看看第1期里10万弹幕大军们怎么说吧!

目录

  • 1. 数据预览

  • 2. 弹幕整体词云

  • 3. 点赞最多的弹幕

  • 4. 最疯狂的弹幕狂魔

  • 5. 弹幕最热的哥哥们

  • 6. 弹幕如何评价这一次的芒果台?

  • 7. 弹幕数据采集程序

1. 数据预览

本次采集的是芒果TV第1期上中下三集一共97,331条弹幕,具体采集过程见文末代码(比较简单哈)。

import?pandas?as?pd

df?=?pd.read_excel('披荆斩棘的哥哥.xlsx')
#?数据字段信息
df.info()
<class?'pandas.core.frame.DataFrame'>
Int64Index:?97331?entries,?4?to?33794
Data?columns?(total?7?columns):
?#???Column???????Non-Null?Count??Dtype?
---??------???????--------------??-----?
?0???ids??????????97331?non-null??string
?1???uid??????????97331?non-null??Int64?
?2???content??????97331?non-null??string
?3???time?????????97331?non-null??Int64?
?4???v2_up_count??97331?non-null??Int64?
?5???时间???????????97331?non-null??Int64?
?6???上中下??????????97331?non-null??string
dtypes:?Int64(4),?string(3)
memory?usage:?6.3?MB

在数据中,各字段含义如下:

ids:弹幕id

uid:用户id

content:弹幕内容

time:弹幕发送时间(相对于本集开始后的毫秒)

v2_up_count:弹幕点赞数

时间:弹幕发送时间(分钟)

上中下:归属第1期的上中下三部分之一

#?数据预览
df.sort_values(by=['上中下','time'],?inplace=True)?#?按照上中下集和time排序
df.head()

Image

数据预览

(
????df.groupby('上中下').agg(弹幕数=('ids',?'count'),
????????????????????????时长=('时间',?'max')
????????????????????????).reset_index().style
????.bar(subset='弹幕数',?align='zero')
????.bar(subset='时长',?color='orange',?align='zero')
)

Image

基本上第1期的每集弹幕都是拉满状态(1分钟360条)

2. 弹幕整体词云

这里用的是此前的词云制作工具《140行代码自己动手写一个词云制作小工具(文末附工具下载)》进行绘制

Image

弹幕整体词云

从整体词云,我们可以发现观众老爷们基本都是在哈哈哈的笑声啊啊啊的赞叹声中看完的。

不得不说,这个综艺很快乐

Image

某个朋友观后感

我们去掉这些拟声词以及一些溢美之词,再看看,可以发现大湾区(主要是指陈小春、谢天华、林晓峰、张智霖、梁汉文古惑仔组合)、赵文卓李承铉欧阳靖张云龙等嘉宾们最受弹幕用户喜爱!

Image

3. 点赞最多的弹幕

点赞前10的弹幕都集中在第1期的集部分,且绝大部分(前4条都是)集中在赵文卓出场表演的那段,把《流星雨》唱成流星锤,哈哈哈!

(
????df.sort_values(by='v2_up_count',?ascending=False).head(10).style
????.hide_index()
????.hide_columns(['ids','uid','time'])
)

Image

点赞最多的弹幕

Image

赵文卓唱成流星锤

点赞第三的“陈小春:女儿真好”是在介绍赵文卓时的朋友送祝福阶段赵文卓的儿子女儿的祝福时镜头给到的陈小春,然后有网友给出的经典弹幕,很温馨有没有!

终于知道戚薇的快乐了”这条高赞弹幕一定是一个女性网友想出来了,出自39分钟区间李承铉演唱《天上飞》时,帅炸全场!

4. 最疯狂的弹幕狂魔

看到弹幕里有不少二刷、三刷的多刷观众,有多少观众是弹幕狂魔,我们来探一探!

df.groupby('uid')['ids'].count().sort_values(ascending=False).to_frame('弹幕数').reset_index().head()

Image

疯狂的弹幕狂魔

我们可以看到,有网友居然在4个半小时的第1期里一共打出了176条弹幕,平均0.65条弹幕/分钟,毫无疑问的弹幕狂魔!

抽样20条该网友的弹幕内容,我们发现他是真的爱这个节目,而不是只为某个哥哥而来!

(
????df[df['uid']==3752327606].sample(18).style
????.hide_index()
????.hide_columns(subset='ids')
)

Image

为节目而来

5. 弹幕最热的哥哥们

那么第1期三集33位哥哥们共4个半小时的表演,最受弹幕欢迎的是哪几位哥哥呢?

从弹幕整体词云可看到关键词最多的是大湾区(主要是指陈小春、谢天华、林晓峰、张智霖、梁汉文古惑仔组合)、赵文卓李承铉欧阳靖张云龙

大湾区的哥哥们

df[df['content'].astype('str').str.contains('大湾区|小春|春哥|谢天华|林晓峰|张智霖|梁汉文')]

Image

大湾区的哥哥们

赵文卓

df[df['content'].astype('str').str.contains('赵文卓|卓哥|文卓')]

哈哈哈笑死大威天龙

Image

赵文卓

李承铉

那个,戚薇的快乐李承铉,直呼太帅了

df[df['content'].astype('str').str.contains('李承铉|戚薇')]

Image

李承铉

欧阳靖

说唱歌手欧阳靖

df[df['content'].astype('str').str.contains('欧阳靖')]

Image

欧阳靖

张云龙

言承旭张云龙“乘龙快旭”好甜,张云龙第一次看见言承旭,激动地上前直接握住对方的手然后脱口而出:“我以前模仿过你!”

df[df['content'].astype('str').str.contains('张云龙|云龙')]

Image

张云龙

关于更多弹幕数据或哥哥们的弹幕,大家可以后台回复955在芒果TV文件夹获取,然后就自己玩玩呗~!

6. 弹幕如何评价这一次的芒果台?

看到很多弹幕都在这次的芒果台

df[df['content'].astype('str').str.contains('芒果')]

Image

7. 弹幕数据采集程序

贴源码咯

import?requests
import?pandas?as?pd

headers?=?{
????"User-Agent":?"Mozilla/5.0?(Windows?NT?10.0;?Win64;?x64)?AppleWebKit/537.36?(KHTML,?like?Gecko)?Chrome/87.0.4280.66?Safari/537.36",
????}

datas?=?[]
#?每集90多分钟,所以100够了!
for?i?in?range(100):
????print(f'\r{i}',end='')
????#?注意观察每集弹幕接口地址规律
????url?=?f'https://bullet-ali.hitv.com/bullet/2021/08/17/192249/13137070/{i}.json'
????
????r?=?requests.get(url,?headers=headers)
????
????if?r.status_code?==?200:
????????data?=?r.json()????
????????data?=?data['data']['items']
????????datas.extend(data)
????else:
????????break

df?=?pd.DataFrame(datas)

df?=?df[['ids','uid','content','time','v2_up_count']].fillna(0)

df['时间']?=?df.time//60000

以上就是本次全部内容,这个综艺吧还是值的一看的,真的很回忆杀

说实在的,每次在后台看到一些读者的回应都觉得很欣慰,我想把我收藏的一些编程干货贡献给大家,回馈每一个读者,希望能帮到你们。

干货主要有:

① 2000多本Python电子书(主流和经典的书籍应该都有了)

② Python标准库资料(最全中文版)

③ 项目源码(四五十个有趣且经典的练手项目及源码)

④ Python基础入门、爬虫、web开发、大数据分析方面的视频(适合小白学习)

⑤ ? ?Python所有知识点汇总(可以弄清楚Python的所有方向和技术)

如果你用得到的话可以直接拿走,有需要的朋友可以添加我的微信:difan159? ? 获取!

  Python知识库 最新文章
Python中String模块
【Python】 14-CVS文件操作
python的panda库读写文件
使用Nordic的nrf52840实现蓝牙DFU过程
【Python学习记录】numpy数组用法整理
Python学习笔记
python字符串和列表
python如何从txt文件中解析出有效的数据
Python编程从入门到实践自学/3.1-3.2
python变量
上一篇文章      下一篇文章      查看所有文章
加:2021-08-19 12:01:31  更:2021-08-19 12:02:49 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/26 11:31:04-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码
数据统计