IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> 淘宝用户行为分析 -> 正文阅读

[大数据]淘宝用户行为分析

?一背景介绍及数据来源

在互联网的时代下,电商平台提供给网民很多便利,如:提升了购物选择性、更直观的展示出各类商品的优惠折扣以及降低了购买成本等等。网购已经逐渐渗透进我们的生活。淘宝是电商圈里龙头企业,创造过无数奇迹,如“双十一”购物热潮及单日交易额百亿元等历史性的突破。淘宝平台不停的更新迭代,提供了更多的个性化服务。淘宝在2003年创立的,2012年注册会员近5亿,日活跃用户超1.2亿。接下来会通过淘宝2017年11月25日至2017年12月3日的随机用户行为的数据对淘宝进行用户行为分析,找出问题并提出优化方案。 分析工具:Mysql,Excel,Navicat,PowerBI

数据来源:数据集-阿里云天池 (aliyun.com)

二理解数据

原始数据一共有5个字段

1user_id,用户id,是用来识别用户的编号,不同的编号代表不同的用户。

2item_id 商品id,用来识别商品的编号,不同的编号代表不同的商品。

3category_id 商品类别id,用来识别商品类别的编号,不同的编号代表商品属于不同的类别。

4behavior_id 行为id,用来识别用户的不同行为。

pv-页面游览,就是代表用户点击商品页面,进入游览。

cart-商品加购,就是代表用户将商品加入购物车。

fav-商品收藏,就是代表用户将商品放入收藏。

buy-商品购买,就是代表用户购买商品。

5timestamp-时间戳,代表从1970年1月1号0点0分到发生用户行为的总秒数。

三明确问题及构建大体思路

1是否存在某个业务流程转化率偏低?如果存在的话原因是什么?

2是否存在某类商品数据不佳?如果存在的话原因是什么?

3是否存在某个时间段数据不佳?如果存在的话原因是什么?

四数据清洗

1)查找重复值并删除

未发现重复值

2)查找缺失值

未找到缺失值

3)数据格式处理

日期原本为时间戳的形式,不利于后面的数据处理,所以使用FROM_UNIXTIME函数将其转化为常用形式。

先用DDL添加一列,数据类型datetime。

然后插入数据

4)异常值删除

因为是分析2017年11月25日至2017年12月3日的数据,所以删除其他日期的数据。

删除44个异常值

五建立数据模型及其度量值计算列

1)导入数据

2)建立维度表

?建立用户维度表

在Excel中建立日期表

3)构建模型关系

4)建立基度量值

建立APIL各阶段度量值

先从次数角度

??

?

复购次数=购买次数-购买人数 ,因为需要购买人数,先去建立人数角度的转化度量值,再来建立复购次数的度量值。

?

?

六数据可视化及其数据分析

1)AIPL模型的转化率

得到次数角度和人数角度的各阶段的转化率,发现从次数角度来说游览到兴趣的转化率比较低在9%,但是从人数角度来说转化率并不是很低,寻找原因。

?构建分析思路

?使用PowerBI进行分析

?发现确实存在部分商品兴趣转化率很低,总体平均值在9.13%,假设成立。

建立日期维度的可视化图表

?日期角度上看转化率比较平稳,假设不成立。

建立时间维度可视化报表

?存在一个低点4点,其他时间段的转化率比较平稳。

但是进一步分析发现由于4点用户基本还在睡觉,整个游览量比较低,虽然游览量低但是对于整体影响较小,结论不成立。?

?2)各商品类别的数据情况

?将数据导出到Excel进行一个相关性分析

?发现对于类别而言,游览和兴趣相关性比较强,说明广告的推送机制比较优秀,会给人群推送适合的商品。兴趣和购买的相关性和购买和复购的相关性偏低,说明在用户产生兴趣后可以使用一些营销手段提高整个购买率,同时整个售后服务可以进一步改进。

对于游览进行描述性统计分析

发现平均值是29,中位数是4,众数是1,标准差167,说明整个数据波动性很大,同时大量类别的商品游览量极低,需要重点关注。

3)各时间段的销量情况

?发现销量有上升趋势。

?在时间方面,晚上23点到早上8点销量比较低,高点在中文1点,晚上7点和8点。再看一下哪类商品的销量在这3个时间段的销量最好。

发现这几类商品销量比较好,可以在黄金时间段重点投放广告。

七总结

1游览次数到收藏加购次数的转化率比较低,原因在于用户只对一部分商品感兴趣,对于很多商品没有兴趣。

2从商品类别来看游览和收藏加购的相关性比较高,收藏加购和购买以及购买和复购的相关性较低,说明整个商品推送机制比较良好,整个成单和售后有进步空间。同时存在大量的商品类别没有被游览。

3从时间来看中午1点,晚上7点和8点销量情况比较好,属于黄金时间段。

八建议

1产品部

可以对于用户不感兴趣商品进行优化,优化商品的主图和标题,可以对比优秀商品的详情页进行重新排版,对于价格可以进行适当优惠,可以和热门商品进行捆绑式销售。

2市场部

可以在热门时间段下午1点,晚上7点和8点重点进行广告投放,同时重点投放2355072,4245813,1521931等这一时间段销量高的商品类别。

3运营部

需要提高售后服务,可以实行会员制,对于用户进行分级,使用精细化运营。对于已经放入购物车和收藏的用户应该进行重点跟盯,提高其付费率。

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-10-11 17:35:16  更:2021-10-11 17:37:37 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/18 8:09:18-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码