IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 数据结构与算法 -> 数据分析项目实战项目四:亚马逊Kindle书籍多渠道商业分析项目 -> 正文阅读

[数据结构与算法]数据分析项目实战项目四:亚马逊Kindle书籍多渠道商业分析项目

1.1 亚马逊Kindle电子书相关数据介绍
在这里插入图片描述
注释:这里的ASIN相当于之前讲的sku。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
1.2 0-1变量、时间序列变量的介绍
分类变量(categorical variable)是说明事物类别的一个名称,其取值是分类数据。0-1变量属于分类变量的一种类型。比如:性别的分类变量(男\女)、职业的分类变量(医生\教师\公务员\科学家)、年龄段的分类变量(0-18\19-25\26-30\31-40岁)。
时间序列(或称动态数列)是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。时间序列分析的主要目的是根据已有的历史数据对未来进行预测。
在这里插入图片描述
全球温度异常值的时间序列数据图表

1.3 多变量线性回归的概念介绍
多元线性回归模型的数学形式,这里采用的是最小二乘法,最小二乘法指每个点到平面都有一定距离,计算一下这种距离平方累和,求取最小值,这就是回归方式。
在这里插入图片描述
多元线性回归的三维仿真图
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
线性关系与非线性关系对比

1.4 亚马逊Kindle书籍多渠道商业分析项目背景介绍
Kindle电子书已经是亚马逊平台上最畅销的书籍类别:在2010年7月,亚马逊的电子书销量超过精装书。 2011年1月,亚马逊的电子书销量超过了平装本。
Kindle阅读器非常适合阅读小说:过去已经有很多研究证明人们对Kindle作为小说的基本阅读设备有着浓厚的兴趣。
小说是所有书籍类别的主要组成部分:“小说”类别是印刷书籍的主要类别(占28%),而电子书则主要是“小说”(占69%)。
在这里插入图片描述
拥有电子阅读器和平板电脑的美国成年人比例变化折线图
结论:从电子书分布图可以看出电子阅读器的分布逐渐上升,说明电子阅读器是很多人追书的不错选择。
在这里插入图片描述
kindle小说电子书在亚马逊前台的搜索界面
在这里插入图片描述
kindle小说电子书的商品详情界面(带有实体书和电子书两种销售渠道)及相关信息
在这里插入图片描述
Product details中的ASIN信息、出版(上架)时间信息、排名信息、review信息
在这里插入图片描述
listing详情页中的review信息(包括review生成时间和评分)
这次数据是通过亚马逊第三方数据分析软件Helium 10 进行数据抓取。

2.5 亚马逊Kindle书籍多渠道商业分析数据处理思路
通过书籍上架时间差异分析来判断亚马逊书籍发售策略指我们通过观察亚马逊发售书籍是否存在策略,首先必须验证这一点。
在这里插入图片描述
Kindle电子书上架时间与平装本书籍上架时间差异的分布图
在这里插入图片描述
Kindle电子书上架时间与平装本书籍上架时间差异的分布图
结论:在Kindle电子书上架时间与平装本书籍上架时间差异的分布图上,我们可以看出,大部分电子书在平装本发售的2-3个月后发售,小部分在实体书发售很长时间后发售。在我们的认知里,随着平装本发售时间越长,电子书发售数量减少,看上去符合我们的认知。可是,Kindle电子书上架时间与平装本书籍上架时间差异的分布图在3年时间,电子书大量发售。这就说明亚马逊发售书籍是存在策略。
数据整个流程包括数据采集、数据清理、数据分析。数据采集指从亚马逊的第三方工具/第三方平台获取历史价格和排名数据,从亚马逊平台获取历史review数据。数据清理指清除数据集中的无效数据,数据分析指使用线性回归分析模型中每个变量的参数大小和统计显着性,并找出哪些变量会影响小说电子书的销售,对回归结果的自序列相关性和异方差性进行检测,通过改进计算方法提升回归有效性。

2.6 亚马逊kindle书籍商业分析Python处理
这次亚马逊亚马逊kindle书籍商业分析用Python处理是因为数据量太大,同时需要合并。
第一步:多批量文件/数据读取
在这里插入图片描述
第二步:将读取的数据在Python中转变成适合分析的形式(数组形式)
在这里插入图片描述
第三步:数学建模,确立因变量与自变量的数学形式
在这里插入图片描述
第三步:数学建模,确立因变量与自变量的数学形式(参考价格相关模型)
在这里插入图片描述
第四步:对数组形式的数据使用Python进行多元线性回归分析
在这里插入图片描述
在这里插入图片描述
第五步:评估回归质量与有效性,检查自序列相关性问题与异方差性问题
自序列相关性指点到线上的距离,随着x增大,点到线的距离越大,二者之间有着强关联性。
异方差性指前面的数据都符合线性回归,后部分数据存在很大的差异。
在这里插入图片描述

在这里插入图片描述
结论:通过DW检测,如果DW数值接近于0或者4,意味着回归的结果存在自序列相关性,如果DW值在1.5-2.5之间属于正常值。
在这里插入图片描述
在这里插入图片描述
结论:通过R^2*observations检测,如果这个数值特别大,意味着回归的结果存在异方差性,如果这个数值特别小属于正常值。也就是所谓的卡方检测。
在这里插入图片描述
在这里插入图片描述
结论:处理异方差性和自序列相关性,各项数值显示都是正常的。

2.7 电子书对实体书销量影响程度判断与影响因素确定
在这里插入图片描述
6种渠道发售策略下不同因素对电子书销量的影响
在这里插入图片描述
6种渠道发售策略下“参考价格”相关要素对电子书销量的影响
结论:由于消费者对电子书的价格弹性会随着时间的推移而降低,因此电子书零售商可以缓慢提高价格并获得更多利润。
当与电子书相对应的精装本或平装书刚刚发行时,电子书零售商可以利用消费者参考价格的变化来增加电子书的利润。
当电子书和精装书为最早发售的两个渠道时,这说明电子书具有较高的内容质量,因此电子书零售商可以逐步提高电子书的价格。

  数据结构与算法 最新文章
【力扣106】 从中序与后续遍历序列构造二叉
leetcode 322 零钱兑换
哈希的应用:海量数据处理
动态规划|最短Hamilton路径
华为机试_HJ41 称砝码【中等】【menset】【
【C与数据结构】——寒假提高每日练习Day1
基础算法——堆排序
2023王道数据结构线性表--单链表课后习题部
LeetCode 之 反转链表的一部分
【题解】lintcode必刷50题<有效的括号序列
上一篇文章      下一篇文章      查看所有文章
加:2021-07-14 23:11:55  更:2021-07-14 23:13:50 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/27 9:33:38-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码
数据统计