IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 第八章 Python与统计学 -> 正文阅读

[人工智能]第八章 Python与统计学

目录

8.1 描述性统计

8.2 推断性统计??

? 8.2.1 推断性统计的步骤

? 8.2.2 假设性检验的核心思想

8.3 有偏与无偏估计

8.3.1 Python代码随机生成总体数据并抽样

8.3.2 公式推导(贝塞尔校正数学推导)


8.1 描述性统计

????????有关介绍的网站:https://en.wikipedia.org/wiki/Descriptive_statistics

??????描述性统计是一种概括性统计,它定量地描述或总结信息集合中的特征,常用来描述数据集度量的是集中趋势的度量和可变性度量。集中趋势的度量包括均值位数和众数,而变异性的度量包括标准差(或方差)、变量的最小值和最大值、峰度偏度

8.2 推断性统计??

? 8.2.1 推断性统计的步骤

? ? ? ? 推断性统计顾名思义是通过样本去估计总体sample(sample statistic)--->sampling(estimate)---->population(parameter)。

????????总共分为3步:

? ? ? ? (1)抽样(sampling)

? ? ? ? (2)预测(estimate)

? ? ? ? (3)假设检验(Hypothesis test)

? ? ? ? 其中做预测(estimate)最重要的就是:

? ? ? ? (1)点估计(Point estimation)假设样本大小n=100,?\overline X=175

? ? ? ? (2)区间估计(Confidence interval)Confidence level:95%:\mu = \overline{x} \pm1.96 \times S_{\overline{X}}? (Z/t) n>30

? 8.2.2 假设性检验的核心思想

????????H_{0}:\mu=175,\overline{X}=140,假设性检验就是先定好一个假设,然后去推翻这个假设。

? ? ? ? 假设性检验的步骤:

? ? ? ? 一、提出假设

? ? ? ? (1)H_{0}是想要拒绝的假设,H_{a}是接受的假设,单尾假设性检验:

????????????????H_{0}:\mu \geq 180

????????????????H{a}:\mu <180

? ? ? ? (2)双尾假设性检验:

????????????????H_{0}:\mu = 180

????????????????H_{a}:\mu \neq 180

? ? ? ? 二、计算t分布

? ? ? ??????????t = \frac{\overline{X}-180}{S_{\overline{X}}}

? ? ? ? 三、画图

图1 概率密度函数

图2 累积分布函数

? ? ? ? 四、做判断(看置信区间)

8.3 有偏与无偏估计

? ? ? ? 总体:

????????Mean(Y) = \mu=\frac{1}{N}\sum_{i=1}^{N}Y_{i}

????????Var(Y)=\sigma^{2}=\frac{1}{N} \sum_{i=1}^{N}(Y_{i}-\mu)^2

????????样本(Sample X):用样本估计总体(N-1与贝塞尔校正)

????????Mean(X) = \overline{X}=\frac{1}{n}\sum_{j=1}^{n}X_{j}

????????Var(X)=s^{2}=\frac{1}{n-1} \sum_{j=1}^{n}(X_{j}-\overline X)^2

8.3.1 Python代码随机生成总体数据并抽样

# 导入包
import pandas as pd
import numpy as np
from IPython.core.pylabtools import figsize

# 主函数
if '__main__' == __name__:
    # 定义画布的大小
    figsize(15,5)
    np.random.seed(42)
    # 总体(population)大小是100000
    N = 100000
    # 随机生成1-10总共100000个样本
    population = pd.Series(np.random.randint(1,11,N))
    samples = {}
    # 每个样本的大小是50
    n = 50
    # 随机抽取300次样本
    num_of_samples = 300
    # 开始遍历,总共抽取300次
    for i in range(num_of_samples):
        # 每次随机抽取50个样本
        samples[i] = population.sample(n).reset_index(drop=True)
    # 将字典转换成DataFrame
    samples = pd.DataFrame(samples)
    # 自由度 ddof=0 diveded by n 有偏估计
    biased_samples = samples.var(ddof=0).to_frame()
    # 滚动求平均数
    biased_samples = biased_samples.expanding().mean()
    # 定义列名
    biased_samples.columns = ["biased var estimate(divided by n)"]
    # 自由度 ddof=1 divided by n-1 无偏估计
    unbiased_sample = samples.var(ddof=1).to_frame()
    # 滚动求平均数
    unbiased_sample = unbiased_sample.expanding().mean()
    # 定义列名
    unbiased_sample.columns = ["unbiased var estimate(divided by n-1)"]
    # 画图显示
    ax = unbiased_sample.plot()
    biased_samples.plot(ax=ax)
    real_population_variance = pd.Series(population.var(ddof=0),index=samples.columns)
    real_population_variance.plot()

图3 有偏和无偏估计分布图

8.3.2 公式推导(贝塞尔校正数学推导)

????????无偏估计(unbiased estimator)

E(s^2)=E(\frac{1}{n-1}\sum_{j=1}^{n}(X_j-\overline{X})^2)

? ? ? ? 特性(properties)

????????E(Z_1+Z_2)=E(Z_1)+E(Z_2),for\ any\ Z_1,Z_2

Var(aZ)=a^2Var(Z),for\ any\ Z??

Var(Z_1+Z_2)=Var(Z_1)+Var(Z_2),if\ Z_1\ and\ Z_2\ are\ independent

Var(Z)=E((Z-E(Z))^2)=E(Z^2-2ZE(Z)+E(Z)^2)=E(Z^2)-E(Z)^2

????????***

E(Z^2)=Var(Z)+E(Z)^2

????????***

E(s^2)=E(\frac{1}{n-1}\sum_{j=1}^{n}(X_j-\overline{X})^2)=\frac{1}{n-1}E(\sum_{j=1}^{n}(X_j^2-2X_j\overline{X}+\overline{X}^2))

???????????????????????????????????????????????????????????????=\frac{1}{n-1}E(\sum_{j=1}^{n}X_j^2-2n\overline{X}^2+n\overline{X}^2)

????????????????????????????????????????????????????????????????????=\frac{1}{n-1}E(\sum_{j=1}^{n}X_j^2-n\overline{X}^2)

???????????????????????????????????????????????????????????????????????????????????=\frac{1}{n-1}[E(\sum_{j=1}^{n}X_j^2)-E(n\overline{X}^2)]

???????????????????????????????????????????????????????????????????????????????????=\frac{1}{n-1}[\sum_{j=1}^{n}E(X_j^2)-nE(\overline{X}^2)]

? ? ? ? 1.第一项

\sum_{j=1}^{n}E(X_j^2)=\sum_{j=1}^{n}(Var(X_j)+E(X_j)^2)

=\sum_{j=1}^{n}(\sigma^2+\mu^2)

=n\sigma^2+n\mu^2

????????2.第二项

E(\overline{X}^2)=Var(\overline{X})+E(\overline{X})^2

=Var(\frac{1}{n}\sum_{j=1}^{n}X_j)+\mu^2

=\frac{1}{n_2}Var(\sum_{j=1}^{n}X_j)+\mu^2

?? ? ? ???????????????????????????????????????????????????????????????????????????????????????=\frac{1}{n_2}\sum_{j=1}^{n}Var(X_j)+\mu^2,beautiful\ all\ X_j\ are\ independent

=\frac{1}{n_2}n\sigma^2+\mu^2

=\frac{1}{n}\sigma^2+\mu^2

E(S^2)=\frac{1}{n-1}[\sum_{j=1}^{n}E(X_j^2)-nE(\overline{X}^2)]

=\frac{1}{n-1}[n\sigma^2+n\mu^2-n(\frac{1}{n}\sigma^2+\mu^2)]

=\frac{1}{n-1}[n\sigma^2+n\mu^2-\sigma^2-n\mu^2)]

=\sigma^2

\sum_{j=1}^{n}(X_j-\mu)^2\geqslant \sum_{j=1}^{n}(X_j-\overline{X})^2

?E(\sum_{j=1}^{n}(X_j-\mu)^2)=E(\sum_{j=1}^{n}(X_j-\overline{X}+\overline{X}-\mu)^2)???????

??????????????????????????=E(\sum_{j=1}^{n}(x_j-\overline{X})^2+\sum_{j=1}^{n}2(X_j-\overline{X})(\overline{X}-\mu)+\sum_{j=1}^{n}(\overline{X}-\mu)^2)

=E(\sum_{j=1}^{n}(x_j-\overline{X})^2+\sum_{j=1}^{n}(\overline{X}-\mu)^2)

?=E(\sum_{j=1}^{n}(x_j-\overline{X})^2)+E(\sum_{j=1}^{n}(\overline{X}-\mu)^2)

=E(\sum_{j=1}^{n}(x_j-\overline{X})^2)+\sum_{j=1}^{n}E((\overline{X}-\mu)^2)

?=E(\sum_{j=1}^{n}(x_j-\overline{X})^2)+\sum_{j=1}^{n}(Var(\overline{X}-\mu)+E(\overline{X}-\mu)^2)

=E(\sum_{j=1}^{n}(x_j-\overline{X})^2)+\sum_{j=1}^{n}(Var(\overline{X})+E(\overline{X}-\mu)^2)

=E(\sum_{j=1}^{n}(x_j-\overline{X})^2)+\sum_{j=1}^{n}Var(\overline{X})

=E(\sum_{j=1}^{n}(x_j-\overline{X})^2)+nVar(\overline{X})

=E(\sum_{j=1}^{n}(x_j-\overline{X})^2)+nVar(\frac{1}{n}\sum_{j=1}^{n}X_j)

?=E(\sum_{j=1}^{n}(x_j-\overline{X})^2)+n\frac{1}{n_2}\sum_{j=1}^{n}Var(X_j)

=E(\sum_{j=1}^{n}(x_j-\overline{X})^2)+\sigma^2

E(\frac{1}{n}\sum_{j=1}^{n}(X_j-\mu^2))=\frac{1}{n}E(\sum_{j=1}^{n}(X_j-\mu)^2)

=\frac{1}{n}E(\sum_{j=1}^{n}(X_j-\overline{X})^2+\sigma^2)

=\frac{1}{n}[(n-1)\sigma^2+\sigma^2]

=\sigma^2

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-03-16 22:21:38  更:2022-03-16 22:23:51 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 15:00:28-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码