统计学与数据挖掘 统计学的方法可用于汇总或描述数据集,也可用于验证数据挖掘结果。 应用 格朗特与死亡公报 文本统计与文学作品鉴真 研究词语和词汇的发生频率 ?平均字词长 ?掌握作者的文体风格或文献的基本特征
常用的统计学指标 平均数 平均数一般指算数平均数。算数平均数是指全部数据累加除以数据个数。 几何平均数:适用于对比率数据的平均,并主要用于计算数据平均增长(变化)率。 加权平均数:普通的算数平均数的权重相等,算数平均数是特殊的加权平均数(权重都是1)。
绝对数和相对数 绝对数是反映客体现象总体在一定时间、地点条件下的总规模和总水平的综合性指标,如GDP,也可以表现在一定条件下数量的增减变化。 相对数是指两个有联系的指标对比计算得到的数值,它是用以反映事物性质发展变化趋势的指标。 相对数=比较数值(比值)/基础数值(基数)。比数:与基数对比的指标数值。基数:对比标准的指标数值。
百分比与百分点 百分比表示一个数是另一个数的百分之几的数,也叫百分率。 百分点是用以表达不同百分数之间的“算术差据”(即差)的单位。
频数与频率 频数是指一组数据中个别数据重复出现的次数。 频数是绝对数,频率是相对数。
比例与比率 比例与比率都是相对数。比例是指总体中各部分的数值占全部数值的比重,通常反映总体的构成和结构;而比率是指不同类别数值的对比,它反映的不是部分与整体之间的关系,而是一个整体中各部分之间的关系。
倍数与番数 倍数是一个数除以另一个数所得的商。 番数是指原来数量的2的N次方倍。
同比与环比 同比是指与历史时期进行比较得到的数据,该指标主要反映的是事物发展的相对情况。 同比是与上年的同期水平对比,环比是同一年连环的两期对比。
基线和峰值极值分析 峰值是指增长曲线的最高点(顶点),在数学上,拐点改变曲线向上或向下方向的点,在统计学中指趋势开始改变的地方,出现拐点后的走势将保持基本稳定。
增量与增速 增量是指数值的变化方式和程度。增速是指数值增长程度的相对指标。
Pandas的简单介绍 Pandas一维数据结构: Series Pandas为数据结构:DataFrame
|