1 代码
import scipy.stats as st
st.skew(data)
st.kurtosis(data)
2 为什么要处理偏斜数据
因为许多统计测试和机器学习模型都依赖于正态性假设 。 因此,严重偏斜意味着数据不正常,并且可能会影响您的统计测试或机器学习预测能力。
- 如果偏度在-0.5到0.5之间,则数据是相当对称的(正态分布);
- 如果偏斜度在-1和-0.5之间(负偏度)或0.5和1之间(正偏度),则数据偏斜;
- 如果偏斜度小于-1(负偏度)或大于1(正偏度),则数据高度偏斜;
3 处理偏斜数据的一些常用技术
在这种情况下,我们需要转换数据以使其正常。 用于处理偏斜数据的一些常用技术:
- Log transformation
- Square root transformation
- Power transformation
- Exponential transformation
- Box-Cox transformation
- etc
4 峰度的意义
“峰度”是对实值随机变量的概率分布的“尾部 ”度量。 通常用于标识给定数据集中的异常值(极值) 。 由于用于识别离群值,因此使用尾部两端的极值进行分析。
- 常态峰 Mesokurtic (峰度=3)-此分布显示峰度3接近零。 极值(离群值)的分布与正态分布相似。
- 尖峰的 Leptokurtic (峰值>3)-这种分布显示出比Mekokurtic更大的峰度。 该峰比中胚层更高且更尖锐。 它的两边都有粗尾,表明离群值较大。 在投资世界中,尖峰的发行意味着它是高风险的投资。
- 低峰态 Platykurtic:(峰值<3)-此分布显示峰度比中侧偏低。 该峰比中胚层低且宽。 它的两侧均显示平坦的尾巴,表示离群值较小。 在投资世界中,platykurtic发行意味着它是一种低风险的投资。
|