数据分析
一、数据分析与统计入门
1. 基本概念
- 数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。
- 统计学是搜集、分析、表述和解释数据的科学,广泛应用在商务和经济活动中。
二、数据分析初步应用
1. 数据源
- 数据 (data) 是为了描述和解释所搜集、分析 汇总的事实和数字。
将用于特定研究而搜集的所有数据称为研究的数据集。 - 个体(element) 是指所收集数据的实体。
- 变量( variable) 是个体中所感兴趣的那些特征。
- WTO 身份:世界贸易组织中的成员身份,它可以是成员或观察员
- 人均GDP (美元) :国家总产出除以该国的总人口数,它通常用于比较国家经济生产率
- 贸易逆差(1000 美元) :国家的进口总额与出口总额之差
- 惠誉评级:由惠誉国际组织评价的国家主权信用评级,信用评级从最高的AAA到最低的F,可用+或-来微调。
- 惠誉评级展望:未来 信用评级可能变动的方向性指标,展望可以是正面、稳定或负面
- 在一项研究中,对每个个体的每一变量收集测量值,从而得到了数据。对某一特定个体得到的测量值集合称为一个观测值 (observation) 。
- 如上图所示,我们得到第一个观测值(亚美尼亚)的测量值集合是成员、 5400,267335739,BB-,Stable 。第二个观测值(澳大利亚)的测量值集合是成员,40 800,-33304157, AAA , Stable 。
- 60 个个体的数据集有 60 个观测值。
2. 数据可视化
- 数据可视化是关于数据视觉表现形式的科学。其中,这种表现形式被定义为一种包括相应信息单位的各种属性和变量的信息抽取和提炼。
3. 小结
- 数据来源类型包括数据文件、数据库、API、流式数据、外部公开数据和其他来源等。
- 统计实践的准则
- 公平、谨慎、客观和中立的态度
- 数据分析及统计从业人员应当避免任何对预测结果有倾向性的统计分析工作。
- 例:在国内的许多地区,饭店内是不允许吸烟的,假如烟草业的说客在允许吸烟的饭店进行调查. 目的是估计赞成在饭店内允许吸烟的就餐者比例, 抽样结果表明 90% 的受访者同意在饭店内允许吸烟。根据这个抽样结果,说客声称饭店所有就餐者中有90% 的人赞成在饭店内允许吸烟。在这个案例中我们应该指出只在允许吸烟的饭店所做的抽样会歪曲调查结果。如果只报告该研究的这个最终结果,而不熟悉研究的细节(如样本是在允许吸烟的饭店搜集的) ,读者就会被误导。
三、实践中的数据分析
1. 数据处理经验
- 数据清洗:缺失值、异常值和重复值的处理
- 样本类别不平衡
- 解决数据源的冲突
- 数据的共线性
|