- 做项目基本流程
- 3、串联整个流程即标准化及正式上线
- 2、解决关键性问题
- 1、梳理数据流程
- 解决关键性问题
- 曝光
- 广告领域专业术语
- Pv:page visit,曝光一次即为一个pv。
- Uv: uniq visit,或者叫user visit,
- ?Spark的背景、定义、特点
- 背景
- MapReduce计算和磁盘交互
- Spark计算和内存交互
- Spark速度远远快于MapReduce
- MapReduce,在机器学习、图计算等方面支持有限,性能效率表现比较差。
- Spark Core:
- 包含Spark的基本功能;尤其是定义RDD(弹性分布式数据集,resilient distributed dataset)的API、操作以及这两者上的动作。其他Spark的库都是构建在RDD和Spark Core之上的
- spark1.x与2.x的优缺点对比
- 优点
- API抽象更高级、更统一,包括在spark-core,sparksql,sparksession等方面,学习更简单,开发效率更高,执行效率综合提升明显。
- 统一DataFrames和DataSets为DataSets,API进行了全部统一,简化学习和编程复杂度。
- 基本定位是低层API编程延用RDD,高级API编程均为DataSets,而大多数情况下用DataSets均可以解决问题。
- spark-streaming基于spark sql进行了API更高级抽象,即structured streaming(结构化流式编程),易用性和性能提高。
- 对诸多组件中的旧的rdd计算逻辑用DataFrame或DataSet进行了重写优化,并扩充了更多的算法。
- 缺点
- 对以前版本不是完全兼容,只是绝大部分兼容。
- 相对于1.6.x来讲,稳定性略差, bug不断。
|