数据仓库概念
**数据仓库(Data Warehouse):**为企业决策提供数据支撑,帮助企业改进业务流程、提高产品质量等,同时也提供数据存储、分析、计算作用。 数据仓库的输入数据通常包括:业务数据、用户行为数据、爬虫数据等。
- 业务数据:通常与MySQL后台产生交互的数据。通常使用sqoop框架。
- 用户行为数据:记录用户在网站前端所进行的各种活动、行为等的日志记录数据,可进行埋点,跟踪用户行为,分析用户行为心理。通常使用flume框架。
- 爬虫数据:爬取别的网站的数据,但容易产生侵权等的违法违规问题。
数据输入后一般要进入数据仓库进行相应的数据分析,通常会经过ODS、DWD、DWS、DWT、ADS的几个过程。数据仓库并不是数据的最终目的地,而是为数据最终目的地做好准备。这些准备包括对数据的备份、清洗、聚合、统计、可视化表现等。经过数据分析后,通常我们可以通过数据仓进行报表系统、用户画像、推荐系统、机器学习等数据输出形式。 常用的任务调度框架:Azkaban、Oozie、Airflow、DS。
下一章,我们将介绍项目需求及架构设计的有关内容,开始正式进入项目的前期的需求分析准备以及后期的研发过程。
|