IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 数据仓库面试准备 -> 正文阅读

[人工智能]数据仓库面试准备

对于数据仓库的理解,数据仓库主要为的解决什么问题?

数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision-Support)。

(为什么要面向主题?面向主题是数据仓库的第一特性,主要是指合理地组织数据以实现分析。对于源数据而言,其数据组织形式是多样的,像点击流的数据格式是未经优化的,前台数据库的数据是基于OLTP操作组织优化的,这些可能都不适合分析,而整理成面向主题的组织形式才是真正地利于分析的,比如将点击流日志整理成页面(Page)、访问(Visit或Session)、用户(Visitor)三个主题,这样可以明显提升分析的效率。

数据仓库中的数据是按照一定的主题域进行组织的,每一个主题对应一个宏观的分析领域,数据仓库排除对决策无用的数据,提供特定主题的简明视图。)

数据仓库模型的理解?

数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用角度合理存储数据。只有数据模型将数据有序的组织和存储起来之后,大数据才能得到高性能、低成本、高效率、高质量的使用。

数据仓库分层设计的好处是什么?

数据仓库一般要进行分层的设计,其能带来五大好处:

清晰数据结构:每一个数据分层都有它的作用域,这样我们在使用表的时候能更方便地定位和理解。

数据血缘追踪:能够快速准确地定位到问题,并清楚它的危害范围。

减少重复开发:规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算。

把复杂问题简单化:将复杂的任务分解成多个步骤来完成,每一层只处理单一的步骤,比较简单和容易理解。当数据出现问题之后,不用修复所有的数据,只需要从有问题的步骤开始修复。

屏蔽原始数据的异常:不必改一次业务就需要重新接入数据。

另外的答案:

1)用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据。

2)如果不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大。

3)通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,把一个大的黑盒变成了一个白盒,每一层的处理逻辑都相对简单和容易理解,这样我们比较容易保证每一个步骤的正确性,当数据发生错误的时候,往往我们只需要局部调整某个步骤即可。

数据建模考虑的点是什么,然后随机给了你一个业务场景问问你如果建立模型大致怎么设计?

如何深入浅出理解数据仓库建模? - 知乎

对于数据中台的理解,和数据仓库和数据湖的区别?

数据仓库、数据湖、数据中台终于有人说清楚了,建议收藏! - 云+社区 - 腾讯云icon-default.png?t=L9C2https://cloud.tencent.com/developer/article/1513820MAPREDUCE的主要过程,MAP阶段和REDUCE阶段的SHUFFLE各是什么过程?

Hadoop学习之路(十三)MapReduce的初识 - 扎心了,老铁 - 博客园MapReduce是什么 首先让我们来重温一下 hadoop 的四大组件: HDFS:分布式存储系统 MapReduce:分布式计算系统 YARN:hadoop 的资源调度系统 Common:以上三大https://www.cnblogs.com/qingyunzong/p/8573001.html大数据系列(四)之 MapReduce过程及shuffle详解-博客icon-default.png?t=L9C2https://www.soolco.com/post/22531_1_1.html

SORT BY和ORDER BY的区别

Sort By、Order By、Cluster By及Distribute By的区别 - 大数据面试宝典_大数据面试题_ 大数据时代_大数据培训_ 大数据技术与应用分桶和PARTITION的区别,并且分桶和PARTITION的各自机制是什么

Hive分区与分桶 - 知乎

HIVE数据倾斜的原理和不同场景下的解决方案是什么,MPP架构数据下的数据倾斜解决方案是什么?

深入浅出Hive数据倾斜 - 知乎高级数据分析师 渊虹 引言我们日常使用HSQL的时候经常会遇到这样一个令人苦恼的场景: 执行一个非常简单的SQL语句,任务的进度条长时间卡在99%,不确定还需多久才能结束,这种现象称之为数据倾斜。这一现象经常出…https://zhuanlan.zhihu.com/p/342563538对元数据管理和数据资产管理的理解?

你认为你来做这个岗位的优势和劣势是什么?

谈谈你对这个岗位所需技能的理解,假如你来到这个岗位未来半年你的工作思路是什么?

以你对传统数仓的理解,什么样的业务会有实时性的需求?

针对蚂蚁金服的具体业务部门,让你谈一谈你对这块业务的理解和数据如何给业务产生价值?

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-10-15 11:47:53  更:2021-10-15 11:50:42 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 10:31:28-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码