| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 数据仓库面试准备 -> 正文阅读 |
|
[人工智能]数据仓库面试准备 |
对于数据仓库的理解,数据仓库主要为的解决什么问题? 数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision-Support)。 (为什么要面向主题?面向主题是数据仓库的第一特性,主要是指合理地组织数据以实现分析。对于源数据而言,其数据组织形式是多样的,像点击流的数据格式是未经优化的,前台数据库的数据是基于OLTP操作组织优化的,这些可能都不适合分析,而整理成面向主题的组织形式才是真正地利于分析的,比如将点击流日志整理成页面(Page)、访问(Visit或Session)、用户(Visitor)三个主题,这样可以明显提升分析的效率。 数据仓库中的数据是按照一定的主题域进行组织的,每一个主题对应一个宏观的分析领域,数据仓库排除对决策无用的数据,提供特定主题的简明视图。) 数据仓库模型的理解? 数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用角度合理存储数据。只有数据模型将数据有序的组织和存储起来之后,大数据才能得到高性能、低成本、高效率、高质量的使用。 数据仓库分层设计的好处是什么? 数据仓库一般要进行分层的设计,其能带来五大好处: 清晰数据结构:每一个数据分层都有它的作用域,这样我们在使用表的时候能更方便地定位和理解。 数据血缘追踪:能够快速准确地定位到问题,并清楚它的危害范围。 减少重复开发:规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算。 把复杂问题简单化:将复杂的任务分解成多个步骤来完成,每一层只处理单一的步骤,比较简单和容易理解。当数据出现问题之后,不用修复所有的数据,只需要从有问题的步骤开始修复。 屏蔽原始数据的异常:不必改一次业务就需要重新接入数据。 另外的答案: 1)用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据。 2)如果不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大。 3)通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,把一个大的黑盒变成了一个白盒,每一层的处理逻辑都相对简单和容易理解,这样我们比较容易保证每一个步骤的正确性,当数据发生错误的时候,往往我们只需要局部调整某个步骤即可。 数据建模考虑的点是什么,然后随机给了你一个业务场景问问你如果建立模型大致怎么设计? 对于数据中台的理解,和数据仓库和数据湖的区别? 数据仓库、数据湖、数据中台终于有人说清楚了,建议收藏! - 云+社区 - 腾讯云https://cloud.tencent.com/developer/article/1513820MAPREDUCE的主要过程,MAP阶段和REDUCE阶段的SHUFFLE各是什么过程? Hadoop学习之路(十三)MapReduce的初识 - 扎心了,老铁 - 博客园MapReduce是什么 首先让我们来重温一下 hadoop 的四大组件: HDFS:分布式存储系统 MapReduce:分布式计算系统 YARN:hadoop 的资源调度系统 Common:以上三大https://www.cnblogs.com/qingyunzong/p/8573001.html大数据系列(四)之 MapReduce过程及shuffle详解-博客https://www.soolco.com/post/22531_1_1.html SORT BY和ORDER BY的区别 Sort By、Order By、Cluster By及Distribute By的区别 - 大数据面试宝典_大数据面试题_ 大数据时代_大数据培训_ 大数据技术与应用分桶和PARTITION的区别,并且分桶和PARTITION的各自机制是什么 HIVE数据倾斜的原理和不同场景下的解决方案是什么,MPP架构数据下的数据倾斜解决方案是什么? 你认为你来做这个岗位的优势和劣势是什么? 谈谈你对这个岗位所需技能的理解,假如你来到这个岗位未来半年你的工作思路是什么? 以你对传统数仓的理解,什么样的业务会有实时性的需求? 针对蚂蚁金服的具体业务部门,让你谈一谈你对这块业务的理解和数据如何给业务产生价值? |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/27 10:31:28- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |