| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 大数据 -> 数据中台模块介绍 -> 正文阅读 |
|
[大数据]数据中台模块介绍 |
搭建一款集数据采集、存储、搜索、加工、分析为一体的海关外贸企业大数据平台,融合结构化数据、非结构化数据,实现了统一数据架构,对海量异构数据的存储归档、信息组织、搜索访问、安全控制、分析可视化,以及数据挖掘、数据治理等,如图1所示。 ? ??????? 1、数据分层数据是分层次的,不同的数据其属性、处理方式、价值都是不同的:?? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (1)源数据:源数据是海关各个业务系统中生成的大量的业务生产数据,应加强备份和归档工作,防止数据的不完整和损坏。 (2)归档数据:归档数据又称为细节数据,海关外贸企业大数据平台需要抓取所有的源数据进行归档,形成特定完整的数据库。 (3)整合数据:对细节数据进行整合,形成按照主题存放的汇总数据集。 (4)指标数据:针对外贸企业不同维度计算生成内容丰富的指标数据源,为进一步做数据挖掘准备丰富的数据源。 (5)决策支持数据:用于决策分析系统、智能化分析系统数据。 2、数据整理对于海关文件格式结构化数据可直接用ETL系统工具直接抽取数据,其他数据库数据则可用Sqoop工具抽取,放入HBase通道中,从而满足实时历史数据的查询需求。
(2)实时变更数据:建立专用通道,支持数据实时装载到大数据平台中。 BulkLoader利用HBase数据按照HFile格式存储在HDFS的原理,使用MapReduce直接批量生成HFile格式文件后,RegionServers再将HFile文件移动到相应的Region目录下。 3、数据分类对现有各种数据库的各类数据进行清洗、转换、并加载到大数据平台。根据代码标准,整合数据类别,形成数据覆盖全面、标准化、规范化的数据集。 4、数据存储海关外贸企业大数据风控平台对结构化数据采用分布式技术的开源数据仓库,支持各种报表软件的访问和第三方软件集成,同时满足结构化数据的计算和存储。 5、加工数据海关外贸企业大数据风控平台定义对数据的各种加工任务,主要表现在以下几个方面: 数据集成:根据原有的数据生成新的数据;如根据关联表格设置其他维度生成新的汇总表格等; 文件处理:将视音频文件、图片、邮件等转换成识别文字; 挖掘数据:对平台数据进行各类数据挖掘处理,如关联分析,分类,聚类,回归预测等; 计算指标:实时计算各类指标数据,如计算客户的月销售额,年销售额,进口口岸等。 6、分析数据大数据平台以可视化方式呈现数据查询、数据视图、报表等。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年3日历 | -2025/3/4 7:12:14- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |