分布式处理基础
- 分布式数据库、分布式文件系统、虚拟化、区块链等基本概念、主流框架
分布式数据库(DDB,Distributed Database)︰
- 数据库技术与网络技术相结合的产物。“集中计算"概念向“分布计算"概念发展。数据按实际需要已在网络上分布存储。分布式数据库是这些大型企业用户(如电商、金融、制造、零售等)承载核心业务的重要技术选型方向之一,是帮助企业处理大规模结构化数据的重要技术平台。为满足用户对分布式数据库的实际需求,同时帮助传统企业将核心业务逐步向云端迁移。支持分布式事务,具备金融级数据强一致性,满足企业级核心数据库对大容量、高并发、高可靠及高可用的苛刻要求。
- 1.物理分布性:数据不是存储在一个场地上,而是存储在计算机网络的多个场地上。
- 2.逻辑整体性︰数据物理分布在各个场地,但逻辑上是一个整体,它们被所有用户(全局用户)共享,并由一个DDBMS统一管理。
- 3.场地自治性︰各场地上的数据由本地的DBMS 管理,具有自治处理能力,完成本场地的应用(局部应用)。数据独立性和事务管理的分布性。
- 4.场地之间协作性:各场地虽然具有高度的自治性,但是又相互协作构成一个整体。
分布式文件系统(DFS,Distributed File System)
- 文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点(可简单的理解为一台计算机)相连,众多的节点组成一个文件系统网络。分布式文件系统的设计基于C/S 客户机/服务器模式。一个典型的网络可能包括多个供多用户访问的服务器。另外,对等特性允许一些系统扮演客户机和服务器的双重角色,拥有了本地文件系统所无法具备的数据备份、数据安全等优点。
- (1)数据的存储方式,可以在一个节点存储全部数据文件,在其他N个节点上每个节点存储数据文件作为备份﹔或者平均分配到N个节点上存储。目的都是为了保证数据的存储安全和方便获取。
- (2)数据的读取速率,包括响应用户读取数据文件的请求、定位数据文件所在的节点、读取实际硬盘中数据文件的时间、不同节点间的数据传输时间以及一部分处理器的处理时间等。各种因素决定了分布式文件系统的用户体验。即分布式文件系统中数据的读取速率不能与本地文件系统中数据的读取速率相差太大,否则在本地文件系统中打开一个文件需要2秒,而在分布式文件系统中各种因素的影响下用时超过10 秒,就会严重影响用户的使用体验。
- (3)数据的安全机制,由于数据分散在各个节点中,必须要采取冗余、备份、镜像等方式保证节点出现故障的情况下,能够进行数据的恢复,确保数据安全。
区块链(Blockchain):
-
分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。是比特币的一个重要概念,它本质上是一个去中心化的数据库,同时作为比特币的底层技术,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次比特币网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。 -
国家互联网信息办公室2019年1月10日发布《区块链信息服务管理规定》,自2019年2月15日起施行。作为核心技术自主创新的重要突破口,区块链的安全风险问题被视为当前制约行业健康发展的一大短板,频频发生的安全事件为业界敲响警钟。拥抱区块链,需要加快探索建立适应区块链技术机制的安全保障体系。 区块链是一个分布式的共享账本和数据库,具有去中心化、不可篡改、全程留痕、可以追溯、集体维护、公开透明等特点。这些特点保证了区块链的“诚实”"与“透明”,为区块链创造信任奠定基础。而区块链丰富的应用场景,基本上都基于区块链能够解决信息不对称问题,实现多个主体之间的协作信任与一致行动。 -
去中心化,开放性,独立性,安全性,匿名性。 -
架构︰区块链系统由数据层、网络层、共识层、激励层、合约层和应用层组成。
- 核心功能都是维护一个分布式的账本
- 数据层要保证账本数据不丢失和不可篡改;
- 网络层要保证网络规模的可伸缩性,新节点能方便加入,少数节点掉线不能影响系统的可用性;
- 共识层要保证账本数据的一致性;
- 智能合约是对账本数据进行修改的程序,因此合约层需要保证智能合约执行的确定性和可终止性等性质;
- 应用层要结合账本的性质,其业务应用应该与信任、资产或价值转移相关。
-
核心技术︰分布式账本,非对称加密,共识机制,智能合约。 -
分类︰公有区块链,联合(行业)区块链,私有区块链。 -
应用领域︰金融领域,物联网和物流领域,公共服务领域,数字版权领域,保险和公益领域。 -
主流框架︰
- 比特币、以太坊、Fabric、EOS
物联网基础
- 物联网、传感技术、自组织网络/传感网络、常见协议及标准等
基本概念
-
指通过各种信息传感器、射频识别技术、全球定位系统、红外感应器、激光扫描器等各种装置与技术,实时采集任何需要监控、连接、互动的物体或过程,采集其声、光、热、电、力学、化学、生物、位置等各种需要的信息,通过各类可能的网络接入,实现物与物、物与人的泛在连接,实现对物品和过程的智能化感知、识别和管理。物联网是一-个基 于互联网、传统电信网等的信息承载体,它让所有能够被独立寻址的普通物理对象形成互联互通的网络。 -
传感技术:同计算机技术与通信技术一起被称为信息技术的三大支柱。从物联网角度看,传感技术是衡量一一个国家信息化程度的重要标志。传感技术是关于从自然信源获取信息,并对之进行处理(变换)和识别的一门多学科交叉的现代科学与工程技术,它涉及传感器(又称换能器)、信息处理和识别的规划设计、开发、制/建造、测试、应用及评价改进等活动。 -
自组织网络(Ad Hoc):一种移动通信和计算机网络相结合的网络,网络中的各个节点不需要直接连接,而是能够通过中继的方式,在两个距离很远而无法直接通信的节点之间传送信息。采用了计算机网络中的分组交换机制,而不是电话交换网中的电路交换机制 用户可以随时处于移动或者静止状态。 -
特点:网络拓扑结构动态变化,多跳网络, 无线传输带宽有限,移动终端的局限性。 -
应用领域:军事通信,移动会议,移动网络,连接个域网络,紧急服务和灾难恢复,无线传感器网络。 -
常见协议及标准:
大数据基础
人工智能基础
神经网络(NNsNeural Networks)
-
连接模型(Connection Model, 它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。 -
分类
- 按其模型结构可分为前馈型网络(也称为多层感知机网络)和反馈型网络(也称为Hopfield网络)两大类,前者在数学.上可以看作是一类大规模的非线性映射系统,后者则是-类大规模的非线性动力学系统。按照学习方式又可分为有监督学习、非监督和半监督学习三类按工作方式则可分为确定性和随机性两类;按时间特性还可分为连续型或离散型两类。
- 特点:不论何种类型,共同的特点是,大规模并行处理,分布式存储, 弹性拓扑,高度冗余和非线性运算。因而具有很高的运算速度,很强的联想能力,很强的适应性,很强的容错能力和自组织能力。这些特点和能力构成了人工神经网络模拟智能活动的技术基础,并在广阔的领域获得了重要的应用。在通信领域可以用于数据压缩、图像处理、矢量编码、差错控制(纠错和检错编码)、自适应信号处理、自适应均衡、信号检测、模式识别、ATM流量控制、路由选择、通信网优化和智能网管理等等。它将继续成为当代科学研究重要的前沿。
机器学习
-
一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径。 -
学习方法分类:模拟人脑的机器学习,直接采用数学方法的机器学习,归纳学习,演绎学习,类比学习,分析学习。监督学习,无监督学习,强化学习,结构化学习,非结构化学习,概念学习,规则学习,函数学习,类别学习,贝叶斯网络学习。 -
常用算法:决策树算法,朴素贝叶斯算法,支持向量机算法,随机森林算法,人工神经网络算法,Boosting与Bagging算法,关联规则算法,EM (期望最大化)算法。
典型硬件技术基础(ARM、 GPU、 FPGA等)
ARM (Advanced RISC Machine )
- 一款RISC微处理器,体积小、低功耗、低成本、高性能;支持Thumb (16 位) /ARM (32位)双指令集,能很好的兼容8位/16位器件。大量使用寄存器,指令执行速度更快。大多数数据操作都在寄存器中完成。寻址方式灵活简单,执行效率高。指令长度固定。
GPU (Graphics Processing Unit)
- 图形处理器又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图像和图形相关运算工作的微处理器。GPU使显卡减少了对CPU的依赖,并进行部分原本CPU的工作,尤其是在3D图形处理时GPU所采用的核心技术有硬件T&L(几何转换和光照处理)、立方环境材质贴图和顶点混合、纹理压缩和凹凸映射贴图、双重纹理四像素256位渲染引擎等,而硬件T&L技术可以说是GPU的标志。GPU的生产商主要有NVIDIA和ATI。
FPGA (Field Programmable Gate Arraly)
- 是在PAL、GAL 等可编程器件的基础上进一步发展的产物。它是作为专用集成电路(ASIC) 领域中的一种半定制电路而出现的,既解决了定制电路的不足,又克服了原有可编程器件门电路数有限的缺点。
应用:视频分割系统,数据延迟期和设计,通信行业,工业领域。
|