[大数据] Canal实战

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> Canal实战 -> 正文阅读

[大数据]Canal实战

Canal简介

当遇到异地数据异构的时候，对于Mysql来说，Canal是基于数据库的日志解析，获取增量变更进行同步，提供增量数据订阅&消费的中间件。

Canal 主要支持了 MySQL 的 Binlog 解析，解析完成后才利用 Canal Client 来处理获得的相关数据。

MySQL binlog

MySQL 的二进制日志可以说 MySQL 最重要的日志了，它记录了所有的 DDL 和 DML(除了数据查询语句)语句，以事件形式记录，还包含语句所执行的消耗的时间，MySQL 的二进制日志是事务安全型的。

一般来说开启二进制日志大概会有 1%的性能损耗。二进制有两个最重要的使用场景:

：MySQL Replication 在 Master 端开启 Binlog，Master 把它的二进制日志传递给 Slaves来达到 Master-Slave 数据一致的目的。
数据恢复可以通过使用 MySQL Binlog 工具来使恢复数据。

二进制日志包括两类文件：二进制日志索引文件（文件名后缀为.index）用于记录所有的二进制文件，二进制日志文件（文件名后缀为.00000*）记录数据库所有的 DDL 和 DML(除了数据查询语句)语句事件。

Binlog分类

MySQL Binlog 的格式有三种，分别是 STATEMENT,MIXED,ROW。在配置文件中可以选择配置 binlog_format= statement|mixed|row。三种格式的区别：

statement：语句级，binlog 会记录每次一执行写操作的语句。相对 row 模式节省空间，但是可能产生不一致性，比如“update tt set create_date=now()”，如果用 binlog 日志进行恢复，由于执行时间不同可能产生的数据就不同。：
**优点：**节省空间。
**缺点：**有可能造成数据不一致。
row：行级， binlog 会记录每次操作后每行记录的变化。
**优点：**保持数据的绝对一致性。因为不管 sql 是什么，引用了什么函数，他只记录执行后的效果。
**缺点：**占用较大空间。
mixed：statement 的升级版，一定程度上解决了，因为一些情况而造成的 statement
模式不一致问题，默认还是 statement，在某些情况下譬如：当函数中包含 UUID() 时；包含 AUTO_INCREMENT 字段的表被更新时；执行 INSERT DELAYED 语句时；用 UDF【一种高效创建函数的方式】时；会按照 ROW 的方式进行处理
**优点：**节省空间，同时兼顾了一定的一致性。
**缺点：**还有些极个别情况依旧会造成不一致，另外 statement 和 mixed 对于需要对binlog 的监控的情况都不方便。
综合上面对比，Canal 想做监控分析，选择 row 格式比较合适。

Canal 的工作原理

MySQL 主从复制过程

Master 主库将改变记录，写到二进制日志(Binary Log)中；
Slave 从库向 MySQL Master 发送 dump 协议，将 Master 主库的 binary log events 拷贝到它的中继日志(relay log)；
Slave 从库读取并重做中继日志中的事件，将改变的数据同步到自己的数据库。

所以Canal 的工作原理就是把自己伪装成 Slave，假装从 Master 复制数据。

使用场景

Otter中间件
Otter 是阿里用于进行异地数据库之间的同步框架，Canal 是其中一部分。
缓存更新
抓取业务表的新增变化数据，用于制作实时统计

Canal实战

修改Mysql配置my.cnf 并重启

server-id=1
log-bin=mysql-bin 
binlog_format=row
binlog-do-db=test

binlog-do-db 根据自己的情况进行修改，指定具体要同步的数据库，如果不配置则表示所有数据库均开启 Binlog
2. 测试 Binlog 是否开启: 往test表中插入一条数据之后查看mysql数据目录下是否有binlog文件【如：mysql-bin.000001】
3. 授权复制账号

mysql> set global validate_password_length=4;
mysql> set global validate_password_policy=0;
mysql> GRANT SELECT, REPLICATION SLAVE, REPLICATION CLIENT ON  *.* TO 'canal'@'%' IDENTIFIED BY 'canal' ;

4.下载解压Canal.deployer.xxx
5. 修改 canal.properties 的配置

canal.id = 1
canal.ip =
canal.port = 11111
canal.metrics.pull.port = 11112
canal.zkServers = 
#flush data to zk
canal.zookeeper.flush.period = 1000 
canal.withoutNetty = false
#tcp, kafka, RocketMQ
canal.serverMode = tcp
#flush meta cursor/parse position to file

这个文件是 canal 的基本通用配置，canal 端口号默认就是 11111，修改 canal 的输出 model，默认 tcp，也改为输出到 kafka

多实例配置如果创建多个实例，通过前面 canal 架构，我们可以知道，一个 canal 服务中可以有多个 instance，conf/下的每一个 example 即是一个实例，每个实例下面都有独立的配置文件。默认只有一个实例 example，如果需要多个实例处理不同的 MySQL 数据的话，直接拷贝出多个 example，并对其重新命名，命名和配置文件中指定的名称一致，然后修改canal.properties 中的 canal.destinations=实例 1，实例 2，实例 3。

canal.destinations = example

6.修改 instance.properties
我们这里只读取一个 MySQL 数据，所以只有一个实例，这个实例的配置文件在 conf/example 目录下
$ cd /opt/module/canal/conf/example
$ vi instance.properties

canal.instance.mysql.slaveId=2
#enable gtid use true/false 
canal.instance.gtidon=false
#position info
canal.instance.master.address=127.0.0.1:3306

配置连接 MySQL 的用户名和密码，默认就是我们前面授权的 canal

canal.instance.dbUsername=canal
canal.instance.dbPassword=canal
canal.instance.connectionCharset = UTF-8
canal.instance.defaultDatabaseName =test 
#enable druid Decrypt database password 
canal.instance.enableDruid=false

7.测试

//获取  canal 连接对象
CanalConnector canalConnector=CanalConnectors.newSingleConnector(new InetSocketAddress("127.0.0.1", 11111), "example", "", "");
while (true) {
//2.获取连接
canalConnector.connect();
//3.指定要监控的数据库
canalConnector.subscribe("test.*");
//4.获取  Message
Message message = canalConnector.get(100);
List<CanalEntry.Entry> entries = message.getEntries();
if (entries.size() <= 0) {
	System.out.println("没有数据，休息一会"); 
	try {
		Thread.sleep(1000);
	} catch (InterruptedException e) { 
		e.printStackTrace();
	}
} else {
	for (CanalEntry.Entry entry : entries) {
		//获取表名
 		String tableName=entry.getHeader().getTableName();
 		//Entry 类型
 		CanalEntry.EntryType  entryType = entry.getEntryType();
 		//判断  entryType 是否为  ROWDATA
 		if(CanalEntry.EntryType.ROWDATA.equals(entryType)){
 			//序列化数据
			ByteString storeValue = entry.getStoreValue();
			//反序列化数据
			CanalEntry.RowChange rowChange=CanalEntry.RowChange.parseFrom(storeValue);
			//获取事件类型
			CanalEntry.EventType eventType=rowChange.getEventType();
			//获取具体的数据
			List<CanalEntry.RowData> rowDatasList=rowChange.getRowDatasList();
			// 遍历并打印数据
			for (CanalEntry.RowData rowData : rowDatasList){
				List<CanalEntry.Column> beforeColumnsList =rowData.getBeforeColumnsList();
				JSONObject beforeData = new JSONObject();
				for(CanalEntry.Column column:beforeColumnsList){
 					beforeData.put(column.getName(), column.getValue());
 					JSONObject afterData = new JSONObject();
 					List<CanalEntry.Column> afterColumnsList = rowData.getAfterColumnsList();
 					for(CanalEntry.Column column:afterColumnsList){
						afterData.put(column.getName(), column.getValue());
					}
 				}
 			}
		}
 		
	}
}

}

大数据最新文章

实现Kafka至少消费一次

亚马逊云科技：还在苦于ETL？Zero ETL的时代

初探MapReduce

【SpringBoot框架篇】32.基于注解+redis实现

Elasticsearch：如何减少 Elasticsearch 集

Go redis操作

Redis面试题

专题五 Redis高并发场景

基于GBase8s和Calcite的多数据源查询

Redis——底层数据结构原理

加:2022-07-17 16:30:00 更:2022-07-17 16:34:25

360图书馆购物三丰科技阅读网日历万年历 2026年2日历

-2026/2/22 11:47:10-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码