IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> ElasticSearch:Reindex数据迁移使用 -> 正文阅读

[大数据]ElasticSearch:Reindex数据迁移使用

一、前言

ES在创建好索引后,mappingproperties属性类型是不能更改的,只能添加。如果说需要修改字段就需要重新建立索引然后把旧数据导到新索引。?

二、Reindex?

5.X版本后新增_reindex?API 。Reindex可以直接在Elasticsearch集群里面对数据进行重建。并且支持跨集群间的数据迁移。?

三、实战?

?1、原索引

比如我现在有这么一个索引:topic,mapping信息如下:?

{
    "settings": {
        "number_of_shards": 3,
        "number_of_replicas": 2
    },
    "mappings": {
        "properties": {
            "update_time": {
                "type": "date",
                "format": "yyyy-MM-dd HH:mm:ss || yyyy-MM-dd'T'HH:mm:ss.SSS || yyyy-MM-dd || epoch_millis"
            },
            "create_time": {
                "type": "date",
                "format": "yyyy-MM-dd HH:mm:ss || yyyy-MM-dd'T'HH:mm:ss.SSS || yyyy-MM-dd || epoch_millis"
            },
            "user_id": {
                "type": "long"
            },
            "is_del": {
                "type": "boolean"
            },
            "location": {
                "type": "geo_point",
                "ignore_malformed": "true"
            },
            "id": {
                "type": "keyword"
            },
            "title": {
                "type": "keyword"
            },
            "content": {
                "term_vector": "with_positions_offsets",
                "search_analyzer": "ik_smart",
                "type": "text",
                "analyzer": "ik_max_word"
            },
            "status": {
                "type": "short"
            }
        }
    }
}

?里面有12条数据,我发现我的userId的类型错了,应该是字符串类型的。我想改一下。

?2、创建新的索引

创建新的索引为:topic-new,mapping如下:

PUT http://172.16.1.236:9201/topic-new
{
    "settings": {
        "number_of_shards": 3,
        "number_of_replicas": 0,
        "refresh_interval": -1
    },
    "mappings": {
        "properties": {
            "update_time": {
                "type": "date",
                "format": "yyyy-MM-dd HH:mm:ss || yyyy-MM-dd'T'HH:mm:ss.SSS || yyyy-MM-dd || epoch_millis"
            },
            "create_time": {
                "type": "date",
                "format": "yyyy-MM-dd HH:mm:ss || yyyy-MM-dd'T'HH:mm:ss.SSS || yyyy-MM-dd || epoch_millis"
            },
            "user_id": {
                "type": "keyword"
            },
            "is_del": {
                "type": "boolean"
            },
            "location": {
                "type": "geo_point",
                "ignore_malformed": "true"
            },
            "id": {
                "type": "keyword"
            },
            "title": {
                "type": "keyword"
            },
            "content": {
                "term_vector": "with_positions_offsets",
                "search_analyzer": "ik_smart",
                "type": "text",
                "analyzer": "ik_max_word"
            },
            "status": {
                "type": "short"
            }
        }
    }
}
  • 在上面我修改了userId的字段为keyword类型
  • 并修改了number_of_replicasrefresh_interval
  • 设置number_of_replicas0防止我们迁移文档的同时又发送到副本节点,影响性能
  • 设置refresh_interval-1是限制其刷新。默认是1秒
  • 当我们数据迁移完成再把上面两个值进行修改即可

?3、开始迁移

在新索引都更新好了,就可以迁移了

POST http://172.16.1.236:9201/_reindex
{
  "source": {
    "index": "topic"
  },
  "dest": {
    "index": "topic-new"
  }
}

// 返回
{
    "took": 1335,
    "timed_out": false,
    "total": 12,
    "updated": 0,
    "created": 12,
    "deleted": 0,
    "batches": 1,
    "version_conflicts": 0,
    "noops": 0,
    "retries": {
        "bulk": 0,
        "search": 0
    },
    "throttled_millis": 0,
    "requests_per_second": -1.0,
    "throttled_until_millis": 0,
    "failures": []
}

这时候去看数据,是看不到数据的,因为还要刷新才行。

?更新配置

PUT http://172.16.1.236:9201/topic-new/_settings
{
  "refresh_interval": "1s",
  "number_of_replicas": 1
}

?更新副本数和刷新时间,自此数据迁移就完成了,因为之前的索引不用,但是接口都是指向之前的索引,我们就在新索引添加别名即可。

添加别名之前先删除旧索引

DELETE http://172.16.1.236:9201/topic

添加别名

POST http://172.16.1.236:9201/_aliases
{
	"actions": [
		{"add": {"index": "topic-new", "alias": "topic"}}
	]
  }

获取别名

GET http://172.16.1.236:9201/topic/_alias

移除别名

POST http://172.16.1.236:9201/_aliases
{
	"actions": [
		{"remove": {"index": "indexName", "alias": "indexAliasName"}}
	]
  }

4、跨集群数据迁移

?

从其他的远程集群 reindex 数据。

  • 在上面是在相同的集群中进行数据迁移的,如果是不同集群呢?
  • 也是可以的,首先需要设置白名单。(如果是A集群 --> B集群,就需要在B中的elasticsearch.yml 设置A地址为白名单)

设置白名单?

在目标集群的elasticsearch.yml配置文件,设置远程集群的白名单,添加如下配置?

# reindex.remote.whitelist: A的IP:端口,例如:
reindex.remote.whitelist: 172.16.1.236:9200

reindex?

  • 和同集群数据迁移基本一样,就是多了一个设置白名单而已。
  • 设置好索引、number_of_replicas: 0refresh_interval: -1
  • remote中设置远程集群的地址与账号密码(如果配置了的话)。
  • 也可以添加query属性,只查询符号条件的。
POST http://172.16.1.236:9201/_reindex
{
  "source": {
    "index": "topic",
    "remote": {
      "host": "http://172.16.1.236:9200",
      "username": "username",
      "password": "password"
    },
    "query": {
      "match_all": {}
    }
  },
  "dest": {
    "index": "topic-new"
  }
}

完成之后记得重新配置number_of_replicasrefresh_interval

?

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-08-25 12:16:45  更:2021-08-25 12:18:18 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/23 13:23:07-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码