IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> ElasticSearch中字符串keyword和text类型区别 -> 正文阅读

[大数据]ElasticSearch中字符串keyword和text类型区别

一、 背景

ES的基本数据类型很多,本文重点描述字符串类型:
ES2.*版本里面是没有这两个字段,只有string字段。
ES5.*及以后的版本,把string字段设置为了过时字段,引入text,keyword字段。

ES的基本数据类型,根据不同版本可能略有差异,参考官网不同版本说明:https://www.elastic.co/guide/en/elasticsearch/reference/6.2/mapping-types.html

二、文本类型(text)关键字类型(keyword)区别

一切文本类型的字符串可以定义成 “text”文本类型或“keyword”关键字类型两种类型。

区别在于,text类型(文本类型)会使用默认分词器分词,也就是存入的数据会先进行分词,然后将分完词的词组存入索引,当然你也可以为他指定特定的分词器。
text类型检索不是直接给出是否匹配,而是检索出相似度,并按照相似度由高到低返回结果。这样会导致本来我们认为应该查询出来的数据有可能会查询不到。

如果定义成keyword类型(关键字类型),那么默认就不会对其进行分词,原样存储。当一个字段需要按照精确值进行过滤、排序、聚合等操作时, 就应该使用keyword类型.
keyword类型检索,直接被存储为了二进制,检索时我们直接匹配,不匹配就返回false。所以精确匹配可以用keyword。

ES的模糊查询参考其他博文:
https://blog.csdn.net/pony_maggie/article/details/113951893
理论上模糊查询的性能是不如term,match的。

三、代码使用

eg:mapping结构

      {
       "mappings": {
          "example_test_type": {
            "dynamic": "false",
            "_all": {
              "enabled": false
            },
            "properties": {
              "userName": {//用户名字:测试人员(可以模糊匹配)
                "type": "text"
              },
              "userPlace": {//用户籍贯:吉林(需要精确匹配)
                "type": "keyword"
              },
              "createTime": {
                "type": "long"
              }
            }
          }
        }
       }  

get查询参数(成功查询回一条记录):

{
  "from": 0,
  "size": 10,
  "query": {
    "bool": {
      "must": [
        {
          "term": {
            "userPlace": {
              "value": "吉林",
              "boost": 1.0
            }
          }
        },
        {
          "match_phrase": {
            "userName": {
              "query": "测试",//入参只要被测试人员包含即可
              "slop": 0,
              "zero_terms_query": "NONE",
              "boost": 1.0
            }
          }
        }
      ],
      "adjust_pure_negative": true,
      "boost": 1.0
    }
  },
  "sort": [
    {
      "createTime": {
        "order": "desc"
      }
    }
  ]
}

java代码调用:

   /*
   *一、查询条件拼装
   **/
   SearchSourceBuilder sourceBuilder = new SearchSourceBuilder();
    BoolQueryBuilder boolQueryBuilder = new BoolQueryBuilder();
     //按创建时间降序排序
    List<FieldSortBuilder> sortBuilderList = new ArrayList<>();
    sortBuilderList.add(new FieldSortBuilder("createTime").order(SortOrder.DESC));
    if (CollectionUtils.isNotEmpty(sortBuilderList)) {
        for (FieldSortBuilder sortBuilder : sortBuilderList) {
            sourceBuilder.sort(sortBuilder);
        }
    }
	 //用户姓名
   boolQueryBuilder.must(QueryBuilders.matchPhraseQuery("userName", userName));
     //用户籍贯
   boolQueryBuilder.must(QueryBuilders.termQuery("userPlace", userPlace));
   sourceBuilder.query(boolQueryBuilder)/*
   *二、调es查询
   **/
   SearchRequest searchRequest = new SearchRequest(example_test_index);//索引
   searchRequest.types(example_test_type);//类型
   searchRequest.source(sourceBuilder);
   SearchResponse   response = restHighLevelClient.search(searchRequest, RequestOptions.DEFAULT);
   
   /*
   *三、处理返回结果
   **/
    List<UserBO > resultList = new ArrayList<>();
    SearchHits hits = response.getHits();
    if (hits == null || hits.totalHits <= 0) {
        return null;
    }
    //es结果转成对象
    UserBO userBO = null;
    for (SearchHit hit : hits.getHits()) {
        userBO = JsonUtil.parseObject(hit.getSourceAsString(), UserBO .class);
    	resultList .add(userBO);
        }
    }
  }

此文字符串类型主要配合matchPhraseQuerytermQuery进行处理。

另外fuzzy和match_phrase的区别:

1.fuzzy是词/项级别的模糊匹配,match_phrase是基于短语级别的

例如对于英文(standard分析器)来说"dog cat bird"来说"dog"就是一个词/词项,而"dog cat"就是一个短语,因此作用范围不一样。

2.fuzzy是基于莱文斯坦距离的,所以fuzzy是可以容错的例如你输入"dcg" 你也可以匹配到"dog cat bird",但是这里注意的是你的查询只能是单词条的查询,不能"dcg cat",如果你需要查询短语里面的拼写错误,可以使用match的fuzziness参数,match_phrase是不允许出现不存在的词条的。

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-07-22 23:00:39  更:2021-07-22 23:01:52 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/6 6:45:59-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码