一、 背景
ES的基本数据类型很多,本文重点描述字符串类型: ES2.*版本里面是没有这两个字段,只有string字段。 ES5.*及以后的版本,把string字段设置为了过时字段,引入text,keyword字段。
ES的基本数据类型,根据不同版本可能略有差异,参考官网不同版本说明:https://www.elastic.co/guide/en/elasticsearch/reference/6.2/mapping-types.html
二、文本类型(text)关键字类型(keyword)区别
一切文本类型的字符串可以定义成 “text”文本类型或“keyword”关键字类型两种类型。
区别在于,text类型 (文本类型)会使用默认分词器分词,也就是存入的数据会先进行分词,然后将分完词的词组存入索引,当然你也可以为他指定特定的分词器。 text类型检索 不是直接给出是否匹配,而是检索出相似度,并按照相似度由高到低返回结果。这样会导致本来我们认为应该查询出来的数据有可能会查询不到。
如果定义成keyword类型 (关键字类型),那么默认就不会对其进行分词,原样存储。当一个字段需要按照精确值进行过滤、排序、聚合等操作时, 就应该使用keyword类型. keyword类型检索 ,直接被存储为了二进制,检索时我们直接匹配,不匹配就返回false。所以精确匹配可以用keyword。
ES的模糊查询 参考其他博文: https://blog.csdn.net/pony_maggie/article/details/113951893 理论上模糊查询的性能是不如term,match的。
三、代码使用
eg:mapping结构
{
"mappings": {
"example_test_type": {
"dynamic": "false",
"_all": {
"enabled": false
},
"properties": {
"userName": {
"type": "text"
},
"userPlace": {
"type": "keyword"
},
"createTime": {
"type": "long"
}
}
}
}
}
get查询参数(成功查询回一条记录):
{
"from": 0,
"size": 10,
"query": {
"bool": {
"must": [
{
"term": {
"userPlace": {
"value": "吉林",
"boost": 1.0
}
}
},
{
"match_phrase": {
"userName": {
"query": "测试",
"slop": 0,
"zero_terms_query": "NONE",
"boost": 1.0
}
}
}
],
"adjust_pure_negative": true,
"boost": 1.0
}
},
"sort": [
{
"createTime": {
"order": "desc"
}
}
]
}
java代码调用:
SearchSourceBuilder sourceBuilder = new SearchSourceBuilder();
BoolQueryBuilder boolQueryBuilder = new BoolQueryBuilder();
List<FieldSortBuilder> sortBuilderList = new ArrayList<>();
sortBuilderList.add(new FieldSortBuilder("createTime").order(SortOrder.DESC));
if (CollectionUtils.isNotEmpty(sortBuilderList)) {
for (FieldSortBuilder sortBuilder : sortBuilderList) {
sourceBuilder.sort(sortBuilder);
}
}
boolQueryBuilder.must(QueryBuilders.matchPhraseQuery("userName", userName));
boolQueryBuilder.must(QueryBuilders.termQuery("userPlace", userPlace));
sourceBuilder.query(boolQueryBuilder);
SearchRequest searchRequest = new SearchRequest(example_test_index);
searchRequest.types(example_test_type);
searchRequest.source(sourceBuilder);
SearchResponse response = restHighLevelClient.search(searchRequest, RequestOptions.DEFAULT);
List<UserBO > resultList = new ArrayList<>();
SearchHits hits = response.getHits();
if (hits == null || hits.totalHits <= 0) {
return null;
}
UserBO userBO = null;
for (SearchHit hit : hits.getHits()) {
userBO = JsonUtil.parseObject(hit.getSourceAsString(), UserBO .class);
resultList .add(userBO);
}
}
}
此文字符串类型主要配合matchPhraseQuery 、termQuery 进行处理。
另外fuzzy和match_phrase的区别:
1.fuzzy是词/项级别的模糊匹配,match_phrase是基于短语级别的
例如对于英文(standard分析器)来说"dog cat bird"来说"dog"就是一个词/词项,而"dog cat"就是一个短语,因此作用范围不一样。
2.fuzzy是基于莱文斯坦距离的,所以fuzzy是可以容错的例如你输入"dcg" 你也可以匹配到"dog cat bird",但是这里注意的是你的查询只能是单词条的查询,不能"dcg cat",如果你需要查询短语里面的拼写错误,可以使用match的fuzziness参数,match_phrase是不允许出现不存在的词条的。
|