[大数据] elasticsearch搜索分数自定义以及相关度计算相关

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> elasticsearch搜索分数自定义以及相关度计算相关 -> 正文阅读

[大数据]elasticsearch搜索分数自定义以及相关度计算相关

elasticsearch搜索分数自定义以及相关度计算相关

es通过其score字段对搜索结果进行排序在进行业务开发时通常其默认的分数计算是不符合预期的。

最简单的方法是通过boost字段来对每一个字段进行权重设置，来体现该字段的重要性。
boost字段会导致分数的计算公式发生改变，boost默认为1 例如：

GET productinfo/_search
{
  "_source": ["spuTitle","classifyName"],  
  "query": {
 "bool": {
   "should": [
     {
       "match": {
         "spuTitle": {
           "query": "服装",
           "boost": 1
         }
       }
     },
     {
       "match": {
         "classifyName.text": {
           "query": "运动",
          "boost": 1
         }
       }
     }
   ]
 }
  }
}

这样的一段简单搜索，根据should匹配标题和分类，通常默认的权重两者都为1，但是我们的搜索结果为
在这里插入图片描述
很明显，我们可能需要将分类为运动的相关命中条目优先展示，但是结果是第二条便出现了服装鞋履分类，而后续的条目还有运动相关的条目，这并不符合我们的预期，我们需要将运动的权重设置更高，例如:

GET productinfo/_search
{
  "_source": ["spuTitle","classifyName"],  
  "query": {
 "bool": {
   "should": [
     {
       "match": {
         "spuTitle": {
           "query": "服装",
           "boost": 1
         }
       }
     },
     {
       "match": {
         "classifyName.text": {
           "query": "运动",
          "boost": 5
         }
       }
     }
   ]
 }
  }
}

此时将分类的boost设置为5之后，结果为:
在这里插入图片描述
看似达到了我们的预期，但是当需要考虑的字段过多时，boost这种简单的方式就显得不够灵活了,当然如果我们从多个索引中查询，也可以对索引进行boost的权重设置，例如:

GET /productinfo_*/_search 
{
  "indices_boost": { 
    "productinfo_1": 3,
    "productinfo_2": 2
  },
  "query": {
    "match": {
      "text": "运动鞋"
    }
  }
}

es为我们提供了一种有效的分数自定义方式，非常灵活，接下来我们将使用functionscore来重定义我们的分数
首先我们需要一个在索引mapping里自定义一个用于影响分数计算的字段myscore,type=long
我们通过权重设置来进行优先级的排序，而自定义分数更多的是用于在业务上的干预。例如通过热度来提升相应的优先度。
使用functionscore后的查询为:

GET productinfo/_search
{
 "explain": true,
  "query": {
    "function_score": {
      "query": 
      {
        "bool": {
   "should": [
     {
       "match": {
         "spuTitle": {
           "query": "服装",
           "boost": 1
         }
       }
     },
     {
       "match": {
         "classifyName.text": {
           "query": "服装",
          "boost": 1
         }
       }
     }
   ]
 }
      }
   , "functions": [
     {
       "field_value_factor": {
         "field": "score" ,
         "modifier": "log2p"
         , "factor": 10
       }
     }
   ]
    , "score_mode": "sum"
    , "boost_mode": "sum"
    }
  }
}

functionscore通常有以下几种方式:

weight（权重，score*weight）
field_value_factor(通过该值来加入自定义的因素进行考虑)
random_score(对每一个用户使用一致的随机评分，即一个用户看到的始终是不变的，但每个用户不同)
衰减函数-linear、 exp 、 gauss(通常应用于经纬度的因素考虑)
script_score(自定义分数脚本，上述无法实现需求时通过Groovy来编写)

上述使用第二种方式加入一个自定义分数字段来影响es的评分。
上述参数中，modifier参数用于平滑分数计算的方式，如果只定义field字段，不定义modifier,或者其他属性，分数计算公式为:
oldscore * myscore
上述分数计算方式是线性的，对结果影响较大，明显不符合我们的需求。

而引入modifier之后,在查询时加入 “explain”: true，可以看到解析本次查询，可以看到，

         {
                  "value" : 0.30103,
                  "description" : "min of:",
                  "details" : [
                    {
                      "value" : 0.30103,
                      "description" : "field value function: log2p(doc['score'].value * factor=1.0)",
                      "details" : [ ]
                    },
                    {
                      "value" : 0.4,
                      "description" : "maxBoost",
                      "details" : [ ]
                    }
                  ]
                }

description字段列出了我们设置的functionscore,即:
log2p(doc[‘score’].value * factor=1.0)
即以10为底取我们自定义的myscore字段的值乘以factor2的对数
即log10(2),由于自定义score为0所以结果为
在这里插入图片描述
与上述分数结果一致。

score_mode：

score_mode参数是functionscore内的一组设置的打分方式，默认为multiply也就是相乘，即一组funtionscore内的几项设置打分结果相乘，为了避免系数威力过大，建议设置为sum

boost_mode：

score_mode是设置查询外部打分与functionscore之间的模式，默认也为multiply，设置为sum

max_boost

除上述两种模式可以设置之外，还可以设置max_boost参数，该参数用来限制functionscore的打分结果，最大不超过指定值，如果超过指定值，将使用指定值作为计算结果

weight的作用

weight作为functionscore的一种方式，类似于boost，例如当我们有两个自定义分数条件，一个为热度分数，一个为店铺评分，我们想要店铺的评分更加重要，就可以适当调整weight参数使得店铺评分比weight评分更高

衰减函数（一般用于经纬度位置计算，越近距离优先度越高）

高斯衰减曲线
在这里插入图片描述
曲线解释(黑线):

offset：衰减的起始点，在该点时打分为1，实际应用中，例如offset为2km则在2km内高斯函数的打分情况都为1
origin:入参
decay:拐点打分值
scale:设置的衰减拐点值，例如设置scale为20km，则到20km时的打分为decay，大于20km之后则开始快速衰减分数。

查询dsl

 , "functions": [
     {
       "gauss": {
         "location": {
           "origin": "30.25641125.122.15246253",
           "scale": "8km",
           "offset": "0"
           , "decay": 0.5
         }
       }
     },
     {
       "field_value_factor": {
         "field": "score" ,
         "modifier": "log2p"  
       }
       , "weight": 2
     }
   ]