1-elasticsearch 的倒排索引是什么?
????????是通过分词策略,形成了词和文章的映射关系表,这种词典+映射表 即为倒排索引。
????????倒排索引的底层实现是基于:FST(Finite State Transducer)数据结 构。 lucene 从 4+版本后开始大量使用的数据结构是 FST。
????????FST 有两个优点:
- 空间占用小。通过对词典中单词前缀和后缀的重复利用,压缩了存储空间;
- 查询速度快。O(len(str))的查询时间复杂度。
?2-elasticsearch 索引数据多了怎么办,如何调优,部署?
????????基于模板+时间+rollover api 滚动创建索引,举例:设计阶段定义:blog 索 引的模板格式为:blog_index_时间戳的形式,每天递增数据。
????????冷热数据分离存储,热数据(比如最近 3 天或者一周的数据),其余为冷数据。 对于冷数据不会再写入新数据,可以考虑定期 force_merge 加 shrink 压缩操作, 节省存储空间和检索效率。
????????一旦之前没有规划,这里就属于应急策略。 结合 ES 自身的支持动态扩展的特点,动态新增机器的方式可以缓解集群压力,注 意:如果之前主节点等规划合理,不需要重启集群也能完成动态新增的。
3-elasticsearch 是如何实现 master 选举的?
????????前置前提:
????????1、只有候选主节点(master:true)的节点才能成为主节点。
???????? 2、最小主节点数(min_master_nodes)的目的是防止脑裂。
?第一步:确认候选主节点数达标,elasticsearch.yml设置的值discovery.zen.minimum_master_nodes;
? 第二步:比较:先判定是否具备 master 资格,具备候选主节点资格的优先返回; 若两节点都为候选主节点,则 id 小的值会主节点。注意这里的 id 为 string 类型。
4-详细描述一下 Elasticsearch 索引文档的过程
????????第一步:客户写集群某节点写入数据,发送请求。(如果没有指定路由/协调节点, 请求的节点扮演路由节点的角色。)
????????第二步:节点 1 接受到请求后,使用文档_id 来确定文档属于分片 0。请求会被转 到另外的节点,假定节点 3。因此分片 0 的主分片分配到节点 3 上。
?????????第三步:节点 3 在主分片上执行写操作,如果成功,则将请求并行转发到节点 1 和节点 2 的副本分片上,等待结果返回。所有的副本分片都报告成功,节点 3 将 向协调节点(节点 1)报告成功,节点 1 向请求客户端报告写入成功。?
5-Elasticsearch 在部署时,对 Linux 的设置有哪些优化方法?
- 关闭缓存 swap;
- 堆内存设置为:Min(节点内存/2, 32GB;
- 设置最大文件句柄数;
- 线程池+队列大小根据业务需要做调整;
- 磁盘存储 raid 方式——存储有条件使用 RAID10,增加单节点性能以及避免单 节点存储故障。
?6-详细描述一下 Elasticsearch 更新和删除文档的过程。
- 删除和更新也都是写操作,但是 Elasticsearch 中的文档是不可变的,因此不 能被删除或者改动以展示其变更;
- 磁盘上的每个段都有一个相应的.del 文件。当删除请求发送后,文档并没有真 的被删除,而是在.del 文件中被标记为删除。该文档依然能匹配查询,但是会在 结果中被过滤掉。当段合并时,在.del 文件中被标记为删除的文档将不会被写入 新段;
- 在新的文档被创建时,Elasticsearch 会为该文档指定一个版本号,当执行更新 时,旧版本的文档在.del 文件中被标记为删除,新版本的文档被索引到一个新段。 旧版本的文档依然能匹配查询,但是会在结果中被过滤掉。
|