ElasticSearch面试题宝典：从基础到高级全面解析（2025持续更新版）

最新推荐文章于 2026-07-04 14:28:31 发布

原创最新推荐文章于 2026-07-04 14:28:31 发布 · 1k 阅读

31 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

收录于

面试题宝典

文章目录

一、核心概念与基础理论
二、数据读写与底层机制
三、集群、节点与高可用
四、性能优化与运维实践
五、生态、整合与方案设计

本文并非简单的问题罗列，而是致力于构建一个系统化的ElasticSearch知识评估体系。无论你是即将面试的候选人还是考察技术深度的面试官，这份深度解析的题解都将为你提供前所未有的价值。持续关注本专栏，获取更多Spring、MySQL、Redis、MongoDB、Kafka等《面试题宝典》系列文章。

一、核心概念与基础理论

1. 什么是ElasticSearch？它与Lucene是什么关系？

Elasticsearch是一个基于Lucene构建的开源、分布式、RESTful风格的搜索和分析引擎。它提供了一个分布式多用户能力的全文搜索引擎，能够处理大规模数据。

关系说明：

Lucene是一个Java语言编写的全文检索引擎工具库，它本身只是一个库，而非完整应用
Elasticsearch在Lucene基础上提供了分布式架构、RESTful API、数据分片、副本机制等能力
可以将Elasticsearch看作是基于Lucene构建的分布式搜索引擎系统

2. ES中的索引、类型、文档、字段、分片、副本是什么？(高频)

索引（Index）：类似关系型数据库中的"数据库"，是文档的集合容器
类型（Type）：在7.x版本前类似"表"，7.x后逐渐被废弃
文档（Document）：索引中的基本单位，类似表中的一行记录，使用JSON格式表示
字段（Field）：文档中的属性，类似表中的列
分片（Shard）：索引的分割单元，每个分片本身是一个完整的Lucene索引，支持水平扩展
副本（Replica）：分片的拷贝，提供数据高可用和读取负载均衡

3. 详细解释一下倒排索引的原理及其相比正排索引的优势(高频)

倒排索引原理：

文档处理：对每个文档进行分词，得到一个个词条（Term）
建立映射：创建词条与文档ID的映射关系表
索引构建：对词条进行排序，形成词典（Term Dictionary）和倒排列表（Posting List）

相比正排索引的优势：

查询效率高：从O(n)的时间复杂度降低到近O(1)
适合全文搜索：快速定位包含特定词条的文档
易于扩展：支持分布式部署和处理海量数据

示例：

文档1：{"content": "Elasticsearch is powerful"}
文档2：{"content": "Elasticsearch is fast"}

倒排索引：
elasticsearch -> [1, 2]
powerful     -> [1]
fast         -> [2]
is           -> [1, 2]

4. Text类型和Keyword类型有什么区别？各自的应用场景是什么？(高频)

Text类型：

会进行分词处理，被分析器分解为单个词条
适合全文搜索、内容检索
默认会生成keyword子字段用于精确匹配

Keyword类型：

不进行分词，保持原始字符串完整性
适合精确匹配、排序、聚合操作
用于标识符、状态码、标签等字段

应用场景对比：

文章内容、产品描述 → Text类型
用户ID、订单状态、邮箱地址 → Keyword类型

5. Doc Values的作用是什么？它解决了什么问题？

Doc Values的作用：

为字段建立列式存储结构，加速排序、聚合操作
在索引时创建，存储在磁盘上，避免内存溢出

解决的问题：

倒排索引对排序和聚合操作效率低下
减少内存使用，特别是对于高基数字段
支持高效的字段数据访问模式

二、数据读写与底层机制

6. 详细描述一下文档写入ES的完整流程(高频)

写入流程：

客户端请求：客户端向Coordinating Node发送写入请求
路由计算：根据文档ID计算目标分片：shard = hash(document_id) % number_of_primary_shards
主分片写入：请求被转发到主分片所在节点，执行写入操作
副本同步：主分片将写入操作同步到所有副本分片
响应返回：所有分片写入成功后，向客户端返回成功响应

底层写入过程：

数据先写入Memory Buffer和Translog
定期Refresh（默认1秒）将数据从Memory Buffer写入Filesystem Cache，生成新Segment
定期Flush（默认30分钟或Translog满512MB）将数据持久化到磁盘

7. ES的"近实时"搜索是如何实现的？如何优化Refresh策略？(高频)

近实时实现原理：

文档首先写入Memory Buffer
定期Refresh（默认1秒）将数据写入Filesystem Cache
数据在Filesystem Cache中即可被搜索到
最终通过Flush操作持久化到磁盘

Refresh优化策略：

// 大批量导入时关闭自动刷新
PUT /my_index/_settings
{
  "refresh_interval": -1
}

// 导入完成后恢复刷新
PUT /my_index/_settings
{
  "refresh_interval": "1s"
}

// 对实时性要求不高的场景，调整刷新间隔
PUT /my_index/_settings
{
  "refresh_interval": "30s"
}

8. Translog的作用是什么？什么是Flush操作？(高频)

Translog的作用：

保证数据可靠性，防止内存中的数据丢失
用于故障恢复和操作持久化
提供实时CRUD操作的持久性保证

Flush操作：

将Memory Buffer中的数据Refresh到Filesystem Cache
清空当前Translog
将Filesystem Cache中的数据fsync到磁盘
生成新的Commit Point

Translog配置优化：

PUT /my_index/_settings
{
  "index.translog.sync_interval": "5s",
  "index.translog.durability": "async",
  "index.translog.flush_threshold_size": "1gb"
}

9. 文档的更新和删除底层是如何处理的？

文档更新：

标记旧文档为已删除
创建新版本文档
更新版本号
在后续Segment Merge时物理删除旧文档

文档删除：

在.del文件中标记文档为已删除
查询时过滤掉已标记删除的文档
在Segment Merge时进行物理删除

特点：

删除和更新都是写操作
数据不会立即物理删除
Segment Merge时回收存储空间

10. 详细描述一下ES搜索的两个阶段过程(高频)

Query阶段：

客户端向Coordinating Node发送搜索请求
Coordinating Node将请求广播到所有相关分片（主分片或副本）
每个分片在本地执行查询，返回文档ID和排序值
Coordinating Node合并结果，进行全局排序

Fetch阶段：

Coordinating Node根据排序结果，向相关分片发送文档获取请求
各分片返回完整的文档数据
Coordinating Node组装最终结果并返回给客户端

性能优化：

使用_source过滤减少网络传输
使用Doc Value Fields避免获取完整文档
合理使用分片路由减少参与查询的分片数

11. 深度分页会有什么问题？如何解决？(高频)

深度分页问题：

性能问题：需要遍历大量文档，消耗大量CPU和内存
资源消耗：每个分片需要创建from+size大小的优先级队列
结果不稳定：在分布式环境下，深度分页的结果可能不一致

解决方案：

Search After（推荐）：

GET /my_index/_search
{
  "size": 10,
  "query": {"match" : {"title" : "elasticsearch"}},
  "sort": [
    {"date": "asc"},
    {"_id": "desc"}
  ],
  "search_after": [1463538857, "654323"]
}

Scroll API（用于大量数据导出）：

// 初始化Scroll
GET /my_index/_search?scroll=1m
{
  "size": 100,
  "query": {"match": {"title": "elasticsearch"}}
}

// 获取后续结果
GET _search/scroll
{
  "scroll": "1m", 
  "scroll_id": "DnF1ZXJ5VGhlbkZldGNoBQAAAAAAABCD"
}

12. Scroll和Search After的工作原理和适用场景

Scroll API：

工作原理：创建搜索快照，保持搜索上下文，分批获取结果
适用场景：大数据量导出、离线处理、全量数据遍历
注意事项：会占用大量资源，需要及时清理scroll上下文

Search After：

工作原理：使用上一页的排序值作为查询起点
适用场景：深度分页、实时搜索
优点：无状态，资源消耗小，支持实时数据

三、集群、节点与高可用

13. ES集群是如何组建和发现的？

集群发现机制：

单播发现：通过discovery.seed_hosts配置种子节点
主机发现：在同一网络中发现其他节点
ZenDiscovery：ES内置的集群管理和发现模块

集群组建过程：

节点启动时尝试连接种子节点
发现现有集群或组建新集群
选举Master节点
同步集群状态信息
分配分片和副本

14. 详细描述一下ElasticSearch的Master选举算法(高频)

选举条件：

只有node.master为true的节点才能参与选举
需要达到最小主节点数（minimum_master_nodes）

选举过程：

节点发现其他候选主节点
根据节点ID进行字典排序
每个节点投票给排序最小的可用节点
当节点获得超过半数的投票时当选为Master
新Master发布集群状态更新

配置示例：

# 候选主节点配置
node.master: true
node.data: false

# 最小主节点数（防止脑裂）
discovery.zen.minimum_master_nodes: 2

15. 什么是集群脑裂？如何避免脑裂？(高频)

脑裂（Split Brain）：
集群中出现多个Master节点，导致数据不一致和状态混乱。

产生原因：

网络分区或网络延迟
节点负载过高，无法及时响应
GC时间过长导致节点无响应

避免措施：

配置minimum_master_nodes：

# 计算公式：(master_eligible_nodes / 2) + 1
discovery.zen.minimum_master_nodes: 2  # 对于3个主节点的集群

角色分离：

# 专用Master节点
node.master: true
node.data: false

# 数据节点
node.master: false
node.data: true

监控和预警：
- 监控集群健康状态
- 设置合理的超时时间
- 定期检查网络状况

16. 集群节点有哪些类型？如何规划？(高频)

节点类型：

Master节点：负责集群管理、状态维护、分片分配
Data节点：存储数据、执行数据操作
Coordinating节点：请求路由、结果聚合、负载均衡
Ingest节点：文档预处理、数据转换

规划建议：

小型集群（<10节点）：混合角色
中型集群（10-30节点）：角色分离，专用Master节点
大型集群（>30节点）：完全角色分离，多个专用节点

配置示例：

# 专用Master节点
node.master: true
node.data: false

# 数据节点
node.master: false
node.data: true

# 协调节点
node.master: false
node.data: false

17. 分片的作用是什么？如何合理设置主分片数和副本数？(高频)

分片的作用：

水平扩展，支持海量数据存储
分布式处理，提高吞吐量
故障隔离，提高可用性

分片规划原则：

主分片数：
- 在创建索引时确定，后期不能修改
- 建议：每个分片大小在10-50GB之间
- 考虑未来增长，但不要过度分片
副本数：
- 可以动态调整
- 至少1个副本保证高可用
- 根据读取负载调整副本数量

配置示例：

PUT /my_index
{
  "settings": {
    "number_of_shards": 5,    // 主分片数
    "number_of_replicas": 1   // 每个主分片的副本数
  }
}

18. 文档是如何被路由到特定分片上的？

路由机制：

默认使用文档ID进行路由：

shard = hash(document_id) % number_of_primary_shards

自定义路由：

PUT /my_index/_doc/1?routing=user123
{
  "title": "Document",
  "user_id": "user123"
}

查询时指定路由：

GET /my_index/_search?routing=user123
{
  "query": {
    "match": {
      "title": "document"
    }
  }
}

路由优势：

相关文档存储在相同分片，提高查询效率
减少查询时需要访问的分片数量
支持更高效的数据局部性

四、性能优化与运维实践

19. 如何在写入阶段进行性能调优？(高频)

写入优化策略：

批量写入：

POST _bulk
{"index":{"_index":"test","_id":"1"}}
{"field1":"value1"}
{"index":{"_index":"test","_id":"2"}}
{"field1":"value2"}

优化Refresh间隔：

PUT /my_index/_settings
{
  "refresh_interval": "30s"
}

调整Translog设置：

PUT /my_index/_settings
{
  "index.translog.durability": "async",
  "index.translog.sync_interval": "5s"
}

禁用副本（批量导入时）：

PUT /my_index/_settings
{
  "number_of_replicas": 0
}

使用自动生成的ID：避免ID生成和唯一性检查的开销

20. 如何在搜索阶段进行性能调优？

搜索优化策略：

使用Filter上下文：利用查询缓存，避免评分开销

{
  "query": {
    "bool": {
      "filter": [
        {"term": {"status": "published"}}
      ]
    }
  }
}

避免深度分页：使用Search After代替from/size

字段数据加载优化：

{
  "docvalue_fields": ["field1", "field2"],
  "_source": false
}

索引设计优化：
- 使用合适的字段类型
- 避免嵌套对象过多
- 合理使用index选项

21. 如何设计索引结构以提升性能和便于管理？(高频)

索引设计原则：

基于时间滚动的索引：

PUT %3Clogs-{now%2Fd}-1%3E
{
  "aliases": {
    "logs_write": {},
    "logs_read": {}
  }
}

使用别名管理：

POST _aliases
{
  "actions": [
    {
      "add": {
        "index": "logs-2023.10.01",
        "alias": "logs_current"
      }
    }
  ]
}

冷热数据分离：

PUT _ilm/policy/hot_warm_cold_policy
{
  "phases": {
    "hot": {
      "actions": {
        "rollover": {
          "max_size": "50GB",
          "max_age": "30d"
        }
      }
    },
    "warm": {
      "actions": {
        "allocate": {
          "require": {
            "data": "warm"
          }
        }
      }
    }
  }
}

22. 如何监控ES集群的健康状态和性能指标？

监控指标：

集群健康状态：
```
GET _cluster/health
GET _cluster/stats
```
节点状态：
```
GET _nodes/stats
GET _cat/nodes?v
```
索引性能：
```
GET _cat/indices?v
GET _stats
```
查询性能：
```
GET _nodes/stats/indices/search
```

常用监控工具：

Elasticsearch自带监控API
Kibana Monitoring
Prometheus + Grafana
Cerebro或ElasticHQ

23. ES的故障排查思路是怎样的？

故障排查流程：

检查集群状态：
```
GET _cluster/health
GET _cat/health
```
查看节点信息：
```
GET _nodes
GET _cat/nodes
```

检查分片分配：

GET _cat/shards?v
GET _cluster/allocation/explain

查看日志：

tail -f /var/log/elasticsearch/my-cluster.log

性能诊断：

GET _nodes/hot_threads
GET _tasks?detailed

五、生态、整合与方案设计

24. 如何保证MySQL与ES之间的数据一致性？(高频)

数据同步方案：

双写模式：

@Transactional
public void saveUser(User user) {
    // 写入MySQL
    userRepository.save(user);
    // 写入ES
    elasticsearchRepository.save(user);
}

优点：实现简单，延迟低
缺点：数据一致性难保证

基于Binlog的同步（推荐）：
```
MySQL -> Binlog -> Canal/Debezium -> Kafka -> Consumer -> ES
```
优点：解耦，可靠性高，不影响主业务
缺点：架构复杂，延迟较高
定时任务同步：
```
SELECT * FROM table WHERE update_time > last_sync_time
```
优点：实现简单
缺点：延迟高，对数据库压力大

25. 介绍ELK技术栈，并说明各组件的作用

ELK Stack组成：

Elasticsearch：
- 分布式搜索和分析引擎
- 存储、索引、搜索数据
Logstash：
- 数据收集和处理管道
- 支持多种输入、过滤、输出插件
- 数据解析、转换、丰富
Kibana：
- 数据可视化平台
- 仪表板、图表、图形化展示
- 集群管理和监控

现代ELK架构：

Filebeat -> Logstash -> Kafka -> Logstash -> Elasticsearch -> Kibana

26. 什么是Ingest Node？它和Logstash有什么区别？

Ingest Node：

ES内置的数据预处理功能
使用Painless脚本进行数据转换
轻量级处理，无需额外部署

Logstash：

独立的数据处理管道
丰富的插件生态系统
强大的数据转换和处理能力

选择建议：

简单处理：使用Ingest Node
复杂处理：使用Logstash
高负载场景：Logstash独立部署

27. 如何使用ES的聚合功能进行数据分析？

聚合类型：

指标聚合：

{
  "aggs": {
    "avg_price": {
      "avg": {"field": "price"}
    }
  }
}

桶聚合：

{
  "aggs": {
    "sales_by_month": {
      "date_histogram": {
        "field": "sale_date",
        "calendar_interval": "month"
      }
    }
  }
}

管道聚合：

{
  "aggs": {
    "sales_per_month": {
      "date_histogram": {
        "field": "sale_date",
        "calendar_interval": "month"
      },
      "aggs": {
        "total_sales": {
          "sum": {"field": "price"}
        }
      }
    }
  }
}

28. 你如何设计一个支持千万级甚至亿级数据量的搜索/日志系统？

架构设计要点：

集群规划：
- 至少3个专用Master节点
- 多个Data节点，根据数据量水平扩展
- 独立的Coordinating节点处理查询
索引设计：
- 基于时间滚动创建索引
- 合理的分片数和副本数
- 使用别名管理索引

数据管道：

应用 -> Filebeat -> Kafka -> Logstash -> ES

查询优化：
- 使用路由减少分片访问
- 合理使用缓存
- 避免深度分页
监控告警：
- 全面的监控体系
- 自动化告警机制
- 定期性能优化
容量规划：
- 预留30%存储空间
- 监控磁盘使用率
- 定期进行索引优化

如需获取更多实战面试题宝典（Spring/MySQL/Redis/MongoDB/Elasticsearch/Kafka等），请持续关注本专栏《面试题宝典》系列文章。

标签

#elasticsearch #大数据 #搜索引擎