ES 集群中节点间的磁盘空间使用不均衡的解决

1. 问题现场：当你的ES节点开始"挑食"

最近接手维护一个日均写入500GB日志的Elasticsearch 7.10集群时，我发现三个数据节点出现了有趣的"饮食失调"现象：

node-01：磁盘使用率92%（剩50GB）
node-02：磁盘使用率45%（剩1.2TB）
node-03：磁盘使用率83%（剩200GB）

这种场景就像三个朋友分吃披萨，有人拿到八块有人只分到两片。更糟糕的是，node-01频繁触发磁盘水位告警，导致集群时不时进入只读模式，直接影响业务日志采集。

2. 故障解剖：分片分配机制的"偏爱症"

通过_cat/allocation?v命令查看分片分布，发现了问题根源：

节点名称   分片数   磁盘使用率
node-01    1200     92%  
node-02     400     45%
node-03     900     83%

原来这个集群采用了默认的balanced分片分配策略，但这种策略在以下场景会失效：

节点硬件配置差异（特别是磁盘容量不同）
存在超大索引（单个分片超过50GB）
历史节点扩容未做容量规划

3. 武器库：四把手术刀解决失衡问题

3.1 方案一：分片分配过滤器（Shard Allocation Filtering）

适用场景：紧急止血+临时调整

# 禁止node-01继续接收新分片
PUT _cluster/settings
{
  "persistent": {
    "cluster.routing.allocation.exclude._name": "node-01"
  }
}

# 验证设置是否生效
GET _cluster/settings?include_defaults=true

技术细节：

立即生效的"熔断"机制
可与磁盘水位阈值配合使用
需要配合后续的再平衡操作

实战案例：某电商大促期间，通过该方案将负载临时迁移到新扩容节点，避免原有节点过载。但需注意：

# 危险操作！强制分配可能损坏数据
POST _cluster/reroute
{
  "commands": [
    {
      "move": {
        "index": "big_index_001",
        "shard": 0,
        "from_node": "node-01",
        "to_node": "node-02"
      }
    }
  ]
}

3.2 方案二：分片分配感知（Shard Allocation Awareness）

适用场景：异构集群的长期治理

# 为每个节点打标签（假设node-02是8TB磁盘，其他是2TB）
PUT _nodes/node-02/_settings
{
  "persistent": {
    "node.attr.disk_type": "large" 
  }
}

# 创建索引模板
PUT _index_template/disk_aware_template
{
  "index_patterns": ["*"],
  "template": {
    "settings": {
      "index.routing.allocation.require.disk_type": "large"
    }
  }
}

技术优势：

实现"大胃王优先吃大餐"的智能分配
支持多维属性组合（磁盘类型+机型规格）
可与冷热数据分层结合使用

3.3 方案三：磁盘阈值动态调控

适用场景：预防性维护

# elasticsearch.yml 配置示例
cluster.routing.allocation.disk.watermark:
  low: 85%
  high: 90%
  flood_stage: 95%

注意事项：

水位值设置需考虑监控系统的告警阈值
不同层级触发不同应急机制：
- low：发送预警通知
- high：停止分配新分片
- flood_stage：强制只读模式

3.4 方案四：手动分片迁移术

适用场景：精准调控特定分片

# 安全迁移五步法：
# 1. 检查目标节点容量
df -h /data/elasticsearch

# 2. 解除分片写锁
POST big_index/_flush

# 3. 禁用集群自动平衡
PUT _cluster/settings
{
  "transient": {
    "cluster.routing.allocation.enable": "none"
  }
}

# 4. 执行分片迁移（示例迁移10个分片）
POST _cluster/reroute
{
  "commands": [
    {
      "move": {
        "index": "big_index",
        "shard": 0,
        "from_node": "node-01",
        "to_node": "node-02"
      }
    },
    // 此处重复9个类似结构...
  ]
}

# 5. 恢复自动平衡
PUT _cluster/settings
{
  "transient": {
    "cluster.routing.allocation.enable": "all"
  }
}

4. 技术选型对照表

方案名称	响应速度	操作风险	维护成本	适用阶段
分配过滤器	立即生效	★★☆☆☆	低	紧急处置
分配感知	缓慢生效	★☆☆☆☆	中	预防性部署
动态阈值	自动触发	★★☆☆☆	低	日常运维
手动迁移	即时生效	★★★★☆	高	专家级精准调控

5. 避坑指南：那些年我们踩过的雷

数据安全优先原则：
- 任何reroute操作前必须创建快照
- 禁用cluster.routing.allocation.disable_allocation可能导致脑裂
```
# 错误示范！可能导致分片丢失
PUT _settings
{
  "index.routing.allocation.enable": "none"
}
```
容量规划黄金法则：
- 预留20%磁盘空间用于运维操作
- 单分片大小建议区间：30GB-50GB
- 采用rollover机制控制索引体积

监控体系构建要点：

# 关键监控指标清单
GET _nodes/stats/fs
GET _cat/allocation?v
GET _cat/shards?v&h=index,shard,prirep,state,docs,store,node

6. 扩展技术：Tiered Storage实践

对于超大规模集群，建议采用分层存储架构：

# 冷热节点配置示例
PUT _ilm/policy/log_policy
{
  "policy": {
    "phases": {
      "hot": {
        "min_age": "0ms",
        "actions": {
          "set_priority": {
            "priority": 100
          }
        }
      },
      "warm": {
        "min_age": "7d",
        "actions": {
          "allocate": {
            "require": {
              "data": "warm"
            }
          }
        }
      }
    }
  }
}

7. 总结：平衡的艺术

通过上述方案组合拳，最终将示例集群调整为：

node-01：60%使用率（释放300GB）
node-02：75%使用率（合理利用空间）
node-03：78%使用率（平稳运行）

记住，磁盘平衡不是追求绝对平均，而是实现动态的、可持续的资源利用。就像优秀的交响乐指挥，要让每个乐手（节点）在合适的时间演奏恰当的音量。

敲码拾光专注于编程技术，涵盖编程语言、代码实战案例、软件开发技巧、IT前沿技术、编程开发工具，是您提升技术能力的优质网络平台。