PolarDB 覆盖索引设计：INCLUDE 列与复合索引对比

一、覆盖索引的前世今生

数据库查询性能优化是个永恒的话题，而索引设计则是其中最重要的环节之一。想象一下，你在一家图书馆找书，如果没有图书目录，你可能需要把整个图书馆翻个底朝天。索引就是数据库的"图书目录"，它能帮助数据库快速定位到需要的数据。

在PolarDB这样的云原生数据库中，覆盖索引(covering index)是一种特殊的索引，它能够"覆盖"查询所需的所有字段，使得数据库引擎无需回表查询就能获取全部所需数据。这就好比你要找一本《数据库原理》，图书目录不仅告诉你书在哪个书架，还直接把书的内容摘要也写在目录里了。

二、INCLUDE列的设计哲学

INCLUDE语法是PolarDB从PostgreSQL继承而来的特性，它允许我们在创建索引时，指定一些"非键列"。这些列不会被用于索引查找，但会被存储在索引的叶子节点中。

举个生活中的例子：你去酒店前台查预订信息，前台小哥先根据你的姓名(主键)快速找到记录，然后直接把房间号、入住日期等信息(INCLUDE列)一起告诉你，而不需要再去翻厚厚的登记簿。

-- PolarDB/PostgreSQL示例：使用INCLUDE创建覆盖索引
CREATE INDEX idx_user_profile ON users (last_name, first_name)
INCLUDE (email, phone_number);

-- 这个查询可以被上述索引完全覆盖
SELECT email, phone_number 
FROM users 
WHERE last_name = '张' AND first_name = '三';

这个索引的特点在于：

只有last_name和first_name参与B-tree结构的构建
email和phone_number作为附加信息存储在叶子节点
对于只需要这四列的查询，完全避免了回表操作

三、传统复合索引的实现方式

在INCLUDE语法出现之前，要实现覆盖索引只能使用传统的复合索引。也就是把所有需要的列都放在索引键中。

继续用酒店的例子：这次前台要求你必须提供姓名和身份证号才能查询，虽然最终也能得到相同的信息，但查询条件变得更严格了。

-- 传统复合索引实现方式
CREATE INDEX idx_user_profile_old ON users (last_name, first_name, email, phone_number);

-- 这个查询也能被索引覆盖
SELECT email, phone_number 
FROM users 
WHERE last_name = '张' AND first_name = '三';

这种方式的缺点是：

所有列都参与B-tree构建，索引体积更大
如果查询条件不包含前导列，索引可能无法使用
维护成本更高，因为所有列都会影响索引结构

四、两种方案的性能对比

让我们通过一个具体的例子来比较这两种方案。假设我们有一个电商平台的用户表，包含以下字段：

CREATE TABLE users (
    user_id BIGSERIAL PRIMARY KEY,
    username VARCHAR(50) NOT NULL,
    region VARCHAR(20) NOT NULL,
    register_time TIMESTAMP NOT NULL,
    last_login TIMESTAMP,
    vip_level INTEGER,
    credit_score INTEGER
);

场景1：高频查询用户基本信息

-- 查询某地区VIP用户的基本信息
SELECT username, vip_level 
FROM users 
WHERE region = '华东' AND vip_level > 3;

方案A：使用INCLUDE索引

CREATE INDEX idx_region_vip ON users (region, vip_level) 
INCLUDE (username);

方案B：使用复合索引

CREATE INDEX idx_region_vip_username ON users (region, vip_level, username);

性能分析：

索引大小：方案A更小，因为username不参与B-tree构建
查询性能：两者在等值查询时性能相当
写入性能：方案A的索引维护成本更低
灵活性：方案A在只查region时也能使用索引

五、应用场景深度分析

INCLUDE列特别适合以下场景：

宽表查询：表有很多列，但查询通常只返回少量列

-- 用户表有50列，但列表页只需要显示3列
CREATE INDEX idx_user_list ON users (status, create_time)
INCLUDE (username, avatar, title);

避免回表的热点查询

-- 订单状态跟踪高频查询
CREATE INDEX idx_order_tracking ON orders (order_id)
INCLUDE (status, shipping_info, last_update);

组合查询条件与显示字段分离

-- 搜索条件与显示字段不同
CREATE INDEX idx_product_search ON products (category, price_range)
INCLUDE (product_name, image_url, rating);

而传统复合索引更适合：

查询条件与返回字段高度一致
需要利用多列排序的场景
需要强制特定查询路径的情况

六、技术实现的底层原理

在PolarDB中，INCLUDE列的实现相当巧妙。它利用了PostgreSQL的索引存储特性：

主键列：存储在索引元组头部，参与B-tree排序
INCLUDE列：存储在元组的"额外"空间中
系统列：如ctid等仍会存储

这种设计带来几个优势：

索引体积更小，因为INCLUDE列不参与排序
热数据更集中，提高缓存命中率
更新频率低的INCLUDE列不会引起索引结构调整

七、实际使用中的注意事项

不要过度使用INCLUDE列

-- 不好的实践：包含太多不常用的列
CREATE INDEX idx_bad_include ON table (a) INCLUDE (b,c,d,e,f,g);

注意列的数据类型

-- text类型可能不适合作为INCLUDE列
CREATE INDEX idx_with_text ON table (id) INCLUDE (large_text);

定期维护索引

-- 重建索引以消除膨胀
REINDEX INDEX idx_user_profile;

监控索引使用情况

-- 查看索引使用统计
SELECT * FROM pg_stat_user_indexes;

八、总结与最佳实践

经过以上分析，我们可以得出一些最佳实践：

对于查询条件与返回字段分离的场景，优先考虑INCLUDE索引
当查询条件需要多列组合时，使用复合索引更合适
大型文本或很少被查询的列不要放在INCLUDE中
定期分析查询模式，调整索引策略
在PolarDB中可以利用并行索引构建加速大表的索引创建

最后记住，索引设计是一门艺术，需要根据实际查询模式、数据分布和系统资源来综合考量。INCLUDE列是个好工具，但绝不是银弹。合理的索引设计往往能带来数倍的性能提升，特别是在PolarDB这样的分布式数据库中，良好的索引设计还能显著降低网络开销。

敲码拾光专注于编程技术，涵盖编程语言、代码实战案例、软件开发技巧、IT前沿技术、编程开发工具，是您提升技术能力的优质网络平台。