db-foundation-course - SKILL.md Agent Skill

name: db-foundation-course description: 编写"数据库筑基课"文章的专用 Skill，面向数据库架构师、DBA 和业务开发者。输入一个筑基课文章标题及相关参考资料（技术文档、产品手册、开源项目地址、deepwiki、论文等），输出图文并茂、结构完整的 Markdown 筑基课文章，保存至项目 markdown/ 目录。适用主题覆盖：表存储结构（heap/parquet/arrow/zedstore/LSM-Tree/HStore等）、索引结构（btree/gin/brin/hnsw/ivfflat/bloom等）、数据类型与操作符（vector/jsonb/tsvector/range/array等）、优化器扫描算法（seq scan/index scan/bitmap scan/join/agg/并行等）、场景化实践（时序/GIS/RAG/全文检索/图数据/数据湖等）以及事务/锁/并发/安全等周边主题。只要用户提及"筑基课"、"数据库原理"、"数据库内核"写作，或给出了数据库存储/索引/扫描相关的技术文档让你写成教程，都应使用此 Skill。

数据库筑基课 Skill

核心目标：让数据库架构师、DBA、业务开发者学完每篇筑基课后，能将知识直接用于工作实践，打下坚实基础。

一、工作流程总览

输入: 文章标题 + 参考资料(URL / 文档 / 论文 / 代码仓库)
  │
  ├─ Step 1: 读取参考资料
  ├─ Step 2: 按"标准文章结构"起草提纲
  ├─ Step 3: 逐节撰写内容（含图表、代码、示例）
  ├─ Step 4: 自检（逻辑 / 代码 / 事实）
  └─ Step 5: 输出 Markdown 文件 → markdown/<slug>.md

二、标准文章结构（模板）

每篇筑基课文章必须包含以下 12 个章节，可根据主题适当增减子节：

# 数据库筑基课 - <标题>

> 所属系列: [数据库筑基课大纲](链接)  
> 难度: ★☆☆ / ★★☆ / ★★★  
> 适合角色: 架构师 / DBA / 业务开发者

---

## 0. 导读（Why Read This）
## 1. 背景与痛点（Background & Pain Points）
## 2. 核心原理（Core Principles）
## 3. 数据结构 / 存储格式 / 算法详解（Deep Dive）
## 4. 优势与适合场景（Strengths & Use Cases）
## 5. 劣势与不适合场景（Weaknesses & Anti-Patterns）
## 6. 竞品 / 横向技术对比（Comparison）
## 7. 实操与最佳实践（Hands-on & Best Practices）
## 8. 性能调优（Performance Tuning）
## 9. 思考与边界（Thinking & Boundaries）
## 10. 常见问题（FAQ）
## 11. 扩展阅读（Further Reading）

三、各章节撰写指南

§ 0 导读

一句话点明本文解决什么问题
给出"读完本文你能做到什么"的 3 条 bullet

§ 1 背景与痛点

说明技术/功能出现前的痛苦场景（具体，有数字）
用对比图或叙事说明"没有它时有多难"
可画 mermaid 时序图 / 流程图表达痛点

§ 2 核心原理

先用一张总览图（mermaid / SVG / text diagram）展示整体架构
然后逐层展开
原理说明时配合类比（例如 heap 的 fsm 就像"停车场空位管理牌"）

§ 3 深度解析

根据主题选择合适的子节，参考如下分类：

存储结构类（heap/parquet/arrow/zedstore/LSM等）

file layout（文件级结构）→ block/page layout（块级结构）→ tuple/record layout（行级结构）
写入流程 / 读取流程 / 更新流程 / 删除流程
垃圾回收 / 压缩 / Compaction
索引与存储的协同

索引结构类（btree/gin/brin/hnsw/bloom等）

索引构建算法
索引 page/node 的内部结构
搜索算法（贪婪/二分/图遍历等）
索引维护（插入/删除/分裂/合并）

扫描与计算类（seq scan/index scan/join/agg/并行等）

算法伪代码 or 流程图
代价模型（cost model）简介
执行计划解读（EXPLAIN 输出示例）

数据类型类（vector/jsonb/tsvector等）

内部存储表达
支持的操作符与函数
索引配合使用

§ 4 优势与适合场景

用表格列出：场景 → 为什么适合 → 典型案例

§ 5 劣势与不适合场景

明确说明边界：什么情况会变慢 / 出问题 / 不应使用
给出替代方案

§ 6 竞品/横向对比

至少对比 2～3 个同类技术，使用 Markdown 表格
维度：性能 / 压缩比 / 写入/读取模式 / 事务支持 / 生态 / 适用场景

§ 7 实操与最佳实践

给出可运行的 SQL 或代码示例
至少 1 个完整的场景化 Demo（建表→写入→查询→分析）
列出 DBA 常用的监控/诊断 SQL
标注关键 GUC 参数及推荐值

§ 8 性能调优

调优思路：从 EXPLAIN → 瓶颈定位 → 参数/DDL 调整
列出 TOP 5 调优手段

§ 9 思考与边界

给出 2～3 个"扩展问题"（类似原文的"扩展问题"章节）
每个问题都给出分析过程，不只给答案
点明该技术的本质取舍（trade-off）

§ 10 FAQ

至少 5 条，Q&A 格式

§ 11 扩展阅读

分类列出：官方文档 / 论文 / 源码路径 / 博客 / 相关筑基课章节

四、图表规范

4.1 优先使用 mermaid（流程 / 关系 / 时序）

graph TD
    A[Client] --> B[Buffer Pool]
    B --> C{命中?}
    C -- Yes --> D[直接返回]
    C -- No --> E[从磁盘读取 Block]

4.2 存储结构用 text diagram（清晰表达 layout）

File Layout:
┌─────────────────────────────────┐
│  Block 0  │  Block 1  │  ...    │
│  (8KB)    │  (8KB)    │         │
└─────────────────────────────────┘

Block Layout:
┌──────────────┬────────────────────────┐
│  Page Header │  Line Pointers (lp[])  │
├──────────────┴────────────────────────┤
│         Free Space                    │
├───────────────────────────────────────┤
│  Tuple N  │ ... │  Tuple 2  │ Tuple 1 │
└───────────────────────────────────────┘

4.3 对比用 Markdown 表格

特性	heap(行存)	parquet(列存)	zedstore(行列混存)
OLTP 写入	★★★★★	★★☆☆☆	★★★★☆
OLAP 扫描	★★☆☆☆	★★★★★	★★★★☆
...	...	...	...

4.4 SVG（复杂的多层结构，如 HNSW 图）

在确实需要 SVG 时，使用简洁的 <svg> 内联图，宽度限制在 700px 以内。

五、代码示例规范

-- 【示例】创建 heap 表并观察存储结构
CREATE TABLE tbl_demo (
    id    BIGSERIAL PRIMARY KEY,
    name  TEXT,
    score FLOAT
) WITH (fillfactor = 80);

-- 插入测试数据
INSERT INTO tbl_demo (name, score)
SELECT 'user_' || g, random() * 100
FROM generate_series(1, 100000) g;

-- 查看物理文件路径
SELECT pg_relation_filepath('tbl_demo');

-- 查看 block 内容（需要 pageinspect 插件）
SELECT * FROM heap_page_items(get_raw_page('tbl_demo', 0)) LIMIT 5;

代码块必须标注语言（sql / bash / python / json）
关键行加注释
示例数据量适中（不超过百万行，能快速运行）

六、自检清单（输出前必须核对）

在生成最终文件前，逐项检查：

□ 文章结构是否覆盖了 12 个标准章节（允许合并，不允许缺失关键章节）
□ 每个技术概念是否有对应的图示（layout/流程图/对比表）
□ 所有 SQL / 代码示例是否语法正确（逐行检查关键字、括号、引号）
□ 核心原理是否有"类比"帮助理解
□ 对比章节是否客观（不只夸自己，要说出竞品优势）
□ 边界/不适合场景是否明确
□ 扩展阅读的链接格式是否正确
□ 文件名格式是否符合 <YYYYMMDD>_<slug>.md
□ 文章开头是否有"所属系列"链接 和 "难度/角色"标注

七、文件命名与保存

# 目录: markdown/
# 命名: YYYYMMDD_<topic-slug>.md
# 示例:
markdown/20240919_heap-storage.md
markdown/20241015_parquet-columnar.md
markdown/20250624_hnsw-vector-index.md

保存完毕后，输出：

文件的绝对路径
文章的章节目录（TOC）
3 条"读完本文你将掌握"的收益说明

八、主题速查表（常用参考）

主题类别	典型技术点	关联大纲章节
行存	heap, HOT-update, vacuum, FSM, VM	一、表组织结构
列存(磁盘)	parquet, orc, lance, vortex	一、表组织结构
列存(内存)	arrow, monetdb in-memory, DuckDB	一、表组织结构
行列混存	zedstore, vops	一、表组织结构
追加写优化	LSM-Tree, HStore/HBase	一、表组织结构
有序存储	cluster table, 索引组织表	一、表组织结构
冷热分层	Iceberg, Delta Lake, Hudi	一、表组织结构
传统索引	btree, hash, bitmap, brin, bloom, gin	二、索引组织结构
全文索引	gin+tsvector, BM25, zombodb	二、索引组织结构
向量索引	hnsw, ivfflat, pgvectorscale, vectorchord	二、索引组织结构
特殊索引	partial/expression/include/global index	二、索引组织结构
数据类型	vector, jsonb, tsvector, range, array	三、数据类型和操作符
扫描算法	seq/index/bitmap/index-only scan	四、扫描&计算
Join 算法	nested loop, hash join, merge join	四、扫描&计算
并行计算	parallel scan, EPQ, JIT, 向量化	四、扫描&计算
场景实践	时序/GIS/RAG/全文/图/数据湖	五、应用实践
周边能力	事务/锁/连接池/安全/存储过程	六、其他

九、参考资料获取策略

当用户提供的参考资料为 URL 时：

使用 web_fetch 获取完整内容
如果是 GitHub/DeepWiki 地址，重点关注 README、核心源码注释、设计文档
如果是论文，重点提炼：摘要 → 核心贡献 → 关键算法 → 实验结论
整理成内部知识后按标准结构输出

十、示例输出片段（heap 文章节选）

## 1. 背景与痛点

数据库最基础的问题：**一条记录写到哪里？怎么找回来？**

在 heap 之前，如果要自己实现存储，可能会想到顺序存文件——但这样读一条记录需要扫全表。
heap 的设计解决了三个核心问题：

| 问题           | heap 的解法            |
|--------------|----------------------|
| 写到哪里？      | FSM 快速找空闲 block    |
| 怎么定位一行？  | ctid = (blockNum, lp) |
| 怎么回收空间？  | vacuum + autovacuum   |

## 2. 核心原理

### 整体架构

```
Table Files:
  main:  tbl.1, tbl.2, ...   ← 数据文件（每个最大 1GB）
  fsm:   tbl_fsm              ← 空闲空间图（Free Space Map）
  vm:    tbl_vm               ← 可见性图（Visibility Map）
```

### Block 内部结构

```
┌─────────────────────────────────────────┐  ← Block（默认 8KB）
│  PageHeaderData (24B)                   │
│  lp[1] lp[2] lp[3] ...  lp[N]         │  ← Line Pointers（4B each）
│                                         │
│  ← Free Space →                         │
│                                         │
│  Tuple 3    Tuple 2    Tuple 1          │  ← 从尾部向前增长
└─────────────────────────────────────────┘

ctid = (BlockNum, lp_index)
例：ctid=(0,1) 表示第0块，第1条记录
```

以上即为"数据库筑基课"Skill 的完整指南。每次生成文章后，务必运行自检清单，确认内容逻辑正确、代码可运行，再保存文件。