C

interma · interma · commit 56b2b2b615f2 · 2025-04-15T08:52:46.000+08:00
diff --git a/src/backend/access/heap/heapam.c b/src/backend/access/heap/heapam.c
@@ -327,6 +327,11 @@ initscan(HeapScanDesc scan, ScanKey key, bool keep_startblock)
 	else
 		scan->rs_nblocks = RelationGetNumberOfBlocks(scan->rs_base.rs_rd);
 
+	/**
+		这段代码是 PostgreSQL 中用于优化表扫描的逻辑，
+		特别是针对大表的顺序扫描（sequential scan）。
+		它通过判断表的大小和相关标志位，决定是否启用批量读取（bulk-read）访问策略和同步扫描（synchronized scanning），以提高扫描性能。
+	 */
 	/*
 	 * If the table is large relative to NBuffers, use a bulk-read access
 	 * strategy and enable synchronized scanning (see syncscan.c).  Although
diff --git a/src/backend/executor/execMain.c b/src/backend/executor/execMain.c
@@ -383,6 +383,15 @@ standard_ExecutorRun(QueryDesc *queryDesc,
 	MemoryContextSwitchTo(oldcontext);
 }
 
+/**
+对比一下End：
+特性			ExecutorFinish			ExecutorEnd
+主要职责		完成查询逻辑的收尾工作		释放资源并关闭扫描器
+调用时机		查询逻辑完成后，但资源仍需保留	查询完全结束后，释放所有资源
+处理对象		延迟操作、未消费的元组		内存、文件句柄、扫描器等资源
+是否清理资源	不清理资源，仅完成逻辑		清理所有资源，确保系统状态一致
+典型场景		聚合计算的最终阶段、排序结果的生成	查询执行结束，无论成功或失败
+ */
 /* ----------------------------------------------------------------
  *		ExecutorFinish
  *
diff --git a/src/backend/storage/buffer/freelist.c b/src/backend/storage/buffer/freelist.c
@@ -180,6 +180,13 @@ have_free_buffer(void)
 		return false;
 }
 
+/**
+StrategyGetBuffer 是 PostgreSQL 缓冲区管理器（Buffer Manager）中的一个核心函数，
+用于为 BufferAlloc() 提供下一个候选缓冲区。
+
+其主要目标是找到一个未被任何进程固定（pinned）的缓冲区，以便可以安全地分配给新的请求。
+该函数实现了多种策略来选择缓冲区，包括从自由列表（freelist）中获取缓冲区和使用时钟算法（Clock Sweep Algorithm）扫描缓冲区。
+ */
 /*
  * StrategyGetBuffer
  *
diff --git a/src/backend/utils/adt/selfuncs.c b/src/backend/utils/adt/selfuncs.c
@@ -2428,6 +2428,52 @@ eqjoinsel(PG_FUNCTION_ARGS)
 	PG_RETURN_FLOAT8((float8) selec);
 }
 
+/**
+`eqjoinsel_inner` 是 PostgreSQL 中用于估算等值连接（equality join）选择性的重要函数。选择性是查询优化器用来估算连接结果大小的关键指标。该函数主要用于普通的内连接（inner join），但也可以应用于左连接（LEFT JOIN）和全连接（FULL JOIN），因为这些连接类型在选择性估算上没有显著差异。
+(interma：另外树杰的书中也有对这个函数的详细介绍)
+
+### 1. **函数的输入参数**
+- **`opfuncoid` 和 `collation`**: 分别表示连接操作符的函数 OID 和排序规则，用于确定如何比较两个列的值。
+- **`vardata1` 和 `vardata2`**: 包含两个连接列的统计信息。
+- **`nd1` 和 `nd2`**: 分别表示两个列的基数（distinct 值的数量）。
+- **`isdefault1` 和 `isdefault2`**: 指示统计信息是否为默认值（即缺乏实际统计数据）。
+- **`sslot1` 和 `sslot2`**: 包含两个列的最常见值（MCV，Most Common Values）及其频率。
+- **`stats1` 和 `stats2`**: 包含两个列的统计信息，包括空值比例等。
+- **`have_mcvs1` 和 `have_mcvs2`**: 指示是否存在 MCV 列表。
+
+### 2. **函数的核心逻辑**
+函数根据是否有 MCV 列表分为两种处理方式：
+
+#### **(1) 双方都有 MCV 列表**
+- **匹配 MCV**: 遍历两个列的 MCV 列表，使用连接操作符检查哪些值可以匹配。匹配的值会累加其频率乘积，表示这些值的选择性。
+- **未匹配 MCV**: 计算未匹配的 MCV 的频率，并假设它们与另一列的非 MCV 值随机匹配。
+- **非 MCV 值**: 计算非 MCV 值的频率，并假设它们随机匹配另一列的非 MCV 和未匹配的 MCV 值。
+- **选择性估算**: 从两个方向（列 1 和列 2）分别估算选择性，并取较小值作为最终选择性。这种方法可以更准确地处理数据分布不均的情况。
+
+(interma: 再细问一下gpt，能给出形式化公式)
+
+#### **(2) 缺少 MCV 列表**
+- 如果没有 MCV 列表，函数假设非空值均匀分布，并使用以下公式估算选择性：
+  ```
+  selec = MIN(1/nd1, 1/nd2) * (1 - nullfrac1) * (1 - nullfrac2)
+  ```
+  其中，`nullfrac1` 和 `nullfrac2` 是两列的空值比例。
+
+### 3. **关键实现细节**
+- **MCV 匹配优化**: 使用 `FunctionCallInvoke` 调用连接操作符函数，避免重复初始化函数调用上下文。
+- **概率裁剪**: 使用 `CLAMP_PROBABILITY` 确保概率值在 [0, 1] 范围内。
+- **内存管理**: 使用 `palloc0` 分配临时内存，并在计算完成后释放。
+
+### 4. **函数的输出**
+函数返回一个 `double` 类型的值，表示等值连接的选择性。选择性是一个介于 0 和 1 之间的概率，表示连接结果的行数占笛卡尔积的比例。
+
+### 5. **适用场景**
+- **查询优化**: 查询优化器使用该函数估算连接操作的成本，从而选择最优的执行计划。
+- **数据分布不均**: 函数通过 MCV 列表处理数据分布不均的情况，提高选择性估算的准确性。
+
+### 6. **总结**
+`eqjoinsel_inner` 是 PostgreSQL 查询优化器中处理等值连接选择性的核心函数。它通过结合统计信息（如 MCV 和空值比例）和假设均匀分布的模型，提供了灵活且高效的选择性估算方法。这种设计在处理数据分布不均的情况下尤为有效，同时也能在缺乏统计信息时提供合理的估算结果。
+ */
 /*
  * eqjoinsel_inner --- eqjoinsel for normal inner join
  *
diff --git a/src/include/executor/executor.h b/src/include/executor/executor.h
@@ -386,6 +386,8 @@ ExecProject(ProjectionInfo *projInfo)
 	 */
 	ExecClearTuple(slot);
 
+	// 虽然 ExecEvalExprSwitchContext 的返回值被丢弃，
+	// 但表达式的执行过程会将所有列的结果存储到 ExprState 的 resultslot 中
 	/* Run the expression, discarding scalar result from the last column. */
 	(void) ExecEvalExprSwitchContext(state, econtext, &isnull);
 
diff --git a/src/include/nodes/nodes.h b/src/include/nodes/nodes.h
@@ -30,6 +30,13 @@ typedef enum NodeTag
 #include "nodes/nodetags.h"
 } NodeTag;
 
+/**
+这段代码和注释定义了一个宏 pg_node_attr，用于在 PostgreSQL 的节点（node）定义中添加额外的元信息。
+这些元信息主要由 gen_node_support.pl 脚本使用，用于生成与节点相关的支持代码，
+例如复制、比较、序列化和反序列化等功能。通过这些属性，开发者可以灵活地控制节点及其字段的行为。
+
+NB: gp7中还没有实现这个宏
+ */
 /*
  * pg_node_attr() - Used in node definitions to set extra information for
  * gen_node_support.pl

Original file line number	Diff line number	Diff line change
`@@ -180,6 +180,13 @@ have_free_buffer(void)`
`180`	`180`	`return false;`
`181`	`181`	`}`
`182`	`182`
	`183`	`+/**`
	`184`	`+StrategyGetBuffer 是 PostgreSQL 缓冲区管理器（Buffer Manager）中的一个核心函数，`
	`185`	`+用于为 BufferAlloc() 提供下一个候选缓冲区。`
	`186`	`+`
	`187`	`+其主要目标是找到一个未被任何进程固定（pinned）的缓冲区，以便可以安全地分配给新的请求。`
	`188`	`+该函数实现了多种策略来选择缓冲区，包括从自由列表（freelist）中获取缓冲区和使用时钟算法（Clock Sweep Algorithm）扫描缓冲区。`
	`189`	`+ */`
`183`	`190`	`/*`
`184`	`191`	`* StrategyGetBuffer`
`185`	`192`	`*`