MergeTree原理解析（五）

阅读量：389 次

发布时间：2019-03-05

本文共 1396 字，大约阅读时间需要 4 分钟。

ClickHouse技术解析：MergeTree引擎深入理解

引言

ClickHouse的核心设计理念围绕MergeTree引擎展开，作为其基础，理解MergeTree的工作原理至关重要。本文将从分区、索引、标记文件、数据块等方面深入探讨MergeTree的实现细节，揭示其高效查询背后的秘密。

MergeTree创建与存储

创建

MergeTree表的创建语法简洁，主要参数包括：

分区键：决定数据如何划分，支持单列或多列分区键。

排序规则：决定数据块内部的排序顺序，默认与主键一致。

索引粒度：决定索引间隔，默认为8192行。

示例：

CREATE TABLE [IF NOT EXISTS] [db_name.]table_name (    name1 [type] [DEFAULT|MATERIALIZED|ALIAS expr],    name2 [type] [DEFAULT|MATERIALIZED|ALIAS expr],    ...) ENGINE = MergeTree()    [PARTITION BY expr]    [ORDER BY expr]    [PRIMARY KEY expr]    [SAMPLE BY expr]    [SETTINGS name=value, ...]

存储

MergeTree采用按列存储和压缩算法：

列存储：每列独立存储，支持LZ4、ZSTD等压缩算法。

排序：数据按ORDER BY规则预先排序。

数据块：按大小或规则划分数据块，优化存储和查询效率。

数据分区

分区规则

分区ID生成规则包括：

不指定分区键：默认分区ID为all。

整型分区：直接使用整型字符表示。

日期分区：转换为YYYYMMDD格式。

其他类型：使用128位Hash值。

分区名称

分区名称格式为：

PartitionID_MinBlockNum_MaxBlockNum_Level

其中：

PartitionID：分区ID。

MinBlockNum：最小数据块编号。

MaxBlockNum：最大数据块编号。

Level：合并次数。

分区合并

分区合并基于以下规则：

新数据写入时，系统会自动创建新的分区目录。

相同分区目录会按规则合并。

合并时会生成新的partition.dat和minmax索引文件。

一级索引

稀疏索引优势

稀疏索引优势体现在：

索引标记占用少量空间。

索引数据常驻内存，查询速度快。

仅需12208行索引标记支持1亿行数据。

索引粒度

index_granularity定义索引粒度，影响数据标记和索引文件。每8192行生成一次索引标记。

索引生成规则

索引文件primary.idx内容规则：

每8192行记录一次索引值。

支持多列索引，例如ORDER BY(CounterID, EventDate)。

二级索引

二级索引类型

MergeTree支持四种二级索引：

minmax：基于最小和最大值。

set：基于集合元素。

ngrambf_v1：基于多字段聚合。

tokenbf_v1：基于子字符串匹配。

二级索引创建

二级索引语法：

INDEX index_name expr TYPE index_type(...)GRANULARITY granularity

创建时会生成相应的索引和标记文件。

转载地址：http://mqzzz.baihongyu.com/

你可能感兴趣的文章

OpenCV与AI深度学习 | 实战 | 基于YoloV5和Mask RCNN实现汽车表面划痕检测(步骤 + 代码)

查看>>

OpenCV与AI深度学习 | 实战 | 基于YOLOv9+SAM实现动态目标检测和分割（步骤 + 代码）

查看>>

OpenCV与AI深度学习 | 实战 | 基于YOLOv9和OpenCV实现车辆跟踪计数（步骤 + 源码）

查看>>

OpenCV与AI深度学习 | 实战 | 文本图片去水印--同时保持文本原始色彩(附源码)

查看>>

OpenCV与AI深度学习 | 实战 | 通过微调SegFormer改进车道检测效果（数据集 + 源码）

查看>>

OpenCV与AI深度学习 | 实战—使用YOLOv8图像分割实现路面坑洞检测（步骤 + 代码）

查看>>

OpenCV与AI深度学习 | 实战篇——基于YOLOv8和OpenCV实现车速检测(详细步骤 + 代码)

查看>>

OpenCV与AI深度学习 | 实战｜OpenCV实时弯道检测(详细步骤+源码)

查看>>

OpenCV与AI深度学习 | 实用技巧 | 使用OpenCV进行模糊检测

查看>>

OpenCV与AI深度学习 | 实践教程｜旋转目标检测模型-TensorRT 部署(C++)

查看>>

OpenCV与AI深度学习 | 工业缺陷检测中数据标注需要注意的几个事项

查看>>

OpenCV与AI深度学习 | 干货 | 深度学习模型训练和部署的基本步骤

查看>>

OpenCV与AI深度学习 | 手把手教你用Python和OpenCV搭建一个半自动标注工具（详细步骤 + 源码）

查看>>

OpenCV与AI深度学习 | 水下检测+扩散模型：或成明年CVPR最大惊喜！

查看>>

OpenCV与AI深度学习 | 深入浅出了解OCR识别票据原理

查看>>

OpenCV与AI深度学习 | 深度学习检测小目标常用方法

查看>>

OpenCV与AI深度学习 | 超越YOLOv10/11、RT-DETRv2/3！中科大D-FINE重新定义边界框回归任务

查看>>

OpenCV与AI深度学习 | 高效开源的OCR工具：Surya-OCR介绍与使用

查看>>

OpenCV与AI深度学习｜16个含源码和数据集的计算机视觉实战项目(建议收藏！)

查看>>

Opencv中KNN背景分割器

查看>>