ClickHouse源码笔记4:FilterBlockInputStream, 探寻where，having的实现

二月 28, 2021

书接上文，本篇继续分享ClickHouse源码中一个重要的流，FilterBlockInputStream的实现，重点在于分析Clickhouse是如何在执行引擎实现向量化的Filter操作符，而利用这个Filter操作符的，就可以实现where, having的数据过滤。
话不多说，准备发车~~ 本文的源码分析基于ClickHouse v19.16.2.2的版本。

1.Selection的实现

Selection是关系代数之中重要的一个的一个运算，通常也会用σ符合来selection的实现。

而在SQL语句之中，实现Selection运算的便是：where与having。而本文就要从一个简单的SQL语句出发，带领大家一同梳理Clickhouse的源码，来探究它是如何实现选择运算的。

先看如下的查询
SELECT * FROM test where a > 3 and b < 1;

这里扫描了test表，并且需要筛选出了a列大于3且b列小于1的行。老规矩，咱们先尝试打开ClickHouse的Debug日志看一下具体的执行的pipeline。(ClickHouse 20.6之后的版本，终于支持了使用Explain语句来查看执行计划，真是千呼万唤始出来啊~~）

ClickHouse执行的Pipeline

这里分为了4个流，而咱们需要关注的流就是Filter流，它实现了从存储引擎的数据读取数据，并且执行函数运算，并最终实现数据过滤的逻辑。

所以Clickhouse的表达式计算并不单单只由ExpressionBlockInputStream来完成的，而FilterBlockInputStream同样也需要包含Expression进行表达式的向量化的计算与过滤。
吐槽时间：私以为这样的实现并不优雅，如果在Filter上层再套一层ExpressionBlockinputStream结构上会更加清晰。不过这样的实现可能会导致额外的性能损耗，Clickhouse为了实现查询的高效执行可谓是『丧心病狂』, 后续分析聚合函数的实现时，我们会见到更为Dirty的代码。

2. FilterBlockInputStream的源码剖析

FilterBlockInputStream readImpl()的实现
直接上代码看一下FilterBlockInputStream的数据读取方法吧，这部分代码比较多。我们拆解出来梳理

 /// Determine position of filter column. header = input->getHeader(); expression->execute(header); filter_column = header.getPositionByName(filter_column_name); auto & column_elem = header.safeGetByPosition(filter_column); /// Isn't the filter already constant? if (column_elem.column)  constant_filter_description = ConstantFilterDescription(*column_elem.column);

首先，构造FilterBlockInputStream时会首先读取下一级流的Block Header。通过Header来分析是否有常量列满足always true或always false的逻辑，来设置ConstantFilterDescription。比如存在全部是null列的过滤列，无论进行什么表达式计算，结果都是false。如果这样的话，就直接放回空的block给上层流就ok了。

if (expression->checkColumnIsAlwaysFalse(filter_column_name))  return {};// Function: checkColumnIsAlwaysFalsefor (auto & action : actions) {  if (action.type == action.APPLY_FUNCTION && action.function_base)  {   auto name = action.function_base->getName();   if ((name == "in" || name == "globalIn")    && action.result_name == column_name    && action.argument_names.size() > 1)   {    set_to_check = action.argument_names[1];   }  } }

接下来解析FilterBlockInputStream之中所有的表达式，查询是否有in或globalin的函数调用，并且其第二个参数set为空，那么同样表示表达式alwaysFalse也可以直接返回为空的Block。

比如说有如下查询：select * from test2 where a in (select a from test2 where a > 10)
而这个子查询select a from test2 where a > 10返回的是空集的话，那么就会被直接过滤了，返回空的block。

接下来进入一个while循环,不断从底层的流读取数据，并进行对应的表达式计算。这里我删去了一些冗余的代码:

while (1) {  res = children.back()->read();  expression->execute(res);  size_t columns = res.columns();  ColumnPtr column = res.safeGetByPosition(filter_column).column;

这里的实现很简单，就是不停从底层的流读取数据Block，通过表达式计算生成filter_column列。这个列是一组bool列，标识了对应的行是否还应该存在。

举个栗子，如果有如下查询select * from test where a > 10 and b < 2。ClickHouse的表达式会生成如下执行流程如下(注意：ClickHouse遵从函数式编程的逻辑，任意函数调用都会生成新的一列)：

1. add const column : 102. function call : a > 10 (生成一组新生成的bool列，列名为`a > 10`)3. remove const column : 104. add const column : 25. function call : b < 2 (生成一组新生成的bool列，列名为`b < 2`)6. remove const column : 2 7. call function : a > 10 and b < 2 (生成一组新生成的bool列，列名为`a > 10 and b < 2`)8. remove column : a > 109. remove column : b < 2

而最终新生成的这列就是我们后续需要用到过滤最终结果的filter_column列了。

接下来就进入最核心的一部分代码了，遍历Block之中除了const column与filter_column列的所有列，进行实际的数据过滤。IColumn接口中实现了一个接口为filter，也就是说，每一个列类型都需要实现一个过滤方法，用一组bool数组来过滤列数据。

  /** Removes elements that don't match the filter.  * Is used in WHERE and HAVING operations.  * If result_size_hint > 0, then makes advance reserve(result_size_hint) for the result column;  * if 0, then don't makes reserve(),  * otherwise (i.e. < 0), makes reserve() using size of source column.  */ using Filter = PaddedPODArray<UInt8>; virtual Ptr filter(const Filter & filt, ssize_t result_size_hint) const = 0;

我们直接跳到子类的实现中来看一下：

template <typename T>ColumnPtr ColumnVector<T>::filter(const IColumn::Filter & filt, ssize_t result_size_hint) const{ const UInt8 * filt_pos = filt.data(); const UInt8 * filt_end = filt_pos + size; const T * data_pos = data.data(); while (filt_pos < filt_end) {  if (*filt_pos)   res_data.push_back(*data_pos);  ++filt_pos;  ++data_pos; } return res;}

这之中最为核心的就是这个while循环，遍历bool数组，然后将合法数据塞进一个新的列之中，最终新的列替换旧的列，就完成了一列数据的过滤。之后对于剩余的列依次按照上述流程过一遍就完成了整个block的过滤。这里也可以看到，这个while循环也是一组很简单，没有control flow break的一段代码，能够给予编译器向量化优化的空间很大。当然，ClickHouse还提供了一个手工调用向量化API的过滤版本代码：

#ifdef __SSE2__ /** A slightly more optimized version.  * Based on the assumption that often pieces of consecutive values  * completely pass or do not pass the filter.  * Therefore, we will optimistically check the parts of `SIMD_BYTES` values.  */ static constexpr size_t SIMD_BYTES = 16; const __m128i zero16 = _mm_setzero_si128(); const UInt8 * filt_end_sse = filt_pos + size / SIMD_BYTES * SIMD_BYTES; while (filt_pos < filt_end_sse) {  int mask = _mm_movemask_epi8(_mm_cmpgt_epi8(_mm_loadu_si128(reinterpret_cast<const __m128i *>(filt_pos)), zero16));  if (0 == mask)  {   /// Nothing is inserted.  }  else if (0xFFFF == mask)  {   res_data.insert(data_pos, data_pos + SIMD_BYTES);  }  else  {   for (size_t i = 0; i < SIMD_BYTES; ++i)    if (filt_pos[i])     res_data.push_back(data_pos[i]);  }  filt_pos += SIMD_BYTES;  data_pos += SIMD_BYTES; }


















获取链接





Facebook





X





Pinterest





电子邮件





其他应用



此博客中的热门博文




被外媒称为AI界最大黑马的国产之光DeepSeek问世，硅谷大牛慌了 






一月 07, 2025








2024年末，AI界再次传来重磅消息。深度求索发布大模型 DeepSeek V3 ，完全开源，免费使用。最重要的是，这家被称为 "AI界拼多多" 的杭州企业再次将大模型训练成本砍一刀。 DeepSeek V3训练耗时两个月， 仅花费558万美元 ，但性能却辟比ChatGPT。而 GPT-4o等大模型的成本约为一亿美元 ，这家初创企业以一举之力颠覆大众和业界对AI高昂研发成本的固有印象。 新年伊始， "雷军千万年薪招揽95后天才少女" 的消息一出迅速抢占各大头条，关于AI人才身世背景的争论此起彼伏。北师大本科、北大硕士、先后在阿里达摩学院和DeepSeek就职的罗福莉即将加入小米在圈内早已不是新鲜事，看似利好小米的新闻，实则也 为前东家DeepSeek的热度再添了把火 。 01 / 一年崛起：深度求索的非凡历程 2023年5月，量化投资基金幻方正式将大模型研究团队拆分， 成立深度求索公司 。DeepSeek背后的推手正是创始人梁文锋，曾在浙江大学学习人工智能。而梁文锋在接受采访时表示，在美国政府对中国实施AI芯片限制之前，幻方量化 已经购买了10000多台GPU ，确保了DeepSeek的开发。 DeepSeek的团队以 刚毕业的学生 和 新晋AI从业者 为主，他们拥有无限的创造力和激情。梁文峰表示，在DeepSeek，每个人都可以 随时调用训练集群的卡 ，无需审批。 这种开放和自由的氛围使得DeepSeek能够迅速崛起，成为中国乃至全球少有的 兼具强大基础设施工程能力和模型研究能力 的团队。 2024一年来，DeepSeek共发布8篇研究论文。从中映射出的是在资源限制下，一家 依托本土人才 的AI企业，奋力追逐甚至赶超行业巨头的快速崛起历程。 02 / 与主流大模型硬碰硬 ： DeepSeek V3的卓越表现 DeepSeek V3的预训练阶段仅需 266.4万个H800 GPU小时 ，后续训练阶段需10万个GPU小时。大概两个月时间，DeepSeek就利用 2048个GPU 完成了模型的训练，仅花费558万美元。 相比之下， Meta的Llama 3.1使用了3080万个GPU小时 ，约为DeepSeek V3的11倍，而Mata使用的是比............. 原文转载： https://fashion.shaoqun...





阅读全文





跨境电商资讯：美国企业报税：如何有效管理






十月 01, 2025








在快速变化的商业环境中，企业应对的挑战众多，其中报税无疑是最让人头痛的问题之一。尤其是在美国，税法复杂、多变，令许多公司感到不知所措。那么，如何才能顺利完成美国企业的报税工作呢？我们从各个方面为你揭示这个过程的方方面面。用心了解税务不仅有助于合法合规，更能努力实现财富的优化配置。 一、美国企业的税务结构 美国企业的税务结构多层次、复杂且多样。企业的身份决定了它的税务义务。从独资企业、合伙企业，到有限责任公司（LLC）和公司（C Corp、S Corp），每种类型的企业都有其特定的税务要求。想象一下，不同类型企业就像是一块块拼图，各自独立又彼此关联。在这样的结构中，选择适合自己企业的模式至关重要。让我们来仔细看看。 独资企业往往是小型企业的首选，简单易行。所有收入和支出直接汇入业主的个人税表上。合伙企业具有灵活性，利润与损失可以在合伙人之间进行分配，税务较少。 与之相比，有限责任公司（LLC）为企业主人提供了有限责任保护，同时又避开了双重征税的困扰。此外，S公司则允许企业收入和亏损通过股东的个人税表，以避免双重征税。 二、企业所得税与其他税种 说到企业税务，企业所得税常常是企业主最关注的核心问题。美国的企业所得税是根据企业的净收入计算。每个财政年度，企业必须向联邦政府和州政府申报基本的所得税。不少公司对于这一点感到迷茫，不知如何准确计算自己的税务。如若迅速而准确的计算反向报税，企业不仅能避免罚款，还有机会优化税负。 除了企业所得税，企业还可能面临其他税种的压力。有些州对销售税、房产税等税种也有明确规定。记得仔细了解自己所在州的具体要求，以便不遗漏任何合规义务。 三、报税时机：提前布局，稳妥应对 回过头来看，报税的时机至关重要。大多数企业必须在每年的4月15日前提交联邦所得税申报表，然而，不同州的税务截止日期可能不同。了解这些日期，可以帮助企业做到"未雨绸缪"。 有许多企业选择提前排期，尤其是那些复杂的报税情况。利用会计软件或专业财税顾问，可以高效迅速地准备文档，这样不仅能减轻临近截止日期的压力，还能保证所有数据的准确无误。 四、税务抵扣与优惠政策的巧妙利用 谈及美国企业报税，逃不开税务抵扣与优惠政策的话题。不同的支出可以影响企业的应税收入，妥善利用这些抵扣可以有效降低税负。常见的可抵扣项目包括运营费用、员工薪酬、租金、水电费等。 与此同时，别忘了关...





阅读全文





TG 纸飞机老号购买|点击下面查看原文进入购买|TG账号购买经验分享 






十月 01, 2025








"我买的TG纸飞机老号，用了三天就被封了，卖家还说是我操作不当。"——这是一位"自由境账号商城-广州用户"在评论区的真实留言。看到这句话，你是不是也有点心慌？明明想着花钱省事，结果却遇到大坑。那问题来了：TG账号购买，特别是所谓的"纸飞机老号"，到底靠不靠谱？怎么避免掉进这些坑？今天我就跟你掰开揉碎，把这事讲透。 购买现成的WhatsApp、tiktok、推特、小蓝鸟、X、YouTube、脸书、ins、TWITTER、line、 电报账号，telegram、TG、纸飞机海外账号、找专页工作室 快速获取现成账号！直接登陆使用！解决你没法注册的烦恼！ 油管YouTube、tiktok、纸飞机、instagram浏览量、订阅量、粉丝量都是可以购买,可以刷的！ 复制到浏览器 马上咨询相关业务 ： zllp.myyxvv16888_okg LINE账号购买推荐平台： zllp.myyxvv16888_okg 为什么大家盯着"纸飞机老号"？ 新号注册容易卡验证码、容易触发风控，用着心里总没底。而老号的好处很明显：注册时间久，系统权重高，更不容易封。对于做跨境电商、社群运营甚至需要稳定聊天工具的用户来说，一个能用得久的TG纸飞机老号就是刚需。问题是，市面上那么多卖家，你怎么知道买到的是真的老号，而不是随便包装的新号？ 市场乱象：真假难分，价格飘忽 别以为你在平台上看到的"老号"就是真的。现在很多卖家动不动就拿几个月的新号冒充老号，价格还要翻几倍。更离谱的是，有的甚至连账号来源都不清楚，买回去不是被封就是被回收。便宜？风险也跟着大。贵？不一定靠谱。乱象就是这么产生的。 买号避坑三要点 结合我的观察和网友经验，总结下来，买TG账号特别是纸飞机老号，有三个必须注意的点：............. 原文转载： https://fashion.shaoqun.com/a/2371868.html  收藏 | 速卖通爆款打造速成法！  1000块就买了你的品牌！亚马逊内部消息曝光  为提升购物体验，亚马逊与西班牙邮政合作  海关注册登记手续还未办理？截止至4月1日，逾期不再有效！  卖家面对客户投诉，这样回复最简单有效！  震惊！又一科技巨头被欧盟罚款16.7亿美元  在美国报税，你必须知道的...





阅读全文