大数据场景下clickhouse查询时长优化sop

这篇具有很好参考价值的文章主要介绍了大数据场景下clickhouse查询时长优化sop。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

ClickHouse的优化需要结合实际的数据特点和查询场景,从多个方面进行综合优化,以提高系统的性能和可靠性。

数据模型设计:在使用ClickHouse之前,需要充分考虑数据模型的设计,因为数据模型的设计对查询性能有很大的影响。通常来说,ClickHouse适合存储大量的、高维度的、宽表格式的数据,尽量避免使用嵌套数据结构和频繁的JOIN操作。

数据预处理:在数据写入ClickHouse之前,需要对数据进行预处理,包括去重、数据清洗、数据格式转换等操作。同时,在进行批量写入时,可以使用管道插入方式(pipeline insert)和批量写入方式(bulk insert)来提高写入性能

索引设计:ClickHouse的索引方式与传统的B树索引不同,它采用了基于跳表的LSM-tree索引和Bloom Filter过滤器。为了提高查询性能,需要针对实际的查询场景进行索引的设计,尽量避免使用不必要的索引,以减少数据写入和查询时的开销。

配置优化:ClickHouse的性能和可靠性受到配置参数的影响,需要根据实际的硬件环境和数据规模进行调优。例如,可以调整缓存大小、线程池大小、并发度等参数,以最大限度地利用系统资源和提高查询性能。

查询优化:在进行查询时,需要注意避免全表扫描和跨分区查询等操作,可以通过预聚合、分区剪枝、数据分片等方式来优化查询。同时,ClickHouse提供了多种查询优化工具和语法,例如对于多表查询可以使用查询优化器(query optimizer)来提高查询性能。

总之,ClickHouse的优化需要结合实际的数据特点和查询场景,从多个方面进行综合优化,以提高系统的性能和可靠性。

建表方面的优化:
1.使用最小的数据类型:在定义列时,应尽可能使用最小的数据类型。例如,使用UInt8而不是UInt64,可以降低内存使用和提高查询速度。
2.使用分区:将表按照时间或其他相关维度进行分区,可以提高查询速度和降低查询成本。分区可以使得查询只需要扫描部分数据而不是整个表。
3.选择合适的引擎:ClickHouse 支持多种存储引擎,如 MergeTree、ReplacingMergeTree、SummingMergeTree 等。不同的引擎适用于不同的场景,根据数据的读写特性选择合适的引擎可以提高性能。
4.使用压缩:ClickHouse 支持对数据进行压缩存储,可以降低磁盘和网络的 IO 成本,并提高查询速度。
5.分片:选择数据粒度细的列分片。可以将数据均匀的分布在集群节点中,可以将查询任务分配给多台机器进行分布式查询
6.索引:数据重复率少的,查询频率高的在前
7.不使用nullable:每个列字段会被存储在一个.bin中,如果声明为nullable则需要单独建一个.NULL.BIN文件来保存null值,意味着读写会多出一倍的额外操作
8.在建表时,可以通过设置 max_rows_to_group_by 和 group_by_overflow_mode 参数来预分配空间,以避免数据写入时频繁进行内存分配。
9.合理设置 TTL:如果数据具有时效性,可以设置 TTL 参数来自动删除过期数据,以避免数据占用过多存储空间。
10.调整查询并发度:ClickHouse 支持调整查询并发度,可以通过调整 max_threads 参数来提高查询速度。当查询较慢时,可以适当增加并发度来提高查询速度。
11.使用预编译查询:ClickHouse 支持预编译查询,可以将查询语句缓存起来,避免重复编译查询语句,从而提高查询速度。

查询优化:
1.select:1)不使用select * 2)指定分区 3)预计算 4)拒绝子查询
2.where 1)谓词下推(把外层的查询条件移到内层,比如把分区从外层下推到内层) 2)prewhere(开启prewhere后,只有prewhere中的列会被全部读取,其余列只会读取prewhere表达式中=true的部分)
3.join查询 1)左大右小(在join的时候右表会被全部加载到内存中和左表比较) 2)谓词下推 3)避免多表join 4)global join (global关键字可以使右表只在接收查询请求的那个节点查询一次,将其分发到其他节点上,如果不加的话每个节点都会请求一次,造成很大的开销)文章来源地址https://www.toymoban.com/news/detail-594224.html

到了这里,关于大数据场景下clickhouse查询时长优化sop的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 【性能优化】MySql数据库查询优化方案

    【性能优化】MySql数据库查询优化方案

    了解系统运行效率提升的整体解决思路和方向 学会MySQl中进行数据库查询优化的步骤 学会看慢查询、执行计划、进行性能分析、调优 ​关于这个问题,我们通常首先考虑的是硬件升级,毕竟服务器的内存、CPU、磁盘IO速度 、网络速度等都是制约我们系统快慢的首要因素。硬

    2024年02月03日
    浏览(15)
  • 数据库查询优化

    数据库查询是现代软件系统中不可避免的一部分。随着数据量的增加,查询速度变慢已经成为一个普遍存在的问题。为了解决这个问题,以下是一些数据库查询优化的方法: 索引优化:索引可以加速查询速度,但是索引的使用也会带来一些开销。因此,需要根据查询的情况对

    2024年02月07日
    浏览(11)
  • 数据库索引优化与查询优化——醍醐灌顶

    数据库索引优化与查询优化——醍醐灌顶

    哪些维度可以进行数据库调优 索引失效、没有充分利用到索引-一索引建立 关联查询太多JOIN (设计缺陷或不得已的需求) --SQL优化 服务器调优及各个参数设置 (缓冲、线程数等)–调整my.cnf 数据过多–分库分表 关于数据库调优的知识点非常分散。不同的 DBMS,不同的公司,不同

    2024年02月15日
    浏览(11)
  • 【个人笔记】ClickHouse 查询优化

    ClickHouse是OLAP(Online analytical processing)数据库,以速度见长。ClickHouse为什么能这么快?有两点原因: 架构优越 列式存储 索引 数据压缩 向量化执行 资源利用 关注底层细节 但是,数据库设计再优越也拯救不了错误的使用方式,本文以MergeTree引擎家族为例讲解如何对查询优化

    2024年01月17日
    浏览(11)
  • 性能超越 Clickhouse | 物联网场景中的毫秒级查询案例

    性能超越 Clickhouse | 物联网场景中的毫秒级查询案例

    物联网(Internet of Things,简称 IoT)是指通过各种信息传感、通信和 IT 技术来实时连接、采集、监管海量的传感设备,从而实现对现实世界的精确感知和快速响应,继而实现自动化、智能化管理。在查询 IoT 设备状态的场景下,吞吐量和时延是两个重要的性能指标。 在工业物

    2024年02月07日
    浏览(12)
  • java查询数据库百万条数据,优化之:多线程+数据库

    java查询数据库百万条数据,优化之:多线程+数据库

    今天去面试时hr问了个关于大量数据查询的问题。 面试官:“我们公司是做数据分析的,每次需要从数据库中查询100万条数据进行分析,该接口不能用分页(不限制具体怎么实现),请问怎么优化sql或者java代码呢??” 如果用普通查询需要5分多分钟才查询完毕,所以我们用

    2024年02月15日
    浏览(11)
  • for循环查询数据库优化(挺好用的)

    前段时间在完成一个列表功能的时候发现我for循环里嵌套了2个查询语句,然后就感觉太影响性能了,而且也体现一个人的水平, 这里我举下例子(方便回忆)。 如果性能还是没有得到解决的话,建议结合定时器以及检查sql是否失效,或者走索引。 1.sql优化 sql优化 2.数据库做

    2023年04月08日
    浏览(11)
  • 优化索引粒度参数提升ClickHouse查询性能

    当对高基数列进行过滤查询时,总是希望尽可能跳过更多的行。否则需要处理更多数据、需要更多资源。ClickHouse缺省在MergeTree表读取8192行数据块,但我们可以在创建表时调整该 index_granularity 参数。本文通过示例说明如何调整该参数优化查询性能。 下面示例,创建表并插入

    2024年02月11日
    浏览(11)
  • java八股文面试[数据库]——慢查询优化

    java八股文面试[数据库]——慢查询优化

    分析慢查询日志 直接分析慢查询日志, mysql使用 explain + sql语句进行模拟优化器来执行分析。 oracle使用explain plan for + sql语句进行模拟优化器来执行分析。 table | type | possible_keys | key |key_len | ref | rows | Extra EXPLAIN列的解释: table 显示这一行的数据是关于哪张表的 type 这是重要的

    2024年02月10日
    浏览(13)
  • mysql数据库递归查询树形结构(适用场景:菜单多级分类,多级关联评论查询),用strea流把list转成树的方法详解

    mysql数据库递归查询树形结构(适用场景:菜单多级分类,多级关联评论查询),用strea流把list转成树的方法详解

    层次关系: 现在的需求是把这个层级关系,在前端显示出来,后端的处理方法有两种: 1.直接把全部的数据从数据库中拿到,然后在java代码里面使用树形结构来进行解析,但是这种做法只能在数据量比较小的时候使用,然后数据量一大会造成内存溢出 2.在mysql中创建一个函数

    2024年02月05日
    浏览(11)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包