小公司,希望部署自己的 Clickhouse 数据库,在经过了一些初步测试之后发现这个数据库的配置较为复杂,希望请教一些细节问题避免走太多弯路,一年的原始数据量大概在 10-20TB 。
我们希望可以通过视频会议或者线下的方式(上海)和我们简单交流,可以解决我们提出的一些具体问题。
绿色软件:YnVubmthbF8zNg==,请备注 Clickhouse
1
NoobPhper 168 天前
这种体量的 数据 是单表吗? 如果是自己核心业务, 建议上云吧, 要不心里负担会很重的..
|
2
superchijinpeng 168 天前
可以用 sr, ck 运维到死
|
3
dlmy 168 天前 1
你的描述太粗糙了,可以更加详细一点。
比如: 你们预算多少?需要投入多少时间? 什么业务?存储的什么数据?数据增量多少? 具体问题是哪方面?部署?规划?架构? 如果是较为核心的业务数据,建议公司招个全职的 ClickHouse 绝活哥。 如果是通过类似于 Kafka + Flink + OPS->DWD->DWM->DWS->ADS + ClickHouse 实现可视化数据平台的,建议找个懂 Java 跟大数据的架构师帮你们好好规划一下。 还有,ClickHouse 绝对不仅仅是部署,“会用“ 跟 “用好“ 是两个概念。 |
4
colinlikepotatos 168 天前
单机自己部署,你这个体量 怎么也的上个小集群吧,别自己搞了,不大不小 上云是最划算的
|
5
kneo 168 天前 via Android
据我所知这东西挺折腾的,特别是升级经常出问题。反正不是花点钱找人帮忙装好就一劳永逸的。你们得做好长期战斗的准备。
|
6
weijancc 168 天前
@dlmy #3 我就自己记录下统计数据, 2g 内存的机器就能流畅运行 docker clickhouse, 目前 3000w 数据, 也不用运维啥, clickhouse 挺牛逼的.
|
7
dlmy 168 天前 1
@weijancc
你这数据体量小的可怕,很多问题都还没暴露出来。 我做的这个项目,每天 5 亿+ 的数据量,使用 Flink 做实时计算,Kafka 作为数据流转容器,经过多层级数仓,最终入库 ClickHouse 。 因为公司数据都存储在 IDC 机房,所以 ClickHouse 也部署在里面,每次服务器一打补丁或者 ClickHouse 升级就炸,还经常出现一些莫名其妙的问题,偶尔来几个疑难杂症折腾人。 后面高薪挖了 3 个 ClickHouse 绝活哥,从架构层面统筹、资源层面规划、使用层面整改... 现在出问题的次数很少了。 ClickHouse 是挺复杂的,我搞了两年,理论知识没问题,但一出实际的生产问题就开始头痛,尤其是一些找不到原因的问题。 楼下有很多人一张嘴就上云,但是很多公司的核心数据都是放在自建的 IDC 机房内,这是公司最为核心的数据资产,怎么可能上云。 |
8
dode 168 天前
我觉得 clickhouse 是列数据库,在频繁处理单列数据时,比普通数据库效率,性能高
|
9
standchan 168 天前
上云,有问题找云的人就行了
|
10
kahloy OP @dlmy #3 我们不熟悉 Clickhouse 绝活哥的市场价格等等,所以希望先了解一下市场。 预算,时间,目前看还是比较紧的,而且其实已经能运行了,但是如您所说,“用不好”,所以想具体了解一下市场。增量数据就是每年 10-20TB 的日志,运行记录等等。
您是否方便推荐一下 Clickhouse 的绝活哥,大家喝个咖啡简单讨论一下? |
12
kahloy OP @superchijinpeng SR 是 StarRock?
|
13
huigeer 168 天前
CK 用 k8s 性能会打折扣吧,本身这玩意的并发性就不好,
|
15
liprais 168 天前
这种数据量用 pg 就行了用啥 ck
|
16
huigeer 168 天前
招一个懂 CK 的运维吧
|
18
kahloy OP @colinlikepotatos 硬要求就是不上云,所以云就算了... 我们自己会买小集群
|
19
luciankaltz 168 天前
|
20
yingqi1 168 天前
|
21
yjhatfdu2 168 天前 1
加了微信,clickhouse 有一定经验(其他数据库可能也有),可以无偿回答一些不是很费时间的问题,就当交流
|
22
28Sv0ngQfIE7Yloe 168 天前
先说场景,再聊需求,如果单纯 OLAP ,我这边体验下来 Starrock 比 CH 升级更平滑,运维心智负担更小
|
23
kahloy OP @luciankaltz 方便加微信简单聊聊吗?
|
24
huigeer 168 天前
要不试试百度开源的 Apache Doris
|
25
sampeng 168 天前
ClickHouse 我一直认为是手动挡的数库,他啥都能干,但所有事都是手动挡
|
26
dlmy 168 天前
@kahloy #10
感觉你们像摸着石头过河,很多问题还没想明白,上面一给压力,下面就急的不得了。 我们前期是把所有东西都部署在 k8s 上,简单又方便,直接一把梭,能用较少的人力跟资源来支持公司的业务。 后面公司业务起来之后,数据激增,k8s 上部署的一些东西问题就多了起来,慢慢的成为了技术债务。 后续像工作中常用的中间件,比如:MySQL 、Redis 、Kafka 、Elasticsearch 、ClickHouse ,就慢慢的全部部署到物理机上去了... 所以,首先你们是如何规划的,ClickHouse 是部署在哪里,能分配的资源(人力资源+服务器资源)是多少,这些得先想明白了。 还有,目前市面上的 ClickHouse 绝活哥,年包不会少于 60w 。我司挖了 1 个阿里的、2 个神策的 ClickHouse 绝活哥,3 个人一年的人力成本都快 200w 了,后面还得持续投入,所以玩这个是很花钱的。 如果公司业务不是深度依赖 ClickHouse ,真没必要招这类绝活哥。 刚发消息给了他们,看谁对这个有兴趣吧! |
27
hero1874 168 天前
你这个数据量要不考虑下,starrocks 和 doris ?我司 ck 当时我负责,一把辛酸泪,在后面又调研验证在确定满足我们业务之后,又替换成了 doris ,总得来说运维方面让我轻松太多了 ,在运算速度也不会差了 ck ,可以调研一下看看 。
|
28
zhenjiachen 168 天前
有 k8s 了可以试试 https://github.com/Altinity/clickhouse-operator ,只需要自己部署 ck ,然后写个 yaml 就能启动 ck 了,版本升级和配置管理很方便
|
29
wizzer 168 天前
TDengine 呗,虽然集群部署复杂点,但是比 ck 好多了
|
30
ddkk1112 168 天前
doris 吧,集群运维比 clickhouse 轻松不少
|
31
kahloy OP @zhenjiachen 用了, 但是问题是这个没办法配置 clickhouse-keeper ,一直在重启
|
32
drrrtt 168 天前
用了这么久 CK 总结下来,就是他有一个巨大的优点就是够快够小,但这也是他唯一的优点了。分布式返回结果不一致,魔法比较多,运维困难,文档一泡污。没有绝活哥,那你们就得有成为绝活哥的觉悟。
我们现在在从 Clickhouse 迁移 Starrocks ,原来以为 SR 的速度会慢点,结果发现没有任何业务的实时性受影响。 |
35
zhenjiachen 167 天前
@kahloy clickhouse-operator 还不支持 keeper ,只能自己部署一套 zookeeper
|
36
iluckypig 167 天前
ck 这玩意快是真的快,但运维管理那一套感觉和手搓汽车一个档次,难搞😂
|
37
dwu8555 167 天前 via iPhone
postgres+citus 能不能破?
|