ClickHouse分布式部署搭建单分片二副本集群

搭建单分片二副本集群,使用MergeTree引擎测试数据同步

服务器:

127.0.0.1 clickhouse

127.0.0.2 clickhouse + keeper

结构图

1.修改hosts

vi /etc/hosts

添加需要部署的ip和名字

127.0.0.1 node1
127.0.0.2 node2

2. node1配置文件修改

2.1 修改/etc/clickhouse-server/user.xml
<clickhouse>
    <profiles>
        <!-- Default settings. -->
       <default>
      	<!--默认值为0,表示不启用原子写入;改为与smartbi_replica集群中的副本数相等-->
        	<insert_quorum>2</insert_quorum>
      	<!--默认值为600000毫秒(10分钟);改为30分钟以防止写入和同步副本超时-->
        	<insert_quorum_timeout>1800000</insert_quorum_timeout>
        </default>
        <!-- Profile that allows only read queries. -->
        <readonly>
            <readonly>1</readonly>
        </readonly>
    </profiles>
</clickhouse>
2.2 修改/etc/clickhouse-server/config.d/metrika.xml
<?xml version="1.0"?>
<yandex>
    <clickhouse_remote_servers>
         <smartbi>
			<!-- 数据分片1  -->
            <shard>
              <!-- 可选的。写入分布式表时是否只将数据写入其中一个副本。默认值:false(将数据写入所有副本)。 -->
                <internal_replication>false</internal_replication>
                <replica>
					<!-- host:数据分片节点,可以写机器名,ip地址。-->
					<host>node1</host>
					<!-- port:消息传递TCP端口,默认9000,不要与http端口混淆 -->
                    <port>9000</port>
					<!-- user:用于连接远程服务器的用户名。默认值:default。该用户必须有权限访问该远程服务器。访问权限配置在 users.xml 文件中。 -->
                    <user>default</user>
					<!-- password:用于连接远程服务器的密码。默认为空,users.xml 文件中配置。 -->
                   <password></password>
                </replica>
                <replica>
                    <host>node2</host>
                    <port>9000</port>
                    <user>default</user>
                    <password></password>
                </replica>
            </shard>
        </smartbi>
    </clickhouse_remote_servers>

    <!--zookeeper相关配置-->
    <zookeeper-servers>
		<!-- zookeeper节点1-->
        <node index="1">
			<!-- host:zookeeper服务器地址,可以写机器名,ip地址。-->
            <host>node2</host>
			<!-- port:zookeeper服务端口,默认2181。-->
            <port>9181</port>
        </node>
	<!-- 定义用户名和密码,ZooKeeper需要它才能访问请求的zNode,可选项 -->
	<!-- <identity>admin:manager</identity> -->
    </zookeeper-servers>
        <!-- 本节点副本名称,根据节点修改-->
    <macros>
        <replica>node1</replica>
    </macros>
        <!-- 监听网络 -->
    <networks>
        <ip>::/0</ip>
    </networks>
        <!-- 数据压缩算法  -->
    <clickhouse_compression>
        <case>
            <min_part_size>10000000000</min_part_size>
            <min_part_size_ratio>0.01</min_part_size_ratio>
            <method>lz4</method>
        </case>
    </clickhouse_compression>
</yandex>
2.3 修改/etc/clickhouse-server/config.xml 
<!-- 当前机器的主机名,根据节点修改,需配置到hosts中 -->
<interserver_http_host>node1</interserver_http_host>

<!-- 开启远程访问 -->
<listen_host>0.0.0.0</listen_host>

<include_from>/etc/clickhouse-server/config.d/metrika.xml</include_from> 
<!-- 导入metrika.xml的clickhouse_remote_servers -->
<remote_servers incl="clickhouse_remote_servers" />
<!-- 导入metrika.xml的zookeeper-servers -->
<zookeeper incl="zookeeper-servers" optional="true" /> 

<macros incl="macros" optional="true" />

3. node2配置文件修改

3.1 修改/etc/clickhouse-server/user.xml
<clickhouse>
    <profiles>
        <!-- Default settings. -->
       <default>
      	<!--默认值为0,表示不启用原子写入;改为与smartbi_replica集群中的副本数相等-->
        	<insert_quorum>2</insert_quorum>
      	<!--默认值为600000毫秒(10分钟);改为30分钟以防止写入和同步副本超时-->
        	<insert_quorum_timeout>1800000</insert_quorum_timeout>
        </default>
        <!-- Profile that allows only read queries. -->
        <readonly>
            <readonly>1</readonly>
        </readonly>
    </profiles>
</clickhouse>
3.2 修改/etc/clickhouse-server/config.d/metrika.xml
<?xml version="1.0"?>
<yandex>
    <clickhouse_remote_servers>
         <smartbi>
			<!-- 数据分片1  -->
            <shard>
              <!-- 可选的。写入分布式表时是否只将数据写入其中一个副本。默认值:false(将数据写入所有副本)。 -->
                <internal_replication>false</internal_replication>
                <replica>
					<!-- host:数据分片节点,可以写机器名,ip地址。-->
					<host>node1</host>
					<!-- port:消息传递TCP端口,默认9000,不要与http端口混淆 -->
                    <port>9000</port>
					<!-- user:用于连接远程服务器的用户名。默认值:default。该用户必须有权限访问该远程服务器。访问权限配置在 users.xml 文件中。 -->
                    <user>default</user>
					<!-- password:用于连接远程服务器的密码。默认为空,users.xml 文件中配置。 -->
                   <password></password>
                </replica>
                <replica>
                    <host>node2</host>
                    <port>9000</port>
                    <user>default</user>
                    <password></password>
                </replica>
            </shard>
        </smartbi>
    </clickhouse_remote_servers>

    <!--zookeeper相关配置-->
    <zookeeper-servers>
		<!-- zookeeper节点1-->
        <node index="1">
			<!-- host:zookeeper服务器地址,可以写机器名,ip地址。-->
            <host>node2</host>
			<!-- port:zookeeper服务端口,默认2181。-->
            <port>9181</port>
        </node>
	<!-- 定义用户名和密码,ZooKeeper需要它才能访问请求的zNode,可选项 -->
	<!-- <identity>admin:manager</identity> -->
    </zookeeper-servers>
        <!-- 本节点副本名称,根据节点修改-->
    <macros>
        <replica>node2</replica>
    </macros>
        <!-- 监听网络 -->
    <networks>
        <ip>::/0</ip>
    </networks>
        <!-- 数据压缩算法  -->
    <clickhouse_compression>
        <case>
            <min_part_size>10000000000</min_part_size>
            <min_part_size_ratio>0.01</min_part_size_ratio>
            <method>lz4</method>
        </case>
    </clickhouse_compression>
</yandex>
3.3 修改/etc/clickhouse-server/config.xml 
<!-- 当前机器的主机名,根据节点修改,需配置到hosts中 -->
<interserver_http_host>node2</interserver_http_host>

<!-- 开启远程访问 -->
<listen_host>0.0.0.0</listen_host>

<include_from>/etc/clickhouse-server/config.d/metrika.xml</include_from> 

<remote_servers incl="clickhouse_remote_servers" />
<!-- 自己有配置无需从外面导入 -->
<!-- <zookeeper incl="zookeeper-servers" optional="true" /> -->

<macros incl="macros" optional="true" />

<!-- 只在需要启动clickhouse-keeper的节点上使用此配置,根据节点修改 -->
<keeper_server>
    <!-- keeper服务的端口 -->
    <tcp_port>9181</tcp_port>
    <!-- keeper服务的server_id,根据节点修改 -->
    <server_id>1</server_id>
    <!-- keeper服务的日志存储路径,可以自行指定,此目录需要配置clickhouse用户的读写权限。 -->
    <log_storage_path>/var/lib/clickhouse/coordination/log</log_storage_path>
    <!-- keeper服务的快照存储路径,可以自行指定,此目录需要配置clickhouse用户的读写权限。 -->
    <snapshot_storage_path>/var/lib/clickhouse/coordination/snapshots</snapshot_storage_path>
         
    <!-- keeper服务的其他参数信息,保持默认即可 -->
    <coordination_settings>
        <operation_timeout_ms>10000</operation_timeout_ms>
        <session_timeout_ms>30000</session_timeout_ms>
        <raft_logs_level>trace</raft_logs_level>
    </coordination_settings>
 
    <raft_configuration>
        <!-- keeper服务节点配置信息 -->
        <server>
            <id>1</id>
            <hostname>node2</hostname>
            <port>9444</port>
        </server>
    </raft_configuration>
</keeper_server>

<!-- keeper配置标签起始点 -->
<zookeeper>
  <!-- keeper节点1配置 -->
  <node>
    <host>node2</host>
    <port>9181</port>
  </node>
</zookeeper>

4.创建MergeTree引擎本地表和分布式表,测试副本间数据同步情况

1. 在任意节点执行sql创建本地表:

create table smp_local ON CLUSTER smartbi 
(ID Int8,  
Name String, 
BirthDate Date 
) ENGINE = MergeTree() 
PARTITION BY toYYYYMMDD(BirthDate)  ORDER BY (Name, BirthDate) SETTINGS index_granularity = 8192;
  • 可以看到同分片的所有副本都有了新建的本地表

  • 上面sql中的 smartbi 为集群名,定义在配置文件中

2. 在任意节点执行sql创建分布式表:

CREATE TABLE smp_all ON CLUSTER smartbi (ID Int8,  \
Name String, \ 
BirthDate Date \
) ENGINE = Distributed(smartbi, smp, smp_local, rand());
  • 可以看到同分片的所有副本都有了新建的分布式表

  • 上面sql中的参数: Distributed(集群名, 数据库名, 本地表名, 分片方式);

 3. 插入数据,测试副本间同步情况\

  • 在node1节点插入数据到本地表

insert into smp_local (ID,Name,BirthDate)values(1,'zhangsan','2001-10-12');
insert into smp_local (ID,Name,BirthDate)values(2,'lisi','2002-11-13');

查询node1本地表,可以看到存在新增的两条数据

查询node1分布式表,可以看到存在新增的两条数据

查询node2分布式表和本地表,发现不存在新增的两条数据

结论:直接将数据插入到某一节点的本地表,数据不会同步到其他副本

  • 在node1节点插入数据到分布式表

insert into smp_all (ID,Name,BirthDate)values(4,'zhaoliu','2004-09-02');
insert into smp_all (ID,Name,BirthDate)values(5,'tianqi','2005-08-22');

查询node1本地表,可以看到存在新增的两条数据

查询node1分布式表,可以看到存在新增的两条数据

查询node2分布式表和本地表,可以看到存在新增的两条数据

结论:将数据插入到任意节点的分布式表,数据会同步到其他副本

5. 模拟某一节点宕机后数据同步情况

  • 在node1节点关闭clickhouse: sudo service clickhouse-server stop

  • 在node1关闭期间,在node2节点往分布式表中插入数据

  • 启动node1节点clickhouse,查看node1本地表和分布式表,发现宕机期间在node2节点插入的数据都存在

  • 结论:某一节点宕机一段时间后再恢复,增量数据会同步到宕机节点

补充

启动clickhouse 

sudo service clickhouse-server start 

停止clickhouse 

sudo service clickhouse-server stop

重启clickhouse 

sudo service clickhouse-server restart

登录clickhouse

clickhouse-client --host=127.0.0.1 --port=9000 --user=default --password=xxxx

查看ClickHouse Keeper 是否启动

echo mntr | nc localhost 9181

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

雨会停rain

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值