虎牙裸舞 Doris(一)-简介、架构、编译、装置和数据表的基本使用-CSDN博客

发布日期：2025-01-09 10:53 点击次数：103

目次虎牙裸舞

1、Doris简介

2、Doris网址

3、Doris架构

3、编译和装置

3.4.1 FE 扩容和缩容

3.4.2 BE 扩容和缩容

3.4.3 Broker 扩容缩容

3.3.1、创建目次并拷贝编译后的文献

3.3.2、部署 FE 节点

3.3.3、配置 BE 节点

3.3.4、在 FE 中添加统共 BE 节点

3.3.5、启动 BE

3.3.6、部署 FS_Broker（可选）

3.2.1、装置Docker环境

3.2.2、使用Docker 开采镜像编译

3.1、软硬件需求

3.2、编译

3.3、集群部署

3.4、扩容和缩容

4、数据表的基本使用

4.3.1、建表语法

4.3.2、字段类型

4.3.3、Doris建示意例

4.3.4、数据区分

4.3.5 数据模子

4.3.6 动态分区

4.3.7 Rollup

4.3.8 死一火视图

4.3.9 修改表

4.3.10 删除数据（Delete）

4.3.3.1、Range Partition

4.3.3.2、 List Partition

4.3.4.3.1 replication_num

4.3.4.3.2、storage_medium & storage_cooldown_time

4.3.4.2.1、Partition

4.3.4.2.2、Bucket

4.3.4.2.3、使用复合分区的场景

4.3.4.2.4、多列分区

4.3.4.1、列界说

4.3.4.2、分区与分桶

4.3.4.3、PROPERTIES

4.3.4.4、ENGINE

4.3.5.1.2 示例二：保留明细数据

4.3.5.1.3 示例三：导入数据与已独特据团员

4.3.5.1 Aggregate 模子

4.3.5.2 Uniq 模子

4.3.5.3 Duplicate 模子

4.3.5.4 数据模子的遴荐提议

4.3.6.3.1 主要参数

4.3.6.3.2 创建历史分区的参数

4.3.6.3.3 创建历史分区规则

4.3.6.3.4 创建历史分区例如

4.3.6.3.5 属目事项

4.3.6.1 旨趣

4.3.6.2 使用方式

4.3.6.3 动态分区规则参数

4.3.6.4 示例

4.3.7.3.1 前缀索引

4.3.7.3.2 ROLLUP 调整前缀索引

4.3.7.1 基本想法

4.3.7.2 Aggregate 和 Uniq 模子中的 ROLLUP

4.3.7.3 Duplicate 模子中的 ROLLUP

4.3.7.4 ROLLUP 的几点阐扬

4.3.8.5.1 案例一

4.3.8.5.2 案例二：猜想告白的 pv、uv

4.3.8.5.3 案例三

4.3.8.4.1 创建死一火视图

4.3.8.4.2 查询

4.3.8.4.3 查询自动匹配

4.3.8.4.4 最优旅途遴荐

4.3.8.4.5 查询改写

4.3.8.4.6 使用及猖狂

4.3.8.1 适用场景

4.3.8.2 上风

4.3.8.3 死一火视图 VS Rollup

4.3.8.4 死一火视图旨趣

4.3.8.5 案例演示

4.3.9.1 rename

4.3.9.2 partition

4.3.9.3 rollup

4.3.9.4 表结构变更

4.3.10.1 DELETE FROM Statement（条目删除）

4.3.10.2 DROP PARTITION Statement（删除分区）

4.2.1、Row&Column

4.2.2、Partition&Tablet

4.1、创建用户和数据库

4.2、Doris中数据表的基本想法

4.3、建示意例

1、Doris简介

Doris是由百度大数据研发，是一个当代化的MPP（Massively Parallel Processing）大界限并行处理的分析型数据库产物。仅需亚秒级反当令刻即可获取查询终结，灵验地救援及时数据分析。

Apache Doris 的漫步式架构尽头直快，易于运维，何况不错救援 10PB 以上的超大数据集。

Apache Doris 不错缓和多种数据分析需求，例如固定历史报表，及时数据分析，交互式

数据分析和探索式数据分析等。

图片

2、Doris网址

1、官网地址

2、文档稽查地址

3、下载地址

4、github地址

3、Doris架构

图片

Doris 的架构很直快，只设FE(Frontend)、BE(Backend)两种变装、两个进程，不依赖于外部组件，粗拙部署和运维，FE、BE齐可线性膨胀。

Frontend（FE），存储、难得集群元数据；防御采选、理解查询央求，推敲查询筹备，疗养查询奉行，复返查询终结。主要有三个变装：

1）Leader 和Follower：主若是用来达到元数据的高可用，保证单节点宕机的情况下，元数据梗概及时地在线复原，而不影响统共这个词管事。

2）Observer：用来膨胀查询节点，同期起到元数据备份的作用。如果在发现集群压力尽头大的情况下，需要去膨胀统共这个词查询的期间，那么不错加observer 的节点。observer 不参与任何的写入，只参与读取。

Backend（BE），防御物理数据的存储和猜想；依据FE 生成的物理筹备，漫步式地奉行查询。

数据的可靠性由BE 保证，BE 会对统共这个词数据存储多副本或者是三副本。副本数可凭据需求动态调整。

MySQLClient：Doris借助MySQL契约，用户使用淘气MySQL的ODBC/JDBC以及MySQL的客户端，齐不错顺利拜访Doris。

Broker：Broker为一个独处的无景况进程。封装了文献系统接口，提供Doris读取远端存储系统华文献的期间，包括HDFS，S3，BOS等。

3、编译和装置

3.1、软硬件需求

玄虚

Doris 行为一款开源的 MPP 架构 OLAP 数据库，梗概运行在绝大多数主流的商用管事器上。为了梗概充分运用 MPP 架构的并发上风，以及 Doris 的高可用本性，咱们提议 Doris 的部署受命以下需求：

Linux 操作系统版块需求

Linux 系统版块

CentOS

7.1 及以上

Ubuntu

16.04 及以上

软件需求

软件版块

Java

1.8 及以上

GCC

4.8.2 及以上

操作系统装置要求

建树系统最大掀开文献句柄数vi /etc/security/limits.conf * soft nofile 65536 * hard nofile 65536

时钟同步

Doris 的元数据要求时刻精度要小于5000ms，是以统共集群统共机器要进行时钟同步，幸免因为时钟问题激发的元数据不一致导致管事出现极端。

关闭交换分区（swap）

Linux交换分区会给Doris带来很严重的性能问题，需要在装置之前禁用交换分区

Liunx文献系统

这里咱们推选使用ext4文献系统，在装置操作系统的时候，请遴荐ext4文献系统。

开采测试环境

模块CPU内存磁盘汇聚实例数目

Frontend

8核+

8GB+

SSD 或 SATA，10GB+ *

千兆网卡

Backend

8核+

16GB+

SSD 或 SATA，50GB+ *

千兆网卡

1-3 *

分娩环境

模块CPU内存磁盘汇聚实例数目（最低要求）

Frontend

16核+

64GB+

SSD 或 RAID 卡，100GB+ *

万兆网卡

1-3 *

Backend

16核+

64GB+

SSD 或 SATA，100G+ *

万兆网卡

3 *

注1：

1、FE 的磁盘空间主要用于存储元数据，包括日记和 image。世俗从几百 MB 到几个 GB 不等。

2、BE 的磁盘空间主要用于存放用户数据，总磁盘空间按用户总额据量 * 3（3副本）猜想，然后再预留额外 40% 的空间用作后台 compaction 以及一些中间数据的存放。

3、一台机器上不错部署多个 BE 实例，然则只可部署一个 FE。如果需要 3 副本数据，那么至少需要 3 台机器各部署一个 BE 实例（而不是1台机器部署3个BE实例）。多个FE场地管事器的时钟必须保捏一致（允许最多5秒的时钟偏差）

4、测试环境也不错仅适用一个 BE 进行测试。履行分娩环境，BE 实例数目顺利决定了举座查询延长。

5、统共部署节点关闭 Swap。

6、FE 变装分为 Follower 和 Observer，（Leader 为 Follower 组中选举出来的一种变装，以下统称 Follower）。

FE 节点数据至少为1（1 个 Follower）。当部署 1 个 Follower 和 1 个 Observer 时，不错已矣读高可用。当部署 3 个 Follower 时，不错已矣读写高可用（HA）。

7、Follower 的数目必须为奇数，Observer 数目精真金不怕火。

8、凭据以往素养，当集群可用性要求很高时（比如提供在线业务），不错部署 3 个 Follower 和 1-3 个 Observer。如果是离线业务，提议部署 1 个 Follower 和 1-3 个 Observer。

9、Broker 是用于拜访外部数据源（如 HDFS）的进程。世俗，在每台机器上部署一个 broker 实例即可。

默许端标语：

实例称呼端口称呼默许端口通讯标的阐扬

be_port

9060

FE --> BE

BE 上 thrift server 的端口，用于采选来自 FE 的央求

webserver_port

8040

BE <–> BE

BE 上的 http server 的端口

heartbeat_service_port

9050

FE --> BE

BE 上心跳管事端口（thrift），用于采选来自 FE 的心跳

brpc_port

8060

FE <–> BE， BE <–> BE

BE 上的 brpc 端口，用于 BE 之间通讯

http_port

8030

FE <–> FE，用户 <–> FE

FE 上的 http server 端口

rpc_port

9020

BE --> FE， FE <–> FE

FE 上的 thrift server 端口，每个fe的配置需要保捏一致

query_port

9030

用户 <–> FE

FE 上的 mysql server 端口

edit_log_port

9010

FE <–> FE

FE 上的 bdbje 之间通讯用的端口

Broker

broker_ipc_port

8000

FE --> Broker， BE --> Broker

Broker 上的 thrift server，用于采选央求

当部署多个 FE 实例时，要保证 FE 的 http_port 配置调换。

部署前请确保各个端口在应有方进取的拜访权限。

IP 绑定

因为有多网卡的存在，或因为装置过 docker 等环境导致的臆造网卡的存在，兼并个主机可能存在多个不同的 ip。现时 Doris 并不成自动识别可用 IP。是以当遭受部署主机上有多个 IP 时，必须通过 priority_networks 配置项来强制指定正确的 IP。

priority_networks 是 FE 和 BE 齐有的一个配置，配置项需写在 fe.conf 和 be.conf 中。该配置项用于在 FE 或 BE 启动时，告诉进程应该绑定哪个IP。示例如下：

priority_networks=10.1.3.0/24

这是一种 CIDR 的示意方法。FE 或 BE 会凭据这个配置项来寻找匹配的IP，行为我方的 localIP。

属目：当配置完 priority_networks 并启动 FE 或 BE 后，只是保证了 FE 或 BE 自身的 IP 进行了正确的绑定。而在使用 ADD BACKEND 或 ADD FRONTEND 语句中，也需要指定和 priority_networks 配置匹配的 IP，不然集群无法诞生。例如：

BE 的配置为：priority_networks=10.1.3.0/24

然则在 ADD BACKEND 时使用的是：ALTER SYSTEM ADD BACKEND “192.168.0.1:9050”;

则 FE 和 BE 将无法浅近通讯。

这时，必须 DROP 掉这个添加造作的 BE，再利用用正确的 IP 奉行 ADD BACKEND。

FE 同理。

BROKER 现时莫得，也不需要 priority_networks 这个选项。Broker 的管事默许绑定在 0.0.0.0 上。只需在 ADD BROKER 时，奉行正确可拜访的 BROKER IP 即可。

表名大小写明锐性建树

doris默许为表名大小写明锐，如有表名大小写不解锐的需求需在集群运行化时进行建树。表名大小写明锐性在集群运行化完成后不可再修改。

详备参见变量中对于lower_case_table_names变量的先容。

3.2、编译

装置Doris，需要先通过源码编译，主要有两种方式：使用Docker开采镜像编译（推选）、顺利编译。顺利编译的方式，不错参考官网：https://doris.apache.org/zh-CN/installing/compilation.html

3.2.1、装置Docker环境

1）Docker要求CentOS系统的内核版块高于3.10，当先稽查系统内核版块是否缓和

uname -r

2）使用root权限登录系统，确保yum包更新到最新

sudo yum update -y

3）假如装置过旧版块，先卸载旧版块

cable av 国产

sudo yum remove docker docker-common docker-selinux docker-engine

4）装置yum-util用具包和devicemapper驱动依赖

sudo yum install -y yum-utils device-mapper-persistent-data lvm2

5）建树yum源（加速yum下载速率）

sudo yum-config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo

如果相接超时，不错使用alibaba的镜像源：

sudo yum-config-manager --add-repo

http://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo

6）稽查统共仓库中统共docker版块，并遴荐特定版块装置，一般可顺利装置最新版

yum list docker-ce --showduplicates | sort -r

7）装置docker

（1）装置最新自若版块的方式：

sudo yum install docker-ce -y #装置的是最新自若版块，因为repo中默许只开启stable仓库

（2）装置指定版块的方式：

sudo yum install -y

#例如：

sudoyum install docker-ce-20.10.11.ce -y

8）启动并加入开机启动

sudo systemctl start docker #启动

docker sudo systemctl enable docker #加入开机自启动

9）稽查Version，考证是否装置顺利

docker version

若出现Client和Server两部天职容，则讲授装置顺利。

3.2.2、使用Docker 开采镜像编译

1）下载源码并解压

通过wget下载（或者手动上传下载好的压缩包）。

wget

https://dist.apache.org/repos/dist/dev/incubator/doris/0.15/0.15.0-rc04/apache-doris-0.15.0-incubating-src.tar.gz

解压到/opt/software/

tar -zxvf apache-doris-0.15.0-incubating-src.tar.gz -C /opt/software

2）下载 Docker 镜像

docker pull apache/incubator-doris:build-env-for-0.15.0

不错通过以下号令稽查镜像是否下载完成。

docker images

3）挂载腹地目次运行镜像

以挂载腹地 Doris 源码目次的方式运行镜像，这么编译的产出二进制文献会存储在宿主

机中，不会因为镜像退出而隐藏。同期将镜像中 maven 的 .m2 目次挂载到宿主机目次，以

庄重每次启动镜像编译时，重复下载 maven 的依赖库。

docker run -it

-v /opt/software/.m2:/root/.m2

-v /opt/software/apache-doris-0.15.0-incubating-src/:/root/apachedoris-0.15.0-incubating-src/

\ apache/incubator-doris:build-env-for-0.15.0

4）切换到 JDK 8

alternatives --set java java-1.8.0-openjdk.x86_64

alternatives --set javac java-1.8.0-openjdk.x86_64

export JAVA_HOME=/usr/lib/jvm/java-1.8.0

5）准备 Maven 依赖

编译经由会下载好多依赖，不错将咱们准备好的 doris-repo.tar.gz 解压到 Docker 挂载的

对应目次，来幸免下载依赖的经由，加速编译。

tar -zxvf doris-repo.tar.gz -C /opt/software

也不错通过指定阿里云镜像仓库来加速下载：

vim /opt/software/apache-doris-0.15.0-incubating-src/fe/pom.xml在标签下添加： aliyun http://maven.aliyun.com/nexus/content/groups/public/vim /opt/software/apache-doris-0.15.0-incubating-src/be/pom.xml 在标签下添加： aliyun http://maven.aliyun.com/nexus/content/groups/public/

6）编译 Doris

sh build.sh

如果是第一次使用 build-env-for-0.15.0 或之后的版块，第一次编译的时候要使用如下号令：

sh build.sh --clean --be --fe --ui

因为 build-env-for-0.15.0 版块镜像升级了 thrift(0.9 -> 0.13)，需要通过–clean 号令强制

使用新版块的 thrift 生成代码文献，不然会出现不兼容的代码。

3.3、集群部署

主机 1主机 2主机 3

FE(LEADER)

FE(FOLLOWER)

FE(OBSERVER)

BROKER

分娩环境提议 FE 和 BE 分开。

3.3.1、创建目次并拷贝编译后的文献

1）创建目次并拷贝编译后的文献

mkdir /opt/module/apache-doris-0.15.0 cp -r

/opt/software/apache-doris-0.15.0-incubating-src/output

/opt/module/apache-doris-0.15.0

2）修改可掀开文献数（每个节点）

sudo vim /etc/security/limits.conf

soft nofile 65535

hard nofile 65535

soft nproc 65535

hard nproc 65535

重启遥远收效，也不错用 ulimit -n 65535 临时收效。

3.3.2、部署 FE 节点

1）创建 fe 元数据存储的目次

mkdir /opt/module/apache-doris-0.15.0/doris-meta

2）修改 fe 的配置文献

vim /opt/module/apache-doris-0.15.0/fe/conf/fe.conf

#配置文献中指定元数据旅途： meta_dir = /opt/module/apache-doris-0.15.0/doris-meta

#修改绑定 ip（每台机器修改成我方的 ip） priority_networks = 192.168.8.101/24

属目：

⚫ 分娩环境热烈提议单独指定目次不要放在 Doris 装置目次下，最佳是单独的磁盘（如果有 SSD 最佳）。

⚫ 如果机器有多个 ip，比如内网外网，臆造机 docker 等，需要进行 ip 绑定，才能正确识

别。

⚫ JAVA_OPTS 默许 java 最大堆内存为 4GB，提议分娩环境调整至 8G 以上。

3）启动 hadoop1 的 FE

/opt/module/apache-doris-0.15.0/fe/bin/start_fe.sh --daemon

3.3.3、配置 BE 节点

1）分发 BE

scp -r /opt/module/apache-doris-0.15.0/be hadoop2:/opt/module scp -r

/opt/module/apache-doris-0.15.0/be hadoop3:/opt/module

2）创建 BE 数据存放目次（每个节点）

mkdir /opt/module/apache-doris-0.15.0/doris-storage1 mkdir

/opt/module/apache-doris-0.15.0/doris-storage2

3）修改 BE 的配置文献（每个节点）

vim /opt/module/apache-doris-0.15.0/be/conf/be.conf

#配置文献中指定数据存放旅途： storage_root_path = /opt/module/apache-doris-0.15.0/dorisstorage1;/opt/module/apache-doris-0.15.0/doris-storage2

#修改绑定 ip（每台机器修改成我方的 ip） priority_networks = 192.168.8.101/24

属目：

⚫ storage_root_path 默许在 be/storage 下，需要手动创建该目次。多个旅途之间使用英文状

态的分号;分隔（临了一个目次后不要加）。

⚫ 不错通过旅途区别存储目次的介质，HDD 或 SSD。不错添加容量猖狂在每个旅途的末尾，通过英文景况逗号，离隔，如：

storage_root_path=/home/disk1/doris.HDD，50;/home/disk2/doris.SSD，10;/home/disk2/doris

阐扬：

/home/disk1/doris.HDD，50，示意存储猖狂为 50GB，HDD;

/home/disk2/doris.SSD，10，存储猖狂为 10GB，SSD；

/home/disk2/doris，存储猖狂为磁盘最大容量，默许为 HDD

⚫ 如果机器有多个 IP，比如内网外网，臆造机 docker 等，需要进行 IP 绑定，才能正确识别。

3.3.4、在 FE 中添加统共 BE 节点

BE 节点需要先在 FE 中添加，才可加入集群。不错使用 mysql-client 相接到 FE。

1）装置 MySQL Client

（1）创建目次

mkdir /opt/software/mysql-client/

（2）上传磋议以下三个 rpm 包到/opt/software/mysql-client/

➢ mysql-community-client-5.7.28-1.el7.x86_64.rpm

➢ mysql-community-common-5.7.28-1.el7.x86_64.rpm

➢ mysql-community-libs-5.7.28-1.el7.x86_64.rpm

（3）查验现时系统是否装置过 MySQL

sudo rpm -qa|grep mariadb

#如果存在，先卸载

sudo rpm -e --nodeps mariadb mariadb-libs mariadb-server

（4）装置

rpm -ivh /opt/software/mysql-client/*

2）使用 MySQL Client 相接 FE

mysql -h hadoop1 -P 9030 -uroot

默许 root 无密码，通过以下号令修改 root 密码。

SET PASSWORD FOR 'root’ = PASSWORD('000000’);

3）添加 BE

ALTER SYSTEM ADD BACKEND “hadoop1:9050”;

ALTER SYSTEM ADD BACKEND “hadoop2:9050”;

ALTER SYSTEM ADD BACKEND “hadoop3:9050”;

4）稽查 BE 景况

SHOW PROC '/backends’;

3.3.5、启动 BE

1）启动 BE（每个节点）

/opt/module/apache-doris-0.15.0/be/bin/start_be.sh --daemon

2）稽查 BE 景况

mysql -h hadoop1 -P 9030 -uroot -p

SHOW PROC '/backends’;

Alive 为 true 示意该 BE 节点存活。

3.3.6、部署 FS_Broker（可选）

Broker 以插件的神色，独处于 Doris 部署。如果需要从第三方存储系统导入数据，需要部署相应的 Broker，默许提供了读取 HDFS、百度云 BOS 及 Amazon S3 的 fs_broker。fs_broker 是无景况的，提议每一个 FE 和 BE 节点齐部署一个 Broker。

1）编译 FS_BROKER 并拷贝文献

（1）插足源码目次下的 fs_brokers 目次，使用 sh build.sh 进行编译

（2）拷贝源码 fs_broker 的 output 目次下的相应 Broker 目次到需要部署的统共节点上虎牙裸舞，更名为: apache_hdfs_broker。提议和 BE 或者 FE 目次保捏同级。

方法同 2.2。

2）启动 Broker

/opt/module/apache-doris-0.15.0/apache_hdfs_broker/bin/start_broker.sh

–daemon

3）添加 Broker

要让 Doris 的 FE 和 BE 知说念 Broker 在哪些节点上，通过 sql 号令添加 Broker 节

点列表。

（1）使用 mysql-client 相接启动的 FE，奉行以下号令：

mysql -h hadoop1 -P 9030 -uroot -p

ALTER SYSTEM ADD BROKER broker_name “hadoop1:8000”，“hadoop2:8000”，“hadoop3:8000”;

其中 broker_host 为 Broker 场地节点 ip；broker_ipc_port 在 Broker 配置文献中的

conf/apache_hdfs_broker.conf。

4）稽查 Broker 景况

使用 mysql-client 相接任一已启动的 FE，奉行以下号令稽查 Broker 景况：

SHOW PROC “/brokers”;

注：在分娩环境中，统共实例齐应使用守护进程启动，以保证进程退出后，会被自动拉

起，如 Supervisor（opens new window）。如需使用守护进程启动，在 0.9.0 及之前版块中，

需要修改各个 start_xx.sh 剧本，去掉临了的 & 标志。从 0.10.0 版块动手，顺利调用 sh

start_xx.sh 启动即可。

3.4、扩容和缩容

Doris 不错很粗拙的扩容和缩容 FE、BE、Broker 实例。

3.4.1 FE 扩容和缩容

不错通过将 FE 扩容至 3 个以上节点来已矣 FE 的高可用。

1）使用 MySQL 登录客户端后，不错使用 sql 号令稽查 FE 景况，目下就一台 FE

mysql -h hadoop1 -P 9030 -uroot -p

SHOW PROC '/frontends’;

也不错通过页面拜访进行监控，拜访 8030，账户为 root，密码默许为空无谓填写。

2）增多 FE 节点

FE 分为 Leader，Follower 和 Observer 三种变装。默许一个集群，只可有一个 Leader，不错有多个 Follower 和 Observer。其中 Leader 和 Follower 构成一个 Paxos 遴荐组，如果Leader 宕机，则剩下的 Follower 会自动选出新的 Leader，保证写入高可用。Observer 同步Leader 的数据，然则不参加选举。

如果只部署一个 FE，则 FE 默许等于 Leader。在此基础上，不错添加若干 Follower 和Observer。

ALTER SYSTEM ADD FOLLOWER “hadoop2:9010”;

ALTER SYSTEM ADD OBSERVER “hadoop3:9010”;

3）配置及启动 Follower 和 Observer

第一次启动时，启动号令需要添加参–helper leader 主机: edit_log_port：

（1）分发 FE，修改 FE 的配置（同 2.4.2）

scp -r /opt/module/apache-doris-0.15.0/fe hadoop2:/opt/module/

apache-doris-0.15.0

scp -r /opt/module/apache-doris-0.15.0/fe hadoop3:/opt/module/

apache-doris-0.15.0

（2）在 hadoop2 启动 Follower

/opt/module/apache-doris-0.15.0/fe/bin/start_fe.sh --helper

hadoop1:9010 --daemon

（3）在 hadoop3 启动 Observer

/opt/module/apache-doris-0.15.0/fe/bin/start_fe.sh --helper

hadoop1:9010 --daemon

4）稽查运功绩态

使用 mysql-client 相接到任一已启动的 FE。

SHOW PROC '/frontends’;

5）删除 FE 节点号令

ALTER SYSTEM DROP FOLLOWER[OBSERVER] “fe_host:edit_log_port”;

属目：删除 Follower FE 时，确保最终剩余的 Follower（包括 Leader）节点为奇数。

3.4.2 BE 扩容和缩容

1）增多 BE 节点

在 MySQL 客户端，通过 ALTER SYSTEM ADD BACKEND 号令增多 BE 节点。

2）DROP 方式删除 BE 节点（不推选）

ALTER SYSTEM DROP BACKEND “be_host:be_heartbeat_service_port”;

属目：DROP BACKEND 会顺利删除该 BE，何况其上的数据将不成再复原！！！是以咱们热烈不推选使用 DROP BACKEND 这种方式删除 BE 节点。当你使用这个语句时，会有对应的防误操作辅导。

3）DECOMMISSION 方式删除 BE 节点（推选）

ALTER SYSTEM DECOMMISSION BACKEND

“be_host:be_heartbeat_service_port”;

⚫ 该号令用于安全删除 BE 节点。号令下发后，Doris 会尝试将该 BE 上的数据向其他 BE 节点移动，当所独特据齐移动完成后，Doris 会自动删除该节点。

⚫ 该号令是一个异步操作。奉行后，不错通过 SHOW PROC '/backends’; 看到该 BE 节点的 isDecommission 景况为 true。示意该节点正在进行下线。

⚫ 该号令不一定奉行顺利。比如剩余 BE 存储空间不及以容纳下线 BE 上的数据，或者剩余机器数目不缓和最小副本数时，该号令齐无法完成，何况 BE 会一直处于

isDecommission 为 true 的景况。

⚫ DECOMMISSION 的程度，不错通过 SHOW PROC '/backends’; 中的 TabletNum 稽查，如果正在进行，TabletNum 将不断减少。

⚫ 该操作不错通过如下号令取消：

CANCEL DECOMMISSION BACKEND “be_host:be_heartbeat_service_port”;

取消后，该 BE 上的数据将看护现时剩余的数据量。后续 Doris 再行进行负载平衡。

3.4.3 Broker 扩容缩容

Broker 实例的数目莫得硬性要求。世俗每台物理机部署一个即可。Broker 的添加和删除不错通过以下号令完成：

ALTER SYSTEM ADD BROKER broker_name “broker_host:broker_ipc_port”;

ALTER SYSTEM DROP BROKER broker_name “broker_host:broker_ipc_port”;

ALTER SYSTEM DROP ALL BROKER broker_name;

Broker 是无景况的进程，不错精真金不怕火启停。天然，住手后，正在其上运行的功课会失败，重试即可。

4、数据表的基本使用

4.1、创建用户和数据库

1）创建test用户

mysql -h hadoop1 -P 9030 -uroot -p

create user 'test’ identified by 'test’;

2）创建数据库

create database test_db;

3）用户授权

grant all on test_db to test;

4.2、Doris中数据表的基本想法

在Doris中，数据齐以关连表（Table）的神色进行逻辑上的形容。

4.2.1、Row&Column

一张表包含行（Row）和列（Column）。Row 即用户的一瞥数据。Column 用于形容一瞥数据中不同的字段。

在默许的数据模子中，Column 只分为排序列和非排序列。存储引擎会按照排序列对数据进行排序存储，并诞生零散索引，以便在排序数据上进行快速查找。

而在团员模子中，Column 不错分为两大类：Key 和 Value。从业务角度看，Key 和Value 不错分别对应维度列和筹备列。从团员模子的角度来说，Key 列调换的行，会团员成一瞥。其中 Value 列的团员方式由用户在建表时指定。

4.2.2、Partition&Tablet

在 Doris 的存储引擎中，用户数据当先被区分红若干个分区（Partition），区分的规则世俗是按照用户指定的分区列进行范围区分，比如按期间区分。而在每个分区内，数据被进一

步的按照 Hash 的方式分桶，分桶的规则是要找用户指定的分桶列的值进行 Hash 后分桶。每个分桶等于一个数据分片（Tablet），亦然数据区分的最小逻辑单元。

Tablet 之间的数据是莫得杂乱的，独处存储的。Tablet 亦然数据出动、复制等操作的最小物理存储单元。

Partition 不错视为是逻辑上最小的经管单元。数据的导入与删除，齐不错或仅能针对一个 Partition 进行。

4.3、建示意例

4.3.1、建表语法

使用 CREATE TABLE 号令诞生一个表(Table)。更多详备参数不错稽查：

help create table;

建表语法：

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] [database.]table_name

(column_definition1[， column_definition2， …]

[， index_definition1[， index_definition12，]])

[ENGINE = [olap|mysql|broker|hive]]

[key_desc]

[COMMENT “table comment”];

[partition_desc]

[distribution_desc]

[rollup_index]

[PROPERTIES (“key”=“value”， …)]

[BROKER PROPERTIES (“key”=“value”， …)];

Doris建表是一个同步号令，号令复返顺利，即示意建表顺利。

Doris 救支援援单分区和复合分区两种建表方式。

1）复合分区：既有分区也有分桶

第一级称为 Partition，即分区。用户不错指定某一维度列行为分区列（现时只救援整型和时刻类型的列），并指定每个分区的取值范围。

第二级称为 Distribution，即分桶。用户不错指定一个或多个维度列以及桶数对数据进行 HASH 漫步。

2）单分区：只作念 HASH 漫步，即只分桶。

4.3.2、字段类型

字段类型名类型字节单元长度

TINYINT

1 字节

范围：-2^7 + 1 ~ 2^7 - 1

SMALLINT

2 字节

范围：-2^15 + 1 ~ 2^15 - 1

INT

4 字节

范围：-2^31 + 1 ~ 2^31 - 1

BIGINT

8 字节

范围：-2^63 + 1 ~ 2^63 - 1

LARGEINT

16 字节

范围：-2^127 + 1 ~ 2^127 - 1

FLOAT

4 字节

救援科学计数法

DOUBLE

12 字节

救援科学计数法

DECIMAL[(precision， scale)]

16 字节

保证精度的少量类型。默许是DECIMAL(10， 0)precision: 1 ~ 27scale: 0 ~ 9其中整数部分为 1 ~ 18不救援科学计数法

DATE

3 字节

范围：0000-01-01 ~ 9999-12-31

DATETIME

8 字节

范围：0000-01-01 00:00:00 ~ 9999-12-31 23:59:59

CHAR[(length)]

定长字符串。长度范围：1 ~ 255。默许为 1

VARCHAR[(length)]

变长字符串。长度范围：1 ~ 65533

BOOLEAN

与 TINYINT 一样，0 代表 false，1 代表 true

HLL

1~16385 个字节

hll 列类型，不需要指定长度和默许值、长度凭据数据的团员程度系统内限制，何况 HLL 列只可通过配套的 hll_union_agg 、Hll_cardinality、hll_hash 进行查询或使用

BITMAP

bitmap 列类型，不需要指定长度和默许值。示意整型的集会，元素最大救援到 2^64 - 1

STRING

变长字符串，0.15 版块救援，最大救援 2147483643 字节（2GB-4），长度还受 be 配置string_type_soft_limit，履行能存储的最大长度取两者最小值。只可用在 value 列，不成用在 key 列和分区、分桶列

属目：团员模子在界说字段类型后，不错指定字段的 agg_type 团员类型，如果不指定，则该列为 key 列。不然，该列为value 列，类型包括：SUM、MAX、MIN、REPLACE。

4.3.3、Doris建示意例

4.3.3.1、Range PartitionCREATE TABLE IF NOT EXISTS example_db.expamle_range_tbl ( `user_id` LARGEINT NOT NULL COMMENT "用户 id"， `date` DATE NOT NULL COMMENT "数据灌入日历时刻"， `timestamp` DATETIME NOT NULL COMMENT "数据灌入的时刻戳"， `city` VARCHAR(20) COMMENT "用户场地城市"， `age` SMALLINT COMMENT "用户年岁"， `sex` TINYINT COMMENT "用户性别"， `last_visit_date` DATETIME REPLACE DEFAULT "1970-01-01 00:00:00" COMMENT "用户临了一次拜访时刻"， `cost` BIGINT SUM DEFAULT "0" COMMENT "用户总消费"， `max_dwell_time` INT MAX DEFAULT "0" COMMENT "用户最大停留时刻"， `min_dwell_time` INT MIN DEFAULT "99999" COMMENT "用户最小停留时刻" ) ENGINE=OLAP AGGREGATE KEY(`user_id`，`date`，`timestamp`，`city`，`age`，`sex`) partition by range(`date`) ( PARTITION `p201701` VALUES LESS THAN ("2017-02-01")， PARTITION `p201702` VALUES LESS THAN ("2017-03-01")， PARTITION `p201703` VALUES LESS THAN ("2017-04-01") ) DISTRIBUTED BY HASH(`user_id`) BUCKETS 16 PROPERTIES ( "replication_num" = "3"， "storage_medium" = "SSD"， "storage_cooldown_time" = "2018-01-01 12:00:00" )

4.3.3.2、 List PartitionCREATE TABLE IF NOT EXISTS example_db.expamle_list_tbl ( `user_id` LARGEINT NOT NULL COMMENT "用户 id"， `date` DATE NOT NULL COMMENT "数据灌入日历时刻"， `timestamp` DATETIME NOT NULL COMMENT "数据灌入的时刻戳"， `city` VARCHAR(20) COMMENT "用户场地城市"， `age` SMALLINT COMMENT "用户年岁"， `sex` TINYINT COMMENT "用户性别"， `last_visit_date` DATETIME REPLACE DEFAULT "1970-01-01 00:00:00" COMMENT "用户临了一次拜访时刻"， `cost` BIGINT SUM DEFAULT "0" COMMENT "用户总消费"， `max_dwell_time` INT MAX DEFAULT "0" COMMENT "用户最大停留时刻"， `min_dwell_time` INT MIN DEFAULT "99999" COMMENT "用户最小停留时间" ) ENGINE=olap AGGREGATE KEY(`user_id`， `date`， `timestamp`， `city`， `age`， `sex`) PARTITION BY LIST(`city`) ( PARTITION `p_cn` VALUES IN ("Beijing"， "Shanghai"， "Hong Kong")， PARTITION `p_usa` VALUES IN ("New York"， "San Francisco")， PARTITION `p_jp` VALUES IN ("Tokyo") ) DISTRIBUTED BY HASH(`user_id`) BUCKETS 16 PROPERTIES ( "replication_num" = "3"， "storage_medium" = "SSD"， "storage_cooldown_time" = "2018-01-01 12:00:00" );

4.3.4、数据区分

4.3.4.1、列界说

以 AGGREGATE KEY 数据模子为例进行阐扬。更多数据模子参阅 Doris 数据模子。

列的基本类型，不错通过在 mysql-client 中奉行 HELP CREATE TABLE; 稽查。

AGGREGATE KEY 数据模子中，统共莫得指定团员方式（SUM、REPLACE、MAX、

MIN）的列视为 Key 列。而其余则为 Value 列。

界说列时，可参照如下提议：

➢ Key 列必须在统共 Value 列之前。

➢ 尽量遴荐整型类型。因为整型类型的猜想和查找相比效力远高于字符串。

➢ 对于不同长度的整型类型的遴荐原则，受命够用即可。

➢ 对于 VARCHAR 和 STRING 类型的长度，受命够用即可。

➢ 统共列的总字节长度（包括 Key 和 Value）不成进步 100KB。

4.3.4.2、分区与分桶

Doris 救援两层的数据区分。第一层是 Partition，救援 Range 和 List 的区分方式。第二层是 Bucket（Tablet），仅救援 Hash 的区分方式。

也不错仅使用一层分区。使用一层分区时，只救援 Bucket 区分。

4.3.4.2.1、Partition

➢ Partition 列不错指定一列或多列。分区类必须为 KEY 列。多列分区的使用方式在后头先容。

➢ 无论分区列是什么类型，在写分区值时，齐需要加双引号。

➢ 分区数目表面上莫得上限。

➢ 当不使用 Partition 建表时，系统会自动生成一个和表名同名的，全值范围的

Partition。该 Partition 对用户不可见，何况不可改变。

1） Range 分区

分区列世俗为时刻列，以粗拙的经管新旧数据。不可添加范围相通的分区。

Partition 指定范围的方式

⚫ VALUES LESS THAN (…) 仅指定上界，系统会将前一个分区的上界行为该分区的下界，生成一个左闭右开的区间。分区的删除不会改变已存在分区的范围。删除分区可能出现虚浮。

⚫ VALUES […) 指定同期指定高下界，生成一个左闭右开的区间。

通过 VALUES […) 同期指定高下界相比容易清醒。这里例如阐扬，当使用 VALUES

LESS THAN (…) 语句进行分区的增删操作时，分区范围的变化情况：

（1）如上 expamle_range_tbl 示例，当建表完成后，会自动生成如下 3 个分区：

p201701: [MIN_VALUE， 2017-02-01)

p201702: [2017-02-01， 2017-03-01)

p201703: [2017-03-01， 2017-04-01)

（2）增多一个分区 p201705 VALUES LESS THAN (“2017-06-01”)，分区终结如下：

p201701: [MIN_VALUE， 2017-02-01)

p201702: [2017-02-01， 2017-03-01)

p201703: [2017-03-01， 2017-04-01)