MongoDB是一个文档数据库(以 JSON 为数据模型),由C++语言编写,旨在为WEB应用提供可扩展的高性能数据存储解决方案。
文档来自于“JSON Document”,并非我们一般理解的 PDF,WORD 文档。
MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,数据格式是BSON,一种类似JSON的二进制形式的存储格式,简称Binary JSON ,和JSON一样支持内嵌的文档对象和数组对象,因此可以存储比较复杂的数据类型。Mongo最大的特点是它支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。原则上 Oracle 和 MySQL 能做的事情,MongoDB 都能做(包括 ACID 事务)。
MongoDB是一个开源OLTP数据库,它灵活的文档模型(JSON)非常适合敏捷式开发、高可用和水平扩展的大数据应用。
本文主要为
分片(shard)是指在将数据进行水平切分之后,将其存储到多个不同的服务器节点上的一种扩展方式。分片在概念上非常类似于应用开发中的“水平分表”。不同的点在于,MongoDB本身就自带了分片管理的能力,对于开发者来说可以做到开箱即用。
MongoDB复制集实现了数据的多副本复制及高可用,但是一个复制集能承载的容量和负载是有限的。在你遇到下面的场景时,就需要考虑使用分片了:
垂直扩容(Scale Up) VS 水平扩容(Scale Out):
垂直扩容 : 用更好的服务器,提高 CPU 处理核数、内存数、带宽等
水平扩容 : 将任务分配到多台计算机上
MongoDB 分片集群(Sharded Cluster)是对数据进行水平扩展的一种方式。MongoDB 使用 分片集群来支持大数据集和高吞吐量的业务场景。在分片模式下,存储不同的切片数据的节点被称为分片节点,一个分片集群内包含了多个分片节点。当然,除了分片节点,集群中还需要一些配置节点、路由节点,以保证分片机制的正常运作。
在3台虚拟机上执行以下命令,注意替换实际 IP 地址
echo "192.168.65.97 mongo1 mongo01.com mongo02.com" >> /etc/hosts echo "192.168.65.190 mongo2 mongo03.com mongo04.com" >> /etc/hosts echo "192.168.65.200 mongo3 mongo05.com mongo06.com" >> /etc/hosts
在各服务器上创建数据目录,我们使用 `/data`,请按自己需要修改为其他目录:
在mongo01.com / mongo03.com / mongo05.com 上执行以下命令:
mkdir -p /data/shard1/db /data/shard1/log /data/config/db /data/config/log
在mongo02.com / mongo04.com / mongo06.com 上执行以下命令:
mkdir -p /data/shard2/db /data/shard2/log /data/mongos/
在mongo01.com / mongo03.com / mongo05.com 上执行以下命令:
mongod --bind_ip 0.0.0.0 --replSet shard1 --dbpath /data/shard1/db \
--logpath /data/shard1/log/mongod.log --port 27010 --fork \
--shardsvr --wiredTigerCacheSizeGB 1
--shardsvr 声明这是集群的一个分片
--wiredTigerCacheSizeGB 设置内存大小
# 进入mongo shell
mongo mongo01.com:27010
#shard1复制集节点初始化
rs.initiate({
_id: "shard1",
"members" : [
{
"_id": 0,
"host" : "mongo01.com:27010"
},
{
"_id": 1,
"host" : "mongo03.com:27010"
},
{
"_id": 2,
"host" : "mongo05.com:27010"
}
]
})
#查看复制集状态
rs.status()
在mongo01.com / mongo03.com / mongo05.com上执行以下命令:
mongod --bind_ip 0.0.0.0 --replSet config --dbpath /data/config/db \
--logpath /data/config/log/mongod.log --port 27019 --fork \
--configsvr --wiredTigerCacheSizeGB 1
# 进入mongo shell
mongo mongo01.com:27019
#config复制集节点初始化
rs.initiate({
_id: "config",
"members" : [
{
"_id": 0,
"host" : "mongo01.com:27019"
},
{
"_id": 1,
"host" : "mongo03.com:27019"
},
{
"_id": 2,
"host" : "mongo05.com:27019"
}
]
})
在mongo01.com / mongo03.com / mongo05.com上执行以下命令:
#启动mongos,指定config复制集
mongos --bind_ip 0.0.0.0 --logpath /data/mongos/mongos.log --port 27017 --fork \
--configdb config/mongo01.com:27019,mongo03.com:27019,mongo05.com:27019
# 连接到mongos
mongo mongo01.com:27017
#添加分片
mongos>sh.addShard("shard1/mongo01.com:27010,mongo03.com:27010,mongo05.com:27010")
#查看mongos状态
mongos>sh.status()
连接到mongos, 创建分片集合
mongo mongo01.com:27017
mongos>sh.status()
#为了使集合支持分片,需要先开启database的分片功能
mongos>sh.enableSharding("company")
# 执行shardCollection命令,对集合执行分片初始化
mongos>sh.shardCollection("company.emp", {_id: 'hashed'})
mongos>sh.status()
#插入测试数据
use company
for (var i = 0; i < 10000; i++) {
db.emp.insert({i: i});
}
#查询数据分布
db.emp.getShardDistribution()
在mongo02.com / mongo04.com / mongo06.com上执行以下命令:
mongod --bind_ip 0.0.0.0 --replSet shard2 --dbpath /data/shard2/db \
--logpath /data/shard2/log/mongod.log --port 27011 --fork \
--shardsvr --wiredTigerCacheSizeGB 1
# 进入mongo shell
mongo mongo06.com:27011
#shard2复制集节点初始化
rs.initiate({
_id: "shard2",
"members" : [
{
"_id": 0,
"host" : "mongo06.com:27011"
},
{
"_id": 1,
"host" : "mongo02.com:27011"
},
{
"_id": 2,
"host" : "mongo04.com:27011"
}
]
})
#查看复制集状态
rs.status()
# 连接到mongos
mongo mongo01.com:27017
#添加分片
mongos>sh.addShard("shard2/mongo02.com:27011,mongo04.com:27011,mongo06.com:27011")
#查看mongos状态
mongos>sh.status()
mtools是一套基于Python实现的MongoDB工具集,其包括MongoDB日志分析、报表生成及简易的数据库安装等功能。它由MongoDB原生的工程师单独发起并做开源维护,目前已经有大量的使用者。
mtools所包含的一些常用组件如下:
Tools |
Description |
mlogfilter |
合并、分割日志文件,过滤慢查询,集合扫描,格式转换等 |
mloginfo |
统计日志内的数据库信息(启停、连接、集群状态等) |
mplotqueries |
日志转化为图表形式 |
mlogvis |
日志转化为HTML页面,与mplotqueries类似 |
mlaunch |
快速搭建本地测试环境(单机、集群、分片) |
安装依赖
pip3 install python-dateutil
pip3 install psutil pymongo
安装mtools
pip3 install mtools
Release mtools 1.6.4 · rueckstiess/mtools · GitHub
wget https://github.com/rueckstiess/mtools/archive/refs/tags/v1.6.4.tar.gz
#解压后进入mtools
python setup.py install
#准备复制集使用的工作目录
mkdir -p /data/mongo
cd /data/mongo
#初始化3节点复制集
mlaunch init --replicaset --nodes 3
端口默认从27017开始,依次为2017,27018,27019
查看复制集状态
mongo --port 27017
replset:PRIMARY> rs.status()
#准备分片集群使用的工作目录
mkdir /data/mongo-cluster
cd /data/mongo-cluster/
# 执行mlaunch init初始化集群
mlaunch init --sharded 2 --replicaset --node 3 --config 3 --csrs --mongos 3 --port 27050
选项说明
如果执行成功,那么片刻后可以看到如下输出:
检查分片实例
mlaunch list命令可以对当前集群的实例状态进行检查
此时可以看到各个实例的运行状态,包括进程号以及监听的端口等。
# 显示标签
mlaunch list --tags
# 显示启动命令
mlaunch list --startup
mongo --port 27050
mongos> db.adminCommand({listShards:1})
如果希望停止集群,则可以使用mlaunch stop命令
再次启动集群,可以使用mlaunch start命令
使用mtools搭建测试集群是相当方便的,相比手工搭建的方式可缩减大量的时间。