BrightHouse存储引擎

mysql支持多种存储引擎存储。这样,在处理不同类型数据的时候,可以针对不同业务场景,提供更为高效,灵活的方式。

mysql常见的存储引擎包括:MyISAM,InnoDB(最为常用的两种),MERGE、MEMORY(HEAP)、BDB(BerkeleyDB)、EXAMPLE、FEDERATED、ARCHIVE、CSV、BLACKHOLE等。

现在大数据环境下,一般都使用hive作离线查询,hue则是hive查询的一个接口界面,运营人员一般都通过hue去hive里查找相关数据。但是hive作为基于MR的产品,有其天生的缺陷:
1.hive不管查询多大的数据量都需要启动job。如果是查询少量数据,启动job的时间远远大于实际查询时间。换句话说,不管多大的数据量,hive基本不可能在秒级给出查询结果。
2.hive受限于hadoop集群的计算资源。如果计算资源被占满,比如集群启动了某些大job,计算资源被占满,hive查询一直处于排队状态。这个时候运营人员会纷纷过来找RD,嚷嚷说为什么查了半天就是看不到结果。
3.hive属于sql的范式。对于非结构化的数据集,基本无能为力或者说很吃力。

因此在这种环境下,我们采用mysql+brighthouse的组合,能较好地解决这个问题。
brighthouse是infobright数据库的关键引擎。infobright 数据库是基于mysql的,它的设计主要是用于大规模的数据仓库和分析优化。开源社区版本可以免费试用。

安装过程不详细描述了(主要原因是不是我自己安装的…)。安装成功后,登录mysql。
BrightHouse存储引擎_第1张图片
如图所示,对应Engine的值就是BRIGHTHOUSE。

再查看一下此时mysql的引擎情况
BrightHouse存储引擎_第2张图片
如图所示,此时BRIGHTHOUSE已经成为我们的默认引擎,创建表的时候如果不指定引擎类型会自动创建成为BRIGHTHOUSE。

查了一些资料,社区版的不支持insert,update,delete对数据操作和alter对结构操作,不支持高并发查询操作,数据存储高压缩一般为18:1,不能与MyISAM,InnoDB等引擎进行连接查询 , 数据必须使用 LOAD 方式写入。
一般的load语句写法:

LOAD DATA INFILE 'filename' IGNORE INTO TABLE table_name CHARACTER SET utf8 FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n' (fields)

filename是要导入数据的源文件,后面中的 \t 是每个数据之间的间隔符,\n 是每条数据的间隔符,fields 是对应的字段列表。

在里面新建一张表mvt_ptr_cvr_ab_test,然后导入将近100万的数据量,然后查询:

mysql> select count(*) from mvt_ptr_cvr_ab_test; +----------+
| count(*) | +----------+
| 997761 | +----------+
1 row in set (0.00 sec)

如果在客户端查询,显示的时间为0.002ms。百万级数据,0.002ms,这速度,要逆天。。。

说了半天这东东的好处,同样在网上查了些资料,主要的不爽地方如下:
1.开源版不支持insert等数据操作语句,导入数据只能用load语句(这个导入数据很快)
2.还不支持UTF-8(这个最烦人了,尽管它提供了一种方案来解决这个问题)
3.企业版可也不便宜$10000/T (mysql才600刀)(数据仓库类的软件都很贵,这已经算很便宜的了^_^)
4.跟我们平常用的其他引擎(如innodb)不是很兼容,比如我们前面提到的不能与MyISAM,InnoDB等引擎进行连接查询

你可能感兴趣的:(mysql,存储引擎,house,bright)