StarRocks新版本特性介绍(2021年3-4月)

StarRocks一直保持着比较快的更新节奏,基本保持2-3周进行一次版本迭代。
引用
下面我们来介绍一下2021年3-4月,StarRocks-1.12 ~ 1.14 最新版本的主要功能:

FlinkConnector|Flink数据高速导入,可保证不丢不重

通过Flink+StarRocks的方式构建实时数仓是当前业界主流方案,StarRocks提供了标准的Mysql协议接口,因此Flink程序可以直接用JDBC读取StarRocks中的数据,但是如何在保证高性能导入的情况下同时确保数据不丢不重是很多用户碰到的难题。我们发布了StarRocks-Flink-connector可以让大家方便高效的实现Flink写入StarRocks,TPS可以达到80万/s。

参考文档:
http://doc.starrocks.com/2166258

Hive外表|无需导入直接进行数仓加速

在传统的T+1离线报表场景中,很多用户已经累计了大量的Hive报表数据,但是由于性能问题,很多应用场景都希望能够加速报表性能。如果要做数据迁移可能因为报表数量很多,数据量庞大而难以迁移。

StarRocks的Hive外表给用户提供了一种不需要数据导入而直接进行数仓查询加速的手段,可以替换Hive/Impala/Presto等查询引擎,获得数倍的性能提升。当前版本仅支持Parquet格式数据。

参考文档:
http://doc.starrocks.com/2146...

Array和String数据类型|更丰富的类型支持

StarRocks-1.12版本开始支持了新的数据的类型:Array和String,Array类型是多值列的一种,可以支持嵌套的数组结构,这个功能可以广泛的使用在人群圈选、A/B Test等场景。String类型可以方便其他数据库表schema的迁移,不需要显示指定varchar()的最大长度,当前最大长度为65533字节,后续会扩充长度限制。

参考文档:
http://doc.starrocks.com/2146878

Export优化|提升导出性能,优化导出格式

Export功能可以将数据从StarRocks导出到HDFS和S3。优化前,Export导出的scaner只能单线程读取,优化后FE可以启动多个线程并发导出,从而实现性能数倍提升,并且数据导出后的格式可以方便的用Hive表进行加载,同时可以查询导出任务的状态,每次数据导出可以保证原子性,如果导出事务失败会自动清理数据。

参见文档:
http://doc.starrocks.com/2146007

其他优化

  • 优化BE启动速度优化,减少不必要的检查。
  • 内存使用优化,避免Insert into等场景的OOM。
  • Set global语义优化,1.13版本以后Set global可以对当前session生效。
  • GroupingSets算子性能提升,GroupingSets是SQL03标准的特性,可以对多列group by + union的场景进行优化。

更多详情可以参考StarRocks官网论坛的Release Notes,也欢迎大家添加我们客服的微信号StarRocks-1,提出您宝贵的意见。

你可能感兴趣的:(数据库prestoFlink)