MLSQL初学者常见问题QA(持续更新)

常见问题集锦

  • MLSQL 架构图有么?
  • 用Docker一键安装后,注册时出现 No identifer specified for entity: tech.mlsql.model...?
  • 数据源有详细参数配置文档么?...
  • 后台是怎么区分batch还是streaming的?比如我load kafka,同时又load hbase,mysql或者es,这种情况下底层对应的作业时 streaming的还是batch的,逻辑都是在window范围内执行的吗
  • engine本身是个spark的app,里面提供的restful服务,那么这个服务可以是高可用的吗?
  • 权限管理 比如A,B,C 3张表 允许用户查询A表,BC两张不可查 这种授权是自己写client实现吗?
  • 如果udf的代码比较多,同时又import了很多第三方的jar包,怎么处理?
  • udf 依赖的第三方jar如果加载?
  • 哪里有MLSQL三套件的http接口文档
  • 借助mlsql完成注册的udf,能不能通过api服务的形式暴露出来,然后直接在scala代码里调用呢
  • 为什么cluster 和 console 启动会出现:Too many connections
  • 为什么cluster 和 console 会出现 org.hibernate.AnnotationException: No identifier specified for entity:tech.mlsql.model...
  • 使用python project 时出现 should be a directory which contains MLproject file or directly a python file 错误。
  • Python执行失败该如何排查问题?
  • 在Console执行最简单的命令显示"Error 500" 错误。
  • 如何知道load/save数据源都有哪些where参数可以配置?
  • AbstractMethodError 一般是什么问题?
  • 字面量包含#怎么办?
  • 启动是jetty/jersray
  • mlsql做数据中台,对mysql查询速度,跟系统直连mysql查询速度比较会不会效率差点
  • Mlsql engine 有集成日志模块吗,目前只能依靠nohup打印
  • carbondata只能在spark 2.2.x 和 spark 2.3.1版本里使用 是吧
  • 提示 Could not initialzize class steaming.core.datasourc.DataSourceRegistry$

MLSQL 架构图有么?

MLSQL初学者常见问题QA(持续更新)_第1张图片
image.png

MLSQL Console 包含了几个组件,分别是

  1. script center (脚本管理体系)
  2. auth center (权限体系)
  3. web (交互探索使用)
  4. api (供接口调用)

其中1,2 会被后端的MLSQL Engine回调,从而实现一系列功能。

MLSQL Cluster 主要是为了方便多租户,多Engine实例管理,你可以理解为一个路由功能(虽然不局限于此)。在MLSQL Console中,默认每个Engine实例都会被打上一组team_role标签,这样就可以给任何一个role配置一个或者多个MLSQL Engine,从而实现例如负载均衡等功能。

MLSQL Engine 底层基于Spark Engine,是一个典型的master-slave结构,在原生的Spark SQL之上,我们提供了MLSQL语言,从而更好的满足复杂交互诉求,比如批处理脚本,机器学习,邮件发送等等。

大家可以一键体验上面的所有功能:MLSQL生态一键体验

用Docker一键安装后,注册时出现 No identifer specified for entity: tech.mlsql.model...?

这个可能是数据库初始化没有正确完成。请仔细看看docker安装脚本是否有错误输出。为了获得帮助,你可以在Issue 页面详细贴出您的所有输出。

数据源有详细参数配置文档么?比如kafka,我可以理解成kafka consumer的配置都可以写到option里面吗

MLSQL大部分数据源集成的是第三方实现。比如excel的支持得益于spark-excel项目。同样,Kafka的配置参数和Spark 对Kafka的需求配置是一样的,JDBC则也是标准的Spark文档中描述的那样。不过大部分人使用时,不会使用所有参数,
MLSQL也提供了两种方式展示可选参数:

  1. 使用MLSQL Console, Console支持参数自动补全
MLSQL初学者常见问题QA(持续更新)_第2张图片
image.png

MLSQL Console 实现了数据源和参数联动。不过目前只有部分数据源支持,我们会尽快覆盖所有数据源。

  1. 使用帮助语句。

查看所有数据源:

load _mlsql_.`datasources` as output;

查看具体某个数据源的可选参数:

load _mlsql_.`datasources/params/excel` as output;
MLSQL初学者常见问题QA(持续更新)_第3张图片
image.png

除了数据源,其他所有MLSQL特有模块,也都是支持前面两种方式的。比如,我想查看BigDL模块的示例:

MLSQL初学者常见问题QA(持续更新)_第4张图片
image.png

接着就可以看到:

MLSQL初学者常见问题QA(持续更新)_第5张图片
image.png

或者通过命令查看所有可选参数:

load modelParams.`BigDLClassifyExt` as output;

后台是怎么区分batch还是streaming的?比如我load kafka,同时又load hbase,mysql或者es,这种情况下底层对应的作业时streaming的还是batch的,逻辑都是在window范围内执行的吗

后台是根据 set streamName="streamExample";因为流式计算我们需要用户定义一个唯一的名字。MLSQL底层是使用spark structured streaming,所以structured streaming存在的限制,MLSQL都存在。structured streaming支持对静态数据的Join。如果您需要深入,请多了解structured streaming。

engine本身是个spark的app,里面提供的restful服务,那么这个服务可以是高可用的吗?

Engine自身无法保证高可用,但是你可以通过如下两种方式的一种保持其高可用:

  1. 第一是部署环境比如在yarn-cluster模式下,Engine支持将自己注册到ZK中,而Yarn又能保证driver挂掉后自动找一个其他节点启动,但在yarn-client模式则不行。

  2. 第二个是,通过MLSQL-Cluster来完成。MLSQL-Cluster 现在实现了多策略的负载均衡,以及多集群的管理。通过负载均衡,也可以保证Engine的高可用,比如后端部署三个Engine,任意down掉两个,都不影响。

权限管理 比如A,B,C 3张表 允许用户查询A表,BC两张不可查
这种授权是自己写client实现吗?

MLSQL Console已经实现了一个。你也可以参考它实现自己的。MLSQL 架构足够灵活可以让你做很多定制扩展。为了实现A,B,C,三张表的授权,大致有如下几个流程:

*** 配置Team ***

  1. 创建一个Team 比如: TestTeam(有则忽略)
  2. 邀请用户到Team
  3. 给Team添加Role
  4. 给Team添加表资源

*** 配置Role***

  1. 给Role添加一个Bakend(有则忽略)
  2. 将需要的表权限授Role
  3. 将用户角色设置为需要的Role

*** 用户自身配置 ***

用户登陆后,可能在多个team,多个role里,所以他需要配置下自己默认运行的Backend(MLSQL Engine)是什么。

如果是在MLSQL Console 里操作如上流程:

  1. 创建TestTeam
MLSQL初学者常见问题QA(持续更新)_第6张图片
image.png
  1. 创建Role
MLSQL初学者常见问题QA(持续更新)_第7张图片
image.png

2.1 给Role指定一个Backend:

MLSQL初学者常见问题QA(持续更新)_第8张图片
image.png
  1. 邀请用户到特定Role
MLSQL初学者常见问题QA(持续更新)_第9张图片
image.png
  1. 创建A,B,C三张表
MLSQL初学者常见问题QA(持续更新)_第10张图片
image.png
  1. 给Role添加表权限
MLSQL初学者常见问题QA(持续更新)_第11张图片
image.png
  1. 被授权用户将自己默认的Backend设置为新的:
MLSQL初学者常见问题QA(持续更新)_第12张图片
image.png

现在被授权用户可以正常使用了。

如果udf的代码比较多,同时又import了很多第三方的jar包,怎么处理?

MLSQL自身的项目已经非常庞大,理论上你UDF要的库,都有了。如果没有,你需要用--jars带上。某些场景可能还需要配置driver/executor classpath,不过最简单的方案是把你的jar包放到spark 发型包里。

udf 依赖的第三方jar如果加载?
解决类似问题:写了一个udf ,用了一个fastjson第三方包,把fastjson放到engine的--jars 启动,运行时报错找不到fastjson

  1. 将第三方 Jar 包分发到所有的 $SPARK_HOME/jars 目录下
  2. 在$SPARK_HOME/conf/spark-default.conf 中添加 spark.driver.extraClassPath 和 spark.executor.extraClassPath 这两个属性, 后多个jar使用":"分隔
  3. 启动时增加 --jar 第三方jar --driver-class-path 第三方jar

哪里有MLSQL三套件的http接口文档

因为三者都是通过ServiceFramework框架实现的,所以他们都可以通过 http://ip:port/openapi/ui/spec/ 进行查看。下面是mlsql-engine的例子:

MLSQL初学者常见问题QA(持续更新)_第13张图片
image.png

借助mlsql完成注册的udf,能不能通过api服务的形式暴露出来,然后直接在scala代码里调用呢

是的,MLSQL提供了暴露函数的能力。假设你提供的函数为substring,那么你可以这么使用:

curl -X POST \
  http://127.0.0.1:9003/model/predict \
  -H 'content-type: application/x-www-form-urlencoded' \
  -d 'data=%5B%7B%22feature%22%3A%22%E7%B3%96%E5%B0%BF%E7%97%85%E6%80%8E%E4%B9%88%E5%8A%9E%E5%91%A2%EF%BC%9F%E6%88%91%E4%B9%9F%E4%B8%8D%E5%A4%AA%E6%B8%85%E6%A5%9A%22%7D%5D&dataType=row&sql=select%20substring(feature%2C0%2C3)%20as%20p'

转义钱的url请求参数:

MLSQL初学者常见问题QA(持续更新)_第14张图片
image.png

格式形态如下:

dataType=row
data=[{"feature":[1,2,3...]}]
sql=select bayes_predict(vec_dense(feature)) as p

返回结果:

MLSQL初学者常见问题QA(持续更新)_第15张图片
image.png

这个本质上是为了ET,以及算法模型提供的功能,但是你也可以把他用作函数API。

为什么cluster 和 console 启动会出现:Too many connections

一般错误如下:


MLSQL初学者常见问题QA(持续更新)_第16张图片
image.png

可以修改application.yml文件:

MLSQL初学者常见问题QA(持续更新)_第17张图片
image.png

将连接池的初始化值调小。

为什么cluster 和 console 会出现 org.hibernate.AnnotationException: No identifier specified for entity:tech.mlsql.model...

一般错误如下:


MLSQL初学者常见问题QA(持续更新)_第18张图片
image.png

主要是数据库的表没有更新,先删除所有表,然后使用使用对应项目 resources目录下的db.sql 文件重新创建一次所有的表。

使用python project 时出现 should be a directory which contains MLproject file or directly a python file 错误。

一般错误类似这个:

MLSQL初学者常见问题QA(持续更新)_第19张图片
image.png

一般是因为两个原因

  1. 对应的路径里没有MLproject文件,请确保你按要求组织了python项目的结构。
  2. 该路径一般为HDFS路径。不要和本地路径混淆。

Python执行失败该如何排查问题?

比如如下问题:

MLSQL初学者常见问题QA(持续更新)_第20张图片
image.png

下面的FileNotFoundException是由前面的python脚本执行失败导致的。所以我们只要关注前面的异常即可。前面的异常显示,我们正确的切换了Python环境,并且执行python train.py 0.5 0.1 ,但是这个train.py脚本执行失败了。那么为什么失败呢?我们需要继续往上翻日志,大家可以通过 [email protected](你的用户名) 进行过滤,里面会有Python详细的执行错误信息。如果出现的缺少某个pip包,那么一般是环境创建的有问题,可以删除对应的环境重复执行即可Python环境管理工具。如果是其他的错误,则可能是你写的脚本存在问题,具体问题要具体查看。

在Console执行最简单的命令显示"Error 500" 错误。

典型的如下图:

MLSQL初学者常见问题QA(持续更新)_第21张图片
image.png

我们可以先看Console的日志,其次是Cluster的日志,最后才是Engine的日志。 在看Cluster的日志时,我们发现了问题,日志大概是这样的。

MLSQL初学者常见问题QA(持续更新)_第22张图片
image.png

可以看到,发生了500错误,并且是因为Response的问题,也就是Cluster 到 Engine 的请求后的Response异常。再网上看,

Error when remote search url: [http://....:9003/run/script]

也就是访问Engine后端失败了。那这个时候可以回想下是不是这个URL地址确实是网络不通的。

如何知道load/save数据源都有哪些where参数可以配置?

MLSQL Engine 数据源的配置参数,可以通过类似下面的命令获取。

MLSQL初学者常见问题QA(持续更新)_第23张图片
image.png

MLSQL Console的参数实现也是基于该接口完成的:

MLSQL初学者常见问题QA(持续更新)_第24张图片
image.png

目前还只有少量数据源支持该接口。我们会继续完善。

AbstractMethodError 一般是什么问题?

比如如下的错误:


MLSQL初学者常见问题QA(持续更新)_第25张图片
image.png

这一般是你编译时和运行时的Spark版本不统一导致的。

  • 字面量包含#怎么办?

比如如下代码:

set abc='''
start ###{}### end 
''';

load csvStr.`abc` as output;

因为#是一个特殊的指令,所以这么加载是有问题的。可以按如下方式解决:

set sharp='''
#[[#]]#
''';
set abc='''
start #[[###]]#{}#[[###]]# end 
${sharp}
''';

load csvStr.`abc` as output;

mlsql做数据中台,对mysql查询速度,跟系统直连mysql查询速度比较会不会效率差点

mlsql有directquery模是,直连mysql:


MLSQL初学者常见问题QA(持续更新)_第26张图片
image.png

对的directquery是没有额外性能损耗的。不过我们正在努力解决权限相关的问题。然后就是,如果不采用directquery,性能和原生mysql比,取决于你的SQL语句。有可能更快也可能很慢。

Mlsql engine 有集成日志模块吗,目前只能依靠nohup打印

MLSQL Stack是可以实时回显日志的,你需要在你driver的机器 手动创建一个目录: /tmp/mlsql/logs/ 。

如果你们希望自己获取到日志(轮训),可以调用

load _mlsql_.`log/[offset]` where filePath="/tmp/__mlsql__/logs/mlsql_engine.log" as output;

其中offset 每次会返回一个新值给你。

carbondata只能在spark 2.2.x 和 spark 2.3.1版本里使用 是吧

carbondata好像只能在2.2.0里用,原因是因为carbondata没有在maven仓库上传这个版本以外的版本,我们已经推动carbondata的同学解决这个问题了。

提示 Could not initialzize class steaming.core.datasourc.DataSourceRegistry$

这是运行的spark版本和mlsql engine需要的spark版本不一致引起的。mlsql-engine_2.4-1.2.0 发行包第一个2.4表示该engine发行包需要基于2.4.x 运行。第二个1.2.0表示该engine的版本为1.2.0。 如果你用spark 2.3.3去跑,就会得到类似的错误。

ChatRoom

image

image

你可能感兴趣的:(MLSQL初学者常见问题QA(持续更新))