常见问题集锦

MLSQL 架构图有么？
用Docker一键安装后，注册时出现 No identifer specified for entity: tech.mlsql.model...？
数据源有详细参数配置文档么？...
后台是怎么区分batch还是streaming的？比如我load kafka，同时又load hbase,mysql或者es，这种情况下底层对应的作业时 streaming的还是batch的，逻辑都是在window范围内执行的吗
engine本身是个spark的app，里面提供的restful服务，那么这个服务可以是高可用的吗？
权限管理比如A,B,C 3张表允许用户查询A表，BC两张不可查这种授权是自己写client实现吗？
如果udf的代码比较多，同时又import了很多第三方的jar包，怎么处理？
udf 依赖的第三方jar如果加载？
哪里有MLSQL三套件的http接口文档
借助mlsql完成注册的udf，能不能通过api服务的形式暴露出来，然后直接在scala代码里调用呢
为什么cluster 和 console 启动会出现：Too many connections
为什么cluster 和 console 会出现 org.hibernate.AnnotationException: No identifier specified for entity:tech.mlsql.model...
使用python project 时出现 should be a directory which contains MLproject file or directly a python file 错误。
Python执行失败该如何排查问题？
在Console执行最简单的命令显示"Error 500" 错误。
如何知道load/save数据源都有哪些where参数可以配置？
AbstractMethodError 一般是什么问题？
字面量包含#怎么办？
启动是jetty/jersray
mlsql做数据中台，对mysql查询速度，跟系统直连mysql查询速度比较会不会效率差点
Mlsql engine 有集成日志模块吗，目前只能依靠nohup打印
carbondata只能在spark 2.2.x 和 spark 2.3.1版本里使用是吧
提示 Could not initialzize class steaming.core.datasourc.DataSourceRegistry$

MLSQL 架构图有么？

image.png

MLSQL Console 包含了几个组件，分别是

script center (脚本管理体系)
auth center (权限体系)
web (交互探索使用)
api (供接口调用)

其中1,2 会被后端的MLSQL Engine回调，从而实现一系列功能。

MLSQL Cluster 主要是为了方便多租户，多Engine实例管理，你可以理解为一个路由功能（虽然不局限于此）。在MLSQL Console中，默认每个Engine实例都会被打上一组team_role标签,这样就可以给任何一个role配置一个或者多个MLSQL Engine,从而实现例如负载均衡等功能。

MLSQL Engine 底层基于Spark Engine,是一个典型的master-slave结构，在原生的Spark SQL之上，我们提供了MLSQL语言，从而更好的满足复杂交互诉求，比如批处理脚本，机器学习，邮件发送等等。

大家可以一键体验上面的所有功能:MLSQL生态一键体验

用Docker一键安装后，注册时出现 No identifer specified for entity: tech.mlsql.model...？

这个可能是数据库初始化没有正确完成。请仔细看看docker安装脚本是否有错误输出。为了获得帮助，你可以在Issue 页面详细贴出您的所有输出。

数据源有详细参数配置文档么？比如kafka，我可以理解成kafka consumer的配置都可以写到option里面吗

MLSQL大部分数据源集成的是第三方实现。比如excel的支持得益于spark-excel项目。同样，Kafka的配置参数和Spark 对Kafka的需求配置是一样的，JDBC则也是标准的Spark文档中描述的那样。不过大部分人使用时，不会使用所有参数，
MLSQL也提供了两种方式展示可选参数：

使用MLSQL Console, Console支持参数自动补全

image.png

MLSQL Console 实现了数据源和参数联动。不过目前只有部分数据源支持，我们会尽快覆盖所有数据源。

使用帮助语句。

查看所有数据源：

load _mlsql_.`datasources` as output;

查看具体某个数据源的可选参数：

load _mlsql_.`datasources/params/excel` as output;

image.png

除了数据源，其他所有MLSQL特有模块，也都是支持前面两种方式的。比如，我想查看BigDL模块的示例：

image.png

接着就可以看到：

image.png

或者通过命令查看所有可选参数：

load modelParams.`BigDLClassifyExt` as output;

后台是怎么区分batch还是streaming的？比如我load kafka，同时又load hbase,mysql或者es，这种情况下底层对应的作业时streaming的还是batch的，逻辑都是在window范围内执行的吗

后台是根据 set streamName="streamExample";因为流式计算我们需要用户定义一个唯一的名字。MLSQL底层是使用spark structured streaming,所以structured streaming存在的限制，MLSQL都存在。structured streaming支持对静态数据的Join。如果您需要深入，请多了解structured streaming。

engine本身是个spark的app，里面提供的restful服务，那么这个服务可以是高可用的吗？

Engine自身无法保证高可用，但是你可以通过如下两种方式的一种保持其高可用：

第一是部署环境比如在yarn-cluster模式下，Engine支持将自己注册到ZK中，而Yarn又能保证driver挂掉后自动找一个其他节点启动，但在yarn-client模式则不行。
第二个是，通过MLSQL-Cluster来完成。MLSQL-Cluster 现在实现了多策略的负载均衡，以及多集群的管理。通过负载均衡，也可以保证Engine的高可用，比如后端部署三个Engine,任意down掉两个，都不影响。

权限管理比如A,B,C 3张表允许用户查询A表，BC两张不可查
这种授权是自己写client实现吗？

MLSQL Console已经实现了一个。你也可以参考它实现自己的。MLSQL 架构足够灵活可以让你做很多定制扩展。为了实现A,B,C,三张表的授权，大致有如下几个流程：

*** 配置Team ***

创建一个Team 比如： TestTeam(有则忽略)
邀请用户到Team
给Team添加Role
给Team添加表资源

*** 配置Role***

给Role添加一个Bakend(有则忽略)
将需要的表权限授Role
将用户角色设置为需要的Role

*** 用户自身配置 ***

用户登陆后，可能在多个team,多个role里，所以他需要配置下自己默认运行的Backend（MLSQL Engine）是什么。

如果是在MLSQL Console 里操作如上流程：

创建TestTeam

image.png

创建Role

image.png

2.1 给Role指定一个Backend:

image.png

邀请用户到特定Role

image.png

创建A,B,C三张表

image.png

给Role添加表权限

image.png

被授权用户将自己默认的Backend设置为新的：

image.png

现在被授权用户可以正常使用了。

如果udf的代码比较多，同时又import了很多第三方的jar包，怎么处理？

MLSQL自身的项目已经非常庞大，理论上你UDF要的库，都有了。如果没有，你需要用--jars带上。某些场景可能还需要配置driver/executor classpath,不过最简单的方案是把你的jar包放到spark 发型包里。

udf 依赖的第三方jar如果加载？
解决类似问题：写了一个udf ，用了一个fastjson第三方包，把fastjson放到engine的--jars 启动，运行时报错找不到fastjson

将第三方 Jar 包分发到所有的 $SPARK_HOME/jars 目录下
在$SPARK_HOME/conf/spark-default.conf 中添加 spark.driver.extraClassPath 和 spark.executor.extraClassPath 这两个属性, 后多个jar使用":"分隔
启动时增加 --jar 第三方jar --driver-class-path 第三方jar

哪里有MLSQL三套件的http接口文档

因为三者都是通过ServiceFramework框架实现的，所以他们都可以通过 http://ip:port/openapi/ui/spec/ 进行查看。下面是mlsql-engine的例子：

image.png

借助mlsql完成注册的udf，能不能通过api服务的形式暴露出来，然后直接在scala代码里调用呢

是的，MLSQL提供了暴露函数的能力。假设你提供的函数为substring,那么你可以这么使用：

curl -X POST \
  http://127.0.0.1:9003/model/predict \
  -H 'content-type: application/x-www-form-urlencoded' \
  -d 'data=%5B%7B%22feature%22%3A%22%E7%B3%96%E5%B0%BF%E7%97%85%E6%80%8E%E4%B9%88%E5%8A%9E%E5%91%A2%EF%BC%9F%E6%88%91%E4%B9%9F%E4%B8%8D%E5%A4%AA%E6%B8%85%E6%A5%9A%22%7D%5D&dataType=row&sql=select%20substring(feature%2C0%2C3)%20as%20p'

转义钱的url请求参数：

image.png

格式形态如下：

dataType=row
data=[{"feature":[1,2,3...]}]
sql=select bayes_predict(vec_dense(feature)) as p

返回结果：

image.png

这个本质上是为了ET,以及算法模型提供的功能，但是你也可以把他用作函数API。

为什么cluster 和 console 启动会出现：Too many connections

一般错误如下：

image.png

可以修改application.yml文件：

image.png

将连接池的初始化值调小。

为什么cluster 和 console 会出现 org.hibernate.AnnotationException: No identifier specified for entity:tech.mlsql.model...

一般错误如下：

image.png

主要是数据库的表没有更新，先删除所有表，然后使用使用对应项目 resources目录下的db.sql 文件重新创建一次所有的表。

使用python project 时出现 should be a directory which contains MLproject file or directly a python file 错误。

一般错误类似这个：

image.png

一般是因为两个原因

对应的路径里没有MLproject文件，请确保你按要求组织了python项目的结构。
该路径一般为HDFS路径。不要和本地路径混淆。

Python执行失败该如何排查问题？

比如如下问题：

image.png

下面的FileNotFoundException是由前面的python脚本执行失败导致的。所以我们只要关注前面的异常即可。前面的异常显示，我们正确的切换了Python环境，并且执行python train.py 0.5 0.1 ，但是这个train.py脚本执行失败了。那么为什么失败呢？我们需要继续往上翻日志，大家可以通过 [email protected]（你的用户名）进行过滤，里面会有Python详细的执行错误信息。如果出现的缺少某个pip包，那么一般是环境创建的有问题，可以删除对应的环境重复执行即可Python环境管理工具。如果是其他的错误，则可能是你写的脚本存在问题，具体问题要具体查看。

在Console执行最简单的命令显示"Error 500" 错误。

典型的如下图：

image.png

我们可以先看Console的日志，其次是Cluster的日志，最后才是Engine的日志。在看Cluster的日志时，我们发现了问题，日志大概是这样的。

image.png

可以看到，发生了500错误，并且是因为Response的问题，也就是Cluster 到 Engine 的请求后的Response异常。再网上看，

Error when remote search url: [http://....:9003/run/script]

也就是访问Engine后端失败了。那这个时候可以回想下是不是这个URL地址确实是网络不通的。

如何知道load/save数据源都有哪些where参数可以配置？

MLSQL Engine 数据源的配置参数，可以通过类似下面的命令获取。

image.png

MLSQL Console的参数实现也是基于该接口完成的：

image.png

目前还只有少量数据源支持该接口。我们会继续完善。

AbstractMethodError 一般是什么问题？

比如如下的错误：

image.png

这一般是你编译时和运行时的Spark版本不统一导致的。

字面量包含#怎么办？

比如如下代码：

set abc='''
start ###{}### end 
''';

load csvStr.`abc` as output;

因为#是一个特殊的指令，所以这么加载是有问题的。可以按如下方式解决：

set sharp='''
#[[#]]#
''';
set abc='''
start #[[###]]#{}#[[###]]# end 
${sharp}
''';

load csvStr.`abc` as output;

mlsql做数据中台，对mysql查询速度，跟系统直连mysql查询速度比较会不会效率差点

mlsql有directquery模是，直连mysql:

image.png

对的directquery是没有额外性能损耗的。不过我们正在努力解决权限相关的问题。然后就是，如果不采用directquery，性能和原生mysql比，取决于你的SQL语句。有可能更快也可能很慢。

Mlsql engine 有集成日志模块吗，目前只能依靠nohup打印

MLSQL Stack是可以实时回显日志的,你需要在你driver的机器手动创建一个目录： /tmp/mlsql/logs/ 。

如果你们希望自己获取到日志（轮训），可以调用

load _mlsql_.`log/[offset]` where filePath="/tmp/__mlsql__/logs/mlsql_engine.log" as output;

其中offset 每次会返回一个新值给你。

carbondata只能在spark 2.2.x 和 spark 2.3.1版本里使用是吧

carbondata好像只能在2.2.0里用,原因是因为carbondata没有在maven仓库上传这个版本以外的版本,我们已经推动carbondata的同学解决这个问题了。

提示 Could not initialzize class steaming.core.datasourc.DataSourceRegistry$

这是运行的spark版本和mlsql engine需要的spark版本不一致引起的。mlsql-engine_2.4-1.2.0 发行包第一个2.4表示该engine发行包需要基于2.4.x 运行。第二个1.2.0表示该engine的版本为1.2.0。如果你用spark 2.3.3去跑，就会得到类似的错误。

ChatRoom

image

MLSQL初学者常见问题QA（持续更新）

常见问题集锦

ChatRoom

你可能感兴趣的:(MLSQL初学者常见问题QA（持续更新）)