第四范式开发者社区

基于OpenMLDB v0.4.0快速搭建全流程线上AI应用

本文根据陈迪豪在『OpenMLDB Meetup No.1』中的演讲整理而成。

基于OpenMLDB v0.4.0快速搭建全流程线上AI应用

OpenMLDB在立项开始就有很多性能的优化，包括基于LLVM的JIT优化，可以针对不同的CPU架构、Linux服务器或MAC服务器，通过LLVM做对应的代码生成优化，甚至是最新的基于M1的ARM架构苹果电脑，也是可以让OpenMLDB针对这种场景做优化的。

前面提到了在部分场景OpenMLDB可以比Spark有10倍甚至10倍以上的性能提升，其实也得益于我们对 Spark做了很多代码优化，包括像开源Spark不支持的窗口倾斜优化、窗口并行优化等等，甚至我们对 Spark源码进行了改造，来实现这种定制化的针对AI场景的性能优化。

OpenMLDB在存储上也有优化，传统的数据库服务大多基于文件，这种基于b+树数据结构的存储，对于高性能在线AI应用还是不太适合，还可能需要针对时序特征做优化。我们实现了针对分区键和排序键盘做的多级跳表数据结构，能进一步提升OpenMLDB在时序数据上的读写性能。

近期我们正式发布了OpenMLDB 0.4.0版本，这个版本也有很多性能和功能上的优化，那么本文会介绍OpenMLDB 0.4.0最新版本上的一些新特性，以及怎么基于这个新版本来快速搭建一个全流程的线上AI应用。

首先做一个简单的自我介绍，我叫陈迪豪，目前在第四范式担任平台架构师，是OpenMLDB项目的核心研发和PMC成员，之前参与过分布式存储HBase、分布式的基础架构项目OpenStack项目的开发，是机器学习中常用的TVM框架的贡献者，目前专注于分布式系统和数据库的设计。

P3：

今天会给大家介绍三个方面的内容：

OpenMLDB 0.4.0全流程的新特性
OpenMLDB 0.4.0单机版和集群版的快速上手
手把手教大家如何使用OpenMLDB来快速搭建一个全流程的线上AI应用

【01 | OpenMLDB 0.4.0的全流程新特性介绍】

OpenMLDB 0.4.0 全流程新特性 1 | 在线离线统一存储

第一个新特性是，OpenMLDB的在线存储和离线存储统一了，即一致性的表的视图，右上角是我们旧版本的表信息，通过SQL的describe语句，可以看到这个表名叫T1，它的Schema信息，包含多少列以及每一列的类型，下面就是它的索引信息。

在0.4.0我们新增加了一个统一的表视图，就是把离线存储和在线存储统一到一起了。右下角就是在一个普通表的定义下面，增加一个offline的table信息，信息中会包括：offline存储路径、离线存储的数据格式、是否是deep copy等一些属性。

统一存储也是业界数据库里面很少出现的设计，它实现了离线表和在线表共享一套表名和scheme，共享一套索引信息，共享一个SQL解析引擎，我们使用C++实现的SQL解析引擎来编译SQL，然后共享同一个数据引入和导出流，也就是说离线表和在线表都可以使用相同的SQL语句来做数据导入和导出，他们唯一的区别就是离线和在线分别有独立的持久化存储。我们刚刚提到的在线是全内存的高性能多级跳表存储，离线上我们支持让本地的文件存储以及像HDFS这种分布式存储，来应对离线和在线不同的场景需求。

OpenMLDB 0.4.0 全流程新特性 2 | 高可用离线任务管理

第二个新特性就是，新增加了一个高可用的离线任务管理服务，叫TaskManager Service，

高可用的离线任务管理服务，支持本地或Yarn集群上的Spark任务管理，支持使用SQL来做任务管理，像SHOW JOBS, SHOW JOB, STOP JOB等，都是通过拓展SQL语法来实现的。它内置支持多种数据任务，包括：导入在线数据，导入离线数据，导出离线数据。

OpenMLDB 0.4.0 全流程新特性 3 | 端到端的AI工作流

第三个重要的特性是，实现了真正的端到端AI工作流，可以基于SDK或者CLI命令行使用。

左边的列表就是我们在做端到端AI应用落地的8个步骤，分别是：创建数据库、创建数据库表、导入离线数据、进行离线的特征抽取，然后使用机器学习框架进行模型训练、部署SQL上线、导入在线数据，以及上线在线特征服务。

从第1到第8个步骤，几乎每个步骤都可以通过OpenMLDB的SDK或命令行来实现：

使用标准的SQL语句创建数据库和创建数据库表，这个是标准SQL就支持的
像导入离线数据，一些SQL方言也可以支持，例如SQL Server或MySQL可以支持类似这种Load Data in File的语法，即从文件导入数据到一个表中。

我们也支持离线和在线的数据导入，以及离线的特征抽取，因为前面介绍了我们特征计算都是使用拓展的SQL语言，我们在命令行里集成了离线SQL任务的提交功能，你可以在命令行去执行一个标准的SQL，比如这里的select sum语句，使用SQL提交任务后，因为它是离线任务，因此会提交到一个分布式的计算集群，比如yarn集群，然后做分布式的离线特征计算。

对于第5步机器学习模型训练：

我们支持外部的机器学习训练框架，像TensorFlow，PyTorch，LightGBM，XGBoost或者OneFlow等；
因为我们生成的是标准的样本数据格式，像CSV、LIBSVM或者TFRecords等，用户可以使用TensorFlow等框架来做模型训练；
这些框架也可以提交到本地、yarn集群、k8s集群等，来做分布式的训练；
支持使用GPU等硬件进行加速，跟我们的特征数据库OpenMLDB是完全兼容的。

模型训练以后，即我们的SQL特征可以上线了，然后可以直接执行一个Deploy命令，接上要上线的SQL，就可以上线我们的在线特征服务了。这个也是我们通过SQL拓展来实现的。

然后上线后的服务，需要给它注入一些历史的时序特征，我们称之为特征的蓄水。用户的一些历史数据，也可以使用Load Data的这个SQL语句来完成。

完成以后，我们内部会起一个支持HTTP和RPC接口的服务，客户端使用标准的HTTP请求就可以访问了，或者使用我们的Java、Python SDK。未来我们也会把这个功能集成到CLI中，来实现全流程的端到端AI工作流在命令行上的整合。

【02 | OpenMLDB 0.4.0 单机/集群版快速上手】

介绍完0.4.0新增的全流程特性，那么接下来，就给大家快速上手一下0.4.0的单机版和集群版功能。

首先单机版和集群版的区别是：

单机版部署简单，模块比较少，只需要下载一个预编译的Binary就可以了，没有任何外部的依赖。单机版的功能也是齐全的，支持Linux和MAC操作系统，MAC下基于M1芯片的ARM架构，或者是基于英特尔CPU芯片的x86架构也都是支持的。因此，它适合于功能测试和小规模的POC测试。
集群版有完整丰富的功能集。
- 它支持高可用，所有的节点都是高可用的，没有单点故障。
- 它支持大容量存储，虽然我们的在线存储数据是放在内存里，但是它支持存储的水平拓展。随着数据量增加，只要水平增加通用的x86的存储服务器就可以了。
- 它是高性能的，无论是离线计算还是在线计算，集群版都可以支持分布式的并行计算，加速建模和特征抽取的时间。

OpenMLDB 0.4.0 单机版快速上手 | 启动单机版OpenMLDB数据库

单机版的起使用方法就非常简单了。单机版和集群版在GitHub上都是开源的，在GitHub下载的代码，底层就支持集群版的功能。对于单机版我们提供了一个脚本，只要执行这个脚本，就会启动单机版需要的三个组件。右边是它的架构，包括一个Name Server服务和一个API Server服务，底层数据会存储在单个Tablet上，那么用户使用命令行或者SDK就可以访问我们的服务了。

OpenMLDB 0.4.0 单机版快速上手 | 使用OpenMLDB客户端

客户端的使用非常简单，前面使用一个脚本启动完这个集群后，可以像MySQL这样，使用一个客户端的命令行工具，指定IP和端口连接OpenMLDB数据库。连接后会打印一些集群的基本信息，包括版本号等信息。

OpenMLDB 0.4.0 单机版快速上手 | 执行标准SQL

连接上以后，我们就可以使用标准的SQL语句了。

PPT左边列举了我们已经支持的SQL语句，在我们的文档网站中可以看到更详细的介绍。基础的SQL，如DML、DDL等语句都已经支持了，SELECT INTO和各种SELECT子查询语句也是可以支持的。

右边就是一些执行SQL命令的截图。使用数据库一般的使用流程就是：

创建一个数据库，然后Use数据库，后面的SQL操作就会在默认的DB上完成；
我们可以Create table，这也是遵循标准这种ANSI SQL语法的。但相比于标准SQL，我们在创建表的时候，还可以做索引和时间列的指定；
通过Show tables，看到已经创建好的table。

我们也支持标准的SQL插入语句，把单条数据插入到数据库表里面，通过select语句可以查询，这是OpenMLDB作为一个最基础的在线数据库提供的一些功能。

OpenMLDB 0.4.0 集群版快速上手 | 启动集群版OpenMLDB数据库

那么接下来我会介绍集群版。集群版的启动方法跟单机版类似，我们会提供一个star-all脚本。集群版相比于单机版，有高可用以及多组件的特点。

首先它的组件会更多，除了我们会启动前面提到的的tablet，name server和api server以外，我们为了实现高可用，默认会启动两个tablet，以保证所有的数据至少是两备份的。
用户可以在配置文件里面配置数据的备份数，以及集群的规模。
很重要的一点是，在0.4.0版本支持了离线的任务管理，因此也会增加一个叫task manager的高可用任务管理模块。
ppt右边是一个基础的架构图，除了OpenMLDB本身以外，高可用的实现目前依赖一个ZooKeeper集群。OpenMLDB的一些基础的元数据，包括主节点服务还有需要持久化的信息会存储到ZK上面，name server启动后把自己的高可用地址注册到ZK上，tablet会通过ZK来连接主name server已经监听一些元数据的更新。

OpenMLDB 0.4.0 集群版快速上手 | 集群版OpenMLDB配置文件

集群版的部署会相对复杂，它新增了task manager模块，大家也可以简单看一下技术组件的配置文件，其中比较重要的是，大部分组件都需要配置ZooKeep的IP和路径，保证所有的组件都是连接到同一个ZooKeep上，通过Zab协议实现高可用的元数据管理，来保证整个集群的高可用。

OpenMLDB 0.4.0 集群版快速上手 | 使用集群版OpenMLDB客户端

使用集群版的客户端跟单机版稍微有一点区别，在使用OpenMLDB命令行客户端的时候，它不再是直接指定name server的IP和端口，因为name server也是高可用的，它的IP端口在Failover时可能会变，所以我们在启动的时候，需要配置ZK的信息，启动后会打印更多集群版相关的一些配置和版本信息等。

它的使用方法跟单机版是类似的，我们可以通过前面提到的SQL语句，你可以把它当成一个超高性能的，基于全内存的时序数据库，或者是支持SQL的数据库来使用。

OpenMLDB 0.4.0 集群版快速上手 | 使用集群版OpenMLDB高级功能

集群版还有一些更高级的功能，这里给大家介绍两个：

1.离线模式和在线模式。 这是集群版特有的功能，因为单机版所有的计算都是在单机上，所以不会区分在线模式和离线模式。集群版支持对于HDFS等海量数据的存储，离线计算底层目前也是基于Spark来做的。
那么离线模式和在线模式怎么使用的呢？

- 我们支持一个标准SQL的Set语句，然后可以看到当前的execute_mode是online的，online的时候我们执行的SQL语句，都是通过在线模式执行的，也就是去查内存的数据。
- 通过set @SESSION.exexute_mode = “offline”，就可以把模式切换成离线了。
- 可以看到当前模式是offline，offline模式的SQL查询就不是去内存里面查了，因为在真实的场景里面，比如风控或者团伙欺诈识别，离线数据可能是海量的，可能是几T到几百T的规模。SQL查询肯定不是交互能马上返回结果的，而且这个查询结果也不可能完全放在某一个节点做聚合。所以在离线模式下，我们会把SQL的查询当成一个任务。可以看到任务的基本信息，包含任务ID、任务类型、任务状态等等。
- 在执行完SQL以后，0.4.0版本会提供一些命令，比如Show jobs，查看任务的状态，查看日志信息等等，来实现这种离线的任务管理。这部分管理功能也集成到了CLI命令行之中。

2. 部署SQL到线上服务。 这是集群版和单机版都支持的。这点是其他在线数据库不支持的。用户在创建完数据库和数据库表以后，对于某一个做完特征抽取的SQL，科学家认证比较有效后，可以通过Deploy命令来上线，然后再通过SHOW DEPLOYMENT就可以看到我们已经部署的服务，这有点类似在SQL里面的一个存储过程，每一个Deployment都对应一个可上线的SQL。我们作为用户使用线上服务的时候，它可以通过deploy的名字来做在线SQL的执行，这点跟我们的存储过程是类似的。

【03 | Workshop - 快速搭建全流程线上AI应用】

最后，我会通过一个workshop，带大家快速地从命令行开始，从头搭建一个全流程的线上AI应用。

应用场景

这是我们演示的场景，一个Kaggle的竞赛，叫New Your City Taxi Trip Duration，一个预估行程时间的机器学习场景。我们会下载比赛提供的一个计程车历史行程数据，开发者或者建模科学家需要根据这些数据，使用机器学习的方法，来预估新给出的测试集来预估行程时间。训练数据并不大，一共是11列，大概是100多万行，它的特点是包含了Timestamp的时序数据，对于行程预估场景时序数据是比较重要的。我们需要根据每个出租车行驶的历史记录，还有前序的一些特征，来做最终行程时间的预估。

OpenMLDB 0.4.0技术方案

这次演示使用基于OpenMLDB 0.4.0的技术方案，这里先汇总了一下：

特征抽取语言：使用的是科学建模科学家最熟悉的SQL语言；
模型训练框架：这个例子里面使用的是LightGBM，当然大家如果想使用TF或者PyTorch也是可以支持的；
离线存储引擎：使用本地的文件存储，因为它样本的数据量其实并不大，只有100多万行，可能就是几十兆的数据，在实际场景中，机器学习的样本可能会更大更复杂，那么OpenMLDB也是可以支持HDFS存储的；
在线存储引擎：使用OpenMLDB的高性能时序存储，一个基于多级跳表数据结构的内存存储；
在线预估服务：使用的是OpenMLDB自带的API server，提供的是标准的Restful接口和RPC的接口。

第一步：运行OpenMLDB镜像

接下来就大家来演示一下，我们在使用OpenMLDB建模的时候，首先需要搭建一个OpenMLDB数据库运行环境。

OpenMLDB本身提供了一个测试的demo镜像，OpenMLDB的底层实现是基于c++的，本身会比较稳定和易安装。我们在使用OpenMLDB的时候，可以使用我们在GitHub上提供的官方docker镜像。mac环境或者Linux环境也可以直接下载我们的源代码，本地编译和执行。

执行完就进入了该容器，截图就是它完整的docker file内容。为了demo演示，我们多安装了一些库，比如pandas，python，大家使用的时候只需要安装镜像和Binary，就可以通过一个脚本把Binary下载下来，并启动服务端和客户端了。镜像的内容也是非常干净的，不需要去下载一些额外的组件。

第二步：启动OpenMLDB集群

第二步就是启动OpenMLDB集群，可以使用init.sh（我们封装好的一个脚本），或者OpenMLDB项目里面提供的start脚本，也可以直接用自己编译的Binary来启动。

因为我们这次演示的集群版的完整功能，所以我们会先启动ZooKeeper服务，并启动我们依赖的一些组件，像tablet、name server、API server和task manager。只要把这几个组件启动以后，我们就拥有了集群版OpenMLDB的功能。大家如果感兴趣，也可以看sh脚本的内容，init.sh也会支持单机版和集群版，我们使用集群版会多启动了一个ZooKeeper，以及所有的OpenMLDB的组件。

组件的启动其实也是非常简单的，就是start-all的脚本内容。我们会定义很多个组件，并做一个循环，把每一个组件都单独起起来。这些组件的启动是通过OpenMLDB c++项目编译出来的一个binary，当然不同平台要在对应的平台上编译出来，然后使用一个mon工具把它启动起来就可以了。

第三步：创建数据库和数据表

服务已经启动后，我们可以用一个类似MySQL的客户端做连接。只要配置好ZK的地址，就能自动找到name server的地址，进入到数据库的里面，此时，就可以执行大部分标准的SQL语句了。

这里为了演示我们计程车端到端的机器学习建模流程，我们将：

先创建一个测试用的DB，create database，然后再use database；
此时通过show databases命令就可以看到database已经创建好了；
然后我们在database里面创建一个表，因为还没开始做离线模型训练，我们无法提前知道表需要建什么索引，所以我们支持用户不指定索引来创建表。现在可以看到表大概有十一列，然后这个表对应的就是Kaggle比赛的数据集，他提供的11列的数据类型，其中包括多列timestep类型的数据。
此时可以看到create successfully了，表已经创建好了，叫t1。

第四步：导入离线数据

第4步我们就需要开始导入离线数据了，把Kaggle竞赛里面提供的训练数据导入进来，目前支持多种数据格式的导入，包括parquet格式和csv格式。

为了进行离线的数据导入，我们需要把当前的执行模式切换成离线，然后通过load data语句然后来进行。

为什么要切换成离线呢？ 如果没有切换成离线的话，此时的数据导入就会变成在线数据导入。如果离线数据量特别大，或者数据是从HDFS导入的，那么全部数据导到我们的在线的内存存储是不靠谱的，所以把执行模式切换成离线非常重要。

然后执行一个导入的SQL，这个SQL会提交一个任务，通过show jobs就可以看到这个任务的状态，它是一个ImportOfflineData的一个任务，大概几秒钟这个任务就已经完成了，数据就已经导入了进来。
我们重新看一下数据库，可以看到在刚刚导入的时候，是还没有导入离线数据的，没有离线的这些地址的。在离线导入成功以后，表的属性里面就会包含离线的信息，它表示离线的数据已经导入到当前的某个路径上，可以看到这个数据文件也正确导入了。

第五步：使用离线数据进行特征抽取

我们继续刚刚的演示，先把模式切换成离线。离线数据导入以后，就可以进行离线的特征抽取，这个步骤不同的建模场景花费的时间不同，需要有建模科学家来选择需要抽取需要什么特征，然后去不断地调整特征抽取的SQL脚本。

接下来我们可以使用over window滑动窗口来做时序特征，去求它的min、max等聚合值，也可以取单行的特征，对某一行做一个单行的计算。

最后SQL执行完以后，我们要把特征抽取后的样本数据存放到一个位置，可以让它导出到本地的某个路径，如果说数据量比较大，也可以导出到一个HDFS分布式存储里面。

此时可以看到这个任务执行成功了，通过show jobs就可以看到job ID是2，job的状态从最开始的submitted变成了running，因为它在分布式地执行，虽然不是一个很复杂的SQL，但是它的数据来自t1离线数据。在真实的离线特征抽取里面，数据量可能非常大，不可能在本地内存里面完成SQL的计算，所以我们会把这个任务提交到一个本地或者yarn上的Spark去执行。

大家可以看到这个状态已经变成了finished，说明这个数据已经导出成功了。刚刚我们的SQL语句指定了导出路径，在命令行看到样本数据已经正确导出了。为了支持更多的训练框架，除了默认支持的csv格式还支持其他样本格式，这个数据文件的内容就是通过刚刚的SQL语句产生的样本数据，

第六步：使用样本数据进行模型训练

这个样本数据就可以使用开源的机器学习框架来做训练，这里使用我们的train脚本，大家也可以简单看一下它的内容，首先它引入了lightgbm第三方库，前面需要你输入刚刚指定的特征文件路径，以及它需要导出的模型的路径。

然后前面是对样本数据做一个整合，把多个csv文件整合成单个csv文件，然后通过panda把csv的特征读出来。下面是建模用户非常熟悉的机器学习建模脚本：

首先是对样本进行训练集合、预估集的拆分，把他的label列提取出来；
把python的dataset传进去，并配置一下我们使用的机器学习模型，像GBDT或者决策树、DNN模型都可以；
使用lightgbm的train函数就可以开始训练了。

这个脚本也可以替换成任何TensorFlow、PyTorch或者是oneflow等开源机器学习框架的训练脚本。我们执行这个脚本，因为它的样本数据并不是很多，所以他很快就把新的模型训练完并导出到输出路径上，后续我们就可以使用这个模型做模型上线了。但是大家一定要考虑到我们模型上线并不只是 model的influence，我们的输入数据是Kaggle提供的原始数据，所有的端到端机器学习流程一定是包括特征抽取，还有模型的influence的。

第七步：部署SQL上线

我们需要使用OpenMLDB提供的一个高性能的在线特征计算功能，把刚刚做的建模的SQL上线。我们从客户端重新进入OpenMLDB数据库里面，切换它的默认DB，SQL的部署跟前面的SQL离线特征计算是一样的，此时，并不需要对某一个特征做特殊的开发，我们只需要使用相同的SQL语句，前面加上deploy语句，就可以做SQL上线了。deploy的时候它会对某些键做分区，对时间列做排序，我们会对这些键分别提前建好索引，对这些数据进行按照索引来排列存储。

第八步：导入在线数据到OpenMLDB

Deploy完以后就可以做在线预估了，预估的时候我们肯定是希望实现在线预估的，因为我们做的特征是这种时序窗口特征，我们希望每个特征计算的时候，大家都可以根据前一天的窗口来做min或者max的聚合，所以我们一般会进行一个蓄水的操作，就是把一些线上数据导入到在线的数据库里面。在线的导入也是一个分布式的任务，我们执行完以后就可以看到提交了一个job，job目前也运行得很快，在本地环境里它的性能是非常好的，可以看到这个job3已经完成了，数据已经导入了。

第九步：启动HTTP预估服务和在线预估

有了导入后的在线数据，第9步我们就可以启动预估服务做在线预估了。预估服务包装了一下，有个叫start predict server的脚本，这个脚本是我们封装的一个很简单的Python HTTP server，HTTP server就会把一些客户端数据包装请求到API server，最后会打印结果。原始数据进来以后，通过特征计算得到样本数据，并且会去加载刚刚模型训练得到的LightGBM模型，要使用模型来接收在线返回的特征样本，然后再把这个预估结果给返回出去。

第十步：进行在线特征抽取计算

我们先启动predict server，最后一步就是做在线的predict。

在线的predict是我们封装的一个脚本，这个脚本就是一个HTTP的client，会把我们提供的原始数据列（这些输入包括字符串类型数据，不是特征抽取后的样本）作为参数传入，通过Python直接执行，这里执行得很快，单次在线的特征抽取可以做到10毫秒以内。

这个执行速度是如何做到的呢？ 这跟我们用户建模的SQL复杂度有关，像这种简单的特征，数据量比较小的话，甚至可以做到1毫秒以内，纯特征计算的时间，加上模型预估的时间，用户几乎没有感知就马上返回了。这里分别是通过我们SQL语句来做的特征样本在线的样本，然后这个是经过lightgbm返回的一个模型预估后的数据。

有些人可能觉得这跑几个脚本好像也没什么，你只是做了一些SQL的计算而已，我去MySQL里面查这个数据，好像也可以做到几十毫秒或者100毫秒以内返回。区别是什么呢？

像刚刚有观众提到的Feature store也可以支持这种特征存储，然后它也可以支持简单的特征计算，例如你传一个特征， trip_duration可能是10，然后你的特征是对它做归一化或者给它做一个变换，这种其实都是单行的特征，显然单行的特征性能是非常高的，无论是用Python还是c++来实现，你对于一个原始数据做一个乘法做一个加法，几乎就只需要一次CPU计算。
而我们支持的特征其实是一个滑动窗口的时序聚合特征，在计算输入的某一行数据时，计算的并不是只对这一行做一个数值计算，你需要从数据库里面去把这一行它一天以前的所有的数据给拿出来，然后根据ROWS BETWEEN或者RANGE BETWEEN的这种窗口定义语法，去做窗口的滑动，然后对窗口内的数据再做一个聚合。我们10毫秒以内的性能其实是对于这两个特征，然后分别做不同的聚合得到的结果。
如果不是使用专门的时序数据库，例如我们是从MySQL里面去获取它的当前行数据的前一天的所有的数据，可能窗口数据获取就要超过100毫秒，我们可以做到窗口数据获取，还有窗口特征计聚合计算以及最后的模型预估，整体时间都可以控制到10毫秒到20毫秒以内，这个是跟我们的存储架构设计是密不可分的，也是我们OpenMLDB跟其他的这种OLTP数据库的区别。最后我们就可以得到一个预估的结果。

上线全流程AI应用总结

那么总结一下上线全流程AI应用的10个步骤，其实前面都比较简单，就是启动openMLDB集群，创建数据库，创建表，然后进行离线数据导入和离线的特征计算。当特征抽取的SQL没问题以后，我们就可以做SQL的上线了，上线后会启动一个支持http的预估服务，然后进行一个预估。在0.4.0版本中，几乎所有步骤都可以在SQL的命令行上执行和支持。未来我们也计划去支持基于命令行的在线特征抽取，甚至可以在命令行上拓展SQL语法来支持在命令行上做模型的训练等。

最后简单总结一下本次分享，首先给大家介绍的是OpenMLDB 0.4.0全流程的一些新特性，以及单机和集群版的快速上手，最后通过一个Kaggle比赛场景来给大家演示一下，怎么使用OpenMLDB快速搭建一个能够上线的AI应用。

欢迎大家来参与到我们的社区，目前项目的所有的文档和代码都在github上，如果大家感兴趣，也可以参与issue的提交以及pull request代码开发。欢迎大家也扫码加入我们的微信交流群，我这边的分享就到这里，非常感谢大家的收听。

你可能感兴趣的:(OpenMLDB,人工智能,机器学习,自然语言处理,数据库架构,分布式)

高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
php 高并发下日志量巨大，如何高效采集、存储、分析贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.问题背景高并发系统每秒产生大量日志（如访问日志、错误日志、业务日志等）。单机写入、存储、分析能力有限，容易成为瓶颈。需要支持实时采集、分布式存储、快速检索与分析。2.主流架构方案一、分布式日志采集架构[应用服务器(PHP等)]|v[日志采集Agent（如Filebeat、Fluentd、Logstash）]|v[消息队列/缓冲（如Kafka、Redis、RabbitMQ）]|v[日志存储（如E
RocketMQ 之死信队列 firepation RocketMQ rocketmq
在分布式消息系统中，消息的可靠传递和处理至关重要。然而，由于各种原因（如消息处理失败、消费超时等），一些消息可能无法被正常消费。这些无法被消费的消息如果不加以处理，会影响系统的稳定性和数据一致性。为了解决这一问题，RocketMQ提供了死信队列（DeadLetterQueue，DLQ）机制。本文将深入探讨RocketMQ的死信队列，包括其实现原理、应用场景以及使用示例。什么是死信队列？死信队列是一
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
ZooKeeper架构及应用场景详解走过冬季学习笔记 zookeeper 架构分布式
ZooKeeper是一个开源的分布式协调服务，由Apache软件基金会维护。它旨在为分布式应用提供高性能、高可用、强一致性的基础服务，解决分布式系统中常见的协调难题（如配置管理、命名服务、分布式锁、服务发现、领导者选举等）。核心软件架构ZooKeeper的架构设计围绕其核心目标（协调）而优化，主要包含以下关键组件：集群模式(Ensemble):ZooKeeper通常部署为集群（称为ensemble
zookeeper etcd区别 sun007700 zookeeper etcd 分布式
ZooKeeper与etcd的核心区别体现在设计理念、数据模型、一致性协议及适用场景等方面。‌ZooKeeper基于ZAB协议实现分布式协调，采用树形数据结构和临时节点特性，适合传统分布式系统；而etcd基于Raft协议，以高性能键值对存储为核心，专为云原生场景优化，是Kubernetes等容器编排系统的默认存储组件。‌‌1‌‌2‌架构与设计目标差异‌‌ZooKeeper‌。‌设计定位‌:专注于分
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
【AI大模型】LLM模型架构深度解析：BERT vs. GPT vs. T5 我爱一条柴ya 学习AI记录 ai 人工智能 AI编程 python
引言Transformer架构的诞生（Vaswanietal.,2017）彻底改变了自然语言处理（NLP）。在其基础上，BERT、GPT和T5分别代表了三种不同的模型范式，主导了预训练语言模型的演进。理解它们的差异是LLM开发和学习的基石。一、核心架构对比特性BERT(BidirectionalEncoder)GPT(GenerativePre-trainedTransformer)T5(Text
GPT实操——利用GPT创建一个应用狗木马深度学习 gpt-3 gpt
功能描述信息查询：用户可以询问各种问题，如天气、新闻、股票等，机器人会返回相关信息。任务执行：用户可以要求机器人执行一些简单的任务，如设置提醒、发送邮件等。情感支持：机器人可以与用户进行情感交流，提供安慰和支持。个性化设置：用户可以自定义机器人的回复风格和偏好。技术栈前端：React.js后端：Node.js+Express数据库：MongoDB自然语言处理：OpenAIGPT-3API其他工具：
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
分布式选举算法＜一＞ Bully算法
分布式选举算法详解：Bully算法引言在分布式系统中，节点故障是不可避免的。当主节点（Leader）发生故障时，系统需要快速选举出新的主节点来保证服务的连续性。Bully算法是一种经典的分布式选举算法，以其简单高效的特点被广泛应用于各种分布式系统中。什么是Bully算法？Bully算法是一种基于优先级的分布式选举算法。每个节点都有一个唯一的ID，ID值越大的节点优先级越高。当主节点故障时，优先级最
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
Python爬虫实战：基于最新技术的定时签到系统开发全解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言人工智能自动化知识图谱
摘要本文详细介绍了如何使用Python开发一个功能完善的定时签到爬虫系统。文章从爬虫基础知识讲起，逐步深入到高级技巧，包括异步请求处理、浏览器自动化、验证码破解、分布式架构等最新技术。我们将通过一个完整的定时签到项目案例，展示如何构建一个稳定、高效且具有良好扩展性的爬虫系统。文中提供了大量可运行的代码示例，涵盖requests、aiohttp、selenium、playwright等多种技术方案，
Python爬虫实战：使用最新技术爬取新华网新闻数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 音视频
一、前言在当今信息爆炸的时代，网络爬虫技术已经成为获取互联网数据的重要手段。作为国内权威新闻媒体，新华网每天发布大量高质量的新闻内容，这些数据对于舆情分析、市场研究、自然语言处理等领域具有重要价值。本文将详细介绍如何使用Python最新技术构建一个高效、稳定的新华网新闻爬虫系统。二、爬虫技术选型2.1技术栈选择在构建新华网爬虫时，我们选择了以下技术栈：请求库：httpx（支持HTTP/2，异步请求
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class