流木随风

第3.5章：StarRocks数据导入--DataX StarRocksWriter

一、DataX介绍

DataX 3.0是阿里云DataWorks数据集成的开源版本，可以方便的对各种异构数据源进行高效的数据同步。其github地址为：

https://github.com/alibaba/DataXhttps://github.com/alibaba/DataX

DataX将复杂的网状的同步链路变成了星型数据链路，DataX自身作为中间传输载体负责连接各种数据源，友好的解决了异构数据源同步问题。DataX采用Framework+plugin架构构建，将数据源读取和写入抽象成为Reader/Writer插件，纳入到整个同步框架中：

Reader：Reader为数据采集模块，负责采集数据源的数据，将数据发送给Framework。

Writer：Writer为数据写入模块，负责不断向Framework取数据，并将数据写入到目的端。

Framework：Framework用于连接reader和writer，作为两者的数据传输通道，并处理缓冲，流控，并发，数据转换等核心技术问题。

二、StarRocksWriter

考虑到DataX的易用性和扩展性，StarRocks单独开发了StarRocksWriter插件。在底层实现上，StarRocksWriter内部将各种reader读取的数据进行缓存攒批（以csv或json格式），然后仍旧通过Stream load方式导入至StarRocks，总体数据流是source -> Reader -> DataX channel -> Writer -> StarRocks。

编译好的StarRocksWriter的github下载地址为：

Tags · StarRocks/DataX · GitHubhttps://github.com/StarRocks/DataX/tags

下载后将其解压至DataX的datax/plugin/writer路径下。

注意，StarRocksWriter目前只适配了DataX，可能不支持其他基于DataX的三方产品。目前github上阿里编译好的DataX打包的有点问题，大家可以使用源码自己编译或者下载评论区百度云里我编译好的（已添加StarRocksWriter）。

三、操作演示

StarRocks官网对DataX的操作也做了详细的介绍，文档地址为：

https://docs.starrocks.com/zh-cn/main/loading/DataX-starrocks-writerhttps://docs.starrocks.com/zh-cn/main/loading/DataX-starrocks-writer

DataX的运行环境要求JDK（1.8以上，推荐1.8）及Python（2或3都可以），其使用更是简单，只需要参考模板编写一个数据同步任务的json文件，然后指定json执行DataX即可。为方便演示，我们还先建表并准备数据，以同步MySQL中的数据到StarRocks为例，演示所用的架构如下：

节点IP	部署服务	端口	版本	说明
192.168.110.101 [node01]	FE	9030	2.0.0-GA	query_port
	BE			用户名密码均为root
	Broker			Broker名称：hdfs_broker
	mysql-client		5.7.36
	DataX			/opt/module/datax
192.168.110.102 [node02]	MySQL Community Server		5.7.36	用户名密码均为root

3.1任务准备

在MySQL中创建演示表：

[root@node02 ~]# mysql -uroot -proot

mysql> create database ODS;

mysql> use ODS;

mysql> CREATE TABLE `departments` (

`department_id` int(4) NOT NULL AUTO_INCREMENT,

`department_name` varchar(3) DEFAULT NULL,

`manager_id` int(6) DEFAULT NULL,

`location_id` int(4) DEFAULT NULL,

PRIMARY KEY (`department_id`)

);

插入演示数据：

mysql> insert into `departments`(`department_id`,`department_name`,`manager_id`,`location_id`) values (10,'Adm',200,1700),(20,'Mar',201,1800),(30,'Pur',114,1700),(40,'Hum',203,2400),(50,'Shi',121,1500),(60,'IT',103,1400),(70,'Pub',204,2700),(80,'Sal',145,2500),(90,'Exe',100,1700),(100,'Fin',108,1700),(110,'Acc',205,1700),(120,'Tre',NULL,1700),(130,'Cor',NULL,1700),(140,'Con',NULL,1700),(150,'Sha',NULL,1700),(160,'Ben',NULL,1700),(170,'Man',NULL,1700),(180,'Con',NULL,1700),(190,'Con',NULL,1700),(200,'Ope',NULL,1700),(210,'IT ',NULL,1700),(220,'NOC',NULL,1700),(230,'IT ',NULL,1700),(240,'Gov',NULL,1700),(250,'Ret',NULL,1700),(260,'Rec',NULL,1700),(270,'Pay',NULL,1700);

DataX只能同步数据，不能同步表结构，所以在执行任务前，我们需要先在目标数据库中手动创建好表。

StarRocks中建表：

[root@node01 ~]# mysql -h192.168.110.101 -P9030 -uroot –proot

mysql> create database starrocks;

mysql> use starrocks;

mysql> CREATE TABLE `departments` (

`department_id` int NOT NULL,

`department_name` varchar(30) DEFAULT NULL,

`manager_id` int DEFAULT NULL,

`location_id` int DEFAULT NULL

)

DUPLICATE KEY(department_id)

DISTRIBUTED BY HASH (department_id) BUCKETS 10

PROPERTIES (

"replication_num"="1");

如果有varchar(n)类型的列，注意StarRocks中varchar(n)的n为字节数。

3.2创建作业配置文件

DataX中的任务配置文件是json格式，我们可以方便的通过下面的命令查看内置的任务配置模板：

python datax.py -r {YOUR_READER} -w {YOUR_WRITER}

这里我们就可以写为：

[root@node01 datax]# python bin/datax.py -r mysqlreader -w starrockswriter

根据模板，编写我们的作业文件：

[root@node01 datax]# vi job/mysql2starrocks.json

输入：

{

    "job": {

        "setting": {

            "speed": {

                 "channel": 1

            },

            "errorLimit": {

                "record": 0,

                "percentage": 0

            }

        },

        "content": [

            {

                "reader": {

                    "name": "mysqlreader",

                    "parameter": {

                        "username": "root",

                        "password": "root",

                        "column": [ "*" ],

                        "splitPk": "department_id",

                        "connection": [

                            {

                                "table": [ "departments" ],

                                "jdbcUrl": [

                                     "jdbc:mysql://192.168.110.102:3306/ODS"

                                ]

                            }

                        ]

                    }

                },

                "writer": {

                    "name": "starrockswriter",

                    "parameter": {

                        "username": "root",

                        "password": "root",

                        "database": "starrocks",

                        "table": "departments",

                        "column": [ "*" ],

                        "preSql": [],

                        "postSql": [],

                        "jdbcUrl": "jdbc:mysql://192.168.110.101:9030/",

                        "loadUrl": ["192.168.110.101:8030"],

                        "loadProps": {}

                    }

                }

            }

        ]

    }

}

MySQLReader

关于mysqlreader部分，可以在DataX的文档中看到详细的参数（使用其他数据库的reader或writer时，也可以在这里查看相关参数的介绍）：

StarRocksWriter

主要参数介绍如下：

1、Password

描述：StarRocks数据库的密码。

必选：是（密码不能为空）

默认值：无

2、loadUrl

描述：StarRocks FE的地址用于Streamload，可以为多个fe地址，形如fe_ip:fe_http_port，例如["192.168.110.101:8030", "192.168.110.102:8030"]。

必选：是

默认值：无

3、column

描述：目的表需要写入数据的字段，字段之间用英文逗号分隔。例如: "column": ["id","name","age"]。column配置项必须指定，不能留空！如果希望导入所有字段，可以使用["*"]。

必选：是

默认值：无

4、preSql

描述：写入数据到目的表前，会先执行这里的标准语句。

必选：否

默认值：无

5、postSql

描述：写入数据到目的表后，会执行这里的标准语句。

必选：否

默认值：无

6、jdbcUrl

描述：目的数据库的JDBC连接信息，用于执行preSql及postSql。

必选：否

默认值：无

7、maxBatchRows

描述：单次StreamLoad导入的最大行数。与下面的两个参数maxBatchSize、flushInterval是“或”的关系，当攒批的数据条数、数据大小或攒批时间其中一个达到参数设置值后结束本次攒批执行导入。

必选：否

默认值：500000（50W）

8、maxBatchSize

描述：单次StreamLoad导入的最大字节数。

必选：否

默认值：104857600（100M）

9、flushInterval

描述：上一次StreamLoad结束至下一次开始的时间间隔（单位：ms）。

必选：否

默认值：300000（ms）

10、loadProps

描述：StreamLoad的请求参数，详情参照StreamLoad介绍章节。

必选：否

默认值：无

这里以我们经常使用的行列分隔符为例，在StarRocksWriter中，默认传入的数据均会被转为字符串，并以\t作为列分隔符，\n作为行分隔符，组成csv文件进行StreamLoad导入操作。如果默认的分隔符与我们的数据冲突，也可以通过loadProps使用Stream Load中的参数自定义列分隔符，例如：

"loadProps": {

"column_separator": "\\x01",

"row_delimiter": "\\x02"

}

当数据质量较差，不好确认分隔符时，我们也可以配置攒批数据的数据格式为json，来规避分隔符的问题：

"loadProps": {

"format": "json",

"strip_outer_array": true

}

3.3启动DataX作业

[root@node01 datax]# python bin/datax.py job/mysql2starrocks.json

DataX在运行日志中打印了大量信息，其中包括传输速度，Reader、Writer性能，进程CPU，JVM和GC情况等等。

任务完成后，打印总体运行情况：

2022-01-15 23:19:15.611 [job-0] INFO JobContainer -

任务启动时刻                    : 2022-01-15 23:19:04

任务结束时刻                    : 2022-01-15 23:19:15

任务总计耗时                    :                9s

任务平均流量                    :             29B/s

记录写入速度                    :             2rec/s

读出记录总数                    :                27

读写失败总数                    :                 0

如果任务失败，也会在控制台打印可能的失败原因。

四、常见问题说明

4.1常规排查方案

当任务失败时，我们可以在作业执行命令后加上--loglevel=debug来查看更详细的响应日志，例如：

[root@node01 datax]# python bin/datax.py job/mysql2starrocks.json --loglevel=debug

如果是数据问题，我们也可以利用streamwriter将数据读取后打印到控制台来定位问题，例如我们还简单编写一个作业文件：

[root@node01 datax]# vi job/mysql2stream.json

{

    "job": {

        "setting": {

            "speed": {

                 "channel": 1

            },

            "errorLimit": {

                "record": 0,

                "percentage": 0

            }

        },

        "content": [

            {

                "reader": {

                    "name": "mysqlreader",

                    "parameter": {

                        "username": "root",

                        "password": "root",

                        "column": [ "*" ],

                        "splitPk": "department_id",

                        "connection": [

                            {

                                "table": [ "departments" ],

                                "jdbcUrl": [

                                     "jdbc:mysql://192.168.110.102:3306/ODS"

                                ]

                            }

                        ]

                    }

                },

                "writer": {

                    "name": "streamwriter",

                    "parameter": {

                    "encoding": "UTF-8",

                    "print": true

                    }

                }

            }

        ]

    }

}

启动DataX，执行作业，即可在控制台看到从Reader中读到的数据：

[root@node01 datax]# python bin/datax.py job/mysql2stream.json

4.2时区问题

若我们在数据导入过程中发现导入目标表的时间戳类数据与源库数据相差8小时，则可以检查数据源和目标库的时区是否一致，或者我们也可以在datax.py启动脚本中添加时区参数，例如添加GMT+8时区：

[root@node01 datax]# vi bin/datax.py

DEFAULT_PROPERTY_CONF中添加：-Duser.timezone=GMT+8

4.3性能调优

1、合理拆分任务

合理配置任务参数，让DataX任务拆分为多个Task，同时，提升DataX Channel并发数。以mysqlreader为例，就要合理配置splitPk参数，如果splitPk不填写（包括不提供splitPk或者splitPk值为空），DataX会视作使用单通道同步该表数据。

2、配置堆内存

当提升DataX Job内Channel并发数时，内存的占用会显著增加，因为DataX作为数据交换通道，在内存中会缓存较多的数据。例如Channel中会有一个Buffer，作为临时的数据交换的缓冲区，而在部分Reader和Writer的中，也会存在一些Buffer，为了防止OOM等错误，调大JVM的堆内存。通常建议将内存设置为4G或者8G，这个也可以根据实际情况来调整。

调整JVM xms xmx参数的两种方式：一种是直接更改datax.py脚本；另一种是在启动的时候，加上对应的参数，如下：

python datax/bin/datax.py --jvm="-Xms8G -Xmx8G" XXX.json

建议将初始化堆内存与堆最大内存配置的一致，这样可以让同步数据处理起来更快，也可以避免内存的抖动。

4.4任务限速

使用DataX进行数据同步的另一个优势是可以限速，进而降低同步过程中对业务库的压力影响。DataX3.0提供了包括通道（并发）、记录流、字节流三种流控模式，可以方便的控制同步作业速度，让同步作业在库可以承受的范围内达到最佳的同步速度。以最常用的字节流限速为例：

修改datax/conf/core.json，限制单个chanel的速度为2M：

"speed": {

"byte": 2097152,

},

同时修改咱们作业json部分的速度限制，例如限制为4M（这样任务会用4/2=2个channel并发进行任务），修改：

    "job": {

        "setting": {

            "speed": {

                "byte" : 4194304

            }

        },

        ...

    }

以及：

"speed": {

   "channel": 5,

   "byte": 1048576,

   "record": 10000

}

4.5读取StarRocks数据

StarRocks兼容MySQL协议，当我们需要将StarRocks中的数据同步至其他数据库时，也可以使用mysqlreader来直接读取，但这种JDBC的方式性能可能不是很好，还是推荐官方的Flink Connector或者Spark Connector来进行处理。

你可能感兴趣的:(database,分布式,数据库,big,data,sql)

Qt 智能指针详细介绍 zhaoyongCNSX Qt Qt 智能指针
1.Qt智能指针概述Qt提供了一套基于父子对象的内存管理机制,所以我们很少需要去手动delete.但程序中不一定所有类都是QObject的子类,这种情况下仍然需要使用一些智能指针.注意:在Qt中使用智能指针时,一定要避免发生多次析构.2.Qt中的智能指针分类根据不同的使用场景,可分为以下几种:共享数据.隐式或显式的共享数据(不共享指针),也被称为侵入式指针.QSharedDataPointer指向
Async协程保姆级教学 Louis yeap python 大数据 python 开发语言协程 async
目录编辑前言二、Async协程使用步骤1.导入标准库2.协程三、协程的应用场景1.网络IO2.数据库IO3.文件IO4.异步任务调度5.Web服务6.设备和串口IO7.队列和管道总结前言介绍：Python协程的概念源于生成器（Generator）。但它通过asyncio和事件循环，进一步扩展了生成器的功能，从而支持异步非阻塞操作。允许程序在执行过程中暂停（挂起），然后在需要时恢复运行。与传统的线程
Django安装mysqlclient报错 Louis yeap macos django 后端 python
系列文章目录文章目录系列文章目录前言总结前言CollectingmysqlclientUsingcachedmysqlclient-2.2.4.tar.gz(90kB)Installingbuilddependencies...doneGettingrequirementstobuildwheel...errorerror:subprocess-exited-with-error×Gettingr
理解van-field组件 :value 和 v-model的区别 weixin_45121510 vue 前端
这里的value和v-model实际上：主要的区别是是否是双向绑定；v-model就是不论哪一个改变都会引发data数据值的改变。value则没有这个效果。如果你在项目中，遇到一种情况，是当data数据改变时不想同步改变页面展示信息时，不妨采取value而不是v-model，或许会有
java cap理论_架构设计之「 CAP 定理」 Can Li java cap理论
点击上方“Java知音”，选择“置顶公众号”技术文章第一时间送达！作者：奎哥来源：不止思考在计算机领域，如果是初入行就算了，如果是多年的老码农还不懂CAP定理，那就真的说不过去了。CAP可是每一名技术架构师都必须掌握的基础原则啊。现在只要是稍微大一点的互联网项目都是采用分布式结构了，一个系统可能有多个节点组成，每个节点都可能需要维护一份数据。那么如何维护各个节点之间的状态，如何保障各个节点之间数据
MVC中一个简单的自动生成呆懵小生 MVC
//控制器//通过获取当前时间publicActionResultXXXXX(){varstr=DateTime.Now.ToString("yyyyMMddHHmmss");returnJson(str,JsonRequestBehavior.AllowGet);}//页面上调用$.post("XXXXX",function(data){$("#input").val(data);//需要生成的
《向量数据库指南》——MoE应用：解锁深度学习新境界的钥匙大禹智库《实战AI智能体》《向量数据库指南》深度学习人工智能向量数据库大禹智库低代码 MoE模型
在深度学习的广阔天地里，混合专家（MoE）模型如同一把锐利的钥匙，正逐步解锁着各种复杂应用场景的新境界。作为大禹智库的向量数据库高级研究员，同时也是《向量数据库指南》的作者，我深感MoE模型在推动AI技术向前发展中所扮演的重要角色。今天，我将带大家深入探讨MoE模型在自然语言处理、计算机视觉以及多模态学习等领域的应用，并巧妙引导大家通过《向量数据库指南》获取更多干货和深度实战经验。一、自然语言处理
开源OA办公系统零起飞 ERP 开源 oa
介绍07FlyOA是一款基于TP5+HAdmin+Mysql打造的简单实用的开源的企业办公系统框架。可以帮助解决企业办公项目60%的重复工作，让开发更多关注业务逻辑。既能快速提高开发效率，帮助公司节省人力成本，同时又不失灵活性。使用07FLyOA可以简单快速地开发出企业级的Web应用系统。系统特点系统各功能模块，一目了然，操作简单；通用型的后台权限管理框架，员工的操作记录全覆盖跟踪，紧随潮流、极低
使用ScriptRunner对象做sql文件导入时遇到的问题 DamonREN 数据处理数据库同步 Mysql 开发遇到的问题 ScriptRunner
业务场景:服务端是挂在公网上用来提供数据同步功能,考虑到有可能客户端由于某种情况是不允许连接外网的,所以服务端提供一个接口用来下载全量sql脚本(当然这些数据是某官网公布出来的数据,不考虑数据安全问题),然后客户端通过拷贝或内网传输在客户端进行手动上传,客户端代码进行执行sql脚本,将全量数据同步到客户端对应的数据库以完成数据同步。问题复现:ScriptRunner对象是org.apache.ib
SpringCloud分布式中怎么使用open-feign来相互调用微服务(前提是服务都要注册到注册中心【zookeeper,或者nocas】) JISOOLUO 实用的示例网关 java 接口 spring
1、引入open-feignorg.springframework.cloudspring-cloud-starter-openfeign
一文讲清楚PostgreSQL分区表振华OPPO 数据库 postgresql 数据库
文章目录一、PostgreSQL详细介绍1.起源与发展2.核心特性3.社区与企业支持二、分区的详细介绍1.分区是什么2.为什么需要分区3.怎么分区（1）范围分区（RangePartitioning）（2）列表分区（ListPartitioning）（3）哈希分区（HashPartitioning）（自PG11版本提供）三、分区表的特征1.逻辑整体与物理独立2.查询性能优化3.数据管理简化4.灵活性
WAS 日志分析（websphere application server) Change is good websphere application server 服务器 jvm deployment
关键字:websphere日志WebSphereApplicationServer是一个基于Java的Web应用程序服务器，它构建在开放标准的基础之上，能帮助您部署与管理从简单的Web站点到强大的电子商务解决方案的诸多应用程序。它遵循J2EE并为Java组件、XML和Web服务提供了一个可移植的Web部署平台，这个平台能够与数据库交互并提供动态Web内容。随着WebSphereApplicatio
python 连接数据库之jaydebeapi SmartManWind
让python通过jdbc连接数据库1、安装visualcppbuildtools_full.exe链接：https://pan.baidu.com/s/1MLxNJfWNGuKIxgNYkJgUnw密码：3etc2、pipinstallJayDeBeApihttps://pypi.org/project/JayDeBeApi/3、测试代码importjaydebeapiurl='jdbc:ora
【附源码】Java计算机毕业设计小说阅读网站（程序+LW+部署）一念计算机毕设源码程序 java 课程设计 mysql
项目运行环境配置：Jdk1.8+Tomcat7.0+Mysql+HBuilderX（Webstorm也行）+Eclispe（IntelliJIDEA,Eclispe,MyEclispe,Sts都支持）。项目技术：java+mybatis+Maven等等组成，B/S模式+Maven管理等等。环境需要1.运行环境：最好是javajdk1.8，我们在这个平台上运行的。其他版本理论上也可以。2.IDE环境
python 分布式集群_Python搭建Spark分布式集群环境小国阁下 python 分布式集群
前言ApacheSpark是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。Spark最大的特点就是快，可比HadoopMapReduce的处理速度快100倍。本文没有使用一台电脑上构建多个虚拟机的方法来模拟集群，而是使用三台电脑来搭建一个小型分布式集群环境安装。本教程采用Spark2.0以上版本(比如Spark2.0.2、Spark2.1.0等)搭建集群，同样适用于搭建Spark1.6.2
mysql var目录很快_删除/var/lib/mysql目录的解决办法逆铭 mysql var目录很快
在学习阶段偶尔会删除/var/lib/mysql/*目录来达到清除数据库管理员账户和密码的目的。but，对于新手来说经常会不小心删除/var/lib/mysql目录，导致重启mysql时找不到/var/lib/mysql。解决方法如下：mkdir/var/lib/mysqchownmysql:mysql/var/lib/mysqlsystemctlstartmysql此时如果还是失败，并产生如下提
docker挂载mysql会失败_Docker Mysql 挂载 /var/lib/mysql 后无法启动 Joseph Holy
我也遇到相同的问题了`dockerrun\-p4406:3306\-eMYSQL_ROOT_PASSWORD=localDocker@mysql\-eTZ=Asia/Shanghai\-v/mnt/hgfs/docker/mysql/data:/var/lib/mysql\-v/mnt/hgfs/docker/mysql/log:/var/log/mysql:rw\-v/mnt/hgfs/dock
【Sql Server】随机查询一条表记录，并重重温回顾下存储过程的封装和使用 web13688565871 面试学习路线阿里巴巴数据库 oracle
大家好，我是，欢迎来到《小5讲堂》。这是《SqlServer》系列文章，每篇文章将以博主理解的角度展开讲解。温馨提示：博主能力有限，理解水平有限，若有不对之处望指正！目录前言随机查询语句存储过程基本概念基本结构基础例子存储过程封装文章推荐前言温故而知新，最近在写sql查询语句，需求是随机查询表的其中一条记录。基于这个查询，顺便把数据库自定义函数、存储过程这个两个知识点重温固定下。因此，本篇文章将在
【Python数据分析】Pandas_Series如何转变为DataFrame Root_Smile 【Python数据分析】python 数据分析 pandas
1.使用pd.DataFrame()构造函数可以使用pd.DataFrame()构造函数将Series转换为DataFrame。在构造函数中，将Series作为一个列传递给DataFrame，并且可以通过指定列名来为DataFrame的列命名。代码示例：importpandasaspddata=[10,20,30,40,50]index=['A','B','C','D','E']series=pd
编译dpdk19.08.2中example时一系列报错解决 monGyrate linux服务器相关 dpdk C语言 DPDK 数据平面开发套件 ubuntu
dpdk19.08编译过程全解dpdk介绍问题描述编译过程执行Step1报错一解决方式报错二解决方式继续执行Step248的时候报错49没有修改成功输入60退出使用过程执行make报错一解决方式继续make报错二解决方式继续make执行生成文件helloworld报错三解决方式执行make完成参考链接dpdk介绍数据平面开发套件(DPDK[1],DataPlaneDevelopmentKit)
登录mysql出现/var/lib/mysql/mysql.sock不存在小黄鸭007 mysql 数据库
问题描述：1.mysql安装完成后，使用servicemysqldrestart总是出现stopmysqldservice失败。2.使用mysql-uroot-p登录出现找不到/var/lib/mysql/mysql.sock问题。3.使用servicemysqldstatus出现mysqldeadbutsubsyslocked解决方法：1.在my.cnf下[mysqld]前添加[client]p
(6) 深入探索Python-Pandas库的核心数据结构：DataFrame全面解析码界领航 pandas 数据结构 python numpy
目录前言1.DataFrame简介2.DataFrame的特点3.DataFrame的创建3.1使用字典创建DataFrame3.2使用列表的列表（或元组）创建DataFrame3.3使用NumPy数组创建DataFrame3.4使用Series构成的字典创建DataFrame3.5使用字典构成的字典创建DataFrame4.从CSV文件读取5.DataFrame的属性和方法5.1查看DataFr
初始Pandas数据结构(DataFrame和Series) aerfaqi 数据分析 python 数据挖掘
认识PandasPandas是Python语言的一个扩展程序库，用于数据挖掘和数据分析，同时也提供数据清洗功能。pandas（paneldata&dataanalysis），是基于numpy（提供高性能的矩阵运算）专门用于数据分析的工具，是一个强大的分析结构化数据（表格数据）的工具集；Pandas的操作是基于两种结构：DataFrame结构和Series结构DataFrame每一列都为Series
spark集群完全分布式搭建。。，。，。分布式 spark 大数据
1.spark的运行架构（主从模式）主节点：master-----资源管理调度和任务的分配---------类似yarn从节点：worker-----执行具体的计算任务整体运行架构：编写spark运行程序用户将应用程序提交给spark集群驱动其会创建对应的编程入口（sparkcontext/sparksession）主节点复制资源管理调度和任务分配从节点执行计算任务（多个计算任务：每个计算任务会分
C语言连接Mysql monGyrate 数据库相关 c语言 mysql
目录C语言连接Mysql下载mysql开发库方法介绍mysql_init()mysql_real_connect()mysql_query()mysql_store_result()mysql_num_fields()mysql_fetch_fields()mysql_fetch_row()mysql_free_result()mysql_close()完整代码C语言连接Mysql下载mysql开
centos8安装python2.7_CentOS6.8 升级python2.7 杀心成焚
前提：centos6.8虚拟机，新机器，很多包都没有centos6.8自带python是2.6，项目需要python2.7注意：因为是新机器，所以os上很多依赖包都没有。我第一次参考链接的方式安装2.7，结果在执行pythonget-pip.py中报错：zipimport.ZipImportError:can'tdecompressdata;zlibnotavailable。查看了一些文档，都然并
【Python】RocketMQ 基础使用 Encarta1993 Python rocketmq
目录1.介绍2.实践2.1.启动消费者2.2.启动生产者1.介绍RocketMQ是一个开源的分布式消息传递系统，最初由阿里巴巴集团开发并于2012年开源。它旨在解决高可靠性、高吞吐量、低延迟和可伸缩性等大规模分布式系统下的消息通信需求。RocketMQ的设计目标是提供一种灵活、可靠、高性能的消息传递解决方案，适用于各种场景，包括在线消息通信、日志处理、流式处理、事件驱动架构等。下面是对Rocket
Torchserve服务开发 qq_27844739 AI工程化运维人工智能 pytorch 服务器
Torchserve服务开发文章目录Torchserve服务开发0.Torchserve介绍0.1.背景0.2.API类型1.开发使用1.0.环境部署1.1.handler开发1.1.1.context参数1.1.2.data参数1.2.handler调试2.配置文件3.batch推理0.Torchserve介绍0.1.背景TorchServe是PyTorch中推荐的模型部署解决方案，通过它可以将
MangoDB SQL 2501_90223240 sql 数据库
cmd-管理-mongo命令：MongoDBEnterprise>dbtestMongoDBEnterprise>showdbsadmin0.000GBconfig0.000GBlocal0.000GBMongoDBEnterprise>useadminswitchedtodbadminMongoDBEnterprise>dbadminMongoDBEnterprise>usestudentssw
Python酷库之旅-第三方库Pandas(005) 神奇夜光杯 python pandas 开发语言标准库及第三方库基础知识学习和成长
目录一、用法精讲7、pandas.read_clipboard函数7-1、语法7-2、参数7-3、功能7-4、返回值7-5、说明7-6、用法7-6-1、代码示例7-6-2、结果输出8、pandas.DataFrame.to_clipboard函数8-1、语法8-2、参数8-3、功能8-4、返回值8-5、说明8-6、用法8-6-1、代码示例8-6-2、结果输出9、pandas.read_excel函
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe