OnTheRoad_Kang

Sqoop1一般用于线上、测试脚本环境开发

注意：sqoop部署运算节点一般有hive、hbase、azkaban、oozie的节点上还有数据库的节点上

Sqoop开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,postgresql等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。底层是通过MapReduce作业来完成。它充分利用了MapReduce的并行特点以批处理的方式加快数据的传输，同时也借助MapReduce实现了容错。

目前主要包括两个版本：Sqoop1和Sqoop2，这两个版本不同，是完全不兼容的，版本<=1.4.6的都是Sqoop1，版本>=1.99.2的都是Sqoop2。

Sqoop官网：http://sqoop.apache.org/

下载地址：http://archive.apache.org/dist/sqoop/1.4.6/sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz

解压安装包

[hadoop@bigdata243 app]$ tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz

[hadoop@bigdata243 app]$ mv sqoop-1.4.6.bin__hadoop-2.0.4-alpha sqoop1

Sqoop目录下创建两个相关的目录：

# mkdir extra

# mkdir logs

添加Sqoop环境变量

#Sqoop1

export SQOOP_HOME=/home/hadoop/app/sqoop1

# PATH

export PATH=$PATH:$SQOOP_HOME/bin

配置sqoop1

[hadoop@bigdata243 sqoop1]$ cd conf/

[hadoop@bigdata243 conf]$ cp sqoop-env-template.sh sqoop-env.sh

[hadoop@bigdata243 conf]$ vi sqoop-env.sh

修改sqoop-env.sh配置文件，设置HADOOP_COMMON_HOME、HADOOP_MAPRED_HOME、HIVE_HOME这三个属性，如下

#Set path to where bin/hadoop is available

export HADOOP_COMMON_HOME=/home/hadoop/app/hadoop2.7

#Set path to where hadoop-*-core.jar is available

export HADOOP_MAPRED_HOME=/home/hadoop/app/hadoop2.7

#Set the path to where bin/hive is available

export HIVE_HOME=/home/hadoop/app/hive2.3

安装依赖Mysql JDBC驱动

将MySQL的JDBC驱动放入server/lib/目录下即可（hive/lib下）

cp /home/hadoop/app/hive2.3/lib/mysql-connector-java-5.1.38.jar /home/hadoop/app/sqoop1/lib

sqoop1/bin目录下存放了sqoop1.x的执行脚本，里面也有windows下的执行脚本，windows下的执行脚本我们不需要，执行如下命令删除

[hadoop@bigdata243 sqoop1]$ cd bin/

[hadoop@bigdata243 bin]$ rm *.cmd

查看help把帮助

[hadoop@bigdata243 bin]$ sqoop help

上面提示了一堆之一事项以及没有的目录，不影响，我们不需要直接注释就好

解决方法：修改Sqoop的文件bin/configure-sqoop，注释掉如下内容

[hadoop@bigdata243 bin]$ vi configure-sqoop

HBASE_HOME

HCAT_HOME

ACCUMULO_HOME

查看数据库

查看数据库使用的命令是list-databases

[hadoop@bigdata243 sqoop1]$ sqoop help list-databases

查看mysql中的所有数据库（如果想要换行在末尾加上’\’）

[hadoop@bigdata243 sqoop1]$ sqoop list-databases --connect jdbc:mysql://bigdata245:3306 --username root --password P@ssw0rd

使用sqoop查看mysql中的所有数据库时，出现了两个错误，错误信息及解放方法如下

错误1：

Got exception running Sqoop: java.lang.RuntimeException: Could not load db driver class: com.mysql.jdbc.Driver

解决方法：

1).将mysql的驱动包拷贝到$SQOOP_HOME/lib下

2).检查sqoop的环境变量是否配置成功

错误2：

SQLException: Access denied for user ‘root’@’localhost’ (using password: YES)

原因：mysql没有开启远程访问权限

解决方法：mysql中执行如下命令，开启远程访问权限

GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY 'P@ssw0rd' WITH GRANT OPTION;

查看数据库中的所有表

[hadoop@bigdata243 sqoop1]$ sqoop list-tables --connect jdbc:mysql://bigdata245:3306/hive_matadata --username root --password P

配置sqoop代理访问

因为sqoop访问Hadoop的MapReduce使用的是代理的方式，必须在Hadoop中配置所接受的proxy用户和组，找到Hadoop的core-site.xml配置文件，添加如下内容，重启Hadoop即可

hadoop.proxyuser.sqoop2.hosts

hadoop.proxyuser.sqoop2.groups

Sqoop测试及使用

1.MySQL 导入数据到 HDFS

说明：

(1).Sqoop 与数据库进行通信，获取数据库表的元数据信息

(2).Sqoop启动一个Map-Only的MapReduce作业，利用元数据信息并行将数据写入Hadoop

1.数据准备

MySQL 中创建数据库sqoop

mysql> create database sqoop;

Query OK, 1 row affected (0.00 sec)

mysql> use sqoop;

Database changed

mysql>

创建两张表dept及emp

CREATE TABLE DEPT(

DEPTNO int(2) PRIMARY KEY,

DNAME VARCHAR(14),

LOC VARCHAR(13)

);

表结构：

mysql> desc DEPT;

CREATE TABLE EMP(

EMPNO int(4) PRIMARY KEY,

ENAME VARCHAR(10),

JOB VARCHAR(9),

MGR int(4),

HIREDATE DATE,

SAL int(7),

COMM int(7),

DEPTNO int(2),

foreign key(deptno) references DEPT(DEPTNO)

);

表结构：

mysql> desc EMP;

插入数据

DEPT 表：

INSERT INTO DEPT VALUES

(10,'ACCOUNTING','NEW YORK');

INSERT INTO DEPT VALUES (20,'RESEARCH','DALLAS');

INSERT INTO DEPT VALUES

(30,'SALES','CHICAGO');

INSERT INTO DEPT VALUES

(40,'OPERATIONS','BOSTON');

EMP 表：

INSERT INTO EMP VALUES

(7369,'SMITH','CLERK',7902,'1980-12-17',800,NULL,20);

INSERT INTO EMP VALUES

(7499,'ALLEN','SALESMAN',7698,'1981-2-20',1600,300,30);

INSERT INTO EMP VALUES

(7521,'WARD','SALESMAN',7698,'1981-2-22',1250,500,30);

INSERT INTO EMP VALUES

(7566,'JONES','MANAGER',7839,'1981-4-2',2975,NULL,20);

INSERT INTO EMP VALUES

(7654,'MARTIN','SALESMAN',7698,'1981-9-28',1250,1400,30);

INSERT INTO EMP VALUES

(7698,'BLAKE','MANAGER',7839,'1981-5-1',2850,NULL,30);

INSERT INTO EMP VALUES

(7782,'CLARK','MANAGER',7839,'1981-6-9',2450,NULL,10);

INSERT INTO EMP VALUES

(7788,'SCOTT','ANALYST',7566,'87-7-13',3000,NULL,20);

INSERT INTO EMP VALUES

(7839,'KING','PRESIDENT',NULL,'1981-11-17',5000,NULL,10);

INSERT INTO EMP VALUES

(7844,'TURNER','SALESMAN',7698,'1981-9-8',1500,0,30);

INSERT INTO EMP VALUES

(7876,'ADAMS','CLERK',7788,'87-7-13',1100,NULL,20);

INSERT INTO EMP VALUES

(7900,'JAMES','CLERK',7698,'1981-12-3',950,NULL,30);

INSERT INTO EMP VALUES

(7902,'FORD','ANALYST',7566,'1981-12-3',3000,NULL,20);

INSERT INTO EMP VALUES

(7934,'MILLER','CLERK',7782,'1982-1-23',1300,NULL,10);

2.从mysql导入数据到HDFS

导入数据使用import命令，输入如下命令查看帮助说明

[hadoop@bigdata243 ~]$ sqoop help import

输入命令导入数据

sqoop import \

--connect jdbc:mysql://bigdata245:3306/sqoop \

--username root \

--password P@ssw0rd \

--table EMP -m 1\

查看运行结果

默认导入HDFS路径：/user/用户名/表名

[hadoop@bigdata241 ~]$ hadoop fs -ls /user/hadoop/EMP

-rw-r--r-- 3 hadoop supergroup 0 2018-11-12 11:33 /user/hadoop/EMP/_SUCCESS

-rw-r--r-- 3 hadoop supergroup 663 2018-11-12 11:33 /user/hadoop/EMP/part-m-

[hadoop@bigdata241 ~]$ hadoop fs -text /user/hadoop/EMP/part-m-00000

3.sqoop import 命令常用参数使用

(1).导入数据前先删除目录（–delete-target-dir）

如果重复执行上面的命令导入数据到hdfs会报如下错误

Encountered IOException running import job:

org.apache.hadoop.mapred.FileAlreadyExistsException:

Output directory hdfs://hdpcomprs:9000/user/hadoop/EMP already exists

错误原因：hdfs中文件路径已存在

解决方法：

①.手工把存在的目录删除

②.执行导入时，加上参数–delete-target-dir

sqoop import \

--connect jdbc:mysql://bigdata245:3306/sqoop \

--username root \

--password P@ssw0rd \

--delete-target-dir \

--table EMP -m 1

(2).设置mapreduce作业名称（–mapreduce-job-name）

sqoop import \

--connect jdbc:mysql://bigdata245:3306/sqoop \

--username root \

--password P@ssw0rd \

--delete-target-dir \

--mapreduce-job-name MysqlSqoopEMPTOHDFS \

--table EMP -m 1

(3).导入数据时指定hdfs路径（–target-dir）

sqoop import \

--connect jdbc:mysql://bigdata245:3306/sqoop \

--username root \

--password P@ssw0rd \

--delete-target-dir \

--mapreduce-job-name MysqlSqoopEMPTOHDFS \

--target-dir EMP_INFO \

--table EMP -m 1

数据导入到hdfs的路径为：/user/hadoop/EMP_INFO

(4).设置只导入指定列的数据（–columns）

sqoop import \

--connect jdbc:mysql://bigdata245:3306/sqoop \

--username root \

--password P@ssw0rd \

--delete-target-dir \

--mapreduce-job-name FromMySQLToHDFS \

--target-dir EMP_COLUMN \

--columns "EMPNO,ENAME,JOB,SAL,COMM" \

--table EMP -m 1

运行结果：

[hadoop@bigdata241 ~]$ hadoop fs -ls /user/hadoop/EMP_COLUMN

[hadoop@bigdata241 ~]$ hadoop fs -text /user/hadoop/EMP_COLUMN/part-m-00000

(5).导入数据时设置文件的存储格式

使用参数–as-parquetfile 设置存储格式为parquet格式

sqoop import \

--connect jdbc:mysql://bigdata245:3306/sqoop \

--username root \

--password P@ssw0rd \

--delete-target-dir \

--mapreduce-job-name FromMySQLToHDFS \

--target-dir EMP_COLUMN_PARQUET \

--columns "EMPNO,ENAME,JOB,SAL,COMM" \

--as-parquetfile \

--table EMP -m 1

导入完成后，在hdfs中可以看到文件的存储格式为parquetfile

[hadoop@bigdata241 ~]$ hadoop fs -ls /user/hadoop/EMP_COLUMN_PARQUET

Found 2 items

drwxr-xr-x - hadoop supergroup 0 2018-11-12 12:09 /user/hadoop/EMP_COLUMN_PARQUET/.metadata

-rw-r--r-- 3 hadoop supergroup 1318 2018-11-12 12:09 /user/hadoop/EMP_COLUMN_PARQUET/01a7cecb-e9a4-4c1a-814c-3f47cc5a1eed.parquet

(6).设置导入数据字段与字段、行与行之间的分隔符

设置字段与字段之间的分隔符使用参数–fields-terminated-by，设置行与行之间的分隔符使用–lines-terminated-by

sqoop import \

--connect jdbc:mysql://bigdata245:3306/sqoop \

--username root \

--password P@ssw0rd \

--delete-target-dir \

--mapreduce-job-name FromMySQLToHDFS \

--target-dir EMP_SPLIT \

--fields-terminated-by '\t' \

--lines-terminated-by '\n' \

--table EMP -m 1

[hadoop@bigdata241 ~]$ hadoop fs -ls /user/hadoop/EMP_SPLIT

[hadoop@bigdata241 ~]$ hadoop fs -text /user/hadoop/EMP_SPLIT/part-m-00000

(7).条件导入

实现需求：将emp表中工资大于2000的员工信息导入到hdfs

方式一：–where

sqoop import \

--connect jdbc:mysql://bigdata245:3306/sqoop \

--username root --password P@ssw0rd \

--delete-target-dir \

--target-dir EMP_COLUMN_WHERE \

--columns "EMPNO,ENAME,JOB,SAL,COMM" \

--mapreduce-job-name FromMySQLToHDFS \

--where 'SAL>2000' \

--fields-terminated-by '\t' \

--lines-terminated-by '\n' \

--table EMP -m 2

命令中-m 写的是2，表示会有两个map，也就是两个输出文件，即执行完成后，在hdfs中会有两个文件

查看结果：

hadoop fs -ls /user/hadoop/EMP_COLUMN_WHERE

hadoop fs -text /user/hadoop/EMP_COLUMN_WHERE/part-m-00000

hadoop fs -text /user/hadoop/EMP_COLUMN_WHERE/part-m-00001

方式二：–query

sqoop import \

--connect jdbc:mysql://bigdata245:3306/sqoop \

--username root \

--password P@ssw0rd \

--delete-target-dir \

--target-dir EMP_COLUMN_QUERY \

--query 'select * from EMP where SAL>2000' \

--mapreduce-job-name FromMySQLToHDFS \

--fields-terminated-by '\t' \

--lines-terminated-by '\n' \

--table EMP -m 1

执行命令报如下错误：

Cannot specify –query and –table together.

错误原因：在使用–query后，查询条件已经指定了表名，不需要再使用–table参数来指定表名了

解决方法：去掉–table参数

sqoop import \

--connect jdbc:mysql://bigdata245:3306/sqoop \

--username root \

--password P@ssw0rd \

--delete-target-dir \

--target-dir EMP_COLUMN_QUERY \

--query 'select * from EMP where SAL>2000' \

--mapreduce-job-name FromMySQLToHDFS \

--fields-terminated-by '\t' \

--lines-terminated-by '\n' \

-m 1

修改后再次执行报如下错误：

IOException: Query [select * from EMP where

SAL>2000] must contain ‘$CONDITIONS’ in WHERE clause

解决方法：在where条件后添加 and $CONDITIONS

sqoop import \

--connect jdbc:mysql://bigdata245:3306/sqoop \

--username root \

--password P@ssw0rd \

--delete-target-dir \

--target-dir EMP_COLUMN_QUERY \

--query 'select * from EMP where SAL>2000 and $CONDITIONS' \

--mapreduce-job-name FromMySQLToHDFS \

--fields-terminated-by '\t' \

--lines-terminated-by '\n' \

-m 1

–query 不仅支持单表查询，也支持多表查询

实现需求：查询员工编号、名称及员工所属部门导入到hdfs

sqoop import \

--connect jdbc:mysql://bigdata245:3306/sqoop \

--username root \

--password P@ssw0rd \

--delete-target-dir \

--target-dir EMP_COLUMN_QUERY_JOIN \

--query 'select E.EMPNO,E.ENAME,D.DNAME from EMP E inner join DEPT D on D.DEPTNO = E.DEPTNO and $CONDITIONS' \

--mapreduce-job-name FromMySQLToHDFS \

--fields-terminated-by '\t' \

--lines-terminated-by '\n' \

-m 1

(8).导入时将文件作为参数传入（–options-file）

新建文件touch emp.opt，文件内容如下:

import

--connect

jdbc:mysql://bigdata245:3306/sqoop

--username

root

--password

P@ssw0rd

--delete-target-dir

--target-dir

EMP_OPTIONS_FILE

--mapreduce-job-name

FromMySQLToHDFS

--table

EMP

-m

注意：如果使用将文件作为参数，在文件中每个命令参数必须为一行

输入如下命令导入数据到hdfs

sqoop --options-file emp.opt

查看运行结果：

hadoop fs -ls /user/hadoop/EMP_OPTIONS_FILE

hadoop fs -text /user/hadoop/EMP_OPTIONS_FILE/part-m-00000

2.HDFS 导出数据到 MySQL

说明：

(1).Sqoop与数据库通信，获取数据库表的元数据信息；

(2).将Hadoop上的文件划分成若干个Split，每个Split由一个Map Task进行数据导出操作；

1.HDFS 导出数据到MySQL

导出命令使用export，输入如下命令查看命令帮助说明

$ sqoop help export

导出数据到mysql（mysql 中没有表 EMP_DEMO）

sqoop export \

--connect jdbc:mysql://bigdata245:3306/sqoop \

--username root --password P@ssw0rd \

--table EMP_DEMO \

--export-dir /user/hadoop/EMP \

-m 1

执行命令后报错：

Table ‘sqoop.EMP_DEMO’ doesn’t exist

说明sqoop不会在mysql中自动创建表

mysql中创建表EMP_DEMO（列明属性要一直）

CREATE TABLE EMP_DEMO(

EMPNO int(4) PRIMARY KEY,

ENAME VARCHAR(10),

JOB VARCHAR(9),

MGR int(4),

HIREDATE DATE,

SAL int(7),

COMM int(7),

DEPTNO int(2),

foreign key(deptno) references DEPT(DEPTNO)

);

再次执行命令后（如果多次执行导出数据会一致追加到表EMP_DEMO中），运行结果如下

2.sqoop export 命令常用参数使用,只有指定的列中有数据

sqoop export \

--connect jdbc:mysql://bigdata245:3306/sqoop \

--username root --password P@ssw0rd \

--table EMP_DEMO \

--columns "EMPNO,ENAME,JOB,SAL,COMM" \

--export-dir /user/hadoop/EMP_COLUMN \

-m 1

运行中到job卡住不动，这里是运行mr的操作，参考解决地址https://hortonworks.com/blog/how-to-plan-and-configure-yarn-in-hdp-2-0/。在资源页面任务也没有运行完成，我多试了几次都是一样 either to explicitly disable SSL by setting useSSL=false, or set useSSL=true and provide truststore for server certificate verification.

18/11/12 13:43:09 INFO db.DBInputFormat: Using read commited transaction isolation

18/11/12 13:43:09 INFO mapreduce.JobSubmitter: number of splits:1

18/11/12 13:43:09 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1541991367874_0014

18/11/12 13:43:09 INFO impl.YarnClientImpl: Submitted application application_1541991367874_0014

18/11/12 13:43:09 INFO mapreduce.Job: The url to track the job: http://bigdata241:8088/proxy/application_1541991367874_0014/

18/11/12 13:43:09 INFO mapreduce.Job: Running job: job_1541991367874_0014

出现此故障的原因应该是，在每个Docker分配的内存和CPU资源太少，不能满足Hadoop和sqoop/hive运行所需的默认资源需求

点击ApplicationMaster

再次执行

导出数据时设置字段与字段、行与行之间的分隔符

hdfs中/user/hadoop下EMP_SPLIT文件中的数据是前面通过mysql导入的，使用了分隔符，所以在导出时也需要指定分隔符，否则导出不成功。EMP_SPLIT文件内容如下

sqoop export \

--connect jdbc:mysql://bigdata245:3306/sqoop \

--username root --password P@ssw0rd \

--delete-target-dir \

--table EMP_DEMO \

--fields-terminated-by '\t' --lines-terminated-by '\n' \

--export-dir /user/hadoop/EMP_SPLIT \

-m 1

3.MySQL 导入数据到 Hive

全部导入

实现需求：将mysql中表emp导入到hive中

sqoop import \

--connect jdbc:mysql://bigdata245:3306/sqoop \

--username root --password P@ssw0rd \

--table EMP \

--delete-target-dir \

--hive-import \

--hive-database test --create-hive-table --hive-table emp_import \

-m 1

注意：

运行完成后在hive中自动创建了一张表emp_import，通过命令查看表的信息，可以看到sal的数据类型为int，实际我们一般都是double类型，所以不建议使用–create-hive-table参数来自动创建hive表，建议手动创建表，再使用命令导入。

部分导入

hive 中创建表

create table emp_column(

empno int,

ename string,

job string,

mgr int,

hiredate string,

sal double,

comm double,

deptno int

)

row format delimited fields terminated by '\t' lines terminated by '\n';

执行如下命令，将指定的列导入数据到hive

sqoop import \

--connect jdbc:mysql://bigdata245:3306/sqoop \

--username root --password P@ssw0rd \

--table EMP \

--delete-target-dir \

--columns "EMPNO,ENAME,JOB,SAL,COMM" \

--fields-terminated-by '\t' --lines-terminated-by '\n' \

--hive-import --hive-database test --hive-table emp_column --hive-overwrite \

-m 1

4.Hive 导出数据到 MySQL

实现需求：将hive 表 emp_import 中的数据导出到 Mysql 表 EMP_DEMO

hive 表 emp_import对应hdfs路径：/user/hive/warehouse/test.db/emp_import

mysql 中 EMP_DEMO 表结构如下

注意：mysql中日期为date类型，hive中对应的字段为字符串类型，其存储格式必须为：yyyy-mm-dd

导出时指定null字段的填充符，如果不指定会报一个异常NumberFormatException

–input-null-string：如果没有这个选项，那么在字符串类型列中，字符串”null”会被转换成空字符串,所以最好写上这个，指定为’\N’ –input-null-non-string：如果没有这个选项，那么在非字符串类型的列中，空串和”null”都会被看作是null

执行命令导出（相当于hdfs导出到mysql）

sqoop export \

--connect jdbc:mysql://bigdata245:3306/sqoop \

--username root --password P@ssw0rd \

--table EMP_DEMO \

--export-dir /user/hive/warehouse/test.db/emp_import \

--input-fields-terminated-by '\001' \

--input-null-string 'null' --input-null-non-string 'null' \

-m 1

运行结果：

你可能感兴趣的:(Big,Data,Sqoop)

创建Datas 一一代码 python
核心数据结构创建DataFrame```pythonimportpandasaspd#从字典创建DataFramedata={'Name':['Alice','Bob','Charlie'],'Age':[25,30,35],'City':['NewYork','LosAngeles','Chicago']}df=pd.DataFrame(data)print(df)```输出：```NameAg
android sqlite 数据库简单封装示例（java） mmsx android 作业源码分享 java 数据库 android
sqlite数据库简单封装示例，使用记事本数据库表进行示例。首先继承SQLiteOpenHelper使用sql语句进行创建一张表。publicclassnoteDBHelperextendsSQLiteOpenHelper{publicnoteDBHelper(Contextcontext,Stringname,SQLiteDatabase.CursorFactoryfactory,intvers
同步MySQL数据至Elasticsearch：go-mysql-elasticsearch实战指南吴镇业
同步MySQL数据至Elasticsearch：go-mysql-elasticsearch实战指南go-mysql-elasticsearchSyncMySQLdataintoelasticsearch项目地址:https://gitcode.com/gh_mirrors/go/go-mysql-elasticsearch项目介绍go-mysql-elasticsearch是一个服务，能够自动将
流数据（Streaming Data）处理人间无人事 javascript
在看代码之前，我们应当首先知道流数据与webSocket之间的区别（两者不能同一而论），因为存在区别所以在读取数据时使用相对较大的差距下面我将概述我对两者区别的一个总结（若有不对，请斧正）流数据（StreamingData）和WebSocket是两种不同的技术，但它们在实时数据传输方面有一些相似之处。以下是它们的区别和相同点：相同点1.实时性-两者都支持实时数据传输，适合需要低延迟的场景，如聊天应
Pytorch中的torch.utils.data.Dataset 类小白的高手之路深度学习（DL）Pytorch实战深度学习 python pytorch
1、使用方法fromtorch.utils.dataimportDataset2、torch.utils.data.Dataset类的定义classDataset(Generic[_T_co]):r"""Anabstractclassrepresentinga:class:`Dataset`.Alldatasetsthatrepresentamapfromkeystodatasamplesshou
基于Azure云平台构建实时数据仓库 weixin_30777913 云计算 azure 开发语言 spark python
设计Azure云架构方案实现AzureDeltaLake和AzureDatabricks，结合电商网站的流数据，构建实时数据仓库，支持T+0报表（如电商订单分析），具以及具体实现的详细步骤和关键PySpark代码。一、架构设计[电商网站]→[AzureEventHubs]→[AzureDatabricksStreaming]↓[AzureDeltaLake]←→[DatabricksSQLAnal
回归任务训练--MNIST全连接神经网络（Mnist_NN）豆芽819 深度学习框架PyTorch pytorch 深度学习人工智能机器学习回归
importtorchimportnumpyasnpimportloggingfromtorch.utils.dataimportTensorDataset,DataLoaderfromtorch.utils.dataimportDataLoader#配置日志logging.basicConfig(level=logging.INFO,format='%(asctime)s-%(levelname
Neo4j GDS-02-graph-data-science 插件库安装实战笔记老马啸西风 neo4j neo4j 笔记数据库图数据结构算法
neo4japoc系列Neo4jAPOC-01-图数据库apoc插件介绍Neo4jAPOC-01-图数据库apoc插件安装neo4jonwindows10Neo4jAPOC-03-图数据库apoc实战使用使用Neo4jAPOC-04-图数据库apoc实战使用使用apoc.path.spanningTree最小生成树Neo4jAPOC-05-图数据库apoc实战使用使用labelFilterNeo4
Neo4j GDS-02-graph-data-science 简单聊一聊图数据科学插件库老马啸西风 neo4j neo4j 数据库算法图数据库开源
neo4japoc系列Neo4jAPOC-01-图数据库apoc插件介绍Neo4jAPOC-01-图数据库apoc插件安装neo4jonwindows10Neo4jAPOC-03-图数据库apoc实战使用使用Neo4jAPOC-04-图数据库apoc实战使用使用apoc.path.spanningTree最小生成树Neo4jAPOC-05-图数据库apoc实战使用使用labelFilter详细介绍
MySQL数据库基本命令 Java从零开始数据库 mysql
1.CMD链接数据库：mysql-uroot-p2.打开全部数据库：showdatabases;3.切换数据库:use（school库）；4.显示数据库中所有表的信息：describe（student表）；5.查看数据库中所有的表：showtables；6.创建一个数据库：createdatabase（westos库）；7.SHOWCREATEDATABASEgoods：查看创建goods数据库的
【Q&A】装饰模式在Qt中有哪些运用？浅慕Antonio Q&A qt 数据库服务器
在Qt框架中，装饰模式（DecoratorPattern）主要通过继承或组合的方式实现，常见于IO设备扩展和图形渲染增强场景。以下是Qt原生实现的装饰模式典型案例：一、QIODevice装饰体系（继承方式）场景为基础IO设备（如文件、缓冲区）添加数据格式解析、缓冲优化等功能。类图（Mermaid）«abstract»QIODevice+readData()+writeData()QFileQBuf
python实现接口自动化一只小H呀の python 自动化开发语言
代码实现自动化相关理论代码编写脚本和工具实现脚本区别是啥?代码：优点：代码灵活方便缺点：学习成本高工具：优点：易上手缺点：灵活度低，有局限性。总结：功能脚本：工具自动化脚本：代码代码接口自动化怎么做的？第一步：python+request+unittest;具体描述？第二步：封装、调用、数据驱动、日志、报告;详细举例:第三步：api\scripts\data\log\report\until…脚本
Python文件与格式化：编程世界的“读写之道“（技术深挖版）被窝妄想家 python进阶指南 python 数据库开发语言
一、文件操作：Python的"读写之眼"1.1文件基础哲学在计算机世界中，文件就像一本本等待翻阅的典籍。Python的open()函数如同手持放大镜，让我们能精确控制阅读和书写：#经典打开模式组合withopen("data.txt","r+",encoding="utf-8")asf:#r+模式：可读可写，文件指针初始位置在开头content=f.read(10)#读取前10个字节f.seek(
MySQL时间转换可儿·四系桜 #MySQL mysql 数据库
1.bigint类型的时间戳1.1将bigint转为datetimeFROM_UNIXTIME(时间戳/1000)1.2将bigint转为date方式一：DATE(FROM_UNIXTIME(时间戳/1000))方式二：字符串隐式转换FROM_UNIXTIME(时间戳/1000,'%Y-%m-%d')1.3将bigint转为指定格式的varcharFROM_UNIXTIME(时间戳/1000,'%
数据结构双向链表的创建与初始化拉梅洛. 数据结构链表
#include#include#include//定义节点类型typedefintdata_t;typedefstructnode{data_tdata;//以整型数据为例structnode*prev;//指向structnode点的指针structnode*next;//指向structnode点的指针}node_t;intdlist_create(node_t**,data_t);//函数
VUE-Element-UI：select-tree johnrui FrontEnd vue.js
一、概述本文主要是在Element-UI+VUE框架下，利用el-select、el-tree组件实现了下拉框多选、回显的效果，如下图：二、实例代码1.HTML代码2.JS代码varvm=newVue({el:'#app',data:{mineStatus:"",mineStatusValue:[],remarksItemCheckedList:[],//回显数据["A","B"]remarksI
Springboot List集合的校验方式 johnrui spring boot list 后端
pom.xml引入org.hibernate.validatorhibernate-validator6.2.0.Finalorg.springframework.bootspring-boot-starter-validation校验实体类注解@Data@NoArgsConstructor@AllArgsConstructor@JsonIgnoreProperties(ignoreUnknown
在R中读入h5ad文件，并转换为seurat对象拜托啦！狮子 r语言前端 javascript
太可恶了要么就报错要么就卡住！！！！/(ㄒoㄒ)/~~library(Seurat)library(SeuratDisk)pbmc10kmono=paste0(path,'/pbmc10k/use_data/rna_mono.h5ad')1.Round1##方法1：通过h5Seurat中转#library(SeuratDisk)#Convert(pbmc10kmono,dest="h5seurat
Python连接StarRocks全流程实践: SQL文件调用与Pandas混合优化 ToreanonyTang python sql pandas 数据库开发语言
文章目录一环境准备与连接方法1.安装核心依赖库2.连接字符串配置3.多模式连接验证二SQL文件调用与动态执行1.外部SQL文件结构设计2.Python动态加载执行三Pandas混合使用技巧1.查询结果直接转DataFrame2.批量数据写入优化四深度性能优化策略1.StarRocks服务端优化2.Python客户端优化3.混合计算策略五完整业务场景示例1:用户转化漏斗业务场景实现代码公用表表达式(
Linux系统中安装各种常用中间件 Vic2334 运维 linux 中间件运维
Linux安装docker安装docker定制软件源yuminstall-yyum-utilsdevice-mapper-persistent-datalvm2yum-config-manager--add-repohttp://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo安装最新版dockeryumlistdocker-ce--
如何在数据库中存储小数：FLOAT、DECIMAL还是BIGINT？ NightSkyWanderer 数据库 Go 后端 mysql 数据库
前言这里还是用前面的例子:在线机票订票系统的数据表设计。此时已经完成了大部分字段的设计，可能如下:CREATETABLEflights(flight_idINTAUTO_INCREMENTPRIMARYKEY,flight_numberVARCHAR(10),departure_airport_codeVARCHAR(3),arrival_airport_codeVARCHAR(3));考虑到还需
Flutter异步编程详解 2401_84121663 程序员 flutter
//耗时操作的方法:bigComputeFuturebigCompute(intinitalNumber)async{inttotal=initalNumber;for(vari=0;i<1000000000;i++){total+=i;}returntotal;}//点击按钮调用的方法:calculatorvoidcalculator()async{intresult=awaitbigCompu
分布式中间件：Redisson 入门和分布式锁顾北辰20 分布式中间件分布式中间件 redisson
分布式中间件：Redisson入门和分布式锁在分布式系统的开发中，处理并发问题是一个常见且具有挑战性的任务。为了确保数据的一致性和完整性，我们常常需要使用分布式锁。Redisson作为一个强大的分布式Java驻内存数据网格（In-MemoryDataGrid）中间件，为我们提供了简单且高效的分布式锁解决方案。本文将带你入门Redisson，并介绍如何使用它实现分布式锁。1.引入Redisson依赖
uniapp 微信小程序手机号快速验证组件解密 encryptedData 获取手机号睡不着的可乐 uni-app 微信小程序
uniapp微信小程序手机号快速验证组件解密encryptedData获取手机号手机号快速验证组件该能力旨在帮助开发者向用户发起手机号申请，并且必须经过用户同意后，开发者才可获得由平台验证后的手机号，进而为用户提供相应服务。以下是旧版本组件使用指南，注意使用旧版本组件时，需先调用wx.login接口。建议开发者使用新版本组件，以增强小程序安全性。详情新版组件使用指南。因为需要用户主动触发才能发起手
深度学习与目标检测系列(三) 本文约(4万字) | 全面解读复现AlexNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch AlexNet 人工智能
文章目录解读Abstract-摘要翻译精读主要内容1.Introduction—前言翻译精读主要内容：本文主要贡献：2.TheDataset-数据集翻译精读主要内容：ImageNet简介：图像处理方法：3.TheArchitecture—网络结构3.1ReLUNonlinearity—非线性激活函数ReLU翻译精读传统方法及不足本文改进方法本文的改进结果3.2TrainingonMultipleG
稳定运行的以Microsoft Azure SQL database数据库为数据源和目标的ETL性能变差时提高性能方法和步骤 weixin_30777913 etl azure etl 云计算数据库
在以MicrosoftAzureSQLDatabase为数据源和目标的ETL（Extract,Transform,Load）过程中，性能问题可能会随着数据量的增加、查询复杂度的提升或系统负载的加重而逐渐变差。提高以MicrosoftAzureSQLDatabase为数据源和目标的ETL性能需要综合考虑数据库查询优化、数据加载策略、并行处理、资源管理等方面。通过合适的索引、查询优化、批量处理、增量加
MySQL基本语句冉冉柟 mysql 数据库 oracle
一、DDL（数据定义语言）DDL主要用于定义数据库、表、视图、索引等数据库对象的结构1.1创建数据库CREATEDATABASEdatabase_name;1.2删除数据库DROPDATABASEdatabase_name;1.3选择数据库USEdatabase_name;1.4创建表CREATETABLEtable_name( column1datatypeconstraint, column2
Matplotlib 内置的170种颜色映射（colormap）数据分析师Weiss 数据分析 Python matplotlib 数据可视化 python 颜色映射热力图
Matplotlib提供了许多内置的颜色映射（colormap）选项，可以将数值数据映射到色彩范围——热力图、温度图、地图等可视化经常会用到。#colormap有两种引用形式plt.imshow(data,cmap='Blues')plt.imshow(data,cmap=cm.Blues)颜色映射可以分为连续的（Continuous）和离散的（Discrete）两大类。前者适用于连续数据，颜色映
Deepseek-R1-Distill-Llama-8B + Unsloth 中文医疗数据微调实战 LuckyAnJo LLM相关 llama python 自然语言处理人工智能
内容参考至博客与Bin_Nong1.环境搭建主要依赖的库(我的版本)：torch==2.5.1unsloth==2025.2.15trl==0.15.2transformers==4.49.0datasets=3.3.1wandb==0.19.62.数据准备-medical_o1_sft_Chinese经过gpt-o1的包含cot(思考过程)的中文医疗问答数据，格式与内容如下:"Question"
【收藏】如何优雅的在 Python matplotlib 中可视化矩阵，以及cmap色带设置 Think Spatial 空间思维 Python骚操作合集 python matplotlib 可视化矩阵 cmap
有时需要将numpy矩阵绘制出来看趋势，这时候可以使用plt.imshow()方法来可视化同时还需要对cmap进行设置，使用不同的色带，达到更好的可视化效果。代码importnumpyasnpfrommatplotlibimportpyplotaspltdata2D=np.random.random((50,50)
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数