zhengzaifeidelushang

Hive与Spark SQL

开源社区在分布式计算框架基础上构建了支持SQL的引擎，典型的代表是MapReduce之上的Hive以及Spark之上的Spark SQL，这些数据分析引擎通常不支持标准SQL，而是对SQL进行了选择性支持，并进行了适当扩展，其中最主流的数据分析语言为HQL(Hive Query Language）。

一、SQL On Hadoop

目前构建在Hadoop之上的SQL引擎主要分为两类，基于计算引擎和基于MPP架构：

基于计算引擎：SQL引擎是在计算引擎基础上构建的，其基本原理是将SQL语句翻译成分布式应用程序，之后运行在集群中。典型的代表有构建在MapReduce之上的Hive和构建在Spark之上的Spark SQL。这类SQL引擎的特点是具有良好的扩展性和容错性，能够应对海量数据。
基于MPP架构：SQL引擎是基于MPP架构构建的，其基本原理是将SQL翻译成可分布式执行的任务，采用Volcano风格的计算引擎并行处理这些任务，任务之间的数据流动和交换由专门的Exchange运算符完成。典型的代表由Impala等。这些SQL引擎具有良好的可扩展性，但容错性较差。

二、Hive架构

Hive是构建在分布式计算框架之上的SQL引擎，使用了Hadoop中的分布式存储系统HDFS/HBase和分布式计算框架MapReduce/Tez/Spark等。Hive是Hadoop生态系统中的重要部分，目前是应用最广泛的SQL On Hadoop解决方案。

1.Hive基本架构

Hive对外提供了三种访问方式，包括Web UI、CLI(Client Line Interface)和Thrift协议(支持JDBC/ODBC)，而在Hive后端，主要由三个服务组件构成。

Driver(驱动器)：Driver实现了SQL解析，生成逻辑计划、物理计划、查询优化与执行等，输入是SQL语句，输出为一系列分布式执行程序(可以为MapReduce、Spark等)。
Metastore：Hive Metastore是管理和存储元信息的服务，保存了数据库的基本信息以及数据表的定义等，为了能够可靠地保存这些元信息，Hive Metastore一般将元信息持久化到关系型数据库中,默认采用了嵌入式数据库Derby，用户可根据需要启用其他数据库MySQL。
Hadoop：Hive依赖于Hadoop，包括分布式文件系统HDFS、分布式资源管理系统YARN以及分布式计算引擎MapReduce。Hive中的数据表对应的数据存放在HDFS上，计算资源由YARN分配，而计算任务则来自MapReduce引擎。

2.Hive部署方式

嵌入式模式：Metastore和数据库两个进程嵌入到Driver中，当Driver启动时会同时运行两个进程，一般用于测试。
本地模式：Driver和Metastore运行在本地，而数据库(比如MySql)启动在一个共享节点上。
远程模式：Metastore运行在单独一个节点上，被其他所有服务共享。使用Beeline、JDBC/ODBC、CLI和Thrift等方式访问Hive时，则采用的是该模式。这是一种常用于生产环境下的部署模式。

3.Hive查询引擎

Hive最初是构建在MapReduce计算引擎之上的，Hive逐步支持其他更高效的DAG计算引擎，包括Tez、Spark等，用户可个性化指定每个HQL的执行引擎。
相比于MapReduce计算引擎，新型DAG计算引擎采用以下优化机制让HQL具有更高的执行性能：

避免借助分布式文件系统交换数据而减少不必要的网络和磁盘IO。
将重复利用的数据缓存到内存中以加速读取效率。
复用资源直到HQL运行结束(比如Spark、Executor一旦启用后不会释放，直到所有任务运行完成)

三、Spark SQL架构

Spark SQL是构建在分布式计算框架Spark之上的结构化数据处理引擎，不仅支持类HQL查询语言，也提供了一套结构化编程接口DataFrame/DataSet。Spark SQL是一个异构化数据处理引擎，支持多种数据源，包括HDFS(各种文件格式)、Hive、关系型数据库等，用户可以使用Spark SQL提供的类HQL语言和结构化编程结构处理这些数据源中的数据。

Spark SQL基本架构主要由四层构成：
(1)用户接口层
Spark SQL提供了两套访问接口：

类HQL语言：
该语言兼容绝大部分HQL语法，支持CLI、JDBC/ODBC等访问方式。可以与Hive无缝集成，直接存取Hive Metastore中的数据库和数据表。
结构化编程接口DataFrame/DataSet：
SQL表达能力是有限的，对于复杂的数据分析，比如机器学习算法实现SQL很难胜任。为了解决SQL的缺点，Spark SQL引入了一套结构化编程接口DataFrame/DataSet，基于这套API，用户可灵活控制自己的计算逻辑，目前是Spark生态系统中最重要的编程接口。

(2) SQL引擎层：将查询语言翻译成最高效的分布式Spark程序
Spark SQL引擎层主要职责是将HQL或DataFrame/DataSet程序编译成可分布式运行的Spark程序，涉及生成逻辑计划、物理计划、查询优化与执行等。最重要的组件是查询优化器catalyst，确保生成最优化的分布式程序。

(3) 计算引擎层：Spark Core
SQL引擎层的输入是HQL或DataFrame/DataSet程序，而输出则是基于RDD模型的Sprk分布式计算程序，这些程序会直接运行在Spark计算引擎层。

(4) 存储层：支持各种数据源，包括HDFS、Hive、关系型数据库、HBase等
Spark SQL另一个强大之处是对数据源进行了抽象，内置了大量存储引擎的支持，包括HDFS(支持各种数据存储格式，包括行存储格式Text和Sequence File，列式存储格式Parquet和ORC等)、Hive、各种关系数据库等，用户也可以根据需要将特定数据存储引擎接入Spark SQL，进而利用其强大而灵活的引擎进行数据分析。

Spark SQL与Hive对比

Spark SQL与Hive均支持类SQL语言，能够很方便地处理海量数据，也有明显的区别。
Spark SQL与Hive对比如下表所示：

	Spark SQL	Hive
	Spark SQL	Hive
查询语言	类HQL与DataFrame/DataSet API	HQL
元信息存储	Hive Metastore(如果处理的数据来自三方存储引擎，比如MySQL，则由对应引擎自己负责元信息存储)	Hive Metastore
查询引擎	将查询语言翻译成最高效的分布式Spark程序	将HQL翻译成对应的分布式程序
分布式计算引擎	Spark Core	MapReduce、Tez或Spark
分布式存储引擎	支持各种数据源，包括HDFS、Hive、关系型数据库、HBase等	主要是HDFS和HBase

四、HQL基本语法

1.数据表的创建

Hive数据表是多层级的，Hive中可以有多个数据库，每个数据库中可以存在多个数据表，每个数据表可进一步划分为多个分区或者数据桶，每个分区内部也可以有多个数据桶。

Create [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name
[(col_name data_type [COMMENT col_comment],...)]
[PARTITIONED BY (col_name data_type [COMMENT col_comment],...)]
[CLUSTERED BY (col_name,col_name,...) INTO num_buckets BUCKETS]
[
	[ROW FORMAT row_format]
	[STORED AS file_format]
]
[LOCATION hdfs_path]
[TBLPROPERTIES (property_name=property_value,...)]
[AS select_statement];

按照数据表语法定义顺序，依次解析各个关键字的含义：
1）数据表的类别。Hive数据表分为三类：临时表(TEMPORARY TABLE)、外部表(EXTERNAL TABLE)和受管理表(MANAGED TABLE)，其区别如下：

临时表：仅对当前session可见，一旦session退出，则该数据表将自动被删除。
外部表：外部表的数据存储路径是用户定义的而非Hive默认存放位置，外部表被删除后，其对应的数据不会被清除(仅删除元数据)。
受管理表：默认数据表的类型，这种表的数据受Hive管理的，与元信息的生命周期是一致的。

2）数据类型(data_type)。Hive提供了丰富的数据类型，不仅提供类似于关系型数据库中的基本数据类型，也提供了对高级数据类型(包括数据、映射表、结构体和联合体)。的支持，具体包括：

基本数据类型，包括：TINYINT、SMALLINT、INT、BIGINT、BOOLEAN、FLOAT、DOUBLE、STRING、TIMESTAMP、DECIMAL、DATE、VARCHAR和CHAR等。
数组(array)：由相同数据类型的元素按一定顺序排列的集合。
映射表(map)：由key/value映射对组成的集合，key是value的索引。
结构体(struct)：由一系列具有相同类型或不同类型的数据构成的数据集合。
联合体(union)：将几种相同或不同类型的变量存放到同一段内存单元中。

3）分区表与分桶表。为了加速数据处理，数据表可进一步划分成更小的存储单位，即分区或分桶。

分区表：数据表可以按照某一个或几个字段进一步划分成多个数据分区(使用语句"PARTITIONED BY col_name")，不同分区的数据将被存放在不同目录中。当一个查询语句只需要用到里面的若干个分区时，其他分区则可直接跳过扫描，大大节省不必要的磁盘IO。
分桶表：数据表或数据分区可进一步按照某个字段分成若干个桶，比如语句"CLUSTERED BY(userid) into 32 BUCKETS"可将数据表按照userid这一字段分成32个桶，实际是按照公式hash_function(bucketing_column) mod num_buckets计算得到具体桶编号的，其中has_function与具体的数据类型有关。分桶表对倾斜数据表分析、数据采样和多表连接等场景有特殊优化。

4）行格式(row format)。该配置用于指定每行的数据格式，对行格式存储格式有意义，语法定义如下：

DELIMITED [FIELDS TERMINATED BY char] [COLLECTION ITEMS TERMINATED BY char] [MAP KEYS TERMINATED BY char] [LINES TERMINATED BY char]

关键字含义如下：

FIELDS TERMINATED BY char：每行中不同字段之间的分隔符char。
COLLECTION ITEMS TERMINATED BY char：map,struct或array中每个元素之间的分割符char。
MAP KEYS TERMINATED BY char：map中key和value之间的分割符char。
LINES TERMINATED BY char：行分隔符char。

实例：创建一个名为person的数据表，由name(姓名)和score(课程成绩)两个字段构成，其中score数据类型为map,key为课程名，value是得分。

CREATE TABLE person(name STRING,score map<STRING,INT>)
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY '\t'
COLLECTION ITEMS TERMINATED BY ','
MAP KEYS TERMINATED BY ':';

对应的数据存储格式为：

Tom 'Math':80,'Chinese':89,'English'：95
Bob 'Chinese':60,'Math':80,'English'：99

5）数据格式(file format)。Hive支持多种数据格式，包括：

TEXTFILE，文本文件，这是默认文件存储格式，用户可通过hive.default.fileformat修改默认值，可选值为：TextFile，SequenceFile，RCfile或ORC。
SEQUENCEFILE，二进制存储格式Sequence File；
RCFILE，列式存储格式；
ORC，优化的列式存储格式;
PARQUET，列式存储格式；
AVRO，带数据模式的存储格式。
INPUTFORMAT input_format_classname OUTPUTFORMAT output_format_classname，通过自定义InputFormat和OutputFormat两个组件定义数据格式。

6）数据存放位置(HDFS path)。每个数据表对应的数据将被存在一个单独目录中，具体由配置参数hive.metastore.warehouse.dir指定，默认是/user/hive/warehouse/databasename.db/tablename/，比如数据库school中的表student存放路径则为：/user/hive/warehouse/school.db/student/中。

7）表属性。Hive允许用户为数据表增加任意表属性，每个表属性以key/value的形式存在，Hive也预定义了一些表属性，比如：

TBLPROPERTIES(“hbase.table.name”=“table_name”)：用于Hive与Hbase集成，表示该Hive表对应的HBase表为table_name;
TBLPROPERTIES(“orc.compress”=“ZLIB”)：用于标注ORC表的压缩格式，ZLIB为压缩算法。

2.Hive数据表的删除与修改

Hive提供了两种删除数据表的语法：

Drop Table，语法如下：

DROP TABLE [IF EXISTS] table_name[PURGE];

删除指定数据表的数据和元信息，其中数据将被移动到垃圾箱，除非设置了"PURGE"标志，则跳过垃圾箱直接永久清除。如果数据表是外表，则仅会清理元信息。

TRUNCATE TABLE，语法如下：

TRUNCATE TABLE table_name [PARTITION partition_spec];

删除指定数据表的全部数据或某个分区，默认情况下，删除的数据将被移动到垃圾箱。

3.数据查询语句

HQL数据查询语句的语法与标准SQL非常类似，具体如下：

[WITH CommonTableExpression (,CommonTableExpression)*]
SELECT [ALL | DISTINCT] select_expr,select_expr,...
FROM table_reference
[WHERE where_condition]
[GROUP BY col_list]
[ORDER BY col_list]
[CLUSTER BY col_list | [DISTRIBUTE BY col_list] [SORT BY col_list]]
[LIMIT number]

1） WITH CommonTableExpression (,CommonTableExpression)：Hive提供了一种将子查询作为一个数据表的语法，叫做Common Table Expression(CTE)，比如从表t中选出两种类型的数据，并合并在一起作为输出：

with t1 as (select * from t where key='5'),
t2 as (select * from t where key = '4')
select * from t1 union all select * from t2;

2） ORDER BY和CLUSTER BY：DISTRIBUTE BY语句能按照指定的字段或表达式对数据进行划分，输出到对应的Reduce Task或者文件中。CLUSTER BY等价于DISTRIBUTE BY与SORT BY组合。如下两条HQL语句等级：

SELECT col1,col2 FROM t1 CLUSTER BY coll
SELECT col1,col2 FROM t1 DISTRIBUTE BY coll SORT BY coll

实例：当数据量特别大，需要对最终结果进行排序时，建议采用DISTRIBUTE BY结合SORT BY语句，比如统计每个url对应的用户行为日志，并按照访问时间对结果排序，如果采用DISTRIBUTE B + SORT BY方式，HQL语句如下：

set mapreduce.job.reduces=2 
select url_id,log_time,log_type FROM behavior DISTRIBUTE BY url_id SORT BY user_id,log_time;

【考研计算机网络】课堂笔记4 第四章网络层_Network Layer 刘鑫磊up #操作系统计算机网络计算机网络
文章目录：一：网络层的功能1.异构网络互联2.路由与转发功能3.拥塞控制二：数据交换方式三：路由算法1.静态路由与动态路由1.1静态路由算法（又称非自适应路由算法）1.2动态路由算法（又称自适应路由算法)2.动态路由算法2.1距离-向量路由算法2.2链路状态路由算法2.3层次路由四：IPV41.概述2.IPV4分组2.1IPV4分组格式2.2IP数据报分片2.3网络层转发分组的流程3IPV4地址与
笔记-python之celery使用详解大白砌墙笔记 python 开发语言
Celery是一个用于处理异步任务的Python库，它允许你将任务分发到多个worker进行处理。以下是Celery的使用详解：安装Celery使用pip安装Celery：pipinstallcelery创建Celery实例首先，需要创建一个Celery实例，指定broker（消息中间件）和backend（结果存储）。fromceleryimportCeleryapp=Celery('tasks'
离散数学-万字课堂笔记-期末考试-考研复习-北航离散数学1 桃木山人考研数学离散数学期末
第一章逻辑语言1.1逻辑运算1.2命题逻辑合式公式1.3谓词逻辑合式公式1.4自然语言命题第二章命题逻辑语义2.1命题合式公式语义2.2推论式与等价式的语义2.3变换合式公式的语义2.4命题公式范式2.5等式演算2.6完全集第三章谓词逻辑语义3.1谓词合式公式语义3.2推论关系和相等关系3.3前束范式与斯科伦范式3.4一阶理论语言3.5论域、结构与模型第四章逻辑公理系统4.1形式系统4.2命题逻辑
RV1126笔记三十七：PaddleOCR检测模型训练殷忆枫 RV1126项目实战笔记
若该文为原创文章，转载请注明原文出处。PaddleOCR检测模型训练及验证测试1、准备数据集在PaddleOCR目录下新建文件夹：train_data,这个文件夹用于存放数据集的。使用的是网上大佬提供的车牌识别数据集，下载后，解压到train_data目录下。可以自己网上找，了可以找我要数据集，或自己标注数据集。2、配置文件在PaddleOCR主目录下：configs/det/ch_ppocr_v
uCOS-II学习笔记(一) abc94 uCOS-II 任务 dos borland os 编译器数据结构
第一章：范例在这一章里将提供三个范例来说明如何使用µC/OS-II。这一章是为了让读者尽快开始使用µC/OS-II。1.00安装µC/OS-II1.01INCLUDES.H#include"includes.h"INCLUDE.H可以使用户不必在工程项目中每个*.C文件中都考虑需要什么样的头文件。换句话说，INCLUDE.H是主头文件。这样做唯一的缺点是INCLUDES.H中许多头文件在一些*.C
Docker配置代理，以保证可以快速拉取镜像霍志杰 docker 容器运维
序言本来不想写了，然后记笔记了，但是今天遇到这个问题了再一次，还是写一写吧，加深一下印象因为Docker被墙了，所以拉取Docker镜像的时候，需要通过代理的方式xxxxxxxxxx,此处省略十几个字，然后，在目标主机上面配置代理，但是需要注意的是，docker并不能使用bash的代理配置，所以需要额外配置docker的代理，这里需要注意，一开始认为不需要所以一直不通。配置Docker使用代理的配
《算法笔记》8.1小节——搜索专题-＞深度优先搜索（DFS）问题 C: 【递归入门】组合+判断素数圣保罗的大教堂《算法笔记》算法
题目描述已知n个整数b1,b2,…,bn以及一个整数k（k＜n）。从n个整数中任选k个整数相加，可分别得到一系列的和。例如当n=4，k＝3，4个整数分别为3，7，12，19时，可得全部的组合与它们的和为：3＋7＋12=223＋7＋19＝297＋12＋19＝383＋12＋19＝34。现在，要求你计算出和为素数共有多少种。例如上例，只有一种的和为素数：3＋7＋19＝29。输入第一行两个整数：n,k（1
【笔记】Helm-1 介绍许科大 Helm 云原生 kubernetes k8s
欢迎欢迎使用Helm文档。Helm是Kubernetes的包管理器，您也可以在CNCFHelm项目过程报告阅读详细的背景信息。HelmHelmProjectJourneyReport|CNCF文档构成Helm有大量的文档。高级组织概述会让您知道在哪里查找特定内容。1、教程如果您是新手，从这里开始，手把手带您通过一系列的步骤创建您的第一个Helmchart。Helm|Docs2、主题引导以相当高的水
C语言数据结构——变长数组（柔性数组） Iawfy22 数据结构 c语言柔性数组
前言这是一位即将大二的大学生（卷狗）在暑假预习数据结构时的一些学习笔记，供大家参考学习。水平有限，如有错误，还望多多指正。本文主要介绍了如何手动实现一个变长数组，以及实现其部分功能（如删除、查找、添加、排序等）变长数组介绍变长数组又可以叫柔性数组，与一般数组不同，它是一个动态的数组，具体表现为可以根据数组里面元素个数的多少而自动的进行扩容，以便达到变长（柔性）的特点。预备知识为了实现自动边长扩容这
C语言学习笔记-进阶（17）预处理详解 John.Lewis c语言学习笔记
1.预定义符号C语言设置了一些预定义符号，可以直接使用，预定义符号也是在预处理期间处理的。__FILE__//进⾏编译的源⽂件__LINE__//⽂件当前的⾏号__DATE__//⽂件被编译的⽇期__TIME__//⽂件被编译的时间__STDC__//如果编译器遵循ANSIC，其值为1，否则未定义举个例子：printf("file:%sline:%d\n",__FILE__,__LINE__);2
图神经网络学习笔记—高级小批量处理（专题十四） AI专题精讲图神经网络入门到精通人工智能
小批量（mini-batch）的创建对于让深度学习模型的训练扩展到海量数据至关重要。与逐条处理样本不同，小批量将一组样本组合成一个统一的表示形式，从而可以高效地并行处理。在图像或语言领域，这一过程通常通过将每个样本缩放或填充为相同大小的形状来实现，然后将样本在一个额外的维度中分组。该维度的长度等于小批量中分组的样本数量，通常称为batch_size。由于图是能够容纳任意数量节点或边的最通用的数据结
简单了解WIndow和Linux的路径含义 alive903 Linux linux windows
目录1>路径概念2>绝对路径2.1>window绝对路径2.2>Linux绝对路径3>相对路径3.1>window相对路径3.2>Linux相对路径很高兴你能看到这篇文章，同时我的语雀文档也更新了许多嵌入式系列的学习笔记希望能帮到你：https://www.yuque.com/alive-m4b9n1>路径概念路径是用来描述一个文件或目录在文件系统中的位置的方式。路径可以是文件系统中的唯一标识符，
华为 PC 亮相两会！但不是鸿蒙 PC，而是统信 UOS 云水木石华为 harmonyos
这几天，两会正如火如荼进行，这场汇聚国计民生议题的盛会，一举一动都会引发人们的广泛关注。在聚光灯下，一台搭载国产操作系统的华为笔记本电脑悄然亮相央视报道——这不仅是一场产品展示，更暗含着"科技自立自强"战略下的深层叙事。【看！他们的上会“利器”】在分秒必争的现场，将海量信息流凝练为时代切片，一起见证中国科技自立自强的力量。不过，人们期待的“鸿蒙PC”仍未现身，取而代之的是搭载Linux系统的笔记本
笔记:代码随想录算法训练营day39:LeetCode 198.打家劫舍,213.打家劫舍II,337.打家劫舍III jingjingjing1111 笔记 leetcode 算法数据结构动态规划
学习资料:代码随想录198.打家劫舍力扣题目链接思路：有点像贪心，是一个不断比较取最大路径的思路定义：偷到下标为i的这家，能偷到的最大值递推公式：选当前这家偷能得到的钱和不偷当前这家的钱作比较，选能偷到的最大金额。因为这个金额是逐一递推过来的，所以是能够代表最大值的。初始化：把第一家和第二家初始化，简单来说，因为递推公式需要i-1和i-2遍历顺序：顺着偷打印：//五部曲//定义:dp[i]为偷到第
WPF学习笔记04-控件Control_Part1 一只只对技术感兴趣的程序员 WPF学习 wpf 学习 ui
之前我们已经学习过WPF布局了，这节我们开始简单介绍下控件。熟悉Winform的应该对控件并不陌生。WPF和Winform的渲染也是不一样的一个是基于DirectX一个是基于GDI+。在WPF中，打交道最多的控件无非就那么几种。1）布局控件。之前介绍过的，可以容纳多个控件或嵌套其他布局控件，用于在UI上组织和排列控件。比如StackPanel、Grid等控件都属于此类控件，他们都拥有共同父类---
python笔记：进程和线程—分布式进程 zyckhuntoria python foundation
一、分布式进程Process可以分布到多台机器上，而Thread最多只能分布到同一台机器的多个CPU上。Python的multiprocessing模块不但支持多进程，其中managers子模块还支持把多进程分布到多台机器上。一个服务进程可以作为调度者，将任务分布到其他多个进程中，依靠网络通信。由于managers模块封装很好，不必了解网络通信的细节，就可以很容易地编写分布式多进程程序。二、举例实
【学习笔记】GitLab 使用技巧和说明和配置和使用方法铜锣烧1号 python git gitlab pycharm
GitLab使用技巧和说明1.注册账号和登录注册账号：访问GitLab官网，点击“Signup”按钮，填写必要的信息（如用户名、邮箱、密码）完成注册。普通用户注册后需要管理员审批，如果有管理员权限可以直接登录使用。登录：使用注册的账号和密码登录GitLab。2.创建项目创建项目：登录后，点击页面右上角的加号图标，选择“Newproject”创建新项目。在项目创建页面，填写项目名称、描述和可见性等信
『FFmpeg学习笔记』MAC系统电脑安装FFmpeg以及使用 AI大模型前沿研究大模型笔记 macos ffmpeg M1
MAC系统电脑安装FFmpeg文章目录一.安装FFmpeg1.1.MACbrew安装FFmpeg1.2.MAC官网下载FFmpeg压缩包1.3.Windows安装1.4.Linux安装二.FFmpeg的使用2.1.音频操作2.1.1.如果不转换，直接输出aac2.1.2.将音频输出为wav2.1.3.将aac转换为wav2.1.4.双声道分离2.1.5.使用FFmpeg将音频和视频合并2.2.字幕
渗透学习笔记（四）window基础2 nnnimok 学习笔记
声明！学习视频来自B站up主**泷羽sec**有兴趣的师傅可以关注一下，如涉及侵权马上删除文章，笔记只是方便各位师傅的学习和探讨，文章所提到的网站以及内容，只做学习交流，其他均与本人以及泷羽sec团队无关，切勿触碰法律底线，否则后果自负！！！！有兴趣的小伙伴可以点击下面连接进入b站主页[B站泷羽sec](https://space.bilibili.com/350329294)五、Windows网
C++ 并发编程实战学习笔记 myc13381 c++笔记
C++并发编程学习笔记目录一.基本接口二.初步了解多线程三.线程所属权管理四.线程间共享数据五.同步并发操作六.C++内存模型和原子类型操作七.基于锁的并发数据结构设计八.无锁数据结构九.并发代码设计十.高级线程管理十一.并行算法十二.参考资料基本接口std::thread常用成员函数构造和析构函数//默认构造函数，创建一个线程，什么也不做thread()noexcept;//初始化构造函数，创建
多线程程序的测试和调试_第11章_《C++并发编程实战》笔记郭涤生 #并发线程 c/c++c++笔记并发编程
多线程程序的测试和调试1.并发相关Bug的核心类型1.1数据竞争（DataRace）1.2死锁（Deadlock）1.3活锁（Livelock）2.定位并发Bug的技巧3.代码优化与修复示例3.1修复数据竞争（使用原子操作）3.2避免死锁（统一锁顺序）4.总结5.多选题目及答案6.设计题目7.设计题目参考答案1.并发相关Bug的核心类型1.1数据竞争（DataRace）定义：多线程同时访问共享数据
设计无锁的并发数据结构_第七章_《C++并发编程实战》笔记郭涤生 #并发线程 c/c++数据结构 c++
设计无锁的并发数据结构1.核心概念与难点1.1无锁（Lock-Free）条件1.2原子操作的重要性1.3内存顺序（MemoryOrder）1.4ABA问题2.代码解析：无锁栈的实现（简化）3.多选题目4.设计题目5.多选题答案6.设计题参考答案1.核心概念与难点1.1无锁（Lock-Free）条件定义：一种并发算法的实现方式，保证无限执行进程中至少有一个线程能推进操作（系统整体进步）。关键特性：无
并发设计_第八章_《C++并发编程实战》笔记郭涤生 #并发线程 c/c++c++并发编程
并发设计1.线程间工作划分（工作窃取）2.性能优化（伪共享与缓存行对齐）3.设计并发数据结构（无锁队列）4.多选题目5.多选题目答案4.设计题目5.设计题目参考答案1.线程间工作划分（工作窃取）概念：使用工作窃取（WorkStealing）策略平衡负载。空闲线程从其他线程的任务队列尾部“偷”任务执行，减少闲置线程。代码示例：线程池实现工作窃取队列#include#include#include#i
C++内存模型和原子操作_第五章_《C++并发编程实战》笔记郭涤生 c/c++#并发线程 c++并发编程
C++内存模型和原子操作1.原子操作与无锁编程2.内存顺序核心概念示例代码3.原子操作的应用：自旋锁核心概念示例代码4.无锁数据结构：无锁栈核心概念示例代码5.多选题目5.多选答案7.设计题目7.设计题目示例答案1.原子操作与无锁编程核心概念原子操作：是不可分割的操作，在执行过程中不会被其他线程中断。C++标准库在头文件中提供了一系列原子类型，如std::atomic、std::atomic等。原
C语言入门（大一笔记）函数篇考不上贰幺幺不改名 C语言笔记 c语言程序设计编程语言
第七章C语言函数前言一、基础知识点7.1什么是函数？概念我们将常用的代码以固定的格式封装（包装）成一个独立的模块，只要知道这个模块的名字就可以重复使用它，这个模块就叫做函数（Function）。用比较字符串大小的函数讲解函数的封装以及一些注意事项。库函数和自定义函数C语言自带的函数称为库函数（LibraryFunction）。库（Library）是编程中的一个基本概念，可以简单地认为它是一系列函数
python中很常用的10个内置函数整理（初学必备）程序员七海网络安全程序员黑客 python 网络 windows linux 数据库开源服务器
对于初学Python的小伙伴们来说，掌握内置常用函数是学好Python的重要一步。这些函数不仅能让你的代码更加简洁，还可以提高编程效率。本笔记将为大家整理62个Python中最常用的内置函数，并且给出了一些简单的示例，帮助大家更好地理解和运用这些函数。这些内置函数是Python编程的基础，对于初学者来说，理解和掌握它们是非常重要的。通过实践和运用这些函数，你将能够更加高效地编写Python代码，并
郝斌C语言_分支；循环；数组；函数；运算符(笔记) sugario C c语言笔记
笔记目录前言一、选择_If1.求分数等级2.互换两个数字3.对任意三个数字进行排序4.看懂/掌握一个程序5.If常见问题二、选择_Switch三、循环_for1. 1+2+...+1002. 1~10的奇数之和3.For与If的嵌套使用_被3整除的数字之和4.For与If的嵌套使用_斐波拉契序列5.强制类型转换6. 1/1+1/2+...+1/1007.试数举例_18.浮点数存储9.多层For循环
c语言笔记函数入门我是大咖 c语言笔记 c语言笔记开发语言
目录函数的定义函数语法汇总函数的实参与形参函数实参与形参的区别函数的实参是传地址还是传值？c语言的函数就是用来实现某种功能的，如果说我们的程序代码都写在main函数中，这样会显得很难读懂，而且代码太长过于冗余，显得没有质量。所以我们可以把一些功能用分函数的方法实现功能独立分开，实现c程序的工整还有方便我们或者读者读懂。如果我们都把程序的代码全部写在主函数内，要是出现错误，我们要修改起来比较麻烦，要
伍德里奇计量经济学第四章计算机答案,计量经济学中文答案伍德里奇 weixin_39950470
第1章计置经济学的性质与经济数据1.1复习笔记一、计量经济学由于计量经济学主要考虑在搜集和分析非实验经济数据时的固有问题，计量经济学己从数理统计分离出来并演化成一门独立学科。1.非实验数据是指并非从对个人、企业或经济系统中的某些部分的控制实验而得来的数据。非实验数据有时被称为观测数据或回顾数据，以强调研宄者只是被动的数据搜集者这一事实。2.实验数据通常是在实验环境中获得的，但在社会科学中要得到这些
RecyclerView学习笔记(1) ChildHelper.Bucket 奋斗小小鸟cy Android android 数据结构
简介toString方法set方法get方法clear方法countOnesBefore方法reset方法insert方法remove方法总结简介RecyclerView中的ChildHelper.Bucket是一个工具类，实现了类似List的数据结构，从而达到减少内存占用的目的。Bucket是一个链表结构，有两个字段：mData用于存储当前信息，next指向下一个数据publicstaticcl
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb

Hive与Spark SQL