数据派THU

手把手教你入门Hadoop（附代码&资源）

作者：Piotr Krewski&Adam Kawa

翻译：陈之炎

校对：丁楠雅

本文约6000字，建议阅读10分钟。

本文为你介绍Hadoop的核心概念，描述其体系架构，指导您如何开始使用Hadoop以及在Hadoop上编写和执行各种应用程序。

作者：GETINDATA公司创始人兼大数据顾问彼得亚·雷克鲁斯基（Piotr Krewski）和GETINDATA公司首席执行官兼创始人亚当·卡瓦（Adam Kawa）

内容简介
设计理念
HADOOP组件
HDFS
YARN
YARN 应用程序
监控 YARN 应用程序
用HADOOP处理数据
HADOOP 的其它工具
其它资源

内容简介

Hadoop是目前最流行的大数据软件框架之一，它能利用简单的高级程序对大型数据集进行分布式存储和处理。本文将介绍Hadoop的核心概念，描述其体系架构，指导您如何开始使用Hadoop以及在Hadoop上编写和执行各种应用程序。

Hadoop是阿帕奇（Apache）软件基金会发布的一个开源项目，它可以安装在服务器集群上，通过服务器之间的通信和协同工作来存储和处理大型数据集。因为能够高效地处理大数据，Hadoop近几年获得了巨大的成功。它使得公司可以将所有数据存储在一个系统中，并对这些数据进行分析，而这种规模的大数据分析用传统解决方案是无法实现或实现起来代价巨大的。

以Hadoop为基础开发的大量工具提供了各种各样的功能，Hadoop还出色地集成了许多辅助系统和实用程序，使得工作更简单高效。这些组件共同构成了Hadoop生态系统。

Hadoop可以被视为一个大数据操作系统，它能在所有大型数据集上运行不同类型的工作负载，包括脱机批处理、机器学习乃至实时流处理。

您可以访问hadoop.apache.org网站获取有关该项目的更多信息和详细文档。

您可以从hadoop.apache.org获取代码（推荐使用该方法）来安装Hadoop，或者选择Hadoop商业发行版。最常用的三个商业版有Cloudera(CDH)、Hortonworks(HDP)和MapR。这些商业版都基于Hadoop的框架基础，将一些组件进行了打包和增强，以实现较好的集成和兼容。此外，这些商业版还提供了管理和监控平台的(开源或专有的)工具。

设计理念

Hadoop在解决大型数据集的处理和存储问题上，根据以下核心特性构建：

分布式：存储和处理并非构建在一台大型超级计算机之上，而是分布在一群小型电脑上，这些电脑之间可以相互通信并协同工作。
水平可伸缩性：只需添加新机器就可以很容易地扩展Hadoop集群。每台新机器都相应地增加了Hadoop集群的总存储和处理能力。
容错：即使一些硬件或软件组件不能正常工作，Hadoop也能继续运行。
成本优化：Hadoop不需要昂贵的高端服务器，而且在没有商业许可证的情况下也可以正常工作。
编程抽象：Hadoop负责处理与分布式计算相关的所有纷杂的细节。由于有高级API，用户可以专注于实现业务逻辑，解决他们在现实世界中的问题。
数据本地化：Hadoop不会将大型数据集迁移到应用程序正在运行的位置，而是在数据所在位置运行应用程序。

Hadoop组件

Hadoop有两个核心组件：

HDFS：分布式文件系统
YARN：集群资源管理技术

许多执行框架运行在YARN之上，每个框架都针对特定的用例进行调优。下文将在“YARN应用程序”中重点讨论。

我们来看看它们的架构，了解一下它们是如何合作的。

HDFS

HDFS是Hadoop分布式文件系统。

它可以在许多服务器上运行，根据需要，HDFS可以轻松扩展到数千个节点和乃至PB（Petabytes 10的15次方字节）量级的数据。

HDFS设置容量越大，某些磁盘、服务器或网络交换机出故障的概率就越大。

HDFS通过在多个服务器上复制数据来修复这些故障。

HDFS会自动检测给定组件是否发生故障，并采取一种对用户透明的方式进行必要的恢复操作。

HDFS是为存储数百兆字节或千兆字节的大型文件而设计的，它提供高吞吐量的流式数据访问，一次写入多次读取。因此对于大型文件而言，HDFS工作起来是非常有魅力的。但是，如果您需要存储大量具有随机读写访问权限的小文件，那么RDBMS和Apache HBASE等其他系统可能更好些。

注：HDFS不允许修改文件的内容。只支持在文件末尾追加数据。不过，Hadoop将HDFS设计成其许多可插拔的存储选件之一。例如：专用文件系统MapR-Fs的文件就是完全可读写的。其他HDFS替代品包括Amazon S3、Google Cloud Storage和IBM GPFS等。

HDFS架构

HDFS由在选定集群节点上安装和运行的下列进程组成：

NameNode：负责管理文件系统命名空间(文件名、权限和所有权、上次修改日期等)的主进程。控制对存储在HDFS中的数据的访问。如果NameNode关闭，则无法访问数据。幸运的是，您可以配置多个NameNodes，以确保此关键HDFS过程的高可用性。
DataNodes：安装在负责存储和服务数据的集群中的每个工作节点上的从进程。

图1说明了在一个4节点的集群上安装HDFS。一个节点的主机节点为NameNode进程而其他三节点为DataNode进程

注：NameNode和DataNode是在Linux操作系统 (如RedHat、CentOS、Ubuntu等)之上运行的Java进程。它们使用本地磁盘存储HDFS数据。

HDFS将每个文件分成一系列较小但仍然较大的块(默认的块大小等于128 MB--更大的块意味着更少的磁盘查找操作，从而导致更大的吞吐量)。每个块被冗余地存储在三个DataNode上，以实现容错(每个文件的副本数量是可配置的)。

图2演示了将文件分割成块的概念。文件X被分割成B1和B2块，Y文件只包含一个块B3。在集群上将所有块做两个备份。

与HDFS交互

HDFS提供了一个简单的类似POSIX的接口来处理数据。使用HDFS DFS命令执行文件系统操作。

要开始使用Hadoop，您不必经历设置整个集群的过程。Hadoop可以在一台机器上以

所谓的伪分布式模式运行。您可以下载sandbox虚拟机，它自带所有HDFS组件，使您可以随时开始使用Hadoop！只需按照以下链接之一的步骤：

mapr.com/products/mapr-sandbox-hadoop
hortonworks.eom/products/hortonworks-sandbox/#install
cloudera.com/downloads/quickstart_vms/5-12.html

HDFS用户可以按照以下步骤执行典型操作：

列出主目录的内容：
$ hdfs dfs -ls /user/adam
将文件从本地文件系统加载到HDFS：
$ hdfs dfs -put songs.txt /user/adam
从HDFS读取文件内容：
$ hdfs dfs -cat /user/adam/songs.txt
更改文件的权限：
$ hdfs dfs -chmod 700 /user/adam/songs.txt
将文件的复制因子设置为4：
$ hdfs dfs -setrep -w 4 /user/adam/songs.txt
检查文件的大小：
'$ hdfs dfs -du -h /user/adam/songs.txt Create a subdirectory in your home directory.
$ hdfs dfs -mkdir songs

注意，相对路径总是引用执行命令的用户的主目录。HDFS上没有“当前”目录的概念（换句话说，没有“CD”命令）：

将文件移到新创建的子目录：
$ hdfs dfs -mv songs.txt songs
从HDFS中删除一个目录：
$ hdfs dfs -rm -r songs

注：删除的文件和目录被移动到trash中 (HDFS上主目录中的.trash)，并保留一天才被永久删除。只需将它们从.Trash复制或移动到原始位置即可恢复它们。

您可以在没有任何参数的情况下键入HDFS DFS以获得可用命令的完整列表。

如果您更喜欢使用图形界面与HDFS交互，您可以查看免费的开源HUE (Hadoop用户体验)。它包含一个方便的“文件浏览器”组件，允许您浏览HDFS文件和目录并执行基本操作。

您也可以使用HUE的“上传”按钮，直接从您的计算机上传文件到HDFS。

YARN

YARN (另一个资源协商器)负责管理Hadoop集群上的资源，并允许运行各种分布式应用程序来处理存储在HDFS上的数据。

YARN类似于HDFS，遵循主从设计，ResourceManager进程充当主程序，多个NodeManager充当工作人员。它们的职责如下：

ResourceManager

跟踪集群中每个服务器上的LiveNodeManager和可用计算资源的数量。
为应用程序分配可用资源。
监视Hadoop集群上所有应用程序的执行情况。

NodeManager

管理Hadoop集群中单个节点上的计算资源(RAM和CPU)。
运行各种应用程序的任务，并强制它们在限定的计算资源范围之内。

YARN以资源容器的形式将集群资源分配给各种应用程序，这些资源容器代表RAM数量和CPU核数的组合。

在YARN集群上执行的每个应用程序都有自己的ApplicationMaster进程。当应用程序被安排在集群上并协调此应用程序中所有任务的执行时，此过程就开始了。

图3展示了YARN进程在4节点集群上运行两个应用程序的协作情况，共计产生7个任务。

HADOOP = HDFS + YARN

在同一个集群上运行的HDFS和YARN为我们提供了一个存储和处理大型数据集的强大平台。

DataNode和NodeManager进程配置在相同的节点上，以启用本地数据。这种设计允许在存储数据的机器上执行计算，从而将通过网络发送大量数据的必要性降到最低，使得执行时间更快。

YARN 应用程序

YARN仅仅是一个资源管理器，它知道如何将分布式计算资源分配给运行在Hadoop集群上的各种应用程序。换句话说，YARN本身不提供任何处理逻辑来分析HDFS中的数据。因此，各种处理框架必须与YARN集成(通过提供ApplicationMaster实现)，以便在Hadoop集群上运行，并处理来自HDFS的数据。

下面介绍几个最流行的分布式计算框架，这些框架都可以在由YARN驱动的Hadoop集群上运行。

MapReduce：Hadoop的最传统和古老的处理框架，它将计算表示为一系列映射和归约的任务。它目前正在被更快的引擎，如Spark或Flink所取代。
Apache Spark：用于处理大规模数据的快速通用引擎，它通过在内存中缓存数据来优化计算(下文将详细介绍)。
Apache Flink：一个高吞吐量、低延迟的批处理和流处理引擎。它以其强大的实时处理大数据流的能力脱颖而出。下面这篇综述文章介绍了Spark和Flink之间的区别：dzone.com/ports/apache-Hadoop-vs-apache-smash
Apache Tez：一个旨在加速使用Hive执行SQL查询的引擎。它可在Hortonworks数据平台上使用，在该平台中，它将MapReduce替换为Hive.k的执行引擎。

监控YARN应用程序

使用ResourceManager WebUI可以跟踪运行在Hadoop集群上的所有应用程序的执行情况，默认情况下，它在端口8088。

每个应用程序都可以读取大量重要信息。

使用ResourceManager WebUI，可以检查RAM总数、可用于处理的CPU核数量以及

当前Hadoop集群负载。查看页面顶部的“集群度量”。

单击"ID"列中的条目，可以获得有关所选应用程序执行的更详细的度量和统计数据。

用HADOOP处理数据

有许多框架可以简化在Hadoop上实现分布式应用程序的过程。在本节中，我们将重点介绍最流行的几种：HIVE和Spark。

HIVE

Hive允许使用熟悉的SQL语言处理HDFS上的数据。

在使用Hive时，HDFS中的数据集表示为具有行和列的表。因此，对于那些已经了解SQL并有使用关系数据库经验的人来说，Hive很容易学习。

Hive不是独立的执行引擎。每个Hive查询被翻译成MapReduce，Tez或Spark代码，随后在Hadoop集群中得以执行。

HIVE 例子

让我们处理一个关于用户在一段时间里听的歌曲的数据集。输入数据由一个名为Song s.tsv的tab分隔文件组成：

Creep" Radiohead piotr 2017-07-20 Desert Rose" Sting adam 2017-07-14 Desert Rose" Sting piotr 2017-06-10 Karma Police" Radiohead adam 2017-07-23 Everybody" Madonna piotr 2017-07-01 Stupid Car" Radiohead adam 2017-07-18 All This Time" Sting adam 2017-07-13

现在用Hive寻找2017年7月份两位最受欢迎的艺术家。

将Song s.txt文件上传HDFS。您可以在HUE中的“File Browser”帮助下完成此操作，也可以使用命令行工具键入以下命令：

# hdfs dfs -mkdir /user/training/songs

# hdfs dfs -put songs.txt /user/training/songs

使用Beeline客户端进入Hive。您必须向HiveServer 2提供一个地址，该进程允许远程客户端(如Beeline)执行Hive查询和检索结果。

# beeline

beeline> !connect jdbc:hive2://localhost:10000

在Hive中创建一个指向HDFS数据的表(请注意，我们需要指定文件的分隔符和位置，以便Hive可以将原始数据表示为表)：

使用Beeline开始会话后，您创建的所有表都将位于“默认”数据库下。您可以通过提供特定的数据库名称作为表名的前缀，或者键入“use；”命令来更改它。

Check if the table was created successfully: beeline> SHOW tables; Run a query that finds the two most popular artists in July, 2017:

检查表创建是否成功：beeline>>显示表；运行一个查询，找到在2017年7月份两位最受欢迎的艺术家：

SELECT artist, COUNT(\*) AS total FROM songs

WHERE year(date) = 2017 AND month(date) = 7 GROUP BY artist ORDER BY total DESC LIMIT 2;

您可以使用ResourceManager WebUI监视查询的执行情况。根据配置，您将看到MapReduce作业或Spark应用程序在集群上的运行情况。

注：您还可以从HUE中编写和执行Hive查询。有一个专门用于Hive查询的编辑器，具有语法自动完成和着色、保存查询、以及以行、条形或饼图形显示结果等基本功能。

SPARK

Apache Spark是一个通用的分布式计算框架。它与Hadoop生态系统友好集成，Spark应用程序可以很容易地在YARN上运行。

与传统的Hadoop计算范式MapReduce相比，Spark在满足不同的数据处理需求的同时提供了出色的性能、易用性和通用性。

Spark的速度主要来自它在RAM中存储数据的能力，在后续执行步骤中对执行策略和串行数据进行优化。

让我们直接到代码中去体验一下Spark。我们可以从Scala、Java、Python、SQL或RAPI中进行选择。这个例子是用Python写的。启动Spark Python shell（名为pyspark）

输入 # pyspark.

片刻之后，你会看到一个Spark提示。这意味着Spark应用程序已在YARN上启动。(您可以转到ResourceManager WebUI进行确认；查找一个名为“PySparkShell”的正在运行的应用程序)。

如果您不喜欢使用shell，则可以查看基于web的笔记本，如jupyter.org或Zeppelin(zeppelin.apache.org)。

作为使用Spark的Python DataFrame API的一个示例，我们实现与Hive相同的逻辑，找到2017年7月两位最受欢迎的艺术家。

首先，我们必须从Hive表中读取数据# songs = spark.table(MsongsM)

Spark中的数据对象以所谓的dataframe的方式呈现。Dataframes是不可变的，是通过从不同的源系统读取数据或对其他数据文件应用转换而生成的。

调用Show()方法预览dataframe的内容：

为了获得预期的结果，我们需要使用多个直观的函数：

# from pyspark.sql.functions import desc

# songs.filter(Myear(date) = 2017 AND month(date) = 7") \

.groupBy(MartistM) \

.count() \

.sort(desc("count")) \

.limit(2) \

.show()

Spark的dataframe转换看起来类似于SQL操作符，因此它们非常容易使用和理解。

如果您对相同的dataframe执行多个转换(例如创建一个新的数据集)，您可以通过调用dataframe上的cache()方法(例如Song s.cache())，告诉Spark在内存中存储它。Spark会将您的数据保存在RAM中，并在运行后续查询时避免触及磁盘，从而使您获得更好的性能。

Dataframes只是Spark中可用的API之一。此外，还有用于近实时处理(Spark流)、机器学习(MLIB)或图形处理(图形帧)的API和库。

由于Spark的功能丰富，您可以使用它来解决各种各样的处理需求，保持在相同的框架内，并在不同的上下文(例如批处理和流)之间共享代码片段。

Spark可以直接将数据读写到许多不同的数据存储区，而不仅仅是HDFS。您可以轻松地从MySQL或Oracle表中的记录、HBASE中的行、本地磁盘上的JSON文件、ElasticSearch中的索引数据以及许多其他的数据中创建数据。

Hadoop的其他工具

Hadoop生态系统包含许多不同的工具来完成现代大数据平台的特定需求。下文列举了一些前面章节中没有提到的流行和重要项目的列表。

Sqoop：从关系数据存储区和HDFS/HFE及其他方式迁移数据的不可缺少的工具。

您可以使用命令行与Sqoop交互，选择所需的操作并提供一系列控制数据迁移过程的必要参数。

从MySQL表导入有关用户的数据只需键入以下命令：

# sqoop import \

--connect jdbc:mysql://localhost/streamrock \

--username $(whoami) -P \

--table users \

--hive-import

注：Sqoop使用MapReduce在关系型数据库和Hadoop之间传输数据。你可以跟踪由ResourceManager WebUI Sqoop提交的MapReduce应用。

Oozie：Hadoop的协调和编排服务。

使用Oozie，您可以构建一个在Hadoop集群上执行的不同操作的工作流(例如HDFS命令、Spark应用程序、Hive查询、Sqoop导入等等)，然后为自动执行安排工作流。

HBase：一个建立在HDFS之上的NoSQL数据库。它允许使用行键对单个记录进行非常快速的随机读写。

Zookeeper：Hadoop的分布式同步和配置管理服务。大量的Hadoop服务利用Zookeeper正确有效地在分布式环境中工作。

小结

Apache Hadoop是用于大数据处理的最流行的平台，这得益于诸如线性可伸缩性、高级APIs、能够在异构硬件上运行(无论是在前端还是在云中)、容错和开源等特性。十多年来，Hadoop已经被许多公司成功地应用于生产中。

Hadoop生态系统提供了各种开源工具，用于收集、存储和处理数据，以及集群部署、监视和数据安全。多亏了这个令人惊叹的工具生态系统，每一家公司现在都可以以一种分布式和高度可伸缩的方式轻松、廉价地存储和处理大量的数据。

其他资源

hadoop.apache.org
hive.apache.org
spark.apache.org
spark.apache.org/docs/latest/sql-programming-guide.html
dzone.com/articles/apache-hadoop-vs-apache-spark
dzone.com/articles/hadoop-and-spark-synergy-is-real
sqoop.apache.orgdzone.com/articles/sqoop-import-data-from-mysql-to-hive
oozie.apache.org
tez.apache.org

主要的工具包：

Cloudera: cloudera.com/content/cloudera/en/products- and-services/cdh.html
MapR: mapr.com/products/mapr-editions
Hortonworks: hortonworks.com/hadoop/

本文由GetInData的创始人兼大数据顾问彼得亚·雷克鲁斯基（PiotrKrewski）与GetInData首席执行官兼创始人亚当·卡瓦(Adam Kawa)撰写

彼得亚（Piotr）在编写运行于Hadoop集群上的应用程序以及维护、管理和扩展Hadoop集群方面具有丰富的实践经验。他是GetInData的联合创始人之一，帮助公司构建可伸缩的分布式体系结构，用于存储和处理大数据。Piotr还担任Hadoop讲师，为管理员、开发人员和使用大数据解决方案的分析师提供GetInData专业培训。

亚当（Adam）于2010找到他在 Hadoop的首份工作后，成为了大数据的粉丝。自那以后，他一直在Spotify(他自豪地经营着欧洲最大和发展最快的Hadoop集群之一)、Truecaller、华沙大学、Cloudera培训合作伙伴等大数据公司工作。三年前，他创立了GetinData：一家帮助客户运用数据驱动的公司，并提出了创新的大数据解决方案。亚当也是一位博主，华沙Hadoop用户组的联合组织者，并经常在大型数据会议上发言。

译者简介

陈之炎，北京交通大学通信与控制工程专业毕业，获得工学硕士学位，历任长城计算机软件与系统公司工程师，大唐微电子公司工程师，现任北京吾译超群科技有限公司技术支持。目前从事智能化翻译教学系统的运营和维护，在人工智能深度学习和自然语言处理（NLP）方面积累有一定的经验。业余时间喜爱翻译创作，翻译作品主要有：IEC-ISO 7816、伊拉克石油工程项目、新财税主义宣言等等，其中中译英作品“新财税主义宣言”在GLOBAL TIMES正式发表。能够利用业余时间加入到THU 数据派平台的翻译志愿者小组，希望能和大家一起交流分享，共同进步

翻译组招募信息

工作内容：需要一颗细致的心，将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生，或在海外从事相关工作，或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到：定期的翻译培训提高志愿者的翻译水平，提高对于数据科学前沿的认知，海外的朋友可以和国内技术应用发展保持联系，THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利：来自于名企的数据科学工作者，北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~

点击“阅读原文”拥抱组织

你可能感兴趣的:(手把手教你入门Hadoop（附代码&资源）)

element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
html 中如何使用 uniapp 的部分方法某公司摸鱼前端 html uni-app 前端
示例代码：Documentconsole.log(window);效果展示：好了，现在就可以uni.使用相关的方法了
本周第二次约练 2cfbdfe28a51
中原焦点团队中24初26刘霞2021.12.3约练161次，分享第368天当事人虽然是带着问题来的，但是咨询过程中发现，她是经过自己不断地调整和努力才走到现在的，看到当事人的不容易，找到例外，发现资源，力量感也就随之而来。增强画面感，或者说重温，会给当事人带来更深刻的感受。
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
第四天旅游线路预览——从换乘中心到喀纳斯湖陟彼高冈yu 基于Google earth studio 的旅游规划和预览旅游
第四天：从贾登峪到喀纳斯风景区入口，晚上住宿贾登峪；换乘中心有4路车，喀纳斯①号车，去喀纳斯湖，路程时长约5分钟；将上面的的行程安排进行动态展示，具体步骤见”Googleearthstudio进行动态轨迹显示制作过程“、“Googleearthstudio入门教程”和“Googleearthstudio进阶教程“相关内容，得到行程如下所示：Day4-2-480p
linux中sdl的使用教程,sdl使用入门 Melissa Corvinus linux中sdl的使用教程
本文通过一个简单示例讲解SDL的基本使用流程。示例中展示一个窗口，窗口里面有个随机颜色快随机移动。当我们鼠标点击关闭按钮时间窗口关闭。基本步骤如下：1.初始化SDL并创建一个窗口。SDL_Init()初始化SDL_CreateWindow()创建窗口2.纹理渲染存储RGB和存储纹理的区别：比如一个从左到右由红色渐变到蓝色的矩形，用存储RGB的话就需要把矩形中每个点的具体颜色值存储下来；而纹理只是一
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
从0到500+，我是如何利用自媒体赚钱？一列脚印
运营公众号半个多月，从零基础的小白到现在慢慢懂了一些运营的知识。做好公众号是很不容易的，要做很多事情；排版、码字、引流…通通需要自己解决，业余时间全都花费在这上面涨这么多粉丝是真的不容易，对比知乎大佬来说，我们这种没资源，没人脉，还没钱的小透明来说，想要一个月涨粉上万，怕是今天没睡醒（不过你有的方法，算我piapia打脸）至少我是清醒的，自己慢慢努力，实现我的万粉目标！大家快来围观、支持我吧！孩子
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
数组去重好奇的猫猫猫
整理自js中基础数据结构数组去重问题思考？如何去除数组中重复的项例如数组：[1,3,4,3,5]我们在做去重的时候，一开始想到的肯定是，逐个比较，外面一层循环，内层后一个与前一个一比较，如果是久不将当前这一项放进新的数组，挨个比较完之后返回一个新的去过重复的数组不好的实践方式上述方法效率极低，代码量还多，思考？有没有更好的方法这时候不禁一想当然有了！！！hashtable啊，通过对象的hash办法
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
【JS】执行时长(100分) |思路参考+代码解析（C++） l939035548 JS 算法数据结构 c++
题目为了充分发挥GPU算力，需要尽可能多的将任务交给GPU执行，现在有一个任务数组，数组元素表示在这1秒内新增的任务个数且每秒都有新增任务。假设GPU最多一次执行n个任务，一次执行耗时1秒，在保证GPU不空闲情况下，最少需要多长时间执行完成。题目输入第一个参数为GPU一次最多执行的任务个数，取值范围[1,10000]第二个参数为任务数组长度，取值范围[1,10000]第三个参数为任务数组，数字范围
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
2022现在哪个打车软件比较好用又便宜实惠的打车软件合集高省APP珊珊
这是一个信息高速传播的社会。信息可以通过手机，微信，自媒体，抖音等方式进行传播。但同时这也是一个交通四通发达的社会。高省APP，是2022年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入。珊珊导师，高省邀请码777777，注册送2皇冠会员，送万元推广大礼包，教你如何1年做到百万团队。高
webpack图片等资源的处理 dmengmeng
需要的loaderfile-loader（让我们可以引入这些资源文件）url-loader（其实是file-loader的二次封装）img-loader（处理图片所需要的）在没有使用任何处理图片的loader之前，比如说css中用到了背景图片，那么最后打包会报错的，因为他没办法处理图片。其实你只想能够使用图片的话。只加一个file-loader就可以，打开网页能准确看到图片。{test:/\.(p
ARM中断处理过程落汤老狗嵌入式linux
一、前言本文主要以ARM体系结构下的中断处理为例，讲述整个中断处理过程中的硬件行为和软件动作。具体整个处理过程分成三个步骤来描述：1、第二章描述了中断处理的准备过程2、第三章描述了当发生中的时候，ARM硬件的行为3、第四章描述了ARM的中断进入过程4、第五章描述了ARM的中断退出过程本文涉及的代码来自3.14内核。另外，本文注意描述ARM指令集的内容，有些sourcecode为了简短一些，删除了T
CX8836：小体积大功率升降压方案推荐（附Demo设计指南）诚芯微科技社交电子
CX8836是一颗同步四开关单向升降压控制器，在4.5V-40V宽输入电压范围内稳定工作，持续负载电流10A，能够在输入高于或低于输出电压时稳定调节输出电压，可适用于USBPD快充、车载充电器、HUB、汽车启停系统、工业PC电源等多种升降压应用场合，为大功率TYPE-CPD车载充电器提供最优解决方案。提供CX8836Demo测试、CX8836样品申请及CX8836方案开发技术支持。CX8836同升
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
【华为OD技术面试真题 - 技术面】-测试八股文真题题库（1）算法大师华为od 面试 python 算法前端
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.黑盒测试和白盒测试的区别2.假设我们公司现在开发一个类似于微信的软件1.0版本，现在要你测试这个功能：打开聊天窗口，输入文本，限制字数在200字以内。问你怎么提取测试点。功能测试性能测试安全性测试可用性测试跨平台兼容性测试网络环境测试3.接口测试的工具你了解哪些
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
01-Git初识 Meereen Git git
01-Git初识概念：一个免费开源，分布式的代码版本控制系统，帮助开发团队维护代码作用：记录代码内容。切换代码版本，多人开发时高效合并代码内容如何学：个人本机使用：Git基础命令和概念多人共享使用：团队开发同一个项目的代码版本管理Git配置用户信息配置：用户名和邮箱，应用在每次提交代码版本时表明自己的身份命令：查看git版本号git-v配置用户名gitconfig--globaluser.name
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在