S_zhangmin

Python PySpark 大数据的瑞士军刀

本篇文章主要涉及的知识点有：

Hadoop及其生态系统：了解Hadoop的由来以及Hadoop生态系统。
Spark的核心概念：掌握Spark的基本概念和架构。
Spark基本操作：了解Spark的几种常见操作。
SQL in Spark概述：了解Spark相关数据统计可以用SQL来操作。
Spark与机器学习：了解Spark MLlib库种的几种机器学习算法。

Part 1 Hadoop与生态系统

Hadoop不是一个简单的工具，它有自己的生态体系。

Part 1.1 Hadoop概述

Hadoop是一个开源的大数据软件框架，主要用于分布式数据存储和大数据集处理。Hadoop在大数据领域使用广泛，其中一个重要的原因是开源，这就意味着使用Hadoop的成本很低，软件本身是免费的。另一方面，还可以研究其内部的实现原理，并根据自身的业务需求，进行代码层面的定制。

Hadoop可以在具有数千个节点的分布式系统上稳定运行。它的分布式文件系统不但提供了节点间进行数据快速传输的能力，还允许系统在个别节点出现故障时，保证整个系统可以继续运行。

注意：一般来说，在非高可用架构下，如果Hadoop集群种的NameNode节点出现故障，那么整个Hadoop系统将无法提供服务。

一般来说，Hadoop的定义有侠义和广义之分。从狭义上来说，Hadoop就是单独指代Hadoop这个软件。而从广义上来说，Hadoop指代大数据的一个生态圈，包括很多其他的大数据软件，比如HBase、Hive、Spark、Sqoop和Flumn等。

我们一般所说的Hadoop，指的是Hadoop这个软件，即狭义的概念。当提到Hadoop生态系统或者生态圈的时候，往往指的是广义的Hadoop概念。

注意：目前而言，Hadoop主要有三个发行版本：Apache Hadoop、Cloudera版本（简称CDH）和Hortonworks版本（简称HDP）。

Hadoop1.x主要由HDFS（Hadoop Distributed File System）和MapReduce两个组件组成，其中MapReduce组件除了负责数据处理外，还负责集群的资源管理。而Hadoop2.x由HDFS、MapReduce和YARN三个组件组成，MapReduce只负责数据处理，且运行在YARN之上，YARN负责集群资源调度。这样单独分离出来的YARN组件还可以作为其他数据处理框架的集群资源管理。

Hadoop2.x的主要组件说明如下：

HDFS：分布式文件系统，提供对应用程序数据的高吞吐量、高伸缩性、高容错性的访问。它是Hadoop体系中数据存储管理的基础，也是一个高度容错的系统，能检测和应对硬件故障，可在低配置的硬件上运行。
YARN：用于任务调度和集群资源管理
MapReduce：基于YARN的大型数据集并行处理系统，是一种分布式计算模型，用于进行大数据量的分布式计算。

相对于之前的主要发布版本Hadoop2.x，Apache Hadoop3.x整合许多重要的增强功能。Hadoop3.x是一个可用版本，提供了稳定性和高质量的API，可以用于实际的产品开发。

最低Java版本变为JDK1.8：所有Hadoop的jar都是基于JDK1.8进行编译的。
HDFS支持纠删码（erasure coding）是一种比副本存储更节省存储空间的数据持久化存储方法。
YARN时间线服务增强：提高时间线服务的可扩展性、可靠性。
重写Shell脚本：修补了许多长期存在的bug，并增加了一些新的特性。
覆盖客户端的jar：将Hadoop的依赖隔离在单一jar包中，从而达到避免依赖渗透到应用程序的类路径中的问题，避免包冲突。
MapReduce任务级本地优化：添加了映射输出收集器的本地化实现的支持、可以带来30%的性能提升。
支持2个以上的NameNode：通过多个NameNode来提供更高的容错性。
数据节点内置平衡器。
YARN增强：YARN资源模型已经被一般化，可以支持用户自定义的可计算资源类型而不仅仅是CPU和内存。

前面对Hadoop进行了简要的介绍，再介绍学习Hadoop解决了大数据什么问题。

Part 1.1.1 大数据存储

首先，大数据要解决的问题是如何方便地存取海量的数据，而Hadoop的HDFS组件可以解决这个问题。HDFS以分布式方式存储数据，并将每个文件存储为块（block）。块是文件系统中最小的数据单元。

假设有一个512MB大小的文件需要存储，由于HDFS默认创建数据块大小是128MB，因此HDFS将文件数据分为4个块（512/128=4），并将其存储在不同的数据节点上。同时为了保证可靠性，还会复制块数据到不同数据节点上。因此，Hadoop拆分数据的模式，可以胜任大数据的分布式存储。

Part 1.1.2 可扩展性

其次，大数据需要解决的问题就是需要进行资源扩展，比如通过增强服务器节点来提升存储空间和计算资源。Hadoop采取主从架构，支持横向扩展的方式来扩展资源，当存储空间或者计算资源不够的情况下，用户可以向HDFS集群中添加额外的数据节点（服务器）来解决。

Part 1.1.3 存储各种数据

再次，大数据需要解决存储克重数据的问题，大数据系统中很大一部分都是非结构化数据，结构化的数据可能只占很少的比例。HDFS可以存储所有类型的数据，包括结构化、半结构化和非结构化数据。Hadoop适合一次写入、多次读取的业务场景。

Part 1.1.4 数据处理问题

大数据还有一个重要的问题就是如何对数据进行分布式计算。一般来说，传统的应用程序都是拉取数据，应用程序是固定的，将需要处理的数据从存储的地方移动到计算程序所在的计算机上，即移动数据。

大数据计算往往需要处理的数据量非常大，而程序一般一般比较小，因此在这种情况下，更好的解决方法是移动程序到各个数据节点上。Hadoop就是将计算移到数据节点上，而不是将数据移到计算程序所在的节点上。

Hadoop的主要优势如下：

可扩展性：通过添加数据节点，可以扩展系统以处理更多数据。
灵活性：可以存储任意多的数据，且数据支持各种类型。
低成本：开源免费，且可以运行在低廉的硬件上。
容错机制：如果某个数据节点宕机，则作业将自动重定向到其他节点。
计算能力：数据节点越多，处理数据的能力就越强。

Hadoop的缺点如下：

安全问题：Hadoop数据没有加密，因此如果数据需要在互联网上传播，则存在数据泄露的风险。
小文件问题：Hadoop缺乏有效支持随机读取小文件的能力，因此不适合小文件的存储。

注意：在生产环境中，Hadoop在选择版本时，应该优先选择最新的稳定版本。

Part 1.2 HDFS体系结构

HDFS支持跨多台服务器进行数据存储，且数据会自动复制到不同的数据节点上，以防止数据丢失。HDFS采用主从（Master/Slave)架构。

一般来说，一个HDFS集群是由一个NameNode节点（主节点）和多个DataNode节点（从节点）组成。其中，NameNode是一个中心服务器，负责管理文件系统的各种元数据（Metadata）和客户端对文件的访问。DataNode在集群中一般负责管理节点上的数据读取和计算。

NameNode：存储文件系统的原数据，即文件名、文件块信息、块位置、权限等，也管理数据节点。
DataNode：存储实际业务数据（文件块）的从节点，根据NameNode指令为客户端读/写请求提供服务。

NameNode负责管理block的复制，它周期性地接收HDFS集群中所有DataNode的心跳数据包（heartbeats）和block报告。心跳包表示DataNode正常工作，block报告描述了该DataNode上所有的block组成的列表，并根据需要更新NameNode上的状态信息。

当文件读取时，客户端向NameNode节点发起文件读取的请求。NameNode返回文件存储的block块信息及其block块所在DataNode的信息。客户端根据这些信息，即可到具体的DataNode上进行文件读取。

由于数据流分散在HDFS集群中的所有DataNode节点上，且NameNode只响应块位置的请求（存储在内存中，速度很快），而无须响应数据请求，所以这种设计能适应大量的并发访问。

当文件写入时，客户端向NameNode节点发起文件写入的请求。NameNode根据文件大小和文件块配置的情况，返回给客户端它所管理部分DataNode的信息。客户端将文件划分多个block块，并根据DataNode的地址信息，按顺序写入到每一个DataNode块中。HDFS的文件默认规则是一次写，多次读，并且严格要求在任何时候只有一个写操作（writer）。

注意：除了最后一个block，所有的block大小都是一样的（128MB）。当一个1MB的文件存储在一个128MB的block中时，文件只使用1MB的磁盘空间，而不是128MB。

备份数据的存放是HDFS可靠性和性能的关键。HDFS采用一种称为Rack-Aware的策略来决定备份数据的存放。通过Rack Awareness过程，NameNode给每个DataNode分配RackID。比如，DataNode1属于Rack1，DataNode4属于Rack2.

HDFS默认情况下，一个block会有3个备份，一个在NameNode指定的DataNode上（假如是Rack1下的DataNode1），一个在指定DataNode非同一个Rack的DataNode上（假如是Rack2下的DataNode4）。这种策略综合考虑了同一个Rack失效，以及不同Rack之间数据复制的性能问题。

在读取副本数据时，为了降低带宽消耗和读取延时，HDFS会尽量读取最近的副本。如果在同一个Rack上有一个副本，那么就读该副本。

注意：Hadoop服务器启动后先进入安全模式，此时系统中的内容不允许修改和删除，直到安全模式结束。

Part 1.3 Hadoop生态系统

Hadoop可以说是奠定了大数据开源方案的基础，因此，不少大数据工具都被纳入Hadoop生态系统。随着Hadoop与各种各样的Apache开源大数据项目的融合，Hadoop生态系统也在不断地变化。

Hadoop正在不断地将其核心组件HDFS和YARN扩展为一个更为复杂的开源大数据系统，也就是Hadoop生态系统。

Hadoop生态系统图

Hadoop HDFS

HDFS是一个容错、分布式、水平可扩展的存储系统，可跨多个服务器工作。它可以用作Hadoop集群的一个部分，也可以用作独立的通用文件系统，它是很多大数据工具的默认数据存储系统起到非常重要的作用。

另外，Hadoop是开源的，这意味着一个组织可以运行这个文件系统来处理PB级别的数据，而无须支付软件成本。

Hadoop MapReduce

MapReduce是一个分布式编程框架，它可以并行方式处理TB级别的数据。因此非常适合处理离线的数据，而且非常稳定。

Flume

Flume是一个分布式的海量日志采集、聚合和传输的系统，它支持在日志系统中定制各类数据发送方，用于收集数据。同时，Flume提供对数据进行简单处理，并具有写入各种数据存储系统的能力。

Sqoop

Sqoop支持HDFS、Hive、HBase与关系型数据库之间的批量数据双向传输（导入/导出）。与Flume不同，Sqoop在结构化数据的传输上操作更加方便。

Pig是一个基于Hadoop的大数据分析平台，它提供的SQL-like语言叫Pig Latin（其实并不好用），该语言的编译器会把类SQL的数据分析请求，转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。

Mahout

Mahout是在MapReduce之上实现的一套可扩展的机器学习库。不过当前随着Spark和Flink等软件的流行，Mahout逐步被其他机器学习库所替代。

Hive

Hive是一个SQL翻译器，可以基于类似SQL语言的HiveQL来编写查询。Hive可以将HDFS和HBase中的数据集映射到表上。虽然Hive对于一些复杂SQL还不能很好地支持，但是常用的数据查询任务基本都可以用SQL来解决，这让开发人员只需要用SQL就可以完成MapReduce作业。

HBase

HBase是一个NoSQL分布式的面向列的数据库，它运行在HDFS之上，可以对HDFS执行随机读/写操作，它是Google Big Table的开源实现。HBase能够近实时地存储和检索随机数据。这就很好地弥补了Hadoop在实时应用上的不足。

ZooKeeper

ZooKeeper是一个开源的分布式应用程序协调服务，是Google Chubby的一个开源实现。它是一个分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步和组服务等。

Spark

Spark是专为大规模数据处理而设计的、快速的通用计算引擎。他目前已经可以对大数据中的批处理和流处理进行处理，且Spark计算速度比Hadoop MapReduce要更快。

Drill

Drill是一个用于Hadoop和NoSQL数据库的低延迟SQL查询引擎，它支持Parquet、JSON或XML等数据格式。Drill响应速度可达到亚秒级，适合交互式数据分析。

Apache Superset

Superset是一个开源的可视化工具，可以接入多种数据源。开发人员或者业务人员可以借助它快速构建出美观的管理面板。

Part 2 Spark与Hadoop

在当前的大数据领域，Apache Spark无疑是占有重要位置。在Spark出现之前，想要在一个组织内同时完成多种大数据分析任务，必须部署多套大数据工具，比如离线分析用Hadoop MapReduce，查询数据用Hive，流数据处理用Storm，而机器学习用Mahout。

在这种情况下，一方面增加了大数据系统开发的难度，需要不同技能的人员共同写作才能完成，这也会导致系统的运维变得复杂。另一方面，由于不同大数据工具之间需要互相传递数据，而对于数据的格式可能要求不同，因此需要在多个系统间进行数据格式转换和传输工作，这个过程费时费力。

Spark软件是一个“One Stack to rule them all”的大数据计算框架，它的目标是用一个技术栈完美地解决大数据领域的各种计算任务。Spark官方对Spark的定义是：通用的大数据快速处理引擎。

从某种程度上来说，Spark和Hadoop软件的组合，是未来大数据领域性价比最高的组合，也是最有发展前景的组合。

Part 2.1 Apache Spark概述

2009年，Spark诞生于伯克利大学的AMPLab实验室，AMP是Algorithms、Machines与People的缩写。一开始Spark只是一个学术上的实验性项目，代码量并不多，可以称得上是一个轻量级的框架。

2010年，伯克利大学正式开源了Spark项目。2013年，Spark成为Apache基金会下的项目，进入高速发展期。

2014年，Spark仅一年左右的时间，就以非常快的速度成为Apache的顶级项目。Spark用Spark RDD、Spark SQL、Spark Streaming、Spark MLlib和Spark GraphX成功解决了大数据领域中，离线批处理、交互式查询、实时流计算、机器学习与图计算等最常见的计算问题。

Part 2.2 Spark和Hadoop比较

1. 实现语言不同

Apache Spark框架是用Scala语言编写。Scala是一门多范式（Multi-Paradigm）的编程语言，设计初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行在Java虚拟机上，并兼容现有的Java程序。Scala源代码被编译成Java字节码，所以它可以运行在JVM之上并可以调用现有的Java类库。

用Hadoop是由Java语言开发的。Java是一门面向对象的编程语言，具有功能强大和简单易用的特征。Java具有简单性、面向对象、分布式、健壮性、安全性、平台独立与可移植性、多线程等特点。可以说，作为一个大数据从业人员，Java语言几乎是必会的一门语言。

2. 数据计算方式不同

Apache Spark最重要的特点是基于内存进行计算，因此计算的速度可以达到Hadoop MapReduce或Hive的数十倍，甚至上百倍。很多应用程序，为了提升程序的响应速度，常用的方法就是将数据在内存中进行缓存。一般来说，Apache Spark对计算机的内存要求比较高。

通常来说，Apache Spark中RDD存放在内存中，如果内存不够存放数据，会同时使用磁盘存储数据。因此，为了提升Spark对数据的计算速度，应该尽可能让计算机的内存足够大，这样可以防止数据缓存到磁盘上。

而Hadoop MapReduce是从HDFS中读取数据的，通过MapReduce将中间结果写HDFS，然后再重新从HDFS读取数据进行MapReduce操作，再回写到HDFS中，这个过程设计多次磁盘IO操作，因此，计算速度相对来说比较慢。

3. 使用场景不同

Apache Spark只是一个计算分析框架，虽然可以在一套软件栈内完成各种大数据分析任务，但是它并没有提供分布式文件系统，因此必须和其他的分布式文件系统进行继承才能运作。

Spark是专门用来对分布式数据进行计算处理，它本身不能存储数据。可以说，Spark是大数据处理的瑞士军刀，支持多种类型的数据文件，如果HDFS、HBase和各种关系型数据库可以同时支持批处理和流数据处理。

而Hadoop主要由HDFS、MapReduce和YARN构成。其中HDFS作为分布式数据存储，这也是离线数据存储的不二选择。另外，借助MapReduce可以很好地进行离线数据批处理，而且非常稳定，对于实时性要求不高的批处理任务，用MapReduce也是一个不做的选择。

4. 实现原理不同

在Apache Spark中，用户提交的任务称为Application，一个Application对应一个SparkContext。一个Application中存在多个Job，每触发一次Action操作就会产生一个Job。这些Job可以并行或串行执行，每一个Job中有多个Stage，每一个Stage里面有多个Task，由TaskScheduler分发到各个Executor中执行。Executor的生命周期和Application一样，即使没有Job运行也是存在的，所以Task可以快速启动读取内存进行计算。

另外，在Spark中每一个Job可以包含多个RDD转换算子，在调度时可以生成多个Stage，借助Spark狂剑中提供的转换算子和RDD操作算子，可以实现很多复杂的数据计算操作，而这些复杂的操作在Hadoop中原生是不支持的。

在Hadoop中，一个作业称为一个Job，Job里面分为Map Task和Reduce Task，每个Task 都在自己的进程中运行，当Task结束时，进程也会随之结束。

注意： Spark 虽然号称是通用的大数据快速处理引擎，但是目前还不能替换Hadoop，因为Spark并没有提供分布式文件系统。

Part 3 Spark核心概念

Part 3.1 Spark软件栈

Apache Spark是一个快速通用的分布式计算平台，Spark支持更多的计算模式，包括交互式查询和流数据处理。在处理大规模数据集时，Spark的一个核心优势是内存计算，因而处理速度更快。

Spark在统一的框架下，一站式提供批处理、迭代计算、交互式查询、六数据处理、资源调度、机器学习以及图计算。Spark支持多种编程语言，包括Scala、Java、Python和R等。

Spark的软件栈架构图

Spark软件栈核心组件如下：

Spark Core：Spark Core包含Spark的基本功能，包含任务调度、内存管理和容错机制等，内部定义了RDD（弹性分布式数据集），提供了很多API来创建和操作这些RDD，为其他组件提供底层的服务。
Spark SQL：Spark SQL可以处理结构化数据的查询分析，对于HDFS、HBase等多种数据源中的数据，可以用Spark SQL来进行数据分析。
Spark Streaming：Spark Streaming是实时数据流处理组件，类似Storm。Spark Streaming提供了API来操作实时流数据。一般需要配合消息队列Kafka，来接收数据做实时统计分析。
Spark Mllib：Mllib是一个包含通用机器学习功能的包，是Machine Learning Lib的缩写，主要包含分类、聚类和回归等算法，还包括模型评估和数据导入。MLlib提供的机器学习算法库，支持集群上的横向扩展。
Spark GraphX：GraphX是专门处理图的库，如社交网络图的计算。与Spark Streaming和Spark SQL一样，也提供了RDD API。它提供了各种图的操作和常用的图算法。

Spark提供了一站式的软件栈，因此只要掌握Spark这一个工具，就可以编写不同场景的大数据处理应用程序。

Part 3.2 Spark 运行架构

-- end

Python-处理非结构化数据 cunzai1985 python 大数据 linux 人工智能 java
Python-处理非结构化数据(Python-ProcessingUnstructuredData)Thedatathatisalreadypresentinarowandcolumnformatorwhichcanbeeasilyconvertedtorowsandcolumnssothatlateritcanfitnicelyintoadatabaseisknownasstructuredda
大数据相关职位介绍之二（数据治理，数据库管理员，数据资产管理师，数据质量专员）小Tomkk 大数据大数据数据治理数据库管理员数据资产管理师数据质量专员
大数据相关职位介绍之二（数据治理，数据库管理员，数据资产管理师，数据质量专员）文章目录大数据相关职位介绍之二（数据治理，数据库管理员，数据资产管理师，数据质量专员）数据治理工程师/专家（DataGovernanceEngineer/Expert）1.元数据管理师（MetadataManager）2.主数据管理师（MasterDataManager）数据库管理员（DBA-DatabaseAdmini
如何在Java中调用Python 梦想画家 #python java8~9核心功能 java python jython
Python语言有丰富的系统管理、数据处理、统计类软件包，因此从java应用中调用Python代码的需求很常见、实用。DataX是阿里开源的一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。Datax也是通过Java调用Python脚本。本文介绍几种方法从java调用Py
colmap 已知pose 重建 kitti数据尝试鹿米lincent 知识深度学习自动驾驶计算机视觉
FrequentlyAskedQuestions—COLMAP3.7documentationCOLMAP已知相机内外参数重建稀疏/稠密模型-thronsbird-博客园Colmap根据相机内外参数重建稀疏模型_m0_47677188的博客-CSDN博客_colmap命令行准备images.txt现利用colmap的script提取database中的id-name对应关系colmap/scrip
可视化相机pose colmap形式的相机内参外参 AI算法网奇 python基础 python
目录内参外参转换可视化相机posecolmap形式的相机内参外参内参外参转换defvisualize_cameras(cameras,images):fig=plt.figure()ax=fig.add_subplot(111,projection='3d')forimage_id,image_datainimages.items():qvec=image_data['qvec']tvec=ima
【单层神经网络】基于MXNet库简化实现线性回归辰尘_星启神经网络 mxnet 线性回归
写在前面同最开始的两篇文章完整程序及注释'''导入使用的库'''#基本frommxnetimportautograd,nd,gluon#模型、网络frommxnet.gluonimportnnfrommxnetimportinit#学习frommxnet.gluonimportlossasgloss#数据集frommxnet.gluonimportdataasgdata'''生成测试数据集'''#
Hive 分区和分桶总结 Stray_Lambs 大数据 hive
目录分区和分桶总结1、分区1、分区介绍2、分区表的操作3、动态分区2、分桶表1、分桶表介绍2、分桶表的操作3、分区表和分桶表的区别参考分区和分桶总结1、分区1、分区介绍由于数据量过于庞大，使用分区，可以并行的进行处理数据，有点类似于Hadoop当中的切片操作，将数据分开，然后并行去处理，避免去全表扫描。分区表在生产环境当中用的非常多。分区表实际上就是对应一个在HDFS(或者是其他分布式文件系统)文
线性回归基础学习 Remoa 人工智能线性回归优化 gluon mxnet loss
线性回归基础学习目录：理论知识样例代码测试参考文献一、理论知识线性回归思维导图NDArray：MXNet中存储和变换数据的主要工具，提供GPU计算和自动求梯度等功能线性回归可以用神经网络图表示，也可以用矢量计算表示在Gluon中，data模块提供了有关数据处理的工具，nn模块定义了大量神经网络的层，loss模块定义了各种损失函数在MXNet的init模块(initializer)提供了模型参数化的
注册表知识与技巧大全 George-Yao Other microsoft windows user system internet shell
注册表知识和技巧大全注册表基础：********系统文件夹：*********名称路径含义AppDataC:＼Windows＼ApplicationData应用程序CacheC:＼Windows＼TemporaryInternetFiles浏览器缓存CookiesC:＼Windows＼CookiesDesktopDesktop桌面FavoritesFavorites收藏夹FontsFonts字体H
ArcGIS——数据库与服务备份（一、oracle中的geodatabase备份使用impdp与expdp） gis_morningsun GIS ArcGIS JavaScript 数据备份 geodatabase impdpexpdp arcgis oracle
一、引言谷歌百度文章已翻烂，自己想找的东西也找不到，硬是靠着自己偷懒的毅力来搞定了这个问题。一般文章建议空间数据库从arcmap中备份恢复，普通数据使用传统的oracle备份恢复，我认为都是存储在数据库中，应该有办法从oracle层面可以一起备份的，这就是这篇文章的起源。从此走向了一条不归路。二、oracle中geodatabase备份过程1、创建企业级geodatabase安装oracle客户端
【爬虫】JS逆向解决蝉妈妈加密参数data 秋无之地爬虫JS逆向 python 爬虫 js逆向
⭐️⭐️⭐️⭐️⭐️欢迎来到我的博客⭐️⭐️⭐️⭐️⭐️作者：秋无之地简介：CSDN爬虫、后端、大数据领域创作者。目前从事python爬虫、后端和大数据等相关工作，主要擅长领域有：爬虫、后端、大数据开发、数据分析等。欢迎小伙伴们点赞、收藏⭐️、留言、关注，关注必回关目录一、先打开目标网站，打开F12调试模式二、通过刷新页面定位接口，并找到接口上的加密参数data三、打开启动器（Initiator）
TensorFlow：tensorflow.keras.Model.fit（）报错： TypeError: Failed to convert elements of xxx 向小凯同学学习 tensorflow keras 人工智能
一、问题在使用TensorFlow进行数据训练的时候，报了下面这样的一个错误。代码如下：importtensorflowastffromutilzimport*importnumpyasnpacoustic=load_features('C:/Test/MSADatasets/data/acoustic_wav2vec.pkl')label=load_features('C:/Test/MSADa
周报 | 25.1.27-25.2.2文章汇总双木的木深度学习拓展阅读 python拓展学习人工智能 transformer 算法深度学习 YOLO chatgpt llama
为了更好地整理文章和发表接下来的文章，以后每周都汇总一份周报。周报|25.1.20-25.1.26文章汇总-CSDN博客机器学习AI算法工程|DeepSeekV3两周使用总结-CSDN博客Datawhale|一文详尽之SFT（监督微调，建议收藏）！-CSDN博客arXiv每日学术速递|强强联合：CNN与Transformer融合创新提升模型性能！！-CSDN博客AI生成未来|字节提出VideoWo
HBase的原理会探索的小学生大数据 HBase
一、什么是HBaseHBase是一个分布式，版本化，面向列的数据库，依赖Hadoop和Zookeeper（1）HBase的优点提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统(2)HBase表的特性Region包含多行列族包含多个列RegionServer管理一定数量的Region如果一个RegionServer宕机了，Master节点会重新将其负责的Region分配给其他RegionS
python netCDF4 ww大魔王丷 Python python
NetCDF简介NetCDF即networkCommonDataForm（网络通用数据格式），是一种面向数组型并适于网络共享的数据的描述和编码标准。文件的后缀是.nc。nc在气象领域应用很广，因为它可以存储不同波段的长时间观测结果。NetCDF文件中的数据以数组形式存储。例如，某个位置处随时间变化的温度以一维数组的形式存储。某个区域内在指定时间的温度以二维数组的形式存储。来源：【知乎Assimov
python安装netCDF KeepStu python 数据分析 python 数据可视化
1.下载https://www.lfd.uci.edu/~gohlke/pythonlibs/#netcdf4找到netCDF4‑1.5.4‑cp37‑cp37m‑win_amd64.whl（建议使用稳定一点的版本）2.安装放入D:\Anaconda3pipinstallnetCDF4-1.5.4-cp37-cp37m-win_amd64.whl3.测试fromnetCDF4importDatas
更改mac图标适配Mac Big Sur圆角图标潇洒哥GG Mac macos 经验分享
更改mac图标适配MacBigSur圆角图标1.安装脚本2.脚本已经下载好了，怎么运行将图标转换成圆角呢？3.如果替换的图标不理想，怎么办？4.如果觉得替换的图标不好看，想还原回去怎么办？5.`iconsur`的基本使用就说到这儿吧，下面列出一些常用的初衷：自从mac更新到MacBigSur之后，图标开始有了圆角，为了让所有的app看着能和谐一下，找到了一个自动将app变为圆角的脚本1.安装脚本安
报错：nginx: [emerg] “user“ directive is not allowed here in 会飞的爱迪生 nginx nginx 前端服务器
报错：nginx:[emerg]“user”directiveisnotallowedherein/alidata/server/nginx-1.11.10/conf/nginx.conf:1原因：我直接把nginx的主配置目录conf当成了虚拟主机文件的存放目录http{include/alidate/nginx/conf/*.conf;#不要直接把虚拟主机映射到nginx的主配置目录下面}真确
Python3 连接MySQL8 在奋斗的大道 python 学习笔记
第一步：安装pymysql，记住（大于python3.X）的版本：pipinstallpymysql第二步：验证pymysql是否安装成功：importpymysql#打开数据库连接#localhost为本地连接#root为用户名#password为密码#test_data为数据库db=pymysql.connect("localhost","root","123456","blog")#使用cu
VUE代码架构浅谈 tongliuwei vue.js 前端 javascript
VUE目录架构概述-mockmock可以不需要后台，自动拦截ajax返回测试数据-public公共目录-srcapi用于存放网络请求文件的目录index.tsxxx目录assets存放静态文件的目录components存放自定义组件的目录filter过滤器的使用（例如时间data格式化）index.tsicons图标库引入svgindex.tslang语言包引入（用于项目中多语言切换）en.jsz
tf.Keras (tf-1.15)使用记录4-model.fit方法及其callbacks参数普通攻击往后拉 NN技巧 tf.keras keras 人工智能深度学习
model.fit()方法是TensorFlowKeras中用于训练模型的核心方法。其中里面的callbacks参数是实现模型保存、监控、以及和tensorboard联动的重要API1model.fit()方法的参数及使用必需参数x:训练数据的输入。可以是NumPy数组、TensorFlowtf.data.Dataset、Python生成器或keras.utils.Sequence实例。y:训练数
Hadoop的基础操作_hadoop常用操作字节全栈_kYu hadoop eclipse 大数据
####下载文件语法：hadoopfs-gethadoopfs-copyToLocal示例：将user/text.txt文件下载到本地/usr/local/下-copyToLocal：复制到本地[root@master~]#hadoopfs-copyToLocal/user/text.txt/usr/local/[root@master~]#cd/usr/local/[root@masterloc
kylin套_Apache Kylin（一）Kylin介绍 weixin_39898011 kylin套
1.传统大数据分析的问题在基于Hadoop生态的传统大数据分析中，主要使用的技术是MPP(MassivelyParallelProcessing)大规模并行处理和列式存储。MPP使用线性增加计算资源换取计算时间的线性下降，列式存储可以提高读取数据的速率。两者结合可以使得基于Hadoop的SQL查询速度从小时级降为分钟级。不过分钟级别的查询响应仍未达到交互式分析级别，主要问题在于：MPP以及列式存储
linux的apache安装,Apache Kylin | 安装指南姜白的树洞 linux的apache安装
软件要求Hadoop:2.7+,3.1+(sincev2.5)Hive:0.13-1.2.1+HBase:1.1+,2.0(sincev2.5)Spark(可选)2.3.0+Kafka(可选)1.0.0+(sincev2.5)JDK:1.8+(sincev2.5)OS:Linuxonly,CentOS6.5+orUbuntu16.0.4+在HortonworksHDP2.2-2.6and3.0,C
kylin linux 安装教程,Apache Kylin | 安装指南社本 kylin linux 安装教程
软件要求Hadoop:2.7+Hive:0.13-1.2.1+HBase:1.1+Spark2.1.1+JDK:1.7+OS:Linuxonly,CentOS6.5+orUbuntu16.0.4+用HortonworksHDP2.2-2.6,ClouderaCDH5.7-5.11,AWSEMR5.7-5.10,AzureHDInsight3.5-3.6进行测试。出于试用和开发的目的，我们建议您使用
yfinance的使用 ilikework python 量化交易
最近想学习一下量化交易，就找了些python的库，yfinance这个是比较靠谱的库。功能有哪些还不是太清楚，似乎不支持多年的PE指标获取。下面是外汇历史数据的取得data=yf.download(tickers='USDJPY=X',#通貨ペアperiod='1d',#データ取得期間interval='1m',#データ表示間隔)下面是股票数据的取得tickers=['600875.SS']for
Stable Diffusion创始人：DeepSeek没有抄袭！ Datawhale stable diffusion 人工智能
Datawhale分享观点：EmadMostaque，编译：Datawhale视频中英对照如下：Distillationisnothingnew,andthere'snowaytokindofstopthisfromthemodelbasis.蒸馏技术并不是什么新事物，而且从模型的角度来看，没有办法完全阻止这种情况的发生。Butifyouactuallylookatwhatthepapersays
Python数据的筛选、排序与聚合大数据张老师 Python程序设计 python 开发语言 Python数据处理
Python数据的筛选、排序与聚合在数据分析过程中，我们常常需要对数据进行筛选、排序和聚合操作，以便从数据集中提取有价值的信息。这些操作是数据预处理和分析的基础，尤其在处理大型数据集时，能够帮助我们快速定位关键数据，进行进一步的分析。Pandas提供了强大的工具来支持这些操作，主要通过对Series和DataFrame的相关方法进行操作来实现。本节将详细讲解如何使用Pandas的Series和Da
CentOS7部署ceph 假面生存储 linux
CEPH简介不管你是想为云平台提供Ceph对象存储和/或Ceph块设备，还是想部署一个Ceph文件系统或者把Ceph作为他用，所有Ceph存储集群的部署都始于部署一个个Ceph节点、网络和Ceph存储集群。Ceph存储集群至少需要一个CephMonitor和两个OSD守护进程。而运行Ceph文件系统客户端时，则必须要有元数据服务器（MetadataServer）。CephOSDs:CephOSD守
linux进程调度HMP,HMP调度器和EAS调度器熙公主的爪牙 linux进程调度HMP
HMP调度器为了降低功耗，ARM开发了大小核架构处理器。Linux内核中的负载均衡算法基于SMP模型，并未考虑big.LITTLE模型，因此Linaro开发了一个HMP调度器用于支持这种架构，它也被用于Android5.x和Android6.x中，但这种调度器并没有被合入内核的基线中。该调度器的进程调度算法基本上和CFS一样，主要区别在于调度域和负载均衡的处理上。HMP调度域的实现比自带的CFS调
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla