云大数据社区

5000 字干货 | 大数据之 HDFS 图文详解

全文没有代码，不要慌，主要是概念结合图片进行理解，觉得对你有用的话，坚持看完并提出建议。

大纲

HDFS 基本概念及特性
NameNode 和 DataNode
数据冗余备份
数据副本存放策略
机架感知
FsImage 和 EditLog
SecondaryNameNode
HDFS 读写步骤
安全模式
几个问答题

什么是 HDFS

The Hadoop Distributed File System (HDFS) is a distributed file system designed to run on commodity hardware.

从以上官方描述可以看出，HDFS 是 Hadoop 分布式文件系统，并且运行在普通硬件上。这就意味着 HDFS 不需要优秀的硬件资源、高昂的硬件成本，只需要简单的物理机组成分布式集群，HDFS 使用横向拓展（增加机器）来提高存储容量，而非纵向扩展（提高单个机器的配置）。

HDFS 并非唯一的分布式文件系统，还有 GFS、TFS 等，但 HDFS 是使用最多的开源分布式文件存储系统，具有高度容错（highly fault-tolerant）及低成本的特点。

HDFS 的使命

接受硬件故障

HDFS 可以运行在成百上千台廉价的物理机上，存储着海量的数据，机器出故障是常见的一件事，作为一个优秀的文件存储系统，HDFS 能够接受机器故障，它会进行故障检测以及恢复故障文件。
流式数据访问

运行在 HDFS 上的应用程序能够访问数据流，HDFS 主要用于批处理。

看到流数据访问时，卡了我很久，没明白流式数据、实时数据、流式计算、实时计算有什么区别，经过一番查阅，发现这些概念或许不应该放在一起作比较。

流式数据：理解为不是一次性加载完的数据，比如看电影，数据是一帧一帧过来的，动态的；

实时数据：实时产生的数据，和流式数据区别不大，有时候也会叫做实时流数据；

实时计算：处理实时数据，区别与离线计算（处理历史数据）；

流式计算：这与实时计算不应该一起比较，实时计算强调的是数据的实时性，而流式计算强调的是计算方法，理解为 Java8 中的流式数据处理；
支持大数据集

HDFS 存储的典型文件是 GB 或 TB 大小，一个磁盘无法存储大文件，HDFS 将文件切分成小块，分别存储在不同服务器的磁盘上，通过网络进行连接。
简单的一致性模型（write-once-read-many）

HDFS 通常是一次写入，多次读取，不支持随机写操作，可以在文件末尾追加。这种方式简化了数据一致性问题。
移动计算比移动数据更划算

针对海量数据的处理，如果需要将数据移动到计算程序所在的节点，受网络的限制，计算将变得非常缓慢。HDFS 提供接口将计算程序移动到数据所在的位置，移动应用程序比移动海量数据效率高得多。
跨硬件和平台的可移植性

HDFS 易于从一个平台移植到另一个平台，这有助于 HDFS 成为大量应用程序的首选。HDFS 由 Java 编写，只要支持 Java 语言的机器便可以运行 HDFS NameNode 或 DataNode，这也是利用了 Java 的跨平台特性。

NameNode 和 DataNode

HDFS 是 master/slave 架构，在分布式中，一主多从的架构很常见。NameNode 主要存储和管理数据的元信息以及接受客户端的请求，DataNode 主要存储文件，所有的元信息都存储在一个 NameNode 节点上，这样极大地简化了架构的复杂性。

文件以 block（块）的形式存储在 DataNode 上，一个大文件存储到 HDFS 上时，会被切分成很多 block，这个过程是由 HDFS 自己完成的。单个 block 默认大小 128M，每个 block 默认备份三份，存储在不同的节点，冗余备份保证了 HDFS 文件的可靠性。

NameNode：

接受用户请求；
维护文件系统的目录结构；
管理文件与 block 之间的关系以及 block 与 DataNode 之间的关系；

DataNode：

存储文件；
文件被分成 block 存储在磁盘上；
为保证数据安全，文件会有多个副本，默认是 3 份；

注意点

目录仅仅是元信息，没有冗余备份，文件才有备份；
一个物理节点可以作为一个 DataNode，也可以在一个节点上启动两个 DataNode，只是通常不会这么做；
HDFS 不支持硬链接或软连接；
HDFS 中的 block 大小以及备份的数量都是可配置的；

Blockreport

NameNode 会与 DataNode 之间会通过心跳机制进行通信，每个 DataNode 会定期向 NameNode 发送心跳以及 Blockreport ，Blockreport 上包含了该 DataNode 上的 block 列表，这种心跳机制也是 NameNode 检测 DataNode 是否存活的依据。

默认发送心跳的时间是 3 秒，默认判断 DataNode 是否存活的时间是 10 分钟，也就是 10 分钟接收不到该 DataNode 的心跳，则认为它已经宕机，不会再与该 DataNode 发送读写操作。

重写副本的触发条件：DataNode 节点不可用、某一个备份文件处于故障状态、DataNode 磁盘出现故障、备份数量发生改变。

数据冗余备份

一个文件的元信息如下图所示，包含了文件名，备份的份数，对应的 block id。

以文件 part-0 为例，备份数是 2，block id 是 1 和 3，在 Datanodes 中可以找到，id 为 1 的 block 有两个，id 为 3 的 block 有两个，分别存储在不同 Datanode。两个不同 block id 组合起来就是一个完整的名称为 part-0 的文件。

数据副本存放策略

大型 HDFS 实例通常分布运行在由许多机架组成的集群中，一个机房中有很多机架，一个机架上有多个服务器，不同机架的机器通信需要经过交换机，受带宽等因素的影响，需要更高的网络通信成本。所以默认 3 个副本的情况下，采用如下的放置策略：

在机架 1 上放置第一个副本；
在另一个机架 2 上放置第二副本；
副本三与副本二放置在同一个机架上；
如果有更多的副本，则随机选择机架，每个机架的副本数量有个上限值，计算方式通常是：(replicas - 1) / racks + 2

这样放置的好处：

避免一个机架出故障，导致所有数据丢失；
同一个机架上的节点通信网络会比不同机架节点通信更好，副本二与副本三放置在同一个机架能够节省带宽；

从单个文件看来，考虑带宽似乎没有多大意义，但是对于大规模数据的情况下，请求并发量大时，网络是非常重要的一个因素，特别是对于写请求，这里要了解 HDFS 写的流程，先简单介绍写流程，后面会详细讲解。

因为写副本的过程类似于流水线，先写副本一，但这里写完后就将写成功的结果返回给客户端了。之后由副本一将内容写到副本二，接着由副本二将内容写到副本三。

假设副本三和副本一放置在一个机架上，那么就会产生两次不同机架间的写操作。而目前的情况是副本二和副本三在同一个机架，机架间的写操作只会发生在副本一到副本二之间，副本二和副本三的写操作是在同一个机架，节省了网络流量。

话不多说，用图说话：

机架感知

了解 HDFS 默认三份备份后，会想到一个问题，NameNode 怎么知道 DataNode 在哪个机架呢？写文件时怎么能正确知道 DataNode 是否满足上面的备份策略呢？

Hadoop 组件有机架感知（Rack Awareness）功能，默认是关闭的，可以通过配置文件开启，在 core-site.xml 文件中有此配置项：net.topology.script.file.name，以下是官方文档对该配置项的描述。

net.topology.script.file.name

The default implementation of the DNSToSwitchMapping. It invokes a script specified in net.topology.script.file.name to resolve node names. If the value for net.topology.script.file.name is not set, the default value of DEFAULT_RACK is returned for all node names.

该配置项的值是一个脚本的路径，当没有配置时，默认值为 DEFAULT_RACK，DEFAULT_RACK 就是将所有 DataNode 认为是一个机架，物理上它们可能是在不同机架。此时 HDFS 并不知道每个 DataNode 对应的真实 rack，就会将副本随机写到 DataNode 上，不一定满足上面提到的副本放置策略。

开启机架感知后，指定的脚本接受一个入参，DataNode 的 ip，计算完返回一个结果，DataNode 所在的机架 id，格式如下：/myrack/myhost eg: /192.168.100.0/192.168.100.5

NameNode 在启动时，会判断该配置是否为空，如果不为空，说明开启了机架感知。NameNode 会根据配置找到该脚本，当接受到 DataNode 的心跳时，会运行该脚本，将其 ip 作为入参，将输出的结果作为该 DataNode 的 rack id，保存为一个 map 的形式存放在内存中。

开启机架感知后，NameNode 就能够正确识别每个 DataNode 所属的机架，能够轻松实现上述的副本存放策略。

读取时如何选择副本

为了最大的减少带宽和延迟，HDFS 读取文件采用就近原则，如果与客户端在同一机架上的 DataNode 上存有副本，则直接读取该副本。如果 HDFS 是跨数据中心的，则优先选择同一数据中心的副本。

FsImage 和 EditLog

对元数据的每一次更改都会记录在名为 EditLog 的文件中，该文件由 NameNode 维护，存储在 NameNode 节点的本地磁盘，比如在 HDFS 中新建一个文件、修改备份因子都会记录在 EditLog 文件中。

整个文件系统的信息，包括文件与 block 的映射和文件系统的属性，存储在一个名为 FsImage 的文件中，该文件也存储在 NameNode 的本地磁盘。

EditLog：保存元数据更改记录，一个文件只记录一段时间的信息，该文件会在某些时刻合并到 FsImage，FsImage 中的信息要比 EditLog 记录的信息慢一步。
FsImage：保存文件系统目录树以及文件和 block 的对应关系，理解为元数据镜像文件，某个时刻整个 HDFS 系统文件信息的快照；

假设没有 EditLog，每次写操作对元数据进行了更改，都通过写 FsImage 的方式进行，那么必定会大大降低写操作效率。因为 FsImage 中存储的是 HDFS 文件系统所有的元数据信息，随着数据量增大，该文件也会增大，每次都对它进行写操作，耗时会很长，所以通过 EditLog 作为临时文件就解决了该问题，只需要定期将 EditLog 中的内容合并到 FsImage 即可。

如果对元数据的修改每次都以写磁盘上文件的方式进行，那必定会降低读写效率，NameNode 实际上将 FsImage 和 EditLog 中记录的元数据信息加载到内存中。

当 NameNode 启动时，会从磁盘读取 FsImage 文件将元信息加载到内存，再读取 EditLog 文件中的信息将元数据同步至最新状态，NameNode 只会在启动的时候合并 FsImage 和 EditLog 文件。

如果长时间没有重启 NameNode，EditLog 文件将会变得非常大，写数据将会越来越慢，对于高并发、数据量大的场景，写操作很慢肯定是不能容忍的。只有下一次重启 NameNode 时才会将 EditLog 合并到 FsImage，但生产环境是很少重启的，必须保证服务不间断，并且 EditLog 文件非常大的话，会导致 NameNode 重启时间变长。

那么这个问题如何解决呢？HDFS 引入了 SecondaryNameNode。

SecondaryNameNode

SecondaryNameNode 不是 NameNode 的备份，不是为了做高可用（HA）的。

checkpoint 是触发 FsImage 和 EditLog 文件进行合并的条件，形成新的 FsImage，也就是检查点。到达 checkpoint 时，会将 FsImage 和 EditLog 文件读取到内存，并通过 http 的方式发送给 SecondaryNamenode，由 SecondaryNamenode 完成合并，再发回给 NameNode。

checkpoint 的触发条件有两个：

指定时间间隔，通过 dfs.namenode.checkpoint.period 进行配置，默认是一小时；
指定 EditLog 文件大小，通过 dfs.namenode.checkpoint.txns 进行配置，默认是 1 百万条事务记录；

只要达到任何一个触发条件，就会将 EditLog 合并到 FsImage。

FsImage 和 EditLog 合并过程

检查是否触发 checkpoint 条件；
触发 checkpoint，NameNode 停止向 edits 中写新的记录，另外生成一个 edits.new 文件，将新的事务记录在此文件中；
SecondaryNameNode 通过 HTTP 请求，从 NameNode 下载 fsimage 和 edits 文件，合并生成 fsimage.chkpoint 文件；
SecondaryNameNode 再将新生成的 fsimage.chkpoint 上传到 NameNode 并重命名为 fsimage，直接覆盖旧的 fsimage，实际上中间的过程还有一些 MD5 完整性校验，检查文件上传下载后是否完整；
将 edits.new 文件重命名为 edits 文件，旧的 edits 文件已经合并到 fsimage；

注：SecondaryNameNode 也会将 fsimage 等信息载入内存，上图把这一块省略了。

读写详细步骤

读操作（简略版）

Client 向 NameNode 发起读请求；
NameNode 将请求文件的元信息返回给 Client；
Client 根据元信息去对应的 datanode 上取 block，并以追加的方式写文件，完成 block 的拼接工作；
最后组成完整的文件；

读取 block 并不是一整块拿下来，读取文件都是以二进制流的方式，所以会先创建文件，再将数据内容追加写入文件。

写操作（简略版）

1、客户端发起写文件请求，会带上元数据信息；

2、NameNode 接受到请求后，会做一些校验工作，如文件是否存在、客户端是否有写权限等，并将写操作记录到 edits 文件中，如果写失败，比如断电了，edits 文件中还记录了上一次操作的信息，能够复原上一次操作；

3、NameNode 将返回每个 block 存放的 DataNode 列表；

4、客户端从 block 所属的 DataNode 列表中，假设备份 3 份，根据就近原则开始写操作，比如选择 DataNode1，在写的同时，DataNode1 会将文件信息传递给 DataNode2，DataNode2 接收到后再传递给 DataNode3，DataNode 接收到信息后，再依次返回确认信息，就像流水线一样，1 -> 2 -> 3，这个过程叫 Replication Pipelining。

5、DataNode 写完之后，会将结果返回给客户端，收到一个成功的结果，客户端就认为写操作已经完成了，剩余两个备份会异步进行。假设 2 -> 3 的过程中写失败了， 3 号机器宕机，2 号收不到成功确认 ack，则会告知 NameNode，NameNode 再重新指定一个 DataNode 进行写操作，1、2 随机选择一个作为写操作的发起端，保证最后是 3 份备份。

使用 Pipeline 的方式进行写操作，不需要客户端写三份备份，因为客户端写文件时是通过网络传输，所有备份由客户端写的话将严重影响写操作的速度。

安全模式

NameNode 启动时，会从磁盘读取 FsImage 和 EditLog 文件至内存，然后等待 DataNode 发送 Blockreport，此时 NameNode 处于只读状态，这时不能进行写操作，这个过程 NameNode 处于安全模式。当 DataNode 将 block 的信息发送给 NameNode，大多数 block 处于可用状态时，NameNode 会自动退出安全模式。也可以通过 hdfs 命令行或 NameNode 页面对安全模式进行开关操作。

问答形式

HDFS 中的文件写入只支持单个写入者，而且写操作总是以「只添加」方式在文件末尾写数据吗？

HDFS 的目标应用场景就是一次写入，多次读取；
如果要支持随机写，分布式数据的一致性就会受到挑战；随机写文件会破坏原文件元数据，元数据的改动会导致校验和的改动，而 hadoop 会依赖校验和等信息进行文件拆分，以及校验文件合法性，随机写会造成效率很低。
如果一定要保证实时的数据一致性，性能牺牲会很大，不适合大数据量少写多读的场景。

为什么HDFS中块（block）不能设置太大，也不能设置太小？

前面我们已经了解过，HDFS 读取数据时是读取 block，再将不同 block 组成完整的文件。

首先得了解寻址时间在这里是指 HDFS 找到目标文件块（block）所需要的时间，如果文件非常多，寻址时间就会更长，如果单个 block 非常大，网络传输的时间就会更长，得出以下结论：

文件块越大，寻址时间越短，但磁盘传输时间越长；
- 从磁盘传输的时间明显大于寻址时间，导致程序在处理这块数据时，变得非常慢；
- MapReduce 中的 map 任务通常一次只处理一个 block 的数据，如果块过大，运行速度会变慢；
文件块越小，寻址时间越长，但磁盘传输时间越短；
- 存放大量小文件会占用 NameNode 中大量内存来存储元数据，而 NameNode 的内存是有限的，这样不合理；
- 文件块过小，大量小文件导致寻址时间增长，程序花很多时间找 block 位置；

因此，block 适当设置大一些，减少寻址时间，那么传输一个由多个 block 组成的文件的时间主要取决于磁盘的传输速率。

为什么HDFS文件块（block）大小设定为128M？

1、HDFS 中平均寻址时间大概为 10ms；

2、经过前人的大量测试发现，寻址时间为传输时间的 1% 时，为最佳状态；

所以最佳传输时间为 10ms/0.01=1000ms=1s

3、目前磁盘的传输速率普遍为 100MB/s

计算出最佳 block 大小：100MB/s * 1s = 100MB

所以设定 block 大小为 128MB（程序员的世界中，整数都是 2^n）

ps：实际在工业生产中，磁盘传输速率为 200MB/s 时，一般设定 block 大小为 256MB；磁盘传输速率为 400MB/s 时，一般设定 block 大小为 512M；

如果我要存的文件确实都是小文件，那如何处理呢？

存大量小文件也没有关系，因为即使有很多小文件，NameNode 的元数据信息也不会特别特别大，大多数情况都是能存储下来的，只是 HDFS 比较适合存储大文件。

如果某个文件没有达到 block 大小（默认 128M），那么会占用多少空间呢？

文件内容在 DataNode 上占用实际大小的空间。

为什么需要有 FsImage 和 EditLog 来存储元数据？

单独存在磁盘上？

存储在磁盘上的话会导致访问速度非常慢，每次请求文件时都需要访问 NameNode，如果存在磁盘上，NameNode 还需要从磁盘访问元数据信息，如果多个读操作同时请求，延迟将非常高。

单独存在内存中？

存在内存中显然不行，一方面是内存容量问题，尽管一个 block 元信息只占用约 150 byte，但是面对大量文件，内存容量会不够；其次，内存中无法持久化数据，如果机器宕机，内存数据将丢失，元信息都丢失，整个 HDFS 将无法使用。

存一部分内存中作为缓存，比如到了 100M 就刷到磁盘中？

数据分开存储存在的问题是如何保证一致性，并且缓存中的数据也存在丢失的情况，如果机器宕机，缓存中丢失的数据仍然无法恢复。

思考完这几个问题更能理解 HDFS 元数据的管理。

NameNode 维护了哪些信息？

NameNode 维护了两套数据，一个是文件目录与 block 数据块之间的关系，另一个是 block 与 datanode 节点之间的关系。

前一个数据关系是静态的，存放在磁盘上，通过 fsimage 和 edits 文件来维护，这里就涉及到元信息如何保存一致性的问题，就是使用这两个文件以及 SecondaryNameNode 实现的。

后一个数据关系是动态的，不会持久化到磁盘，每当集群启动的时候，会自动建立这些信息

NameNode 已经有 DataNode 的元信息，为什么 DataNode 还需要向 NameNode 定期汇报 block 信息？

因为 datanode 上的数据可能会被手动删除，比如手动去 datanode 上删除掉对应的 block，此时 namenode 中还有该元信息，误以为 block 还存在。

参考来源：

https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html

https://blog.csdn.net/l1028386804/article/details/51935169

https://juejin.im/post/5d885bbcf265da039e12fa13

https://www.maiyewang.com/?p=21911

Flink系列-2、Flink架构体系技术武器库大数据专栏 flink 架构 jvm
版权声明：本文为博主原创文章，遵循CC4.0BY-SA版权协议，转载请附上原文出处链接和本声明。大数据系列文章目录官方网址：https://flink.apache.org/学习资料：https://flink-learning.org.cn/目录Flink中的重要角⾊Flink数据流编程模型Libraries支持Flink集群搭建Local本地模式（开发测试）Standalone-伪分布环境（开
【原创】大数据治理入门（5）《数据生命周期管理：从采集到归档》入门必看高赞实用精通代码大仙数据库 hadoop python 大数据数据挖掘数据治理数据库 python
数据生命周期管理：从采集到归档引言：数据生命周期的概念数据生命周期管理（DataLifecycleManagement，DLM）是指从数据的创建、使用、存储到最终归档或销毁的全过程管理。在大数据时代，企业需要通过对数据生命周期的全面管理，确保数据的可用性、安全性和合规性。本文将详细介绍数据生命周期的各个阶段，以及相应的管理策略和技术工具。各阶段介绍：采集、存储、处理、分析、归档数据采集（DataC
Java 大视界 -- Java 与大数据分布式机器学习平台搭建（58）青云交大数据新视界 Java 大视界大数据分布式机器学习 Apache Spark Hadoop Apache Flink 平台搭建架构设计
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。一、欢迎加入【福利社群
基于MRS-Hudi构建数据湖的典型应用场景介绍华为云技术精粹云计算华为云
一、传统数据湖存在的问题与挑战传统数据湖解决方案中，常用Hive来构建T+1级别的数据仓库，通过HDFS存储实现海量数据的存储与水平扩容，通过Hive实现元数据的管理以及数据操作的SQL化。虽然能够在海量批处理场景中取得不错的效果，但依然存在如下现状问题：问题一：不支持事务由于传统大数据方案不支持事务，有可能会读到未写完成的数据，造成数据统计错误。为了规避该问题，通常控制读写任务顺序调用，在保证写
MySQL、HBase 和 Elasticsearch：特点与区别详解一休哥助手 mysql hbase elasticsearch
引言随着大数据和分布式计算的快速发展，数据库系统已从传统的关系型数据库（RDBMS）扩展到多种新型数据存储技术，包括NoSQL数据库和搜索引擎等。MySQL、HBase和Elasticsearch是其中三种非常常见的数据存储系统，它们在各自的领域都有着重要的应用。MySQL作为传统的关系型数据库，HBase则是一个分布式、可扩展的NoSQL数据库，而Elasticsearch则是一个分布式的搜索引
SRCA 证书免费考！2025 学习奋进，大显蛇通！数据库
社区的小伙伴们，你们的新年学习计划已开启！Rocky为你精心准备了一份特别的礼物–一个为期一个月的学习计划与免费的SRCA考证机会，助你在新的一年成为StarRocks专家，在大数据征程上大显神通。以下是本次新年学习的内容与SRCA考试获取方式：学习目标通过系统的学习，让你迅速提升StarRocks知识基础与解决实际问题的能力，为你的职业发展打下坚实基础。学习方式大家可以根据Rocky规划的课程在
深入MapReduce——引入黄雪超大数据基础 #深入MapReduce mapreduce 大数据 hadoop
引入前面我们已经深入了HDFS的设计与实现，对于分布式系统也有了不错的理解。但HDFS仅仅解决了海量数据存储和读写的问题。但要想让数据产生价值，一定是需要从数据中挖掘出价值才行，这就需要我们拥有海量数据的计算处理能力。下面我们还是老样子，来数据一下要实现海量计算处理能力，有些什么核心痛点大数据计算核心痛点量级大在稍微大一点的互联网企业，需要计算处理的数据量都开始以PB计了。而传统的计算处理模型中，
HUDI-0.11.0 BUCKET index on Flink 特性试用 _Magic Big Data flink hudi
1.背景在0.10.1版本下，使用默认的index(FLINK_STATE)，在upsert模式下，几十亿级别的数据更新会消耗大量内存，并且检查点（checkpoint）时间过长。因此，切换到0.11.0的BUCKET索引。当前环境：Flink1.13.2+Hudi0.11.0（master2022.04.11）+COW+HDFS。关键配置项：index.type=BUCKEThoodie.buc
Kafka 迁移 AutoMQ 时 Flink 位点管理的挑战与解决方案 AutoMQ 云计算云原生 Kafka 消息计算大数据 AWS AutoMQ 阿里云腾讯云 GCP
编辑导读：AutoMQ是一款与ApacheKafka100%完全兼容的新一代Kafka，可以做到至多10倍的成本降低和极速的弹性。凭借其与Kafka的完全兼容性可以与用户已有的Flink等大数据基础设施进行轻松整合。Flink是重要的流处理引擎，与Kafka有着密切的关系。本文重点介绍了当用户需要将生产Kafka集群迁移到AutoMQ时，如何处理好Flink的位点来确保整体迁移的平滑过渡。引言在云
AI产品经理还不会数据挖掘❓看完这篇就够了脱泥不tony 人工智能产品经理数据挖掘 python tensorflow 开发语言 llama
前言在数字化时代的浪潮中，AI产品经理正成为推动科技与商业融合的重要力量。然而，面对海量的数据，如何从中挖掘出有价值的信息，为AI产品的开发提供有力支持？这已成为AI产品经理必须面对的挑战。今天，我们就来探讨一下数据挖掘在AI产品经理工作中的重要性，以及如何通过掌握数据挖掘方法论，打造卓越的AI产品。一、数据挖掘：AI产品经理的必备技能在AI产品的世界中，大数据是构建一切的基础。无论是算法组件、知
Presto 时间、日期及计算相关日期三生暮雨渡瀟瀟 presto big data presto
由于工作中在数据迁移，大数据平台数据查询引擎使用Presto，和传统的数据库时间函数有区别，整理一版，供大家参考，一起学习，有错误欢迎指正。1、查询当前日期selectcurrent_date;2、查询当前时间selectcurrent_timestamp;_col0---------------------------------------2022-01-0220:45:58.551Asia/
销售易CRM：引领数字化转型，助力企业智能增长人工智能程序员
在全球数字化浪潮下，企业对智能化、数字化转型的需求愈发迫切。销售易CRM作为中国领先的企业级智能CRM解决方案提供商，凭借其强大的产品能力、丰富的行业经验和卓越的服务品质，成为众多知名企业的首选合作伙伴。本文将深入分析销售易CRM的核心优势，以及其如何助力企业实现数字化转型与业务增长。一、销售易CRM的核心优势领先的技术实力销售易CRM基于自主研发的新一代智能商业引擎，将人工智能、大数据分析等前沿
销售易与Salesforce：CRM市场的龙争虎斗 crmsaas
在当今数字化时代，客户关系管理软件在企业运营中扮演着至关重要的角色。销售易和Salesforce作为两款备受瞩目的CRM软件，各自具有独特的特点和优势。销售易是连续8年成为唯一入选Gartner销售自动化魔力象限的中国CRM厂商，并且在多项能力指标上超越国际厂商。在中国，销售易在大中型企业市场占有率排名第一，它通过整合移动、社交、人工智能、大数据和物联网技术，提供了全面的业务管理解决方案，被多家5
大数据平台Bug Bash大扫除最佳实践京东云开发者大数据 bug bash
作者：尹伟一、背景随着越来越多的"新人"在日常工作以及大促备战中担当大任，我们发现仅了解自身系统业务已不能满足日常系统开发运维需求。为此，大数据平台部门组织了一次BugBash活动，既能提升自己对兄弟产品的理解和使用，又能促使自家产品功能日趋完善。今天来给大家分享一些实际操作过程和经验总结~二、什么是BugBash？BugBash，顾名思义就是缺陷大扫除。通常由QA主导发起，团队全员放下手中的活，
深入探索Go中的网络编程 AI天才研究院一天一门编程语言自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术深入探索Go中的网络编程1.引言1.1.背景介绍网络编程是计算机网络领域中的一个重要分支,涉及如何在程序中实现网络通信,使程序具有网络访问能力。随着云计算、大数据、物联网等技术的普及,网络编程的需求也越来越大。Go作为一个静态类型的编程语言,以其简洁、高效、安全等特点,成为了许多开发者首选的网络编程语言。本文将深入探索Go中网络编程的特点、原理和实现,帮助读者更好地利用
告别 Excel，拥抱 R 语言：开启数据分析新时代码农老关【关东升】 excel r语言数据分析
在这个数据驱动的时代，数据分析已然成为每个行业的核心竞争力。从市场营销到金融领域，从医疗健康到教育行业，数据无处不在，深刻影响着每一个决策。然而，面对日益复杂的数据集，单纯依靠Excel进行分析，已渐渐难以满足不断增长的需求。为何弃Excel选R语言？强大的数据处理能力Excel简单易用，但其处理大数据集时，效率与能力着实有限。R语言作为专业的数据分析工具，处理成千上万的数据行不在话下，还支持丰富
【爬虫】使用 Scrapy 框架爬取豆瓣电影 Top 250 数据的完整教程 brhhh_sehe 爬虫 scrapy
前言在大数据和网络爬虫领域，Scrapy是一个功能强大且广泛使用的开源爬虫框架。它能够帮助我们快速地构建爬虫项目，并高效地从各种网站中提取数据。在本篇文章中，我将带大家从零开始使用Scrapy框架，构建一个简单的爬虫项目，爬取豆瓣电影Top250的电影信息。Scrapy官方文档：ScrapyDocumentation豆瓣电影Top250：豆瓣电影Top250本文的爬虫项目配置如下：系统：Windo
有了TiDB，是否还需要“散装”大数据组件？狮歌~资深攻城狮 tidb 数据仓库数据分析数据库分布式
有了TiDB，是否还需要“散装”大数据组件？最近和同事们讨论一个问题：在大数据应用日益增多的今天，如果使用了TiDB这样的一体化数据库，还需要使用那些传统的大数据组件（比如Hadoop、Spark等）吗？相信大家在公司或项目中，常常遇到需要处理大量数据的场景，特别是互联网、金融、电商等行业。随着TiDB的兴起，它作为一款分布式关系型数据库，似乎能够解决不少大数据问题。那么，问题来了：如果我们已经选
Hadoop是什么，怎么部署安装？狮歌~资深攻城狮 hadoop 大数据分布式
Hadoop是什么？Hadoop是一个由Apache基金会开发的开源分布式系统基础架构，主要用于处理和存储大规模数据集。它包括两个核心组件：Hadoop分布式文件系统（HDFS）和HadoopYARN（YetAnotherResourceNegotiator）。HDFS提供了一个高吞吐量的数据访问接口，允许用户在集群中存储大量数据。它通过将文件分割成多个块并分布在集群的不同节点上来实现高可靠性和可
MPP数据库：大数据处理的“高手” 狮歌~资深攻城狮数据仓库数据分析数据库
MPP数据库：大数据处理的“高手”最近听到很多朋友讨论大数据处理的技术，其中就有一个词常常被提起，那就是MPP（MassivelyParallelProcessing，大规模并行处理）。那么，什么是MPP数据库呢？简单来说，它是一种专门用于大数据分析和处理的数据库技术，通过将数据和计算任务分配到多个节点上，达到高效、快速地处理海量数据的效果。1.MPP数据库是如何工作的？MPP数据库的工作方式和我
MPP 和 TiDB：大数据处理的两大“巨头” 狮歌~资深攻城狮 tidb 数据仓库数据分析数据库分布式
MPP和TiDB：大数据处理的两大“巨头”在大数据处理的世界里，MPP（MassivelyParallelProcessing）和TiDB都是非常强大的工具，它们都能帮助我们高效地处理海量的数据。但它们的工作原理和使用场景有所不同。今天，我们就来看看这两个技术的对比，帮助你了解它们各自的优缺点，选出最适合你项目的解决方案。MPP系统是什么？如前所述，MPP（大规模并行处理）是一种通过将数据分布到多
基于微信小程序的个人健康管理系统计算机学姐微信小程序源码微信小程序小程序 spring boot java vue.js intellij-idea mybatis
作者：计算机学姐开发技术：SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等，“文末源码”。专栏推荐：前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码精品专栏：Java精选实战项目源码、Python精选实战项目源码、大数据精选实战项目源码系统展示基于微信小程序+Java+SpringBoot+Vue+
从MySQL迁移到PostgreSQL的完整指南 m0_74825718 面试学习路线阿里巴巴 mysql postgresql 数据库
1.引言在现代数据库管理中，选择合适的数据库系统对业务的成功至关重要。随着企业数据量的增长和对性能要求的提高，许多公司开始考虑从MySQL迁移到PostgreSQL。这一迁移的主要原因包括以下几个方面：1.1性能和扩展性PostgreSQL以其高性能和优秀的扩展能力而闻名。它支持复杂的查询优化和并发控制，能够更高效地处理大规模数据。与MySQL相比，PostgreSQL在处理复杂查询和大数据集时表
【深度学习基础】线性神经网络 | softmax回归的简洁实现 Francek Chen PyTorch深度学习深度学习神经网络回归 softmax 人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈PyTorch深度学习⌋⌋⌋深度学习(DL,DeepLearning)特指基于深层神经网络模型和方法的机器学习。它是在统计机器学习、人工神经网络等算法模型基础上，结合当代大数据和大算力的发展而发展出来的。深度学习最重要的技术特征是具有自动提取特征的能力。神经网络算法、算力和数据是开展深度学习的三要素。深度学习在计算机视觉、自然语言处理、多模态数据
南京大学苏州校区学生代表团到访合合信息，开启“沉浸式”人工智能企业行人工智能图像识别程序员
为进一步深化校企合作，探索产业科技拔尖创新人才培养新模式，近期，南京大学苏州校区师生代表到访上海合合信息科技股份有限公司（以下简称“合合信息”，股票代码：SH688615）。此次活动设置了展厅讲解、技术交流、模拟面试等多个体验环节，旨在增强学生对人工智能及商业大数据技术在实际应用中的理解和认识，引导学生系统性开展职业规划，提升职业胜任力。图说：南京大学苏州校区学生代表团到访合合信息合影留念合合信息
echarts大数据量，怎么渲染，才能不卡顿 ༄༊࿆锅锅༺ 编辑器 vscode macos
对于大数据量的echarts，应该怎么渲染，才能不卡顿呢？我现在有87601个数据需要渲染，但全部属性都点上时就特别的卡，cpu的占用都已经达到50%了，有没有可以优化一下；目前的方案时：点一个遍历一次，然后渲染，当全部点上时，全部重新遍历，全部重新渲染。。求大神指点，有没有一种方案：比如点一个渲染一个，前面的一个不需要重新渲染的这种情况，对其单独控制
Java 大视界 -- Java 大数据数据治理：策略与工具实现（十四）青云交大数据新视界 Java 大视界大数据数据治理元数据管理 Apache Atlas Informatica 人工智能数据质量 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。一、本博客的精华专栏：
Java 大视界 -- Java 大数据云原生应用开发：容器化与无服务器计算（十三）青云交大数据新视界 Java 大视界大数据云原生容器化无服务器计算 Docker Kubernetes 微服务架构 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。一、本博客的精华专栏：
Spark GraphX原理与代码实例讲解 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
SparkGraphX原理与代码实例讲解作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着互联网和大数据技术的迅猛发展，社交网络、推荐系统、生物信息学、图分析等领域对图计算的需求日益增长。传统的图处理技术如GraphLab、Neo4j等，虽然功能强大，但往往存在扩展性差、易用性低、计算效率不足等问题。为了解决这些问题，A
kafka和mq的区别 xsmxh-1314 笔记 kafka rabbitmq java
作为消息队列来说，企业中选择mq的还是多数，因为像Rabbit，Rocket等mq中间件都属于很成熟的产品，性能一般但可靠性较强，而kafka原本设计的初衷是日志统计分析，现在基于大数据的背景下也可以做运营数据的分析统计，而redis的主要场景是内存数据库，作为消息队列来说可靠性太差，而且速度太依赖网络IO，在服务器本机上的速度较快，且容易出现数据堆积的问题，在比较轻量的场合下能够适用。Rabbi
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri