Hiwes

《ElasticStack从入门到实践》学习笔记5

五、ElasticSearch的分布式特性

1、分布式介绍

1）ES支持集群模式，即一个分布式系统。其好处主要有以下2个:

A、可增大系统容量。比如：内存、磁盘的增加使得ES能够支持PB级别的数据；

B、提高了系统可用性。即使一部分节点停止服务，集群依然可以正常对外服务。

2）ES集群由多个ES实例构成。

不同集群通过集群名字来区分，通过配置文件elasticsearch.yml中的cluster.name可以修改，默认为elasticsearch。

每个ES实例的本质，其实是一个JVM进程，且有自己的名字，通过配置文件中的node.name可以修改。

3）新增一个插件cerebro

下载地址：https://github.com/lmenezes/cerebro/releases 此处选择0.7.2版本。

解压并启动即可：

#cerebro的安装与启动
tar -zxvf cerebro-0.7.2 -C /opt
cd /opt/cerebro-0.7.2
bin/cerebro

cerebro默认监听9000端口：

通过网页访问本地9000端口，进入cerebro登录界面：

输入ElasticSearch的http地址，并连接，可以进入cerebro客户端界面，插件界面自行摸索即可，和其他的插件类似，不过有自己独特的功能，包含：

A、Overview。集群的基本情况，节点的基本情况，shards分布情况等，支持过滤索引和节点；

A、nodes。节点详细状态，load、process cpu%、heap useage%等；

A、rest。类似于Kibana的DevTools，开发者工具；

D、more。包含更多功能，如：create index(可以直接指定分片和副本数)，clustering settings修改集群配置等。

2、构建ES集群

1）启动一个节点：

#ES启动单节点，配置集群名称，节点名称，文件路径
bin/elasticsearch -Epath.data=node1 -Ecluster.name=my_cluster -Enode.name=node1 -d

每个集群包含cluster state，主要记录一下信息：

节点信息：如节点名称、连接地址等

索引信息：如索引名称、配置等

2）几个节点的名称：

A、主节点master：可修改cluster state的节点。一个集群仅一个。

cluster state存储于每个节点上，master维护最新版本并向其他从节点同步。

B、选举节点master-eligible：可以参与选举master的节点。

配置为：node.master:true。默认所有节点都可以参与选举。

C、协调节点cordinating：处理请求的节点。是所有节点的默认角色，且不能取消。

路由请求到正确的节点处理，如：创建索引的请求到master节点。

D、从节点data：存储数据的节点，默认所有节点都是data类型。

配置为：node.data:true。

3）如何在本地启动一个集群：

当一个集群中只有一个节点，意味着这个节点宕机之后，整个集群都停止对外服务功能，所以，为了解决这个办法，可以在本地启动多个节点创建一个本地化集群：

#创建一个本地化集群my_cluster
bin/elasticsearch -Epath.data=node1 -Ecluster.name=my_cluster -Enode.name=node1 -d
bin/elasticsearch -Ehttp.port=8200 -Epath.data=node2 -Ecluster.name=my_cluster -Enode.name=node2 -d
bin/elasticsearch -Ehttp.port=7200 -Epath.data=node3 -Ecluster.name=my_cluster -Enode.name=node3 -d

此时可以通过cerebro插件可以看到，集群mu_cluster中存在三个节点，分别为：node1、node2、node3：

3、副本和分片

1）提高系统可用性

为了提高系统的可用性，从两个角度进行考虑：

A、服务可用性：在2个/多个节点的情况下，允许1个/一部分节点停止服务，整个集群依然可以对外提供服务；

B、 数据可用性：引入副本(replication)解决1个/一部分节点停止，节点上数据也同时丢失的情况。此时每个节点都有完备数据。

2）增大系统容量

先思考一个问题：如何将数据分布到所有节点？

答案是：引入分片(shard)。

A、什么是分片？

分片是ES能支持PB级别数据的基石。

a、分片存储部分数据，可以分布于任意节点；

b、分片数在索引创建时指定，且后续不能更改，默认为5个；

c、有主分片和副本分片之分，以实现数据的高可用；

d、副本分片由主分片同步数据，可以有多个，从而提高数据吞吐量。

B、如何设置分片数和副本数？

a、通过在DevTools在创建索引时指定：

#设置分片数和副本数
PUT my_index
{
 "settings":{
  "number_of_shards":3,    #设置分片数为3
  "number_of_replicas":1    #设置副本数为1
 }
}

b、使用cerebro插件的more下create index时同时指定：

C、两个很有意义的问题：

假设现在有3个节点，每个几点上有一个主分片和一个副本分片，那么：

a、此时增加新的节点，能否提高索引的数据容量？

b、此时增加新的副本，能否提高索引读取时的吞吐量？

答案是：不行。

原因：a）三个节点上分布了同一个索引的三个主分片和三个副本分片，已经将所有的数据存到了这三个节点，如果此时增加新的节点，却没有数据给它们利用，造成了资源浪费，且不能提高索引的数据容量；b）新增的副本数，也会增加到这三个节点上，利用的还是同样的资源，所以在三个同样的节点上读取索引数据，吞吐量也不会提高。

那么，在这种情况下，如何才能提高这个索引的吞吐量呢？

答案是：既增加新的节点，又增加新的副本，这样把新的副本放在新的节点上，进行索引数据读取的时候，并且读取，就会提升索引数据读取的吞吐量。

4、ES集群健康状态

ES的健康状态分为三种：

1）Greed，绿色。表示所有主分片和副本分片都正常分配；

2）Yellow，黄色。表示所有主分片都正常分配，但有副本分片未分配；

3）Red，红色。表示有主分片未分配。

集群的状态可以通过api或者插件查看，下面是使用api查看集群状态的命令：

#使用api，查看集群的状态
GET _cluster/health

此时，会返回集群名称，集群状态，节点数，活跃分片数等信息。

如果此时磁盘空间不够，name在创建新的索引的时候，主副分片都不会再分配，此时的集群状态会直接飙红，但此时依然可以访问集群和索引，也可以正常进行搜索。

所以：ES的集群状态为红色，不一定就不能正常服务。

5、故障转移 Failover

1）什么是故障转移？

在一个多节点集群中的master节点突然宕机，此时集群缺少主节点，剩余的节点组成新的集群，并将幸存副本分片转为主分片，同时在剩余节点生成副本分片，并依然对外进行正常服务的情况，称为故障转移。

2）如何进行故障转移？

当其余节点发现定时ping主节点master无响应的时候，集群状态转为Red。此时会发起master选举。称为master的新主节点发现有主分片没有进行分配，会将继续工作的节点上的副本分片升级为主分片，此时集群状态转为Yellow。之后，主节点会为对应节点生成未分配的副本分片，此时集群状态转为Green。整个故障转移过程结束。

6、文档分布式存储

Document最终存储到分片上，那么文档的数据是如何选择要存储的分片的呢？

此时，就需要文档到分片的映射算法。

目的：是文档均匀分布到所有分片上，以充分利用资源。之所以不用随机和轮询round-robin算法的原因是：需要维护文档到分片的映射关系，那么在PB级别的数据量的时候，这是一个成本非常大的工程。

所以：直接根据文档值实时计算对应的分片即可。分片的计算公式：

shard = hash(routing)%number_of_primary_shards

hash保证数据均匀分布在分片中，routing作为关键参数，默认为文档ID，number_of_primary_shards为主分片数。

这也是为什么，主分片数一旦设定，不能更改的原因————为了保证文档对应的分片不会发生改变。

接下来介绍文档创建和读取的流程，以一个集群三个节点为例：

1）文档创建的流程

A、Client向node3发送创建文档请求；

B、node3通过routing计算该文档存储在shard1上，查询cluster state后，确认主shard1在node2上，然后转发请求到node2；

C、node2上的主shard1接收并执行创建文档的请求后，将同样的请求转发到副shard1，查询cluster state后，确认副shard1在node1，向node1发送请求；

D、node1上的副shard1接收并执行创建文档的请求后，通知主shard1结果；

E、node2上的主shard1接收到副shard1创建文档成功的结果，通知node3创建成功；

F、node3返回结果给Client。

2）文档读取的流程

A、Client向node3发送读取文档doc1的请求；

B、node3通过routing计算该doc1在shard1上，查询cluster state后，确认主shard1和副shard1的位置，然后以轮询的机制获取一个shard(比如这次是主shard1，下次就是副shard1)；

C、本次是在node2上的主shard1接收到读取文档的请求，执行并返回结果给node3；

D、node3返回结果给Client。

3）文档批量创建的流程

A、Client向node3发送批量创建文档请求(bulk)；

B、node3通过routing计算文档对应的所有shard，然后按主shard分配对应执行的操作，同时发送请求到设计的主shard；

C、每个主shard接收并执行请求后，发送同样的请求到副shard；

D、每个副shard接收并执行请求后，返回结果到主shard，再由主shard返回给 node3；

E、node3整合所有结果，并返回给Client。

4）文档批量读取的流程

A、Client向node3发送批量读取文档请求(bulk)；

B、node3通过routing计算文档对应的所有shard，再以轮询的机制，按shard构建mget请求，通过发送给设计的shard；

C、由shard返回文档结果；

D、node3整合后返回结果到Client。

7、脑裂问题

1）什么是脑裂问题？

在分布式系统中有一个经典的网络问题。

当一个集群在运行时，作为master节点的node1的网络突然出现问题，无法和其他节点通信，出现网络隔离情况。那么node1自己会组成一个单节点集群，并更新cluster state；同时作为data节点的node2和node3因为无法和node1通信，则通过选举产生了一个新的master节点node2，也更新了cluster state。那么当node1的网络通信恢复之后，集群无法选择正确的master。

2）如何解决脑裂问题？

解决方案也很简单：仅在可选举的master-eligible节点数 >= quorum的时候才进行master选举。

quorum(至少为2)=master-eligible数量/2 + 1。

通过discovery.zen.minimum_master_nodes为quorum即可避免脑裂。

8、Shards分片详解

1）倒排索引一旦生成，不能更改。

A、优点：

a、不用考虑并发写文件的问题，杜绝了锁机制带来的性能问题；

b、文件不在更改，则可以利用文件系统缓存，只需载入一次，只要内存足够，直接从内存中读取该文件，性能高；

c、利于生成缓存数据(且不需更改)；

d、利于对文件进行压缩存储，节省磁盘和内存存储空间。

B、缺点：

在写入新的文档时，必须重构倒排索引文件，然后替换掉老倒排索引文件后，新文档才能被检索到，导致实时性差。

2）解决文档搜索的实时性问题的方案：

新文档直接生成新待排索引文件，查询时同时查询所有倒排索引文件，然后做结果的汇总即可，从而提升了实时性。

3）Segment

Lucene就采用了上述方案，构建的单个倒排索引称为Segment，多个Segment合在一起称为Index(Lucene中的Index)。在ES中的一个shard分片，对应一个Lucene中的Index。且Lucene有一个专门记录所有Segment信息的文件叫做Commit Point。

Segment写入磁盘的过程依然很耗时，可以借助文件系统缓存的特性。【先将Segment在内存中创建并开放查询，来进一步提升实时性】，这个过程在ES中被称为：refresh。

在refresh之前，文档会先存储到一个缓冲队列buffer中，refresh发生时，将buffer中的所有文档清空，并生成Segment。

ES默认每1s执行一次refresh操作，因此实时性提升到了1s。这也是ES被称为近实时的原因（Near Real Time）。

4）translog文件

那么，如果在节点写入磁盘之前就发生了宕机，这时候内存中的segment丢失，该怎么解决呢？

此时，引入了translog机制：当文档写入buffer时，同时会将该操作写入到translog中，这个文件会即时将数据写入磁盘，在6.0版本之后默认每个要求都必须落盘，这个操作叫做fsync操作。这个时间也是可以通过配置：index.translog.*进行修改的。比如每五秒进行一次fdync操作，那么风险就是丢失这5s内的数据。

5）文档搜索实时性————flush(十分重要)

flush的功能，就是：将内存中的Segment写入磁盘，主要做如下工作：

A、将translog写入磁盘；

B、将index bufffer清空，其中的文档生成一个新的Segment，相当于触发一次refresh；

C、更新Commit Point文件并写入磁盘；

D、执行fsync落盘操作，将内存中的Segment写入磁盘；

E、删除旧的translog文件。

6）refresh与flush的发生时机

A、refresh：发生时机主要有以下几种情况：

a、间隔时间达到。

通过index.settings.refresh_interval设置，默认为1s。

b、index.buffer占满时。

通过indices.memory.index_buffer_size设置，默认JVM heap的10%，且所有shard共享。

c、flush发生时。会触发一次refresh。

B、flush：发生时机主要有以下几种情况：

a、间隔时间达到。

5.x版本之前，通过index.translog.flush_threshold_period设置，默认30min。

5.x版本之后，ES强制每30min执行一次flush，不能再进行更改。

b、translog占满时。

通过index.translog.flush_threshold_size设置，默认512m。且每个Index有自己的translog。

7）删除和更新文档：

A、删除：

Segment一旦生成，就不能更改，删除的时候，Lucene专门维护一个.del文件，记录所有已删除的文档。

.del 文件上记录的是文档在Lucene中的ID，在查询结果返回之前，会过滤掉.del 文件中的所有文档。

B、更新：

先删除老文档，再创建新文档，两个文档的ID在Lucene中的ID不同，但是在ElasticSearch中ID相同。

8）Segment Merging(合并)

A、随着Segment的增多，由于每次查询的Segment数量也增多，导致查询速度变慢；

B、ES会定时在后台进行Segment merge的操作，减少Segment数量；

C、通过force_merge api可以手动强制做Segment的合并操作。

【一点分享】Python数据分析（1）：Jupyterlab搭建，练习Python和Sql的神器。或许能用上 Python python sql mysql
在之前Mysql专栏分享过程中，一直用的Sequel客户端进行sql编写和说明注解，及时执行的结果不能保存，得写一条sql截图一次，麻烦。而Jupyterlab就可以很好解决这个问题，代码过程与执行结果都会相邻挨着保留，随时可以查看，导出或截图都非常方便。而且，Jupyterlab还天然支持Python环境，学Python甚是方便，单步执行和结果就是亮点。其他的shell等各种语言环境也可以安装插
逆袭之路（11）——python网络爬虫：原理、应用、风险与应对策略凋零的蓝色玫瑰逆袭之路 php 开发语言 python
困厄铸剑心，逆袭展锋芒。寒苦凝壮志，腾跃绘华章。我要逆袭。目录一、引言二、网络爬虫的基本原理（一）网络请求与响应（二）网页解析（三）爬行策略三、网络爬虫的应用领域（一）搜索引擎（二）数据挖掘与分析（三）金融领域（四）学术研究（五）社交媒体监测四、网络爬虫带来的风险（一）法律风险（二）隐私风险（三）安全风险五、网络爬虫风险的应对策略（一）遵守法律法规（二）加强技术防护（三）提高道德意识六、结论一、引
AI大模型如何赋能电商行业，引领变革虞书欣的C 人工智能开发语言
•个性化推荐：利用机器学习算法分析用户的历史购买记录、浏览行为和喜好，生成个性化的产品推荐列表，提升用户的购买意愿和满意度。•优化用户体验：•智能搜索引擎：运用自然语言处理技术，优化搜索引擎，让用户能够通过自然语言进行搜索。•虚拟客服：通过聊天机器人和语音助手，提供24/7的客户支持，快速解答用户咨询。•图像识别：利用计算机视觉技术，用户可以通过拍照识别商品，快速找到相似商品或进行排版搭配推荐。•
如何抓取社交媒体上的公开用户信息：完整的Python爬虫教程与实战 Python爬虫项目媒体 python 爬虫 selenium 开发语言 ajax
引言社交媒体平台如Twitter、Instagram、Facebook和LinkedIn等，成为了现代社会中获取信息、表达观点、社交互动的主要场所。通过社交媒体，用户分享个人信息、兴趣、活动以及与他人的互动数据，极大地丰富了网络世界的内容。在数据分析、市场研究、舆情监控等领域，抓取社交媒体上的公开用户信息是非常重要的任务。对于很多数据科学家、市场分析师、爬虫开发者来说，如何高效地抓取社交媒体平台的
基于Python的股市数据爬取与分析：从实时行情到历史数据的完整教程 Python爬虫项目 2025年爬虫实战项目 python 数据挖掘开发语言爬虫 oracle 人工智能
引言股市投资是一项具有高度风险和回报的活动，实时行情和历史数据的获取是股市分析和决策的基础。随着数据科学和爬虫技术的迅速发展，许多投资者和分析师通过编写Python爬虫来获取股市数据，进行数据分析、技术分析和预测。无论是获取实时股市行情，还是分析股票的历史数据，Python都能为我们提供强大的工具支持。本篇博客将为你提供一个完整的股市数据爬取与分析教程，介绍如何利用Python爬虫获取实时股市行情
python爬虫短视频平台数据抓取：抓取视频和评论 Python爬虫项目 2025年爬虫实战项目 python 爬虫音视频网络爬虫开发语言
随着短视频平台如抖音、快手、TikTok等的兴起，越来越多的内容创作者和观众通过短视频平台分享和观看视频内容。短视频平台包含了丰富的数据，如视频内容、评论、点赞数、分享数等，这些数据对市场分析、用户行为分析、视频推荐算法等方面具有重要意义。抓取这些数据可以帮助我们获取平台的动态信息，为数据分析提供基础。本文将详细介绍如何使用Python编写爬虫抓取短视频平台上的视频和评论数据，包括技术栈选择、爬虫
minio免费文件管理器（windows版本），若依RuoYi-Vue-Plus框架使用，有需要的可以下载，因为官网下载特别慢程序员WANG 工具 windows vue.js 容器
MinIO是一款开源的对象存储系统，它提供类似AmazonS3的云存储服务，适用于各种规模的企业。MinIO设计为高性能、安全且易于使用，适合存储大量的非结构化数据，如图片、文档、视频以及大数据分析中的日志文件等。在本案例中，我们关注的是Windows版本的MinIO，它被集成到了若依RuoYi-Vue-Plus框架中，以实现文件管理功能。若依RuoYi-Vue-Plus是一个基于Vue.js的现
一个.NET开源、性能优异的Excel数据读取库 dotNET跨平台 excel
项目介绍Sylvan.Data.Excel是一个开源、免费、跨平台的.NET库，专注于读取和写入Excel数据文件。支持多种文件格式，并提供高效的数据访问和数据绑定功能。该库在.NET生态系统中是读取Excel数据文件的最快且内存分配最低的库之一。使用场景适用于需要从Excel文件中读取数据并进行进一步处理（如数据分析、报告生成等）的应用程序。适用于需要将数据从数据库或其他数据源导出到Excel文
SQL数据分析（简单版）编程星空扩展知识 sql 数据库
一、常见数据库分类（1）关系型数据库采用关系模型组织数据的数据库，以行和列的形式存储数据，形成数据表，一组数据表组成了数据库（2）非关系型数据库非关系型数据库在严格意义上不是一种数据库，应该是一种数据结构化存储方法的集合，可以是文档或者键值对等。二、数据库常用功能（1）表数据表是数据库中存储数据的基本组成单位，例如用户信息表、订单表、采购表等。（2）查询查询是数据库中应用最多的对象之一，最常用的功
水位监测系统|远程水位监测|水位自动监测 Susie酱科技自动驾驶物联网
计讯物联水位监测系统，远程自动化全方位实时监控。监测点部署包括：目标因子采集传感器及仪器仪表、无线采集通信终端-水利RTU、数据实时采集自动上报，管理人员可通过监控中心平台远程监控，动态掌握监测点水位信息，数据分析处理，为政策规划提供决策依据，异常数据告警提示避免水生态灾害。远程水位自动监测系统组成感知层：水位计、雨量计、流量计、工业摄像头、(水质检测仪)网络传输层：计讯物联水利RTU遥测终端应用
Pandas数据预处理——drop_duplicates()函数 Vous oublie@ python学习数据分析 python pandas 数据分析
Pandas是一个强大的数据分析工具，可以用于数据预处理、数据清洗、数据分析和可视化等多个领域。在数据预处理中，数据去重是非常重要的一个步骤。Pandas提供了drop_duplicates()函数来实现数据去重，可以根据指定的列或行进行去重操作。下面是使用drop_duplicates()函数实现数据去重的示例代码：importpandasaspd#读取csv文件df=pd.read_csv('
《数据关联的艺术：揭开MySQL与图数据库结合的高级可视化探索》墨夶数据库学习资料2 数据库 mysql
在这个信息爆炸的时代，企业和研究者们面临着从海量数据中挖掘有价值信息的巨大挑战。传统的关系型数据库如MySQL虽然擅长处理结构化数据，但在面对复杂的关系网络时显得力不从心。而图数据库以其独特的架构优势，能够高效地表示和查询实体之间的多层关系。当我们将这两种技术结合起来，并辅以强大的可视化工具时，便开启了一扇通往更深层次数据分析的大门。本文将深入探讨如何通过MySQL与图数据库的结合来实现高级可视化
Prometheus Alertmanager设置与告警规则配置详解范范0825 prometheus
PrometheusAlertmanager设置与告警规则配置详解Prometheus是一个开源的监控和告警系统，其设计理念是通过时间序列数据库存储指标数据，并通过多维数据模型和查询语言进行数据分析。Prometheus的告警系统由两部分组成：Prometheus服务器本身和Alertmanager。Alertmanager负责接收来自Prometheus的告警，执行通知的分发、抑制和聚合。本文将
Redis学习：从基础到应用的全面探索来恩1003 Redis redis 学习数据库
Redis学习资料Redis学习资料Redis学习资料在当今数字化时代，数据处理与存储的效率成为众多应用的关键所在。Redis作为一款高性能的内存数据库，凭借其独特的优势，在众多领域发挥着不可或缺的作用。无论是高并发的Web应用、实时数据分析，还是缓存机制的构建，Redis都展现出了卓越的性能。下面将为你详细介绍Redis的学习路径，助你从入门走向精通。一、Redis初相识：基础概念与安装Redi
探索数据之美：用Python生成词云图进击的六角龙 Python python 开发语言数据可视化
导语在这个信息爆炸的时代，数据无处不在，而如何从海量数据中提取有价值的信息并可视化展示，成为了数据分析与可视化领域的重要课题。今天，我们将一起探索如何使用Python中的wordcloud库来生成词云图，让数据“说话”，用图形讲述数据背后的故事。wordcloud是一个在Python中广泛使用的第三方库，主要用于根据文本数据生成词云（WordClouds）。词云是一种可视化技术，它能够有效地展示文
预见未来：基于MySQL的实时用户行为影响预测系统，掌握商业先机墨夶数据库学习资料2 mysql 数据库
在这个信息瞬息万变的时代，企业如何能够迅速响应市场变化，准确捕捉用户需求，成为竞争中的佼佼者？答案在于构建一个高效的实时用户行为影响预测系统。通过利用MySQL的强大功能和先进的数据分析技术，我们可以深入挖掘用户的每一次点击、浏览乃至购买背后的故事，不仅帮助公司更好地理解现有客户群体的行为模式，还能提前预测未来的趋势走向。今天，我们将带您走进这个神奇的世界，探索如何用代码编织出一张精准描绘用户心理
MySQL 进阶：运维与架构 - 延迟复制墨夶数据库学习资料1 mysql 运维架构
MySQL进阶：运维与架构-延迟复制在MySQL的主从复制架构中，延迟复制（DelayedReplication）是一种特殊的复制策略，它允许从服务器（Slave）在接收到主服务器（Master）的二进制日志事件后，延迟一段时间再执行这些事件。这种机制在多种场景下都非常有用，例如，当需要在从服务器上保留旧的数据版本以供审计或备份时，或者当需要在从服务器上进行一些非实时的数据分析时。本文将详细介绍M
Spark Livy 指南及livy部署访问实践 house.zhang 大数据-Spark 大数据
背景：ApacheSpark是一个比较流行的大数据框架、广泛运用于数据处理、数据分析、机器学习中，它提供了两种方式进行数据处理，一是交互式处理：比如用户使用spark-shell，编写交互式代码编译成spark作业提交到集群上去执行；二是批处理，通过spark-submit提交打包好的spark应用jar到集群中进行执行。这两种运行方式都需要安装spark客户端配置好yarn集群信息，并打通集群网
MATLAB语言的数据库交互 Quantum&Coder 包罗万象 golang 开发语言后端
MATLAB语言的数据库交互引言在当今数据驱动的时代，掌握数据库的使用和管理是非常重要的。MATLAB作为一种强大的数值计算和数据分析工具，广泛应用于科学研究、工程设计和数据分析等领域。为了更有效地处理和分析数据，MATLAB提供了与各类数据库交互的功能。本文将探讨MATLAB语言如何与数据库进行交互，包括连接数据库、执行SQL查询、读取和写入数据等基本操作，并结合实例进行详细说明，以帮助读者理解
Python-玩转数据-数据分析之分析思维人猿宇宙数据分析 python big data
一、说明当下时代的社会生产发展，人们都开始习惯于用数据来说明某个观点和反映事物的内在规律或享用自动化和人工智能带来的便利。但这些轻松快捷的方便背后，都是相关工作者的专业流程作为源源不断的支撑。二、大数据思维自从几年前大数据开始兴起，大数据思维已经逐渐被更动的人接受，随着其进一步发展，产生了巨大的生产效果。三、数据驱动的生产力作为一个数据工程师，仅仅知道跑数据是不够的，还需要通过数据发现生产环节出现
一文了解数字孪生是什么？数字孪生赋能哪些行业应用场景橙子吖21 数字孪生区块链人工智能数学建模交互
导语数字孪生是物理系统向信息空间映射的关键技术，通过传感器和数据分析实现实时模拟和控制。与元宇宙不同，数字孪生强调物理对象的复现，是元宇宙的技术基础。NewIT技术支撑数字孪生的广泛应用，助力工业、城市等多领域实现虚拟与现实融合，促进经济社会创新发展。01什么是数字孪生？数字孪生，英文名为DiditalTwin(数字双胞胎)，也成为数字映射、数字镜像。它的官方定义非常复杂，是这么说的：是充分利用物
【数据分析（二）】初探 Pandas dandellion_ Python语法数据分析 pandas 数据挖掘
目录引言1.基本数据结构1.1.Series的初始化和简单操作1.2.DataFrame的初始化和简单操作1.2.1.初始化与持久化1.2.2.读取查看1.2.3.行操作1.2.4.列操作1.2.5.选中筛查2.数据预处理2.0.生成样例表2.1.缺失值处理2.2.类型转换和排序2.3.统计分析3.数据透视3.0.生成样例表3.1.生成透视表4.数据重塑4.1.层次化索引4.1.1.双层索引的Se
数字孪生：物联+数据打造洞察世界新视角 CServer_01 数字孪生模拟仿真工业软件
引言：数字孪生是物理系统向信息空间映射的关键技术，通过传感器、数据分析、物联网，实现实时模拟和控制。新一代信息技术支撑数字孪生的广泛应用，使其在工业、城市、交通、医疗、水利等多领域实现虚拟与现实融合，促进经济社会创新发展。如果，您可以打造任何物品、场景、城市的另一种表达形式。就如同打开上帝视角一样，可以随时随地及时监控物它的性能，预测物品的状况，并提高其效率。这种实时、持续的信息更新、交换，使得您
Python人工智能在气象中的应用，包括：天气预测、气候模拟、降雨量和降水预测、气象数据分析、气象预警系统 xiao5kou4chang6kai4 气象气候预报天气预测气候模拟.降雨量和降水预测气象数据分析气象预警系统 python
Python人工智能在气象中有多种应用，包括：天气预测、气候模拟、降雨量和降水预测、气象数据分析、气象预警系统Python是功能强大、免费、开源，实现面向对象的编程语言，在数据处理、科学计算、数学建模、数据挖掘和数据可视化方面具备优异的性能，这些优势使得Python在气象、海洋、地理、气候、水文和生态等地学领域的科研和工程项目中得到广泛应用。可以预见未来Python将成为的主流编程语言之一。人工智
ChatGPT4.0最新功能和使用技巧，助力日常生活、学习与工作！ WangYan2022 教程人工智能 chatgpt 数据分析 ai绘画 AI写作
熟练掌握ChatGPT4.0在数据分析、自动生成代码等方面的强大功能，系统学习人工智能（包括传统机器学习、深度学习等）的基础理论知识，以及具体的代码实现方法，同时掌握ChatGPT4.0在科研工作中的各种使用方法与技巧，以及人工智能领域经典机器学习算法（BP神经网络、支持向量机、决策树、随机森林、变量降维与特征选择、群优化算法等）和热门深度学习方法（卷积神经网络、迁移学习、RNN与LSTM神经网络
体育比分网站搭建的常规流程参考教程翱翔的猪脑花信息可视化
一、项目策划与需求分析在启动体育比分直播网站搭建项目前，首要任务是对市场进行深入的研究与分析，考察现有竞品的优势Atlaslive与CAF与不足，找准目标用户群体的需求痛点。例如，用户可能关注实时比分更新的速度与精确度，全面的赛事覆盖范围，深度的数据分析，以及便利的社交互动功能等。基于此，明确网站的定位和特色，设计出包括实时比分直播、赛事前瞻与回顾、详尽数据分析、体育新闻报道、互动社区等在内的核心
构建高效GPU算力平台：挑战、策略与未来展望 Mr' 郑 gpu算力
引言随着深度学习、高性能计算和大数据分析等领域的快速发展，GPU（图形处理器）因其强大的并行计算能力和浮点运算速度而成为首选的计算平台。然而，随着模型规模的增长和技术的进步，构建高效稳定的GPU算力平台面临着新的挑战。本文旨在探讨这些挑战、应对策略以及对未来发展的展望。当前挑战算力分配与资源优化在多用户共享GPU集群的环境下，合理分配计算资源并确保每个任务能够高效运行是一项挑战。这不仅涉及到硬件资
数据分析及应用：经营分析中的综合指标解析与应用莫叫石榴姐收获不止一点大数据数据分析机器学习
目录1.市场份额（MarketShare）2.客户获取成本（CustomerAcquisitionCost,CAC）3.客户生命周期价值（CustomerLifetimeValue,CLV）4.客户留存率（CustomerRetentionRate,CRR）5.净推荐值（NetPromoterScore,NPS）6.转化率（ConversionRate）7.平均订单价值（AverageOrderV
全面解读 Databricks：从架构、引擎到优化策略克里斯蒂亚诺罗纳尔多阿维罗架构 spark 大数据
导语：Databricks是一家由ApacheSpark创始团队成员创立的公司，同时也是一个统一分析平台，帮助企业构建数据湖与数据仓库一体化（Lakehouse）的架构。在Databricks平台上，数据工程、数据科学与数据分析团队能够协作使用Spark、DeltaLake、MLflow等工具高效处理数据与构建机器学习应用。本文将深入介绍Databricks的平台概念、架构特点、优化机制、功能特性
无效数据，你会怎么处理？网络安全我来了 IT技术无效数据
如何处理无效数据？无效数据就像海洋中的漂流物，易被忽视，却可能对你的数据分析产生深远的影响。在这个瞬息万变的数字世界中，数据已经成为了决策的核心。但你是否曾想过，无效数据会如何悄然破坏你的洞察力？在这篇文章中，我们将深入探讨如何识别和处理无效数据，确保你的分析能够真正反映现实的情况。无效数据的定义与重要性什么是无效数据？无效数据是指在数据集中不符合预期的数据，它可能是错误的、不完整的、重复的，甚至
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。

《ElasticStack从入门到实践》学习笔记5

你可能感兴趣的:(大数据相关,ElasticStack,数据分析,搜索引擎)