数据小二

ElasticSearch搜索底层原理及API

一、Elasticsearch概述

ElasticSearch是一个分布式的可扩展的实时搜索和分析引擎，是一个建立在全文搜索引擎apache lucene基础上的搜索引擎。

1.特点

1.分布式的实时文件存储，并将每一个字段都编入索引，使其都可以被搜索。
2.实时分析的分布式搜索引擎
3.可以扩展到上百台服务器，可以处理PB级别的结构化数据和分结构化数据。

优点
1.分词搜索、全文搜索，不会再对数据库中的数据进行一条一条地扫描。而是通过直接搜索节点进行搜所数据。
2.自己维护冗余数据，不会由于某台节点宕机而丢失数据。
3.强大的搜索功能，聚合分析的功能。
4.结合kibana进行建立图表，更好地展示科学化数据，便于数据分析

2.结构

Cluster集群
es可以作为一个独立的但搜索服务器，不过为了处理大数据集，实现高性能、高可用性,es是可以运行在集群服务器上的。
Shard分片
当处理大量的数据文档的时候，由于磁盘的处理能力和内存限制以及无法快速响应用户的数据请求，这种情况写一台节点服务器是远远不够的，这样准备多态服务器，并把数据分成多个较小的数据分片，并把这些数据分切放置在不同的服务器上，当用户查询数据的时候，当查询的索引在不同的服务器上的分片上的时候，es会把查询语句，发送到每个切片上，并将查询到的结果聚集到一起，这个结果对于用户来说是透明的。

注意：一台服务器默认是5个分片，5个分片会进行投票将主片进行选举出来，来决定哪个分片是Master。

repliaction副本：
为了提高数据的查询吞吐量和数据的高可用，可以使用副本的分片策略，副本是一个数据分片的精准复制，每个分配都有0到多个副本，es集群中有很多相同的分片。其中之一有主分片从分片之分，主分片往往和次分片不在同一个节点服务器之上，
当主分片处于丢失状态或者不可用状态时，用户可以将从分片的的状态提升为主分片。

3.Elasticsearch实现Master的选举

1.elasticsearch的选主是通过ZenDicovery模块负责的，主要包含ping(节点之间是通过rpc来发现彼此)和unicast(单播模块主要包含一个主机列表需要以那些节点ping通)。
2.对所有可以成为master（node.master:true）的节点的masterid进行字典序排序，每次将每个节点所知道的其他节点进行排序，然后选出最0个节点，暂且当它是主节点。
3.如果某个节点的投票数量达到一定的值(可以成为master节点数n/2+1)并且该节点自己也选举自己，那这个节点就是master,否则车后鞥新选举一致到满足上述条件。

二、ES的核心概念

1.Elasticsearch核心概念：

1.集群cluster：
包含一个或多个具有相同cluster.name的节点,
1),集群内各个节点之间协同合作，共享数据，共同分担工作负荷。
2)由于节点是从属集群的，集群会自我重组来均匀地分发数据。
3)Cluster name是很重要的，因为每个节点都是数据集群的一部分，当该节点的cluster name被设置为相同的名称时，该节点会自动加入集群。
4)集群通过选举产生一个master主节点，他将负责管理集群范畴的变更，包括创建索引、删除所有、向集群汇总添加节点，选出节点。 master节点无需参与文档层面的变更和搜索，这就意味着仅有一个节点不随流量的增长而成为瓶颈，任何一个节点都可以成为master节点。
5)作为用户，我们可以访问包括 master 节点在内的集群中的任一节点。每个节点都知道各个文档的位置，并能够将我们的请求直接转发到拥有我们想要的数据的节点。无论我们访问的是哪个节点，它都会控制从拥有数据的节点收集响应的过程，并返回给客户端最终的结果。这一切都是由 Elasticsearch 透明管理的。
2.节点Node
一个节点是一个逻辑上独立的服务，可以储存数据，并参与集群的索引和搜索功能，一个节点也有唯一的名字，集群通过节点名称来管理和通信
3.索引index:
索引与数据库相当，索引只是一个逻辑命名空间，它指向一个或多个分片shards），内部通过apache lucene实现索引中数据的读写
4.文档类型type:
es中的type相当于数据库中的一个表table，它在es中必须要设置它的类型。
5.document文档:
相当于数据库中的一个row。
6.Mapping：
相当于数据库中的schema，用来约束字段的类型，不过 Elasticsearch 的 mapping 可以自动根据数据创建
分片(shard) ：
是工作单元(worker unit) 底层的一员，用来分配集群中的数据，它只负责保存索引中所有数据的一小片。
分片是一个独立的Lucene实例，并且它自身也是一个完整的搜索引擎。
文档存储并且被索引在分片中，但是我们的程序并不会直接与它们通信。取而代之，它们直接与索引进行通信的，把分片想象成一个数据的容器。数据被存储在分片中，然后分片又被分配在集群的节点上。
当你的集群扩展或者缩小时，elasticsearch 会自动的在节点之间迁移分配分片，以便集群保持均衡
分片分为主分片(primary shard) 以及从分片(replica shard) 两种。
在你的索引中，每一个文档都属于一个主分片，从分片只是主分片的一个副本，它用于提供数据的冗余副本，
在硬件故障时提供数据保护，同时服务于搜索和检索这种只读请求索引中的主分片的数量在索引创建后就固定下来了，
但是从分片的数量可以随时改变。一个索引默认设置了5个主分片，每个主分片有一个从分片对应ES模块结构
补充：
1.若es集群中有两个节点，并使用了默认的分片配置，es自动把这5个主分片分配到2个节点上，而他们分别对应的副本在完全不同的节点上。3.索引number_of_shards参数只对向前索引有效而不是对整个集群生效，对每个索引来讲,该参数定义了当前索引的主分片数(而不是集群中的所有的主分片数)
性能扩容：就像上面说的primary
就像上面说的primary shard?在创建的时候就已经固定了，不可以再修改。
也就是说如果我在创建的时候设置了primary?shard是3（6个shard，3 primary，3 replica），最多扩容到6台机器，每个shard可以占用单台服务器的所有资源，性能最好。那如果我们的超出了上面所说的扩容极限了怎么办呢？primary shard不是不能修改么？

是的，primary?shard?在创建后是不能修改的，但是replica shard可以添加啊，
我们可以创建9个shard（3primary，6 replica），将服务器扩容到9台机器，吞吐量会大大增加，是3台服务器的三倍，当然为了提高容错率也可以在此基础上在每台服务器上部署多个shard（primary和replica不能在同一台服务器上）

三、理解倒排索引

1.理解倒排索引

ES使用倒排索引的结构进行全文快速搜索，一个倒排索引由文档中所有不重复的列表构成，对于每一个单词，有一个包含他的文档列表。本小节主要以京东互联网医院医院信息为例介绍倒排索引的存储方式及数据存储标准化规则。
如下表所示，假设文档集合中包含5个文档，左边对应文档编号，右边文档内容，我们的任务就是对这个文档集合建立倒排索引。

文档编号					文档内容
1	{“hospitalName”:”北京大学第三附属医院”}
2	{“hospitalName”:”北京协和医院”}
3	{“hospitalName”:”解放军总医院第一附属医院”}
4	{“hospitalName”:”Peking University Third Hospital”}
5	{“hospitalName”:”Peking Union Medical College Hospital”}

（1）首先利用中、英文分词器从所有文档中提取不重复的单词，每一个单词对应有一个ID和含有这个单词的文档ID，这样可以很清晰的看出单词及对应的文档，如下表所示。

单词ID  	单词 	 	文档id
1				医院			1、2、3
2				北京			1、2
3				北京大学	1
4				第三			1
5				附属			1、3
6				协和			2
7				解放军		3
8				第一			3
9				总			3

（2）索引系统还可以记录除此之外的很多信息，下图还记录了单词频率信息（TF），即单词在每个文档中出现的次数。这个信息是用户为词条信息在搜索时，计算查询和文档相似程度（相关度分数）是一个很重要的计算因子。

单词ID	单词	文档Id:出现次数
1	医院	(1:1)、(2:1)、(3:2)
2	北京	(1:1)、(2:1)
3	北京大学	(1:1)
4	第三	(1:1)
5	附属	(1:1)、(3:1)
6	协和	(2:1)
7	解放军	(3:1)
8	第一	(3:1)
9	总	(3:1)

（3）还可以记录单词在文档中出现的位置
例如：(1,<8>,1)代表“医院”这个单词在ID为1、位置为8的文档中的出现了1次。

单词ID	单词	文档id,<位置>,出现次数
1	医院	(1,<8>,1)、(2<5>1)、(3<5,11>2)
…	…	…

显然，利用倒排索引，我们可以很快定位到文档，从而提高用户对词条的检索速度。

2.标准化规则（normalization）

为解决词条检索时词条命中率问题，ES在建立倒排索引时运用标准化规则即针对存储的索引词条进行一些相关预处理再作为索引进行存储。
为了便于理解，此部分利用英文文档解释倒排索引的标准化规则。
例如：通常情况下，在搜索“Third”、“Hospital”这两个单词时候，文档4两个单词都出现了，计数为2；文档5只有“Hospital”这个单词出现了，计数为1，所以文档4命中率高，排名靠前。

Term	Doc_4	Doc_5
Third	1	0
Hospital	1	1
Peking	1	1
Total	3	2

但是这样搜索就会存在下列问题：
（1）”Third”与”third” 用户认为是相同单词，但是首字母小写可能搜不到内容。
（2）“hospitals”与”hospital”有相同的词根，如果存储了”hospitals”，那么”hospital”可能检索不到。
（3）“piking”与”beijing”为相同意思的词，”beijing”可能检索不到。
基于以上问题，ES在建立倒排索引时，会对拆分的各个单词进行相应处理，以提升后面搜索的时候能够搜索到相关联的文档的概率，这就是标准化规则转换，主要包括：时态的转换、单复数的转换、同义词的转换、大小写的转换
最终文档在es中的可能存储结构就变为

Term	Doc_4	Doc5	Term	Doc_4	Doc_5	Attention
Peking 1	1	peking 1	1	同义词互转
beijing	1	1	beijing	1	1	
University 1	1	university 1	1	同义词互转
College 1	1	college 1	1	
Third	1	0	third	1	0	大小写转换
Hospital	1	1	hospital	1	1	大小写转换
Union	0	1	union ;	0	1	大小写转换
Medical 0	1	medical 0	1	大小写转换

有了标准化规则，搜索是不区分大小写，不区分同义词，不区分单复数，这样就可以大大提升用户对词条搜索的命中率。
3.相关度分数的计算
当利用ES进行查询时，查询结果都会返回一个对应词条的相关度分数（score）。相关度分数的计算基于TF/IDF算法（Term Frequence&Inverse Doucument Frequency），翻译大意为：词条在文档中出现的频率及在倒排索引中出现的频率。
1.Term Frequence：我们查询的词条在文本中出现多少次，出现次数越多，相关度越高。
TF(t in f)=
例如：前面所列医院信息文档中，“医院”，“北京大学”这两个单词，在第1文档中都出现了，但是第2和第3个文档只出现了“医院”，所以第1个相关度分数高。
2.Inverse Doucument Frequency：查询词条在所有文本中出现的次数，出现次数越高，相关度越低。

例如：“医院”在3个文档中出现4次，而“北京大学”出现1次，所以“医院”这个单词的相关度越低。
3.Field-length(字段长度规约)：字段的长度越长，相关度越低

例如：“北京大学第三附属医院”长度大于“北京协和医院”，那么在检索“医院”这个单词时，第二个文档中分数要大于第一个文档的分数。
总结：ES相关度分数计算结果直接影响搜索排名顺序，对用户检索命中率有极大的影响
4.自定义相关度分数计算
实际搜索过程中，会出现一种情况，当用户群体对某个文档的搜索次数越多，我们认为这个文档的关注度高，那么这个文档排名理应适当靠前，但是当前的计算方法无法完成这个需求。此时我们可以做到自定义一个function_score函数，自己将某个field的值，跟es内置算出来的分数进行运算，然后由自己指定的field来进行分数的增强

注：new_score代表新分数；_score代表旧分数；factor代表权重；number_of_votes代表搜索次数

ES分布式架构以及维护机制

ES集群通过自定义的一些机制来保证集群条件下的扩展性，效率及事务性等特性。本小节主要从ES分片和副本机制、扩容机制、数据路由机制、增删改查机制、写一致性原理和Quorum机制这几个方面来介绍ES分布式架构。为便于理解需先解释一些相关专业用语。
（1）分片机制（shard）：ES决定特定的数据存到特定的分片中去。
（2）分片副本：主分片的备份。
（3）集群发现机制：新加入的es进程会作为一个节点（node）会自动发现集群并加入进去。
（4）分片负载均衡：例如现在有10个shard，集群中3个node，ES会均衡分配shard，保证node负载均衡。
（5）数据路由：某条数据最终根据什么路径进行存储。
（6）ES透明隐藏特性：ES针对集群的操作对用户进行隐藏，用户面对的只是数据而不是相关的机器

1.分片和副本机制

ES利用分片机制将用户数据分节点存储，保证存储效率以及数据安全性。重要性不言而喻。在介绍ES分片机制之前，首先需要说明ES主节点（master）主要职责。ES集群主节点主要进行与集群操作相关内容，比如删除或者创建索引，跟踪哪些节点是集群的一部分，决定分片（shard）的分配情况，因为稳定的节点对集群健康非常重要。
ES分片机制主要基于以下规则进行。
（1）ES根据将一个索引下的数据根据数据大小以及分片个数分布式存储，所有主分片共同组成一个索引。
假设一个索引大小为3T，每个分片存储为1T，每个分片有一个副本则单节点下分片存储机制如图所示，其中每个文档只能存在于一个分片下，3个分片共同组成一个索引。
（2）副本和主分片上的数据是同步的，承担集群数据的容错功能。
（3）主分片的个数一旦确认不可改变（原因请阅数据路由小节），但是副本的数量是可以随意改变的。
（4）某个分片与他的副本不在同一个节点上，但是与其他副本可以在一个节点上。

总结：ES分片以及副本机制在保证数据存储效率以及数据安全性方面提供了有力的支持，也是ES能够快速检索数据的架构基础。

2.扩容机制

在介绍ES扩容机制之前，需要先需要介绍ES的【集群发现机制】：新加入的es进程作为一个节点（node）会自动发现集群并加入进去。集群发现机制为ES扩容提供了后续操作的先决条件。
（1）水平扩容：增加服务器个数。
自平衡机制（rebalance）： ES在增加减少节点时对shard进行自动均衡，如下图当ES集群server2有两个分片，当集群中再加入一个节点server4，server2会自动将一个分片迁移到server4中。

水平扩容极限：当每个节点上只存在一个shard，则不可再进行扩容。
容错性能：当某台服务器发送宕机，ES集群能够正常数据的存取。
例：如下图所示，若集群有3个节点，6个shard，则按照ES的shard 分配机制3个节点分别存【主分片1，主分片2】，【主分片3，副本1】，【副本3，副本1】，若其中1个节点宕机，其他两台能够照常提供服务。

集群中接受服务器宕机台数越多，说明容错性越好。事例中，只能接受1台服务器宕机。可以看出，增加副本个数可以提高集群容错性能。
（2）垂直扩容：在服务器台数不变情况下，单个服务器容量扩大。
总结：扩容机制首先可提高集群吞吐量，其次也可以提高机器的容错性能。

3.数据路由机制

一个索引由多个分片构成，当添加（删除、修改）一个文档时，ES就需要决定这个文档存储在哪个分片上，这个过程就成为数据路由（routing）。
路由算法：shard=hash(routing)%number_of_primary_shards
解释：对文档路由值取hash后对ES集群中主分片数取余数。
例：一个索引，3个主分片
（1）当每次增删改查时，都有一个routing，默认是文档ID值。
（2）对这个routing进行哈希函数计算。
（3）计算出的值再跟主分片个数取余数。文档就在对应的shard上。
总结：由路由算法快速定位数据位置，并兼有负载均衡的作用。同时可理解若主分片个数发生改变，我们就不能正确计算出的对应分片位置，造成查询故障，这就是分片数不可变的原因。

4.数据增删改查机制

ES针对数据进行不同操作所用的策略略有不同，本小节分为数据操作（增删改）与数据查询两部分进行详述。
（1）增删改：
当用户发送请求进行增删改时，并不是首先发送到master节点，而是任何节点都有可能接收到请求（节点对等原则），如果数据在请求的节点上，那么直接返回，如果数据不在节点上，那么请求转发到相应节点，再返回数据。接受用户请求的节点被称为协调节点，负责根据路由算法将数据转发至相应节点，最终处理请求的节点负责将信息的正删改，并同步到对应的副本上。

（3）查询操作
与正删改操作不同，查询不需要进行数据操作，所以在转发的时候运用轮询算法，将请求依次发送到数据对应的对主、副分片，从而减小查询对单个节点的压力。

总结：ES增删改查策略给我们查询和修改数据提供了一条最简化的路径，同时保证了ES集群的负载均衡，保证了搜索的稳定和效率。

5.写一致性原理和quorum机制

本小节主要介绍用户操作ES集群进行数据的增删改操作时，集群会针对不同的操作类型（ES条件），做出不同的响应（执行操作或者不执行操作）。主要分为通过指定参数和quorum算法两种机制进行指定。
（1）consistency参数指定
任何一个增删改操作都可以跟上一个参数consistency，可以给该参数指定值
例如：PUT /myindex/mytype/myid?consistency=one
one:只要有一个主分片是活跃的就可以执行。
all:所有主分片和副本都是活跃的才可以执行。
（3）quorum(ES默认机制)：大部分分片是活跃的才可以执行。
算法：int((primary+number_of_replica)/2)+1
例如:集群中有3个主分片，每个分片有1个副本，那么计算公式为int((3+1)/2)+1=3及至少有3个分片是活跃的才能进行增删改操作。

ES的API

1.条件查询
term查询：主要是精确匹配单个或者多条词条

QueryBuilder builder = QueryBuilders.termQuery("hospitalName","协和");
QueryBuilder builder = QueryBuilders.termQuery("hospitalName","北京","协和")

2.match匹配查询
匹配短语查询要求是查询字符串中的terms必须出现在document中，要么terms一次按照输入顺序一次出现在结果中，在默认情况下，查询输入的terms必须在搜索字符串紧挨着出现，否则会插叙拿不到，不过我们可已制定slop参数，来控制输入的terms之间有多少个单词仍然能够搜索到。

QueryBuilder builder=QueryBuilders.matchQuery("hospitalName","协和")；
QueryBuilder builder=QueryBuilders.MultiMatchQuery("hospitalName","协和")

现将match匹配规则总结如下：
词条（含搜索顺序）是否匹配
“北京”，“协和” 匹配doc_1
“协和”，“北京” 匹配doc_1
“北京”，“协和”，“附属” 匹配doc_1
“北京”，“附属”，“协和” 无匹配

3.range查询
主要是对字段进行过滤或者筛选，可以是数字或者字符串类型

QueryBuilder builder = QuilderBuilers.rangQuery("paseDate").from("2019-5-1").to("2019-5-20").format("yyyy-MM-dd")；

4.prefix匹配查询
主要是匹配字段的前缀

QueryBuilder builder = QueryBuilders.prefixQuery("hospitalName","北京协和");

5.wildcard模糊查询
?号匹配单个单词
*号匹配多个单词

QueryBuilder builder = QueryBuilders.wildcardQuery("hospitalName","北京协和")

6.fuzzy查询，分词模糊查询
主要是通过添加fuzziness属性来进行模糊查询，例：能够匹配hospitalName为Medical前或后加一个字母的term的文档Fuzziness的含义是检索的term 前后增加或减少n个单词的匹配查询。

 QueryBuilder builder=QueryBuilders.fuzzyQuery("hospitalName","Medica").fuzziness(Fuzziness.ONE);

7.聚合查询
聚合查询主要用于针对文档某一指标进行相关统计，主要涉及客户端AggregationBuilders类进行处理。本小节结合互联网医院医生表展示聚合查询的用法，需要注意的是聚合查询需先指定查询结果对应的字段。
文档ID 文档内容
1 {“name”:”赵大保”,”age”:28}
2 {“name”:”孟小飞”,”age”:26}
3 {“name”:”苏小玲”,”age”:18}
（1）获取最大值。

AggregationBuilder agg= AggregationBuilders.max("aggMax").field("age");
结果：{”aggMax”:28}

（2）获取最小值：

AggregationBuilder agg = AggregationBuilders.min("aggMin").field("age");
结果：{”aggMin”:18}

（3）获取平均值：

 AggregationBuilder agg = AggregationBuilders.avg("aggAvg").field("age");
 结果：{”aggAvg”:24}

（4）求和：

 AggregationBuilder agg = AggregationBuilders.sum("aggSum").field("age");
 结果：{"aggSum":72}

你可能感兴趣的:(大数据,ElasticSearch,API操作,ES底层原理,ES搜索)

以太网（Ethenet）协议 qq_39173537 网络基础网络
1.定义：以太网协议用于实现链路层的数据传输和地址封装（MAC），由DIX联盟（Digital,Intel，Xerox）开发。2.封装/原理由EthenetII封装。三个字段：Destination/目的字段：标识目的通信方的MAC地址Source/源字段：标识发送端的MAC地址Type/类型值：标志上层协议目前应用最广泛的局域网就是以太网。以太网属于广播网络，采用总线型网络拓扑结构，可以有多个节
Win10下VMWare15安装Ubuntu18.04在NAT模式无法联网 David__guan Ubuntu18
必读如果你的Ubuntu18在NAT模式下无法联网，而且你没有修改过/etc/netplan文件夹下的50-cloud-init.yaml文件。可以往下看。前情提要我搜索引擎上搜索过Ubuntu18.04在NAT模式无法联网，大多数都是这么告诉我的：去windows服务里确认VMwareDHCPService，VMwareNATService，VMwareWorkstationServ
Redis基础笔记 JustGopher redis 笔记 java
一、基础知识连接方式CLI(CommandLineInterface)API(ApplicationProgrammingInterface)GUI(GraphicalUserInterface)启动redis-server连接到Redis（RedisCLIClient）redisredis-clitelnet127.0.0.16379退出quit/exit查看过期时间TTLkey设置过期时间ex
Operating System Concepts 9th Chapter 1 - Introduction YOUNGBC 操作系统
Introduction目录Introduction1.WhatOperatingSystemsDo2.Computer-SystemOrganization2.1StorageStructure2.2I/OStructure3.Computer-SystemArchitectur3.1Single-ProcessorSystems3.2MultiprocessorSystems3.3Cluste
Vue 3 工程化：从理论到实践（上篇）人民广场吃泡面 Vue生态 vue.js 前端 javascript
引言Vue3是Vue.js的最新版本，带来了许多新特性，如CompositionAPI、更好的TypeScript支持、性能优化等。随着Vue3的普及，如何高效地进行Vue3工程化开发成为了开发者关注的焦点。本文将深入探讨Vue3工程化的核心概念、常用工具以及实际开发中的应用。一、Vue3工程化的核心概念1.1CompositionAPIVue3引入了CompositionAPI，这是Vue3工程
linux修改mac和ip地址的方法 luoqice 服务器网络 linux
在Linux系统中，你可以通过以下步骤修改MAC地址和IP地址。修改MAC地址修改MAC地址通常需要管理员权限。以下是修改MAC地址的几种方法：方法一：使用ip命令关闭网络接口：sudoiplinksetdeveth0down其中eth0是你要修改MAC地址的网络接口名称。修改MAC地址：sudoiplinksetdeveth0address00:11:22:33:44:55这里00:11:22:
从Pandas DataFrame中删除一列李星星BruceL 问题集 pandas python
在Pandas中执行此操作的最佳方式是使用drop：df=df.drop('column_name',axis=1)其中1是轴编号（0表示行，1表示列）。或者，drop()方法接受index/columns关键字作为指定轴的替代方法。因此，我们现在可以只做：df=df.drop(columns=['column_nameA','column_nameB'])要删除列而不必重新分配df，可以执行以下
部署一个简单的python服务器机智的frank 服务器部署
返回字符串的网页#引入需要的模块fromwsgiref.simple_serverimportmake_server#定义web接口函数defapplication(env,response):"""定义一个web接口函数,可以接收浏览器客户端发送的url地址,调用执行函数通过url地址调用执行函数:paramenv:环境,表示浏览器发送的请求环境:paramresponse:响应,表示服务器给浏
linux配置虚拟内存韩明君 linux 运维服务器
说明：当前文档均需要用root执行1、配置虚拟内存ddif=/dev/zeroof=/root/swapfile8gbs=1Mcount=8192chmod0600/root/swapfile8gmkswap/root/swapfile8gswapon/root/swapfile8g#查看free-h2、设置虚拟内存使用比例sysctlvm.swappiness=1003、开机自动加载#开启启动自
Mac Java 使用 tesseract 进行 ORC 识别 nukix macos java macos java 开发语言 ORC
在Java开发中使用图片转文字时，难免会遇到问题，比如我使用Mac(M1芯片)系统进行开发，就出现报错。博主博客https://blog.uso6.comhttps://blog.csdn.net/dxk539687357一、直接使用1.使用brew进行安装brewinstalltesseract如果是其他系统的，建议看官方文档进行安装。2.查看版本nukix@nukixPC~%tesseract
Android 接收 App 安装卸载更新 nukix android java android
本篇文章主要介绍如何监听APP的安装、卸载和更新的广播。博主博客https://blog.uso6.comhttps://blog.csdn.net/dxk539687357Android8.0以前静态注册在AndroidManifest.xml中加入静态注册即可。Android8.0及以后需要动态注册InstallReceiverinstallReceiver=newInstallReceive
《Operating System Concepts》阅读笔记：p41-p49 codists 读书笔记操作系统 OS python
《OperatingSystemConcepts》学习第8天，p41-p49总结，总计9页。一、技术总结1.peer-to-peer(P2P)(1)定义P2PisAmodeofdistributedcomputinginwhichallnodesactasbothclientsofothernodesandserverstoothernodes.(2)示例Napster、Gnutella、Skyp
《Operating System Concepts》阅读笔记：p2-p8 codists 读书笔记 system python
《OperatingSystemConcepts》学习第2天，p2-p8总结，总计7页。一、技术总结1.operatingsystemAnoperatingsystemissoftwarethatmanagesacomputer’shardware。2.systembusdatabus,addressbus,controlbus统称为systembus。二、英语总结(生词：5)1.myriad(1
《Operating System Concepts》阅读笔记：p17-p25 codists 读书笔记 OS 操作系统
《OperatingSystemConcepts》学习第5天，p17-p25总结，总计9页。一、技术总结1.计算机系统的组成结构(1)CPU—Thehardwarethatexecutesinstructions.(2)Processor—AphysicalchipthatcontainsoneormoreCPUs.(3)Core—ThebasiccomputationunitoftheCPU.(
python考试必考知识点整理 chengxuyuan1213_ python javascript 数据库
Python考试通常会涵盖该语言的基础语法、数据结构、面向对象编程、文件操作、异常处理、模块与包的使用，以及一些高级特性。以下是对Python考试必考知识点的整理：一、基础语法变量与数据类型变量的定义和命名规则。常见的数据类型：整数、浮点数、字符串、布尔值、列表、元组、字典、集合等。数据类型的转换方法。运算符与表达式算术运算符：+、-、*、/、%、**等。比较运算符：==、!=、>、=、<=等。逻
SQL中窗口函数是什么 chengxuyuan1213_ sql 数据库大数据
SQL中的窗口函数（WindowFunctions）是一种强大的功能，它允许在查询结果中的特定窗口（也称为分区）上执行计算，并在每一行上生成结果，而不影响原始查询结果的行数。这使得在不使用子查询或自连接的情况下，可以在行级别执行聚合、排序、排名等操作。一、窗口函数的基本概念窗口函数通常与OVER子句一起使用，用于指定窗口的范围。OVER子句定义了如何分区数据，并指定了在每个窗口内计算的顺序。窗口函
vue取消全选功能按钮注意事项北极糊的狐资料技巧 vue.js elementui javascript
这里这个功能是通过各种条件查出数据,但只取一条数据进行后续业务,虽然每一条数据前面都有多选框,但只需要选一个,所以在业务上分析可以把这个全选按钮取消掉这里不是简单的把多选组件的@selection-change="handleSelectionChange"和handleSelectionChange方法去掉,因为这样单选就取不到值了正确做法如下:
2025零基础入门学网络安全（详细），看这篇就够了 QXXXD 算法安全 web安全学习 wireshark 测试工具服务器
写在前面2025年的春季招聘即将开启，对于计算机专业的毕业生目录1.什么是网络安全1.1网络安全的定义：1.2信息系统（InformationSystem）1.3信息系统安全三要素（CIA）1.4网络空间安全1.5国家网络空间安全战略1.6网络空间关注点1.7网络空间安全管理流程2.网络安全术语3.网络安全学习路线3.1安全基础：3.2渗透技术：3.2.1配置渗透环境：3.2.2渗透实战操作：3.
服务器与环境配置——Ubuntu22.04杂记 Osiria 服务器 python ubuntu
服务器与环境配置——Ubuntu22.04杂记系统配置apt/apt-getProxy配置修改主机名用户权限文件复制一些容易出错的python库安装Pytorch3D(0.7.5)psbody-mesh4.0([link](https://github.com/MPI-IS/mesh))其它系统配置apt/apt-getProxy配置sudonano/etc/apt/apt.conf.d/prox
AI人工智能代理工作流AI Agent WorkFlow：自然语言处理在工作流中的应用 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能代理工作流AIAgentWorkFlow：自然语言处理在工作流中的应用关键词：AI代理工作流管理自然语言处理业务流程自动化交互式AI助手1.背景介绍1.1问题的由来随着数字化转型的深入，企业对提高运营效率的需求日益迫切。传统的业务流程处理方式，如手工操作、邮件交流等，既耗费时间又容易出错。为了解决这些问题，企业开始探索利用自动化技术来提高业务流程的效率和准确性。自然语言处理（NLP）技
Android Java创建ViewModel新api debug_cat Android应用层开发 android java leetcode
背景项目使用Java，创建ViewModel发现之前旧api不管用了。不要问为什么项目还要用Java，别问。老项目不让升级。ViewModel创建新方式新方式是因为依赖新版本库，其实用旧版本库就回到旧方式了。依赖：deflifecycle_version="2.5.0"//ViewModelimplementation"androidx.lifecycle:lifecycle-viewmodel:
Linux、Docker、Redis常见面试题百百味 linux docker redis
1.Linux什么是Linux？Linux是一种基于UNIX的操作系统，最初是由LinusTorvalds引入的。它基于Linux内核，可以运行在由Intel，MIPS，HP，IBM，SPARC和Motorola制造的不同硬件平台上。Linux中另一个受欢迎的元素是它的吉祥物，一个名叫Tux的企鹅形象。UNIX和LINUX有什么区别？Unix最初是作为BellLaboratories的专有操作系统
【架构】常见的架构模式手搓人生框架与设计模式架构
文章目录1.单体架构（MonolithicArchitecture）概述：优势：劣势：2.微服务架构（MicroservicesArchitecture）概述：优势：劣势：3.分层架构（LayeredArchitecture）概述：优势：劣势：4.事件驱动架构（Event-DrivenArchitecture）概述：优势：劣势：5.服务网格架构（ServiceMesh）概述：优势：劣势：6.客户端
python部署教程 chengxuyuan1213_ python 开发语言
Python程序的部署涉及多个步骤，包括准备环境、打包程序、配置服务器等。以下是一个详细的Python部署教程：一、准备环境选择服务器：根据项目需求选择合适的服务器，可以是物理服务器或云服务器（如阿里云、腾讯云等）。确保服务器具有足够的硬件配置和性能，以应对工作负载和请求量。安装操作系统：服务器通常使用Linux操作系统，如Ubuntu、CentOS等。配置好服务器的网络、防火墙等基础设施。安装P
深入浅出：Go 语言的学习之路软件架构师笔记 golang golang 学习开发语言
文章目录1.Go语言简介2.Go语言的安装与环境配置2.1安装Go2.2配置开发环境3.Go语言基础语法3.1变量与数据类型示例代码：定义变量3.2控制结构示例代码：条件语句示例代码：循环语句3.3函数与方法示例代码：定义函数示例代码：定义方法4.并发编程4.1Goroutines示例代码：使用Goroutines4.2Channels示例代码：使用Channels5.面向对象编程5.1结构体与方
anaconda，Python，cuda,pytorch 下载安装三希 python pytorch 开发语言
以下是Anaconda、Python、CUDA和PyTorch的下载安装步骤：一、Anaconda下载访问Anaconda官方网站：DownloadAnacondaDistribution|Anaconda。根据您的操作系统（Windows、macOS或Linux）选择合适的版本进行下载。例如，对于Windows系统，选择对应的.exe安装文件。安装Windows：双击下载的.exe文件。按照安装
mongodb分片集群搭建不会写诗的程序猿 mongodb 数据库大数据
环境准备操作系统：centos6.5mongodb版本：v3.6.23三台阿里云服务器：10.168.2.138、10.168.4.204、10.168.4.205搭建目标两个分片复制集（ShardedReplicaSet）分片集群1:（10.168.2.138:27011、10.168.4.204:27011、10.168.4.205:27011）分片集群2:(10.168.2.138:2701
总结了Vue3的七种组件通信方式，别再说不会组件通信了全栈战神 vue.js 前端 javascript
写在前面本篇文章是全部采用的这种组合式API写法，相对于选项式来说，组合式API这种写法更加自由，具体可以参考Vue文档对两种方式的描述。本篇文章将介绍如下七种组件通信方式：propsemitv-modelrefsprovide/injecteventBusvuex/pinia(状态管理工具)开始搞事情~举一个栗子俗话说的好，学习不写demo，那就是耍流氓~本篇文章将围绕下面这个demo，列表_和
JSP（学习自用）文城521 JAVA实训 java 学习 html 前端
一、本质JSP解析后就是Servlet类的java代码。二、jsp内嵌java代码1、声明脚本用于声明属性和方法。2、运行脚本相当于在service方法中写代码3、打印脚本用于打印上面两个脚本内声明的变量结果啥的。//页面会显示张三三、jsp内置对象1、request代表客户端的请求。2、response代表服务端的响应。3、session代表客户端当前会话。4、application代表整个We
ZRANGE 那些年的代码 redis
ZRANGEkeystartstop[WITHSCORES]返回有序集key中，指定区间内的成员。其中成员的位置按score值递增(从小到大)来排序。具有相同score值的成员按字典序(lexicographicalorder)来排列。如果你需要成员按score值递减(从大到小)来排列，请使用ZREVRANGE命令。下标参数start和stop都以0为底，也就是说，以0表示有序集第一个成员，以1表
ztree异步加载 3213213333332132 JavaScript Ajax json Web ztree
相信新手用ztree的时候,对异步加载会有些困惑，我开始的时候也是看了API花了些时间才搞定了异步加载，在这里分享给大家。我后台代码生成的是json格式的数据，数据大家按各自的需求生成，这里只给出前端的代码。设置setting，这里只关注async属性的配置 var setting = { //异步加载配置
thirft rpc 具体调用流程 BlueSkator 中间件 rpc thrift
Thrift调用过程中，Thrift客户端和服务器之间主要用到传输层类、协议层类和处理类三个主要的核心类，这三个类的相互协作共同完成rpc的整个调用过程。在调用过程中将按照以下顺序进行协同工作：（1）将客户端程序调用的函数名和参数传递给协议层（TProtocol），协议
异或运算推导, 交换数据 dcj3sjt126com PHP 异或 ^
/* * 5 0101 * 9 1010 * * 5 ^ 5 * 0101 * 0101 * ----- * 0000 * 得出第一个规律: 相同的数进行异或, 结果是0 * * 9 ^ 5 ^ 6 * 1010 * 0101 * ---- * 1111 * * 1111 * 0110 * ---- * 1001
事件源对象周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
MySql配置及相关命令 g21121 mysql
MySQL安装完毕后我们需要对它进行一些设置及性能优化，主要包括字符集设置，启动设置，连接优化，表优化，分区优化等等。一修改MySQL密码及用户
[简单]poi删除excel 2007超链接 53873039oycg Excel
采用解析sheet.xml方式删除超链接，缺点是要打开文件2次,代码如下: public void removeExcel2007AllHyperLink(String filePath) throws Exception { OPCPackage ocPkg = OPCPac
Struts2添加 open flash chart 云端月影
准备以下开源项目： 1. Struts 2.1.6 2. Open Flash Chart 2 Version 2 Lug Wyrm Charmer (28th, July 2009) 3. jofc2，这东西不知道是没做好还是什么意思，好像和ofc2不怎么匹配，最好下源码，有什么问题直接改。 4. log4j 用eclipse新建动态网站，取名OFC2Demo，将Struts2 l
spring包详解 aijuans spring
下载的spring包中文件及各种包众多，在项目中往往只有部分是我们必须的，如果不清楚什么时候需要什么包的话，看看下面就知道了。 aspectj目录下是在Spring框架下使用aspectj的源代码和测试程序文件。Aspectj是java最早的提供AOP的应用框架。 dist 目录下是Spring 的发布包，关于发布包下面会详细进行说明。 docs&nb
网站推广之seo概念 antonyup_2006 算法 Web 应用服务器搜索引擎 Google
持续开发一年多的b2c网站终于在08年10月23日上线了。作为开发人员的我在修改bug的同时，准备了解下网站的推广分析策略。所谓网站推广，目的在于让尽可能多的潜在用户了解并访问网站，通过网站获得有关产品和服务等信息，为最终形成购买决策提供支持。网站推广策略有很多，seo，email，adv
单例模式,sql注入,序列百合不是茶单例模式序列 sql注入预编译
序列在前面写过有关的博客,也有过总结,但是今天在做一个JDBC操作数据库的相关内容时需要使用序列创建一个自增长的字段居然不会了,所以将序列写在本篇的前面 1,序列是一个保存数据连续的增长的一种方式; 序列的创建; CREATE SEQUENCE seq_pro 2 INCREMENT BY 1 -- 每次加几个 3
Mockito单元测试实例 bijian1013 单元测试 mockito
Mockito单元测试实例： public class SettingServiceTest { private List<PersonDTO> personList = new ArrayList<PersonDTO>(); @InjectMocks private SettingPojoService settin
精通Oracle10编程SQL(9)使用游标 bijian1013 oracle 数据库 plsql
/* *使用游标 */ --显示游标 --在显式游标中使用FETCH...INTO语句 DECLARE CURSOR emp_cursor is select ename,sal from emp where deptno=1; v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; begin ope
【Java语言】动态代理 bit1129 java语言
JDK接口动态代理 JDK自带的动态代理通过动态的根据接口生成字节码(实现接口的一个具体类)的方式，为接口的实现类提供代理。被代理的对象和代理对象通过InvocationHandler建立关联 package com.tom; import com.tom.model.User; import com.tom.service.IUserService;
Java通信之URL通信基础白糖_ java jdk webservice 网络协议 ITeye
java对网络通信以及提供了比较全面的jdk支持，java.net包能让程序员直接在程序中实现网络通信。在技术日新月异的现在，我们能通过很多方式实现数据通信，比如webservice、url通信、socket通信等等，今天简单介绍下URL通信。学习准备：建议首先学习java的IO基础知识 URL是统一资源定位器的简写，URL可以访问Internet和www，可以通过url
博弈Java讲义 - Java线程同步 (1) boyitech java 多线程同步锁
在并发编程中经常会碰到多个执行线程共享资源的问题。例如多个线程同时读写文件，共用数据库连接，全局的计数器等。如果不处理好多线程之间的同步问题很容易引起状态不一致或者其他的错误。同步不仅可以阻止一个线程看到对象处于不一致的状态，它还可以保证进入同步方法或者块的每个线程，都看到由同一锁保护的之前所有的修改结果。处理同步的关键就是要正确的识别临界条件（cri
java-给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 bylijinnan java
public class DeleteExtraSpace { /** * 题目：给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 * 方法1.用已有的String类的trim和replaceAll方法 * 方法2.全部用正则表达式，这个我不熟 * 方法3.“重新发明轮子”，从头遍历一次 */ public static v
An error has occurred.See the log file错误解决！ Kai_Ge MyEclipse
今天早上打开MyEclipse时，自动关闭！弹出An error has occurred.See the log file错误提示！很郁闷昨天启动和关闭还好着！！！打开几次依然报此错误，确定不是眼花了！打开日志文件！找到当日错误文件内容： --------------------------------------------------------------------------
[矿业与工业]修建一个空间矿床开采站要多少钱? comsci
地球上的钛金属矿藏已经接近枯竭........... 我们在冥王星的一颗卫星上面发现一些具有开采价值的矿床..... 那么,现在要编制一个预算,提交给财政部门..
解析Google Map Routes dai_lm google api
为了获得从A点到B点的路劲，经常会使用Google提供的API，例如 [url] http://maps.googleapis.com/maps/api/directions/json?origin=40.7144,-74.0060&destination=47.6063,-122.3204&sensor=false [/url] 从返回的结果上，大致可以了解应该怎么走，但
SQL还有多少“理所应当”？ datamachine sql
转贴存档，原帖地址：http://blog.chinaunix.net/uid-29242841-id-3968998.html、http://blog.chinaunix.net/uid-29242841-id-3971046.html！ ------------------------------------华丽的分割线--------------------------------
Yii使用Ajax验证时，如何设置某些字段不需要验证 dcj3sjt126com Ajax yii
经常像你注册页面,你可能非常希望只需要Ajax去验证用户名和Email,而不需要使用Ajax再去验证密码,默认如果你使用Yii 内置的ajax验证Form,例如: $form=$this->beginWidget('CActiveForm', array( 'id'=>'usuario-form',&
使用git同步网站代码 dcj3sjt126com crontab git
转自:http://ued.ctrip.com/blog/?p=3646?tn=gongxinjun.com 管理一网站，最开始使用的虚拟空间，采用提供商支持的ftp上传网站文件，后换用vps，vps可以自己搭建ftp的，但是懒得搞，直接使用scp传输文件到服务器，现在需要更新文件到服务器，使用scp真的很烦。发现本人就职的公司，采用的git+rsync的方式来管理、同步代码，遂
sql基本操作蕃薯耀 sql sql基本操作 sql常用操作
sql基本操作 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:30:33 星期一 &
Spring4+Hibernate4+Atomikos3.3多数据源事务管理 hanqunfeng Hibernate4
Spring3+后不再对JTOM提供支持，所以可以改用Atomikos管理多数据源事务。Spring2.5+Hibernate3+JTOM参考：http://hanqunfeng.iteye.com/blog/1554251Atomikos官网网站：http://www.atomikos.com/ 一.pom.xml <dependency> <
jquery中两个值得注意的方法one()和trigger()方法 jackyrong trigger
在jquery中，有两个值得注意但容易忽视的方法，分别是one()方法和trigger()方法,这是从国内作者<<jquery权威指南》一书中看到不错的介绍 1） one方法 one方法的功能是让所选定的元素绑定一个仅触发一次的处理函数，格式为 one(type,${data},fn) &nb
拿工资不仅仅是让你写代码的 lampcy 工作面试咨询
这是我对团队每个新进员工说的第一件事情。这句话的意思是，我并不关心你是如何快速完成任务的，哪怕代码很差，只要它像救生艇通气门一样管用就行。这句话也是我最喜欢的座右铭之一。这个说法其实很合理：我们的工作是思考客户提出的问题，然后制定解决方案。思考第一，代码第二，公司请我们的最终目的不是写代码，而是想出解决方案。话粗理不粗。付你薪水不是让你来思考的，也不是让你来写代码的，你的目的是交付产品
架构师之对象操作----------对象的效率复制和判断是否全为空 nannan408 架构师
1.前言。如题。 2.代码。 (1)对象的复制，比spring的beanCopier在大并发下效率要高，利用net.sf.cglib.beans.BeanCopier Src src=new Src(); BeanCopier beanCopier = BeanCopier.create(Src.class, Des.class, false);
ajax 被缓存的解决方案 Rainbow702 JavaScript jquery Ajax cache 缓存
使用jquery的ajax来发送请求进行局部刷新画面，各位可能都做过。今天碰到一个奇怪的现象，就是，同一个ajax请求，在chrome中，不论发送多少次，都可以发送至服务器端，而不会被缓存。但是，换成在IE下的时候，发现，同一个ajax请求，会发生被缓存的情况，只有第一次才会被发送至服务器端，之后的不会再被发送。郁闷。解决方法如下： ① 直接使用 JQuery提供的 “cache”参数，
修改date.toLocaleString()的警告 tntxia String
我们在写程序的时候，经常要查看时间，所以我们经常会用到date.toLocaleString()，但是date.toLocaleString()是一个过时的API，代替的方法如下： package com.tntxia.htmlmaker.util; import java.text.SimpleDateFormat; import java.util.
项目完成后的小总结 xiaomiya js 总结项目
项目完成了，突然想做个总结但是有点无从下手了。做之前对于客户端给的接口很模式。然而定义好了格式要求就如此的愉快了。先说说项目主要实现的功能吧 1，按键精灵 2，获取行情数据 3，各种input输入条件判断 4，发送数据（有json格式和string格式） 5，获取预警条件列表和预警结果列表， 6，排序， 7，预警结果分页获取 8，导出文件（excel，text等） 9，修