后打开撒打发了

hadoop上安装hive2.3.2学习总结—hive安装+mysql以及碰到坑点

一、环境准备

hapdoop版本：基于hadoop2.8.1，本教程是基于hadoop2.8.1上安装的hive

hive版本：apache-hive-2.3.2-bin.tar.gz

二、安装配置hive+mysql（远程模式）

1、首先安装好mysql数据库

2、去hive官网下载hive安装包：apache-hive-2.3.2-bin.tar.gz

tar -zxvf apache-hive-2.3.2-bin.tar.gz
cd apache-hive-2.3.2-bin
[[email protected] 22:13 ~/software/apache-hive-2.3.2-bin]$ll
total 6840
-rw-r--r--    1 chenxun  staff    20798 Nov 10 00:26 LICENSE
-rw-r--r--    1 chenxun  staff      230 Nov 10 00:26 NOTICE
-rw-r--r--    1 chenxun  staff     1979 Nov 10 00:58 RELEASE_NOTES.txt
drwxr-xr-x   13 chenxun  staff      442 Jan 28 01:14 bin
drwxr-xr-x   21 chenxun  staff      714 Jan 25 22:08 binary-package-licenses
drwxr-xr-x   13 chenxun  staff      442 Jan 28 01:47 conf
drwxr-xr-x    4 chenxun  staff      136 Jan 25 22:08 examples
drwxr-xr-x    7 chenxun  staff      238 Jan 25 22:08 hcatalog
drwxr-xr-x    3 chenxun  staff      102 Jan 25 22:08 jdbc
drwxr-xr-x  256 chenxun  staff     8704 Jan 25 22:41 lib
drwxr-xr-x    9 chenxun  staff      306 Nov 22 15:31 mysql-connector-java-5.1.45
-rw-r--r--@   1 chenxun  staff  3467861 Nov 22 14:31 mysql-connector-java-5.1.45.tar.gz
drwxr-xr-x    4 chenxun  staff      136 Jan 25 22:08 scripts
drwxr-xr-x   16 chenxun  staff      544 Jan 28 02:03 tmp

与 Hadoop 类似，Hive 也有 3 种运行模式：

内嵌模式
将元数据保存在本地内嵌的 Derby 数据库中，这是使用 Hive 最简单的方式。但是这种方式缺点也比较明显，因为一个内嵌的 Derby 数据库每次只能访问一个数据文件，这也就意味着它不支持多会话连接。
本地模式
这种模式是将元数据保存在本地独立的数据库中（一般是 MySQL），这用就可以支持多会话和多用户连接了。
远程模式
此模式应用于 Hive 客户端较多的情况。把 MySQL 数据库独立出来，将元数据保存在远端独立的 MySQL 服务中，避免了在每个客户端都安装 MySQL 服务从而造成冗余浪费的情况。

hive的配置文件在conf目录下面：

cp hive-default.xml.template hive-site.xml

vim hive-site.xml文件：

1、把{system:java.io.tmpdir} 改成 /Users/chenxun/software/apache-hive-2.3.2-bin/tmp

/Users/chenxun/software/apache-hive-2.3.2-bin/tmp 这个路劲是自己建立一个路劲

2、把所有{system:user.name} 改成 {user.name}

3、配置mysql

找到下面的xml选项依次修改value

其中连接mysql的数据库的密码和用户都是hive

其中hivedb是创建的数据库名字，特别注意配置前后要一直

javax.jdo.option.ConnectionURL
 jdbc:mysql://172.16.110.140:3306/hivedb?createDatabaseIfNotExist=true&characterEncoding=UTF-8&useSSL=false

javax.jdo.option.ConnectionDriverName
com.mysql.jdbc.Driver

javax.jdo.option.ConnectionUserName
 hive

javax.jdo.option.ConnectionPassword
hive

在mysql端执行如下命令授权hive用户以及密码登陆访问权限;

create database hivedb;
grant all on hivedb.* to hive@'%'  identified by 'hive';
grant all on hivedb.* to hive@'localhost'  identified by 'hive';
flush privileges;

下载jdbc connector：(mysql-connector-java-5.1.45-bin.jar放到lib目录下) https://dev.mysql.com/downloads/connector/j/

wget https://cdn.mysql.com//Downloads/Connector-J/mysql-connector-java-5.1.45.tar.gz

tar -zxvf mysql-connector-java-5.1.45

mv mysql-connector-java-5.1.45-bin.jar  ../lib

执行初始化工作：在bin目录下执行下面的命令

schematool -initSchema -dbType mysql

然后在mysql端可以查看是否成功：

use hivedb

show tables

如果你按照本文下面的方法把t1和t2表创建成功你可以查看其中的元数据的一些信息：

mysql> select * from TBLS;
+--------+-------------+-------+------------------+---------+-----------+-------+----------+---------------+--------------------+--------------------+--------------------+
| TBL_ID | CREATE_TIME | DB_ID | LAST_ACCESS_TIME | OWNER   | RETENTION | SD_ID | TBL_NAME | TBL_TYPE      | VIEW_EXPANDED_TEXT | VIEW_ORIGINAL_TEXT | IS_REWRITE_ENABLED |
+--------+-------------+-------+------------------+---------+-----------+-------+----------+---------------+--------------------+--------------------+--------------------+
|      1 |  1516893558 |     1 |                0 | chenxun |         0 |     1 | t1       | MANAGED_TABLE | NULL               | NULL               |                    |
|      6 |  1516969402 |     1 |                0 | chenxun |         0 |     6 | t2       | MANAGED_TABLE | NULL               | NULL               |                    |
+--------+-------------+-------+------------------+---------+-----------+-------+----------+---------------+--------------------+--------------------+--------------------+
2 rows in set (0.00 sec)

mysql> select * from DBS;
+-------+-----------------------+-----------------------------------------------------------+--------------+------------+------------+
| DB_ID | DESC                  | DB_LOCATION_URI                                           | NAME         | OWNER_NAME | OWNER_TYPE |
+-------+-----------------------+-----------------------------------------------------------+--------------+------------+------------+
|     1 | Default Hive database | hdfs://localhost:9000/user/hive/warehouse                 | default      | public     | ROLE       |
|     6 | NULL                  | hdfs://localhost:9000/user/hive/warehouse/db_hive_test.db | db_hive_test | chenxun    | USER       |
+-------+-----------------------+-----------------------------------------------------------+--------------+------------+------------+
2 rows in set (0.00 sec)

在hive端建立表t1和t2

hive>CREATE TABLE t1(id int); // 创建内部表t1，只有一个int类型的id字段

hive>CREATE TABLE t2(id int, name string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; // 创建内部表t2，有两个字段，它们之间通过tab分隔

其中t1.txt和t2.txt文件内容是：（在本地建立好这两个两个文件）

[root@master temp]# cat t1.txt
1      
2      
3      
4      
5      
6      
7      
9

[root@master temp]# cat t2.txt
1   a
2   b
3   c
9   x

把t2.txt传到hadoop目录下：

[[email protected] 23:12 ~]$hadoop fs -put -f /Users/chenxun/t2.txt /
[[email protected] 23:12 ~]$hadoop fs -ls /
Found 3 items
-rw-r--r--   1 chenxun supergroup         16 2018-01-28 23:09 /t2.txt

加载数据到hive:

hive>LOAD DATA LOCAL INPATH '/Users/chenxun/t1.txt' INTO TABLE t1; // 从本地文件加载
hive>LOAD DATA INPATH '/t2.txt' INTO TABLE t1; // 从HDFS中加载

三、启动服务hiveserver2（如果碰到问题和错误后面有解决方法）

配置hive中hiveserver2选项：

<name>hive.server2.thrift.bind.hostname>
 <value>127.0.0.1<value/>

<name>hive.server2.thrift.portname>
 <value>10000value>

在后台启动hiveserver2服务：

hive --service hiveserver2 &

启动beeline：只用!connect jdbc:hive2://127.0.0.1:10000连接hive

[[email protected] 23:24 ~/software/apache-hive-2.3.2-bin/bin]$beeline 
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/Users/chenxun/software/apache-hive-2.3.2-bin/lib/log4j-slf4j-impl-2.6.2.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/Users/chenxun/software/hadoop-2.8.1/share/hadoop/common/lib/slf4j-log4j12-1.7.10.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.apache.logging.slf4j.Log4jLoggerFactory]
Beeline version 2.3.2 by Apache Hive
beeline> !connect jdbc:hive2://127.0.0.1:10000 
Connecting to jdbc:hive2://127.0.0.1:10000
Enter username for jdbc:hive2://127.0.0.1:10000: 
Enter password for jdbc:hive2://127.0.0.1:10000: 
Connected to: Apache Hive (version 2.3.2)
Driver: Hive JDBC (version 2.3.2)
Transaction isolation: TRANSACTION_REPEATABLE_READ
0: jdbc:hive2://127.0.0.1:10000> show databases;
OK
+----------------+
| database_name  |
+----------------+
| db_hive_test   |
| default        |
+----------------+
2 rows selected (2.367 seconds)
0: jdbc:hive2://127.0.0.1:10000> select * from t1
. . . . . . . . . . . . . . . .> ;
OK
+--------+
| t1.id  |
+--------+
| 1      |
| 2      |
| 3      |
| 4      |
| 5      |
| 6      |
| 7      |
| 9      |
| NULL   |
+--------+
9 rows selected (2.416 seconds)
0: jdbc:hive2://127.0.0.1:10000> select * from t2;
OK
+--------+----------+
| t2.id  | t2.name  |
+--------+----------+
| 1      | a        |
| 2      | b        |
| 3      | c        |
| 9      | x        |
+--------+----------+
4 rows selected (0.254 seconds)
0: jdbc:hive2://127.0.0.1:10000>

此时可以用一些简单的查询语句来查询hive,但是为了生成MapReduce作业,我们将语句写得稍微复杂些:

0: jdbc:hive2://127.0.0.1:10000> select t2.name from t1 left join t2 on t1.id = t2.id;
WARNING: Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
Query ID = chenxun_20180128232948_92e7d150-7613-43e0-9e14-fefcecdd3aff
Total jobs = 1
WARNING: Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/Users/chenxun/software/apache-hive-2.3.2-bin/lib/log4j-slf4j-impl-2.6.2.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/Users/chenxun/software/hadoop-2.8.1/share/hadoop/common/lib/slf4j-log4j12-1.7.10.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.apache.logging.slf4j.Log4jLoggerFactory]
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/Users/chenxun/software/apache-hive-2.3.2-bin/lib/log4j-slf4j-impl-2.6.2.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/Users/chenxun/software/hadoop-2.8.1/share/hadoop/common/lib/slf4j-log4j12-1.7.10.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.apache.logging.slf4j.Log4jLoggerFactory]
2018-01-28 23:29:55	Starting to launch local task to process map join;	maximum memory = 477626368
2018-01-28 23:29:55	Starting to launch local task to process map join;	maximum memory = 477626368
2018-01-28 23:29:56	Dump the side-table for tag: 1 with group count: 4 into file: file:/Users/chenxun/software/apache-hive-2.3.2-bin/tmp/chenxun/cc45ef96-0ff8-4482-aca9-8552cba0b159/hive_2018-01-28_23-29-48_650_9212450484633339980-1/-local-10004/HashTable-Stage-3/MapJoin-mapfile01--.hashtable
2018-01-28 23:29:57	Uploaded 1 File to: file:/Users/chenxun/software/apache-hive-2.3.2-bin/tmp/chenxun/cc45ef96-0ff8-4482-aca9-8552cba0b159/hive_2018-01-28_23-29-48_650_9212450484633339980-1/-local-10004/HashTable-Stage-3/MapJoin-mapfile01--.hashtable (344 bytes)
2018-01-28 23:29:57	End of local task; Time Taken: 1.493 sec.
Execution completed successfully
MapredLocal task succeeded
Launching Job 1 out of 1
Number of reduce tasks is set to 0 since there's no reduce operator
2018-01-28 23:29:56	Dump the side-table for tag: 1 with group count: 4 into file: file:/Users/chenxun/software/apache-hive-2.3.2-bin/tmp/chenxun/cc45ef96-0ff8-4482-aca9-8552cba0b159/hive_2018-01-28_23-29-48_650_9212450484633339980-1/-local-10004/HashTable-Stage-3/MapJoin-mapfile01--.hashtable
2018-01-28 23:29:57	Uploaded 1 File to: file:/Users/chenxun/software/apache-hive-2.3.2-bin/tmp/chenxun/cc45ef96-0ff8-4482-aca9-8552cba0b159/hive_2018-01-28_23-29-48_650_9212450484633339980-1/-local-10004/HashTable-Stage-3/MapJoin-mapfile01--.hashtable (344 bytes)
2018-01-28 23:29:57	End of local task; Time Taken: 1.493 sec.
Starting Job = job_1517075946129_0001, Tracking URL = http://chen.local:8088/proxy/application_1517075946129_0001/
Kill Command = /Users/chenxun/software/hadoop-2.8.1/bin/hadoop job  -kill job_1517075946129_0001
Hadoop job information for Stage-3: number of mappers: 1; number of reducers: 0
2018-01-28 23:30:17,415 Stage-3 map = 0%,  reduce = 0%
2018-01-28 23:30:26,953 Stage-3 map = 100%,  reduce = 0%
Ended Job = job_1517075946129_0001
MapReduce Jobs Launched: 
Stage-Stage-3: Map: 1   HDFS Read: 5584 HDFS Write: 218 SUCCESS
Total MapReduce CPU Time Spent: 0 msec
OK
+----------+
| t2.name  |
+----------+
| a        |
| b        |
| c        |
| NULL     |
| NULL     |
| NULL     |
| NULL     |
| x        |
| NULL     |
+----------+
9 rows selected (40.835 seconds)
0: jdbc:hive2://127.0.0.1:10000>

三、碰到的坑点：

1、使用HiveServer2 and Beeline模式运行时，启动好HiveServer2后运行碰到下面的错误

java.lang.RuntimeException: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.authorize.AuthorizationException): 
User root is not allowed to impersonate anonymous 错误。

在hadoop目录etc/hadoop目录下core-site.xml中添加下面的内容赋予用户权限


    hadoop.proxyuser.root.hosts
    *


    hadoop.proxyuser.root.groups
    *

因为我的用户是root所以是hadoop.proxyuser.root.hosts和hadoop.proxyuser.root.groups

如果提示是其他用户比如说是chen 那么就要把上面内容中的root改成chen

2、错误2：!connect jdbc:hive2://127.0.0.1:10000出现错误

Error: Could not open client transport with JDBC Uri: jdbc:hive2://127.0.0.1:10000: Failed to open new session:

Permission denied: user=anonymous, access=EXECUTE, inode=”/tmp”
由于Hive没有hdfs:/tmp目录的权限，赋权限即可：
hadoop fs  -chmod -R 777 /tmp

beeline> !connect jdbc:hive2://127.0.0.1:10000 
Connecting to jdbc:hive2://127.0.0.1:10000
Enter username for jdbc:hive2://127.0.0.1:10000: 
Enter password for jdbc:hive2://127.0.0.1:10000: 
18/01/28 01:59:20 [main]: WARN jdbc.HiveConnection: Failed to connect to 127.0.0.1:10000
Error: Could not open client transport with JDBC Uri: jdbc:hive2://127.0.0.1:10000: Failed to open new session: java.lang.RuntimeException: org.apache.hadoop.security.AccessControlException: Permission denied: user=anonymous, access=EXECUTE, inode="/tmp":chenxun:supergroup:drwx------
	at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.check(FSPermissionChecker.java:310)
	at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkTraverse(FSPermissionChecker.java:271)
	at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkPermission(FSPermissionChecker.java:206)
	at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkPermission(FSPermissionChecker.java:189)
	at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkTraverse(FSPermissionChecker.java:499)
	at org.apache.hadoop.hdfs.server.namenode.FSDirectory.checkTraverse(FSDirectory.java:1603)
	at org.apache.hadoop.hdfs.server.namenode.FSDirectory.checkTraverse(FSDirectory.java:1621)
	at org.apache.hadoop.hdfs.server.namenode.FSDirectory.resolvePath(FSDirectory.java:542)
	at org.apache.hadoop.hdfs.server.namenode.FSDirStatAndListingOp.getFileInfo(FSDirStatAndListingOp.java:110)
	at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.getFileInfo(FSNamesystem.java:2929)
	at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.getFileInfo(NameNodeRpcServer.java:1106)
	at org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolServerSideTranslatorPB.getFileInfo(ClientNamenodeProtocolServerSideTranslatorPB.java:858)
	at org.apache.hadoop.hdfs.protocol.proto.ClientNamenodeProtocolProtos$ClientNamenodeProtocol$2.callBlockingMethod(ClientNamenodeProtocolProtos.java)
	at org.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:447)
	at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:989)
	at org.apache.hadoop.ipc.Server$RpcCall.run(Server.java:845)
	at org.apache.hadoop.ipc.Server$RpcCall.run(Server.java:788)
	at java.security.AccessController.doPrivileged(Native Method)
	at javax.security.auth.Subject.doAs(Subject.java:422)
	at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1807)
	at org.apache.hadoop.ipc.Server$Handler.run(Server.java:2455) (state=08S01,code=0)

参考文章：

https://www.cnblogs.com/netuml/p/7841387.html
http://blog.csdn.net/roy_88/article/details/60884980
http://blog.csdn.net/lym152898/article/details/77334997
https://www.cnblogs.com/hmy-blog/p/6506417.html
https://www.cnblogs.com/garfieldcgf/p/8134452.html

Spark技术系列（一）：初识Apache Spark——大数据处理的统一分析引擎数据大包哥 #Spark 大数据
Spark技术系列（一）：初识ApacheSpark——大数据处理的统一分析引擎1.背景与核心价值1.1大数据时代的技术演进MapReduce的局限性：磁盘迭代计算、中间结果落盘导致的性能瓶颈Spark诞生背景：UCBerkeleyAMPLab实验室为解决复杂迭代计算需求研发（2010年开源）技术定位：基于内存的通用分布式计算框架（支持批处理、流计算、机器学习、图计算等）1.2Spark内置模块S
RPC 服务分组：优化分布式系统架构的关键策略与代码实践阿贾克斯的黎明 qt 开发语言
目录RPC服务分组：优化分布式系统架构的关键策略与代码实践一、RPC服务分组的概念与作用二、实现RPC服务分组的步骤与代码示例（一）项目结构规划（二）编写proto文件（三）生成代码（四）编写服务逻辑（五）配置服务（六）启动服务组（七）服务调用在构建复杂的分布式系统时，RPC服务分组是一种有效的管理和组织方式，有助于提高系统的可维护性和扩展性。本文将详细介绍RPC服务分组的概念、作用，并通过实际步
RabbitMQ系列（零）概要 yyueshen RabbitMQ rabbitmq 分布式消息队列
一、消息队列总览1.什么是消息队列？消息队列（MessageQueue）是一种异步通信机制，允许分布式系统中的服务通过生产-消费模型传递数据。其核心价值在于：解耦性：生产者与消费者无需同时在线或直接交互削峰填谷：应对流量突发场景，避免系统过载（如秒杀系统请求缓冲）可靠性：通过持久化、重试机制保障消息不丢失2.典型应用场景场景实现原理案例服务异步化耗时操作异步执行（如日志记录）用户注册后异步发送通知
python使用kafka原理详解_Python操作Kafka原理及使用详解形象顧問Aking
Python操作Kafka原理及使用详解一、什么是KafkaKafka是一个分布式流处理系统，流处理系统使它可以像消息队列一样publish或者subscribe消息，分布式提供了容错性，并发处理消息的机制二、Kafka的基本概念kafka运行在集群上，集群包含一个或多个服务器。kafka把消息存在topic中，每一条消息包含键值(key)，值(value)和时间戳(timestamp)。kafk
python调用kafka smile__su python python kafka
先启动hadoop，zookeeper，kafka启动命令hadoop启动命令sbin/start-all.shzookeeper启动命令./bin/zkServer.shstart每台机器都要启动kafka启动命令bin/kafka-server-start.shconfig/server.properties每台机器都要启动进行以下操作的前提是将hadoop，zookeeper，kafka安装
Spring Boot 集成 Kafka m0_74823471 面试学习路线阿里巴巴 spring boot kafka linq
在现代软件开发中，分布式系统和微服务架构越来越受到关注。为了实现系统之间的异步通信和解耦，消息队列成为了一种重要的技术手段。Kafka作为一种高性能、分布式的消息队列系统，被广泛应用于各种场景。而SpringBoot作为一种流行的Java开发框架，提供了便捷的方式来构建应用程序。本文将介绍如何在SpringBoot项目中集成Kafka，包括Kafka的基本概念、SpringBoot集成Kafka的
鸿蒙HarmonyOS应用开发 | 仓颉在 HarmonyOS 开发中的应用与创新实战一键难忘 harmonyos 华为分布式操作系统仓颉鸿蒙开发
鸿蒙HarmonyOS应用开发|仓颉在HarmonyOS开发中的应用与创新实战一、引言HarmonyOS作为一款面向全场景的分布式操作系统，为开发者提供了丰富的开发工具和技术。其中，仓颉作为HarmonyOS的自研编程语言，具有独特的优势和潜力。本文将深入探讨仓颉在HarmonyOS开发中的应用与创新。二、仓颉语言的特点（一）简洁高效的语法仓颉的语法简洁明了，易于学习和使用。它采用了现代化的编程风
利用 Azure Cosmos DB 和 MongoDB vCore 进行向量搜索示例 vaidfl 数据库 azure mongodb python
技术背景介绍AzureCosmosDB是一个全球分布式的多模型数据库服务，以其高性能和自动缩放能力而闻名。特别是对于支持OpenAIChatGPT这样的高需求应用程序，CosmosDB提供了单毫秒级的响应时间。对于开发者来说，AzureCosmosDB提供了一种与MongoDB兼容的服务，即MongoDBvCore，这使得熟悉MongoDB的开发者可以无缝地迁移和使用他们的经验与工具。在现代应用中
大模型替代程序猿？不可能，绝对不可能！进化路线来了来！！！ XiaoDuofCSDN 算法 leetcode 职场和发展 java 分布式深度学习神经网络
大模型后端开发面试指南：技术体系构建与实践路线一、背景说明随着大模型（LLM）技术进入工业化落地阶段，行业对大模型后端开发工程师的需求呈现爆发式增长。该岗位要求候选人不仅需要掌握传统分布式系统开发能力，还需深入理解大模型特有的计算范式。本文针对零基础转型场景，提供体系化的能力建设方案。二、核心目标建立大模型后端开发技术认知图谱构建可验证的工程项目实践体系形成持续跟踪技术演进的方法论三、持续关注的核
分享---rpc运维事故处理 XiaoDuofCSDN rpc 运维网络协议
事故案例03-QserverRPC调用大量失败一、事故背景Queryserver是内部的核心服务，负责处理数据查询请求并支持分布式缓存功能。为优化缓存一致性，新增了分布式锁逻辑：在查询请求命中缓存时需先获取分布式锁（基于Tair实现），若未获取成功则等待1秒后重试。此功能上线后，在特定异常场景下（如SQL执行失败）触发了线程池资源耗尽，最终导致RPC请求被拒绝，引发服务故障。二、事故影响（一）业务
使用GitPython和GitLoader进行版本控制与文档加载 vaidfl python
技术背景介绍Git是一种分布式版本控制系统，用于跟踪文件集的更改，通常用于程序员协作开发软件源代码。Git的特点包括支持分支和合并、轻量级、快速操作以及强大的社区支持等。在Python开发中，我们可以使用GitPython库来操作和管理Git仓库。此外，借助GitLoader，我们可以轻松地从Git仓库加载文档，以便在各种应用中使用。核心原理解析GitPython是一个Python库，它允许你通过
金融风控与医疗影像算法创新前沿智能计算研究中心其他
内容概要在金融风控与医疗影像交叉领域，算法创新正推动两大行业的技术范式变革。联邦学习算法通过分布式数据协作机制，在保证隐私安全的前提下，显著提升金融风险预测模型的泛化能力。医疗影像诊断领域则依托三维卷积神经网络（3D-CNN）架构，实现了对CT、MRI等多模态影像的精准病灶分割，诊断准确率较传统方法提升23.6%。值得关注的是，可解释性算法（如LIME和SHAP）的深度应用，使两类场景中的模型决策
ZeRO分布式训练策略 AIGC_ZY 大模型分布式
ZeRO分布式训练策略详解一、核心设计原理ZeRO（ZeroRedundancyOptimizer）是微软提出的分布式训练优化框架，与传统数据并行方法不同，ZeRO通过将模型的参数、梯度和优化器状态分散到多个设备上，从而实现内存和计算资源的高效利用。ZeRO通过三级分片策略消除内存冗余，实现超大规模模型训练。其核心演进路线分为三个阶段：1.1ZeRO-1：优化器状态分片分片对象：优化器参数（如Ad
Redis分布式存储案例面试题哎呀哎呀诶 Redis redis 分布式数据库
问：1~2亿条数据需要缓存，请问如何设计这个存储案例？答：单机单台肯定是不可能的，肯定是分布式存储。问：用redis如何落地？答：1、哈希取余分区（小厂回答）2、一致性哈希算法分区（中厂回答）3、哈希槽分区（大厂回答，推荐回答）1、哈希取余分区2亿条记录就是2亿个(k,v)，我们单机不行必须要分布式多机，假设有3台机器构成一个集群，用户每次读写操作都是根据公式：hash(key)%N个机器台数，计
Redis分布式缓存面试题 hxj.. 面试分布式缓存 redis 分布式分布式缓存
为什么使用分布式缓存？1.提升性能降低延迟：将数据缓存在离应用更近的地方，减少数据访问时间。减轻数据库压力：缓存频繁访问的数据，减少对后端数据库的请求，提升系统响应速度。2.扩展性水平扩展：通过增加节点，分布式缓存可以轻松扩展，处理更大规模的数据和请求。负载均衡：数据分布在不同节点上，避免单点瓶颈，提升系统整体吞吐量。3.高可用性容错能力：即使某个节点故障，其他节点仍能继续提供服务，确保系统稳定运
Python自动化运维实战，怎么构建分布式质量监控平台好知识传播者 Python实例开发实战运维 python 自动化分布式质量监控平台 linux
注意：本文的下载教程，与以下文章的思路有相同点，也有不同点，最终目标只是让读者从多维度去熟练掌握本知识点。下载教程：Python自动化运维项目开发实战_构建分布式质量监控平台_编程案例解析实例课程教程.pdf一、引言随着企业业务的不断扩展和复杂化，系统运维面临着越来越多的挑战。传统的运维方式已经无法满足现代企业的需求，因此，自动化运维成为了企业提升运维效率、保障系统稳定性的重要手段。在自动化运维中
分布式服务发现与注册中心 Consul 要加油呀中间件 java-consul consul java
分布式服务发现与注册中心Consulgithub地址：https://github.com/consul/consul基础概念什么是注册中心随着微服务理论发展的成熟，越来越多互联网公司采用微服务架构来支持业务发展。各个微服务之间都需要通过注册中心来实现自动化的注册和发现。注册中心主要有三种角色：服务提供者（RPCServer）：在启动时，向Registry注册自身服务，并向Registry定期发送
分布式系统架构设计原理与实战：理解分布式系统的基本概念 AI天才研究院计算大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍在当今的互联网时代，数据量的爆炸性增长和业务的快速发展，使得单一的计算机系统已经无法满足我们的需求。为了解决这个问题，分布式系统应运而生。分布式系统是一种能在多台计算机（也称为节点）上运行，并通过网络进行通信和协调的系统。它能够提供高可用性、高可靠性、高扩展性和高性能等特性，因此在云计算、大数据、微服务等领域得到了广泛的应用。然而，设计和实现一个分布式系统并不是一件容易的事情。它涉及到
对象存储 Mini＇ miss python java c#php c++
对象存储（CloudObjectStorage，COS）是腾讯云提供的一种存储海量文件的分布式存储服务，具有高扩展性、低成本、可靠安全等优点。通过控制台、API、SDK和工具等多样化方式，用户可简单、快速地接入COS，进行多格式文件的上传、下载和管理，实现海量数据存储和管理。产品概述本页目录：对象存储（CloudObjectStorage，COS）是腾讯云提供的一种存储海量文件的分布式存储服务，用
使用Java和Zookeeper实现分布式协调与服务发现微赚淘客系统@聚娃科技分布式 java-zookeeper java
使用Java和Zookeeper实现分布式协调与服务发现大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天我们将深入探讨如何利用Java和Zookeeper实现高效的分布式协调与服务发现功能。一、Zookeeper简介Zookeeper是一个分布式协调服务，主要用于解决分布式系统中的一致性问题，如配置管理、命名服务、分布式锁等。它提供了高可用、高性能、严格顺序访问等
鸿蒙OH源码分析——分布式软总线：trans_service模块(2)/会话管理之新会话彭家大少嵌入式硬件 openHarmony 鸿蒙南向 harmonyos 分布式 OpenHarmony 嵌入式开发软总线 c语言
往期学习笔录：鸿蒙（OpenHarmony）南向开发保姆级知识点汇总~鸿蒙应用开发与鸿蒙系统开发哪个更有前景？嵌入式开发适不适合做鸿蒙南向开发？看完这篇你就了解了~鸿蒙岗位需求突增！移动端、PC端、IoT到底该怎么选？记录一场鸿蒙开发岗位面试经历~持续更新中……一、概述trans_service模块基于系统内核提供的socket通信，向authmanager模块提供设备认证通道管理和设备认证数据的
分布式服务监控点滴~ 分布式
目录分布式服务监控CAT（CentralApplicationTracking）监控对象和指标分布式服务监控分布式服务监控在保障分布式系统稳定运行中至关重要，通过各类监控组件对关键指标进行监测，能及时发现并解决问题。下面将从监控组件、其优缺点、监控指标及其作用展开介绍。监控组件Prometheus：一个开源的系统监控和报警工具包。它采用拉取式采集数据，支持多种数据采集方式，如直接采集应用程序暴露的
netty使用场景酷爱码 java技术教程 java
Netty是一个Java网络编程框架，提供了高性能、高可扩展性的网络通信能力。它通常被用于以下场景：服务器端网络编程：Netty可用于构建各种服务器端应用程序，如Web服务器、游戏服务器、聊天服务器等。客户端网络编程：Netty也可以用于构建客户端应用程序，用于与服务器进行通信。分布式系统：Netty可在分布式系统中作为通信框架，用于节点之间的数据传输和通信。高性能网络应用：由于Netty具有高性
第二十二天学习HarmonyOS的分布式软总线技术，了解跨设备通信的原理 MarkHD HarmonyOS 学习学习 harmonyos 分布式
前言在万物互联时代，跨设备协同成为智能生态系统的核心需求。HarmonyOS通过创新的分布式软总线技术，实现了设备间的高效通信与资源共享。本文将从零开始，带领开发者深入理解这项核心技术，通过代码实战演示如何构建跨设备应用。我们将从技术原理到具体实现，系统性地剖析分布式软总线的运作机制。一、分布式软总线技术概述1.1什么是分布式软总线？HarmonyOS的分布式软总线就像一条虚拟的高速公路，连接着各
技术分享| 分布式系统中服务注册发现组件的原理及比较 anyRTC 音视频分布式系统音视频分布式系统 Consul Zookeeper etcd
背景在分布式架构的系统中，服务发现简单来讲就是通过服务名找到提供服务的实例地址和端口，主要用于解决如何获取服务实例地址问题。随着容器技术的兴起，服务集群部署在系统各处，服务之间的远程调用都需要通过服务发现来实现。服务注册发现是分布式系统中不可或缺的关键组件，常用于构建服务注册发现解决方案的开源框架如ZooKeeper、Etcd、Consul。下面主要介绍一下如何基于ZooKeeper、Etcd、C
分布式服务——注册中心庄隐 #架构 java 注册中心
介绍想象一下，一个繁忙的周末，阳光明媚，公园里的孩子们在尽情玩耍，大人们则坐在长椅上享受着难得的闲暇时光。突然，一个小女孩跑到一位陌生的先生面前，甜甜地说：“叔叔，你能不能帮我找回我丢失的小狗？我叫它‘豆豆’。”这位先生虽然被打扰了休息，但他并没有生气，反而微笑着答应了小女孩的请求，并开始在公园里寻找那只名叫“豆豆”的小狗。这个故事虽然简单，但它却生动地展示了注册中心的功能和价值。就像那个小女孩通
Python 实战：构建分布式文件存储系统全解析 tekin Python网络编程 python 分布式 Python分布式文件存储系统
Python实战：构建分布式文件存储系统全解析在当今数据爆炸的时代，分布式文件存储系统凭借其高可扩展性、高可靠性等优势，成为了数据存储领域的热门选择。本文将详细介绍如何使用Python构建一个简单的分布式文件存储系统。从系统架构设计，包括中央控制器、存储节点和客户端的功能介绍，到具体的代码实现，涵盖网络通信、文件操作等关键技术，再到运行步骤的说明，让你全面了解分布式文件存储系统的构建过程。即使你是
Java中常用的分布式排他锁实现方式阿湯哥 java 分布式开发语言
在分布式系统中，实现排他锁需要跨节点的协调机制。以下是Java中常用的分布式排他锁实现方式及其详细说明：1.基于数据库的实现原理：利用数据库的唯一约束或乐观锁机制确保锁的互斥性。步骤：创建锁表，设置唯一索引字段（如锁名称）。获取锁时插入记录，成功则获得锁；释放时删除记录。添加超时机制，通过定时任务清理过期锁。Java实现：//示例：使用唯一约束try{//插入锁记录，若冲突则失败jdbcTempl
分布式服务注册与发现点滴~ 面试大型网站技术架构分布式分布式
目录核心概念常见实现方式常见工具与框架优点挑战应用场景总结分布式服务注册与发现是微服务架构中的关键组件，用于动态管理服务的注册、发现和调用。它帮助服务在分布式环境中自动找到彼此，确保系统的高可用性和可扩展性。核心概念服务注册：服务启动时向注册中心注册自己的信息（如服务名、IP、端口等）。注册中心维护服务实例的元数据。服务发现：客户端或服务消费者通过注册中心查找目标服务的实例信息。支持动态获取服务的
python dag调度系统开发_基于DAG的分布式任务调度平台-Maat weixin_39634997 python dag调度系统开发
背景什么是MaatMaat是一个基于开源项目Airflow的流程调度系统，它支持用户自定义地组装流程节点，流程可以在用户指定的时间触发(支持crontab格式)，或由用户手动触发。Maat的所有节点分布式地运行在Hippo上，由Drogo调度。用户可以创建自己的调度节点和执行节点，达到资源隔离的目的。用户可以通过配置的方式安装自己执行节点的运行环境，也可以配置执行节点的副本数。下图展示了一个任务的
html页面js获取参数值 0624chenhong html
1.js获取参数值js function GetQueryString(name) { var reg = new RegExp("(^|&)"+ name +"=([^&]*)(&|$)"); var r = windo
MongoDB 在多线程高并发下的问题 BigCat2013 mongodb DB 高并发重复数据
最近项目用到 MongoDB , 主要是一些读取数据及改状态位的操作. 因为是结合了最近流行的 Storm进行大数据的分析处理，并将分析结果插入Vertica数据库，所以在多线程高并发的情境下, 会发现 Vertica 数据库中有部分重复的数据. 这到底是什么原因导致的呢？笔者开始也是一筹莫展，重复去看 MongoDB 的 API , 终于有了新发现： com.mongodb.DB 这个类有
c++ 用类模版实现链表(c++语言程序设计第四版示例代码) CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T> class Node { private: Node<T> * next; public: T data;
最近情况麦田的设计者感慨考试生活
在五月黄梅天的岁月里，一年两次的软考又要开始了。到目前为止，我已经考了多达三次的软考，最后的结果就是通过了初级考试（程序员）。人啊，就是不满足，考了初级就希望考中级，于是，这学期我就报考了中级，明天就要考试。感觉机会不大，期待奇迹发生吧。这个学期忙于练车，写项目，反正最后是一团糟。后天还要考试科目二。这个星期真的是很艰难的一周，希望能快点度过。
linux系统中用pkill踢出在线登录用户被触发 linux
由于linux服务器允许多用户登录，公司很多人知道密码，工作造成一定的障碍所以需要有时踢出指定的用户 1/#who 查出当前有那些终端登录（用 w 命令更详细） # who root pts/0 2010-10-28 09:36 (192
仿QQ聊天第二版肆无忌惮_ qq
在第一版之上的改进内容: 第一版链接: http://479001499.iteye.com/admin/blogs/2100893 用map存起来号码对应的聊天窗口对象,解决私聊的时候所有消息发到一个窗口的问题. 增加ViewInfo类,这个是信息预览的窗口,如果是自己的信息,则可以进行编辑. 信息修改后上传至服务器再告诉所有用户,自己的窗口
java读取配置文件知了ing
1，java读取.properties配置文件 InputStream in; try { in = test.class.getClassLoader().getResourceAsStream("config/ipnetOracle.properties");//配置文件的路径 Properties p = new Properties()
__attribute__ 你知多少？矮蛋蛋 C++gcc
原文地址: http://www.cnblogs.com/astwish/p/3460618.html GNU C 的一大特色就是__attribute__ 机制。__attribute__ 可以设置函数属性（Function Attribute ）、变量属性（Variable Attribute ）和类型属性（Type Attribute ）。 __attribute__ 书写特征是：
jsoup使用笔记 alleni123 java 爬虫 JSoup
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.7.3</version> </dependency> 2014/08/28 今天遇到这种形式，
JAVA中的集合 Collectio 和Map的简单使用及方法百合不是茶 list map set
List ,set ,map的使用方法和区别 java容器类类库的用途是保存对象，并将其分为两个概念： Collection集合：一个独立的序列，这些序列都服从一条或多条规则;List必须按顺序保存元素，set不能重复元素；Queue按照排队规则来确定对象产生的顺序（通常与他们被插入的
杀LINUX的JOB进程 bijian1013 linux unix
今天发现数据库一个JOB一直在执行，都执行了好几个小时还在执行，所以想办法给删除掉系统环境： ORACLE 10G Linux操作系统操作步骤如下：第一步.查询出来那个job在运行，找个对应的SID字段 select * from dba_jobs_running--找到job对应的sid &n
Spring AOP详解 bijian1013 java spring AOP
最近项目中遇到了以下几点需求，仔细思考之后，觉得采用AOP来解决。一方面是为了以更加灵活的方式来解决问题，另一方面是借此机会深入学习Spring AOP相关的内容。例如，以下需求不用AOP肯定也能解决，至于是否牵强附会，仁者见仁智者见智。 1.对部分函数的调用进行日志记录，用于观察特定问题在运行过程中的函数调用
[Gson六]Gson类型适配器(TypeAdapter) bit1129 Adapter
TypeAdapter的使用动机 Gson在序列化和反序列化时，默认情况下，是按照POJO类的字段属性名和JSON串键进行一一映射匹配，然后把JSON串的键对应的值转换成POJO相同字段对应的值，反之亦然，在这个过程中有一个JSON串Key对应的Value和对象之间如何转换(序列化/反序列化)的问题。以Date为例，在序列化和反序列化时，Gson默认使用java.
【spark八十七】给定Driver Program，如何判断哪些代码在Driver运行，哪些代码在Worker上执行 bit1129 driver
Driver Program是用户编写的提交给Spark集群执行的application，它包含两部分作为驱动： Driver与Master、Worker协作完成application进程的启动、DAG划分、计算任务封装、计算任务分发到各个计算节点(Worker)、计算资源的分配等。计算逻辑本身，当计算任务在Worker执行时，执行计算逻辑完成application的计算任务
nginx 经验总结 ronin47 nginx 总结
　　　深感nginx的强大，只学了皮毛，把学下的记录。　　　获取Header 信息，一般是以$http_XX（ＸＸ是小写）获取body,通过接口，再展开，根据Ｋ取Ｖ　　　获取uri,以$arg_XX &n
轩辕互动-1.求三个整数中第二大的数2.整型数组的平衡点 bylijinnan 数组
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class ExoWeb { public static void main(String[] args) { ExoWeb ew=new ExoWeb(); System.out.pri
Netty源码学习-Java-NIO-Reactor bylijinnan java 多线程 netty
Netty里面采用了NIO-based Reactor Pattern 了解这个模式对学习Netty非常有帮助参考以下两篇文章： http://jeewanthad.blogspot.com/2013/02/reactor-pattern-explained-part-1.html http://gee.cs.oswego.edu/dl/cpjslides/nio.pdf
AOP通俗理解 cngolon spring AOP
1.我所知道的aop 初看aop,上来就是一大堆术语，而且还有个拉风的名字，面向切面编程，都说是OOP的一种有益补充等等。一下子让你不知所措，心想着：怪不得很多人都和我说aop多难多难。当我看进去以后，我才发现：它就是一些java基础上的朴实无华的应用，包括ioc，包括许许多多这样的名词，都是万变不离其宗而已。 2.为什么用aop&nb
cursor variable 实例 ctrain variable
create or replace procedure proc_test01 as type emp_row is record( empno emp.empno%type, ename emp.ename%type, job emp.job%type, mgr emp.mgr%type, hiberdate emp.hiredate%type, sal emp.sal%t
shell报bash: service: command not found解决方法 daizj linux shell service jps
今天在执行一个脚本时，本来是想在脚本中启动hdfs和hive等程序，可以在执行到service hive-server start等启动服务的命令时会报错，最终解决方法记录一下：脚本报错如下： ./olap_quick_intall.sh: line 57: service: command not found ./olap_quick_intall.sh: line 59
40个迹象表明你还是PHP菜鸟 dcj3sjt126com 设计模式 PHP 正则表达式 oop
你是PHP菜鸟，如果你：1. 不会利用如phpDoc 这样的工具来恰当地注释你的代码2. 对优秀的集成开发环境如Zend Studio 或Eclipse PDT 视而不见3. 从未用过任何形式的版本控制系统，如Subclipse4. 不采用某种编码与命名标准，以及通用约定，不能在项目开发周期里贯彻落实5. 不使用统一开发方式6. 不转换（或）也不验证某些输入或SQL查询串（译注：参考PHP相关函
Android逐帧动画的实现 dcj3sjt126com android
一、代码实现： private ImageView iv; private AnimationDrawable ad; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout
java远程调用linux的命令或者脚本 eksliang linux ganymed-ssh2
转载请出自出处： http://eksliang.iteye.com/blog/2105862 Java通过SSH2协议执行远程Shell脚本(ganymed-ssh2-build210.jar) 使用步骤如下： 1.导包官网下载: http://www.ganymed.ethz.ch/ssh2/ ma
adb端口被占用问题 gqdy365 adb
最近重新安装的电脑，配置了新环境，老是出现： adb server is out of date. killing... ADB server didn't ACK * failed to start daemon * 百度了一下，说是端口被占用，我开个eclipse，然后打开cmd，就提示这个，很烦人。一个比较彻底的解决办法就是修改
ASP.NET使用FileUpload上传文件 hvt .net C#hovertree asp.net webform
前台代码： <asp:FileUpload ID="fuKeleyi" runat="server" /> <asp:Button ID="BtnUp" runat="server" onclick="BtnUp_Click" Text="上传" />
代码之谜（四）- 浮点数（从惊讶到思考） justjavac 浮点数精度代码之谜 IEEE
在『代码之谜』系列的前几篇文章中，很多次出现了浮点数。浮点数在很多编程语言中被称为简单数据类型，其实，浮点数比起那些复杂数据类型（比如字符串）来说，一点都不简单。单单是说明 IEEE浮点数就可以写一本书了，我将用几篇博文来简单的说说我所理解的浮点数，算是抛砖引玉吧。一次面试记得多年前我招聘 Java 程序员时的一次关于浮点数、二分法、编码的面试，多年以后，他已经称为了一名很出色的
数据结构随记_1 lx.asymmetric 数据结构笔记
第一章 1.数据结构包括数据的逻辑结构、数据的物理/存储结构和数据的逻辑关系这三个方面的内容。 2.数据的存储结构可用四种基本的存储方法表示，它们分别是顺序存储、链式存储、索引存储和散列存储。 3.数据运算最常用的有五种，分别是查找/检索、排序、插入、删除、修改。 4.算法主要有以下五个特性：输入、输出、可行性、确定性和有穷性。 5.算法分析的
linux的会话和进程组网络接口 linux
会话：一个或多个进程组。起于用户登录，终止于用户退出。此期间所有进程都属于这个会话期。会话首进程：调用setsid创建会话的进程1.规定组长进程不能调用setsid，因为调用setsid后，调用进程会成为新的进程组的组长进程.如何保证？先调用fork，然后终止父进程，此时由于子进程的进程组ID为父进程的进程组ID，而子进程的ID是重新分配的，所以保证子进程不会是进程组长，从而子进程可以调用se
二维数组元素的连续求解 1140566087 二维数组 ACM
import java.util.HashMap; public class Title { public static void main(String[] args){ f(); } // 二位数组的应用 //12、二维数组中，哪一行或哪一列的连续存放的0的个数最多，是几个0。注意，是“连续”。 public static void f(){
也谈什么时候Java比C++快 windshome java C++
刚打开iteye就看到这个标题“Java什么时候比C++快”，觉得很好笑。你要比，就比同等水平的基础上的相比，笨蛋写得C代码和C++代码，去和高手写的Java代码比效率，有什么意义呢？我是写密码算法的，深刻知道算法C和C++实现和Java实现之间的效率差，甚至也比对过C代码和汇编代码的效率差，计算机是个死的东西，再怎么优化，Java也就是和C