smollcat

大数据集群环境部署(Hadoop-3.3.1 + Hive-3.1.2 + HBase-2.4.4)

大数据集群环境部署

Hadoop

# 安装解压，移动到/usr/local/src/

export HADOOP_HOME=/usr/local/src/hadoop-3.3.1
export JAVA_HOME=/usr/local/src/jdk1.8.0_211
export export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$JAVA_HOME/bin:$PATH

# 使用source命令让立即生效
source /etc/profile

# 测试是否安装成功
hadoop version

# 本次测试所用软件及环境
1、CentOS-7
2、VMware-15
3、Jdk-1.8
4、Mysql-5.7
5、Hadoop-3.3.1
6、Hive-3.1.2
7、HBase-2.4.4
8、Zookeeper-3.4.10
1、下载Hadoop
2、安装3个虚拟机实现ssh面密码登陆
2.1 安装3个虚拟机
# 使用的Linux系统是Centos7,安装三个机器（我们操作时使用root用户）
#用ifconfig命令查看3台机器的ip
# 如果没有ifconfig命令可以使用ip addr命令


#  设置机器名称

为了方便使用，必须正确设置机器名称和ip对应，使用 hostname 命令，查看机器名称

观察是不是自己想要设置的机器名称，如果不是则使用 hostname （你的机器名）

例应为： hostname gm.com

再使用hostname命令，观察是否更改

类似的，更改其他两台机器gm.com-1和gm.com-2

# 配置/etc/hosts文件

修改3台机器的/etc/hosts文件，向文件中添加以下内容

192.168.1.85 gm.com
192.168.5.93 gm.com-1
192.168.5.94 gm.com-2
IP号为自己机器名对应的IP

# 给三台机器生成密钥文件
使用命令 ssh-keygen  -t   rsa   -P  ''
回车至生成文件

因为是root用户，密钥文件保存到了/root/.ssh/目录下，可以使用命令查看：

ls /root/.ssh/

该目录下生成两个文件文件 id_rsa 和 id_rsa.pub

# 在gm.com上创建authorized_keys文件
接下来将3台机器的/root/.ssh/目录下都存入一个相同文件，文件名authorized_keys，内容为刚刚生成的密钥。

使用命令 touch  /root/.ssh/authorized_keys 生成文件
使用命令 ls /root/.ssh/ 查看是否生成文件
使用命令 vi authorized_keys 并将三个主机中的/root/.ssh/id_rsa.pub内容复制ji进去
我的 authorized_keys文件显示为三个主机/root/.ssh/id_rsa.pub的内容
最后保存后，将gm.com中的authorized_keys文件复制到gm.com-1,gm.com-2
可以使用 xftp 工具

# 在gm.com上进行测试
输入命令 ssh gm.com-1 
键入 y 后，显示如下内容则证明ssh成功
输入命令 exit 退出 ssh 远程连接
再键入 ssh gm.com-2
最后在gm.com-1、gm.com-2上进行同样的测试，保证三台机器之间可以免密登陆

# 安装Java和Hadoop
1 安装jdk

2 安装hadoop

在opt下新建hadoop文件，并将hadoop-3.3.1.tar.gz放入

进入该目录 cd /opt/hadoop

解压该文件 tar -zxvf  hadoop-3.3.1.tar.gz
移动至 mv hadoop-3.3.1 /usr/local/src/

注：三台机器都需要进行上述操作 *** 重点



# 3 修改etc/hadoop中的配置文件
注：除了个别提示，其余文件只用修改gm.com中的即可

# 3.1 修改core-site.xml

文件最后  替换为


        
  fs.defaultFS
 
  hdfs://gm.com:9000
 
 
  hadoop.tmp.dir
    
  /usr/local/src/hadoop-3.3.1/data/tmp
 

# 3.2 修改hadoop-env.sh
将export   JAVA_HOME=${JAVA_HOME}

         修改为：

export   JAVA_HOME= 你jdk的安装路径

# 以下为我的设置 
# 该文件的配置需要三台机器都配置

# 3.3 修改hdfs-site.xml
# 文件最后  替换为


  dfs.namenode.http-address
 
  gm.com:50070
 
 
  dfs.namenode.name.dir
  /hadoop/name
 
 
  dfs.replication
   
  2
 
 
  dfs.datanode.data.dir
  /hadoop/data
 
 
# 3.4 修改mapred-site.xml
文件最后  替换为



  mapreduce.framework.name
  yarn
 


# 3.5 修改 workers
全部删除后加入之前设置的主机名或者ip

gm.com
gm.com-1
gm.com-2

# 3.6 修改yarn-site.xml文件
文件最后  替换为



 
  yarn.resourcemanager.hostname

  gm.com
 
 
  yarn.nodemanager.aux-services
  mapreduce_shuffle
 
 
  yarn.nodemanager.aux-services.mapreduce.shuffle.class
  org.apache.hadoop.mapred.ShuffleHandler
 

    yarn.nodemanager.resource.cpu-vcores

    1
 
 


# 启动Hadoop
1 在namenode上初始化
因为gm.com是namenode，gm.com-1和gm.com-2都是datanode，所以只需要对gm.com进行初始化操作，也就是对hdfs进行格式化。

在gm.com中进入 /usr/local/src/hadoop-3.3.1/bin 执行 cd   /usr/local/src/hadoop-3.3.1/bin

 执行初始化脚本，也就是执行命令：./hdfs namenode  -format

等待一会后，不报错返回 “Exiting with status 0” 为成功，“Exiting with status 1”为失败

2 在namenode上执行启动命令
进入gm.com中的/usr/local/src/hadoop-3.3.1/sbin 执行cd    /usr/local/src/hadoop-3.3.1/sbin

直接执行./start-all.sh 观察是否报错，如报错执行一下内容

$ vim sbin/start-dfs.sh
$ vim sbin/stop-dfs.sh

在空白位置加入

HDFS_DATANODE_USER=root
HADOOP_SECURE_DN_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root

 

$ vim sbin/start-yarn.sh 
$ vim sbin/stop-yarn.sh 

在空白位置加入
YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root

 

$ vim start-all.sh

$ vim stop-all.sh

TANODE_USER=root
HDFS_DATANODE_SECURE_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root
YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root

配置完毕后执行./start-all.sh

3 查看Hadoop进程
输入命令 jps
如果出现6个进程则为配置正确

输入http://192.168.1.85:50070 则可以看到

 

hdfs dfsadmin -safemode leave;    //退出安全模式

hdfs dfsadmin -safemode get;    //查看安全模式状态
 
hdfs dfsadmin -safemode forceExit;   //强制退出安全模式

Java

# 因为Hadoop是用Java语言编写的，所以计算机上需要安装Java环境，我在这使用JDK 1.8.0_211(推荐使用Sun JDK)

# 配置JAVA环境变量，在当前用户根目录下的/etc/profile文件最下面加入以下内容：
export JAVA_HOME=/usr/local/src/jdk1.8.0_211
export PATH=$JAVA_HOME/bin:$PATH

# 使用source命令让立即生效
source /etc/profile

# 测试是否安装成功
java -version

Hive 3.1.2安装（基于Centos7.x和Hadoop3.3.1）

https://mirrors.tuna.tsinghua.edu.cn/apache/hbase/stable/

背景
Hadoop大数据套件被应用后，进行数据处理就必须编写mapreduce代码。而相当一部分大数据处理需求都是进行数据的查询操作（实际数据库的操作中，读写操作比例也有80%：20%的说法）
Facebook的工程师也遇到这个问题。编写mapreduce对于程序员还是有一定门槛，但是会使用sql的人群更庞大。所以Facebook就发明了Hive，一个把sql语句转换为mapreduce代码的转换器。
不过Hive的使用场景，还是会有一些限制。既然是sql语句，则Hive转换的mapreduce所需要处理的数据就需要有结构跟数据库数据一样。同时Hive将sql转换为mapreduce代码是通过类似模板的操作
注意，Hive只是把Sql语句转换为mapreduce代码，也就是一个转换器。所以一般不需要安装集群，安装在一个节点即可。如果担心损坏，一般安装2台，切换者使用也可。
1. 安装环境
Centos7.x 安装教程
Hadoop 3.3.1
yarn安装教程
hdfs安装教程
mysql5.7mysql安装教程
hive 3.1.2
mysql 驱动（mysql-connector-java-5.1.43.jar， 可以去maven或者其他仓库获取）
2. 安装步骤
正常启动HDFS和YARN
在hadoop安装目录的sbin下，有一个start-all.sh脚本，当hdfs和yarn的配置都设置好之后，可以一键启动hdfs和yarn
如果不想使用这个一键启动脚本，也可以分别调用start-dfs.sh和start-yarn.sh2个脚本



安装mysql
查看mysql是否运行
netstat -nltp | grep 3306
tcp 0 0 0.0.0.0:3306
systemctl start mysqld 启动mysql服务
配置mysql的开机自启服务 systemctl enable mysqld
开启远程连接权限
登录mysql：
mysql -uroot -proot
执行sql语句：
mysql> set global validate_password_policy=0;
mysql> set global validate_password_length=1; 这个两个设置以后 密码很简单不会报错
开启远程连接权限：
mysql > grant all privileges on . to ‘root’@’%’ identified by ‘123456’ with grant option;
mysql > flush privileges;
mysql启动正常 开启远程连接
可以使用windows安装的navicat连接linux上的mysql服务器验证以下


上传hive的安装包
使用rz软件，或者其他方式如secureCRT的alt+p切换到上传模式，将压缩包上传到第三方软件安装目录下。linux一般第三方软件安装在opt或者usr目录下。我的是安装到/opt/apps目录下
在软件包所在目录下，执行解压缩的shell指令
tar -zxf apache-hive-3.1.2-bin.tar.gz

修改配置信息
在Hive的安装目录下，找到conf目录，我的目录路径如下opt/apps/hive-3.1.2/conf。将原本的脚本重命名.
cp hive-env.sh.template  hive-env.sh

编辑hive-env.sh脚本，添加内容。使用vi命令打开文件
 vi hive-env.sh
修改hive-env.sh
因为 Hive 使用了 Hadoop, 需要在 hive-env.sh 文件中指定 Hadoop 安装路径：
文本中，添加内容如下。第一行是指定hadoop的安装路径，第二行是指定Hive安装目录下的conf目录的路径。
export HADOOP_HOME=/opt/apps/hadoop-3.2.1/
export HIVE_CONF_DIR=/opt/apps/hive-3.1.2/conf/

在运行hive之前，必须创建两个路径/tmp和/user/hive/warehouse后，这样才能在hive中创建库和表
$HADOOP_HOME/bin/hadoop fs -mkdir       /tmp
$HADOOP_HOME/bin/hadoop fs -mkdir -p    /user/hive/warehouse
$HADOOP_HOME/bin/hadoop fs -chmod g+w   /tmp
$HADOOP_HOME/bin/hadoop fs -chmod g+w   /user/hive/warehouse


创建一个配置文件（在conf目录下）

执行如下shell命令
vi  hive-site.xml

将以下内容拷贝到这个新创建的xml文件中，注意替换javax.jdo.option.ConnectionURL值的mysql所在主机域名，注意替换mysql的账号和用户名。



javax.jdo.option.ConnectionURL
jdbc:mysql://doit01:3306/hive?createDatabaseIfNotExist=true&useSSL=false




javax.jdo.option.ConnectionDriverName
com.mysql.jdbc.Driver




javax.jdo.option.ConnectionUserName
root


javax.jdo.option.ConnectionPassword
123456



hive.metastore.warehouse.dir
/user/hive/warehouse



hive.exec.scratchdir
/user/hive/tmp




hive.querylog.location
/user/hive/log




hive.metastore.uris
thrift://gm.com:9083



 
hive.server2.thrift.port 
10000

 
hive.server2.thrift.bind.host 
0.0.0.0


hive.server2.webui.host
0.0.0.0




hive.server2.webui.port
10002


 
hive.server2.long.polling.timeout 
5000                               



hive.server2.enable.doAs
true



datanucleus.autoCreateSchema
false



datanucleus.fixedDatastore
true



hive.execution.engine
mr




编辑Hadoop安装目录中，配置文件中的core-site.xml文件，我的路径如下/opt/apps/hadoop-3.3.1/etc/hadoop/core-site.xml
执行以下shell命令,使用vi打开这个文件（如果喜欢vim，也可以使用yum 安装vim软件，比vi更强大，可配置更多功能）
vi /opt/apps/hadoop-3.3.1/etc/hadoop/core-site.xml 

打开后，在中添加以下三条配置信息,这些是关于hdfs的访问权限配置信息。

dfs.permissions.enabled
false



hadoop.proxyuser.root.hosts
*



hadoop.proxyuser.root.groups
*


拷贝一个mysql的jdbc驱动jar包到hive的lib目录中
将上面提到的mysql的驱动jar包，拷贝到Hive安装目录的lib目录下

重启Hadoop的hdfs和yarn
cd到Hadoop安装目录下的sbin目录，有一键停止hdfs和yarn的脚本

执行以下shell脚本
 stop-all.sh 
 start-all.sh
补充，实际一键启动和停止脚本本身内容就是分别调用了单独启动hdfs和yarn的脚本


解决hadoop3.3.1和hive3.1.2的冲突问题
先把hive的lib目录下的guava-19.jar删除或者加一个后缀名如.bak
rm -rf  xxx 这是删除指令
mv xxx xxx.bak这是修改文件名指令（在jar包文件后加.bak后缀，就可以让系统不再认为这是一个jar包，和删除一样的效果）

再从Hadoop的安装目录下拷贝更高版本的guava的jar包到hive的lib目录下，具体路径如下
hdfs下的guava所在路径：/opt/apps/hadoop-3.3.1/share/hadoop/common/lib/guava-27.0-jre.jar
hive中放置guava jar包路径: /opt/apps/hive-3.1.2/lib/
cp  /opt/apps/hadoop-3.2.1/share/hadoop/common/lib/guava-27.0-jre.jar  /opt/apps/hive-3.1.2/lib/

启动元数据服务（暂时不要执行这条指令，否则会报错)  hive --service metastore
后期运行可后台启动，防止窗口关闭，元数据服务关闭 nohup hive --service metastore &

本身Hadoop 3.3.1可以和Hive3.1.2完美兼容，但是Hadoop3.3.1和Hive3.1.2就不是很兼容，需要解决jar包冲突，这里执行这个指令，会报错。如果执行了，请忽略，继续执行下面的步骤。

初始化hive的元数据库
在Hive的bin目录下，执行以下shell指令。如果细心可以使用ll -a，会发现schematool 是一个可执行文件，文件读写执行的三个权限，最后一个权限是x，可执行。
./schematool -initSchema -dbType  mysql

这时候，在mysql数据库中，多出一个hive数据库 ，这是记录元数据信息的
这时候，在HDFS中的目录中， 根目录下有一个user目录，路径：/user/hive
在linux中配置hive的环境变量
linux的环境变量都是在/etc/profile文件中，注意linux的环境变量分割符号是冒号: windows操作系统环境变量分隔符是分号;
执行以下shell命令

打开配置文件
vi /etc/profile

在文件中添加环境变量
export  HIVE_HOME=/opt/apps/hive-3.1.2

让配置文件生效
source /etc/profile

启动hive
在Hive的bin目录下，或者任务路径下，输入 hive 这个指令，就可以启动Hive
出现如下效果，说明安装成功

输入以下sql语句，进行功能验证
show databases;
create database db_doit;
create table if not exists tb_user (id int , name string) ; 
show tables ;


# 修改版本编号
select * from VERSION;
update VERSION set VERSION_COMMENT='3.1.2' where  VER_ID=1;
update VERSION set SCHEMA_VERSION='3.1.2' where  VER_ID=1;

HBase

# 安装路径
wget https://mirrors.cnnic.cn/apache/hbase/2.4.4/hbase-2.4.4-bin.tar.gz

1. 安装环境
Centos 7.x 
Jdk 1.8
ZK 3.4.4
Hadoop 3.3.1

下载完成后，解压后移至/usr/local/src/
tar -zxvf hbase-2.4.4-bin.tar.gz
mv hbase-2.4.4 /usr/local/src/


scp -r zookeeper-3.4.10/ [email protected]:/usr/local/src

配置环境变量

# vim /etc profile 
# 文件中追加以下内容  
export HBASE_HOME=/home/hbase-2.4.4
export PATH=$HBASE_HOME/bin:$PATH

# 保存退出，然后source /etc/profile刷新以下环境变量

修改配置文件

cd /usr/local/src/hbase-2.4.4/conf
vi hbase-env.sh

# 加入如下配置
export JAVA_HOME=/usr/local/src/jdk1.8.0_211/
export HBASE_LOG_DIR=/usr/local/src/hbase-2.4.4/logs
export HBASE_MANAGES_ZK=false  # 关闭HBase自动单机版ZK

vi hbase-site.xml

#加入如下配置



  hbase.rootdir
  hdfs://192.168.1.85:9000/hbase
  指定Region服务器共享的目录，用来持久存储HBase的数据，URL必须完全正确，其中包含了文件系统的schema。默认值"${hbase.tmp.dir}/hbase"
 
 

  
    hbase.cluster.distributed
    true
  
  
  
    hbase.tmp.dir
    ./tmp
  
  
    hbase.unsafe.stream.capability.enforce
    false
  
  
    hbase.wal.provider
    filesystem
  






 
   hbase.zookeeper.quorum
   gm.com:2181,gm.com-1:2181,gm.com-2:2181
   配置zookeeper集群地址,不要指定znode路径,HBase会默认将元数据放在根znode
 
 

    hbase.master.maxclockskew
    120000


 
   hbase.zookeeper.property.dataDir
   /usr/local/src/zookeeper-3.4.10/data
 
	
 
    
      hbase.master.info.bindAddress
      192.168.1.85
      HBase Master 的 Web UI绑定的地址,默认值为"0.0.0.0"
    

    
      hbase.master.port
      60000
      HBase Master绑定端口,默认值为:"60000"
    

    
       hbase.master.info.port
       16010
       HBase Master的Web UI端口，默认值为:"16010",如果不想启动UI实例，则可以将当前参数设置为-1
    

       
     
        hbase.regionserver.port
        16020
        HBase RegionServer绑定的端口，默认值为:"16020".
     

     
        hbase.regionserver.info.port
        16030
        HBase RegionServer的Web UI端口，默认值为:"16030"设置为-1可以禁用HBase RegionServer的Web UI。
        

     
         hbase.regionserver.info.bindAddress
         0.0.0.0
         HBase RegionServer的Web UI地址,默认值为"0.0.0.0"

vi regionservers

#加入各节点名称
gm.com
gm.com-1
gm.com-2

# hbase shell 进入shell脚本界面，操作数据库

问题：

1、若报错显示未找到slf4j，请如下操作

http://www.java2s.com/Code/Jar/s/Downloadslf4jnop172jar.htm
slf4j-nop-1.7.2.jar下载地址

2、hadoop配置文件中core-site.xml 与 hbase-site.xml中服务ip名称地址务必一致

查看集群安全模式状态

hdfs dfsadmin -safemode get
# 如果返回Safe mode is OFF 就说明没问题
# 如果返回Safe mode is ON 就说明集群正处于安全模式(强制退出即可)
hdfs dfsadmin -safemode leave

# 如果返回其他就说明集群出问题了 例如 返回如下内容
safemode: Call From hadoop01/192.168.100.100 to hadoop01:8020 failed on connection exception: java.net.ConnectException: 拒绝连接; For more details see:  http://wiki.apache.org/hadoop/ConnectionRefused

检查之后发现是namenode掉了,重启了一下集群.

建议执行完上述的操作之后重启hbase

WPF中的ComboBox控件几种数据绑定的方式互联网打工人no1 wpf c#
一、用字典给ItemsSource赋值（此绑定用的地方很多，建议熟练掌握）在XMAL中：在CS文件中privatevoidBindData(){DictionarydicItem=newDictionary();dicItem.add(1,"北京");dicItem.add(2,"上海");dicItem.add(3,"广州");cmb_list.ItemsSource=dicItem;cmb_l
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Linux MariaDB使用OpenSSL安装SSL证书 Meta39 MySQL Oracle MariaDB Linux Windows ssl linux mariadb
进入到证书存放目录，批量删除.pem证书警告：确保已经进入到证书存放目录find.-typef-iname\*.pem-delete查看是否安装OpenSSLopensslversion没有则安装yuminstallopensslopenssl-devel开启SSL编辑/etc/my.cnf文件（没有的话就创建，但是要注意，在/etc/my.cnf.d/server.cnf配置了datadir的，
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
网络编程基础记得开心一点啊网络
目录♫什么是网络编程♫Socket套接字♪什么是Socket套接字♪数据报套接字♪流套接字♫数据报套接字通信模型♪数据报套接字通讯模型♪DatagramSocket♪DatagramPacket♪实现UDP的服务端代码♪实现UDP的客户端代码♫流套接字通信模型♪流套接字通讯模型♪ServerSocket♪Socket♪实现TCP的服务端代码♪实现TCP的客户端代码♫什么是网络编程网络编程，指网络上
关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解秋刀prince mysql mysql 数据库
提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
4.C_数据结构_队列荣世蓥数据结构数据结构
概述什么是队列：队列是限定在两端进行插入操作和删除操作的线性表。具有先入先出(FIFO)的特点相关名词：队尾：写入数据的一段队头：读取数据的一段空队：队列中没有数据，队头指针=队尾指针满队：队列中存满了数据，队尾指针+1=队头指针循环队列1、基本内容循环队列是以数组形式构成的队列数据结构。循环队列的结构体如下：typedefintdata_t;//队列数据类型#defineN64//队列容量typ
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
vue项目element-ui的table表格单元格合并酋长哈哈 vue.js elementui javascript 前端
一、合并效果二全部代码exportdefault{name:'CellMerge',data(){return{tableData:[{id:'1',name:'王小虎',amount1:'165',amount2:'3.2',amount3:10},{id:'1',name:'王小虎',amount1:'162',amount2:'4.43',amount3:12},{id:'1',name:'
python tif转png Python与遥感 python 开发语言
importosfromosgeoimportgdalimportnumpyasnpfromPILimportImage#提取432三波段fromspectralimport*#输入文件夹路径defget_img(dataset_img):width=dataset_img.RasterXSize#获取行列数height=dataset_img.RasterYSizebands=dataset_i
MongoDB知识概括 GeorgeLin98 持久层 mongodb
MongoDB知识概括MongoDB相关概念单机部署基本常用命令索引-IndexSpirngDataMongoDB集成副本集分片集群安全认证MongoDB相关概念业务应用场景：传统的关系型数据库（如MySQL），在数据操作的“三高”需求以及应对Web2.0的网站需求面前，显得力不从心。解释：“三高”需求：①Highperformance-对数据库高并发读写的需求。②HugeStorage-对海量数
Vue中table合并单元格用法 weixin_30613343 javascript ViewUI
地名结果人名性别{{item.name}}已完成未完成{{item.groups[0].name}}{{item.groups[0].sex}}{{item.groups[son].name}}{{item.groups[son].sex}}exportdefault{data(){return{list:[{name:'地名1',result:'1',groups:[{name:'张三',sex
Mongodb Error: queryTxt ETIMEOUT xxxx.wwwdz.mongodb.net 佛一脚 error react mongodb 数据库
背景每天都能遇到奇怪的问题，做个记录，以便有缘人能得到帮助！换了一台电脑开发nextjs程序。需要连接mongodb数据，对数据进行增删改查。上一台电脑好好的程序，新电脑死活连不上mongodb数据库。同一套代码，没任何修改，搞得我怀疑人生了，打开浏览器进入mongodb官网毫无问题，也能进入线上系统查看数据，网络应该是没问题。于是我尝试了一下手机热点，这次代码能正常跑起来，连接数据库了！！！是不
uniapp map组件自定义markers标记点以对_ uni-app学习记录 uni-app javascript 前端
需求是根据后端返回数据在地图上显示标记点，并且根据数据状态控制标记点颜色，标记点背景通过两张图片实现控制{{item.options.labelName}}exportdefault{data(){return{storeIndex:0,locaInfo:{longitude:120.445172,latitude:36.111387},markers:[//标点列表{id:1,//标记点idin
入门MySQL——查询语法练习 K_un
前言：前面几篇文章为大家介绍了DML以及DDL语句的使用方法，本篇文章将主要讲述常用的查询语法。其实MySQL官网给出了多个示例数据库供大家实用查询，下面我们以最常用的员工示例数据库为准，详细介绍各自常用的查询语法。1.员工示例数据库导入官方文档员工示例数据库介绍及下载链接：https://dev.mysql.com/doc/employee/en/employees-installation.h
放松的一天 4da9b7687fa0
20190325总结起床07:20图片发自App睡觉:23:00天气:晴今日任务清单学习·信息·阅读•水滴阅读Day40Alice’sAdventuresinWonderlandChapter6.2图片发自App•BBC跟读训练营Day24图片发自App图片发自App图片发自App•潘多拉口语训练营Day6Wow.Whatabigboy!•文化知识学习今日无•阅读时间地狱健康·饮食·锻炼•饮食目标
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
vue + Element UI table动态合并单元格我家媳妇儿萌哒哒 element UI vue.js 前端 javascript
一、功能需求1、根据名称相同的合并工作阶段和主要任务合并这两列，但主要任务内容一样，但要考虑主要任务一样，但工作阶段不一样的情况。（枞向合并）2、落实情况里的定量内容和定性内容值一样则合并。（横向合并）二、功能实现exportdefault{data(){return{tableData:[{name:'a',address:'1',age:'1',six:'2'},{name:'a',addre
Python实现TIFF 文件转换为 PNG 和 JPG 格式 sand&wich python 开发语言
在日常的图像处理工作中，可能会遇到需要将TIFF格式的图像转换为其他格式的情况，例如PNG和JPG。下面，本文将介绍如何使用Python和GDAL库实现这一功能。准备工作在开始之前，请确保已经安装了必要的库：GDAL（GeospatialDataAbstractionLibrary）可以使用以下命令安装GDAL：pipinstallgdal代码实现以下是一个将TIFF文件转换为PNG文件的示例代码
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class

大数据集群环境部署(Hadoop-3.3.1 + Hive-3.1.2 + HBase-2.4.4)

大数据集群环境部署

Hadoop

Java

Hive 3.1.2安装（基于Centos7.x和Hadoop3.3.1）

HBase

配置环境变量

修改配置文件

你可能感兴趣的:(大数据,hadoop,hive,big,data,hdfs,数据库)