Lionel�

Ubuntu环境Hadoop三种运行模式搭建

Hadoop三种运行模式搭建

Hadoop笔记
- 实验环境
- 1、Hadoop的三种运行模式（启动模式）
- - 1.1、单机模式（独立模式）（Local或Standalone Mode）
  - 1.2、伪分布式模式（Pseudo-Distrubuted Mode）
  - 1.3、全分布式集群模式（Full-Distributed Mode）
- 2、Hadoop单例模型搭建
- - 2.1 安装SSH和JDK
  - 2.2 安装Hadoop
  - 2.3 测试hadoop自带wordcount程序
- 3、Hadoop伪分布式模型搭建
- - 3.1 修改配置文件
  - 3.2 设置无密码SSH
  - 3.3 启动集群
- 4、Hadoop集群模式部署
- - 4.1 在非安全模式下配置Hadoop
  - 4.2 准备工作
  - 4.3 配置Hadoop
  - - 4.3.1 配置主服务器
    - 4.3.2 配置子节点
    - 4.3.3 格式化
  - 4.4 启动Hadoop集群

Hadoop笔记

实验环境

Ubuntu 18.04
jdk1.8.251
Hadoop3.1.3

1、Hadoop的三种运行模式（启动模式）

1.1、单机模式（独立模式）（Local或Standalone Mode）

默认情况下，Hadoop即处于该模式，用于开发和调式。
不对配置文件进行修改。
使用本地文件系统，而不是分布式文件系统。
Hadoop不会启动NameNode、DataNode、JobTracker、TaskTracker等守护进程，Map()和Reduce()任务作为同一个进程的不同部分来执行的。
用于对MapReduce程序的逻辑进行调试，确保程序的正确。

1.2、伪分布式模式（Pseudo-Distrubuted Mode）

Hadoop的守护进程运行在本机机器，模拟一个小规模的集群
在一台主机模拟多主机。
Hadoop启动NameNode、DataNode、JobTracker、TaskTracker这些守护进程都在同一台机器上运行，是相互独立的Java进程。
在这种模式下，Hadoop使用的是分布式文件系统，各个作业也是由JobTraker服务，来管理的独立进程。在单机模式之上增加了代码调试功能，允许检查内存使用情况，HDFS输入输出，以及其他的守护进程交互。类似于完全分布式模式，因此，这种模式常用来开发测试Hadoop程序的执行是否正确。
修改3个配置文件：core-site.xml（Hadoop集群的特性，作用于全部进程及客户端）、hdfs-site.xml（配置HDFS集群的工作属性）、mapred-site.xml（配置MapReduce集群的属性）
格式化文件系统

1.3、全分布式集群模式（Full-Distributed Mode）

Hadoop的守护进程运行在一个集群上
Hadoop的守护进程运行在由多台主机搭建的集群上，是真正的生产环境。
在所有的主机上安装JDK和Hadoop，组成相互连通的网络。
在主机间设置SSH免密码登录，把各从节点生成的公钥添加到主节点的信任列表。
修改3个配置文件：core-site.xml、hdfs-site.xml、mapred-site.xml，指定NameNode和JobTraker的位置和端口，设置文件的副本等参数
格式化文件系统

参考：

https://www.cnblogs.com/zhangyinhua/p/7647686.html

https://hadoop.apache.org/docs/stable/index.html

2、Hadoop单例模型搭建

默认情况下，Hadoop被配置为在非分布式模式下作为单个Java进程运行。这对于调试很有用。

2.1 安装SSH和JDK

更新apt包
```
sudo apt-get update
```

安装SSH server

sudo apt-get install openssh-server

通过以下命令登录本机和退出

ssh localhost
exit

安装JDK

检查是否已经安装
```
java -version
```
官网下载JDK
这里选择的是： jdk-8u251-linux-x64.tar.gz

先在/usr/local/路径下创建名为java的文件夹，将下载好的包移到改文件夹下，并解压

mkdir /usr/local/java
sudo mv 下载的包的路径/jdk-8u251-linux-x64.tar.gz /usr/local/java
sudo tar -xvzf jdk-8u251-linux-x64.tar.gz

配置环境变量
编辑/etc/bash.bashrc文件

sudo vim /etc/bash.bashrc

在末尾加上如下语句

JAVA_HOME=/usr/local/java/jdk1.8.0_251
PATH=$PATH:$HOME/bin:$JAVA_HOME/bin
export JAVA_HOME
export PATH

使配置文件生效

source /etc/bash.bashrc

2.2 安装Hadoop

下载安装镜像
可以去镜像：https://mirrors.cnnic.cn/apache/hadoop/common/
这里选择：hadoop0-3.1.3

解压到/usr/local/文件夹下

sudo tar -xvzf 镜像位置/hadoop-3.1.3.tar.gz  /usr/local

解压的文件夹名为hadoop-3.1.3，可以重命名
```
sudo mv hadoop-3.1.3 hadoop
```
检测
```
 ./usr/local/hadoop/bin/hadoop version
```
如果在hadoop文件夹下可以直接使用hadoop命令

设置环境变量
如果没有设置环境变量使用hadoop需要进入到/usr/local/hadoop/bin或/usr/local/hadoop/sbin目录下，设置环境变量后可以直接使用hadoop命令。

编辑/etc/bash.bashrc文件
```
vim /etc/bash.bashrc
```

修改之前配置的内容

export JAVA_HOME=/usr/local/java/jdk1.8.0_181
export JRE_HOME=${JAVA_HOME}/jre
export HADOOP_HOME=/usr/local/hadoop
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:$PATH

是文件生效
```
source /etc/bash.bashrc
```

2.3 测试hadoop自带wordcount程序

进入到hadoop文件夹，创建一个文件test1.txt用于作为wordcount程序的输入
```
cd /usr/local/hadoop
touch test1.txt
vim test1.txt
```
在hdfs中创建input文件夹
```
bin/hadoop fs -mkdir input
```
将test1.txt文件放到hdfs的input目录下
```
bin/hadoop fs -put test1.txt input
```
查看是否正确传入
```
bin/hadoop fs -ls input
```
在share/hadoop/mapreduce/目录下有很多jar包，其中我们需要执行的wordcount程序就在hadoop-mapreduce-examples-3.1.3.jar中

执行wordcount程序

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount input/ output

输出结果在output目录下
```
bin/hadoop fs -cat output/part-r-00000
```
结果截图：

参考：

https://blog.csdn.net/weixin_42001089/article/details/81865101

https://www.pianshen.com/article/4237698469/

3、Hadoop伪分布式模型搭建

伪分布式需要修改2个配置文件core-site.xml和hdfs-site.xml，路径为/usr/local/hadoop/etc/hadoop

3.1 修改配置文件

编辑core-site.xml文件

vim core-site.xml

在标签中添加如下配置

<configuration>
        <property>
                <name>hadoop.tmp.dirname>
                <value>/usr/local/hadoop/tmpvalue>
                <description>Abase for other temporary directories.description>
        property>
        <property>
                <name>fs.defaultFSname>
                <value>hdfs://localhost:9000value>
        property>
configuration>

编辑hdfs-site.xml文件
```
vim hdfs-site.xml
```
在标签中添加如下配置
```
<configuration>
        <property>
                <name>dfs.replicationname>
                <value>1value>
        property>
        <property>
                <name>dfs.namenode.name.dirname>
                <value>/usr/local/hadoop/tmp/dfs/namevalue>
        property>
        <property>
                <name>dfs.datanode.data.dirname>
                <value>/usr/local/hadoop/tmp/dfs/datavalue>
        property>
configuration>
```
这里的dfs.replication就是指备份的份数

配置说明：（这里粘贴一下原博主的话吧）
Hadoop的运行方式是由配置文件决定的（运行Hadoop时会读取配置文件），因此如果需要从伪分布模式切换到非分布式模式，需要删除core-site.xml中的配置项。
此外，伪分布式虽然只需要配置fs.defaultFS和dfs.replication就可以运行（官方教程如此)，不过若没有配置hadoop.tmp.dir参数，则默认使用的临时目录为/tmp/hadoop-hadoop，而这个目录在重启时有可能被系统清理掉，导致必须重新执行format才行。所以进行了设置，同时也指定dfs.namenode.name.dir和dfs.datanode.data.dir，否则在接下来的步骤中可能会处错

3.2 设置无密码SSH

进入.ssh文件夹
```
cd ~/.ssh
```
使用rsa算法生成秘钥和公钥对
```
ssh-keygen -t rsa
```
然后一路回车，其中默认秘钥和公钥对的保存位置为.ssh/id_rsa，直接回车即选择默认，之后输入ssh登录密码生成秘钥和公钥对。
把公钥加入授权
公钥保存位置为~/.ssh/id_rsa.pub
```
cat ./id_rsa.pub >> ./authorized_keys 
```

3.3 启动集群

格式化文件系统
```
./bin/hdfs namenode -format
```
启动NameNode守护程序和DataNode守护程序
```
./sbin/start-dfs.sh
```
验证
```
jps
```
同时出现以上四个即成功

参考：

https://blog.csdn.net/weixin_42001089/article/details/81865101

https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html

4、Hadoop集群模式部署

4.1 在非安全模式下配置Hadoop

Hadoop的Java配置由两种重要的配置文件驱动：

只读默认配置- core-default.xml，hdfs-default.xml，yarn-default.xml和mapred-default.xml中。
特定于站点的配置-etc / hadoop / core-site.xml，etc / hadoop / hdfs-site.xml，etc / hadoop / yarn-site.xml和etc / hadoop / mapred-site.xml。

此外，您可以通过在etc / hadoop / hadoop-env.sh和etc / hadoop / yarn-env.sh中设置特定于站点的值，来控制在发行版的bin /目录中找到的Hadoop脚本。

要配置Hadoop集群，您将需要配置Hadoop守护程序执行的环境以及Hadoop守护程序的配置参数。

HDFS守护程序是NameNode，SecondaryNameNode和DataNode。

YARN守护程序是ResourceManager，NodeManager和WebAppProxy。

如果要使用MapReduce，则MapReduce Job History Server也将运行。

对于大型安装，它们通常在单独的主机上运行

4.2 准备工作

准备三台虚拟机

先配置一台新的ubuntu虚拟机，安装配置jdk和hadoop，然后直接克隆两个虚拟机。
参考2.1和2.2
修改三个虚拟机的主机名
```
sudo vim /etc/hostname
```
修改、保存、重启即可
通过主机名Ping通三台虚拟机
如果不成功，修改/etc/hosts文件
```
sudo vim /etc/hosts
```
将三台虚拟机的ip地址和主机名加入到文件末尾，每个一行。
SSH无密码验证配置

参考3.2完成本机无密码登录
主服务器SSH无密码登录从服务器

在从服务器上，通过一下命令将主服务器的公钥id_rsa.pub拷贝到从服务器中，并授权
```
cd ~/.ssh
scp parallels@xiangyoulin001:~/.ssh/id_rsa.pub ./master_rsa.pub
cat master_rsa.pub >> authorized_keys
```
两台从服务器都操作完后，主服务器就可以无密码登录从服务器了。
注意
登录其他主机时，如果两台虚拟机用户名相同，可以直接通过主机名登录；如果用户名不相同，需要以用户名@主机名的方式连接登录。

4.3 配置Hadoop

4.3.1 配置主服务器

需要配置的文件共有5 个，都在/usr/local/hadoop/ect/hadoop目录下
- core-site.xml
- hdfs-site.xml
- mapred-site.xml
- yarn-site.xml
- workers
配置core-site.xml

<configuration>
        <property>
          			
                <name>fs.defaultFSname>
                <value>hdfs://xiangyoulin001:9000value>
        property>
        <property>
          			
                <name>hadoop.tmp.dirname>
                <value>/usr/local/hadoop/data/tmpvalue>  
        property>
        <property>
          			
                <name>fs.trash.intervalname>
                <value>10080value>
        property>
configuration>

根据配置的临时文件目录，在相应目录先创建文件夹

cd /usr/local/hadoop
sudo mkdir -p data/tmp

配置hdfs-site.xml

<configuration>
        <property>
          			
                <name>dfs.namenode.secondary.http-addressname>
                <value>xiangyoulin003:50090value>
        property>
configuration>

配置mapred-site.xml

<configuration>
        <property>
                
                <name>mapreduce.framework.namename>
                <value>yarnvalue>
        property>
        <property>
          			
                <name>mapreduce.jobhistory.addresname>
                <value>xiangyoulin001:10020value>
        property>
        <property>
          			
                <name>mapreduce.jobhistory.webapp.addressname>
                <value>xiangyoulin001:19888value>
        property>
configuration>

配置yarn-site.xml

<configuration>

        <property>
          			
                <name>yarn.nodemanager.aux-servicesname>
                <value>mapreduce_shufflevalue>
        property>
        <property>
          			
                <name>yarn.resourcemanager.hostnamename>
                <value>xiangyoulin002value>
        property>
        <property>
          			
                <name>yarn.log-aggregation-enablename>
                <value>truevalue>
        property>
configuration>

配置workers

localhost
xiangyoulin001
xiangyoulin002
xiangyoulin003

添加三台机器的主机名或ip，每个一行。

！注意：

这里我用的是hadoop3.1.3，3以前的workers文件叫salves。如果配置不对，其他从节点无法分配到datanode。
这里是官方教程的说明

4.3.2 配置子节点

根据以下命令，将配置好的Hadoop复制到子节点

cd /usr/local
scp -r hadoop/ parallels@xiangyoulin002:/usr/local
scp -r hadoop/ parallels@xiangyoulin003:/usr/local

4.3.3 格式化

hadoop namenode -format

三台机器都执行一次格式化

4.4 启动Hadoop集群

启动集群

start-all.sh

启动jobhistoryserver

mr-jobhistory-daemon.sh start historyserver

分别使用jps命令查看部署情况
关闭hadoop集群

stop-all.sh

关闭jobhistoryserver

mr-jobhistory-daemon.sh stop historyserver

参考

https://blog.csdn.net/u014636511/article/details/80171002

https://www.cnblogs.com/zhangyinhua/p/7652686.html

https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/ClusterSetup.html

你可能感兴趣的:(hadoop,分布式,linux,大数据)

【C++开源库】tinyxml2解析库使用介绍小庞在加油 C++知识 c++开源 tinyxml2解析库
TinyXML-2是一个在C++中使用的轻量级、简单且高效的XML解析库。它由LeeThomason开发，旨在提供快速解析和生成XML数据的功能，同时保持代码的简洁性和易于使用。TinyXML-2支持多种编译器和平台，包括Windows、Linux和macOS。特点与优势简单易用：TinyXML-2提供了直观的API，使得解析和生成XML文档变得简单。高性能：它经过优化，能够快速解析大型XML文件
事务回滚核心技术 KBkongbaiKB java
一、事务回滚的数学本质与核心挑战1.1事务状态机模型操作执行持久化完成系统故障事务回滚ActivePartiallyCommittedCommittedFailedAborted1.2核心技术挑战矩阵问题维度单机事务分布式事务原子性保证存储引擎WAL日志二阶段提交协议隔离性实现MVCC多版本控制全局锁调度机制可见性管理事务ID版本链向量时钟同步回滚触发条件SQL执行异常/死锁网络分区/节点故障二、
IDC权威认证！永洪科技入选 IDC「GBI图谱」，点亮生成式 BI 价值灯塔永洪科技科技人工智能 BI 大数据数据分析
大数据市场正在稳步前进，生成式AI已成为厂商服务的重点方向，其发展离不开数据底座建设和数据工程管理，反过来AI也会帮助开发运维人员、业务人员和管理层更好地使用、查询数据。IDC调研数据显示，在生成式AI的驱动下，未来5年企业在数据管理和数据分析基础设施建设的投资增长率将分别达到8.7%和9.2%。近日，国际咨询机构IDC发布了《中国数据智能市场生态图谱V5.0》，在这一领域，永洪科技以其创新前沿的
打造金融数据新引擎，看永洪科技助力头部农信社搭建一站式分析平台永洪科技金融数据可视化 BI 数据分析大数据
在数字化转型的浪潮中，金融行业作为经济发展的核心引擎，正加速探索数字化、智能化的新路径。永洪科技，近日成功助力某省农村信用社联合社（简称：Z企业）完成了其数字化转型的重要一步，通过部署先进的商业智能解决方案，为Z企业的业务升级与效能提升注入了强劲动力。随着智能金融时代的来临，以大数据、人工智能、移动互联等新兴技术为核心的金融科技持续赋能银行金融业务数字化、智能化、开放化的发展，为金融机构营销体系的
读书笔记五 ---大数据之路--数仓分层 qq_38215991 big data 大数据
数据分层在流式数据模型中,数据模型整体上分为五层。ODS层跟离线系统的定义一样,ODS层属于操作数据层,是直接从业务系统采集过来的最原始数据（进行了数据清洗）,包含了所有业务的变更过程,数据粒度也是最细的。在这一层,实时和离线在源头上是统一的,这样的好处是用同一份数据加工出来的指标,口径基本是统一的,可以更方便进行实时和离线问数据比对。例如:原始的订单变更记录数据、服务器引擎的访同日志。（原始数据
从零开始学习 Go 语言九班长 Golang 学习 golang 后端开发语言 gin
Go语言（又称Golang）是由Google开发的一种静态强类型、编译型、并发型编程语言。它以其简洁的语法、高效的并发支持和强大的标准库而闻名，非常适合开发高性能的服务器端应用、分布式系统和云计算工具。本文将从零开始，详细介绍如何学习Go语言，涵盖基础语法、核心概念、并发编程、工具链和实战项目等内容。1.Go语言简介1.1Go语言的特点简洁易学：语法简洁，学习曲线平缓。高效编译：编译速度快，生成的
使用ssh-keygen命令生成密钥对无密码远程登陆linux主机哎哟喂我去 rhel6
我们在工作或试验中经常会需要登录多台linux主机进行操作，开启过多的ssh登陆界面，在不同的主机间切换时是非常让人的抓狂一件事情，只登陆一台linux主机然后通过此主机ssh登陆到其他主机这样是比较好的一种方式，但是在ssh登陆到其他主机时频繁的输入密码会让我们一直做重复的输入密码的工作，那有没有可以自动记住密码，或者不需要输入密码的工具呢？linux自带的ssh-kengen命令可以让我们轻松
PyQt6/PySide6 的 QSettings 类（配置管理）燃灯工作室 Pyside python 开发语言
一、QSettings核心机制存储原理：基于键值对的持久化存储Windows：注册表路径HKEY_CURRENT_USER\Software\[组织名]\[应用名]macOS：~/Library/Preferences/[组织名].[应用名].plistLinux：~/.config/[组织名]/[应用名].conf基础代码框架：fromPySide6.QtCoreimportQSettings#
Linux find 命令完全指南可问可问春风 Linux从新手到入门 linux chrome 运维
find是Linux系统最强大的文件搜索工具，支持嵌套遍历、条件筛选、执行动作。以下通过场景分类解析核心用法，涵盖高效搜索、文件管理及高级技巧：一、基础搜索模式1.按文件名搜索（精确/模糊匹配）find/path-name"*.log"#精确匹配.log后缀（区分大小写）find/home-iname"*.TXT"#模糊匹配.txt后缀（忽略大小写）find.-name"data_[0-9].cs
Linux内核网络设备注册与地址族协同机制深度解析 109702008 #C语言编程网络网络人工智能 c语言
在Linux网络子系统中，网络设备注册与地址族（AddressFamily）的协同工作机制是构建高性能网络应用的核心基础。本文将以IPoIB（InfiniBandoverIP）驱动为例，深入解析register_netdev函数在设备注册中的作用，地址族的选择对网络通信的影响，以及如何通过自定义协议实现灵活的网络控制。一、网络设备注册机制解析1.1register_netdev的核心作用regis
linux系统安全加固 xiejin007 linux运维 linux 运维
linux系统安全加固linux系统安全加固linux系统安全加固脚本系统加固脚本下载地址：https://download.csdn.net/download/hzgnet2021/63201374时间获取脚本开头先获取本机时间#Variablerq=`date+%Y%m%d`Linux禁用不使用的用户将passwd先复制一份备份，然后将以下不使用的用户都禁用，如后期有需要恢复可使用passwd
Linux进程间通信：消息队列与msgget函数使用详解无形小手
本文还有配套的精品资源，点击获取简介：本文深入介绍了Linux消息队列的创建和操作方法，包括msgget()、msgsnd()和msgrcv()三个核心函数。介绍了通过消息队列实现进程间通信的基础实验步骤和关键要点，如键值计算、消息发送和接收，以及进程间通信时常见的权限控制、消息顺序、类型匹配和同步问题。通过学习这些内容，开发者能够更好地理解和掌握如何在项目中实现高效的进程间通信。1.Linux消
麒麟服务器操作系统Redis部署手册太极淘麒麟操作系统管理工具服务器 redis 运维
软件简介Redis****介绍REmoteDIctionaryServer(Redis)是一个由SalvatoreSanfilippo写的key-value存储系统，是跨平台的非关系型数据库。Redis是一个开源的使用ANSIC语言编写、遵守BSD协议、支持网络、可基于内存、分布式、可选持久性的键值对(Key-Value)存储数据库，并提供多种语言的API。Redis通常被称为数据结构服务器，因为
Linux系统安全防护加固寰宇001 Ubuntu centos
账号和口令1.1删除系统不需要的默认账号操作步骤使用命令userdel删除不必要的账号。使用命令passwd-l锁定不必要的账号。使用命令passwd-u解锁必要的账号。#userdellp#groupdellp#passwd–llp如果下面这些系统默认帐号不需要的话，建议删除。lp,syncnews,uucp,games,bin、man修改一些系统帐号的shell变量，例如uucp,ftp和ne
Linux系统安全加固基础 linux言叙 Linux安全系统加固 linux centos 运维
注：建议在修改相关配置文件时，首先对需要修改文件进行备份。1、ssh远程连接vi/etc/sshd/sshd_configPort65531#修改ssh端口，默认22ListenAddress192.168.1.X#允许ssh登录的IP地址PermitRootLoginno#禁止root通过ssh连接）[email protected].*#允许用户test从IP为192.168.1
在华为鲲鹏服务器银河麒麟V10操作系统中安装docker及docker-pose qinfeng1991 服务器 docker eureka
背景最近客户寄来几台为鲲鹏服务器，需要在上面安装docker及docker-compose以便运行我们的程序，跟常规的X86架构下安装docker和docker-compose稍微有些区别，特此记录。操作步骤0.系统版本查看[root@localhostcrcs-compile]#cat/etc/kylin-releaseKylinLinuxAdvancedServerreleaseV10(Lan
Linux信号处理详解：从基本概念到高级应用 chian-ocean Linux linux 信号处理运维
个人主页：chian-ocean文章专栏-Linux前言：在Linux系统中，信号（Signal）是操作系统用来通知进程发生某些事件的一种机制。信号是一种软件中断机制，可以被进程用来响应特定的事件，如终止进程、暂停进程、重新加载配置等。信号机制是Unix及其衍生系统的核心功能之一什么是信号生活中的信号也可以理解为一种通过特定方式传递信息、指令或警告的方式。在日常生活中，信号无处不在，帮助我们理解周
Nginx + CertBot 配置HTTPS泛域名证书(Rocky Linux 9.4)
#安装nginx此步省略，以nginx安装在'/usr/local/nginx-1.23.3'目录为例#1.安装certbot#更新包列表sudodnfupdate#安装EPEL仓库：EPEL仓库提供了许多有用的软件包，包括certbotsudodnfinstall-yepel-release#安装Certbot和Nginx插件。dnfinstall-ycertbotpython3-certbot
【Windows下的PowerShell VS Linux下的Bash】中古传奇 Linux windows linux bash
Windows下的PowerShellVSLinux下的Bash1文件和目录操作1.1列出目录内容1.2进入其他目录1.3显示当前目录1.4创建目录1.5删除文件或目录1.6复制文件或目录1.7移动文件或目录1.8创建文件1.9查看文件内容1.20输出文本1.21重定向输出到文件2系统信息和管理2.1查看进程2.2终止进程2.3查看进程并按CPU排序2.4获取系统信息2.5查看磁盘使用情况2.6查
使用LangGraph迁移MapReduceDocumentsChain进行长文档的摘要 dgay_hua python
在大数据处理和文本分析领域，MapReduce是一种非常重要的策略，用于处理和分析大型数据集。具体到文本处理方面，MapReduceDocumentsChain구현了一种map-reduce策略，可以有效地处理长文本。本文将介绍如何从MapReduceDocumentsChain迁移到LangGraph，并探讨LangGraph在流处理、检查点恢复等方面的优势。技术背景介绍MapReduceDoc
DMDDM文档数据库学习分享合作愉快：）数据库学习
达梦新云文档数据库（简称DMDDM），是一款由达梦公司独立研发的分布式原生文档数据库产品。一、关键特性1、高性能、高可用性：DMDDM文档数据库支持快速的数据读写操作，能够满足高性能应用的需求。支持主备集群和分布式集群部署方式，单个节点故障不影响整个系统的正常运行。提供DDM-Meta、DDM-Store和DDM-Engine三个核心组件，分别负责存储数据库元数据和集群调度、存储实际的数据库数据以
Qt上位机编程命名规范-执行版有追求的菜鸟 qt 开发语言
主要规范原则参考Qt上位机编程命名规范。1.文件/文件夹大小写分析考虑跨平台性，全小写是一种约定俗成的风格，在许多大型开源项目中（如Linux内核、Python标准库）被广泛使用。1.1.配合文件扩展名通常文件名小写配合小写扩展名（如.h,.cpp,.json），使整体风格统一：main.cppconfig.jsonutils.h1.2.文件夹和pri文件命名通常小写、下划线分开：control_
Python用Bokeh处理大规模数据可视化的最佳实践一键难忘 Bokeh python 开发语言
用Bokeh处理大规模数据可视化的最佳实践在大规模数据处理和分析中，数据可视化是一个至关重要的环节。Bokeh是一个在Python生态中广泛使用的交互式数据可视化库，它具有强大的可扩展性和灵活性。本文将介绍如何使用Bokeh处理大规模数据可视化，并提供一些最佳实践和代码实例，帮助你高效地展示大数据集中的重要信息。1.为什么选择Bokeh？Bokeh是一个专为浏览器呈现而设计的可视化库，它支持高效渲
RK3568平台（音频篇）音频ALSA框架嵌入式_笔记瑞芯微音视频
一.ALSA框架简介ALSA表示先进linux声音架构（AdvancedLinuxSoundArchiecture），它由一系列的内核驱动、应用程序编程接口（API）以及支持linux下声音的应用程序组成、ALSA项目发起的原有是linux下的声卡驱动（OSS）没有获得积极的维护，而且落后于新的声卡技术。JaroslavKysela早先写了一个声卡驱动，并由此开始了ALSA项目，随后，更多的开发者
Windows和Linux系统上的Mamba_ssm环境配置清纯世纪笔记 python 深度学习人工智能
目录一、Linux系统安装二、Win系统安装1）、安装causal_conv1d1、第一种方法2、第二种方法（感觉可靠）3、第三种方法：直接下载大神编译好的文件进行安装2）、安装mamba-ssm1、第一种方法2、第二种方法：直接下载大神编译好的文件进行安装一、Linux系统安装如果自己的系统不是cuda11.8，那么需要先创建一个新环境来安装对应的cuda版本：condacreate-nyour
Vision mamba(mamba_ssm)安装踩坑指南 ggitjcg 深度学习 python
在这篇博客中，我将分享我在linux环境安装和使用VisionMamba（mamba_ssm）过程中遇到的一些问题和解决方法。前置检查：PyTorch和Python版本在安装mamba_ssm前，请确保你的PyTorch和Python环境版本正确。以下代码可用来检查环境信息：importtorchprint("PyTorchVersion:{}".format(torch.__version__)
分页优化之——游标分页 PhilipJ0303 Java面试 java 数据库优化游标分页分页查询
游标分页（Cursor-basedPagination）是一种高效的分页方式，特别适用于大数据集和无限滚动的场景。与传统的基于页码的分页（如page=1&size=10）不同，游标分页通过一个唯一的游标（通常是时间戳或唯一ID）来标记分页的位置，避免了传统分页在数据变动时的重复或遗漏问题。以下是游标分页在前后端的实现方式：1.游标分页的核心概念游标（Cursor）：游标是一个唯一标识符，通常是数据
gamma软件在linux,GAMMA软件的InSAR处理流程森见灯笼 gamma软件在linux
《GAMMA软件的InSAR处理流程》由会员分享，可在线阅读，更多相关《GAMMA软件的InSAR处理流程(27页珍藏版)》请在人人文库网上搜索。1、基于GAMMA软件的InSAR处理流程,大纲,GAMMA简介InSAR干涉处理流程-步骤-示例差分干涉测量及地理编码流程-步骤-示例,GAMMA简介,Source:Swisscorporation(Aktiengesellschaft-AG)foun
Hadoop 集群规划与部署最佳实践 AI天才研究院 Python实战 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2009年2月2日，ApacheHadoop项目诞生。它是一个开源的分布式系统基础架构，用于存储、处理和分析海量的数据。Hadoop具有高容错性、可靠性、可扩展性、适应性等特征，因而广泛应用于数据仓库、日志分析、网络流量监测、推荐引擎、搜索引擎等领域。由于Hadoop采用“分而治之”的架构设计理念，因此可以轻松应对数据量、计算能力和存储成本的增长。2013年底，
轻松入门Apache SeaTunnel：数据集成利器窝窝和牛牛 SeaTunnel ETL 数据集成
文章目录轻松入门ApacheSeaTunnel：数据集成利器什么是SeaTunnel基本原理运行流程SeaTunnelvsDataX：两大数据集成工具对比实战场景：MySQL数据同步至ElasticsearchSeaTunnel实现方案DataX实现方案实现原理对比底层依赖环境方案优缺点分析快速上手环境准备简单示例总结轻松入门ApacheSeaTunnel：数据集成利器什么是SeaTunnelAp
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。