wy_0928

hadoop2.x单机搭建分布式集群超详细教程

【前言】

1.个人PC机配置：戴尔，笔记本，内存8G，硬盘西数500G，CPU酷睿i5

2.由于工作中需要经常在集群上做测试，另外我一直想学习大数据，因此结合百度+同事，有了此篇教程，初学者，不足之处，可在下方留言

【准备工作】

下载如下5个软件：

1.VMware，版本10

2.CentOS系统iso镜像，版本6.5

3.Xshell软件

4.jdk，linux版本1.8

5.hadoop软件包，版本2.7

【注：为方便起见，教程中所有密码均设置为123456】

【搭建步骤】

1.安装VMware软件

详见我博客：

http://blog.csdn.net/wy_0928/article/details/51320437

http://blog.csdn.net/wy_0928/article/details/51320549

2.安装CentOS虚拟机系统以及配置网络和远程连接

详见我博客：

网络设置为NAT模式

http://blog.csdn.net/wy_0928/article/details/51320640

博客中用的是SecureCRT工具，个人目前偏爱Xshell，连接方法很简单，这里不赘述

此时ifconfig查看网卡，应该直接有ip了，试着在虚拟机和本地宿主机ping下：

切换root用户：

3.关闭虚拟机防火墙

首先查看当前防火墙状态：

关闭防火墙：

查看iptables服务是否开启：

hadoop2.x单机搭建分布式集群超详细教程_第4张图片

重启虚拟机：

4.安装并配置jdk

这部分用root权限操作

（1）先输入jave-version查看当前jdk版本，不是1.8就先删除已有版本的jdk软件包：

hadoop2.x单机搭建分布式集群超详细教程_第5张图片

（2）去oracle官网下载jdk1.8的Linux版本（记得下载rpm自安装版本），然后上传到/usr/local/src目录；

（3）输入如下命令开始安装jdk：

rpm -i jdk-8u91-linux-i586.rpm

等待安装完成

hadoop2.x单机搭建分布式集群超详细教程_第6张图片

在/usr/java路径下查看是否有jdk1.8文件夹：

hadoop2.x单机搭建分布式集群超详细教程_第7张图片

有就安装成功了。

（3）配置环境变量，让系统用1.8版本的jdk：

首先修改系统配置文件：vi /etc/profile

hadoop2.x单机搭建分布式集群超详细教程_第8张图片

在文件末尾加上如下几行（注意等号前后不要留空格）：

hadoop2.x单机搭建分布式集群超详细教程_第9张图片

保存退出

（4）设置修改后的配置文件生效：

（5）查看服务器当前jdk版本：

至此jdk安装配置结束。

5.创建hadoop相应的文件系统

这部分在root权限下操作

（1）配置hosts文件，路径在/etc/hosts：

hadoop2.x单机搭建分布式集群超详细教程_第10张图片

之后在虚拟机ping master看看是否通：

（2）查看虚拟机系统中是否安装lvm工具

hadoop2.x单机搭建分布式集群超详细教程_第11张图片

这就表示已安装。

（3）在虚拟机中添加3块硬盘（均为20G）

虚拟机先关机

a)点击 “编辑虚拟机设置”---“添加”---“硬盘”---“下一步”，然后一直点击 “下一步”直到完成：

hadoop2.x单机搭建分布式集群超详细教程_第12张图片

b)接着，重复此操作2遍，会得到以下图片。最后，点击“确定”并开启虚拟机：

hadoop2.x单机搭建分布式集群超详细教程_第13张图片

开启后fdisk -l查看硬盘是否开启成功：

可以看到3个20G的硬盘（sdb、sdc、sdd）

（4）创建物理卷

（pvcreate指令用于将物理硬盘分区初始化为物理卷，以便被LVM使用。）

a)使用sdb创建基于sdb的物理卷

pvcreate /dev/sdb

b)使用sdc创建基于sdc的物理卷

pvcreate /dev/sdc

c)使用sdd创建基于sdd的物理卷

pvcreate /dev/sdd

hadoop2.x单机搭建分布式集群超详细教程_第16张图片

d)查看物理卷是否创建成功

pvdisplay

hadoop2.x单机搭建分布式集群超详细教程_第17张图片

（5）创建卷组和添加新的物理卷到卷组

a)创建一个卷组

vgcreate test_document /dev/sdb

（vgcreate 命令第一个参数是指定该卷组的逻辑名，后面参数是指定希望添加到该卷组的所有分区和磁盘）

b)将sdc物理卷添加到已有的卷组（注意vgcreate与vgextend用法的区别）

vgextend test_document /dev/sdc

c)将sdd物理卷添加到已有的卷组（注意vgcreate与vgextend用法的区别）

vgextend test_document /dev/sdd

hadoop2.x单机搭建分布式集群超详细教程_第19张图片

d)查看卷组大小（发现已经60G了）

hadoop2.x单机搭建分布式集群超详细教程_第20张图片

（6）激活卷组

（7）创建逻辑卷

a)lvcreate -L5120 -n lvhadooptest_document

(该命令是在卷组test_document上创建名字为lvhadoop，大小为5120M的逻辑卷，并且设备入口为/dev/test_document/lvhadoop ,test_document为卷组名，lvhadoop为逻辑卷名）

b)lvcreate -L51200 -n lvdatatest_document

(该命令是在卷组test_document上创建名字为lvdata，大小为51200M的逻辑卷，并且设备入口为/dev/test_document/lvdata ,test_document为卷组名，lvdata为逻辑卷名）

注意，如果分配过大的逻辑卷lvcreate -L10240 -n lvhadoop test_document会提示剩余空间不足，此时可用命令vgdisplay去产查看剩余空间的大小。

hadoop2.x单机搭建分布式集群超详细教程_第21张图片

（8）创建文件系统

a) mkfs -t ext4/dev/test_document/lvhadoop

hadoop2.x单机搭建分布式集群超详细教程_第22张图片

b) mkfs -t ext4/dev/test_document/lvdata

hadoop2.x单机搭建分布式集群超详细教程_第23张图片

（9）创建文件夹

a)在linux根目录下创建hadoop文件夹 mkdir -p /hadoop

b)在linux根目录下创建data文件夹 mkdir -p /data

hadoop2.x单机搭建分布式集群超详细教程_第24张图片

（10）挂载

a)mount /dev/test_document/lvhadoop /hadoop

b)mount /dev/test_document/lvdata /data

c)挂载后，再使用 df -kh 命令查看

hadoop2.x单机搭建分布式集群超详细教程_第25张图片

（11）修改自动挂载的配置文件

如果下次重启linux系统后，挂载设备就又看不到了，我们需要把这个文件写入到fstab 分区表文件里面。

a)vi /etc/fstab

hadoop2.x单机搭建分布式集群超详细教程_第26张图片

在文件末尾加上如上两行，然后按“ESC”---“shirt”+“：”---输入“x”---回车，之后reboot重启虚拟机。

6.创建hadoop组和用户

（1）创建组

groupadd -g 3000 cloudadmin

（2）创建用户

useradd -u3001 -g cloudadmin hadoop

（3）修改密码

passwd hadoop 密码改为：123456（与root用户的密码一致）

hadoop2.x单机搭建分布式集群超详细教程_第27张图片

（4）修改文件的系统权限

a)修改hadoop文件的系统权限 chown -Rhadoop:cloudadmin /hadoop

b)修改data文件的系统权限 chown -Rhadoop:cloudadmin /data

c)查看 ls -l / | grep cloudadmin

hadoop2.x单机搭建分布式集群超详细教程_第28张图片

7.下载hadoop软件包

打开hadoop官网http://hadoop.apache.org：

hadoop2.x单机搭建分布式集群超详细教程_第29张图片

点击左侧的Download Hadoop

hadoop2.x单机搭建分布式集群超详细教程_第30张图片

单击releases

hadoop2.x单机搭建分布式集群超详细教程_第31张图片

单击binary，注意source是源码，不要下载错了

hadoop2.x单机搭建分布式集群超详细教程_第32张图片

单击上图的链接进行下载

上图中-src是源码文件，我们用另外一个。

8.在虚拟机中解压hadoop

（1）将下载的压缩包上传到/hadoop目录下（rz命令）：

（2）切换到hadoop用户

重启虚拟机，用hadoop用户登录，注意Xshell远程连接的时候，新建个hadoop用户登录窗口

（退出hadoop用户exit，查看当前用户whoami）

hadoop2.x单机搭建分布式集群超详细教程_第33张图片

（3）解压hadoop压缩包：tar -zxvfHadoop-2.7.3-src.tar.gz，解压完成后出现hadoop文件夹：

之后ll查看：

9.创建集群（规划1个主节点，2个从节点）

为了看着舒服，将当前虚拟机改名为hm（直接在VMware右键重命名即可）；

（1）克隆2台虚拟机

在VMware虚拟机中右键-管理-克隆

hadoop2.x单机搭建分布式集群超详细教程_第34张图片

直接下一步

直接下一步

hadoop2.x单机搭建分布式集群超详细教程_第37张图片

选择创建完整克隆，下一步，将名称改为hd001：

hadoop2.x单机搭建分布式集群超详细教程_第38张图片

点完成开始克隆，克隆完成后：

hadoop2.x单机搭建分布式集群超详细教程_第39张图片

点关闭即可，用同样的方法再克隆一台虚拟机（注意名称为hd002）。

hadoop2.x单机搭建分布式集群超详细教程_第40张图片

克隆的时候，新虚拟机ip自动更新1，就是比如第一台虚拟机ip为192.168.99.1，那么克隆出第二台，ip自动更新为192.168.99.2，以此类推。

（2）修改3台虚拟机的主机名

开启3台虚拟机，用Xshell连接的时候注意ip不同，之后3台虚拟机都切换成root用户：

hadoop2.x单机搭建分布式集群超详细教程_第41张图片

其中hostname是查看当前主机名，hostname hm是将主机名改为hm，但是这么做重启会失效，因此我们修改配置文件network，之后reboot重启此虚拟机。

其余所有虚拟机都重复上述操作，注意主机名hm改为hd001和hd002。

（3）修改3台虚拟机的ip和mac

全部用root用户登录！

先修改第一台虚拟机的ip和mac，输入cat/etc/udev/rules.d/70-persistent-net.rules查看，如果不是下图的样子，将其余网卡注释掉，另外复制它的MAC地址：

hadoop2.x单机搭建分布式集群超详细教程_第42张图片

进入network-scripts目录，编辑其内的ifcfg-eth0文件，将该虚拟机的ip和刚刚复制的mac地址覆盖上：

hadoop2.x单机搭建分布式集群超详细教程_第43张图片

重启网卡

hadoop2.x单机搭建分布式集群超详细教程_第44张图片

至此，第一台虚拟机的ip和mac配置完毕，接着配置第二台虚拟机的ip和Mac地址，输入vi /etc/udev/rules.d/70-persistent-net.rules修改，因为上面的MAC地址与第一台虚拟机相同，因此我们用下一个，并将网卡修改为eth0：

hadoop2.x单机搭建分布式集群超详细教程_第45张图片

后续步骤同上，接着同理配置第三台虚拟机的ip和Mac地址。

（4）修改映射关系

用root登录第一台虚拟机，输入vi /etc/hosts，按照下图配置，图中的ip为各个虚拟机的ip：

hadoop2.x单机搭建分布式集群超详细教程_第46张图片

进入/etc文件夹：

scp hosts192.168.102.129://etc/

将hm etc文件夹下的hosts传到192.168.102.128 的etc下

scp hosts192.168.102.130://etc/

将hm etc文件夹下的hosts传到192.168.102.130 的etc下

有提示时，输入yes，密码是刚设置的123456

hadoop2.x单机搭建分布式集群超详细教程_第47张图片

再去另外2台虚拟机查看文件是否传输成功cat /etc/hosts

hadoop2.x单机搭建分布式集群超详细教程_第48张图片

在每台虚拟机中进行ping通测试，这里每台虚拟机都需要测试与另外所有虚拟机是否通，且ping ip和ping 主机名都要测试（这里很容易漏测）：

hadoop2.x单机搭建分布式集群超详细教程_第49张图片

10.在集群中配置SSH免密登录

（1）重启所有虚拟机，均用hadoop用户登录

（2）在主节点hm的Xshell里输入ssh-keygen -t rsa命令，然后一直按回车即可

hadoop2.x单机搭建分布式集群超详细教程_第50张图片

在主节点hm上执行如下命令：

cd ~

cd .ssh

catid_rsa.pub >> authorized_keys

scp authorized_keys192.168.102.129:/root/.ssh/

scpauthorized_keys 192.168.102.130:/root/.ssh/

出现提示就输入yes，密码是之前设置的123456，这里如果在scp时提示Permission denied，是因为当前登录的hadoop用户没有权限，解决办法3个：其一是为hadoop用户授权，其二是切换成root用户进行操作，其三是将authorized_keys从主节点下载到本地再逐一上传到所有从节点。

（3）SSH免密码登录验证

ssh hd001date

ssh hd002date

第一次输入会有提示，输入yes，后面就正常

hadoop2.x单机搭建分布式集群超详细教程_第51张图片

11.修改hadoop集群的配置文件

在hadoop用户下进行以下操作：

（1）在集群中的所有节点上创建相应的文件目录

a)创建tmp文件，mkdir -p /data/tmp

b)创建name文件，mkdir -p /data/name

c)创建data文件，mkdir -p /data/data

d)进入data目录，cd /data

e)查看data文件夹下的文件，ls

hadoop2.x单机搭建分布式集群超详细教程_第52张图片

（2）在主节点上修改配置文件

a)进入根目录cd /

b)进入hadoop配置文件所在目录cd /hadoop/hadoop-2.7.3/etc/hadoop/

c)修改hadoop-env.sh文件vi hadoop-env.sh

hadoop2.x单机搭建分布式集群超详细教程_第53张图片

这里JAVA_HOME的地址是之前配置JDK那里的地址

d)修改core-site.xml文件vi core-site.xml

hadoop2.x单机搭建分布式集群超详细教程_第54张图片

注意主机名hm和路径是之前设置好的，不要配错了

e)修改hdfs-site.xml文件vi hdfs-site.xml

hadoop2.x单机搭建分布式集群超详细教程_第55张图片

注意这里的路径是之前设置好的，不要配错了，另外有几台从节点就写几，我这里写2

f)修改mapred-site.xml.template文件vi mapred-site.xml.template

注意主节点名hm是之前设置好的，不要配错了

g)复制文件，将mapred-site.xml.template复制一份并重新命名为mapred-site.xml存放在当前路径：

同理将mapred-queues.xml.template复制一份并重新命名为mapred-queues.xml存放在当前路径：

注：hadoop1.x版本直接有这两个文件，而hadoop2.x版本需要复制重命名一下

h)继续修改hdfs-site.xml文件

因为hadoop2.x删除了1.x版本的masters文件，因此将master在hdfs-site.xml里面

hadoop2.x单机搭建分布式集群超详细教程_第56张图片

i)修改slaves文件vi slaves

这里写入所有从节点的主机名

（3）同步时钟

ntpdate

（4）分发hadoop软件包到从节点上

注意这步是hadoop用户在/hadoop目录下操作，时间较长，请耐心等待

scp -r hadoop-2.7.3hd001:/hadoop/

scp -rhadoop-2.7.3 hd002:/hadoop/

12.格式化HDFS

（1）在hadoop用户下进入主节点的/hadoop/hadoop2.7.3目录

（2）格式化hdfs

bin/hadoop namenode -format

如果有提示，输入大写的Y，小写的报错，没有就算了

hadoop2.x单机搭建分布式集群超详细教程_第59张图片

格式化出错的解决方法

a、查看端口9000的信息（需要在root用户下查看）

netstat -anp|grep 9000

b、格式化只能1次，如果后面再次格式化则会导致不成功，需要将所有节点上根目录下data目录下的data、name、tmp文件删除，再新建data、name、tmp空的文件夹。

13.启动hadoop 系统

（1）用hadoop用户登录主节点，进入/hadoop/hadoop2.7.3目录

（2）启动hadoop系统

bin/start-all.sh或sbin/start-all.sh

（关闭集群sbin/stop-all.sh）

版本不同，apache的2.x版本启动脚本是在sbin文件夹内。

hadoop2.x单机搭建分布式集群超详细教程_第60张图片

输入yes

hadoop2.x单机搭建分布式集群超详细教程_第61张图片

（3）检查hadoop的相关进程是否启动成功

a)主节点jps

hadoop2.x单机搭建分布式集群超详细教程_第62张图片

b)所有从节点jps

hadoop2.x单机搭建分布式集群超详细教程_第63张图片

（4）检查集群状态

a)在hadoop用户下进入主节点的/hadoop/hadoop2.7.3目录

b)输入bin/hadoop dfsadmin -report命令

hadoop2.x单机搭建分布式集群超详细教程_第64张图片

（5）查看监控界面

a)在浏览器地址栏输入192.168.102.128:8088回车

hadoop2.x单机搭建分布式集群超详细教程_第67张图片

hadoop1.x端口是50030,后来2.x改为8088了。

【后记】

1.开启hadoop集群方法

所有虚拟机开机-Xshell远程登录所有虚拟机（建议用hadoop用户）-在主节点用hadoop用户进入/hadoop2.7.3目录，输入/sbin/start-all.sh回车。

2.关闭hadoop集群方法

在主节点用hadoop用户进入/hadoop2.7.3目录，输入sbin/stop-all.sh回车。

3.网页监控

192.168.102.128:8088

你可能感兴趣的:(No.12-大数据自学笔记)

【自学笔记】Web3基础知识点总览-持续更新 Long_poem 笔记 web3
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Web3基础知识点总览（Markdown格式）1.引言2.区块链基础3.智能合约4.去中心化应用（DApps）5.数字货币与钱包6.跨链技术7.Web3生态与工具代码块示例（Solidity智能合约）总结Web3基础知识点总览（Markdown格式）1.引言Web3，也称为第三代互联网或去中心化互联网，旨在通过区块链技术实现更
硅谷企业的大数据平台架构什么样？看看Twitter、Airbnb、Uber的实践大数据v 分布式数据库大数据编程语言 hadoop
导读：本文分析一下典型硅谷互联网企业的大数据平台架构。作者：彭锋宋文欣孙浩峰来源：大数据DT（ID：hzdashuju）01Twitter的大数据平台架构Twitter是最早一批推进数字化运营的硅谷企业之一，其公司运营和产品迭代的很多功能是由其底层的大数据平台提供的。图7-2所示为Twitter大数据平台的基本示意图。▲图7-2Twitter大数据平台架构Twitter的大数据平台开发比较早，很多
【图像预处理】瞬间记忆深度学习 python
(4条消息)图像预处理方法总结_AI强仔的博客-CSDN博客对图像进行预处理的一些常见方法包括：调整图像大小和分辨率，以便适应模型的输入要求。对图像进行裁剪或填充，以使其大小和比例符合要求。调整图像的亮度、对比度和饱和度等图像属性。进行图像平滑或锐化操作，以去除噪声或增强图像特征。进行图像归一化或标准化，以确保各个特征在相同的尺度上。应用数据增强技术，如旋转、平移、缩放、翻转等，以扩大数据集，提高
大数据学习（75）-大数据组件总结 viperrrrrrr 大数据 impala yarn hdfs hive CDH mapreduce
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、CDHCDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的
大数据点燃智能制造变革之火——从数据到价值的跃迁 Echo_Wish 大数据高阶实战秘籍大数据制造
大数据点燃智能制造变革之火——从数据到价值的跃迁在全球制造业向智能化转型的浪潮中，大数据已然成为点燃变革的关键火种。从车间到供应链，从设备到产品生命周期，制造业正通过大数据分析找到隐形的效率优化机会，打破传统生产模式的桎梏。作为Echo_Wish，今天我将和大家探讨大数据如何融入智能制造，助力实现生产效率和业务价值的双重飞跃。一、智能制造的核心诉求：数据驱动的决策与执行智能制造的目标是通过数据驱动
Sqoop安装部署愿与狸花过一生大数据 sqoop hadoop hive
ApacheSqoop简介Sqoop（SQL-to-Hadoop）是Apache开源项目，主要用于：将关系型数据库中的数据导入Hadoop分布式文件系统（HDFS）或相关组件（如Hive、HBase）。将Hadoop处理后的数据导出回关系型数据库。核心特性批量数据传输支持从数据库表到HDFS/Hive的全量或增量数据迁移。并行化处理基于MapReduce实现并行导入导出，提升大数据量场景的效率。自
AI预测体彩排3新模型百十个定位预测+胆码预测+杀和尾+杀和值2025年3月21日第25弹 GIS小天体彩排3 人工智能机器学习彩票算法
前面由于工作原因停更了很长时间，停更期间很多彩友一直私信我何时恢复发布每日预测，目前手头上的项目已经基本收尾，接下来恢复发布。当然，也有很多朋友一直咨询3D超级助手开发的进度，在这里统一回复下。由于本人既精通编程+大数据分析，也热衷于彩票研究，所以很多彩友通过一些渠道找到了我。目前，加我的已有不少彩友，分成了3类人群：第一类：平时不懂数据分析，买彩全靠瞎猜乱蒙，这些朋友希望借助我的技术和方法来给他
Zynq PL端IP核之AXI DMA Mazy.v fpga开发嵌入式硬件 arm开发单片机
1.AXIDMA简介Zynq提供了两种DMA，一种是PS中的DMA控制器，通过GP口与PL端连接，另一种是PL中的AXIDMAIP核（软核），通过HP口与PS端连接。Zynq有4个HP接口，每一个HP接口都包含控制和数据FIFO，这些FIFO为大数据量突发传输提供缓冲，让HP接口成为理想的高速数据传输接口。AXIDMAIP内核在AXI4内存映射和AXI4StreamIP接口之间提供高带宽直接储存访
揭秘时空大数据：详细介绍、真实应用场景和数据示例解析陈书予 GIS开发（时空大数据）前端大数据 python 时序数据库
时空大数据(SpatialBigData)是指利用空间环境和时间环境信息，以及数字技术，从多种来源获取的海量、动态的、多维的数据，对空间环境和时间环境进行实时监测，并基于复杂的数据分析和挖掘，获取有价值的信息。时空大数据示例：1）社会网络数据：Twitter、Facebook、Instagram等社交媒体上的海量数据，可以通过时间、空间、主题等来提取有价值的信息。2）遥感图像数据：通过遥感技术从卫
python基于Django的旅游景点数据分析及可视化的设计与实现 7blk7 qq2295116502 python django 数据分析
目录项目介绍技术栈具体实现截图Scrapy爬虫框架关键技术和使用的工具环境等的说明解决的思路开发流程爬虫核心代码展示系统设计论文书写大纲详细视频演示源码获取项目介绍大数据分析是现下比较热门的词汇，通过分析之后可以得到更多深入且有价值的信息。现实的科技手段中，越来越多的应用都会涉及到大数据随着大数据时代的到来，数据挖掘、分析与应用成为多个行业的关键,本课题首先介绍了网络爬虫的基本概念以及技术实现方法
存算一体与存算分离：架构设计的深度解析与实现方案克里斯蒂亚诺罗纳尔多阿维罗大数据数据库
随着数据量的不断增大和对计算能力的需求日益提高，存算一体作为一种新型架构设计理念，在大数据处理、云计算和人工智能等领域正逐步引起广泛关注。在深入探讨存算一体之前，我们需要先了解存储和计算的基本概念，以及存算分离和存算一体之间的区别。什么是存算一体？存算一体，顾名思义，是将数据存储与计算资源紧密结合，形成一个统一的架构。在这种架构下，存储和计算不仅在物理层面上结合，更在架构设计上深度融合。具体来说，
LakeHouse湖仓一体成为下一站灯塔，数仓、数据湖架构即将退出群聊科杰科技大数据数据仓库
摘要：当前的大数据技术应用趋势表明，客户对单一的数据湖和数仓架构并不满意。近年来几乎所有的数据仓库都增加了对Parquet和ORC格式的外部表支持，这使数仓用户可以从相同的SQL引擎查询数据湖表，但它不会使数据湖表更易于管理，也不会消除仓库中数据的ETL复杂性、陈旧性和高级分析挑战。KeenDataLakeHouse（湖仓一体）作为新一代大数据技术架构，将逐渐取代单一数据湖和数仓架构，成为大数据架
数据让农业更聪明——用大数据激活田间地头 Echo_Wish 大数据大数据
数据让农业更聪明——用大数据激活田间地头在农业领域，随着人口增长和气候变化的影响，如何提升生产力始终是个关键话题。大数据，这个曾经只属于科技领域的概念，如今已悄然进入田间地头。今天，我以Echo_Wish的视角，和大家聊聊大数据如何赋能农业生产力，帮农民在阳光下也能掌握“科技的钥匙”。认识农业中的大数据什么是农业中的“大数据”？简单来说，就是收集和分析有关土地、气候、作物、病虫害以及市场需求等方面
GraphCube、Spark和深度学习技术赋能快消行业关键运营环节 weixin_30777913 开发语言大数据深度学习人工智能 spark
在快消品（FMCG）行业，需求计划（DemandPlanning）、库存管理（InventoryManagement）和需求供应管理（DemandSupplyManagement）是影响企业整体效率和利润水平的关键运营环节。GraphCube图多维数据集技术、Spark大数据分析处理技术和深度学习技术的结合，为这些环节提供了智能化、动态化和实时化的解决方案，显著提升业务运营效率和企业利润。一、技术
从 0 到 1 构建 Python 分布式爬虫，实现搜索引擎全攻略七七知享 Python python 分布式爬虫搜索引擎算法程序人生网络爬虫
从0到1构建Python分布式爬虫，实现搜索引擎全攻略在大数据与信息爆炸的时代，搜索引擎已然成为人们获取信息的关键入口。你是否好奇，像百度、谷歌这般强大的搜索引擎，背后是如何精准且高效地抓取海量网页数据的？本文将带你一探究竟，以Python为工具，打造属于自己的分布式爬虫，进而搭建一个简易搜索引擎，完整呈现从底层代码编写到系统搭建的全过程。通过本文的实践，我们成功打造了Python分布式爬虫，并以
第三十篇维度建模：从理论到落地的企业级实践随缘而动，随遇而安数据库 sql 数据仓库大数据数据库架构
目录一、维度建模核心理论体系1.1Kimball方法论四大支柱1.2关键概念对比矩阵二、四步建模法全流程解析2.1选择业务过程（以电商为例）2.2声明原子粒度（订单案例）2.3维度设计规范时间维度（含财年逻辑）SCDType2完整实现（Hudi）2.4事实表类型与设计三、企业级建模实战：电商用户分析3.1业务矩阵分析3.2模型实现代码四、高级建模技巧4.1多星型模式关联4.2大数据场景优化五、性能
计算机专业毕业设计题目推荐（新颖选题）本科计算机人工智能专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计人工智能毕业设计毕设题目毕业设计题目 ai AI编程
文章目录前言最新毕设选题（建议收藏起来）本科计算机人工智能专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能
深陷“大数据杀熟”漩涡的飞猪，庄卓然如何力挽狂澜？财经三剑客大数据
在线旅游市场（OTA）的蓬勃发展为消费者带来了诸多便利，然而，在这股数字化浪潮中，飞猪旅行却因其频繁陷入“大数据杀熟”的争议而备受瞩目。这一行为不仅损害了消费者的合法权益，更让飞猪的品牌形象蒙上了一层阴影。近年来，飞猪平台上关于价格乱象的投诉屡禁不止。在黑猫投诉平台上，与“飞猪”相关的投诉累计已超9万条，其中直接以“飞猪杀熟”为关键词的投诉便达数百条。消费者们纷纷反映，在飞猪平台上预订机票、酒店等
API item_get 在电商平台的核心作用以及如何测试 index_all 数据供应商京东api java 大数据开发语言
在电商行业蓬勃发展的今天，跨平台运营已成为众多商家的必然选择。然而，随之而来的数据孤岛问题却成为了制约电商企业进一步发展的瓶颈。为了解决这一问题，电商大数据平台应运而生，而item_getAPI作为获取商品详情的关键接口，在其中扮演着至关重要的角色。本文将深入探讨item_getAPI在跨平台电商数据整合中的应用与优势，为电商企业在数据驱动的道路上提供有力支持。一、跨平台电商数据整合的挑战在跨平台
“四预”驱动数字孪生水利：让智慧治水守护山河安澜 GeoSaaS 实景三维智慧城市人工智能 gis 大数据安全
近年来，从黄河秋汛到海河特大洪水，从珠江流域性洪灾到长江罕见骤旱，极端天气频发让水安全问题备受关注。如何实现“治水于未发”？数字孪生水利以“预报、预警、预演、预案”（四预）为核心，正在掀起一场水利治理的智慧革命。一、数字孪生水利：从物理世界到虚拟镜像的跃迁数字孪生水利并非简单的“数字建模”，而是通过高精度传感器、大数据、人工智能等技术，在虚拟空间构建与物理流域完全映射的“数字分身”，实现水情、工情
数智读书笔记系列021《大数据医疗》：探索医疗行业的智能变革 Allen_Lyb 数智读书笔记大数据健康医疗人工智能 python
一、书籍介绍《大数据医疗》由徐曼、沈江、余海燕合著，由机械工业出版社出版。徐曼是南开大学商学院副教授，在大数据驱动的智能决策研究领域颇有建树，尤其在大数据驱动的医疗与健康决策方面有着深入研究，曾获天津优秀博士论文、教育部博士研究生新人奖。沈江等作者也在相关学术和实践领域有着丰富的经验和深厚的专业知识。这本书系统且深入地探讨了大数据技术在医疗领域的应用与变革，对推动医疗行业的智能化发展具有重要的理论
OpenEuler kinit报错找不到文件的解决办法久违的太阳其他故障处理服务器运维
客户一套华为大数据集群平台,在一台arm平台openEuler服务器上面安装完集群客户端之后,使用kinit认证出现报错Nosuchfileordirectory:最终定位是操作系统/lib64缺少ld包导致,执行下面的命令恢复：ln-sv/lib/ld-linux-aarch64.so.1/lib64/ld-linux-aarch64.so.1
JAVA学习-练习试用Java实现“对大数据集中的网络日志进行解析和异常行为筛查” 守护者170 java学习 java 学习
问题：编写一个Spark程序，对大数据集中的网络日志进行解析和异常行为筛查。解答思路：下面是一个简单的Spark程序示例，用于解析网络日志并筛查异常行为。这个示例假设日志文件格式如下：timestamp,ip_address,user_id,action,event,extra_info2023-01-0112:00:00,192.168.1.1,123,login,success,none202
JAVA学习-练习试用Java实现“实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选” 守护者170 java学习 java 学习
问题：实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选。解答思路：要实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选，需要按照以下步骤进行：1.环境准备确保的环境中已经安装了ApacheSpark。可以从[ApacheSpark官网](https://spark.apache.org/downloads.html)下载并安装。2.创建Spark应用以下是
深度学习的颠覆性发展：从卷积神经网络到Transformer AI天才研究院 AI大模型应用入门实战与进阶 ChatGPT 大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍深度学习是人工智能的核心技术之一，它通过模拟人类大脑中的神经网络学习从大数据中抽取知识，从而实现智能化的自动化处理。深度学习的发展历程可以分为以下几个阶段：2006年，GeoffreyHinton等人开始研究卷积神经网络（ConvolutionalNeuralNetworks，CNN），这是深度学习的第一个大突破。CNN主要应用于图像处理和语音识别等领域。2012年，AlexKrizh
知识管理系统：构建企业智慧大脑 AI天才研究院 ChatGPT AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
第一部分：知识管理概述与重要性第1章：知识管理的定义与基本概念1.1.1知识管理的起源与发展知识管理（KnowledgeManagement，KM）起源于20世纪80年代，当时企业在市场竞争中逐渐意识到知识作为一种战略资源的重要性。早期的知识管理实践主要集中在知识的收集、存储和传播上。随着信息技术的发展，知识管理逐渐融入了更先进的技术手段，如数据挖掘、人工智能和大数据分析，使其成为一个跨学科、多领
【自学笔记】NFT基础知识点总览-持续更新 Long_poem 笔记区块链
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录NFT（非同质化代币）基础知识点总览1.NFT简介2.NFT的应用场景3.NFT的工作原理4.NFT的创建和发行5.代码示例代码解释总结NFT（非同质化代币）基础知识点总览1.NFT简介NFT（Non-FungibleToken，非同质化代币）是一种基于区块链技术的独特数字资产，每个NFT都是唯一的、不可互换的。与同质化代币（
基于协同过滤推荐算法的景点票务数据系统（python-计算机毕设）计算机程序设计(接毕设) 推荐算法机器学习毕业设计 python 人工智能
摘要IABSTRACTII第1章引言1研究背景及意义1研究背景1研究意义1国内外研究现状2智慧旅游3旅游大数据3研究内容4本章小结4第2章相关技术概述5基于内容的推荐算法5基于内容的推荐算法原理5基于内容的推荐算法实现5协同过滤推荐算法6协同过滤算法原理6协同过滤算法实现7SpringBoot框架9SpringBoot简介9SpringBoot特性10SpringBoot工作原理10Vue.js框
Elasticsearch 介绍：分布式搜索与分析引擎吱屋猪_ elasticsearch
在如今大数据时代，企业和开发者面临着前所未有的数据量和实时性要求。为了能够高效地处理、存储和查询这些数据，Elasticsearch作为一种强大的分布式搜索引擎，已经成为了很多组织和开发者的首选解决方案。1.什么是Elasticsearch？Elasticsearch是一个开源的、基于ApacheLucene构建的全文搜索引擎。它提供了高效的搜索功能，并且非常适合处理大量数据，尤其是在需要快速搜索
数仓建模—Data Warebase AI 时代数据平台应当的样子不二人生数仓建模人工智能数据仓库数仓建模
DataWarebaseAI时代数据平台应当的样子引言：在这个AI技术飞速发展的时代，我们有能力更深入地发掘数据潜在的价值，而数据处理不应当成为阻碍。云原生分布式DataWarebase将开启处理数据的新范式，它让数据的使用返璞归真，不论是存储还是查询，一个系统满足业务全方位数据需求。打破复杂数据架构的束缚，大大降低数据的使用门槛，释放数据潜能，让数据涌现智能。背景近二十年大数据发展史2002年我
redis学习笔记——不仅仅是存取数据 Everyday都不同 returnSource expire/del incr/lpush 数据库分区 redis
最近项目中用到比较多redis，感觉之前对它一直局限于get/set数据的层面。其实作为一个强大的NoSql数据库产品，如果好好利用它，会带来很多意想不到的效果。（因为我搞java，所以就从jedis的角度来补充一点东西吧。PS：不一定全，只是个人理解，不喜勿喷） 1、关于JedisPool.returnSource(Jedis jeids) 这个方法是从red
SQL性能优化-持续更新中。。。。。。 atongyeye oracle sql
1 通过ROWID访问表--索引你可以采用基于ROWID的访问方式情况,提高访问表的效率, , ROWID包含了表中记录的物理位置信息..ORACLE采用索引(INDEX)实现了数据和存放数据的物理位置(ROWID)之间的联系. 通常索引提供了快速访问ROWID的方法,因此那些基于索引列的查询就可以得到性能上的提高. 2 共享SQL语句--相同的sql放入缓存 3 选择最有效率的表
[JAVA语言]JAVA虚拟机对底层硬件的操控还不完善 comsci JAVA虚拟机
如果我们用汇编语言编写一个直接读写CPU寄存器的代码段，然后利用这个代码段去控制被操作系统屏蔽的硬件资源，这对于JVM虚拟机显然是不合法的，对操作系统来讲，这样也是不合法的，但是如果是一个工程项目的确需要这样做，合同已经签了，我们又不能够这样做，怎么办呢？那么一个精通汇编语言的那种X客，是否在这个时候就会发生某种至关重要的作用呢？ &n
lvs- real 男人50 LVS
#!/bin/bash # # Script to start LVS DR real server. # description: LVS DR real server # #. /etc/rc.d/init.d/functions VIP=10.10.6.252 host='/bin/hostname' case "$1" in sta
生成公钥和私钥 oloz DSA 安全加密
package com.msserver.core.util; import java.security.KeyPair; import java.security.PrivateKey; import java.security.PublicKey; import java.security.SecureRandom; public class SecurityUtil {
UIView 中加入的cocos2d，背景透明 374016526 cocos2d glClearColor
要点是首先pixelFormat:kEAGLColorFormatRGBA8，必须有alpha层才能透明。然后view设置为透明glView.opaque = NO;[director setOpenGLView:glView];[self.viewController.view setBackgroundColor:[UIColor clearColor]];[self.viewControll
mysql常用命令香水浓 mysql
连接数据库 mysql -u troy -ptroy 备份表 mysqldump -u troy -ptroy mm_database mm_user_tbl > user.sql 恢复表（与恢复数据库命令相同） mysql -u troy -ptroy mm_database < user.sql 备份数据库 mysqldump -u troy -ptroy
我的架构经验系列文章 - 后端架构 - 系统层面 agevs JavaScript jquery css html5
系统层面：高可用性所谓高可用性也就是通过避免单独故障加上快速故障转移实现一旦某台物理服务器出现故障能实现故障快速恢复。一般来说，可以采用两种方式，如果可以做业务可以做负载均衡则通过负载均衡实现集群，然后针对每一台服务器进行监控，一旦发生故障则从集群中移除；如果业务只能有单点入口那么可以通过实现Standby机加上虚拟IP机制，实现Active机在出现故障之后虚拟IP转移到Standby的快速
利用ant进行远程tomcat部署 aijuans tomcat
在javaEE项目中，需要将工程部署到远程服务器上，如果部署的频率比较高，手动部署的方式就比较麻烦，可以利用Ant工具实现快捷的部署。这篇博文详细介绍了ant配置的步骤（http://www.cnblogs.com/GloriousOnion/archive/2012/12/18/2822817.html），但是在tomcat7以上不适用，需要修改配置，具体如下： 1.配置tomcat的用户角色
获取复利总收入 baalwolf 获取
public static void main(String args[]){ int money=200; int year=1; double rate=0.1; &
eclipse.ini解释 BigBird2012 eclipse
大多数java开发者使用的都是eclipse，今天感兴趣去eclipse官网搜了一下eclipse.ini的配置，供大家参考，我会把关键的部分给大家用中文解释一下。还是推荐有问题不会直接搜谷歌，看官方文档，这样我们会知道问题的真面目是什么，对问题也有一个全面清晰的认识。 Overview 1、Eclipse.ini的作用 Eclipse startup is controlled by th
AngularJS实现分页功能 bijian1013 JavaScript AngularJS 分页
对于大多数web应用来说显示项目列表是一种很常见的任务。通常情况下，我们的数据会比较多，无法很好地显示在单个页面中。在这种情况下，我们需要把数据以页的方式来展示，同时带有转到上一页和下一页的功能。既然在整个应用中这是一种很常见的需求，那么把这一功能抽象成一个通用的、可复用的分页（Paginator）服务是很有意义的。 &nbs
[Maven学习笔记三]Maven archetype bit1129 ArcheType
archetype的英文意思是原型，Maven archetype表示创建Maven模块的模版，比如创建web项目，创建Spring项目等等. mvn archetype提供了一种命令行交互式创建Maven项目或者模块的方式， mvn archetype 1.在LearnMaven-ch03目录下，执行命令mvn archetype:gener
【Java命令三】jps bit1129 Java命令
jps很简单，用于显示当前运行的Java进程，也可以连接到远程服务器去查看 [hadoop@hadoop bin]$ jps -help usage: jps [-help] jps [-q] [-mlvV] [<hostid>] Definitions: <hostid>: <hostname>[:
ZABBIX2.2 2.4 等各版本之间的兼容性 ronin47
zabbix更新很快，从2009年到现在已经更新多个版本，为了使用更多zabbix的新特性，随之而来的便是升级版本，zabbix版本兼容性是必须优先考虑的一点客户端AGENT兼容 zabbix1.x到zabbix2.x的所有agent都兼容zabbix server2.4：如果你升级zabbix server，客户端是可以不做任何改变，除非你想使用agent的一些新特性。 Zabbix代理（p
unity 3d还是cocos2dx哪个适合游戏？ brotherlamp unity自学 unity教程 unity视频 unity资料 unity
unity 3d还是cocos2dx哪个适合游戏？问：unity 3d还是cocos2dx哪个适合游戏？答：首先目前来看unity视频教程因为是3d引擎，目前对2d支持并不完善，unity 3d 目前做2d普遍两种思路，一种是正交相机，3d画面2d视角，另一种是通过一些插件，动态创建mesh来绘制图形单元目前用的较多的是2d toolkit，ex2d，smooth moves，sm2，
百度笔试题：一个已经排序好的很大的数组，现在给它划分成m段，每段长度不定，段长最长为k，然后段内打乱顺序，请设计一个算法对其进行重新排序 bylijinnan java 算法面试百度招聘
import java.util.Arrays; /** * 最早是在陈利人老师的微博看到这道题： * #面试题#An array with n elements which is K most sorted，就是每个element的初始位置和它最终的排序后的位置的距离不超过常数K * 设计一个排序算法。It should be faster than O(n*lgn)。
获取checkbox复选框的值 chiangfai checkbox
<title>CheckBox</title> <script type = "text/javascript"> doGetVal: function doGetVal() { //var fruitName = document.getElementById("apple").value;//根据
MySQLdb用户指南 chenchao051 mysqldb
原网页被墙，放这里备用。 MySQLdb User's Guide Contents Introduction Installation _mysql MySQL C API translation MySQL C API function mapping Some _mysql examples MySQLdb
HIVE 窗口及分析函数 daizj hive 窗口函数分析函数
窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明 RANK() &nbs
PHP ZipArchive 实现压缩解压Zip文件 dcj3sjt126com PHP zip
PHP ZipArchive 是PHP自带的扩展类，可以轻松实现ZIP文件的压缩和解压，使用前首先要确保PHP ZIP 扩展已经开启，具体开启方法就不说了，不同的平台开启PHP扩增的方法网上都有，如有疑问欢迎交流。这里整理一下常用的示例供参考。一、解压缩zip文件 01 02 03 04 05 06 07 08 09 10 11
精彩英语贺词 dcj3sjt126com 英语
I'm always here 我会一直在这里支持你 &nb
基于Java注解的Spring的IoC功能 e200702084 java spring bean IOC Office
java模拟post请求 geeksun java
一般API接收客户端（比如网页、APP或其他应用服务）的请求，但在测试时需要模拟来自外界的请求，经探索，使用HttpComponentshttpClient可模拟Post提交请求。此处用HttpComponents的httpclient来完成使命。 import org.apache.http.HttpEntity ; import org.apache.http.HttpRespon
Swift语法之 ---- ?和!区别 hongtoushizi ?swift !
转载自： http://blog.sina.com.cn/s/blog_71715bf80102ux3v.html Swift语言使用var定义变量，但和别的语言不同，Swift里不会自动给变量赋初始值，也就是说变量不会有默认值，所以要求使用变量之前必须要对其初始化。如果在使用变量之前不进行初始化就会报错： var stringValue : String //
centos7安装jdk1.7 jisonami jdk centos
安装JDK1.7 步骤1、解压tar包在当前目录 [root@localhost usr]#tar -xzvf jdk-7u75-linux-x64.tar.gz 步骤2：配置环境变量在etc/profile文件下添加 export JAVA_HOME=/usr/java/jdk1.7.0_75 export CLASSPATH=/usr/java/jdk1.7.0_75/lib
数据源架构模式之数据映射器 home198979 PHP 架构数据映射器 datamapper
前面分别介绍了数据源架构模式之表数据入口、数据源架构模式之行和数据入口数据源架构模式之活动记录，相较于这三种数据源架构模式，数据映射器显得更加“高大上”。一、概念数据映射器（Data Mapper）：在保持对象和数据库（以及映射器本身）彼此独立的情况下，在二者之间移动数据的一个映射器层。概念永远都是抽象的，简单的说，数据映射器就是一个负责将数据映射到对象的类数据。 &nb
在Python中使用MYSQL pda158 mysql python
缘由　　近期在折腾一个小东西须要抓取网上的页面。然后进行解析。将结果放到数据库中。　　了解到 Python在这方面有优势，便选用之。　　由于我有台 server上面安装有 mysql，自然使用之。在进行数据库的这个操作过程中遇到了不少问题，这里记录一下，大家共勉。　　 python中mysql的调用　　百度之后能够通过MySQLdb进行数据库操作。
单例模式 hxl1988_0311 java 单例设计模式单件
package com.sosop.designpattern.singleton; /* * 单件模式：保证一个类必须只有一个实例，并提供全局的访问点 * * 所以单例模式必须有私有的构造器，没有私有构造器根本不用谈单件 * * 必须考虑到并发情况下创建了多个实例对象 * */ /** * 虽然有锁，但是只在第一次创建对象的时候加锁，并发时不会存在效率
27种迹象显示你应该辞掉程序员的工作 vipshichg 工作
1、你仍然在等待老板在2010年答应的要提拔你的暗示。 2、你的上级近10年没有开发过任何代码。 3、老板假装懂你说的这些技术，但实际上他完全不知道你在说什么。 4、你干完的项目6个月后才部署到现场服务器上。 5、时不时的，老板在检查你刚刚完成的工作时，要求按新想法重新开发。 6、而最终这个软件只有12个用户。 7、时间全浪费在办公室政治中，而不是用在开发好的软件上。 8、部署前5分钟才开始测试。

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他