一休求索

Ambari大数据集群的搭建

Ambari——大数据平台的搭建利器

虽然大数据越来越流行，但其学习的门槛却一直阻碍着很多的分布式应用初学者或者大数据的业务应用开发者。多个产品之间的不兼容问题，快速集成和维护也显得比较困难。不管是Hadoop V1或者V2的安装，又或者Spark/YARN等的集成，都不是几行简单的命令可以完成的，而是需要手工修改很多的集群配置，这进一步增加了业务开发者的学习和使用难度。有了Ambari，这些都不再是难题。

Ambari 是什么

Ambari 跟 Hadoop等开源软件一样，也是Apache Software Foundation中的一个项目，并且是顶级项目。目前最新的发布版本是2.0.1，未来不久将发布2.1版本。就Ambari的作用来说，就是创建、管理、监视Hadoop的集群，但是这里的Hadoop是广义，指的是Hadoop整个生态圈（例如Hive，Hbase，Sqoop，Zookeeper等），而并不仅是特指Hadoop。用一句话来说，Ambari就是为了让 Hadoop以及相关的大数据软件更容易使用的一个工具。

说到这里，大家就应该明白什么人最需要Ambari了。那些苦苦花费好几天去安装、调试Hadoop的初学者是最能体会到Ambari的方便之处的。而且，Ambari现在所支持的平台组件也越来越多，例如流行的Spark，Storm等计算框架，以及资源调度平台YARN等，我们都能轻松地通过Ambari来进行部署。

Ambari 自身也是一个分布式架构的软件，主要由两部分组成：AmbariServer和Ambari Agent。简单来说，用户通过Ambari Server通知Ambari Agent安装对应的软件；Agent会定时地发送各个机器每个软件模块的状态给Ambari Server，最终这些状态信息会呈现在Ambari的GUI，方便用户了解到集群的各种状态，并进行相应的维护。详细的操作和介绍会在后续章节介绍。

Ambari 的安装

安装准备

关于 Ambari 的安装，目前网上能找到两个发行版，一个是Apache的Ambari，另一个是Hortonworks的，两者区别不大。这里就以Apache的Ambari 2.0.1作为示例。本文使用三台Redhat 6.6作为安装环境（目前测试验证结果为Ambari在Redhat 6.6的版本上运行比较稳定），三台机器分别为 master、slaver1、slaver2。master计划安装为 Ambari的 Server，另外两台为 AmbariAgent。

安装Ambari 最方便的方式就是使用公共的库源（publicrepository）。有兴趣的朋友可以自己研究一下搭建一个本地库（localrepository）进行安装。这个不是重点，所以不在此赘述。在进行具体的安装之前，需要做几个准备工作。

1. SSH的无密码登录；
Ambari 的 Server会 SSH到 Agent 的机器，拷贝并执行一些命令。因此我们需要配置 Ambari Server到 Agent的 SSH 无密码登录。在这个例子里，master可以 SSH无密码登录 slaver1和 slaver2。

2. 确保 Yum可以正常工作；
通过公共库（public repository），安装 Hadoop这些软件，背后其实就是应用 Yum在安装公共库里面的 rpm包。所以这里需要您的机器都能访问 Internet。

3. 确保 home目录的写权限。
Ambari 会创建一些 OS用户。

4. 确保机器的 Python版本大于或等于 2.6.（Redhat6.6，默认就是 2.6的）。

以上的准备工作完成后，便可以真正的开始安装Ambari了。

安装过程

首先需要获取 Ambari 的公共库文件（publicrepository）。登录到Linux主机并执行下面的命令（也可以自己手工下载）：

wget http://public-repo-1.hortonworks.com/ambari/centos6/2.x/updates/2.0.1/ambari.repo

将下载的ambari.repo文件拷贝到Linux的系统目录/etc/yum.repos.d/。拷贝完后，我们需要获取该公共库的所有的源文件列表。依次执行以下命令。

yum clean all

yum list|grep ambari

如图1 所示：

图 1. 获取公共库源文件列表

如果可以看到Ambari 的对应版本的安装包列表，说明公共库已配置成功。然后就可以安装Ambari的package了。执行下面的命令安装Ambari Server到该机器。

yum install ambari-server

待安装完成后，便需要对Ambari Server做一个简单的配置。执行下面的命令。

amari-server setup

在这个交互式的设置中，采用默认配置即可。Ambari会使用Postgres数据库，默认会安装并使用Oracle的JDK。默认设置了 AmbariGUI的登录用户为admin/admin。并且指定 AmbariServer的运行用户为root。

简单的setup 配置完成后。就可以启动Ambari 了。运行下面的命令。

ambari-server start

当成功启动Ambari Server之后，便可以从浏览器登录，默认的端口为8080。以本文环境为例，在浏览器的地址栏输入http://master:8080，登录密码为admin/admin。登入Ambari之后的页面如下图。

图 2. Ambari 的 welcome 页面

至此，AmbariServer就安装完成了。

部署一个 Hadoop2.x 集群

到这一节，我们将可以真正地体验到 Ambari的用武之地，以及它所能带来的方便之处。

登录Ambari 之后，点击按钮“LaunchInstall Wizard”，就可以开始创建属于自己的大数据平台。

第一步，命名集群的名字。本环境为 BigData。

第二步，选择一个Stack，这个Stack相当于一个Hadoop生态圈软件的集合。Stack的版本越高，里面的软件版本也就越高。这里我们选择HDP2.2，里面的对应的Hadoop版本为2.6.x。

第三步，指定Agent机器（如果配置了域，必须包含完整域名，例如本文环境的域为 org.cn），这些机器会被安装Hadoop等软件包。还记得在安装章节中提到的SSH无密码登陆吗，这里需要指定当时在Ambari Server机器生成的私钥（ssh-keygen生成的，公钥已经拷贝到Ambari Agent的机器，具体的SSH无密码登录配置，可以在网上很容易找到配置方法，不在此赘述）。另外不要选择“Perform manual registration onhosts and do not use SSH“。因为我们需要Ambari Server自动去安装Ambari Agent。具体参见下图示例。

图 3. 安装配置页面

第四步，AmbariServer会自动安装Ambari Agent到刚才指定的机器列表。安装完成后，Agent会向 AmbariServer注册。成功注册后，就可以继续Next到下一步。

第五步，这里我们终于看到跟Hadoop有关的名词了。在这一步，我们需要选择要安装的软件名称。本文环境选择了HDFS，YARN+ MapReduce2，Zoopkeeper，Storm以及 Spark。选的越多，就会需要越多的机器内存。选择之后就可以继续下一步了。这里需要注意某些Service是有依赖关系的。如果您选了一个需要依赖其他Service的一个Service，Ambari会提醒安装对应依赖的Service。参见下图。

图 4. Service 选择页面

第六步和第七步，分别是选择安装软件所指定的Master机器和Slave机器，以及Client机器。这里使用默认选择即可（真正在生产环境中，需要根据具体的机器配置选择）。

第八步，就是Service的配置。绝大部分配置已经有默认值，不需要修改。初学者，如果不需要进行调优是可以直接使用默认配置的。有些Service会有一些必须的手工配置项，则必须手动输入，才可以下一步。本文环境直接使用默认配置。

第九步，Ambari会总结一个安装列表，供用户审阅。这里没问题，就直接下一步。

第十步，Ambari会开始安装选择的Service到Ambari Agent的机器（如下图）。这里可能需要等好一会，因为都是在线安装。安装完成之后，Ambari就会启动这些Service。

注意：中间会出现多个安装问题：

1.安装中有配置不存在，查看详细error然后手动安装

2.安装中出现yum超时情况，将时间设置600s详细见（Ambari大数据的搭建环境准备.docx）

3.安装中会出现Python脚本执行1800s超时情况，解决办法：retry再次安装

或者电脑重启，yumclean all 清除安装，yummakecache 清除缓存。

4.安装完成后会启动相关软件，在启动中会出现启动失败或者警告，暂时不用管后续进入主页面后再次启动安装，原因是内存使用过高导致一起启动不了。

图 5. Service 的安装进度

安装完成之后，就可以查看Ambari的Dashboard了。例如下图。

图 6. Ambari 的 Dashboard 页面

至此，您专属的bigdata 集群已经安装完成。

利用 Ambari 管理 Hadoop 集群

在上一章节中，我们已经体验到 Ambari为 Hadoop生态圈的安装提供的便利。这已经省去了很多的人力成本。尤其是对大数据圈子的测试人员来说，自动化就容易了很多。下面我们看看如何通过Ambari管理Hadoop的集群。

Service Level Action（服务级别的操作）

首先我们进到 Ambari 的 GUI 页面，并查看Dashboard。在左侧的Service列表中，我们可以点击任何一个您想要操作的Service。以MapReduce2为例（Hadoop这里的版本为 2.6.x，也就是YARN+HDFS+MapReduce），当点击MapReduce2后，就会看到该Service的相关信息，如下图。

图 7. MapRduce2 的 Service 页面

中间部分是Service 的模块（Component）信息，也就是该Service有哪些模块及其数目。右上角有个Service Action的按钮，当点击该按钮后就可以看到很多Service的控制命令。也就是通过这些Service Action命令，对Service进行管理的。

可能有的人会说，装完Hadoop的集群后，并不知道这个集群是不是可用。这时候我们就可以运行一个“RunService Check”。点击这个命令后，就会出现下图的进度显示。

图 8. MapReduce Service Check

其实这里就是通过运行一个经典的MapReduce Wordcount实例，来检查MapReduce是不是正常。对于Service Action里面的Start、Stop的含义就是，启停整个集群所有该Service的模块（也就是Service level）。当执行进度页面弹出来的时候，我们可以点击Operations的名字，进而查看每个机器的进度和运行log。如下图 Stop的操作。

图 9. 命令执行进度 1

图 10. 命令执行进度 2

维护模式（MaintenanceMode）以及如何添加一个自定义的命令到Service Action，我会在后续的连载中进行介绍。

Host Level Action（机器级别的操作）

首先，我们回到 Ambari 的Dashboard 页面。页面最上面中间的地方有个Hosts，点击这个标签，我们就可以看到Ambari所管理的机器列表。如下图。

图 11. Ambari 的机器列表

图片中红色的数字是警告信息（AmbariAlert），这里我们先略过它，后续文章再做介绍。先看左上角的Actions，点击这个按钮，就可以看到Host level Action 的选项了，其实和Service Level是类似的，只是执行的范围不一样。如下图。当用户选择All Hosts -> Hosts -> Start All Components，Ambari就会将所有Service的所有模块启动。

图 12. 启动所有 Service 的所有模块

如果用户选择All Hosts-> DataNodes -> Stop，Ambari就会把所有机器的DataNode这个模块关闭。如下图。

图 13. 关闭所有的 DataNode 模块

Component Level Action（模块级别的操作）

上面的图中，我们可以看到 Decommisson、Recommission。这些命令其实是自定义的模块级别的操作（ComponentLevel Action）。不过上图中命令一旦执行，就是对多个机器的同个模块执行。

我们现在尝试只对单个机器的一个模块（Component）执行。首先我们回到 Hosts的页面。这时候点击机器名，我们就会进入到该机器的Component页面。如下图。

图 14. Component 页面

这时候只要点击每个Component（模块）后面的按钮，就可以看到该模块的操作命令了。例如，我们可以停掉这台机器的DataNode模块。

图 15. 停止 DataNode 模块 1

图 16. 停止 DataNode 模块 2

关于如何给一个模块添加自定义的命令，也会在后续的连载中做介绍。

这一章节中，主要介绍了如何通过三种级别的Action（操作）管理Hadoop的集群。在Ambari中已经加入了很多自定义的Action去做一些特殊的操作。如果对Hadoop生态圈的软件足够熟悉，就可以尝试更多的Action。可能有的人会问，Ambari可不可以扩容集群。答案当然是可以的。Ambari可以给自身的集群添加机器（也就是添加Ambari Agent），然后将Service的模块安装在新的机器，也可以把某些模块安装到已有的其他的机器。篇幅有限，将在后续的连载中介绍更多的内容。

Ambari 的架构和工作原理

Ambari 基本的架构和工作原理如下图 17所示。

图 17. Ambari 的基本架构

Ambari Server 会读取 Stack和Service的配置文件。当用Ambari创建集群的时候，AmbariServer传送Stack和Service 的配置文件以及Service生命周期的控制脚本到Ambari Agent。Agent拿到配置文件后，会下载安装公共源里软件包（Redhat，就是使用 yum 服务）。安装完成后，AmbariServer会通知Agent去启动Service。之后Ambari Server会定期发送命令到Agent检查Service的状态，Agent上报给 Server，并呈现在 Ambari的 GUI 上。

Ambari Server 支持 RestAPI，这样可以很容易的扩展和定制化Ambari。甚至于不用登陆Ambari的GUI，只需要在命令行通过curl就可以控制Ambari，以及控制Hadoop的cluster。具体的API可以参见Apache Ambari的官方网页API reference。

对于安全方面要求比较苛刻的环境来说，Ambari可以支持Kerberos认证的Hadoop集群。

扩展 Ambari 管理一个自定义的 Service

首先，我们需要规划自定义的 Service属于哪个 Stack（当然 Stack也是可以自定义的）。这里为了快速创建一个新的Service，而且我们已经安装了HDP 2.2的Stack，所以就将自定义的Service放在HDP 2.2之下。

第一步，首先在Ambari Service机器上找到HDP 2.2 Stack的目录，如下图所示。

图 18. HDP 2.2 的目录

第二步，需要创建一个Service目录，我们这里用“SAMPLE”作为目录名。并在 SAMPLE底下创建metainfo.xml。示例代码如下。主要解释下xml代码中的两个字段category和cardinality。category指定了该模块（Component）的类别，可以是 MASTER、SLAVE、CLIENT。Cardinality指的是所要安装的机器数，可以是固定数字1，可以是一个范围比如1-2，也可以是 1+，或者 ALL。如果是一个范围的时候，安装的时候会让用户选择机器。另外这里有关Service和Component的name 配置要用大写，小写有时候会有问题。Displayname可以随意设置。

2.0

 SAMPLE

 My Sample

 My v1 Sample

1.0

 MYMASTER

 My Master

 MASTER

 PYTHON

 MYSALVE

 My Slave

 SLAVE

1+

 PYTHON

any

第三步，需要创建Service的控制脚本。这里我们需要在SAMPLE底下创建一个package目录，然后在package底下创建目录scripts，进而创建master.py和slave.py。这里需要保证脚本路径和上一步中metainfo.xml中的配置路径是一致的。这两个Python脚本是用来控制Master和Slave模块的生命周期。脚本中函数的含义也如其名字一样：install就是安装调用的接口；start、stop分别就是启停的调用；Status是定期检查component状态的调用；Configure是安装完成配置该模块的调用。示例目录结构如下图。

图 19. Sample Service 的目录结构

Python 脚本的示例代码：（注意Python中代码缩进问题，务必再安装前先测试一下，如果安装失败，需要修改相应的py然后再次重启服务重新安装）

Master.py：

import sys, os

from resource_management import *

from resource_management.core.exceptions import ComponentIsNotRunning

from resource_management.core.environment import Environment

from resource_management.core.logger import Logger

class Master(Script):

 def install(self, env):

 print ('Install My Master')

 def configure(self, env):

 print ('Configure My Master')

 def start(self, env):

 print ('Start My Master')

 def stop(self, env):

 print ('Stop My Master')

 def status(self, env):

 print ('Status... ')

if __name__ == "__main__":

 Master().execute()

Slave.py:

import sys, os

from resource_management import *

from resource_management.core.exceptions import ComponentIsNotRunning

from resource_management.core.environment import Environment

from resource_management.core.logger import Logger

class Slave(Script):

 def install(self, env):

 print ('Install My Slave')

 def configure(self, env):

 print ('Configure My Slave')

 def start(self, env):

 print ('Start My Slave')

 def stop(self, env):

 print ('Stop My Slave')

 def status(self, env):

 print ('Status...')

if __name__ == "__main__":

 Slave().execute()

第四步，需要重启Ambari Server。因为Ambari Server只有在重启的时候才会读取Service和Stack的配置。命令行执行：

ambari-server restart

第五步，登录Ambari 的GUI，点击左下角的 Action，选择 AddService。如下图：

图 20. Add Service 按钮

这时候就可以看到我们自定义的Service：SAMPLE。如下图：

图 21. Sample Service 列表

选择左侧My Sample 后，就可以一路Next 了，这个过程其实和我们在搭建Hadoop2.x集群的时候是类似的。由于这个Service没有真的安装包，所以安装过程会非常的快，启动命令也没有真正的逻辑，所以启动过程也是很快的。等最后点击完Complete，整个安装过程也就结束了。再回到Ambari的Dashboard的时候，我们就可以看到这个My Sample了，如下图：

图 22. My Sample 的 Service 页面

到此就可以和第四节中管理Hadoop集群一样管理我们的My Sample。例如下图，Stop我们的 MySample。

图 23. Stop Sample 页面 1

图 24. Stop Sample 页面 2

图 25. Stop Sample 页面 3

进阶的篇幅中，将会探讨如何给我们的My Sample自定义一些Actions，以及Action之间的依赖关系如何定义。篇幅有限，这里就先到此为止。希望以上的介绍能够燃起大家对Ambari的热情。

总结

大数据与云计算可谓是如今数据中心中最火的两项技术领域，几乎所有的 IT服务商都想在这两项技术中有所建树。相信Ambari可以帮助一些Hadoop的初学者。长远看来，大数据的发展离不开云计算，云计算中IaaS可谓已经很成熟，并且价格低廉。这时候许多公司将目光聚集在了PaaS。大数据的流行更是加速了相关PaaS产品的发展，而Ambari的出现必然可以拉近IaaS和PaaS的距离。也就是说有了Ambari，或许再加上Docker，那么快速从IaaS演进到PaaS就显得不是那么困难了。

当然这里Ambari 要跟IaaS 更好的切合，还有个对手那就是Sahara。它是另一个土生土长的OpenStack的子项目，其目的也是为了在Openstack上面快速搭建Hadoop等集群。期望着这些项目能够快速成长，将来对大家都有所帮助。

你可能感兴趣的:(大数据)

探索数据安全新境界：Apache Spark SQL Ranger Security插件深度揭秘乌昱有Melanie
探索数据安全新境界：ApacheSparkSQLRangerSecurity插件深度揭秘项目地址:https://gitcode.com/gh_mirrors/sp/spark-ranger随着大数据的爆炸性增长，数据安全性成为了企业不可忽视的核心议题。在这一背景下，【ApacheSparkSQLRangerSecurityPlugin】以其强大的数据访问控制能力脱颖而出，成为数据处理领域的明星级
Java 大视界 -- Java 大数据在智能医疗远程会诊与专家协作中的技术支持（146）青云交大数据新视界 Java 大视界 java 大数据智能医疗远程会诊专家协作数据安全病例诊断
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Flink相关面试题努力的搬砖人. 面试 java 后端 flink
以下是150道ApacheFlink面试题及其详细回答，涵盖了Flink的基础知识、核心架构、API使用、性能调优等多个方面，每道题目都尽量详细且简单易懂：Flink基础概念类1.什么是ApacheFlink？ApacheFlink是一个开源的流处理和批处理框架，能够实现快速、可靠、可扩展的大数据处理。它既可以处理无界的数据流，也可以处理有界的数据批，提供了低延迟和高吞吐量的实时数据处理能力。Fl
2017安全之势：云、大数据、IoT、人工智能 weixin_34392906 人工智能大数据嵌入式
“新技术让信息系统变成了孙悟空，开始无所不能，但安全仍是它的‘紧箍咒’！怎样解开这个‘紧箍咒’？各路安全厂商各显其能，但似乎路漫漫兮离目标还很遥远。”三未信安董事长张岳公在ZD至顶网《百位意见领袖寄语2017》中说出了这样一句话，我觉着很有道理。安全是一个永恒的话题，如果说它与新的信息技术相生相克也不过分。即便如此，我们更要尽可能的减少安全带来的束缚。2017已经到来，不妨来看看至顶网与业界大咖总
直方图梯度提升：大数据时代的极速决策引擎万事可爱^ 大数据机器学习深度学习直方图梯度提升 GBDT 算法
一、为什么需要直方图梯度提升？在Kaggle竞赛的冠军解决方案中，超过70%的获奖方案都使用了梯度提升算法。但当数据量突破百万级时，传统梯度提升树（GBDT）面临三大致命瓶颈：训练耗时剧增：每个特征的分割点计算都需要全量数据排序内存消耗爆炸：存储排序后的特征值需要额外空间处理效率低下：无法有效利用现代CPU的多核特性而梯度提升决策树（GBDT）作为集成学习的代表算法，通过迭代构建决策树实现预测能力
从原理到实践：Go 语言内存优化策略深度解析叶间清风1998 服务器 linux 网络
目录一、引言二、Go语言内存管理基础原理2.1栈与堆内存分配2.2垃圾回收机制剖析三、内存优化策略与实践3.1合理使用指针传递3.2避免不必要的内存分配3.3优化切片与映射的使用3.4控制变量作用域3.5减少闭包导致的变量逃逸四、内存优化工具与性能分析4.1pprof工具的使用4.2其他性能分析辅助手段五、不同场景下的内存优化案例分析5.1高并发Web服务场景5.2大数据处理与分析场景六、总结与展
硅谷企业的大数据平台架构什么样？看看Twitter、Airbnb、Uber的实践大数据v 分布式数据库大数据编程语言 hadoop
导读：本文分析一下典型硅谷互联网企业的大数据平台架构。作者：彭锋宋文欣孙浩峰来源：大数据DT（ID：hzdashuju）01Twitter的大数据平台架构Twitter是最早一批推进数字化运营的硅谷企业之一，其公司运营和产品迭代的很多功能是由其底层的大数据平台提供的。图7-2所示为Twitter大数据平台的基本示意图。▲图7-2Twitter大数据平台架构Twitter的大数据平台开发比较早，很多
【图像预处理】瞬间记忆深度学习 python
(4条消息)图像预处理方法总结_AI强仔的博客-CSDN博客对图像进行预处理的一些常见方法包括：调整图像大小和分辨率，以便适应模型的输入要求。对图像进行裁剪或填充，以使其大小和比例符合要求。调整图像的亮度、对比度和饱和度等图像属性。进行图像平滑或锐化操作，以去除噪声或增强图像特征。进行图像归一化或标准化，以确保各个特征在相同的尺度上。应用数据增强技术，如旋转、平移、缩放、翻转等，以扩大数据集，提高
大数据学习（75）-大数据组件总结 viperrrrrrr 大数据 impala yarn hdfs hive CDH mapreduce
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、CDHCDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的
大数据点燃智能制造变革之火——从数据到价值的跃迁 Echo_Wish 大数据高阶实战秘籍大数据制造
大数据点燃智能制造变革之火——从数据到价值的跃迁在全球制造业向智能化转型的浪潮中，大数据已然成为点燃变革的关键火种。从车间到供应链，从设备到产品生命周期，制造业正通过大数据分析找到隐形的效率优化机会，打破传统生产模式的桎梏。作为Echo_Wish，今天我将和大家探讨大数据如何融入智能制造，助力实现生产效率和业务价值的双重飞跃。一、智能制造的核心诉求：数据驱动的决策与执行智能制造的目标是通过数据驱动
Sqoop安装部署愿与狸花过一生大数据 sqoop hadoop hive
ApacheSqoop简介Sqoop（SQL-to-Hadoop）是Apache开源项目，主要用于：将关系型数据库中的数据导入Hadoop分布式文件系统（HDFS）或相关组件（如Hive、HBase）。将Hadoop处理后的数据导出回关系型数据库。核心特性批量数据传输支持从数据库表到HDFS/Hive的全量或增量数据迁移。并行化处理基于MapReduce实现并行导入导出，提升大数据量场景的效率。自
AI预测体彩排3新模型百十个定位预测+胆码预测+杀和尾+杀和值2025年3月21日第25弹 GIS小天体彩排3 人工智能机器学习彩票算法
前面由于工作原因停更了很长时间，停更期间很多彩友一直私信我何时恢复发布每日预测，目前手头上的项目已经基本收尾，接下来恢复发布。当然，也有很多朋友一直咨询3D超级助手开发的进度，在这里统一回复下。由于本人既精通编程+大数据分析，也热衷于彩票研究，所以很多彩友通过一些渠道找到了我。目前，加我的已有不少彩友，分成了3类人群：第一类：平时不懂数据分析，买彩全靠瞎猜乱蒙，这些朋友希望借助我的技术和方法来给他
Zynq PL端IP核之AXI DMA Mazy.v fpga开发嵌入式硬件 arm开发单片机
1.AXIDMA简介Zynq提供了两种DMA，一种是PS中的DMA控制器，通过GP口与PL端连接，另一种是PL中的AXIDMAIP核（软核），通过HP口与PS端连接。Zynq有4个HP接口，每一个HP接口都包含控制和数据FIFO，这些FIFO为大数据量突发传输提供缓冲，让HP接口成为理想的高速数据传输接口。AXIDMAIP内核在AXI4内存映射和AXI4StreamIP接口之间提供高带宽直接储存访
揭秘时空大数据：详细介绍、真实应用场景和数据示例解析陈书予 GIS开发（时空大数据）前端大数据 python 时序数据库
时空大数据(SpatialBigData)是指利用空间环境和时间环境信息，以及数字技术，从多种来源获取的海量、动态的、多维的数据，对空间环境和时间环境进行实时监测，并基于复杂的数据分析和挖掘，获取有价值的信息。时空大数据示例：1）社会网络数据：Twitter、Facebook、Instagram等社交媒体上的海量数据，可以通过时间、空间、主题等来提取有价值的信息。2）遥感图像数据：通过遥感技术从卫
python基于Django的旅游景点数据分析及可视化的设计与实现 7blk7 qq2295116502 python django 数据分析
目录项目介绍技术栈具体实现截图Scrapy爬虫框架关键技术和使用的工具环境等的说明解决的思路开发流程爬虫核心代码展示系统设计论文书写大纲详细视频演示源码获取项目介绍大数据分析是现下比较热门的词汇，通过分析之后可以得到更多深入且有价值的信息。现实的科技手段中，越来越多的应用都会涉及到大数据随着大数据时代的到来，数据挖掘、分析与应用成为多个行业的关键,本课题首先介绍了网络爬虫的基本概念以及技术实现方法
存算一体与存算分离：架构设计的深度解析与实现方案克里斯蒂亚诺罗纳尔多阿维罗大数据数据库
随着数据量的不断增大和对计算能力的需求日益提高，存算一体作为一种新型架构设计理念，在大数据处理、云计算和人工智能等领域正逐步引起广泛关注。在深入探讨存算一体之前，我们需要先了解存储和计算的基本概念，以及存算分离和存算一体之间的区别。什么是存算一体？存算一体，顾名思义，是将数据存储与计算资源紧密结合，形成一个统一的架构。在这种架构下，存储和计算不仅在物理层面上结合，更在架构设计上深度融合。具体来说，
LakeHouse湖仓一体成为下一站灯塔，数仓、数据湖架构即将退出群聊科杰科技大数据数据仓库
摘要：当前的大数据技术应用趋势表明，客户对单一的数据湖和数仓架构并不满意。近年来几乎所有的数据仓库都增加了对Parquet和ORC格式的外部表支持，这使数仓用户可以从相同的SQL引擎查询数据湖表，但它不会使数据湖表更易于管理，也不会消除仓库中数据的ETL复杂性、陈旧性和高级分析挑战。KeenDataLakeHouse（湖仓一体）作为新一代大数据技术架构，将逐渐取代单一数据湖和数仓架构，成为大数据架
数据让农业更聪明——用大数据激活田间地头 Echo_Wish 大数据大数据
数据让农业更聪明——用大数据激活田间地头在农业领域，随着人口增长和气候变化的影响，如何提升生产力始终是个关键话题。大数据，这个曾经只属于科技领域的概念，如今已悄然进入田间地头。今天，我以Echo_Wish的视角，和大家聊聊大数据如何赋能农业生产力，帮农民在阳光下也能掌握“科技的钥匙”。认识农业中的大数据什么是农业中的“大数据”？简单来说，就是收集和分析有关土地、气候、作物、病虫害以及市场需求等方面
GraphCube、Spark和深度学习技术赋能快消行业关键运营环节 weixin_30777913 开发语言大数据深度学习人工智能 spark
在快消品（FMCG）行业，需求计划（DemandPlanning）、库存管理（InventoryManagement）和需求供应管理（DemandSupplyManagement）是影响企业整体效率和利润水平的关键运营环节。GraphCube图多维数据集技术、Spark大数据分析处理技术和深度学习技术的结合，为这些环节提供了智能化、动态化和实时化的解决方案，显著提升业务运营效率和企业利润。一、技术
从 0 到 1 构建 Python 分布式爬虫，实现搜索引擎全攻略七七知享 Python python 分布式爬虫搜索引擎算法程序人生网络爬虫
从0到1构建Python分布式爬虫，实现搜索引擎全攻略在大数据与信息爆炸的时代，搜索引擎已然成为人们获取信息的关键入口。你是否好奇，像百度、谷歌这般强大的搜索引擎，背后是如何精准且高效地抓取海量网页数据的？本文将带你一探究竟，以Python为工具，打造属于自己的分布式爬虫，进而搭建一个简易搜索引擎，完整呈现从底层代码编写到系统搭建的全过程。通过本文的实践，我们成功打造了Python分布式爬虫，并以
第三十篇维度建模：从理论到落地的企业级实践随缘而动，随遇而安数据库 sql 数据仓库大数据数据库架构
目录一、维度建模核心理论体系1.1Kimball方法论四大支柱1.2关键概念对比矩阵二、四步建模法全流程解析2.1选择业务过程（以电商为例）2.2声明原子粒度（订单案例）2.3维度设计规范时间维度（含财年逻辑）SCDType2完整实现（Hudi）2.4事实表类型与设计三、企业级建模实战：电商用户分析3.1业务矩阵分析3.2模型实现代码四、高级建模技巧4.1多星型模式关联4.2大数据场景优化五、性能
计算机专业毕业设计题目推荐（新颖选题）本科计算机人工智能专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计人工智能毕业设计毕设题目毕业设计题目 ai AI编程
文章目录前言最新毕设选题（建议收藏起来）本科计算机人工智能专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能
深陷“大数据杀熟”漩涡的飞猪，庄卓然如何力挽狂澜？财经三剑客大数据
在线旅游市场（OTA）的蓬勃发展为消费者带来了诸多便利，然而，在这股数字化浪潮中，飞猪旅行却因其频繁陷入“大数据杀熟”的争议而备受瞩目。这一行为不仅损害了消费者的合法权益，更让飞猪的品牌形象蒙上了一层阴影。近年来，飞猪平台上关于价格乱象的投诉屡禁不止。在黑猫投诉平台上，与“飞猪”相关的投诉累计已超9万条，其中直接以“飞猪杀熟”为关键词的投诉便达数百条。消费者们纷纷反映，在飞猪平台上预订机票、酒店等
API item_get 在电商平台的核心作用以及如何测试 index_all 数据供应商京东api java 大数据开发语言
在电商行业蓬勃发展的今天，跨平台运营已成为众多商家的必然选择。然而，随之而来的数据孤岛问题却成为了制约电商企业进一步发展的瓶颈。为了解决这一问题，电商大数据平台应运而生，而item_getAPI作为获取商品详情的关键接口，在其中扮演着至关重要的角色。本文将深入探讨item_getAPI在跨平台电商数据整合中的应用与优势，为电商企业在数据驱动的道路上提供有力支持。一、跨平台电商数据整合的挑战在跨平台
“四预”驱动数字孪生水利：让智慧治水守护山河安澜 GeoSaaS 实景三维智慧城市人工智能 gis 大数据安全
近年来，从黄河秋汛到海河特大洪水，从珠江流域性洪灾到长江罕见骤旱，极端天气频发让水安全问题备受关注。如何实现“治水于未发”？数字孪生水利以“预报、预警、预演、预案”（四预）为核心，正在掀起一场水利治理的智慧革命。一、数字孪生水利：从物理世界到虚拟镜像的跃迁数字孪生水利并非简单的“数字建模”，而是通过高精度传感器、大数据、人工智能等技术，在虚拟空间构建与物理流域完全映射的“数字分身”，实现水情、工情
数智读书笔记系列021《大数据医疗》：探索医疗行业的智能变革 Allen_Lyb 数智读书笔记大数据健康医疗人工智能 python
一、书籍介绍《大数据医疗》由徐曼、沈江、余海燕合著，由机械工业出版社出版。徐曼是南开大学商学院副教授，在大数据驱动的智能决策研究领域颇有建树，尤其在大数据驱动的医疗与健康决策方面有着深入研究，曾获天津优秀博士论文、教育部博士研究生新人奖。沈江等作者也在相关学术和实践领域有着丰富的经验和深厚的专业知识。这本书系统且深入地探讨了大数据技术在医疗领域的应用与变革，对推动医疗行业的智能化发展具有重要的理论
OpenEuler kinit报错找不到文件的解决办法久违的太阳其他故障处理服务器运维
客户一套华为大数据集群平台,在一台arm平台openEuler服务器上面安装完集群客户端之后,使用kinit认证出现报错Nosuchfileordirectory:最终定位是操作系统/lib64缺少ld包导致,执行下面的命令恢复：ln-sv/lib/ld-linux-aarch64.so.1/lib64/ld-linux-aarch64.so.1
JAVA学习-练习试用Java实现“对大数据集中的网络日志进行解析和异常行为筛查” 守护者170 java学习 java 学习
问题：编写一个Spark程序，对大数据集中的网络日志进行解析和异常行为筛查。解答思路：下面是一个简单的Spark程序示例，用于解析网络日志并筛查异常行为。这个示例假设日志文件格式如下：timestamp,ip_address,user_id,action,event,extra_info2023-01-0112:00:00,192.168.1.1,123,login,success,none202
JAVA学习-练习试用Java实现“实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选” 守护者170 java学习 java 学习
问题：实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选。解答思路：要实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选，需要按照以下步骤进行：1.环境准备确保的环境中已经安装了ApacheSpark。可以从[ApacheSpark官网](https://spark.apache.org/downloads.html)下载并安装。2.创建Spark应用以下是
深度学习的颠覆性发展：从卷积神经网络到Transformer AI天才研究院 AI大模型应用入门实战与进阶 ChatGPT 大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍深度学习是人工智能的核心技术之一，它通过模拟人类大脑中的神经网络学习从大数据中抽取知识，从而实现智能化的自动化处理。深度学习的发展历程可以分为以下几个阶段：2006年，GeoffreyHinton等人开始研究卷积神经网络（ConvolutionalNeuralNetworks，CNN），这是深度学习的第一个大突破。CNN主要应用于图像处理和语音识别等领域。2012年，AlexKrizh
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {