E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Hadoop从入门到精通
linux安装单机版spark3.5.0
一、spark介绍是一种通用的大数据计算框架,正如传统大数据技术
Hadoop
的MapReduce、Hive引擎,以及Storm流式实时计算引擎等.Spark主要用于大数据的计算二、spark下载spark3.5.0
爱上雪茄
·
2024-03-17 18:57
大数据
JAVA知识
spark
大数据
分布式
Hadoop
简介
简介大数据简介概述大数据的说法从出现到现在,也经历了十多年时间的发展。而在这十几年的发展过程中,非常多的机构、组织都试图对大数据做出过定义,例如:研究机构Gartner给出了这样的定义:"大数据"是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。再例如根据维基百科的定义,大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。
程序员小郭同学
·
2024-03-16 07:10
hadoop
Hive中的NVL函数与COALESCE函数
ReturnsdefaultvalueifvalueisnullelsereturnsvalueExample:>SELECTnvl(null,'bla')FROMsrcLIMIT1;blaFunctionclass:org.apache.
hadoop
.hive.ql.udf.generic.GenericUDFNv
独影月下酌酒
·
2024-03-15 13:13
Hadoop
大数据
hive
hadoop
数据仓库
hive库表占用空间大小的命令
hdfsdfs-du-h/user/hive/warehouse2、按占用空间大小降序排列hdfsdfs-du/user/hive/warehouse/ipms.db|sort-nr3、查某一个分区占用空间大小(单位G)
hadoop
fs-ls
刀鋒偏冷
·
2024-03-15 13:13
hive
hadoop
数据仓库
2.Python
从入门到精通
—Python 基础语法详细讲解-上
【30天】Python
从入门到精通
详解版—第一天—Python基础语法详细讲解-上Python变量Python数据类型数字类型(Number)字符串类型(String)列表类型(List)元组类型(Tuple
以山河作礼。
·
2024-03-14 16:13
python
开发语言
Python招聘信息爬虫数据可视化分析大屏全屏系统(Django框架) 开题报告
所有项目都配有
从入门到精通
的基础知识视频课程,学习后应对毕业设计答辩。
黄菊华老师
·
2024-03-14 15:41
毕设资料
python
开发语言
03hive数仓安装与基础使用
hiveHive概述Hive是基于
Hadoop
的一个数据仓库工具。
daydayup9527
·
2024-03-14 13:39
hadoop_hive
运维
hadoop
python
从入门到精通
(十五):python爬虫完整学习大纲
一、基础知识爬虫的基本概念和工作原理。HTTP协议和网页结构。Python爬虫开发的基础库,如requests、BeautifulSoup等。常见的反爬虫机制和应对方法。二、爬虫逆向的技术代理服务器和IP封锁突破。用户代理和请求头模拟。JavaScript解析和执行。验证码识别和破解。动态网页抓取和爬虫框架。三、数据抓取和处理数据抓取的技巧和策略。数据清洗和预处理。数据存储和数据库操作。数据分析和
HACKNOE
·
2024-03-14 03:24
python
爬虫
学习
Python贵州贵阳二手房源爬虫数据可视化分析大屏全屏系统 开题报告
所有项目都配有
从入门到精通
的基础知识视频课程,学习后应对毕业设计答辩。
黄菊华老师
·
2024-03-12 16:35
毕设资料
贵州贵阳二手房源爬虫数据可视化
HDFS
(一)HDFS简介及其基本概念 HDFS(
Hadoop
DistributedFileSystem)是
hadoop
生态系统的一个重要组成部分,是
hadoop
中的的存储组件,在整个
Hadoop
中的地位非同一般
weixin_51987187
·
2024-03-12 14:32
笔记
大数据
大数据开发(
Hadoop
面试真题-卷二)
大数据开发(
Hadoop
面试真题)1、在大规模数据处理过程中使用编写MapReduce程序存在什么缺点?如何解决这些问题?
Key-Key
·
2024-03-12 02:15
大数据
hadoop
面试
Java开发
从入门到精通
(一):Java的十大经典排序算法
时间复杂度:指算法执行语句的次数,而并不是计算程序具体运行的时间。空间复杂度:指运行完一个程序所需内存的大小。稳定性:指待排序的序列中有两元素相等,排序之后它们的先后顺序不变。冒泡排序冒泡排序算法的原理如下:比较相邻的两个元素,如果前者比后者大(反之倒序),则交换。对每一对相邻元素做同样的工作,从开始第一对到结尾的最后一对。针对所有的元素重复以上的步骤。持续每次对越来越少的元素重复上面的步骤,直到
HACKNOE
·
2024-03-11 21:38
Java开发从入门到精通
排序算法
算法
数据结构
基于Python电影院在线选座订票系统 (Django框架)答辩常规问题和如何回答(答辩指导)
所有项目都配有
从入门到精通
的基础知识视频课程,学习后应对毕业设计答辩。
黄菊华老师
·
2024-03-11 03:58
毕设资料
电影院在线选座订票系统
Spark
从入门到精通
29:Spark SQL:工作原理剖析以及性能优化
SparkSQL工作原理剖析1.编写SQL语句只要是在数据库类型的技术里面,例如MySQL、Oracle等,包括现在大数据领域的数据仓库,例如Hive。它的基本的SQL执行的模型,都是类似的,首先都是要生成一条SQL语句执行计划。执行计划即从哪里查询,在哪个文件,从文件中查询哪些数据,此外,复杂的SQL还包括查询时是否对表中的数据进行过滤和筛选等等。2.UnresolvedLogicalPlan未
勇于自信
·
2024-03-11 00:20
zookeeper 使用
zookeeper介绍zookeeper是一个为分布式应用提供一致性服务的软件,它是开源的
Hadoop
项目中的一个子项目,并且根据google发表的论文来实现的,接下来我们首先来安装使用下这个软件,然后再来探索下其中比较重要一致性算法
SkTj
·
2024-03-10 02:15
Hive SQL 开发指南(三)优化及常见异常
在大数据领域,HiveSQL是一种常用的查询语言,用于在
Hadoop
上进行数据分析和处理。为了确保代码的可读性、维护性和性能,制定一套规范化的HiveSQL开发规范至关重要。
大数据_苡~
·
2024-03-09 14:13
003-数据开发
hive
Hive优化
数据倾斜
Hive常见异常
hive
join
大数据开发(
Hadoop
面试真题-卷九)
大数据开发(
Hadoop
面试真题)1、Hivecount(distinct)有几个reduce,海量数据会有什么问题?
Key-Key
·
2024-03-09 10:06
大数据
hadoop
面试
大数据开源框架技术汇总
目录系统平台(
Hadoop
、CDH、HDP)监控管理(CM、Hue、Ambari、Dr.Elephant、Ganglia、Zabbix、Eagle)文件系统(HDFS、GPFS、Ceph、Gluster
浪尖聊大数据-浪尖
·
2024-03-08 20:48
数据仓库
hive
flume
分布式
scipy
makefile
crm
lighttpd
Python北京二手房源爬虫数据可视化分析大屏全屏系统 开题报告
所有项目都配有
从入门到精通
的基础知识视频课程,学习后应对毕业设计答辩。
黄菊华老师
·
2024-03-08 19:16
毕设资料
北京二手房源爬虫数据可视化
Python湖南长沙二手房源爬虫数据可视化分析大屏全屏系统 开题报告
所有项目都配有
从入门到精通
的基础知识视频课程,学习后应对毕业设计答辩。
黄菊华老师
·
2024-03-07 21:17
毕设资料
湖南长沙二手房源爬虫数据可视化
从入门到精通
:Elasticsearch开发实践教程
Elasticsearch是一款开源的搜索引擎,它使用Lucene搜索库作为其核心搜索引擎。Elasticsearch使用RESTfulAPI进行交互,并支持多种数据类型的搜索和聚合。本教程将介绍Elasticsearch的基本原理,如何开发,以及如何在SpringBoot中使用Elasticsearch。Elasticsearch的原理Elasticsearch是一个分布式的文档存储和搜索引擎。
青年老年程序员
·
2024-03-05 19:14
Elasticsearch学习
elasticsearch
jenkins
大数据
Python上海美食餐厅餐馆商家爬虫数据可视化分析和推荐查询系统 开题报告
所有项目都配有
从入门到精通
的基础知识视频课程,学习后应对毕业设计答辩。
黄菊华老师
·
2024-03-04 20:15
毕设资料
上海美食餐厅餐馆爬虫数据可视化
【
Hadoop
】在spark读取clickhouse中数据
读取clickhouse数据库数据importscala.collection.mutable.ArrayBufferimportjava.util.Propertiesimportorg.apache.spark.sql.SaveModeimportorg.apache.spark.sql.SparkSessiondefgetCKJdbcProperties(batchSize:String="
方大刚233
·
2024-03-03 06:54
Hadoop
Scala
hadoop
spark
clickhouse
【
Hadoop
】使用Metorikku框架读取hive数据统计分析写入mysql
一、定义作业文件作业文件该文件将包括输入源、输出目标和要执行的配置文件的位置,具体内容如下metrics:-/user/xrx/qdb.yaml#此位置为hdfs文件系统目录inputs:output:jdbc:connectionUrl:"jdbc:mysql://233.233.233.233:3306/sjjc"user:"root"password:"123456"driver:"com.
方大刚233
·
2024-03-03 06:23
Hadoop
Scala
hadoop
hive
mysql
Python青海西宁二手房源爬虫数据可视化分析大屏全屏系统 开题报告
所有项目都配有
从入门到精通
的基础知识视频课程,学习后应对毕业设计答辩。
黄菊华老师
·
2024-03-03 02:20
毕设资料
青海西宁二手房源爬虫数据可视化
Spark-sql Adaptive Execution动态调整分区数量,调整输出文件数
看看这个参数如何运用:我们的spark-sql版本:[
hadoop
@666~]$spark-sql--versionWelcometo______/__
不想起的昵称
·
2024-03-02 15:03
hive
spark
hive
数据仓库
hadoop
里需要的lib
hadoop
.so版本不一致导致问题及解决办法
$
HADOOP
_HOME/lib/native/Linux-amd64-64(64位操作系统)$
HADOOP
_HOME/lib/native/Linux-i386-32(32位操作系统)文件夹中的lib
hadoop
.so
weixin_34304013
·
2024-03-02 09:23
大数据
操作系统
嵌入式
hadoop
启动报错处理
1.
hadoop
启动报错1.1.问题1util.NativeCodeLoader:Unabletoloadnative-
hadoop
libraryforyourplatform...usingbuiltin-javaclasseswhereapplicable
akuibpt23191
·
2024-03-02 08:51
大数据
操作系统
第5章:性能优化《Nginx实战:
从入门到精通
》
在Web服务器的世界里,性能是一个永恒的话题。Nginx已经是一个非常高效的服务器了,但是通过一些优化措施,你可以让它运行得更快、处理更多的请求,同时使用更少的资源。本章将探讨一些提升Nginx性能的策略。Nginx性能调优基础优化Nginx性能的第一步是理解和配置它的工作模式和工作参数,以适应你的具体需求和服务器环境。工作进程和连接数worker_processes:这个指令告诉Nginx启动多
运维家
·
2024-03-02 05:47
性能优化
nginx
运维
Python辽宁沈阳二手房源爬虫数据可视化分析大屏全屏系统 开题报告
所有项目都配有
从入门到精通
的基础知识视频课程,学习后应对毕业设计答辩。
黄菊华老师
·
2024-03-01 12:53
毕设资料
辽宁沈阳二手房源爬虫数据可视化
【Java万花筒】
从入门到精通
:Java实时数据可视化库详解
实时数据可视化:Java开发者必备技能前言在当今数据时代,实时数据可视化已成为企业和个人决策的关键环节之一。作为一名Java开发者,掌握实时数据可视化库的使用,可以帮助您更好地展示数据,提高工作效率和决策质量。本文将为您介绍目前市面上流行的八个Java实时数据可视化库,旨在帮助您快速入门和提高数据可视化能力。【Java万花筒】数据之翼:Java库助您飞跃科学计算高峰【Java万花筒】Java图形库
friklogff
·
2024-03-01 08:48
Java万花筒
信息可视化
java
Spark整合hive(保姆级教程)
准备工作:1、需要安装配置好hive,如果不会安装可以跳转到Linux下编写脚本自动安装hive2、需要安装配置好spark,如果不会安装可以跳转到Spark安装与配置(单机版)3、需要安装配置好
Hadoop
万家林
·
2024-02-29 09:47
spark
hive
spark
hadoop
Scrapy与分布式开发(1.1):课程导学
Scrapy与分布式开发:
从入门到精通
,打造高效爬虫系统课程大纲在这个专栏中,我们将一起探索Scrapy框架的魅力,以及如何通过Scrapy-Redis实现分布式爬虫的开发。
九月镇灵将
·
2024-02-28 11:23
打造高效爬虫系统
scrapy
分布式
python
爬虫
Hadoop
-Yarn-NodeManager是如何监控容器的
一、源码下载下面是
hadoop
官方源码下载地址,我下载的是
hadoop
-3.2.4,那就一起来看下吧Indexof/dist/
hadoop
/core二、上下文在我的博客中的ContainerLaunchprepareForLaunch
隔着天花板看星星
·
2024-02-28 06:15
hadoop
大数据
yarn
native sql -ABAP开发
从入门到精通
笔记
NativeSQLSQL概要OPENSQL读取数据SelectSelect...Selectsignle....where.列去重数据Selectdistinct...where...当取多条数据时,select结果会保存到内表中。Select...into...语句的结果不是保存在内保中,而是保存到了wa中,这里就要加一个endselect语句。【如果是selectintowa,就要使用ends
guduchangjian
·
2024-02-27 12:23
sql
笔记
数据库
Python 爬虫
从入门到精通
一、爬虫简介爬虫用来自动获取网络上信息。Python因其丰富的第三方库和易读性,成为了爬虫开发的热门选择。二、环境配置与基本工具1.Python环境配置安装Python3.x版本并配置好环境。DownloadPython|Python.org2.常用库介绍requests:用于处理HTTP请求的库,可以发送GET、POST等请求并获取响应数据。BeautifulSoup:用于解析HTML或XML文
武帝为此
·
2024-02-26 05:16
python爬虫
python
爬虫
开发语言
Zookeeper实现分布式锁
首先需要确保有
hadoop
102,
hadoop
103,
hadoop
104三台虚拟机并且都安装成功且配置成功了zookeeper。
正在绘制中
·
2024-02-25 23:35
分布式
zookeeper
云原生
C++
从入门到精通
第十六章(STL常用算法)
写在前面:本系列专栏主要介绍C++的相关知识,思路以下面的参考链接教程为主,大部分笔记也出自该教程,笔者的原创部分主要在示例代码的注释部分。除了参考下面的链接教程以外,笔者还参考了其它的一些C++教材(比如计算机二级教材和C语言教材),笔者认为重要的部分大多都会用粗体标注(未被标注出的部分可能全是重点,可根据相关部分的示例代码量和注释量判断,或者根据实际经验判断)。如有错漏欢迎指出。参考教程:黑马
Zevalin爱灰灰
·
2024-02-24 05:20
C++从入门到精通
c++
算法
Swift Combine 使用 ObservableObject 与 SwiftUI 模型作为发布源
从入门到精通
二十
Combine系列SwiftCombine
从入门到精通
一SwiftCombine发布者订阅者操作者
从入门到精通
二SwiftCombine管道
从入门到精通
三SwiftCombine发布者publisher
AI架构师易筋
·
2024-02-23 07:24
iOS
swift
swiftui
服务器
docker搭建
hadoop
hdfs完全分布式集群
1制作
hadoop
镜像参见https://www.cnblogs.com/rmxd/p/12051866.html该博客中只参考制作镜像部分,固定IP及启动集群的部分应该跳过。
shangcunshanfu
·
2024-02-20 22:08
hadoop
docker
big
data
基于docker安装HDFS
1.docker一键安装见docker一键安装2.拉取镜像sudodockerpullkiwenlau/
hadoop
:1.03.下载启动脚本gitclonehttps://github.com/kiwenlau
core512
·
2024-02-20 22:02
大数据
虚拟机&容器
docker
hdfs
寄予厚望!2024中科院《预警期刊名单》
点击下方卡片,关注“CVer”公众号AI/CV重磅干货,第一时间送达点击进入—>【论文投稿】微信交流群扫码加入CVer学术星球,可以获得最新顶会/顶刊上的论文idea和CV
从入门到精通
资料,以及最前沿项目和应用
Amusi(CVer)
·
2024-02-20 22:16
人工智能
计算机视觉
深度学习
hive 的map数和reduce如何确定
的文件大小,集群设置的文件块大小(目前为128M,可在hive中通过setdfs.block.size;命令查看到,该参数不能自定义修改);2.举例:a)假设input目录下有1个文件a,大小为780M,那么
hadoop
Super乐
·
2024-02-20 20:38
hive
hive
(17)Hive ——MR任务的map与reduce个数由什么决定?
MapTask的数量由以下参数决定文件个数文件大小blocksize一般而言,对于每一个输入的文件会有一个mapsplit,每一个分片会开启一个map任务,很容易导致小文件问题(如果不进行小文件合并,极可能导致
Hadoop
爱吃辣条byte
·
2024-02-20 20:27
#
Hive
hive
数据仓库
Hadoop
生态圈
是数据分析数据引擎,也是MapReduce模型,支持SQL4.Pig也是一个数据分析引擎,不支持SQL,有自己的PigLatin数据5.Sqoop是数据采集工具,针对关系数据库6.Flume是针对文件等数据的采集7.
Hadoop
陈超Terry的技术屋
·
2024-02-20 19:47
16.用
Hadoop
命令向CDH集群提交MR作业
Redhat7.2非Kerberos集群CDH5.13,OS为CentOS6.5前置条件CDH集群运行正常本地开发环境与集群网络互通且端口放通16.2示例这里使用的代码是没有加载CDH集群的xml配置的,因为使用
hadoop
大勇任卷舒
·
2024-02-20 19:27
【YARN】【Apache
Hadoop
YARN】【架构】
ThefundamentalideaofYARNistosplitupthefunctionalitiesofresourcemanagementandjobscheduling/monitoringintoseparatedaemons.TheideaistohaveaglobalResourceManager(RM)andper-applicationApplicationMaster(AM)
资源存储库
·
2024-02-20 18:48
apache
hadoop
大数据
记一次 Flink 作业启动缓慢
记一次Flink作业启动缓慢背景应用发现,
Hadoop
集群的hdfs较之前更加缓慢,且离线ELT任务也以前晚半个多小时才能跑完。
卢说
·
2024-02-20 18:38
Hadoop
大数据
Flink
flink
大数据
hadoop
hdfs
【plt.hist绘制直方图】:
从入门到精通
,只需一篇文章!【Matplotlib可视化】
【plt.pie绘制直方图】:
从入门到精通
,只需一篇文章!【Matplotlib可视化】!
高斯小哥
·
2024-02-20 15:21
matplotlib
信息可视化
python
pycharm
numpy
pandas
大数据Map Reduce (
Hadoop
) 和 MPP数据库 的区别
原理的角度出发,mapreduce其实就是二分查找的一个逆过程,不过因为计算节点有限,所以map和reduce前都预先有一个分区的步骤.二分查找要求数据是排序好的,所以MapReduce之间会有一个shuffle的过程对Map的结果排序.Reduce的输入是排好序的.MR分而治之的策略和数据库行业中另一种数据库MassivelyParallelProcessor即大规模并行处理数据库(典型代表AW
山哥Samuel
·
2024-02-20 15:05
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他