E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark核心技术
Azkaban各种类型的Job编写
command:Linuxshell命令行任务gobblin:通用数据采集工具hadoopJava:运行hadoopMR任务java:原生java任务hive:支持执行hiveSQLpig:pig脚本任务
spark
__元昊__
·
2024-03-28 21:00
关于HDP的20道高级运维面试题
HDP(HortonworksDataPlatform)的主要组件包括Hadoop框架、HDFS、MapReduce、YARN以及Hadoop生态系统中的其他关键工具,如
Spark
、Flink、Hive
编织幻境的妖
·
2024-03-26 15:34
运维
小米抢食大家电
白电类诸如美的、海尔、格力等,已深耕行业数十年,壁垒高筑,从
核心技术
专利、研发投入、生产制造到经销渠道、物流网络、售后服务体系等没有一个维度是互联网类企业可短期跨越的。黑电如海信、TCL、创维、L
一阳归来
·
2024-03-26 15:52
【Hadoop】使用Scala与
Spark
连接ClickHouse进行数据处理
风不懂不懂得叶的梦月不听不听闻窗里琴声意难穷水不见不曾见绿消红霜不知不知晓将别人怎道珍重落叶有风才敢做一个会飞的梦孤窗有月才敢登高在夜里从容桃花有水才怕身是客身是客此景不能久TieYann(铁阳)、薄彩生《不知晓》在大数据分析和处理领域,Apache
Spark
音乐学家方大刚
·
2024-03-26 09:56
Scala
Hadoop
hadoop
scala
spark
Spark
面试整理-
Spark
是什么?
Apache
Spark
是一个开源的分布式计算系统,它提供了一个用于大规模数据处理的快速、通用、易于使用的平台。它最初是在加州大学伯克利分校的AMPLab开发的,并于2010年开源。
不务正业的猿
·
2024-03-24 13:02
面试
Spark
spark
大数据
分布式
Java基础2-2:多态
一、前言 本文内容摘自《深入理解Java
核心技术
:写给Java工程师的干货笔记(基础篇)》一书,2022年出版,作者张洪亮(@Hollis),阿里巴巴技术专家,著有《Java工程师成神之路》系列文章,
大白有点菜
·
2024-03-24 10:58
Java基础
java
开发语言
探索SOCKS5代理、代理IP、HTTP与网络安全
作为一名软件工程师,深入理解网络通信的
核心技术
,如SOCKS5代理、代理IP、HTTP协议,以及它们在网络安全中的应用,对于设计和实施安全的网络应用至关重要。
京新云S5
·
2024-03-19 19:02
web安全
安全
网络
tcp/ip
http
Spark
Q&A
A:从
Spark
2.1开始,你可以通过启用
spark
.sql.files.ignoreCorruptFiles选项来忽略损毁的文件。
耐心的农夫2020
·
2024-03-19 00:12
linux安装单机版
spark
3.5.0
一、
spark
介绍是一种通用的大数据计算框架,正如传统大数据技术Hadoop的MapReduce、Hive引擎,以及Storm流式实时计算引擎等.
Spark
主要用于大数据的计算二、
spark
下载
spark
3.5.0
爱上雪茄
·
2024-03-17 18:57
大数据
JAVA知识
spark
大数据
分布式
Spark
的数据结构——RDD
RDD的5个特征下面来说一下RDD这东西,它是ResilientDistributedDatasets的简写。咱们来看看RDD在源码的解释。Alistofpartitions:在大数据领域,大数据都是分割成若干个部分,放到多个服务器上,这样就能做到多线程的处理数据,这对处理大数据量是非常重要的。分区意味着,可以使用多个线程了处理。Afunctionforcomputingeachsplit:作用在
bluedraam_pp
·
2024-03-14 08:32
Spark
spark
数据结构
大数据
大数据开发(
Spark
面试真题-卷一)
大数据开发(
Spark
面试真题)1、什么是
Spark
Streaming?简要描述其工作原理。2、什么是
Spark
内存管理机制?请解释其中的主要概念,并说明其作用。
Key-Key
·
2024-03-13 07:58
大数据
spark
面试
基于HBase和
Spark
构建企业级数据处理平台
摘要:在中国HBase技术社区第十届Meetup杭州站上,阿里云数据库技术专家李伟为大家分享了如何基于当下流行的HBase和
Spark
体系构建企业级数据处理平台,并且针对于一些具体落地场景进行了介绍。
weixin_34071713
·
2024-03-12 22:44
大数据
数据库
爬虫
lightGBM专题4:py
spark
平台下lightgbm模型保存
之前的文章(py
spark
lightGBM1和py
spark
lightGBM2)介绍了py
spark
下lightGBM算法的实现,本文将重点介绍下如何保存训练好的模型,直接上代码:frompy
spark
.sqlimport
Spark
Sessionfrompy
spark
.ml.featureimportStringIndexer
I_belong_to_jesus
·
2024-03-12 12:30
大数据
大数据开发(
Spark
面试真题-卷六)
大数据开发(
Spark
面试真题)1、
Spark
HashPartitioner和RangePartitioner的实现?
Key-Key
·
2024-03-12 02:16
大数据
spark
面试
大数据开发(Hadoop面试真题-卷二)
6、
Spark
为什么比MapReduce更快?7、详细描述一
Key-Key
·
2024-03-12 02:15
大数据
hadoop
面试
Spark
从入门到精通29:
Spark
SQL:工作原理剖析以及性能优化
Spark
SQL工作原理剖析1.编写SQL语句只要是在数据库类型的技术里面,例如MySQL、Oracle等,包括现在大数据领域的数据仓库,例如Hive。
勇于自信
·
2024-03-11 00:20
大数据开发(Hadoop面试真题-卷九)
3、
Spark
mapjoin的实现原理?4、
Spark
的stage如何划分?在源码中是怎么判断属于ShuffleMapStage或ResultStage的?5、
Spark
reduceByKe
Key-Key
·
2024-03-09 10:06
大数据
hadoop
面试
Spark
Streaming(二):DStream数据源
1、输入DStream和Receiver输入(Receiver)DStream代表了来自数据源的输入数据流,在之前的wordcount例子中,lines就是一个输入DStream(JavaReceiverInputDStream),代表了从netcat(nc)服务接收到的数据流。除了文件数据流之外,所有的输入DStream都会绑定一个Receiver对象,该对象是一个关键的组件,用来从数据源接收数
雪飘千里
·
2024-03-09 01:28
区块链+人力资源,发家致富与避免踩雷手册
相信最近很多人都在关注区块链——区块链技术的集成应用在新的技术变革和产业变革中起着重要作用,并明确要求把区块链作为
核心技术
自主创新的重要突破口和主攻方向,加大投入力度,着力攻克一批关键
核心技术
,加快推动区块链技术和产业创新发展
人博T空间
·
2024-03-08 20:20
Spark
常见问题汇总
注意:如果Driver写好了代码,eclipse或者程序上传后,没有开始处理数据,或者快速结束任务,也没有在控制台中打印错误,那么请进入
spark
的web页面,查看一下你的任务,找到每个分区日志的stderr
midNightParis
·
2024-03-08 03:25
spark
spark
Spark
Shop开源可商用,匹配小程序H5和PC端带分销功能!
Spark
Shop(星火商城)B2C商城是基于thinkphp6+elementui的开源免费可商用的高性能商城系统;包含小程序商城、H5商城、公众号商城、PC商城、App,支持页面diy、秒杀、优惠券
行动之上
·
2024-03-05 15:09
源码免费下载
小程序
浅析机器学习:原理、应用及未来展望
作为人工智能的
核心技术
之一,机器学习在近年来取得了显著的成果,并在各个领域发挥着重要作用。本文将深入浅出地介绍机器学习的概念、原理、应用领域及未来发展趋势。
祺稷
·
2024-03-05 15:39
AI
机器学习
说说开放签电子签章的这一年
1、开源运营情况再次声明,目前开放签开源“工具版”是技术层面、纯粹的电子签章
核心技术
,是面向技术开发工程师的。开源工具版实现了数
大犀牛牛
·
2024-03-05 07:28
开放签的点滴
开源
电子签章SDK
电子签章API
开放签开源社区
电子签章
一路狂奔也等于护城河
12.13刘润商学院日课感悟:一路狂奔也等于护城河护城河我们都不难理解,通过对产品
核心技术
的专利保护建立起来的。而一路狂奔就是不断的对产品进行创新。
徐猛_Merlin
·
2024-03-03 07:10
【Hadoop】在
spark
读取clickhouse中数据
clickhouse数据库数据importscala.collection.mutable.ArrayBufferimportjava.util.Propertiesimportorg.apache.
spark
.sql.SaveModeimportorg.apache.
spark
.sql.
Spark
SessiondefgetCKJdbcProperties
方大刚233
·
2024-03-03 06:54
Hadoop
Scala
hadoop
spark
clickhouse
Spark
-sql Adaptive Execution动态调整分区数量,调整输出文件数
有时间为了解决小文件问题,我们把
spark
.sql.shuffle.partitions这个参数调整的很小,但是随着时间的推移,数据量越来越大,当初设置的参数就不合适了,那有没有一个可以自我伸缩的参数呢
不想起的昵称
·
2024-03-02 15:03
hive
spark
hive
数据仓库
hive join中出现的数据暴增(数据重复)
我们来看一下案例:
spark
-sql>withtest1as>(select'10001'asuid,'xiaomi'asqid>unionall>select'10002'asuid,'huawei'asqid
不想起的昵称
·
2024-03-02 15:03
hive
大数据
hadoop
hive
hive四种常见的join
1.左连接leftjoin
spark
-sql>withtest1as(>select1asuser_id,'xiaoming'asname>unionall>select2asuser_id,'xiaolan'asname
不想起的昵称
·
2024-03-02 15:33
hive
大数据
hadoop
hdfs
hive
深入理解Lucene:开源全文搜索引擎的
核心技术
解析
1.介绍Lucene是什么?Lucene是一个开源的全文搜索引擎库,提供了强大的文本搜索和检索功能。它由Apache软件基金会维护和开发,采用Java语言编写,因其高性能、可扩展性和灵活性而备受欢迎。Lucene的作用和应用场景Lucene主要用于创建全文索引和执行文本搜索。其主要作用包括但不限于:在大型文本数据集中快速进行文本搜索和检索。实现网站、应用程序或系统中的搜索功能。构建文档管理系统、知
一休哥助手
·
2024-03-01 14:57
分布式系统
算法
搜索引擎
lucene
开源
Spark
整合hive(保姆级教程)
准备工作:1、需要安装配置好hive,如果不会安装可以跳转到Linux下编写脚本自动安装hive2、需要安装配置好
spark
,如果不会安装可以跳转到
Spark
安装与配置(单机版)3、需要安装配置好Hadoop
万家林
·
2024-02-29 09:47
spark
hive
spark
hadoop
Scrapy与分布式开发(1.1):课程导学
学习目标掌握网页抓取
核心技术
与知识,包括常用请求库、提取库;掌握Scrapy框架的基础知识和核心功能,包括爬虫设计
九月镇灵将
·
2024-02-28 11:23
打造高效爬虫系统
scrapy
分布式
python
爬虫
在
Spark
数据导入中的一些实践细节
best-practices-import-data-
spark
-nebula-graph本文由合合信息大数据团队柳佳浩撰写1.前言图谱业务随着时间的推移愈发的复杂化,逐渐体现出了性能上的瓶颈:单机不足以支持更大的图谱
NebulaGraph
·
2024-02-27 07:53
Spark
开发_简单DataFrame判空赋值逻辑
valtable1="实时转存数据"valtable2="历史存hdf数据"valdfin1=inputRDD(table1).asInstanceOf[org.apache.
spark
.sql.DataFrame
Matrix70
·
2024-02-26 22:06
Spark开发_工作
spark
大数据
分布式
Spark
SQL编程指南
Spark
SQL编程指南
Spark
SQL是用于结构化数据处理的一个模块。同
Spark
RDD不同地方在于
Spark
SQL的API可以给
Spark
计算引擎提供更多地信息,例如:数据结构、计算算子等。
<>=
·
2024-02-26 05:46
spark
开发者的口碑之选!融云获 CSDN、InfoQ 年度开发者影响力&技术生态构建奖
近日,融云接连收获国内
核心技术
社区的点赞,表彰其过去一年在驱动技术与业务创新融合、打造技术影响力等方面的成果。
·
2024-02-20 19:06
开发者开发者生态通信云
Pandas将单列XML格式数据转化为字典再拆分成多列 列表拆分成多列
单列XML扩展成多列遇到了个需求是需要把XML格式的数据拆分成多列的一个需求,本来需要使用
spark
进行处理的,但是没想到什么优雅的解决方案,所以打算先使用pandas找找感觉。样例数据如下所示。
aoyi1337
·
2024-02-20 18:22
python
航班数据预测与分析
数据清洗:数据存储到HDFS:使用py
spark
对数据进行分析://数据导入frompy
spark
import
Spark
Contextfrompy
spark
.sqlimportSQLContextsc=
林坰
·
2024-02-20 16:15
大数据
spark
航班数据分析
杜艳辉
再聊阴影裁剪与高性能视锥剔除
【U
Spark
le专栏】如果你深怀绝技,爱“搞点研究”,乐于分享也博采众长,我们期待你的加入,让智慧的火花碰撞交织,让知识的传递生生不息!
·
2024-02-20 16:50
unity
spark
为什么比mapreduce快?
spark
为什么比mapreduce快?
·
2024-02-20 16:30
后端
华为做出了两个动作!美媒:华为已经“稳操胜券”了!
在国内市场上,一说起华为公司,大家多都还是比较熟悉的;华为作为我国第一大的民营科技,在科技领域的实力是十分雄厚的,经过这么多年时间的发展,现在华为手中已经积累了大量的
核心技术
专利,有了这些
核心技术
的支持
小蘑菇壹号
·
2024-02-20 16:23
[CDH]
Spark
属性、内存、CPU相关知识梳理
version:2.4.0-cdh6.3.0文章目录
spark
properties常用配置
spark
task
spark
task使用的cpu核数
spark
architecture
spark
memory
spark
onyarn
枪枪枪
·
2024-02-20 15:24
Spark
spark
scala
big
data
spark
CTAS nuion all (union all的个数很多)导致超过
spark
.driver.maxResultSize配置(2G)
背景该sql运行在
spark
版本3.1.2下的thriftserver下现象在运行包含多个union的
spark
sql的时候报错(该sql包含了50多个uinon,且每个union字查询中会包含join
鸿乃江边鸟
·
2024-02-20 13:29
三项基本功
教学设计是教师的
核心技术
。考试研究也是一种科学研究,这里面有着精深的学问。”原来,老师的三项基本功是“解析教材、设计教学和考试研究”。仔细想想,是啊!教师是专业技术人员,可不是写好字就能当好老师的。
南街曹淑慧
·
2024-02-20 13:26
Flink理论—Flink架构设计
它集成了所有常见的集群资源管理器,例如HadoopYARN,但也可以设置作为独立集群甚至库运行,例如
Spark
的StandaloneMode本节概述了Flink架构,并且描述了其主要组件如何交互以执行应用程序和从故障中恢复
不二人生
·
2024-02-20 12:59
#
Flink
理论
flink
大数据
大数据 -
Spark
系列《六》- RDD详解
Spark
系列文章:大数据-
Spark
系列《一》-从Hadoop到
Spark
:大数据计算引擎的演进-CSDN博客大数据-
Spark
系列《二》-关于
Spark
在Idea中的一些常用配置-CSDN博客大数据
王哪跑nn
·
2024-02-20 10:55
spark
大数据
spark
分布式
大数据 -
Spark
系列《七》- 分区器详解
Spark
系列文章:大数据-
Spark
系列《一》-从Hadoop到
Spark
:大数据计算引擎的演进-CSDN博客大数据-
Spark
系列《二》-关于
Spark
在Idea中的一些常用配置-CSDN博客大数据
王哪跑nn
·
2024-02-20 10:55
spark
大数据
spark
分布式
Hive切换引擎(MR、Tez、
Spark
)
Hive切换引擎(MR、Tez、
Spark
)1.MapReduce计算引擎(默认)sethive.execution.engine=mr;2.Tez引擎sethive.execution.engine=
落空空。
·
2024-02-20 10:54
hive
mr
spark
AIGC专题一:探析AIGC的技术发展和应用
精彩推荐AI001:人工智能
核心技术
产业白皮书AI002:2
互联互通社区
·
2024-02-20 10:46
AIGC
Hbase - 自定义Rowkey规则
中我们有时候需要分析数据1点到2点的范围,可是经过Region又比较慢,这时候我们就可以定制`TableInputFormat`来实现我们的需求了,我们还可以采用Flink的`DataSet`的方式读取,另外下面还有`
Spark
kikiki5
·
2024-02-20 07:17
php实现讯飞星火大模型3.5
星火大模型-科大讯飞2.修改对应php文件中的key等可以参考文档说明,以及下载demo星火认知大模型WebAPI文档|讯飞开放平台文档中心其中appid等都需要修改还有uid,3.5模型wss://
spark
-ap
随风万里无云
·
2024-02-20 07:38
ai
php
开发语言
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他