E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark经验总结
抗住千万流量的大型分布式系统架构设计
文中一部分为读书笔记,一部分是个人
经验总结
,对大型分布式网站架构有较好的参考价值。一、大型分布式网站架构技术1、大型网站的特点用户多,分布广泛大流量,
Ch97CKd
·
2024-01-27 17:26
分布式
数据库
队列
编程语言
java
apache 前30个开源项目
高性能Web服务器提供HTTP服务支持非常活跃2ApacheTomcatJava应用服务器部署JavaWeb应用程序非常活跃3ApacheHadoop分布式存储和计算框架大数据处理非常活跃4Apache
Spark
临水逸
·
2024-01-27 17:35
apache
开源
如何使用irsa将火花提交给亚马逊eks集群
Inpreviousarticle,Ihaveintroducedhowwesubmita
Spark
jobtoanEKScluster.Aslongaswe’reusingotherAWScomponentsforourpipelinestointeract
weixin_26755331
·
2024-01-27 15:26
java
Py
spark
分类--LogisticRegression
LogisticRegression:逻辑回归分类classpy
spark
.ml.classification.LogisticRegression(featuresCol=‘features’,labelCol
Gadaite
·
2024-01-27 14:53
ML基础
分类
机器学习
人工智能
搭建大数据平台常用的端口号
journalnode默认的端口号9000:非高可用访问数rpc端口8020:高可用访问数据rpc8088:yarn的webUI的端口号8080:master的webUI,Tomcat的端口号7077:
spark
修勾勾L
·
2024-01-27 13:51
Linux
大数据
Spark
连接Hive的两种方式
一、使用hive-site.xml第一步:将集群中的hive-site.xml的内容复制出来,并放在idea项目的resources下,要求文件命名为:hive-site.xmldatanucleus.schema.autoCreateAlltruejavax.jdo.option.ConnectionURLjdbc:mysql://192.168.38.160:3306/hive_db?crea
修勾勾L
·
2024-01-27 13:50
Spark
Hive
hive
spark
mysql
日语入门学习应避免的事情
学生们应该知道,这些都是日语初级阶段应该避免的问题,小编在一开始学日语时也曾犯过类似的错误,所以以下也包含了小编的
经验总结
。
悠悠飘落叶
·
2024-01-27 13:28
项目中常用的utils
importcryptofrom'crypto'import
Spark
MD5from'
spark
-md5'importCryptoJsfrom'crypto-js'importJSEncryptfrom'jsencrypt'importstoragefrom
乐夫天命兮
·
2024-01-27 13:05
javascript
前端
开发语言
flume+kafka+
Spark
Streaming+mysql+ssm+高德地图热力图项目
第一步、编写python脚本,产生模拟数据#coding=UTF-8importrandomimporttimephone=["13869555210","18542360152","15422556663","18852487210","13993584664","18754366522","15222436542","13369568452","13893556666","1536669855
printf200
·
2024-01-27 12:24
【Scala-
spark
.mlib】分布式矩阵——分布式计算的基石与利器
分布式矩阵1.mlib.linalg.distributed包2.DistributedMatrix特质3.BlockMatrix类4.CoordinateMatrix类5.IndexedRowMatrix类6.RowMatrix类7.小结1.mlib.linalg.distributed包 矩阵计算是很多科学计算的重要步骤,而分布式矩阵存储则是分布式计算的基础。根据不同的计算需求,需要将用于计
JimmyShis
·
2024-01-27 10:12
spark
大数据
分布式
scala
分布式计算
如何做好一个信息系统项目经理,一个项目经理的个人体会和
经验总结
(四)
前言说完了在项目开发阶段我的一些个人体会和
经验总结
,最后我们聊聊在项目验收阶段我们需要关注哪些方面的内容……项目验收阶段系统开发告一段落后,就进入客户培训、系统验收阶段,这个阶段,我一般会注意以下几个问题
yangshuquan
·
2024-01-27 10:24
项目管理
项目管理
经验分享
如何做好一个信息系统项目经理,一个项目经理的个人体会和
经验总结
(二)
前言前一篇文章讲了在项目开始阶段,作为一个信息系统项目经理应该做好哪些内容,这一篇我们继续聊聊在项目开发阶段,项目经理又需要做好哪些事情呢?_二、项目开发阶段在项目开始阶段,你已经明白了要做哪些事情,也清楚了你手上的筹码以及你做这个项目的总体策略,就可以进行项目开发了,在这个阶段,作为一个做好一个信息系统项目经理,需要做好哪些事情呢?我的体会主要有以下几点:1.首先是成立项目小组,组建开发团队成员
yangshuquan
·
2024-01-27 10:23
项目管理
项目管理
经验分享
如何做好一个信息系统项目经理,一个项目经理的个人体会和
经验总结
(三)
前言今天我们继续聊聊在项目开发阶段,项目经理需要做好的事情二、项目开发阶段(续)4.控制好项目开发质量要控制好项目开发质量,主要是依赖测试,好的产品都是靠不断地测试,不断地试错做出来的,比如程序员单元测试,后期的整体测试,有修改时的回归测试等等,不管是多伟大的信息系统,都不能违背这个规律。有一点很重要的,就是不要相信程序员的自测,最好从一开始就指定成员专门负责测试,即便是只有一个QA,也比全部交给
yangshuquan
·
2024-01-27 10:23
项目管理
项目管理
经验分享
2019年12月10日
今天在公司继续看
spark
教程,这么说来我已经快一个月没啥正事了(望向每日记录Excel文档),究竟说明公司药丸还是我药丸……反正先做好多手准备【今天明明温度不低办公室的三恒系统却还是开着高温,仿佛电费不要钱
真昼之月
·
2024-01-27 08:49
Spark
-RDD持久化
(1)persist算子使用方法:varrdd=sc.textFile("test")rdd=rdd.persist(StorageLevel.MEMORY_ONLY)valcount=rdd.count()//或者其他操作StorageLevel说明:StorageLevel的构造函数:classStorageLevelprivate(privatevar_useDisk:Boolean,#是否
printf200
·
2024-01-27 08:02
Spark
SQL中掌控sql语句的执行 - 了解你的查询计划
本文翻译自BeinchargeofQueryExcutionin
Spark
SQL背景自
spark
2.x的sql以及申明行DataFrameAPi以来,在
spark
查询数据越来越方便。
鸿乃江边鸟
·
2024-01-27 08:18
Hadoop与
Spark
横向比较【大数据扫盲】
大数据场景下的数据库有很多种,每种数据库根据其数据模型、查询语言、一致性模型和分布式架构等特性,都有其特定的使用场景。以下是一些常见的大数据数据库:1.**NoSQL数据库**:这类数据库通常用于处理大规模、非结构化的数据。它们通常提供简单的查询语言,并强调水平扩展和高可用性。例如:-**键值存储**:如Redis,AmazonDynamoDB-**列式存储**:如ApacheCassandra,
super_journey
·
2024-01-27 07:51
大数据
hadoop
spark
使用
spark
mllib训练中文文本分类器的
importorg.apache.
spark
.mllib.classification.NaiveBayesimportorg.apache.
spark
.mllib.feature.HashingTFimportorg.apache.
spark
.mllib.linalg.Vectorsimportorg.apache.
spark
.sql.functions
DreamNotOver
·
2024-01-27 07:45
spark-ml
中文分类
使用
Spark
MLlib 使用 jieba 分词训练中文分类器
importorg.apache.
spark
.ml.classification.NaiveBayesimportorg.apache.
spark
.ml.feature.HashingTFimportorg.apache.
spark
.sql.functions
DreamNotOver
·
2024-01-27 07:45
spark-ml
中文分类
集群
VBA_MF系列技术资料1-320
MF系列VBA技术资料为了让广大学员在VBA编程中有切实可行的思路及有效的提高自己的编程技巧,我参考大量的资料,并结合自己的
经验总结
了这份MF系列VBA技术综合资料,而且开放源码(MF04除外),其中MF01
VBA6337
·
2024-01-27 04:27
VBA
OFFICE
开发语言
Spark
Thrift Server 架构和原理介绍
也可以看我CSDN的博客:https://blog.csdn.net/u013332124/article/details/90339850一、
Spark
ThriftServer介绍
Spark
ThriftServer
疯狂的哈丘
·
2024-01-27 04:17
实时分析海量新数据的难点 和解决方案
解决方案:使用分布式计算和存储技术,如Hadoop、
Spark
、Kafka等,将数据分散存储在多个节点上,同时进行分布式计算和处理,以实现数据的实时处理和分析。2.数据质量的保障:海量新
云台095
·
2024-01-27 03:40
大数据的应用
大数据
idea上搭建py
spark
开发环境
1环境版本说明python版本:Anaconda3.6.5
spark
版本:
spark
-2.4.8-bin-hadoop2.7idea版本:2019.32环境变量配置2.1python环境变量配置将python.exe
jackyan163
·
2024-01-27 00:06
阿里大牛整理的六大Java进阶技术模块,看完茅塞顿开
现在正是需要我们认真考虑的时候,要如何提高我们的编程能力,要怎样努力才可以成为一名Java架构师,下面几点是凭我多年
经验总结
出
Java技术小吴
·
2024-01-27 00:57
设计模式
分布式
java
Spark
2.3.4 StandAlone 集群模式部署
Spark
2.3.4StandAlone集群模式部署相关文档依赖服务系统优化创建路径配置/etc/profile配置$
SPARK
_HOME/conf/
spark
-env.sh配置$
SPARK
_HOME/
JP.Hu
·
2024-01-26 19:07
Spark
spark
大数据
分布式
Flink 基础入门
前言
Spark
Streaming准确来说算是一个微批处理伪实时的做法,可是Flink是真的来一条就会处理一条,而且在
Spark
Streaming和Kafka进行整合时我们需要手动去管理偏移量的问题,而在
IT领域君
·
2024-01-26 19:28
Apache SeaTunnel 数据集成插件开发最新
经验总结
!
在ApacheSeaTunnel的最新插件开发中,connector-v2maxcompute连接器实现了基于CatalogTable+SaveMode的新版本。本文主要给大家分享了源端的关键改动包括弃用了过时的方法,改为通过CatalogTable实现数据传递。汇端则增加了对multi-tablesink和saveMode接口的实现,并需手动管理autoservice注解等经验方法!此外,开发了
SeaTunnel
·
2024-01-26 15:26
大数据
Spark
常见问题解决-日志和排查办法
Spark
日志与排查报错问题查看:https://blog.csdn.net/qq_33588730/article/details/109353336
Spark
常见问题1.org.apache.
spark
.
Spark
Exception
for your wish
·
2024-01-26 15:39
spark
大数据
分布式
Spark
3内核源码与优化
文章目录一、
Spark
内核原理1、
Spark
内核概述1.1简介1.2
Spark
核心组件1.3
Spark
通用运行流程概述2、
Spark
部署模式2.1YARNCluster模式(重点)2.2YARNClient
魅Lemon
·
2024-01-26 15:38
大数据
spark
Spark
3学习笔记
文章目录一、
Spark
基础1、
Spark
概述1.1
Spark
简介1.2
Spark
VSHadoop1.3
Spark
特点1.4
Spark
入门Demo2、
Spark
运行模式2.1概述2.2Local模式2.3Standalone
魅Lemon
·
2024-01-26 15:38
大数据
spark
py
spark
学习_dataframe常用操作_02
#回顾01常用操作frompy
spark
import
Spark
Session,DataFrame
spark
=
Spark
Session.builder.getOrCreate()peopleDF=
spark
.read.json
heiqizero
·
2024-01-26 15:07
spark
spark
项目中从需求分析到研发上线
比如经典的瀑布模型工作流,其实就是一个经过很多
经验总结
下来的工程方法。本节阐述项目中从需求到研发上线的过程。
奋力向前123
·
2024-01-26 14:27
java
需求分析
2022年4月的第九天
应该是通过两年多的临床治疗
经验总结
出来的治疗方法。虽然已有进口的抗病毒药,但
消消乐的日常
·
2024-01-26 12:12
梳理离线批次
spark
作业提交脚本
/bin/bash-x#
[email protected]
_NAME="
Spark
ALS"CDHUSER=adminCDHPASSWORD=adminCDHURL=http:/
赛尔木
·
2024-01-26 11:47
Apache
Spark
Apache
Spark
是一种快速、通用的大数据处理引擎,用于分布式数据处理和分析。它支持在大规模数据集上进行高性能计算,并且具有内置的分布式数据处理功能。
先------------------
·
2024-01-26 10:30
apache
spark
大数据
Python乱码九问
因此在此以个人的踩坑
经验总结
出一些常见问题和解决方案。
后端技术小屋
·
2024-01-26 07:57
深度干货|谈谈阿里云AnalyticDB
Spark
如何构建低成本数据湖分析
本文将分享AnalyticDBMySQL
Spark
助力构建低成本数据湖分析的最佳实践。
阿里云瑶池数据库
·
2024-01-26 06:57
阿里云
spark
云计算
Spark
OLAP高阶分析函数总结
我们经常困惑在数据挖掘和报表分析场景中sql不会写,或者因为sql太长以至于可读性降低;今天我为大家总结了一些
Spark
SQL中的高阶函数,它们将会对你的业务形成助力,百倍提升你的工作效率GROUPING
易企秀工程师
·
2024-01-26 06:47
Spark
学习笔记五:
Spark
资源调度和任务调度
一、Stage
Spark
任务会根据RDD之间的依赖关系,形成一个DAG有向无环图,DAG会提交给DAGScheduler,DAGScheduler会把DAG划分相互依赖的多个stage,划分stage的依据就是
开发者连小超
·
2024-01-26 04:42
py
spark
数据类型转换_apache
spark
-将py
spark
字符串转换为日期形式
apache
spark
-将py
spark
字符串转换为日期形式我有一个日期py
spark
数据框,其中的字符串列格式为df.select(to_date(df.STRING_COLUMN).alias('new_date
weixin_39860201
·
2024-01-26 04:39
pyspark
数据类型转换
Py
Spark
-DataFrame各种常用操作举例--转载
最近开始接触py
spark
,其中DataFrame的应用很重要也很简便。因此,这里记录一下自己的学习笔记。详细的应用可以参看py
spark
.sqlmodule。
zuoseve01
·
2024-01-26 02:10
pyspark
Py
Spark
SQL 入门(概述、DataFrame操作)
#博学谷IT学习技术支持#第一章快速入门1.1什么是
Spark
SQL
Spark
SQL是
Spark
的一个模块,用于处理海量结构化数据第一、针对结构化数据处理,属于
Spark
框架一个部分第二、抽象数据结构:
y鱼鱼
·
2024-01-26 02:10
大数据
大数据
spark
Py
spark
读 DataFrame 的使用与基本操作
一、安装基于mac操作系统安装jdkjdk下载地址安装py
spark
pipinstallpy
spark
二、读取HDFS文件读json注意,如果是多行的json,需要用“multiLine”模式,否则会报错
苏学算法
·
2024-01-26 02:10
spark
sql
hadoop
spark
sql
pyspark
spark
学习_rdd常用操作
【
spark
API函数讲解详细】https://www.iteblog.com/archives/1399#reduceByKey[重要API接口,全面】http://
spark
.apache.org/
weixin_30852367
·
2024-01-26 02:40
5g
python
scala
py
spark
学习_wordcount
#统计文件中每个字母出现次数#第一版rdd文件行类型:Aaron,OperatingSystem,100frompy
spark
import
Spark
Conf,
Spark
Contextconf=
Spark
Conf
heiqizero
·
2024-01-26 02:09
spark
spark
python
py
spark
学习_RDD转为DataFrame
#方法1:反射机制推断RDD模式people.txtTom12Jack13Janny14frompy
spark
.sqlimport
Spark
Session,Row
spark
=
Spark
Session.builder.getOrCreate
heiqizero
·
2024-01-26 02:09
spark
spark
python
py
spark
学习-RDD转换和动作
#RDD创建#1.parallelize方法:创建RDD,参数为list,返回RDDsc.parallelize(param:list)#demosc.parallelize(['tom','jack','black'])#2.textFile方法:读取文件,创建RDD,参数为hdfs文件地址或者本地文件地址,返回RDDsc.textFile(param:filepath)#demosc.text
heiqizero
·
2024-01-26 02:39
spark
spark
python
Py
Spark
—DataFrame笔记
本人博客园同篇文章:Py
Spark
—DataFrame笔记 DataFrame基础+示例,为了自查方便汇总了关于Py
Spark
-dataframe相关知识点,集合了很多篇博客和知乎内容,结合了自身实践
了无痕1314
·
2024-01-26 02:38
PySpark
spark
大数据
【
Spark
】py
spark
基于DataFrame使用MLlib包
另外,根据
Spark
文档,现在主要的
Spark
机器学习API是
spark
.ml包中基于DataFrame的一套模型。1ML包的介绍从顶层上看,ML包主要包含三大抽象类:转换器、预测器和工作流。
beautiful_huang
·
2024-01-26 02:37
Spark
spark
Py
Spark
常见操作
DataFrame创建1、RDD转换DataFrame首先创建一个rdd对象frompy
spark
.sqlimport
Spark
Sessioncolumns=["language","users_count
kang0709
·
2024-01-26 02:37
Spark
大数据
机器学习
上一页
12
13
14
15
16
17
18
19
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他