大数据技术-spark 第15页

Apache Spark架构与特点

1.背景介绍ApacheSpark是一个开源的大数据处理框架，由AMLLabs公司开发，后被Apache软件基金会所支持。

OpenChat·2024-01-27 23:35

Spark-core

什么是SparkSpark是基于内存的快速，通用，可扩展的大数据分析引擎Spark的内置模块SparkCore是Spark可以离线处理的部分，实现了spark的基本功能，包含任务调度，错误恢复，与存储系统交互等模块

luckboy0000·2024-01-27 23:12

事件驱动架构与跨域数据共享：实现高效的数据传输与处理

1.背景介绍事件驱动架构和跨域数据共享是现代大数据技术中的重要概念，它们为实现高效的数据传输和处理提供了基础设施。事件驱动架构是一种异步、基于消息的系统架构，它允许系统在不同组件之间传递和处理事件。

OpenChat·2024-01-27 19:31

【自然语言处理的发展】

随着深度学习和大数据技术的不断进步，NLP在近年来取得了显著的突破。本文将探讨NLP技术的发展历程、最新技术进展以及未来展望。随着深度学习和大数据技术的进步，自然语言处理取得了显著的进步。

数据科学与艺术的贺公子·2024-01-27 19:22

独家解读 | 滴滴机器学习平台架构演进之路

所谓大同是指大家所要处理的问题都相似，技术架构和选型也差不太多，比如都会使用GPU集群、采用Spark或K8s平台等。

csdn产品小助手·2024-01-27 19:18

apache 前30个开源项目

高性能Web服务器提供HTTP服务支持非常活跃2ApacheTomcatJava应用服务器部署JavaWeb应用程序非常活跃3ApacheHadoop分布式存储和计算框架大数据处理非常活跃4ApacheSpark

临水逸·2024-01-27 17:35

【数据可视化技术】数据可视化概述&工具

OLAP可视化工具（三）Web可视化技术前言通过图表可视化分析数据结果，不仅能让数据更加生动、形象，便于用户发现数据中隐含的规律与知识，而且这也是软件工程师与数据工程师合作的最终工作成果，有助于帮助用户理解大数据技术的价值

Francek Chen·2024-01-27 16:39

如何使用irsa将火花提交给亚马逊eks集群

Inpreviousarticle,IhaveintroducedhowwesubmitaSparkjobtoanEKScluster.Aslongaswe’reusingotherAWScomponentsforourpipelinestointeract

weixin_26755331·2024-01-27 15:26

Pyspark分类--LogisticRegression

LogisticRegression：逻辑回归分类classpyspark.ml.classification.LogisticRegression(featuresCol=‘features’,labelCol

Gadaite·2024-01-27 14:53

搭建大数据平台常用的端口号

journalnode默认的端口号9000：非高可用访问数rpc端口8020：高可用访问数据rpc8088：yarn的webUI的端口号8080：master的webUI，Tomcat的端口号7077：spark

修勾勾L·2024-01-27 13:51

Spark连接Hive的两种方式

一、使用hive-site.xml第一步：将集群中的hive-site.xml的内容复制出来，并放在idea项目的resources下，要求文件命名为：hive-site.xmldatanucleus.schema.autoCreateAlltruejavax.jdo.option.ConnectionURLjdbc:mysql://192.168.38.160:3306/hive_db?crea

修勾勾L·2024-01-27 13:50

项目中常用的utils

importcryptofrom'crypto'importSparkMD5from'spark-md5'importCryptoJsfrom'crypto-js'importJSEncryptfrom'jsencrypt'importstoragefrom

乐夫天命兮·2024-01-27 13:05

flume+kafka+SparkStreaming+mysql+ssm+高德地图热力图项目

第一步、编写python脚本，产生模拟数据#coding=UTF-8importrandomimporttimephone=["13869555210","18542360152","15422556663","18852487210","13993584664","18754366522","15222436542","13369568452","13893556666","1536669855

printf200·2024-01-27 12:24

【Scala-spark.mlib】分布式矩阵——分布式计算的基石与利器

分布式矩阵1.mlib.linalg.distributed包2.DistributedMatrix特质3.BlockMatrix类4.CoordinateMatrix类5.IndexedRowMatrix类6.RowMatrix类7.小结1.mlib.linalg.distributed包矩阵计算是很多科学计算的重要步骤，而分布式矩阵存储则是分布式计算的基础。根据不同的计算需求，需要将用于计

JimmyShis·2024-01-27 10:12

2019年12月10日

今天在公司继续看spark教程，这么说来我已经快一个月没啥正事了（望向每日记录Excel文档），究竟说明公司药丸还是我药丸……反正先做好多手准备【今天明明温度不低办公室的三恒系统却还是开着高温，仿佛电费不要钱

真昼之月·2024-01-27 08:49

Spark-RDD持久化

(1)persist算子使用方法：varrdd=sc.textFile("test")rdd=rdd.persist(StorageLevel.MEMORY_ONLY)valcount=rdd.count()//或者其他操作StorageLevel说明：StorageLevel的构造函数：classStorageLevelprivate(privatevar_useDisk:Boolean,#是否

printf200·2024-01-27 08:02

Spark SQL中掌控sql语句的执行 - 了解你的查询计划

本文翻译自BeinchargeofQueryExcutioninSparkSQL背景自spark2.x的sql以及申明行DataFrameAPi以来，在spark查询数据越来越方便。

鸿乃江边鸟·2024-01-27 08:18

Hadoop与Spark横向比较【大数据扫盲】

大数据场景下的数据库有很多种，每种数据库根据其数据模型、查询语言、一致性模型和分布式架构等特性，都有其特定的使用场景。以下是一些常见的大数据数据库：1.**NoSQL数据库**：这类数据库通常用于处理大规模、非结构化的数据。它们通常提供简单的查询语言，并强调水平扩展和高可用性。例如：-**键值存储**：如Redis，AmazonDynamoDB-**列式存储**：如ApacheCassandra，

super_journey·2024-01-27 07:51

大数据技术之 Flink-CDC

第1章CDC简介1.1什么是CDCCDC是ChangeDataCapture（变更数据获取）的简称。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入、更新以及删除等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订阅及消费。1.2CDC的种类CDC主要分为基于查询和基于Binlog两种方式，我们主要了解一下这两种之间的区别：基于查询的CDC基于Binlog的CD

莱恩大数据·2024-01-27 07:35

[AIGC] 后台开发者必看：大数据背景下的关键技能与难点

后台开发者必看：大数据背景下的关键技能与难点前言：随着大数据技术的发展和广泛应用，后台开发的技能与难点也随之发生了变化。

专注于Java中间件的程序员木木·2024-01-27 07:30

使用spark mllib训练中文文本分类器的

importorg.apache.spark.mllib.classification.NaiveBayesimportorg.apache.spark.mllib.feature.HashingTFimportorg.apache.spark.mllib.linalg.Vectorsimportorg.apache.spark.sql.functions

DreamNotOver·2024-01-27 07:45

使用 Spark MLlib 使用 jieba 分词训练中文分类器

importorg.apache.spark.ml.classification.NaiveBayesimportorg.apache.spark.ml.feature.HashingTFimportorg.apache.spark.sql.functions

DreamNotOver·2024-01-27 07:45

Spark Thrift Server 架构和原理介绍

也可以看我CSDN的博客：https://blog.csdn.net/u013332124/article/details/90339850一、SparkThriftServer介绍SparkThriftServer

疯狂的哈丘·2024-01-27 04:17

实时分析海量新数据的难点和解决方案

解决方案：使用分布式计算和存储技术，如Hadoop、Spark、Kafka等，将数据分散存储在多个节点上，同时进行分布式计算和处理，以实现数据的实时处理和分析。2.数据质量的保障：海量新

云台095·2024-01-27 03:40

HBase入门：实现原理

文章目录说明HBase的实现原理HBase功能组件表和RegionRegion的定位说明本文参考自林子雨老师的《大数据技术原理与应用(第三版)》教材内容，仅供学习和交流HBase的实现原理HBase功能组件

缘友一世·2024-01-27 02:30

idea上搭建pyspark开发环境

1环境版本说明python版本：Anaconda3.6.5spark版本：spark-2.4.8-bin-hadoop2.7idea版本：2019.32环境变量配置2.1python环境变量配置将python.exe

jackyan163·2024-01-27 00:06

五大自然语言处理技术里程碑浅析

自然语言处理的发展随着深度学习和大数据技术的进步，自然语言处理取得了显著的进步。人们正在研究如何使计算机更好地理解和生成人类语言，以及如何应用NLP技术改善搜索引擎、语音助手、机器翻译等领域。

Syntax_CD·2024-01-26 21:54

数据仓库现代化和迁移解决方案Datametica

Datametica通过使用大数据技术和独特的自动化技术建立数据湖来帮助企业，这有助于以更快的速度和更低的成本完成该

weixin_30777913·2024-01-26 20:20

大数据所带来的四种思维方式的转变

随着近年来大数据技术的快速发展，大数据所创造的价值深刻改变了我们的生活、工作和思维方式。

garyond·2024-01-26 20:22

Spark 2.3.4 StandAlone 集群模式部署

Spark2.3.4StandAlone集群模式部署相关文档依赖服务系统优化创建路径配置/etc/profile配置$SPARK_HOME/conf/spark-env.sh配置$SPARK_HOME/

JP.Hu·2024-01-26 19:07

Flink 基础入门

前言SparkStreaming准确来说算是一个微批处理伪实时的做法，可是Flink是真的来一条就会处理一条，而且在SparkStreaming和Kafka进行整合时我们需要手动去管理偏移量的问题，而在

IT领域君·2024-01-26 19:28

Spark常见问题解决-日志和排查办法

Spark日志与排查报错问题查看：https://blog.csdn.net/qq_33588730/article/details/109353336Spark常见问题1.org.apache.spark.SparkException

for your wish·2024-01-26 15:39

Spark3内核源码与优化

文章目录一、Spark内核原理1、Spark内核概述1.1简介1.2Spark核心组件1.3Spark通用运行流程概述2、Spark部署模式2.1YARNCluster模式(重点)2.2YARNClient

魅Lemon·2024-01-26 15:38

Spark3学习笔记

文章目录一、Spark基础1、Spark概述1.1Spark简介1.2SparkVSHadoop1.3Spark特点1.4Spark入门Demo2、Spark运行模式2.1概述2.2Local模式2.3Standalone

魅Lemon·2024-01-26 15:38

pyspark学习_dataframe常用操作_02

#回顾01常用操作frompysparkimportSparkSession,DataFramespark=SparkSession.builder.getOrCreate()peopleDF=spark.read.json

heiqizero·2024-01-26 15:07

梳理离线批次spark作业提交脚本

/bin/bash-x#[email protected]_NAME="SparkALS"CDHUSER=adminCDHPASSWORD=adminCDHURL=http:/

赛尔木·2024-01-26 11:47

Apache Spark

ApacheSpark是一种快速、通用的大数据处理引擎，用于分布式数据处理和分析。它支持在大规模数据集上进行高性能计算，并且具有内置的分布式数据处理功能。

先------------------·2024-01-26 10:30

Hadoop3.x学习笔记

文章目录一、Hadoop入门1、Hadoop概述1.1简介1.2hadoop优势1.3hadoop组成1.4大数据技术生态体系2、环境准备(重点)2.1模板机配置2.2模板创建3、本地运行模式（官方WordCount

魅Lemon·2024-01-26 09:24

一年一度的星环开发者奇妙之旅招募活动开始啦

来自国内外政府、金融、交通、能源、制造等行业的超过1500名嘉宾将出席会议，共同探讨最新的大数据技术发展趋势、国产化数据库、数字化转型、数据安全、数据要素与流通等热门话题。

星环科技·2024-01-26 07:39

深度干货｜谈谈阿里云AnalyticDB Spark如何构建低成本数据湖分析

本文将分享AnalyticDBMySQLSpark助力构建低成本数据湖分析的最佳实践。

阿里云瑶池数据库·2024-01-26 06:57

Spark OLAP高阶分析函数总结

我们经常困惑在数据挖掘和报表分析场景中sql不会写，或者因为sql太长以至于可读性降低;今天我为大家总结了一些SparkSQL中的高阶函数，它们将会对你的业务形成助力，百倍提升你的工作效率GROUPING

易企秀工程师·2024-01-26 06:47

Spark学习笔记五：Spark资源调度和任务调度

一、StageSpark任务会根据RDD之间的依赖关系，形成一个DAG有向无环图，DAG会提交给DAGScheduler，DAGScheduler会把DAG划分相互依赖的多个stage，划分stage的依据就是

开发者连小超·2024-01-26 04:42

pyspark 数据类型转换_apache spark-将pyspark字符串转换为日期形式

apachespark-将pyspark字符串转换为日期形式我有一个日期pyspark数据框，其中的字符串列格式为df.select(to_date(df.STRING_COLUMN).alias('new_date

weixin_39860201·2024-01-26 04:39

PySpark-DataFrame各种常用操作举例--转载

最近开始接触pyspark，其中DataFrame的应用很重要也很简便。因此，这里记录一下自己的学习笔记。详细的应用可以参看pyspark.sqlmodule。

zuoseve01·2024-01-26 02:10

PySparkSQL 入门(概述、DataFrame操作)

#博学谷IT学习技术支持#第一章快速入门1.1什么是SparkSQLSparkSQL是Spark的一个模块,用于处理海量结构化数据第一、针对结构化数据处理，属于Spark框架一个部分第二、抽象数据结构：

y鱼鱼·2024-01-26 02:10

Pyspark 读 DataFrame 的使用与基本操作

一、安装基于mac操作系统安装jdkjdk下载地址安装pysparkpipinstallpyspark二、读取HDFS文件读json注意，如果是多行的json，需要用“multiLine”模式，否则会报错

苏学算法·2024-01-26 02:10

spark 学习_rdd常用操作

【sparkAPI函数讲解详细】https://www.iteblog.com/archives/1399#reduceByKey[重要API接口，全面】http://spark.apache.org/

weixin_30852367·2024-01-26 02:40

pyspark学习_wordcount

#统计文件中每个字母出现次数#第一版rdd文件行类型:Aaron,OperatingSystem,100frompysparkimportSparkConf,SparkContextconf=SparkConf

heiqizero·2024-01-26 02:09

pyspark学习_RDD转为DataFrame

#方法1：反射机制推断RDD模式people.txtTom12Jack13Janny14frompyspark.sqlimportSparkSession,Rowspark=SparkSession.builder.getOrCreate