数据开发--spark 第18页

Spark读取kafka（流式和批数据）

spark读取kafka（批数据处理）#按照偏移量读取kafka数据frompyspark.sqlimportSparkSessionss=SparkSession.builder.getOrCreate

中长跑路上crush·2024-01-20 23:55

Spark流式读取文件数据

流式读取文件数据frompyspark.sqlimportSparkSessionss=SparkSession.builder.getOrCreate()#todo注意1：流式读取目录下的文件--》一定一定要是目录

中长跑路上crush·2024-01-20 23:25

Spark Streaming通过receiver方式消费kafka数据时数据积压问题

1.问题在通过receiver方式接受kafka消息时，发现有大量消息在队列中阻塞最终导致spark任务执行失败。

sinat_36710456·2024-01-20 22:23

Spark(一): 基本架构及原理

前言:目标：架构及生态：Spark与hadoop:运行流程及特点：常用术语:Spark运行模式：RDD运行流程：前言:ApacheSpark是一个围绕速度、易用性和复杂分析构建的大数据处理框架，最初在2009

贝賏赑钡·2024-01-20 22:46

实战讲解｜Trino 在袋鼠云数栈的探索与实践

袋鼠云数栈作为新一代一站式大数据基础软件，其核心优势在于不仅提供了快速便捷、易于上手的底层数据开发模块，更推出了涵盖质量、标签及指标等上层偏业务功能模块。

袋鼠云数栈·2024-01-20 21:44

PDF如何裁剪页面，PDF裁剪页面的小技巧

使用工具：旋风PDF编辑器下载地址：http://www.679sparkle.com/pdfeditor操作方法：1：先打开旋风PDF编辑器，点击打开文件按钮打开需要编辑的PDF文件。2：在菜单

六号_db7a·2024-01-20 18:09

11.Join的MapReduce实现

Join在MapReduce中的实现一、概述tips:Hive:MapReduce/Spark巧用explain查看语法树常见的面试题:描述如何使用MapReduce来实现join功能：考察点MapReduce

哈哈大圣·2024-01-20 18:40

大数据与算法人生

一、大数据时代的两难命题：1、数据开发和个人隐私之间的矛盾。精准商业一定是数据驱动的，不能够使用数据，技术进步就成了空话。2、数据的确权与利益分配问题。

骁客振华·2024-01-20 17:29

Spark在降本增效中的一些思考

背景在大环境不好的情况下,本司也开始了“降本增效”，本文探讨一下，在这种背景下Spark怎么做的降本增效。

鸿乃江边鸟·2024-01-20 14:25

hive 运行报错

Error:Errorwhilecompilingstatement:FAILED:UDFArgumentTypeExceptionExactlyoneargumentisexpected.近期用spark

圆周率的后六位·2024-01-20 12:35

程序员必备的面试技巧——大数据工程师面试必备技能

目录前言一、不同工程师的职责和技能要求1、数仓开发工程师2、算法挖掘工程师3、大数据平台开发工程师4、大数据前端开发工程师二、大数据技术架构图三、大数据相关的技术内容四、大数据面试经验1、大数据开发岗位

Francek Chen·2024-01-20 11:22

设计模式——管道模式（并发模式）

在分布式处理领域，由于管道模式是数据驱动，而目前流行的Spark分布式处理平台也是数据驱动的，两者非常合拍，于是在spar

码上得天下·2024-01-20 11:52

spark的jdbc接口，类似于hiveserver2

https://spark.apache.org/docs/2.4.0/sql-distributed-sql-engine.html#running-the-thrift-jdbcodbc-serverSparkSQL

zdkdchao·2024-01-20 10:53

大数据开发之Kafka（概述、快速入门、生产者）

第1章：Kafka概述1.1定义Kafka是一个分布式的基于发布/订阅模式的消息队列，主要应用于大数据实时处理领域。发布/订阅：消息的发布者不会将消息直接发送给特定的订阅者，而是将发布的消息分为不同的类别，订阅者只接收感兴趣的消息。1.2消息队列目前企业中比较常见的消息队列产品主要有Kafka、ActiveMQ、RabbitMQ、RocketMQ等。在大多数场景主要采用Kafka作为消息队列在Ja

Key-Key·2024-01-20 10:39

大数据开发之Hadoop（完整版+练习）

第1章：Hadoop概述1.1Hadoop是什么1、Hadoop是一个由Apache基金会所开发的分布式系统基础架构。2、主要解决，海量数据的存储和海量数据的分析计算问题。3、Hadoop通常是指一个更广泛的概念-Hadoop生态圈1.2Hadoop优势（4高）1、高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢失。2、高扩展性：再集群

Key-Key·2024-01-20 10:36

Kylin安装学习教程

Kylin安装学习教程Kylin是一个开源的分布式分析引擎，提供Hadoop/Spark之上的SQL接口及多维分析（OLAP）能力以支持大数据分析，最初由eBayInc.开发并贡献到开源社区。

Luo_Yang111·2024-01-20 09:28

spark连接操作

将有键的数据与另一组有键的数据一起使用是对键值对数据执行的最有用的操作之一。连接数据可能是PairRDD最常用的操作之一。连接的方式多种多样：右外连接，左外连接、交叉连接以及内连接普通的join操作符表示是内连接。只有在两个键值对中都存在的键才叫输出。

追赶的程序猿·2024-01-20 09:45

Data Bricks Delta Lake 入门

DeltaLake是一个开源存储层，它将关系数据库语义添加到基于Spark的数据湖处理中。

AI普惠大师·2024-01-20 07:03

Spark从入门到精通30:Spark SQL：核心源码深度剖析

在前面一节我们讲解了SparkSQL的工作原理，接下来在这一节，我们对SparkSQL工作原理进一步地深入和加强，这一节主要讲解SparkSQL核心源码导读和剖析首先，我们看SQLContext.scala

勇于自信·2024-01-20 07:57

【Spark】Spark 容错及 HA--Master 异常

一、Master配置recoveryModeMaster作为SparkStandalone模式中的核心，如果Master出现异常，则整个集群的运行情况和资源将无法进行管理，整个集群将处于“群龙无首”的状况

w1992wishes·2024-01-20 05:37

余老师带你学习大数据-Spark快速大数据处理第十章Kafka第八节Kafka-Connect

kafkaKafkaConnect基本概念1、KafkaConnect是Kafka流式计算的一部分，左侧是数据源包括了数据库、hadoop、文本等等，右侧是数据结果包括了文本、hadoop、数据库，中间上层就是KafkaConnect，它里面会有很多的输入，将输入的内容的读取进来转交给Kafka里，也有可能将kafka里的内容拿出来放到我们的外部数据源中。2、KafkaConnect主要用来与其他

weixin_45810046·2024-01-20 03:41

kylin安装学习教程

ApacheKylin是一个开源的分布式分析引擎，提供Hadoop/Spark之上的SQL接口及多维分析（OLAP）能力以支持大数据分析，最初由eBayInc.开发并贡献到开源社区。

打工人何苦为难打工人·2024-01-20 03:07

Kylin安装学习教程

ApacheKylin是一个开源的分布式分析引擎，提供Hadoop/Spark上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据。

终将老去的穷苦程序员·2024-01-20 03:04

CVE-2023-46226 Apache iotdb远程代码执行漏洞

它具有体量轻、性能高、易使用的特点，完美对接Hadoop与Spark生态，适用于工业物联网应用中海量时间序列数据高速写入和复杂分析查询的需求。

棱镜七彩·2024-01-20 02:27

干货：自助分析BI产品实践指南

对于产品&业务：产品迭代、运营活动需要各种数据分析支持，数据调取依赖数据开发排期长、响应慢，

e73fe7dcce95·2024-01-19 19:18

自然语言处理大数据：spark ML Word2Vec详解

简介Word2Vec是一种著名的词嵌入（WordEmbedding）方法，它可以计算每个单词在其给定语料库环境下的分布式词向量（DistributedRepresentation，亦直接被称为词向量）。词向量表示可以在一定程度上刻画每个单词的语义。如果词的语义相近，它们的词向量在向量空间中也相互接近，这使得词语的向量化建模更加精确，可以改善现有方法并提高鲁棒性。词向量已被证明在许多自然语言处理问题

nnnancyyy·2024-01-19 17:23

经历十九家企业大数据开发工程师面试复盘（二）

背景引入我个人计划是5月中旬争取拿到offer，但是个人技术太菜了，所以经历了一个多月的面试才有两家企业的offer，全是外包。我本人是应届毕业生，校招学历这块不起眼，选择权很少。至于大厂就基本没面。在面试中小企业我可以给大家一个借鉴。认知篇问题1：我是应届小白，求职比不上工作年限的技术人才，我是不是在一线城市很难找到工作？答：不是的，其实应届小白是可以在秋招或者春招找到实习的，如果企业招应届毕业

南潇如梦·2024-01-19 16:36

面试初体验：经历七场面试大数据开发工程师岗位总结（一）

我只想总结一下这周面试大数据开发岗位的精彩表现。希望可以给需要求职的同学一个好的体验。1招聘信息的收集网上投简历一般进入互联网还是使用boss直聘和拉勾网。

南潇如梦·2024-01-19 16:36

某小外包公司线上面试-大数据开发

1.数仓和数据库的区别2.数仓建模3.hive用到的函数4.rank,dense_rank,row_number的区别5.hive数据倾斜的原因有哪些7.如何理解数据质量？6.java，scala会用吗？7.期望薪资多少？（感觉说出来就无了）面的初级岗附上hr问的问题？1.公司开发人员占比？公司规模？

劝学-大数据·2024-01-19 16:03

德拓外包-大数据开发面试

1.面试官要是要看以前写过的代码，要共享屏幕怎么办？都在公司的库里，银行金融项目谁让你把代码带出去的，就是公司业务保密1.自我介绍2.数据采集相关，怎么把kafka中的数据采集到mysql中？忘了3.hive，两张表的重复数据，怎么去重？回答distinct,groupby，开窗取第一条，开窗函数是哪个？没回答上来4.udf函数写过吗，flink消费kafka中的数据写过代码吗，需要看代码？5.使

劝学-大数据·2024-01-19 16:03

五年Java外包转型大数据架构

去年年底他刚开始学大数据的时候给我打过电话，咨询一些学习路线上的问题，那时刚转型大数据的我给了他几点不太成熟的建议，今年年初就成功转型了，并且从数据开发到现在的架构，实属牛逼。

大数据基础入门教程·2024-01-19 16:32

大数据学长面试之OPPO面试题

1）技术部分（1）SparkStreaming消费方式及区别，Spark读取HDFS的数据流程（2）Kafka高性能（3）Hive调优，数据倾斜（4）Zookeeper怎么避免脑裂，什么是脑裂。

大数据小理·2024-01-19 16:01

某汽车外包-大数据开发-面试

4.spark的提交参数有那些命令5.sparkrdd,dataframe,dataSe解释一下。

劝学-大数据·2024-01-19 16:28

spark读取MySQL数据机器学习预测存入MySQL

importorg.apache.spark.SparkConfimportorg.apache.spark.ml.classification.

大数据驱动·2024-01-19 14:12

大数据工作岗位分析

本文从基础大数据开发岗开始分析，思考大数据工作细分有哪些岗位，分别需要什么能力，以此来提供大数据能力发展方向参考

i7杨·2024-01-19 13:37

关于jenkins集成python的单元测试

最近在研究jenkins的集成，然后想把自己写的python工具也用jenkins集成一下废话少说，来看结构sparking.py@author:lianying'''classSparking:@staticmethoddefget_num_of_zero

百晓生说测试·2024-01-19 13:21

html源码（html+css）

运维&从测试>UI设计>产品>我的课程表继续学习程序语言设计正在学习-使用对象继续学习程序语言设计正在学习-使用对象继续学习程序语言设计正在学习-使用对象全部课程精品推荐JQuerySparkMySQLJava

奇遇少年·2024-01-19 11:26

大数据开发之Hadoop（优化&新特征）

第1章：HDFS-故障排除注意：采用三台服务器即可，恢复到Yarn开始的服务器快照。1.1集群安全模块1、安全模式：文件系统只接收读数据请求，而不接收删除、修改等变更请求2、进入安全模式场景1）NameNode在加载镜像文件和编辑日志期间处于安全模式2）NameNode再接收DataNode注册时，处于安全模式3）退出安全模式条件dfs.namenode.safemode.min.datanode

Key-Key·2024-01-19 10:50

Flink1.17 基础知识

Flink1.17基础知识来源：B站尚硅谷目录Flink1.17基础知识Flink概述Flink是什么Flink特点FlinkvsSparkStreamingFlink的应用场景Flink分层APIFlink

魅美·2024-01-19 08:16

spark dateformat源码排错

背景有一个任务yyyy写成了YYYY，导致年份不对触发告警selectfrom_unixtime(unix_timestamp(),'YYYY-MM-ddHH:mm:ss')第一时间用sparkdateformat

这个程序猿可太秀了·2024-01-19 06:47

利用 Apache Spark 和 Databricks 进行企鹅种类预测的机器学习实践入门

这里演示使用ApacheSpark和Databricks平台进行企鹅物种预测的完整机器学习流程。

AI普惠大师·2024-01-19 06:17

spark+phoenix读取hbase

spark直接操作hbase也是通过hbase的原语操作，操作起来比较繁琐，下面就是将spark和phoenix相结合的方法步骤。我用的是scala语言，首先pom.xml中添加依赖o

潮落拾贝·2024-01-19 06:16

pyspark 笔记：窗口函数window

UQI-LIUWJ·2024-01-19 06:15

大数据开发之Hadoop（MapReduce）

第1章：MapReduce概述1.1MapReduce定义MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。1.2MapReduce优缺点1.2.1优点1、MapReduce易于编程它简单的实现一些接口，就可以完

Key-Key·2024-01-19 06:40

大数据开发之Hadoop（Yarn）

第1章：Yarn资源调度器思考：1、如何管理集群资源？2、如何给任务合理分配资源？Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。1.1Yarn基础架构YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成

Key-Key·2024-01-19 06:09

Spark基础学习--基础介绍

1.Spark基本介绍1.1定义Spark是可以处理大规模数据的统一分布式计算引擎。

Yan_bigdata·2024-01-19 06:37

Pyspark 安装(Mac M2版)

引言本文为个人本地部署pyspark遇到的问题以及解决办法，包含个人的一些理解，仅供参考。

矮人三等·2024-01-19 06:35

使用Apache Spark处理Excel文件的简易指南

对此，我们可借助ApacheSpark这一分布式计算框架，凭借其强大的计算与数据处理能力，快速有效地处理Excel数据。这些数据进行一个分析，整理

i查拉图斯特拉如是·2024-01-19 06:33

LightGBM On Spark

通常业务中对计算性能有要求时，通常不使用GPU跑tf，会使用xgboostonSpark来解决，既保证速度，准确率也能接受。LightGBM是使用基于树的学习算法的梯度增强框架。

wong小尧·2024-01-19 04:10

spark读取hive的数据

下载源码包：spark-2.3.3.tgz解压：tar-xzvfspark-2.3.3.tgz进入目录：cdspark-2.3.3.

IT烧麦·2024-01-19 04:17

推荐频道

数据开发--spark

Spark读取kafka（流式和批数据）

Spark流式读取文件数据

Spark Streaming通过receiver方式消费kafka数据时数据积压问题

Spark(一): 基本架构及原理

实战讲解｜Trino 在袋鼠云数栈的探索与实践

PDF如何裁剪页面，PDF裁剪页面的小技巧

11.Join的MapReduce实现

大数据与算法人生

Spark在降本增效中的一些思考

hive 运行报错

程序员必备的面试技巧——大数据工程师面试必备技能

设计模式——管道模式（并发模式）

spark的jdbc接口，类似于hiveserver2

大数据开发之Kafka（概述、快速入门、生产者）

大数据开发之Hadoop（完整版+练习）

Kylin安装学习教程

spark连接操作

Data Bricks Delta Lake 入门

Spark从入门到精通30:Spark SQL：核心源码深度剖析

【Spark】Spark 容错及 HA--Master 异常

余老师带你学习大数据-Spark快速大数据处理第十章Kafka第八节Kafka-Connect

kylin安装学习教程

Kylin安装学习教程

CVE-2023-46226 Apache iotdb远程代码执行漏洞

干货：自助分析BI产品实践指南

自然语言处理大数据：spark ML Word2Vec详解

经历十九家企业大数据开发工程师面试复盘（二）

面试初体验：经历七场面试大数据开发工程师岗位总结（一）

某小外包公司线上面试-大数据开发

德拓外包-大数据开发面试

五年Java外包转型大数据架构

大数据学长面试之OPPO面试题

某汽车外包-大数据开发-面试

spark读取MySQL数据机器学习预测存入MySQL

大数据工作岗位分析

关于jenkins集成python的单元测试

html源码（html+css）

大数据开发之Hadoop（优化&新特征）

Flink1.17 基础知识

spark dateformat源码排错

利用 Apache Spark 和 Databricks 进行企鹅种类预测的机器学习实践入门

spark+phoenix读取hbase

pyspark 笔记：窗口函数window

大数据开发之Hadoop（MapReduce）

大数据开发之Hadoop（Yarn）

Spark基础学习--基础介绍

Pyspark 安装(Mac M2版)

使用Apache Spark处理Excel文件的简易指南

LightGBM On Spark

spark读取hive的数据