spark源码编译

搭建单机伪分布式Hadoop+spark+scala

目录一、准备环境包：二、创建centos7虚拟机并配置ip三、链接Xshell并上环境包四、安装JDK1.解压jdk2.设置JAVA环境变量3.执行source使设置生效：4.检查JAVA是否可用。五、免密登陆1.创建ssh秘钥，输入如下命令，生成公私密钥2.将master公钥id_dsa复制到master进行公钥认证，实现本机免密登陆，测试完exit退出六、安装Hadoop软件1.解压hadoo

啥也不会0-0·2025-01-23 16:21

CDP中的Hive3之Apache Hive3特性

ApacheHive3架构概述CDP中采用的是ApacheHive3版本，相比Hive1/2，该版本在事务和安全性等方面有重大改进，了解这些版本之间的主要差异对于SQL用户至关重要，包括使用ApacheSpark

对许·2025-01-23 16:51

Hadoop 与 Spark：大数据处理的比较

大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli

王子良.·2025-01-23 16:50

虚拟机VMware Workstation Pro安装集群+hadoop+spark+scala

参考资料：参考视频教程链接：大数据实验虚拟机安装Hadoop和Spark_哔哩哔哩_bilibiliup主：孤独时代的硕硕namenode安装选择镜像、路径、磁盘（最好不要c盘）、内存和处理器编辑名称与位置可点击此处自定义硬盘进行设置

落枫兮·2025-01-23 15:16

大数据手写面试题Scala语言实现大全（持续更新）

目录1.冒泡排序2.二分查找3.快速排序4.归并排序5.手写Spark-WordCount6.手写Spark程序求平

大模型大数据攻城狮·2025-01-23 15:44

使用iFlyTek SparkLLM进行实时聊天应用开发

iFlyTek的SparkLLM为开发者提供了强大的聊天模型API，支持灵活的集成和扩展。本文将介绍如何使用SparkLLM搭建一个简单的聊天应用，包括基本的API初始化和调用，以及如何实现流式输出。

dagGAIYD·2025-01-23 04:53

有了TiDB，是否还需要“散装”大数据组件？

最近和同事们讨论一个问题：在大数据应用日益增多的今天，如果使用了TiDB这样的一体化数据库，还需要使用那些传统的大数据组件（比如Hadoop、Spark等）吗？

狮歌~资深攻城狮·2025-01-22 15:02

Spark GraphX原理与代码实例讲解

SparkGraphX原理与代码实例讲解作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着互联网和大数据技术的迅猛发展，社交网络

AI大模型应用之禅·2025-01-22 07:34

spark电影数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示 + [手把手视频教程和开发文档]

spark电影数据分析系统Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示+[手把手视频教程和开发文档【功能介绍】1.java爬取【豆瓣电影】网站中电影数据,保存为data.csv

QQ-1305637939·2025-01-21 22:58

玩转至轻云大数据平台-docker部署篇

产品介绍至轻云是一款超轻量级、企业级大数据计算平台，基于Spark生态打造。一键部署，开箱即用。

fanciNate454·2025-01-21 16:34

hadoop常用命令

Yarn查看提交到资源调度器的任务（任何用yarn资源的都可以看，比如spark、tez、mapreduce）看正在运行的yarn任务yarnapplication-list杀死对应的yarn任务yarnapplication-kill

我要用代码向我喜欢的女孩表白·2025-01-21 05:54

二进制/源码编译安装mysql 8.0

二进制方式：1.下载或上传安装包至设备：2.创建组与用户：[root@openEuler-1~]#groupaddmysql[root@openEuler-1~]#useradd-r-gmysql-s/bin/falsemysql3.解压安装包：tarxfmysql-8.0.36-linux-glibc2.12-x86_64.tar.xz-C/usr/local4.建立软链接：ln-sv/usr/

雷学习·2025-01-21 03:00

厦门租房信息分析展示（pycharm+python爬虫+pyspark+pyecharts）（踩坑记录）

厦门租房信息分析展示（pycharm+python爬虫+pyspark+pyecharts）（踩坑记录）项目地址http://dblab.xmu.edu.cn/blog/2307/踩坑:Spark分析文件

吃西红柿的鸡蛋·2025-01-20 18:03

（二）afsim第三方库编译（qt编译）

注意：源码编译的路径不能有中文否则报错，压缩包必须用官网下载的xz格式解压的才可以，否则sudo.

天边树若荠·2025-01-20 16:42

Android实战技巧之五十：App的系统签名

我们一直想用非源码编译的方式解决此事，按如下步骤。这种获取系统签名的方法如下：1、apk中需要使用android:sharedUserId=”android.uid.system”这个属性。

全速前行·2025-01-20 09:03

Hadoop 和 Spark 的内存管理机制分析

大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli

王子良.·2025-01-20 03:27

大数据学习（五）：如何使用 Livy提交spark批量任务--转载

Livy是一个开源的REST接口，用于与Spark进行交互，它同时支持提交执行代码段和完整的程序。Livy封装了spark-submit并支持远端执行。启动服务器执行以下命令，启动livy服务器。.

zuoseve01·2025-01-19 22:15

Spark Livy 指南及livy部署访问实践

背景：ApacheSpark是一个比较流行的大数据框架、广泛运用于数据处理、数据分析、机器学习中，它提供了两种方式进行数据处理，一是交互式处理：比如用户使用spark-shell，编写交互式代码编译成spark

house.zhang·2025-01-19 22:40

大数据学习（四）：Livy的安装配置及pyspark的会话执行

一个基于Spark的开源REST服务，它能够通过REST的方式将代码片段或是序列化的二进制代码提交到Spark集群中去执行。

猪笨是念来过倒·2025-01-19 21:08

探索数据科学新边界：Apache Livy 开源项目详解

探索数据科学新边界：ApacheLivy开源项目详解incubator-livyApacheLivyisanopensourceRESTinterfaceforinteractingwithApacheSparkfromanywhere

毕艾琳·2025-01-19 21:37

大数据公司 Databricks 详解

Databricks是一家在大数据和人工智能领域具有重要影响力的美国企业软件公司，以下是关于它的详细技术解析：1.起源与背景：Databricks成立于2013年，由来自加州大学伯克利分校AMP实验室的Spark

Bj陈默·2025-01-19 10:00

全面解读 Databricks：从架构、引擎到优化策略

导语：Databricks是一家由ApacheSpark创始团队成员创立的公司，同时也是一个统一分析平台，帮助企业构建数据湖与数据仓库一体化（Lakehouse）的架构。

克里斯蒂亚诺罗纳尔多阿维罗·2025-01-19 09:27

使用 Hadoop 实现大数据的高效存储与查询

大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli

王子良.·2025-01-18 23:24

Linux系统下DPDK源码编译，testpmd的使用以及编译过程中遇到的问题，以及高版本DPDK meson+ninja编译步骤

一.dpdk-20.081.首先，下载以及编译依赖库安装：ubuntu：apt-getinstalllibnuma-devcentos:yuminstalllibnuma-devel以及yuminstallnumactl-devel官网下载DPDK源码，DPDK官网：dpdk.org以dpdk-20.08为例，下载完成后，cd到源码所在路径1.指定DPDK安装路径，设置所需的环境变量并转到源目录e

温柔如酒·2025-01-18 22:45

Spark 源码分析(一) SparkRpc中序列化与反序列化Serializer的抽象类解读（正在更新中~）别人能写出来的，你也能行！多学习别人的思路，形成自己的思路，高薪工作奔你而来！

Java序列化实现类JavaSerializer(1)JavaSerializationStream类代码实际例子1：序列化(2)JavaDeserializationStream代码实际例子2：反序列化Spark

小白的大数据历程·2025-01-18 22:07

Spark 源码分析(一) SparkRpc中序列化与反序列化Serializer的抽象类解读（java序列化部分完结，正在更新RpcEnv部分~）

目录(3)JavaSerializerInstance定义了一个Java序列化实例(1)构造方法参数(2)方法1：serializeStream(3)方法2：deserializeStreamdefaultClassLoader(4)方法3：deserializeStreamloader(5)方法4：serialize(6)方法5：deserializeloader(7)方法6：deseriali

小白的大数据历程·2025-01-18 22:37

大数据-257 离线数仓 - 数据质量监控监控方法 Griffin架构

已更完）HDFS（已更完）MapReduce（已更完）Hive（已更完）Flume（已更完）Sqoop（已更完）Zookeeper（已更完）HBase（已更完）Redis（已更完）Kafka（已更完）Spark

武子康·2025-01-18 10:29

pyspark 中删除hdfs的文件夹

在pyspark中保存rdd的内存到文件的时候，会遇到文件夹已经存在而失败，所以如果文件夹已经存在，需要先删除。搜索了下资料，发现pyspark并没有提供直接管理hdfs文件系统的功能。

TDengine （老段）·2025-01-18 09:21

鸿蒙开发进阶(由南向北)

Android小码家·2025-01-18 09:48

Python 爬虫：获取网页数据的 5 种方法

大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli

王子良.·2025-01-18 07:35

python捕获异常

try:name="aaa"id="aaa"exceptExceptionase:print("任务报错")print(str(e))print(str(traceback.print_exc()))spark.sql

青云游子·2025-01-18 02:58

Spark任务提交流程

当包含在applicationmaster中的spark-driver启动后，会与资源调度平台交互获取其他执行器资源，并通过反向注册通知对应的node节点启动执行容器。

尘世壹俗人·2025-01-18 01:21

spark读取、写入Clickhouse以及遇到的问题

最近需要处理Clickhouse里面的数据，经过上网查找总结一下spark读写Clickhouse的工具类已经遇到的问题点。具体Clickhouse的讲解本篇不做讲解，后面专门讲解这个。

Alex_81D·2025-01-18 01:18

2024年最新Python：Page Object设计模式_python page object，BTAJ大厂最新面试题汇集

知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是

m0_60707708·2025-01-17 20:36

2024年总结：大转向

职业转向今年我在职业上尝试做了一个转向，具体的结果可能需要比较长的时间来检验我选择是否正确，所以转向的细节我就不全部展开了，可以确定是我依然会专注在Infra和BigData，比如今年我发布了SparkSQL

·2025-01-17 20:11

Java爬虫——使用Spark进行数据清晰

1.依赖引入 org.apache.spark spark-core_2.13 3.5.3 org.apache.spark spark-sql_2.13 3.5.32.数据加载从MySQL数据库中加载

Future_yzx·2025-01-17 20:59

whisper.cpp 学习笔记

whisper.cppwhisper.cpp学习笔记whisper介绍源码下载源码编译支持的模型优化/加速生成库文件使用whispe.cpp的demo参考文献whisper.cpp学习笔记whisper

法号：行颠·2025-01-17 17:12

万字详解数仓分层设计架构 ODS-DWD-DWS-ADS

把复杂问题简单化5、屏蔽原始数据的(影响)，屏蔽业务的影响ETL操作1、数据抽取2、数据清洗3、数据转换4、数据加载数据中台包含的内容很多，对应到具体工作中的话，它可以包含下面的这些内容：系统架构：以Hadoop、Spark

_Jordan·2025-01-17 16:56

Java 大视界 -- Java 开发 Spark 应用：RDD 操作与数据转换

ApacheSpark是一个强大的分布式计算框架，提供了高效的数据处理能力，广泛应用于大数据分析与机器学习。Spark提供了多种高级API，支持批处理和流处理。

一只蜗牛儿·2025-01-17 12:26

Spring Boot 和微服务：快速入门指南

大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli

王子良.·2025-01-17 09:56

CDP中的Hive3之Hive Metastore（HMS）

Impala、Spark、Hive和其他服务共享元存储。与HMS的连接包括HiveServe

对许·2025-01-17 02:31

【YashanDB知识库】Hive 命令工具insert崖山数据库报错

【问题分类】功能兼容【关键字】spark30041、不兼容【问题描述】本项目的架构是hadoop+hive+yashandb使用崖山数据库，初始化所有的原数据表和数据新建表之后，插入数据时候报错，hadoopcode30041

·2025-01-17 00:46

初学者如何用 Python 写第一个爬虫？

大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli

王子良.·2025-01-16 23:27

Apache PAIMON 学习

新一代实时数据湖技术，ApachePAIMON兼容ApacheFlink、Spark等主流计算引擎，并支持流批一体化处理、快速查询和性能优化，成为加速AI转型的重要工具。

潇锐killer·2025-01-16 22:54

nfs-ganesha源码编译安装配置说明

一、概览nfs-ganesha是一个主要用于linux之间的网络文件共享软件，支持NFS(v3,4.0,4.1,4.1pNFS,4.2)andfor9PfromthePlan9operatingsystem.Itcansupportalltheseprotocolsconcurrently。samba则是主要用于windows和linux之间的网络文件共享软件，支持smb协议。二、环境版本系统及相

天行健，道酬勤·2025-01-16 18:18

应急救援路径规划中的蚁群算法与路径评价研究【附代码】

数据驱动决策✨专业领域：数据挖掘与清洗大数据处理与存储技术机器学习与深度学习模型数据可视化与报告生成分布式计算与云计算数据安全与隐私保护擅长工具：Python/R/Matlab数据分析与建模Hadoop/Spark

拉勾科研工作室·2025-01-16 17:36

Java 大视界 -- Java 开发 Spark 应用：RDD 操作与数据转换（四）

亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数

青云交·2025-01-16 16:59

大数据新视界 --大数据大厂之 Spark Streaming 实时数据处理框架：案例与实践

亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数

青云交·2025-01-16 15:21

nfs-ganesha(用户态NFS)编译、安装和使用

本篇介绍使用nfs-ganesha源码编译、安装，客户端使用用户态nfs协议挂载使用Ceph文件存储和对象存储的方法。

沙拉OK·2025-01-16 15:15

nosql数据库技术与应用知识点

Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink

皆过客，揽星河·2024-09-16 08:42

推荐频道

spark源码编译

搭建单机伪分布式Hadoop+spark+scala

CDP中的Hive3之Apache Hive3特性

Hadoop 与 Spark：大数据处理的比较

虚拟机VMware Workstation Pro安装集群+hadoop+spark+scala

大数据手写面试题Scala语言实现大全（持续更新）

使用iFlyTek SparkLLM进行实时聊天应用开发

有了TiDB，是否还需要“散装”大数据组件？

Spark GraphX原理与代码实例讲解

spark电影数据分析系统 Springboot协同过滤-余弦函数推荐系统 爬虫2万+数据 大屏数据展示 + [手把手视频教程 和 开发文档]

玩转至轻云大数据平台-docker部署篇

hadoop常用命令

二进制/源码编译安装mysql 8.0

厦门租房信息分析展示（pycharm+python爬虫+pyspark+pyecharts）（踩坑记录）

（二）afsim第三方库编译（qt编译）

Android实战技巧之五十：App的系统签名

Hadoop 和 Spark 的内存管理机制分析

大数据学习（五）：如何使用 Livy提交spark批量任务--转载

Spark Livy 指南及livy部署访问实践

大数据学习（四）：Livy的安装配置及pyspark的会话执行

探索数据科学新边界：Apache Livy 开源项目详解

大数据公司 Databricks 详解

全面解读 Databricks：从架构、引擎到优化策略

使用 Hadoop 实现大数据的高效存储与查询

Linux系统下DPDK源码编译，testpmd的使用以及编译过程中遇到的问题，以及高版本DPDK meson+ninja编译步骤

Spark 源码分析(一) SparkRpc中序列化与反序列化Serializer的抽象类解读 （正在更新中~）别人能写出来的，你也能行！多学习别人的思路，形成自己的思路，高薪工作奔你而来！

Spark 源码分析(一) SparkRpc中序列化与反序列化Serializer的抽象类解读 （java序列化部分完结，正在更新RpcEnv部分~）

大数据-257 离线数仓 - 数据质量监控 监控方法 Griffin架构

pyspark 中删除hdfs的文件夹

鸿蒙开发进阶(由南向北)

Python 爬虫：获取网页数据的 5 种方法

python捕获异常

Spark任务提交流程

spark读取、写入Clickhouse以及遇到的问题

2024年最新Python：Page Object设计模式_python page object，BTAJ大厂最新面试题汇集

2024年总结：大转向

Java爬虫——使用Spark进行数据清晰

whisper.cpp 学习笔记

万字详解数仓分层设计架构 ODS-DWD-DWS-ADS

Java 大视界 -- Java 开发 Spark 应用：RDD 操作与数据转换

Spring Boot 和微服务：快速入门指南

CDP中的Hive3之Hive Metastore（HMS）

【YashanDB知识库】Hive 命令工具insert崖山数据库报错

初学者如何用 Python 写第一个爬虫？

Apache PAIMON 学习

nfs-ganesha源码编译安装配置说明

应急救援路径规划中的蚁群算法与路径评价研究【附代码】

Java 大视界 -- Java 开发 Spark 应用：RDD 操作与数据转换（四）

大数据新视界 --大数据大厂之 Spark Streaming 实时数据处理框架：案例与实践

nfs-ganesha(用户态NFS)编译、安装和使用

nosql数据库技术与应用知识点

spark电影数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示 + [手把手视频教程和开发文档]

Spark 源码分析(一) SparkRpc中序列化与反序列化Serializer的抽象类解读（正在更新中~）别人能写出来的，你也能行！多学习别人的思路，形成自己的思路，高薪工作奔你而来！

Spark 源码分析(一) SparkRpc中序列化与反序列化Serializer的抽象类解读（java序列化部分完结，正在更新RpcEnv部分~）

大数据-257 离线数仓 - 数据质量监控监控方法 Griffin架构