Spark系统性学习专栏第6页

hadoop常用命令

Yarn查看提交到资源调度器的任务（任何用yarn资源的都可以看，比如spark、tez、mapreduce）看正在运行的yarn任务yarnapplication-list杀死对应的yarn任务yarnapplication-kill

我要用代码向我喜欢的女孩表白·2025-01-21 05:54

提高API性能的十个常见优化方法

本文将详细介绍十种常见的API性能优化方法，帮助开发者提升系统性能，满足业务需求。一、缓存缓存是提高API性能的常用手段，尤其适用于读多写少的场景。

花千树-010·2025-01-20 18:37

厦门租房信息分析展示（pycharm+python爬虫+pyspark+pyecharts）（踩坑记录）

厦门租房信息分析展示（pycharm+python爬虫+pyspark+pyecharts）（踩坑记录）项目地址http://dblab.xmu.edu.cn/blog/2307/踩坑:Spark分析文件

吃西红柿的鸡蛋·2025-01-20 18:03

技术文档的精髓：规划布局、语言表达与更新维护

本文将从技术文档的规划布局、语言表达以及更新与维护三个方面入手，探讨如何打造一份出色的技术文档，确保信息的系统性、连贯性以及时效性。

重庆钢铁侠·2025-01-20 10:38

深入剖析：Unix 系统管理的高级实践与技巧

高级实践要求你不仅能够高效处理复杂任务，还需优化系统性能、自动化日常操作，并确保系统的安全性与可靠性。本文将带你探讨Unix系统管理的一些高级实践，结合实际案例与代码，帮助你提升技能。

Echo_Wish·2025-01-20 08:53

Hadoop 和 Spark 的内存管理机制分析

大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli

王子良.·2025-01-20 03:27

数字化转型的三个阶段：信息化、数字化、数智化

它不仅是技术层面的变革，更是一种系统性、战略性的转型，涵盖了业务流程、管理模式以及企业文化等多个维度。数字化转型通常可以划分为三个阶段：信息化、数字化和数智化。

兴风键盘侠·2025-01-20 00:36

大数据学习（五）：如何使用 Livy提交spark批量任务--转载

Livy是一个开源的REST接口，用于与Spark进行交互，它同时支持提交执行代码段和完整的程序。Livy封装了spark-submit并支持远端执行。启动服务器执行以下命令，启动livy服务器。.

zuoseve01·2025-01-19 22:15

Spark Livy 指南及livy部署访问实践

背景：ApacheSpark是一个比较流行的大数据框架、广泛运用于数据处理、数据分析、机器学习中，它提供了两种方式进行数据处理，一是交互式处理：比如用户使用spark-shell，编写交互式代码编译成spark

house.zhang·2025-01-19 22:40

大数据学习（四）：Livy的安装配置及pyspark的会话执行

一个基于Spark的开源REST服务，它能够通过REST的方式将代码片段或是序列化的二进制代码提交到Spark集群中去执行。

猪笨是念来过倒·2025-01-19 21:08

探索数据科学新边界：Apache Livy 开源项目详解

探索数据科学新边界：ApacheLivy开源项目详解incubator-livyApacheLivyisanopensourceRESTinterfaceforinteractingwithApacheSparkfromanywhere

毕艾琳·2025-01-19 21:37

大数据公司 Databricks 详解

Databricks是一家在大数据和人工智能领域具有重要影响力的美国企业软件公司，以下是关于它的详细技术解析：1.起源与背景：Databricks成立于2013年，由来自加州大学伯克利分校AMP实验室的Spark

Bj陈默·2025-01-19 10:00

全面解读 Databricks：从架构、引擎到优化策略

导语：Databricks是一家由ApacheSpark创始团队成员创立的公司，同时也是一个统一分析平台，帮助企业构建数据湖与数据仓库一体化（Lakehouse）的架构。

克里斯蒂亚诺罗纳尔多阿维罗·2025-01-19 09:27

LVDS高速背板总线：打造分布式I/O高效数据传输新境界

在当今的工业自动化控制系统中，数据传输的速度和可靠性成为了决定系统性能的关键因素。

明达技术·2025-01-19 05:18

针对提高48V 配电性能的诸多思考！

对于功耗和热管理而言，主要有两种方法可以改善PDN对电源系统性能的影响：一是使用更大线缆、连接器和更厚主板电源层减少PDN电阻；二是在给定的传输功率下，提高PDN电压以减小电流，这允许使用更小的线缆、连接器和更薄的主板铜箔电源层

CSDN云计算·2025-01-19 00:00

使用 Hadoop 实现大数据的高效存储与查询

大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli

王子良.·2025-01-18 23:24

Spark 源码分析(一) SparkRpc中序列化与反序列化Serializer的抽象类解读（正在更新中~）别人能写出来的，你也能行！多学习别人的思路，形成自己的思路，高薪工作奔你而来！

Java序列化实现类JavaSerializer(1)JavaSerializationStream类代码实际例子1：序列化(2)JavaDeserializationStream代码实际例子2：反序列化Spark

小白的大数据历程·2025-01-18 22:07

Spark 源码分析(一) SparkRpc中序列化与反序列化Serializer的抽象类解读（java序列化部分完结，正在更新RpcEnv部分~）

目录(3)JavaSerializerInstance定义了一个Java序列化实例(1)构造方法参数(2)方法1：serializeStream(3)方法2：deserializeStreamdefaultClassLoader(4)方法3：deserializeStreamloader(5)方法4：serialize(6)方法5：deserializeloader(7)方法6：deseriali

小白的大数据历程·2025-01-18 22:37

单体架构、集群架构和分布式架构概述

比较常见的是学生时代开发的各类应用程序，应用包部署在一台服务器上，无需考虑系统性能、请求并发、服务连续性等问题。特点：单一

JoyousHorse·2025-01-18 21:01

Linux 系统性能调优

嘿，朋友们，今天咱们来唠唠Linux系统性能调优这事儿。你是不是觉得这听起来特高大上、特复杂？别担心，我保证用最简单的语言，让你这个0基础的小伙伴也能轻松入门。

周盛欢·2025-01-18 18:55

AUTOSAR汽车电子嵌入式编程精讲300篇-智能网联汽车CAN总线-基于电压信号的CAN总线入侵检测系统设计与实现

目录前言入侵检测系统研究现状入侵检测系统建模CAN总线入侵检测威胁模型DeepSVDD模型入侵检测系统方案设计挑战和解决方案差分信号的采集与处理差分信号的特征提取入侵检测模型的设计入侵检测系统性能评估实验环境设置不同的车辆状态不同数量的攻击目标不同发送频率的攻击消息

格图素书·2025-01-18 14:57

大数据-257 离线数仓 - 数据质量监控监控方法 Griffin架构

已更完）HDFS（已更完）MapReduce（已更完）Hive（已更完）Flume（已更完）Sqoop（已更完）Zookeeper（已更完）HBase（已更完）Redis（已更完）Kafka（已更完）Spark

武子康·2025-01-18 10:29

pyspark 中删除hdfs的文件夹

在pyspark中保存rdd的内存到文件的时候，会遇到文件夹已经存在而失败，所以如果文件夹已经存在，需要先删除。搜索了下资料，发现pyspark并没有提供直接管理hdfs文件系统的功能。

TDengine （老段）·2025-01-18 09:21

大厂架构之极致缓存策略实战与原理剖析

在这样的背景下，缓存策略成为提升系统性能、降低数据库压力的关键技术之一。无论是CPU中的多级缓存，还是分布式系统中的Redis、Memcached等缓存组件，都在各自的领域内发挥着重要作用。

喜欢猪猪·2025-01-18 07:37

Python 爬虫：获取网页数据的 5 种方法

大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli

王子良.·2025-01-18 07:35

《提示工程的科学化探索与大语言模型交互革新》

文章信息摘要主题：提示工程的科学化与大语言模型交互革新核心内容：提示工程的科学化与系统化建立可复现的方法论形成系统性知识体系构建标准化流程和评估体系大语言模型带来的交互变革从指令驱动到对话驱动从单一输出到多轮复杂交互从工具到协作伙伴的转变提示对模型行为的影响机制认知层面

XianxinMao·2025-01-18 06:57

《鸿蒙微内核与人工智能算法协同，开启智能系统新时代》

本文将深入探讨鸿蒙系统的微内核架构是如何与人工智能算法高效协同，从而提升系统性能和智能化水平的。

·2025-01-18 05:45

浅谈云计算08 | 基本云架构

从负载分布到资源池构建，从动态扩展到服务负载均衡等架构，它们各自承担独特功能且紧密协作，在保障系统性能、可靠性、资源优化及数据安全等方面发

时光札记z·2025-01-18 05:19

python捕获异常

try:name="aaa"id="aaa"exceptExceptionase:print("任务报错")print(str(e))print(str(traceback.print_exc()))spark.sql

青云游子·2025-01-18 02:58

Spark任务提交流程

当包含在applicationmaster中的spark-driver启动后，会与资源调度平台交互获取其他执行器资源，并通过反向注册通知对应的node节点启动执行容器。

尘世壹俗人·2025-01-18 01:21

spark读取、写入Clickhouse以及遇到的问题

最近需要处理Clickhouse里面的数据，经过上网查找总结一下spark读写Clickhouse的工具类已经遇到的问题点。具体Clickhouse的讲解本篇不做讲解，后面专门讲解这个。

Alex_81D·2025-01-18 01:18

redis缓存穿透、雪崩与击穿

Redis缓存穿透、雪崩与击穿详解（附Java代码示例）在现代高并发分布式系统中，缓存作为提高系统性能和响应速度的重要组件，其稳定性和可靠性至关重要。

Flying_Fish_Xuan·2025-01-17 22:26

2024年最新Python：Page Object设计模式_python page object，BTAJ大厂最新面试题汇集

知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是

m0_60707708·2025-01-17 20:36

2024年总结：大转向

职业转向今年我在职业上尝试做了一个转向，具体的结果可能需要比较长的时间来检验我选择是否正确，所以转向的细节我就不全部展开了，可以确定是我依然会专注在Infra和BigData，比如今年我发布了SparkSQL

·2025-01-17 20:11

Java爬虫——使用Spark进行数据清晰

1.依赖引入 org.apache.spark spark-core_2.13 3.5.3 org.apache.spark spark-sql_2.13 3.5.32.数据加载从MySQL数据库中加载

Future_yzx·2025-01-17 20:59

Chatbot 不是“万金油”：企业级生成式 AI 如何真正创造价值

同时作者基于十余个生成式AI应用的实战经验，详细阐述了如何通过"流程编排"而非"对话交互"，系统性地重塑企业A

·2025-01-17 20:10

万字详解数仓分层设计架构 ODS-DWD-DWS-ADS

把复杂问题简单化5、屏蔽原始数据的(影响)，屏蔽业务的影响ETL操作1、数据抽取2、数据清洗3、数据转换4、数据加载数据中台包含的内容很多，对应到具体工作中的话，它可以包含下面的这些内容：系统架构：以Hadoop、Spark

_Jordan·2025-01-17 16:56

人工智能入门需要看那些书？

对于想要入门人工智能的读者，以下是一些值得推荐的书籍：1、《人工智能：现代方法》（第4版）（上下册）作者：[美]斯图尔特·罗素（StuartRussell）[美]彼得·诺维格（PeterNorvig）著内容：系统性总结人工智能的方方面面

人邮异步社区·2025-01-17 14:12

Java 大视界 -- Java 开发 Spark 应用：RDD 操作与数据转换

ApacheSpark是一个强大的分布式计算框架，提供了高效的数据处理能力，广泛应用于大数据分析与机器学习。Spark提供了多种高级API，支持批处理和流处理。

一只蜗牛儿·2025-01-17 12:26

Java并发编程：线程池优化实战指南

它通过复用线程、减少线程创建和销毁的开销，显著提升了系统性能和资源利用率。

莫非技术栈·2025-01-17 11:48

掌握Linux top命令：优化系统性能的关键

Linuxtop命令：系统性能监控与优化指南top命令是Linux系统中优化系统性能的关键工具之一。通过实时监控系统资源，top帮助管理员和开发者迅速定位性能瓶颈，进行有效优化。

·2025-01-17 10:23

3分钟理清QPS、TPS、RT 以及它们之间的关系

在评估系统性能的时候，我们经常会听到QPS、TPS、RT、吞吐量等等一些概念，包括在一些面试场景下可能也会遇到这些概念，我们来稍微梳理一下。做一个简单的概念扫盲。

·2025-01-17 09:50

Spring Boot 和微服务：快速入门指南

大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli

王子良.·2025-01-17 09:56

Redis的缓存雪崩、缓存穿透、缓存击穿

缓存雪崩、缓存穿透与缓存击穿详解及解决方案️在现代分布式系统中，缓存（如Redis）作为提升系统性能和减轻数据库压力的重要组件，被广泛应用。

·2025-01-17 04:56

工程师思维是什么？FPGA工程师要有哪些思维习惯？

全局思维全局思维是指考虑问题时能够由点及线，由线及面地进行系统性思考。简单来说，就是要有大局观。以FPGA设计为例，一个模块代码的修改并非简单地修改代码就完成了。工程师

博览鸿蒙·2025-01-17 04:43

CDP中的Hive3之Hive Metastore（HMS）

Impala、Spark、Hive和其他服务共享元存储。与HMS的连接包括HiveServe

对许·2025-01-17 02:31

【YashanDB知识库】Hive 命令工具insert崖山数据库报错

【问题分类】功能兼容【关键字】spark30041、不兼容【问题描述】本项目的架构是hadoop+hive+yashandb使用崖山数据库，初始化所有的原数据表和数据新建表之后，插入数据时候报错，hadoopcode30041

·2025-01-17 00:46

初学者如何用 Python 写第一个爬虫？

大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli

王子良.·2025-01-16 23:27

Apache PAIMON 学习

新一代实时数据湖技术，ApachePAIMON兼容ApacheFlink、Spark等主流计算引擎，并支持流批一体化处理、快速查询和性能优化，成为加速AI转型的重要工具。

潇锐killer·2025-01-16 22:54

全栈性能优化秘籍--Linux 系统性能调优全攻略：多维度优化技巧大揭秘

亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja

青云交·2025-01-16 20:05

推荐频道

Spark系统性学习专栏

hadoop常用命令

提高API性能的十个常见优化方法

厦门租房信息分析展示（pycharm+python爬虫+pyspark+pyecharts）（踩坑记录）

技术文档的精髓：规划布局、语言表达与更新维护

深入剖析：Unix 系统管理的高级实践与技巧

Hadoop 和 Spark 的内存管理机制分析

数字化转型的三个阶段：信息化、数字化、数智化

大数据学习（五）：如何使用 Livy提交spark批量任务--转载

Spark Livy 指南及livy部署访问实践

大数据学习（四）：Livy的安装配置及pyspark的会话执行

探索数据科学新边界：Apache Livy 开源项目详解

大数据公司 Databricks 详解

全面解读 Databricks：从架构、引擎到优化策略

LVDS高速背板总线：打造分布式I/O高效数据传输新境界

针对提高48V 配电性能的诸多思考！

使用 Hadoop 实现大数据的高效存储与查询

Spark 源码分析(一) SparkRpc中序列化与反序列化Serializer的抽象类解读 （正在更新中~）别人能写出来的，你也能行！多学习别人的思路，形成自己的思路，高薪工作奔你而来！

Spark 源码分析(一) SparkRpc中序列化与反序列化Serializer的抽象类解读 （java序列化部分完结，正在更新RpcEnv部分~）

单体架构、集群架构和分布式架构概述

Linux 系统性能调优

AUTOSAR汽车电子嵌入式编程精讲300篇-智能网联汽车CAN总线-基于电压信号的CAN总线入侵检测系统设计与实现

大数据-257 离线数仓 - 数据质量监控 监控方法 Griffin架构

pyspark 中删除hdfs的文件夹

大厂架构之极致缓存策略实战与原理剖析

Python 爬虫：获取网页数据的 5 种方法

《提示工程的科学化探索与大语言模型交互革新》

《鸿蒙微内核与人工智能算法协同，开启智能系统新时代》

浅谈云计算08 | 基本云架构

python捕获异常

Spark任务提交流程

spark读取、写入Clickhouse以及遇到的问题

redis缓存穿透、雪崩与击穿

2024年最新Python：Page Object设计模式_python page object，BTAJ大厂最新面试题汇集

2024年总结：大转向

Java爬虫——使用Spark进行数据清晰

Chatbot 不是“万金油”：企业级生成式 AI 如何真正创造价值

万字详解数仓分层设计架构 ODS-DWD-DWS-ADS

人工智能入门需要看那些书？

Java 大视界 -- Java 开发 Spark 应用：RDD 操作与数据转换

Java并发编程：线程池优化实战指南

掌握Linux top命令：优化系统性能的关键

3分钟理清QPS、TPS、RT 以及它们之间的关系

Spring Boot 和微服务：快速入门指南

Redis的缓存雪崩、缓存穿透、缓存击穿

工程师思维是什么？FPGA工程师要有哪些思维习惯？

CDP中的Hive3之Hive Metastore（HMS）

【YashanDB知识库】Hive 命令工具insert崖山数据库报错

初学者如何用 Python 写第一个爬虫？

Apache PAIMON 学习

全栈性能优化秘籍--Linux 系统性能调优全攻略：多维度优化技巧大揭秘

Spark 源码分析(一) SparkRpc中序列化与反序列化Serializer的抽象类解读（正在更新中~）别人能写出来的，你也能行！多学习别人的思路，形成自己的思路，高薪工作奔你而来！

Spark 源码分析(一) SparkRpc中序列化与反序列化Serializer的抽象类解读（java序列化部分完结，正在更新RpcEnv部分~）

大数据-257 离线数仓 - 数据质量监控监控方法 Griffin架构