********Spark 第42页

讯飞星火知识库文档问答Web API的使用（二）

上一篇提到过星火spark大模型，现在有更新到3.0：给ChuanhuChatGPT配上讯飞星火spark大模型V2.0（一）同时又看到有知识库问答的webapi，于是就测试了一下。

悟乙己·2023-11-26 21:54

服务器项目怎么连接数据库,项目使用服务器上的数据库连接

项目使用服务器上的数据库连接内容精选换一换该任务指导用户使用Loader将数据从关系型数据库导入到Spark。创建或获取该任务中创建Loader作业的业务用户和密码。

sched yield·2023-11-26 19:22

大数据集群高可用组建搭建部署

大数据集群高可用安装部署包有：redis-3.2.10.tar.gzspark-2.2.0-bin-hadoop2.7.tgzhbase-1.2.1-bin.tar.gzhadoop-2.8.1.tar.gzapache-hive

Big-Hadoop·2023-11-26 19:18

云建站架构师rain·2023-11-26 19:45

传统数仓和clickhouse对比

背景传统数仓一般都是Hive+SparkSql作为代表，不过也包括Kylin等，而clickhouse是实时OLAP的代表，我们简单看下他们的对比传统数仓和clickhouse对比Hive+SparkSQL

lixia0417mul2·2023-11-26 19:06

Dr.Elephant入门

Dr.Elephant是一个Hadoop和Spark的性能监控和调优工具，由LinkedIn于2016年4月份开源。能自动化收集所有计算任务指标，进行数据分析，并以简单易用的方式进行呈现。

文贞武毅·2023-11-26 17:46

“夜光”：使用域隐藏代替域前置

文章来源｜MS08067内网安全知识星球本文作者：Spark（Ms08067内网小组成员）众所周知，谷歌云和亚马逊云于2018年宣布停止支持域前置技术。

Ms08067安全实验室·2023-11-26 14:19

2023年全国职业院校技能大赛-赛题第01套-GZ033 大数据应用开发

目录任务A：大数据平台搭建（容器环境）（15分）子任务一：Hadoop完全分布式安装配置子任务二：SparkonYarn安装配置子任务三：HBase分布式安装配置任务B：离线数据处理（25分）子任务一：

你可知这世上再难遇我·2023-11-26 13:48

1.5.1.2 Spark的部署与安装

总目录:https://www.jianshu.com/p/e406a9bc93a9Hadoop-子目录：https://www.jianshu.com/p/9428e443b7fdSpark的部署方式单机

寒暄_HX·2023-11-26 13:16

百度开源高性能 Python 分布式计算框架 Bigflow

Bigflow的设计中有许多思想借鉴自GoogleFlumeJava以及GoogleCloudDataflow，另有部分接口设计借鉴自ApacheSpark。

妄心xyx·2023-11-26 12:25

【Spark】Ubuntu16.04 spark 集群安装（standalone模式）

一、前言目前ApacheSpark支持三种分布式部署方式，分别是：standalonesparkonmesossparkonYARN其中，第一种类似于MapReduce1.0所采用的模式，内部实现了容错性和资源管理

w1992wishes·2023-11-26 11:50

DBT踩坑第二弹

总结下dbt-spark踩到的坑，连接方式采用的是thrift连接+Kerberos认证。

淡定一生2333·2023-11-26 10:02

掌握spark 3.0中的查询计划

本文翻译自MasteringQueryPlansinSpark3.0,能够很好的帮助学习sparksql理解sparkUI的计划，决定翻译记录一下。

鸿乃江边鸟·2023-11-26 09:16

AIGC创作系统ChatGPT网站源码、支持最新GPT-4-Turbo模型、GPT-4图片对话能力+搭建部署教程

一、AI创作系统SparkAi创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统，支持OpenAI-GPT全模型+国内AI全模型。

白云如幻·2023-11-26 09:50

(转载)Spark任务输出文件过程详解

一、Spark任务输出文件的总过程当一个Job开始执行后，输出文件的相关过程大概如下：1、Job启动时创建一个目录:${output.dir}/_temporary/${appAttemptId}作为本次运行的输出临时目录

淡定一生2333·2023-11-26 09:09

Spark任务输出文件过程详解

文章目录一、Spark任务输出文件的总过程二、Commit细节分析1、commitTask介绍1.1、判断是否需要commit1.2、task的commit细节2、commitJob介绍三、V1和V2commiter

疯狂哈丘·2023-11-26 09:07

简略Spark输出

http://blog.jobbole.com/86232/Spark（和PySpark）的执行可以特别详细，很多INFO日志消息都会打印到屏幕。

chenlongzhen_tech·2023-11-26 09:37

Spark SQL输入输出

1、对于SparkSQL的输入需要使用sparkSession.read方法1)、通用模式sparkSession.read.format("json").load("path")支持类型：parquet

sinat_36710456·2023-11-26 09:37

spark 输出结果压缩（gz）

如果不想往下看，可以直接看结果：maxCallRdd.repartition(3).saveAsTextFile(path,GzipCodec.class);恩，没错。就只这么一行简单的代码实现了gz压缩，但是为什么网上一直没找到呢，这个我不太清楚，可能是他们没碰到吧。最近项目的需求，其实很简单，就是将输出结果以.gz的格式压缩，每个压缩包的大小不能超过100M,而且压缩包的名称也有要求，就是要以

fjr_huoniao·2023-11-26 09:00

【spark】控制日志输出的方法

目录一、控制日志输出方法二、代码测试一、控制日志输出方法1、使用spark默认的log4j配置文件设置日志输出级别Logger.getLogger("org.apache.spark").setLevel

郝少·2023-11-26 09:30

Spark Streaming（四）——输出

输出操作如下：1）print()：在运行流程序的驱动结点上打印DStream中每一批次数据的最开始10个元素。这用于开发和调试。2）saveAsTextFiles(prefix,[suffix])：以text文件形式存储这个DStream的内容。每一批次的存储文件名基于参数中的prefix和suffix。”prefix-Time_IN_MS[.suffix]”。3）saveAsObjectFile

爱喝水的绿萝·2023-11-26 09:29

Spark导出

3Spark导出在使用Spark之前，先将编译好的classes导出为jar比较好，可以$sbt/sbtassembly将Spark及其依赖包导出为jar，放在core/target/spark-core-assembly

a2261504394·2023-11-26 09:59

Spark多文件输出的两种形式

#所需环境版本jdk=1.8scala.version=2.11.0spark.version=2.3.2hadoop.verison=2.7.2importorg.apache.hadoop.io.

一只咸鱼va·2023-11-26 09:58

使用Spark进行结构化流处理并将结果输出到终端或指定位置

使用Spark进行结构化流处理并将结果输出到终端或指定位置Spark是一个强大的大数据处理框架，提供了许多功能强大的组件，其中包括StructuredStreaming，它是Spark的流处理引擎。

心之所向，或千或百·2023-11-26 09:24

Hadoop+Hive+Spark+Hbase开发环境练习

app/data/exam查看csv文件行数[root@kb129~]#hdfsdfs-cat/app/data/exam/meituan_waimai_meishi.csv|wc-l2.分别使用RDD和SparkSQL

不吃香菜lw·2023-11-26 07:48

滑动窗口rolling详解

文章目录引言PandasDataFrame参数详解PySparkDataframe基本程序参数详解参考文献引言为了提升数据的准确性，将某个点的取值扩大到包含这个点的一段区间，用区间来进行判断，这个区间就是窗口

安替-AnTi·2023-11-26 03:37

Spark Streaming + Kafka Integration Guide 位置策略和消费策略

新的Kafka消费者API可以预获取消息缓存到缓冲区，因此Spark整合Kafka让消费者在executor上进行缓存对性能是非常有助的，可以调度消费者所在主机位置的分区。

七_seven·2023-11-26 02:55

使用spark读取SQLserver数据

com.microsoft.sqlserversqljdbc44.0关于依赖参考链接https://www.cnblogs.com/benfly/p/12671965.htmlimportorg.apache.spark.sql.SparkSessionobjectSqlServerR

都教授2000·2023-11-25 22:22

日志关键信息处理

spark任务异常失败后，需要重启任务任务需要一个时间参数dhdh是动态的向后流动的因此每次重启的任务这个参数都是不同的如何知道上次失败的时候dh执行到了何处需要借助任务执行日志来确定思路：从日志文件中根据关键词

都教授2000·2023-11-25 22:46

Day68 Kafka 快速实战核心原理

Storm/Spark流式处理引擎web/nginx，访问日志消息服务开放统一接口给consumerhadoop,hbase等.装载到hadoop,数仓etl做离线分析和数据挖掘.ScreenShot2022

小周爱吃瓜·2023-11-25 21:31

spark 资源动态释放

通过spark-submit会固定占用一占的资源，有什么办法，在任务不运作的时候将资源释放，让其它任务使用呢，yarn新版本默认已经支持了，我们使用的是HDP。

kikiki2·2023-11-25 19:37

基于centos7的hadoop2.7、zookeeper3.5、hbase1.3、spark2.3、scala2.11、kafka2.11、hive3.1、flume1.8、sqoop1.4组件部署

部署前准备修改主机名1、修改主机名（6台机器都要操作,以Master为举例）hostnamectlset-hostnameMaster（永久修改主机名）reboot（重启系统）修改hosts将第一行127.0.0.1xxxx注释掉，加上：195.168.2.127master195.168.2.128slave1195.168.2.129slave2确认网卡信息vi/etc/sysconfig/n

luoz_python·2023-11-25 19:42

Scala深海奇遇记-当case class遇到了Spark的聚集函数

自从知道有caseclass这个东西以后，一直都比较常用这个东西。但是，最近在测试的时候，突然发现，其实这个东西并不简单，它导致了一个看起来很无厘头的错误，并且花了我两天的时间来调试。在这篇文章里，我会详细记录调试的过程，以及结论。致谢在调试的过程中，得到了我们Hadoop组老大，项目组老大，以及其他同事的深度支持与帮助，非常感谢他们。结论先说结论。如果有朋友不感兴趣，不想深究原理，只是想知道怎么

AlstonWilliams·2023-11-25 18:58

在dss中运行scala任务报java.lang.NullPointerException: null

版本信息：dss:1.1.1linkis1.1.1hadoop:3.1.3hive:3.1.2spark:3.0.0修改文件：SparkScalaExecutor.scala修改文件内容如下：上图红色标记内容

heheha_zj·2023-11-25 18:18

Kafka系列 - Kafka一篇入门

很多分布式处理系统，例如Spark，Flink等都支持与Kafka集成。Kafka使用场景消息系统：Kafka实现了消息顺序性保证和回溯消费。

胡桃姓胡，蝴蝶也姓胡·2023-11-25 17:01

HBase探索篇 _ OpenJdk15编译并部署CDH版HBase

javax.annotation不存在3.4maven-shade-plugin升级版本3.5程序包javax.xml.ws.http不存在3.6SomeEnforcerruleshavefailed.3.7hbase-spark

大猿小猿向前冲·2023-11-25 14:20

Hadoop发行版 Cloudera CDH 6.3.2及CM 安装包下载（阿里云盘不限速）

全称Cloudera’sDistribution,includingApacheHadoop）是由Cloudera公司构建的Hadoop稳定发行版，不仅含有ApacheHadoop，还整合了Hive、Spark

风情客家__·2023-11-25 14:11

告别百度网盘，搭建自己的专属网盘 ——Cloudreve，不限制下载速度！

支持多家云存储驱动的公有云文件系统.演示站•讨论社区•文档•下载•Telegram群组•许可证:sparkles:特性:cloud:支持本机、从机、七牛、阿里云OSS、腾讯云COS、又拍云、OneDrive

顺哥博客·2023-11-25 13:51

Spark项目报错。SLF4J: Class path contains multiple SLF4J bindings.

此问题出现是因为有依赖包冲突，解决方案是将org/apache/logging/log4j/log4j-slf4j-impl/2.4.1依赖包删除。在本地Maven仓库找到相应的目录，删除，重新运行项目就可以了。1、删除包2、正常运行

Enjoy404·2023-11-25 11:05

spark Sql， dataframe, Dataset 和 Streaming编程指南

四：sparkSql，dataframe,Dataset4.1:SparkSQL的用法之一是执行SQL查询,它也可以从现有的Hive中读取数据SparkSession:Spark中所有功能的入口是SparkSession

醉舞经阁半卷书A·2023-11-25 10:57

spark 资源动态释放

通过spark-submit会固定占用一占的资源，有什么办法，在任务不运作的时候将资源释放，让其它任务使用呢，yarn新版本默认已经支持了，我们使用的是HDP。

kikiki2·2023-11-25 09:13

玩转人工智能（11）使用Pyspark上手机器学习

文件系统HDFSHadoopDistributedFileSystem，简称HDFS，是一个分布式文件系统。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。GlusterFS是一个集群的文件系统，支持PB级的数据量。GlusterFS通过RDMA和TCP/IP方式将分布到不同服务器上的存储空间汇集成一个大的网络化并行文件系统。

Moscar_M·2023-11-25 07:10

（二）大数据---Hadoop组件介绍，区别

文章目录文件系统数据存储内存技术数据搜集消息系统数据处理查询引擎分析和报告工具调度与管理服务机器学习开发平台Hive,Impala,pig区别HDFS:分布式文件系统YARN:分布式资源管理MapReduce、Spark

（─__─）·2023-11-25 07:37

Spark SQL 时间格式处理

初始化SparkSqlpackagepbcp_2023.clear_dataimportorg.apache.spark.SparkConfimportorg.apache.spark.sql.SparkSessionimportorg.apache.spark.sql.functions

小辉懂编程·2023-11-25 05:29

云计算实验4 面向行业背景的大数据分析与处理综合实验

一、实验目的掌握分布式数据库接口SparkSQL基本操作，以及训练综合能力，包括：数据预处理、向量处理、大数据算法、预测和可视化等综合工程能力二、实验环境Linux的虚拟机环境和实验指导手册三、实验任务完成

MrNeoJeep·2023-11-25 04:06

大数据分析与应用实验任务八

大数据分析与应用实验任务八实验目的进一步熟悉pyspark程序运行方式；熟练掌握pysaprkRDD基本操作相关的方法、函数。

陈希瑞·2023-11-25 04:05

大数据分析与应用实验任务九

大数据分析与应用实验任务九实验目的进一步熟悉pyspark程序运行方式；熟练掌握pysaprkRDD基本操作相关的方法、函数，解决基本问题。

陈希瑞·2023-11-25 04:31

flink中Task、SubTask的理解

Task对照Spark中的Stage阶段;SubTask对照Spark中的task

xuning_et·2023-11-25 01:34

推荐频道

********Spark

讯飞星火知识库文档问答Web API的使用（二）

服务器项目怎么连接数据库,项目使用服务器上的数据库连接

大数据集群高可用组建搭建部署

平台环境部署的相关大数据

传统数仓和clickhouse对比

Dr.Elephant入门

“夜光”：使用域隐藏代替域前置

2023年全国职业院校技能大赛-赛题第01套-GZ033 大数据应用开发

1.5.1.2 Spark的部署与安装

百度开源高性能 Python 分布式计算框架 Bigflow

【Spark】Ubuntu16.04 spark 集群安装 （standalone模式）

DBT踩坑第二弹

掌握spark 3.0中的查询计划

AIGC创作系统ChatGPT网站源码、支持最新GPT-4-Turbo模型、GPT-4图片对话能力+搭建部署教程

(转载)Spark任务输出文件过程详解

Spark任务输出文件过程详解

简略Spark输出

Spark SQL输入输出

spark 输出结果压缩（gz）

【spark】控制日志输出的方法

Spark Streaming（四）——输出

Spark导出

Spark多文件输出的两种形式

使用Spark进行结构化流处理并将结果输出到终端或指定位置

Hadoop+Hive+Spark+Hbase开发环境练习

滑动窗口rolling详解

Spark Streaming + Kafka Integration Guide 位置策略和消费策略

使用spark读取SQLserver数据

日志关键信息处理

Day68 Kafka 快速实战 核心原理

spark 资源动态释放

基于centos7的hadoop2.7、zookeeper3.5、hbase1.3、spark2.3、scala2.11、kafka2.11、hive3.1、flume1.8、sqoop1.4组件部署

Scala深海奇遇记-当case class遇到了Spark的聚集函数

在dss中运行scala任务报java.lang.NullPointerException: null

Kafka系列 - Kafka一篇入门

HBase探索篇 _ OpenJdk15编译并部署CDH版HBase

Hadoop发行版 Cloudera CDH 6.3.2及CM 安装包下载（阿里云盘 不限速）

告别百度网盘，搭建自己的专属网盘 ——Cloudreve，不限制下载速度！

Spark项目报错。SLF4J: Class path contains multiple SLF4J bindings.

spark Sql， dataframe, Dataset 和 Streaming编程指南

spark 资源动态释放

玩转人工智能（11）使用Pyspark上手机器学习

（二）大数据---Hadoop组件介绍，区别

Spark SQL 时间格式处理

最新Midjourney绘画提示词Prompt教程无需魔法

最新AIGC创作系统ChatGPT网站源码，Midjourney绘画系统，支持GPT-4图片对话能力（上传图片并识图理解对话）,支持DALL-E3文生图

云计算实验4 面向行业背景的大数据分析与处理综合实验

大数据分析与应用实验任务八

大数据分析与应用实验任务九

flink中Task、SubTask的理解

【Spark】Ubuntu16.04 spark 集群安装（standalone模式）

Day68 Kafka 快速实战核心原理

Hadoop发行版 Cloudera CDH 6.3.2及CM 安装包下载（阿里云盘不限速）