Spark走马观花第5页

Hbase - 自定义Rowkey规则

中我们有时候需要分析数据1点到2点的范围,可是经过Region又比较慢，这时候我们就可以定制`TableInputFormat`来实现我们的需求了，我们还可以采用Flink的`DataSet`的方式读取,另外下面还有`Spark

kikiki5·2024-02-20 07:17

php实现讯飞星火大模型3.5

星火大模型-科大讯飞2.修改对应php文件中的key等可以参考文档说明，以及下载demo星火认知大模型WebAPI文档|讯飞开放平台文档中心其中appid等都需要修改还有uid，3.5模型wss://spark-ap

随风万里无云·2024-02-20 07:38

2024.2.19 阿里云Flink

一、Flink基本介绍Spark底层是微批处理,Flink底层则是实时流计算流式计算特点:数据是源源不断产生,两大问题,乱序和延迟Stateful:有状态Flink的三个部分Source:Transactions

白白的wj·2024-02-20 07:05

Flink Catalog 解读与同步 Hudi 表元数据的最佳实践

在当前的大数据格局中，Spark/Hive/Flink是最为主流的ETL或Strea

　Laurence·2024-02-20 06:28

面试系列之《Spark》（持续更新...）

stage：一个job任务中从后往前划分，分区间每产生了shuffle也就是宽依赖则划分为一个stage，stage这体现了spark的pipeline思想，即数据在内存中尽可能的往后多计算，最后落盘，

atwdy·2024-02-20 06:07

以内存为核心的开源分布式存储系统

Tachyon为不同的大数据计算框架（如ApacheSpark，HadoopMapReduce,ApacheFlink等）提供可靠的内存级的数据共享服务。

这次靠你了·2024-02-20 05:26

好奇心

消遣性好奇激励人们去发现新事物，让人视野更宽，但它的缺点是：让人在走马观花中浪费精力和时间。2.认识性好奇更深入、更有序和更努力地探寻知识，称为认识性好奇。

夏丽_5f8f·2024-02-20 01:19

手机远程控制树莓派-BLINKER应用（物联网基础）

由于我买了坚果云这个软件服务，所以我对云储存并无太大的兴趣，只是有时候要远程回家翻翻服务器上的东西，或者挂着下载个东西，跑个pyspark之类的。

crossni·2024-02-20 00:15

本周复盘（5.25~6.2）

10月份，再奋斗2.回家，请不要走马观花，值得留下来再好好品品，和妈妈说话，以前奋斗的痕迹，都会让你心里更清楚，自己想要的到底是什么。3.情绪管理。最近的情绪管理不太好，工作

清心茉莉·2024-02-19 23:59

无依赖单机尝鲜 Nebula Exchange 的 SST 导入

无依赖单机尝鲜NebulaExchange的SST导入本文尝试分享下以最小方式（单机、容器化Spark、Hadoop、NebulaGraph），快速趟一下NebulaExchange中SST写入方式的步骤

NebulaGraph·2024-02-19 23:51

Linux下Spark offline安装graphframes包

文章目录背景安装步骤背景GraphX是Spark中用于图计算的模块.Spark安装包中内置Scala语言的GraphX库,但是对于Python语言的安装包,需要额外进行安装.对于内网服务器,不能访问外网

ithiker·2024-02-19 22:45

2023-08-24 不必太在意。

如何对待生活中的那些琐碎的事情，也许并不需要我们去太过于认真，用一个词语来形容这个对生活的视角或者是这个态度，“走马观花”这个词语，也是比较确切的。

Sunny06e·2024-02-19 19:50

AWS Serverless PySpark 指定 Python 版本（qbit）

·2024-02-19 16:05

python-产品篇-游戏-成语填填乐

,"白手起家","张灯结彩","风和日丽","万里长城","人来人往","自由自在","瓜田李下","助人为乐","白手起家","红男绿女","春风化雨","马到成功","拔苗助长","安居乐业","走马观花

fo安方·2024-02-19 13:13

Quick introduction to Apache Spark

什么是SparkApacheSpark是一种快速通用的集群计算系统。它提供Java，Scala，Python和R中的高级API，以及支持通用执行图的优化引擎。

Liam_ml·2024-02-19 13:29

Spark中多分区写文件前可以不排序么

背景Spark3.5.0目前Spark中的实现中，对于多分区的写入默认会先排序，这是没必要的。

鸿乃江边鸟·2024-02-19 13:10

Flink 细粒度滑动窗口性能优化

大数据技术AIFlink/Spark/Hadoop/数仓，数据分析、面试，源码解读等干货学习资料118篇原创内容公众号1、概述1.1细粒度滑动的影响当使用细粒度的滑动窗口（窗口长度远远大于滑动步长）时，

hyunbar·2024-02-19 13:39

【大数据面试题】006介绍一下Parquet存储格式的优势

同时一般查询使用时不会使用所有列，而是只用到几列，所以查询速度会更快压缩比例高因为是列式存储，所以可以对同一类型的一段做压缩，压缩比例高支持的平台和框架多在Hadoop,Spark,Presto,Python

Jiweilai1·2024-02-19 13:34

七天爆肝flink笔记

一.flink整体介绍及wordcount案例代码1.1整体介绍从上到下包含有界无界流支持状态特点与spark对比应用场景架构分层1.2示例代码了解了后就整个demo吧数据源准备这里直接用的文本文件gradle

我才是真的封不觉·2024-02-19 13:01

(15)Hive调优——数据倾斜的解决指南

目录前言一、什么是数据倾斜二、发生数据倾斜的表现2.1MapReduce任务2.2Spark任务三、如何定位发生数据倾斜的代码四、发生数据倾斜的原因3.1key分布不均匀3.1.1某些key存在大量相同值

爱吃辣条byte·2024-02-19 11:50

Hive on Spark配置

前提条件1、安装好Hive，参考：Hive安装部署-CSDN博客2、下载好Spark安装包，链接：https://pan.baidu.com/s/1plIBKPUAv79WJxBSbdPODw?

在下区区俗物·2024-02-15 10:51

配置hive on spark

配置hiveonspark1、上传Spark纯净版jar包到HDFS：hdfsdfs-mkdir/spark-jarshdfsdfs-put/opt/spark/jars/*/spark-jars2、修改

空白格2519·2024-02-15 10:51

hive on spark配置经验

常规配置配置完，开启hadoop，开启spark（如果在hdfs上上传了纯净版的spark则不需要开启），开启hive注：当前节点一定要是namenode的active节点，因为hadoop长时间不用namenode

小五冲冲冲·2024-02-15 10:21

Hbase - 自定义Rowkey规则

中我们有时候需要分析数据1点到2点的范围,可是经过Region又比较慢，这时候我们就可以定制TableInputFormat来实现我们的需求了，我们还可以采用Flink的DataSet的方式读取,另外下面还有Spark

kikiki2·2024-02-15 06:39

参观工博会

今天是我第二次参观工博会，两年前看过一次，走马观花，就看了个热闹，这次准备以专业人士的角度仔细看看。到了之后，先是在自家公司的展位看了看，增加点人气，顺便想办法解决下午饭，制定观看路线。

带汽的水水·2024-02-15 05:45

怎样塑造查理·芒格的牛人思维？这本书一定不要错过

中国人口之多，名胜古迹景区多受保护，当下中国的旅游体验不过是只能观看不可体验，人人都走马观花般泛泛地游览。

小月亮文毓·2024-02-15 03:15

日思录

31/360这几天老婆一直在追剧，为了能跟她有些共同的话题和炫耀她不知道的情节，我走马观花的看完了原著。看完有几点感悟。其一，子女的教育问题是最重要的。

风之预言·2024-02-15 01:00

（免费领源码）python+mysql+spark 手机销售数据的可视化分析系统44127-计算机毕业设计项目选题推荐

摘要信息化社会内需要与之针对性的信息获取途径，但是途径的扩展基本上为人们所努力的方向，由于站在的角度存在偏差，人们经常能够获得不同类型信息，这也是技术最为难以攻克的课题。针对手机销售数据管理等问题，对手机销售数据管理进行研究分析，然后开发设计出手机销售数据可视化系统以解决问题。手机销售数据可视化系统主要功能模块包括系统首页、轮播图、公告信息、资源管理（新闻资讯、新闻分类）交流管理（交流论坛、论坛分

2301_3224142804·2024-02-15 00:40

《精益创业》读后感

截止此时，刨去走马观花看书的那一次，也算是认真认真看了一遍纸质版书籍。

乔娟·2024-02-14 23:05

基于Kafka的实时计算引擎如何选择？

以Flink和Spark为首的实时计算引擎，成为实时计算场景的重点考虑对象。那么，今天就来聊一聊基于Kafka的实时计算引擎如何选择？FlinkorSpark？2.为何需要实时计算？

java菜·2024-02-14 19:37

调用讯飞火星AI大模型WebAPI

getWebsocketUrl(){returnnewPromise((resolve,reject)=>{varapiKey=API_KEYvarapiSecret=API_SECRETvarurl='ws://spark-api

雲墨知秋·2024-02-14 18:54

Spark通过jdbc性能调优--采用分区的方式从oracle读数据

spark通过jdbc读取Oracle，当数据量很大的时候会出现两个问题：读取数据异常缓慢，甚至卡死大表中进行操作也会出现OOM的问题调优常规的读取数据库的方式如下ods_bdz=spark.read.format

korry24·2024-02-14 18:08

PySpark介绍及其安装教程

一、PySpark是什么PythonPySpark是Spark官方提供的一个Python类库，其中内置了完全的SparkAPI，使得Python用户在导入这个类库后，可以使用自己熟悉的Python语言来编写

文景大大·2024-02-14 14:58

Spark（四十二）数据倾斜解决方案之使用随机数以及扩容表进行join

一、背景当采用随机数和扩容表进行join解决数据倾斜的时候，就代表着，你的之前的数据倾斜的解决方案，都没法使用。这个方案是没办法彻底解决数据倾斜的，更多的，是一种对数据倾斜的缓解。原理，其实在上一讲，已经带出来了。扩容表（RDD）步骤：1、选择一个RDD，要用flatMap，进行扩容，将每条数据，映射为多条数据，每个映射出来的数据，都带了一个n以内的随机数，通常来说，会选择10。2、将另外一个RD

文子轩·2024-02-14 14:36

Spark编程实验六：Spark机器学习库MLlib编程

目录一、目的与要求二、实验内容三、实验步骤1、数据导入2、进行主成分分析（PCA）3、训练分类模型并预测居民收入4、超参数调优四、结果分析与实验体会一、目的与要求1、通过实验掌握基本的MLLib编程方法；2、掌握用MLLib解决一些常见的数据分析问题，包括数据导入、成分分析和分类和预测等。二、实验内容1.数据导入从文件中导入数据，并转化为DataFrame。2、进行主成分分析（PCA）对6个连续型

Francek Chen·2024-02-14 14:48

一只断线的风铃

叮呤叮呤柔软了隔纱哀眺的夜十月的风牵扯着断线风铃的心清冷的月一瞬间苍白了芬芳的想念洒落的珠在玻璃桌上起舞一如当初落在我身后轻轻的脚步回头消散的气息不复曾经所有恰似断线的风铃在风中缠绵柔美、柔美伤悲、伤悲在风中追逐的步伐不重不轻、不缓不急只是我的情愁永远追不上你的诗伤最终我还是迷失在你清浅的笑容里却感动了整场青葱雨季少年步步为营蓓蕾小心翼翼青春走马观花曲不成调的叮呤奏出了奋不顾身的壮烈却凌乱了风割断

柒百忆·2024-02-14 13:48

ShuffleManager 原理

在Spark的源码中，负责shuffle过程的执行、计算、处理的组件主要是ShuffleManager。在Spark1.2以前，默认的shuffle计算引擎是HashShuffleManager。

stone_zhu·2024-02-14 10:03

旅行

云南，北京，上海，成都，凤凰古城，山亚，浙江，苏州，无锡…..那时候的旅游，用穷游来形容非常贴切，赶行程，到此一游，走马观花，但快乐和意义却长远且无法忘记。自从有了孩子

璟简·2024-02-14 08:27

Hadoop+Spark+MongoDB+MySQL+C#大数据开发项目最佳实践

一、前言随着IT技术的飞速发展，各行各业都已在广泛尝试使用大数据技术提供更稳健和优质的服务。目前，医疗IT系统收集了大量极具价值的数据，但这些历史医疗数据并没有发挥出其应有的价值。为此，本文拟利用医院现有的历史数据，挖掘出有价值的基于统计学的医学规则、知识，并基于这些信息构建专业的临床知识库，提供诊断、处方、用药推荐功能，基于强大的关联推荐能力，极大地提高医疗服务质量，减轻医疗人员的工作强度。二、

yiyidsj·2024-02-14 07:08

基于 C# 的 ETL 大数据并行编程

ApacheSpark是一个用于Extract(提取),

dotNET跨平台·2024-02-14 07:07

未来，就是一个选择

在找工作之初给自己定的目标是一定不去公立学校，一定不从事和本专业相关的工作，也在积极的奔着自己的目标努力，所以和本专业相关的工作一直都是在走马观花，只是有些要求不是很高的学校，过去聊了聊，然后拿到了offer

似水流年1993·2024-02-14 07:16

Spark - 动态注册UDF

昨天有位大哥问小弟一个Spark问题，他们想在不停Spark程序的情况下动态更新UDF的逻辑，他一问我这个问题的时候，本猪心里一惊，Spark**还能这么玩?

kikiki2·2024-02-14 06:33

2019-07-29

不过随着演变，如今的“团建”大多变成了各种吃喝玩乐：走马观花的旅游，并不“趣味”的趣味运动会，尬聊酒局+饭桌游戏……就我个人而

chen晨辰·2024-02-14 05:43

旅行的意义(1)/等

小时候总是一味地想要去到很远的地方，走马观花似的到了很多地方。但零碎的游历经不起推敲，时间一久，那些地名又重新变成地图上刻板的印刷体，只有在后来认真旅行的时候，回光返照般的闪现过片刻记忆。

被被睡着了·2024-02-14 03:15

印象乐陵之方寸之间方显为政理念

图片发自App图片发自App图片发自App“浪荡”成性的我总会找些由头，作为“浪荡”“旗号”，这不昨日清晨，驱车带着老妈驶上了德滨高速，五十分钟抵达乐陵，开始了此次乐陵的走马观花闲游草民不会有前呼后拥，

崇拜范蠡·2024-02-14 02:23

学习

好久没来了，即便进来也是走马观花，没有好好看文。最近因家里有事没来，而且自停更后，陆续看了简友们的文章，竟然发现了自己很感兴趣的圈子→_→朋友圈美学。

angelsz·2024-02-14 01:54

国庆节去家具城买沙发

上次和女儿只是走马观花看看价格和款式，了解一下。今天买沙发的事情再次提上议事日程，趁这个假期要把沙发买好，不能再拖下去了。吃过午饭和老公叫上小舅舅一起去家具城买沙发。

习惯独行·2024-02-13 21:03

Spark Authorizer支持最新版本Spark 2.3.0

Kent_Yao·2024-02-13 20:52

大数据处理为何选择Spark，而不是Hadoop

一.基础知识1.SparkSpark是一个用来实现快速而通用的集群计算的平台。在速度方面，Spark扩展了广泛使用的MapReduce计算模型，而且高效地支持更多计算模式，包括交互式查询和流处理。

嘿嘿海海·2024-02-13 14:00

30天复盘总结

反思自己，没有充分融入到社群，对社群规则不了解，导致痛失励志币，由于主要精力没有在这一块，对社群的一些干货、规则没有充分细致了解，没有积极与伙伴互动，更多时候是走马观花的看，导致自己整体的印象不

喵儿的星球·2024-02-13 13:22

推荐频道

Spark走马观花

Hbase - 自定义Rowkey规则

php实现讯飞星火大模型3.5

2024.2.19 阿里云Flink

Flink Catalog 解读与同步 Hudi 表元数据的最佳实践

面试系列之《Spark》（持续更新...）

以内存为核心的开源分布式存储系统

好奇心

手机远程控制树莓派-BLINKER应用（物联网基础）

本周复盘（5.25~6.2）

无依赖单机尝鲜 Nebula Exchange 的 SST 导入

Linux下Spark offline安装graphframes包

2023-08-24 不必太在意。

AWS Serverless PySpark 指定 Python 版本（qbit）

python-产品篇-游戏-成语填填乐

Quick introduction to Apache Spark

Spark中多分区写文件前可以不排序么

Flink 细粒度滑动窗口性能优化

【大数据面试题】006介绍一下Parquet存储格式的优势

七天爆肝flink笔记

(15)Hive调优——数据倾斜的解决指南

Hive on Spark配置

配置hive on spark

hive on spark配置经验

Hbase - 自定义Rowkey规则

参观工博会

怎样塑造查理·芒格的牛人思维？这本书一定不要错过

日思录

（免费领源码）python+mysql+spark 手机销售数据的可视化分析系统44127-计算机毕业设计项目选题推荐

《精益创业》读后感

基于Kafka的实时计算引擎如何选择？

调用讯飞火星AI大模型WebAPI

Spark通过jdbc性能调优--采用分区的方式从oracle读数据

PySpark介绍及其安装教程

Spark（四十二）数据倾斜解决方案之使用随机数以及扩容表进行join

Spark编程实验六：Spark机器学习库MLlib编程

一只断线的风铃

ShuffleManager 原理

旅行

Hadoop+Spark+MongoDB+MySQL+C#大数据开发项目最佳实践

基于 C# 的 ETL 大数据并行编程

未来，就是一个选择

Spark - 动态注册UDF

2019-07-29

旅行的意义(1)/等

印象乐陵之方寸之间方显为政理念

学习

国庆节去家具城买沙发

Spark Authorizer支持最新版本Spark 2.3.0

大数据处理为何选择Spark，而不是Hadoop

30天复盘总结