大数据系列第2页

几百本常用计算机开发语言电子书链接

NLP、机器学习，深度学习等等），大数据系列(Spark,Hadoop,Scala,kafka等)，程序员必修系列（C、C++、ja

i_a_jun·2023-07-27 06:51

SparkCore系列-9、共享变量

传送门：大数据系列文章目录官方网址：http://spark.apache.org/、https://databricks.com/spark/about目录回顾介绍广播变量累加器案例演示下回分解回顾上篇文章介绍了如何使用

技术武器库·2023-07-18 15:39

基于Spark的大规模日志分析

本文分享自华为云社区《【实战经验分享】基于Spark的大规模日志分析【上进小菜猪大数据系列】》，作者：上进小菜猪。随着互联网的普及和应用范围的扩大，越来越多的应用场景需要对海量数据进行

华为云开发者联盟·2023-06-15 10:00

【硬刚大数据之面试篇】2021年从零到大数据专家面试篇之IceBerg篇

硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021

王知无(import_bigdata)·2023-06-13 17:03

大数据系列——Spark学习笔记之Spark中的RDD

1.Spark中的RDDResilientDistributedDatasets(弹性分布式数据集)Spark中的最基本的抽象有了RDD的存在我们就可以像操作本地集合一样操作分布式的数据包含所有元素的分区的集合RDD包含了很多的分区2.RDD中的弹性RDD中的数据是可大可小的RDD的数据默认情况下存放在内存中的，但是在内存资源不足时，Spark会自动将RDD数据写入磁盘RDD有自动容错功能,当其中

EVAO·2023-06-12 23:09

Spark系列-3、Spark的部署方式之Standalone模式

大数据系列文章目录官方网址：http://spark.apache.org/、https://databricks.com/spark/about目录介绍SparkStandalone集群Standalone

技术武器库·2023-06-08 11:55

数据流畅驰骋：探秘Logstash在大数据领域的卓越表现【上进小菜猪大数据系列】

上进小菜猪，沈工大软件工程专业，爱好敲代码，持续输出干货。摘要：Logstash是大数据领域中常用的数据处理引擎，能够高效地采集、转换和输出数据。本文将深入介绍Logstash的基本概念、工作原理和常见应用场景，并提供代码示例帮助读者快速上手使用Logstash进行数据处理。引言在大数据时代，高效处理和分析海量数据成为企业成功的关键。Logstash作为一个强大的数据处理引擎，提供了可靠的数据采集

上进小菜猪·2023-06-07 05:33

深入探索Apache Flume：大数据领域的数据采集神器【上进小菜猪大数据系列】

我是上进小菜猪，沈工大软件工程专业，爱好敲代码，持续输出干货，欢迎关注。引言：随着大数据技术的快速发展，企业和组织需要从各种来源采集海量数据。数据采集是大数据处理流程中至关重要的一环，而ApacheFlume作为一个可靠的、可扩展的数据采集工具，在大数据领域扮演着重要的角色。本文将深入探索ApacheFlume的技术原理和核心组件，并通过代码实例展示其在实际应用中的使用方法。一、ApacheFlu

上进小菜猪·2023-06-07 05:33

深入探究HDFS：高可靠、高可扩展、高吞吐量的分布式文件系统【上进小菜猪大数据系列】

上进小菜猪，沈工大软件工程专业，爱好敲代码，持续输出干货。引言在当今数据时代，数据的存储和处理已经成为了各行各业的一个关键问题。尤其是在大数据领域，海量数据的存储和处理已经成为了一个不可避免的问题。为了应对这个问题，分布式文件系统应运而生。Hadoop分布式文件系统（HadoopDistributedFileSystem，简称HDFS）就是其中一个开源的分布式文件系统。本文将介绍HDFS的概念、架

上进小菜猪·2023-06-07 05:03

HBase：Hadoop生态系统中的分布式NoSQL数据库【上进小菜猪大数据系列】

我是上进小菜猪，沈工大软件工程专业，爱好敲代码，持续输出干货，欢迎关注。Hadoop中的HBase:分布式NoSQL数据库在大数据时代，数据量的爆炸式增长对数据存储和处理能力提出了巨大的挑战。Hadoop作为一个分布式计算框架，在解决这些挑战中发挥了重要作用。然而，传统的关系型数据库无法很好地处理海量的非结构化或半结构化数据，因此NoSQL数据库变得越来越受到关注和应用。在Hadoop生态系统中，

上进小菜猪·2023-06-07 05:03

Flink系列-9、Flink DataStream的输入数据集Data Source

大数据系列文章目录官方网址：https://flink.apache.org/学习资料：https://flink-learning.org.cn/目录addSource方法接口:SourceFunctionFlink

技术武器库·2023-04-21 13:16

大数据系列——ClickHouse表引擎与分布式查询

目录一、ClickHouse的表引擎1、MergeTree的创建方式与存储结构2、ReplacingMergeTree二、数据分片与分布式查询三、Clickhouse-ETL常见业务使用一、ClickHouse的表引擎表引擎体系，包括合并树、外部存储、内存、文件、接口和其他6大类20多种表引擎。而在这众多的表引擎中，又属合并树（MergeTree）表引擎及其家族系列（*MergeTree）最为强大

多则惑少则明·2023-04-17 09:51

Flink系列-7、Flink DataSet—Sink&广播变量&分布式缓存&累加器

大数据系列文章目录官方网址：https://flink.apache.org/学习资料：https://flink-learning.org.cn/目录数据输出DataSinks基于本地集合的sink基于文件的

技术武器库·2023-04-15 15:51

Flink系列-5、Flink DataSet API介绍

大数据系列文章目录官方网址：https://flink.apache.org/学习资料：https://flink-learning.org.cn/目录FlinkDataSetAPI编程模型FlinkDataSetAPI

技术武器库·2023-04-15 15:21

Flink系列-6、Flink DataSet的Transformation

大数据系列文章目录官方网址：https://flink.apache.org/学习资料：https://flink-learning.org.cn/目录Flink算子MapFlatMapFilterReducereduceGroupAggregateAggregate

技术武器库·2023-04-15 15:48

大数据系列——Redis部署及应用

Redis有四种部署方式，分别为单机模式、主备模式、哨兵模式、集群模式。其中单机模式比较简单，容量、处理能力有限，没有高可用；主备模式和哨兵模式本质和单机模式一样，只是主备模式保证数据高可用，哨兵模式保证数据和服务的高可用。集群模式是将数据分片到不同的服务器，克服了单机的容量、性能有限问题，可以支持海量数据应用。下面以生产环境一般用的哨兵模式、集群方式部署为例分别做说明，本样例是在3台虚拟机下部署

mql007007·2023-04-12 22:36

大数据-学习实践-2Hadoop

大数据-学习实践-2Hadoop(大数据系列)文章目录大数据-学习实践-2Hadoop1知识点2具体内容2.1Hadoop介绍2.2两种安装方式2.2.1伪分布集群安装部署2.2.2分布式集群安装2.2.3

yxyibb·2023-04-08 19:48

大数据-学习实践-3HDFS

大数据-学习实践-2HDFS(大数据系列)文章目录大数据-学习实践-2HDFS1知识点2具体内容2.1HDFS介绍2.2HDFS操作2.2.1基本操作2.2.2Java操作HDFS2.3HDFS体系结构

yxyibb·2023-04-08 19:48

大数据-学习实践-4MapReduce

大数据-学习实践-4MapReduce(大数据系列)文章目录大数据-学习实践-4MapReduce1知识点2具体内容2.1MapReduce介绍2.2分布式计算介绍、原理2.2.1MapReduce原理剖析

yxyibb·2023-04-08 19:48

大数据-学习实践-5企业级解决方案

大数据-学习实践-5企业级解决方案(大数据系列)文章目录大数据-学习实践-5企业级解决方案1知识点2具体内容2.1小文件问题2.1.1SequenceFile2.1.2MapFile2.1.3小文件存储计算

yxyibb·2023-04-08 19:07

【硬刚大数据】2021年从零到大数据专家之Kudu篇

硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021

王知无(import_bigdata)·2023-04-06 11:54

大数据系列之Flume+kafka 整合

关于Flume的一些核心概念：组件名称功能介绍Agent代理使用JVM运行Flume。每台机器运行一个agent，但是可以在一个agent中包含多个sources和sinks。Client客户端生产数据，运行在一个独立的线程。Source源从Client收集数据，传递给Channel。Sink接收器从Channel收集数据，进行相关操作，运行在一个独立线程。Channel通道连接sources和s

三万_chenbing·2023-04-05 14:19

大数据系列之：安装pulsar详细步骤

大数据系列之：安装pulsar详细步骤一、Pulsar版本和jdk对应关系二、安装JDK三、设置和激活jdk环境变量四、下载和解压Pulsar五、查看Pulsar目录六、启动Pulsarstandalonecluster

最笨的羊羊·2023-04-03 13:18

大数据系列——HBase理论

概述HBase即HadoopDatabase，是一个基于GoogleBigtable实现的开源的、高可靠性、高性能、面向列、可伸缩、实时读写、大容量的分布式数据库。以HadoopMapReduce来处理HBase中的海量数据计算，以HadoopHDFS来处理HBase中的海量数据存储，以Zookeeper作为其分布式协同服务、元数据存储，主要用来存储结构化、非结构化、半结构化的数据，满足CAP定理

mql007007·2023-04-03 06:29

《大数据系列报告之一:工业大数据白皮书》的理解

用最近一段学习的基本概念和基本方法，研读《工业大数据白皮书》，对白皮书部分内容摘录和理解整理如下：01编制背景（why）互联网与工业融合创新，工业大数据技术及应用，对实施智能制造战略意义重大：提升制造业生产力、竞争力、创新能力；驱动产品智能化；生产过程智能化、管理智能化、服务智能化、新业态新模式智能化；制造业转型；构建开放、共享、协作的智能制造产业生态。02目标（what）推动企业从生产型制造向服

追求财务自由的中年人·2023-04-01 19:40

大数据系列之Spark SQL、DataFrame和RDD数据统计与可视化

Spark大数据分析中涉及到RDD、DataFrame和SparkSQL的操作，本文简要介绍三种方式在数据统计中的算子使用。1、在IPythonNotebook运行PythonSpark程序IPythonNotebook具备交互式界面，可以在Web界面输入Python命令后立刻看到结果，还可将数据分析的过程和运行后的命令与结果存储成笔记本，下次可以打开笔记本，重新执行这些命令，IPythonNot

solihawk·2023-03-31 12:09

大数据(一) - hadoop生态系统及版本演化

大数据系列文章汇总链接-更新到15篇HDFS：分布式存储系统（HadoopDistributedFileSystem）：提供了高可靠性、高扩展性和高吞吐率的数据存储服务HDFS源自于Google的GFS

will的成长之路·2023-03-29 20:46

大数据随记 —— Hadoop 环境搭建

大数据系列文章：目录文章目录一、虚拟机环境准备1.虚拟机网络模式设置为NAT2.克隆虚拟机3.修改虚拟机为静态IP4.修改主机名5.关闭防火墙6.设置ssh免密码登录（只在Master这台主机操作）二、

繁依Fanyi·2023-03-26 18:42

大数据系列——Hadoop理论

概述Hadoop是一个开源的分布式计算和存储框架，由Apache基金会开发和维护。通过组合大量的商用计算机于一体形成集群，可提供可靠的、可伸缩的应用层计算和存储服务，将数据序列化为字节流来存储，主要用于处理海量数据的存储和分析运算。核心组件包括分布式文件系统(HDFS)、MapReduce、YARN；HDFS为海量的数据提供了存储，MapReduce为海量的数据提供了计算，YARN为MapRedu

mql007007·2023-03-26 18:42

大数据随记 —— Hadoop 概述

大数据系列文章：目录文章目录一、Hadoop概述二、Hadoop组件介绍三、Hadoop版本介绍①ApacheHadoop②ClouderaHadoop（CDH）③HortonWorksHadoop（HDP

繁依Fanyi·2023-03-26 18:11

跨组学大数据系列论坛之基因组学统计分析方法与应用

高通量组学技术的成熟与发展，实验室检测成本的大幅降低，使在人群中获得各层面跨组学数据（基因组学、转录组学、蛋白组学、微生物组学、单细胞组学）成为可能，这为从群体水平上探讨复杂疾病（心血管疾病、肿瘤等）的内在遗传机制提供了重大机遇，科学研究已悄然进入跨组学大数据时代。如何对这些组学数据进行科学合理地统计分析与应用，充分挖掘其蕴含的生物医学信息，有助于认识复杂疾病的发生、发展和转归规律，为后续药物靶点

秦小琮SK·2023-03-26 10:13

【硬刚大数据】从零到大数据专家之Apache Doris篇

硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021

王知无(import_bigdata)·2023-03-22 13:08

考研大数据系列之2020年北大中国现当代文学

一、【理想途权威】北京大学介绍北京大学（PekingUniversity）简称“北大”，诞生于1898年，初名京师大学堂，是中国近代第一所国立大学，也是第一个以“大学”之名创办的学校，其成立标志着中国近代高等教育的开端。北大是中国近代以来唯一以国家最高学府身份创立的学校，最初也是国家最高教育行政机关，行使教育部职能，统管全国教育。北大催生了中国最早的现代学制，开创了中国最早的文科、理科、社科、农科

理想途马老师·2023-03-17 18:43

大数据系列：Spark的工作原理及架构

介绍本ApacheSpark教程将说明ApacheSpark的运行时架构以及主要的Spark术语，例如ApacheSparkContext，Sparkshell，ApacheSpark应用程序，Spark中的任务（Task），作业（job）和阶段（stage）。此外，我们还将学习Spark运行时体系结构的组件，例如Sparkdriver，集群管理器（clustermanager）和Sparkexe

BAO7988·2023-02-26 07:45

阿里云ACP介绍

ACP认证目前又按专业方向分四种：云计算（主要对应阿里云基础架构产品）、大数据（主要对应阿里云大数据系列产品）、云安全（主要对应阿里云

拉斯5961·2023-02-02 03:11

【硬刚大数据】从零到大数据专家之Kylin入门/原理/调优

硬刚大数据系列文章链接：从零到大数据专家的学习指南(全面升级版)从零到大数据专家之Hadoo

王知无(import_bigdata)·2023-01-25 15:13

大数据挖掘与大数据开发学徒班

培训教材全部采用公司自主开发的大数据系列教材，课程内容标准化、体系化。整体培训注重实践，强调学生的动手能力，为学生找工作做充足准备。

泰迪智能科技·2023-01-16 20:25

【硬刚大数据之面试篇】2021年从零到大数据专家面试篇之SparkSQL篇

硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年

王知无(import_bigdata)·2023-01-12 10:42

大数据行业图谱之（1）：底层基础平台公司能做多大？

今天是大数据系列的第一篇——底层基础平台。底层基础平台主要解决的是数据存储、计算的问题，是整个大数据生态的基石。采集到

weixin_33895475·2023-01-11 16:27

大数据行业图谱之(1)：底层基础平台公司能做多大？

今天是大数据系列的第一篇——底层基础平台。底层基础平台主要解决的是数据存储、计算的问题，是整个大数据生态的基石。采集到

weixin_34405557·2023-01-11 16:27

大数据系列 | 解决Hadoop不能打开端口8088的网页问题(50070可以打开)

解决Hadoop不能打开端口8088的网页问题(50070可以打开)原因：本地hosts文件没有添加集群ip集群环境没有开放8088端口hadoop的配置文件yarn-site.xml问题解决方法：首先检查一下使用集群ip:8088是否可以访问可以访问即是本地hosts配置问题以管理员身份打开WindowsPowershellC:>CDC:\Windows\System32\drivers\etc

woshinsy·2023-01-08 12:20

大数据系列篇-spark-sql使用SQL加DSL方式与RDD-DATAFRAME-DATASET转换

大数据系列篇-spark-sql使用SQL加DSL方式与RDD-DATAFRAME-DATASET转换packagecom.testimportorg.apache.spark.SparkConfimportorg.apache.spark.sql.SparkSession

dong-123456·2022-12-18 19:11

【大会嘉宾】凯联资本董事总经理&产业研究院院长由天宇确认出席“企业数智化转型升级专场——魔方大数据系列论坛”...

数据智能产业创新服务媒体——聚焦数智·改变商业由天宇，凯联资本董事总经理、产业研究院院长，已确认出席由上海市经济信息化委员会、上海市科学技术委员会指导，数据猿、上海大数据联盟共同主办的“企业数智化转型升级专场——魔方大数据系列论坛

数据猿·2022-12-17 09:26

Spark朴素贝叶斯(naiveBayes)

捐助大数据系列零基础由入门到实战视频大优惠本帖最后由InSight于2015-4-3023:46编辑问题导读：1.什么是朴素贝叶斯？2.朴素贝叶斯运行在什么样的场景下？3.朴素贝叶斯计算流程是什么？

javastart·2022-12-15 11:11

【金猿案例展】杭州联合银行——大数据系列平台建设

‍网易数帆案例本项目案例由网易数帆投递并参与“数据猿年度金猿策划活动——《2022大数据产业年度创新服务企业》榜单/奖项”评选。‍数据智能产业创新服务媒体——聚焦数智·改变商业2022年1月12日，国务院印发《“十四五”数字经济发展规划》提出，到2025年，数字经济迈向全面扩展期，数字经济核心产业增加值占GDP比重达到10%，数字化创新引领发展能力大幅提升，数字技术与实体经济融合取得显著成效，我国

数据猿·2022-12-09 20:53

大数据系列13：milvus大规模向量检索引擎

1.介绍与安装参考https://milvus.io/cn/docs/home。Milvus是一款基于云原生架构开发的开源向量数据库，支持查询和管理由机器学习模型或神经网络生成的向量数据。Milvus在一流的近似最近邻（ANN）搜索库（例如Faiss、NMSLIB、Annoy）的功能基础上进行扩展，具有按需扩展、流批一体和高可用等特点。下面介绍几种安装方式：Dockercompose方法官网说了，

IE06·2022-11-29 06:16

大数据系列教程（2）Flink 应用场景

应用场景ApacheFlink是开发和运行许多不同类型的应用程序的绝佳选择，因为它具有广泛的功能集。Flink的功能包括支持流和批处理、复杂的状态管理、事件时间处理语义以及状态的一次性一致性保证。下面，我们将探讨由Flink提供支持的最常见的应用程序类型，并为现实世界的示例提供指导。事件驱动的应用程序数据分析应用数据管道应用事件驱动的应用程序什么是事件驱动的应用程序？事件驱动应用程序是一种有状态的

吕布辕门·2022-11-22 14:14

MySQL六种窗口函数用法案例

Java和大数据系列注：大家觉得博客好的话，别忘了点赞收藏呀，本人每周都会更新关于人工智能和大数据相关的内容，内容多为原创，PythonJavaScalaSQL代码，CVNLP推荐系统等，SparkFlinkKafkaHbaseHiveFlume

陈万君Allen·2022-11-21 18:23

大数据系列 | SparkSQL&HiveSQL报错解决方法

问题原因：问题报错提示：Distinctwindowfunctionsarenotsupported:count(distinctxx)windowspecdefinition(name#9,_w4#39,ROWSBETWEENUNBOUNDEDPRECEDINGANDUNBOUNDEDFOLLOWING);问题报错原因：查阅资料后发现sparksql中的窗口函数不支持COUNT(DISTINCT

woshinsy·2022-09-21 13:09

大数据系列（未完，待续）

大数据架构大数据架构：搭建CDH5.5.1分布式集群环境Hive大数据：Hive常用参数调优SparkSpark基本架构及原理SparkContext原理解析SparkRDD、DataFrame原理及操作详解SparkOnYarn的两种模式yarn-cluster和yarn-client深度剖析Spark广播变量BroadCastSparkStreaming基本架构及使用SparkStreamin

weixin_30425949·2022-09-09 09:25

推荐频道

大数据系列

几百本常用计算机开发语言电子书链接

SparkCore系列-9、共享变量

基于Spark的大规模日志分析

【硬刚大数据之面试篇】2021年从零到大数据专家面试篇之IceBerg篇

大数据系列——Spark学习笔记之Spark中的RDD

Spark系列-3、Spark的部署方式之Standalone模式

数据流畅驰骋：探秘Logstash在大数据领域的卓越表现【上进小菜猪大数据系列】

深入探索Apache Flume：大数据领域的数据采集神器【上进小菜猪大数据系列】

深入探究HDFS：高可靠、高可扩展、高吞吐量的分布式文件系统【上进小菜猪大数据系列】

HBase：Hadoop生态系统中的分布式NoSQL数据库【上进小菜猪大数据系列】

Flink系列-9、Flink DataStream的输入数据集Data Source

大数据系列——ClickHouse表引擎与分布式查询

Flink系列-7、Flink DataSet—Sink&广播变量&分布式缓存&累加器

Flink系列-5、Flink DataSet API介绍

Flink系列-6、Flink DataSet的Transformation

大数据系列——Redis部署及应用

大数据-学习实践-2Hadoop

大数据-学习实践-3HDFS

大数据-学习实践-4MapReduce

大数据-学习实践-5企业级解决方案

【硬刚大数据】2021年从零到大数据专家之Kudu篇

大数据系列之Flume+kafka 整合

大数据系列之：安装pulsar详细步骤

大数据系列——HBase理论

《大数据系列报告之一:工业大数据白皮书》的理解

大数据系列之Spark SQL、DataFrame和RDD数据统计与可视化

大数据(一) - hadoop生态系统及版本演化

大数据随记 —— Hadoop 环境搭建

大数据系列——Hadoop理论

大数据随记 —— Hadoop 概述

跨组学大数据系列论坛之基因组学统计分析方法与应用

【硬刚大数据】从零到大数据专家之Apache Doris篇

考研大数据系列之2020年北大中国现当代文学

大数据系列：Spark的工作原理及架构

阿里云ACP介绍

【硬刚大数据】从零到大数据专家之Kylin入门/原理/调优

大数据挖掘与大数据开发学徒班

【硬刚大数据之面试篇】2021年从零到大数据专家面试篇之SparkSQL篇

大数据行业图谱之（1）：底层基础平台公司能做多大？

大数据行业图谱之(1)：底层基础平台公司能做多大？

大数据系列 | 解决Hadoop不能打开端口8088的网页问题(50070可以打开)

大数据系列篇-spark-sql使用SQL加DSL方式与RDD-DATAFRAME-DATASET转换

【大会嘉宾】凯联资本董事总经理&产业研究院院长由天宇确认出席“企业数智化转型升级专场——魔方大数据系列论坛”...

Spark朴素贝叶斯(naiveBayes)

【金猿案例展】杭州联合银行——大数据系列平台建设

大数据系列13：milvus大规模向量检索引擎

大数据系列教程（2）Flink 应用场景

MySQL六种窗口函数用法案例

大数据系列 | SparkSQL&HiveSQL报错解决方法

大数据系列（未完，待续）