大数据-hadoop 第7页

探索数据仓库自动化：ETL流程设计与实践

探索数据仓库自动化：ETL流程设计与实践在大数据时代，数据仓库已成为企业数据管理和决策支持的核心工具。如何高效地提取、转换和加载数据（ETL），是数据仓库建设中的重要环节。

Echo_Wish·2025-03-07 08:31

企业信息查询系统的技术实现路径探析——以某大数据平台为例

本文将以某企业信息查询系统为研究样本，解析其技术架构与实现路径，探讨大数据技术在企业服务场景中的落地应用。

探熵科技·2025-03-07 07:17

大数据面试系列之——Hadoop

Hadoop的三个核心：HDFS（分布式存储系统）MapReduce（分布式计算系统）YARN(分布式资源调度)1.Hadoop集群的几种搭建模式1.单机模式：直接解压安装，不存在分布式存储系统2.伪分布式

潜心_守道·2025-03-07 07:17

python和java的优缺点-java有哪些python没有的优点?

两者各有各的优势：Python的优势：1.学起来简单，开发效率高，同样的功能用Java开发可能需要写200条代码，但是用Python只需要30~50条;2.在大数据挖掘方面有突出优势，是大数据分析首选的编程语言

weixin_37988176·2025-03-07 03:37

关于采用源始经为底层框架开发中文编程系统的可能性

**就业市场需求**：Python在人工智能/大数据/Web开发等领域的岗位需求持续增长3.**技术生态优势**：拥有超过30万个第

太翌修仙笔录·2025-03-07 03:26

Azkaban其一，介绍、体系架构和安装

比如：想启动hadoop集群先启动zk集群，再启动hdfs,再启动yarn，再启动日志系统工作过程中总会遇到多个脚本执行的时候有顺序。任务可以有一个编排的工具

出发行进·2025-03-07 00:35

《从信息论视角：DataWorks平台下人工智能探寻最优数据编码的深度剖析》

此时，信息论与人工智能算法为我们开辟了一条新的探索路径，尤其在DataWorks这样强大的大数据平台上，二者的结合蕴含着巨大的潜力。

程序猿阿伟·2025-03-06 22:50

《从信息论视角：DataWorks平台下人工智能探寻最优数据编码的深度剖析》

此时，信息论与人工智能算法为我们开辟了一条新的探索路径，尤其在DataWorks这样强大的大数据平台上，二者的结合蕴含着巨大的潜力。

·2025-03-06 22:12

机器学习平台系列（一） - 初探 Jupyter Notebook 认证机制

最近准备调研下JupyterNotebook的单用户安全机制（认证）以及如何实现多租户，以便集成到公司的云平台，进而作为基于大数据平台的机器学习平台的一部分。

窝窝和牛牛·2025-03-06 22:45

上海市闵行区数据局调研云轴科技ZStack，共探数智化转型新路径

ZStack开发者社区·2025-03-06 19:15

学习Flink：一场大数据世界的奇妙冒险

学习Flink：一场大数据世界的奇妙冒险嘿，朋友们！

狮歌~资深攻城狮·2025-03-06 17:29

从数据中挖掘洞见：初探数据挖掘的艺术与科学

作为大数据领域的自媒体创作者，我笔名Echo_Wish，在这篇文章中，我将带领大家初探数据挖掘的奥秘，揭示如何从数据中寻找隐藏的模式。什么是数据挖掘？

Echo_Wish·2025-03-06 16:23

大数据环境（单机版） Flume传输数据到Kafka

文章目录前言一、准备二、安装三、配置环境变量四、修改配置4.1、kafka配置4.2、Flume配置五、启动程序5.1、启动zk5.2、启动kafka5.3、启动flume六、测试6.1、启动一个kafka终端，用来消费消息6.2、写入日志其他前言flume监控指定目录，传输数据到kafka一、准备flume-1.10.1kafka_2.11-2.4.1zookeeper-3.4.13二、安装使用

凡许真·2025-03-06 11:44

hdfs HA 机制，一台 namenode 宕机了， joualnode ， namenode ， edit.log fsimage 的变化？思维导图代码示例（java 架构)

HDFS（HadoopDistributedFileSystem）的高可用性（HA,HighAvailability）机制旨在解决单点故障问题，确保即使在NameNode出现故障的情况下，文件系统仍然可以继续正常工作

用心去追梦·2025-03-06 10:00

【大数据平台】大数据平台的云迁移策略

⭐️大数据平台建设指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台的核心技术和方法。⭐️《遇见Python：初识、了解与热恋》：涵盖了Pytho

野老杂谈·2025-03-06 06:01

IntelliJ IDEA + Maven环境编写第一个hadoop程序

1.新建IntelliJ下的maven项目点击File->New->Project，在弹出的对话框中选择Maven，JDK选择你自己安装的版本，点击Next2.填写Maven的GroupId和ArtifactId你可以根据自己的项目随便填，点击Next这样就新建好了一个空的项目这里程序名填写WordCount,我们的程序是一个通用的网上的范例,用来计算文件中单词出现的次数3.设置程序的编译版本打开

IT独白者·2025-03-06 06:00

hadoop

Hadoop是一个用于分布式存储和处理大规模数据的开源框架，它的架构主要由以下几个核心组件组成：1.Hadoop生态系统核心组件Hadoop的核心架构主要包括HDFS（HadoopDistributedFileSystem

百里自来卷·2025-03-06 06:00

云上大数据平台的优化：提升效率与可靠性的实践

云上大数据平台的优化：提升效率与可靠性的实践随着云计算和大数据技术的快速发展，越来越多的企业选择将其数据处理和分析工作迁移到云上。

Echo_Wish·2025-03-06 05:54

第一个Hadoop程序

编写和运行第一个Hadoop程序是学习Hadoop的重要步骤。以下是一个经典的“WordCount”程序示例，它统计文本文件中每个单词出现的次数。

lqlj2233·2025-03-06 05:53

在虚拟机上安装 Hadoop 全攻略

在虚拟机上安装Hadoop是进入大数据处理和分析领域的重要一步。

麻芝汤圆·2025-03-06 05:22

Mongodb数据库的基本语法及使用

数据库MongoDB（芒果数据库）数据存储阶段文件管理阶段（.txt.doc.xls）优点：数据可以长期保存可以存储大量的数据使用简单缺点：数据一致性差数据查找修改不方便数据冗余度可能比较大数据库管理阶段优点

璟*·2025-03-06 00:38

132java ssm springboot基于大数据的吉林省农村产权交易数据分析可视化平台系统（源码+文档+运行视频+讲解视频）

文章目录系列文章目录目的前言一、详细视频演示二、项目部分实现截图三、技术栈后端框架springboot前端框架vue持久层框架MyBaitsPlus系统测试四、代码参考源码获取目的摘要：本文介绍了基于JavaSSM和SpringBoot开发的吉林省农村产权交易数据分析可视化平台系统，为农村产权交易市场提供决策支持。系统前端利用HTML、CSS和JavaScript构建直观的可视化界面，后端运用Ja

QQ2279239102·2025-03-05 23:36

系统对接方案_浅谈RPA系统

首先本文是有感而发，其次是我本身是大数据和人工智能领域产品多年从业者，并不局限于RPA领域，做过一些RPA项目也和客户沟通并且提供过顾问和咨询服务，所以有一定理解。

weixin_39881760·2025-03-05 23:34

【自学笔记】Hadoop基础知识点总览-持续更新

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Hadoop基础知识点总览1.Hadoop简介2.Hadoop生态系统3.HDFS（HadoopDistributedFileSystem

Long_poem·2025-03-05 22:24

一文揭秘！Java 如何与 Elasticsearch 完美 “牵手”？

在当今大数据和高并发的时代，高效的数据检索与分析变得愈发关键。Elasticsearch作为一款强大的分布式搜索和分析引擎，受到了广泛青睐。

程序员顾茗·2025-03-05 21:49

【AI深度学习基础】Pandas完全指南入门篇：数据处理的瑞士军刀（含完整代码）

Pandas系列文章导航入门篇进阶篇终极篇一、引言在大数据与AI驱动的时代，数据预处理和分析是深度学习与机器学习的基石。

arbboter·2025-03-05 20:08

对“预训练”的理解

在平常的任务或者项目中，我们可能并没有大量数据，只有少量数据，在这时我们就可以通过“借用”有大数据支持的模型的参数，作为基准，这样就能提高效率和准确率。

衣衣困·2025-03-05 18:59

Java 大视界 -- Java 大数据机器学习模型的可解释性增强技术与应用（107）

一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视

青云交·2025-03-05 18:55

Java 大视界 -- Java 大数据在智慧环保污染源监测与预警中的应用（104）

一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视

青云交·2025-03-05 18:25

Java 大视界 -- Java 大数据分布式文件系统的性能调优实战（101）

一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视

青云交·2025-03-05 18:25

Java 大视界 -- 深入剖析 Java 大数据实时 ETL 中的数据质量保障策略（97）

一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视

青云交·2025-03-05 18:25

Java 大视界 -- 绿色大数据：Java 技术在节能减排中的应用与实践（90）

一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视

青云交·2025-03-05 18:55

Java 大视界 -- 大数据伦理与法律：Java 技术在合规中的作用与挑战（87）

一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视

青云交·2025-03-05 18:25

Java 大视界 -- 区块链赋能 Java 大数据：数据可信与价值流转（84）

一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视

青云交·2025-03-05 18:24

Java 大视界 -- 基于 Java 的大数据流处理容错机制与恢复策略（113）

一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视

青云交·2025-03-05 17:50

大智能：大数据+大模型+大算力_大算力大数据大模型

在近日举行的“2022中国人工智能产业年会”主论坛上，中国人工智能学会监事长、中国工程院院士蒋昌俊在报告中表示，人工智能的发展已经历了数十年的过程，大模型ChatGPT在今年春节前后突然出现，大家还没有来得及深度思考就已经“扑面而来”。蒋昌俊大智能的研究进展科学技术的研究约分为两大范式，一是牛顿力学奠定了理论计算的范式，二是开普勒开启数据的范式。之后经历了实验归纳、理论的逻辑推演，以及计算模拟、最

AI学习不迷路·2025-03-05 14:13

场景题：有40亿个QQ号如何去重？仅1GB内存

仅1GB内存场景题也有一些套路可以考虑，比如去重、判断给定数据是否存在1.大数据去重1.1现在有40亿个QQ号如何去重？

·2025-03-05 11:11

spark hdfs 常用命令

lsrmgettext以下按照使用频率和使用先后顺序排序（纯个人习惯）ls列出hdfs文件系统路径下的目录和文件hdfsdfs-ls列出hdfs文件系统路径下所有的目录和文件hdfsdfs-ls-Rrmhadoopfs-rm

毛球饲养员·2025-03-05 11:19

国产化替代 | 星环科技TDH替代IBM数仓，助力城商行构建湖仓一体平台

某城市商业银行在此背景下，启动数据仓库系统升级项目，将数据仓库从IBMNetezza迁移到星环科技大数据基础平台TDH，不但成功实现了数据仓库的国产化替代，还建设了新一代的湖仓一体平台，为银行业务发展提供新

·2025-03-05 11:08

Spark详解二

masterlocal[2]（local[2]是说，执行Application需要用到CPU的2个核）2、Standalone独立模式：Spark自带的一种集群模式Spark自己管理集群资源，此时只需要将Hadoop

卢子墨·2025-03-05 11:13

Spark基本命令

一、spark所在目录cdusr/local/spark二、启动spark/usr/local/spark/sbin/start-all.sh启动Hadoop以及Spark：bash.

chenworeng5605·2025-03-05 10:42

大数据与网络安全讲座

点击文末小卡片，免费获取网络安全全套资料，资料在手，涨薪更快大数据的价值为大家公认。

黑客Jack·2025-03-05 10:10

FlinkCEP社区资源指南：学习与交流平台

FlinkCEP社区资源指南：学习与交流平台1.背景介绍ApacheFlink是一个开源的分布式大数据处理引擎,支持有状态计算和准确一次的流处理语义。

AI大模型应用之禅·2025-03-05 10:09

深入探秘FlinkCDC：实时数据处理的新利器

一、写在前面在大数据领域持续蓬勃发展的当下，数据的实时处理与分析变得愈发关键。

lucky_syq·2025-03-05 10:08

Spark是什么？可以用来做什么？

它最初由加州大学伯克利分校开发，现已成为大数据处理领域的核心工具之一。相比传统的HadoopMapReduce，Spark在速度、易用性和功能多样性上具有显著优势。

Bugkillers·2025-03-05 10:37

遨游防爆智能终端“问诊”工业制造，开出数据采集“良方”

在数据驱动的时代，唯有采集足够规模的工业数据，方能支撑起基于工业大数据的深度分析与智能决策，从而驱动传统产业的蜕变与升级。但是，数据采集之路并非坦途，面临着设备协议多样、接口不一等挑战。

AORO_BEIDOU·2025-03-05 00:51

Elasticsearch冷热分离与索引生命周期管理

背景信息当今大数据时代，数据时刻在更新变化。尤其是随着时间的积累，存储在Elasticsearch中的数据会越来越多，当数据达到一

Cloud_Tech·2025-03-04 23:44

什么是预训练？

一、介绍预训练模型诞生背景:对于某种特殊任务只存在少量的相关训练数据，以至于模型不能从中学习到有用的规律（标注资源稀缺，无大数据支持）举例：想对一批法律领域的文件进行关系抽取，就需要投入大量的精力（意味着时间和金钱的大量投入

卡卡大怪兽·2025-03-04 23:44

如何使用DeepSeek进行高效数据挖掘与分析

##摘要随着大数据时代的到来，数据挖掘与分析技术在各行各业中扮演着越来越重要的角色。DeepSeek作为一种先进的数据挖掘工具，能够帮助用户从海量数据中提取有价值的信息。

Small踢倒coffee_氕氘氚·2025-03-04 22:09

大数据面试临阵磨枪不知看什么？看这份心理就有底了-大数据常用技术栈常见面试100道题

目录1描述Hadoop的架构和它的主要组件。2MapReduce的工作原理是什么？3什么是YARN，它在Hadoop中扮演什么角色？4Spark和HadoopMapReduce的区别是什么？

大模型大数据攻城狮·2025-03-04 21:59

推荐频道

大数据-hadoop

探索数据仓库自动化：ETL流程设计与实践

企业信息查询系统的技术实现路径探析——以某大数据平台为例

大数据面试系列之——Hadoop

python和java的优缺点-java有哪些python没有的优点?

关于采用源始经为底层框架开发中文编程系统的可能性

Azkaban其一，介绍、体系架构和安装

《从信息论视角：DataWorks平台下人工智能探寻最优数据编码的深度剖析》

《从信息论视角：DataWorks平台下人工智能探寻最优数据编码的深度剖析》

机器学习平台系列（一） - 初探 Jupyter Notebook 认证机制

上海市闵行区数据局调研云轴科技ZStack，共探数智化转型新路径

学习Flink：一场大数据世界的奇妙冒险

从数据中挖掘洞见：初探数据挖掘的艺术与科学

大数据环境（单机版） Flume传输数据到Kafka

hdfs HA 机制， 一台 namenode 宕机了， joualnode ， namenode ， edit.log fsimage 的 变 化？思维导图 代码示例（java 架构)

【大数据平台】大数据平台的云迁移策略

IntelliJ IDEA + Maven环境编写第一个hadoop程序

hadoop

云上大数据平台的优化：提升效率与可靠性的实践

第一个Hadoop程序

在虚拟机上安装 Hadoop 全攻略

Mongodb数据库的基本语法及使用

132java ssm springboot基于大数据的吉林省农村产权交易数据分析可视化平台系统（源码+文档+运行视频+讲解视频）

系统对接方案_浅谈RPA系统

【自学笔记】Hadoop基础知识点总览-持续更新

一文揭秘！Java 如何与 Elasticsearch 完美 “牵手”？

【AI深度学习基础】Pandas完全指南入门篇：数据处理的瑞士军刀 （含完整代码）

对“预训练”的理解

Java 大视界 -- Java 大数据机器学习模型的可解释性增强技术与应用（107）

Java 大视界 -- Java 大数据在智慧环保污染源监测与预警中的应用（104）

Java 大视界 -- Java 大数据分布式文件系统的性能调优实战（101）

Java 大视界 -- 深入剖析 Java 大数据实时 ETL 中的数据质量保障策略（97）

Java 大视界 -- 绿色大数据：Java 技术在节能减排中的应用与实践（90）

Java 大视界 -- 大数据伦理与法律：Java 技术在合规中的作用与挑战（87）

Java 大视界 -- 区块链赋能 Java 大数据：数据可信与价值流转（84）

Java 大视界 -- 基于 Java 的大数据流处理容错机制与恢复策略（113）

大智能：大数据+大模型+大算力_大算力大数据大模型

场景题：有40亿个QQ号如何去重？仅1GB内存

spark hdfs 常用命令

国产化替代 | 星环科技TDH替代IBM数仓，助力城商行构建湖仓一体平台

Spark详解二

Spark基本命令

大数据与网络安全讲座

FlinkCEP社区资源指南：学习与交流平台

深入探秘FlinkCDC：实时数据处理的新利器

Spark是什么？可以用来做什么？

遨游防爆智能终端“问诊”工业制造，开出数据采集“良方”

Elasticsearch冷热分离与索引生命周期管理

什么是预训练？

如何使用DeepSeek进行高效数据挖掘与分析

大数据面试临阵磨枪不知看什么？看这份心理就有底了-大数据常用技术栈常见面试100道题

hdfs HA 机制，一台 namenode 宕机了， joualnode ， namenode ， edit.log fsimage 的变化？思维导图代码示例（java 架构)

【AI深度学习基础】Pandas完全指南入门篇：数据处理的瑞士军刀（含完整代码）