海量数据第7页

水平分库分表的关键问题及解决思路

在互联网行业海量数据和高并发访问的考验下，聪明的技术人员提出了分库分表技术（有些地方也称

程序员BUG·2024-01-26 11:08

Redis之使用HyperLogLog统计网站UV

一句话：HyperLogLog用来统计一个很大很大的数据集(海量数据)的基数，是一个占用空间极低的set，省空间版的setRedis在2.8.9版本中添加了HyperLogLog数据结构1.区分UV和PV

Pr Young·2024-01-26 10:58

理智很乏味清醒最孤独·2024-01-26 09:27

【运维】Ubuntu18.04系统docker方式安装ElasticSearch和kibana

DockerServerVersion:20.10.7ElasticSearchVersion:8.5.3KibanaVersion:8.5.3说明ElasticSearch是一个开源分布式搜索引擎，可以快速地储存、搜索和分析海量数据

奔跑的大白啊·2024-01-26 07:22

产品解读 | 新一代湖仓集存储，多模型统一架构，高效挖掘数据价值

星环科技TDH一直致力于给用户带来高性能、高可靠的一站式大数据基础平台，满足对海量数据的存储和复杂业务的处理需求。

星环科技·2024-01-26 07:40

一文了解字节跳动消息队列演进之路

字节跳动的消息队列团队不仅要支撑公司内部消息队列系统的设计、开发和维护工作，还要解决诸多技术难题和痛点，例如如何稳定高效地处理海量数据、如何降低运维成本等。

字节跳动云原生计算·2024-01-26 06:22

如何使用Redis进行排序操作

前言我们在实际的开发过程中经常会遇到这样一个问题，需要高频次德对某个业务数据集进行某种规则的排序，如果是普通的排序，一般的方法就可以实现，我们这里强调的是海量数据、高频次的更新排序场景，如对上千万、上亿的数据进行排序操作

Feify@肥肥·2024-01-25 23:36

大数据开发之Spark（完整版）

第1章：Spark概述1.1什么是spark回顾：hadoop主要解决，海量数据的存储和海量数据的分析计算。spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。

Key-Key·2024-01-25 21:05

ClickHouse 极简教程

ClickHouse不应该被用作通用数据库，而是作为超高性能的海量数据快速查询的分布式实时处理平台，在数据汇总查询方面(如GROUPBY)，ClickHouse的查询速度非常快。

禅与计算机程序设计艺术·2024-01-25 21:59

[AIGC 大数据基础]hive浅谈

在当今大数据时代，随着数据量的不断增大，如何高效地处理和分析海量数据已经成为一个重要的挑战。为了满足这一需求，Hive应运而生。

程序员三木·2024-01-25 14:17

用4KB内存寻找重复元素（算法村第十五关青铜挑战）

在海量数据中，普通的数组、链表、Hash、树等等结构无效，因为内存空间不足。而常规的递归、排序，回溯、贪心和动态规划等思想也无效，因为执行超时。这类问题该如何下手呢？

陈星泽SSR·2024-01-25 13:26

hadoop集群部署

hadoop简介Hadoop是一个由Apache基金会所开发的分布式系统基础架构,是一个存储系统+计算框架的软件框架，主要解决海量数据存储与计算的问题，是大数据技术中的基石。

Cat God 007·2024-01-25 12:45

AI服务器行业分析：预计2023年全球市场规模将达211亿美元

AI服务器需求暴增，机构指出，AI时代浪潮汹涌，海量数据催生庞大的算力需求，带动AI服务器需求量与日俱增，用于服务器内、外部数据传输等接口芯片也随之攀升。

QY调研所·2024-01-25 06:11

JAVA的面试题四

分布式：①垂直拆分:根据功能模块进行拆分②水平拆分:根据业务层级进行拆分（2）高并发：用户单位时间内访问服务器数量,是电商行业中面临的主要问题（3）集群：抗击高兵发的有效手段,同时集群内部实现高可用（4）海量数据处理

菜鸟程序员z·2024-01-25 00:51

一文熟悉redis安装和字符串基本操作

NoSQL特点：容易扩展、高速读写/IO、高性能、高并发、海量数据存储。

.咖啡加剁椒.·2024-01-24 21:07

性能优化之数据库篇5-分库分表与数据迁移

从容量、性能、可用性和运维成本上难以满足海量数据的场景。性能方面，数据量超过一定阈值，B+树索引慎独增加导致磁盘访问的IO次数增加，进而导致查询性能的下降。

Leonardo●da●Vinci·2024-01-24 18:07

马云对社区团购的这句表态，预示着一大批职场精英将要更换工作

因为刚刚昨天，人民日报公众号发表文章评论社区团购：“掌握海量数据，现金算法的互联网巨头，理应在科技创新上有更多的担当，有更多的追求，有更多作为。

白领手记·2024-01-24 18:42

ETL.NET 助力海量数据轻松处理

ETL.NET助力海量数据轻松处理什么是ETL&EtlT？

ChaITSimpleLove·2024-01-24 15:56

大型语言模型 (LLM)全解读

大型语言模型是使用海量数据集进行训练的超大型深度学习模型。这也是它们能够识别、翻译、预测或生成文本或其他内容的强大基础所在。因此大型语言模型也称为神经网络(NN)，是受人类大脑启发而开发出的计算系统。

FeelTouch Labs·2024-01-24 11:24

ElasticSearch

支持对各种类型的数据的索引；搜索速度快，可以提供实时的搜索服务；便于水平扩展，每秒可以处理PB级海量数据E：EalsticSearch搜索和分析的功能L：Logstach搜集数据的功能，类似于flume

奋斗小温·2024-01-24 11:16

mysql主从复制、读写分离、分库分表、分片

数据库水平切分的实现原理解析——分库，分表，主从，集群，负载均衡器（转）第1章引言随着互联网应用的广泛普及，海量数据的存储和访问成为了系统设计的瓶颈问题。

scyxm0426·2024-01-24 10:59

Hbas简介：数据模型和概念、物理视图

缘友一世·2024-01-24 08:17

MySQL索引特性

所以它的价值，在于提高一个海量数据的检索速度。常见索引分为：主键索引(primarykey)唯一索引(unique)普通索引(index)全文

新绿.·2024-01-23 21:29

机器学习 | 深入理解并掌握核心概念

它像一面魔镜，赋予计算机系统学习和改进的能力，让机器能够从海量数据中提取规律、预测未来，甚至做出智能决策。本专栏将带您踏上机器学习的奇妙之旅，探索其原理、方法和应用。

亦世凡华、·2024-01-23 17:42

FastDFS分布式文件存储

因为互联网时代要对海量数据进行存储。很显然靠简单的增加硬盘个数已经满足不了我们的要求。因为硬盘传输速度有限但是数据在急剧增长，另外我们还要要做好数据备份、数据安全等。

愚人钊呀·2024-01-23 09:12

2024-01-22（MongoDB）

1.Mongodb使用的业务场景：传统的关系型数据库/mysql在“三高”需求以及应对web2.0的网站需求面前，有点力不从心，什么是“三高”需求：a.对数据库高并发的读写需求b.对海量数据的高效率存储和访问需求

陈xr·2024-01-23 09:55

大数据开发之Spark（入门）

第1章：Spark概述1.1什么是spark回顾：hadoop主要解决，海量数据的存储和海量数据的分析计算。spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。

Key-Key·2024-01-23 09:45

Hadoop基本介绍

（1）Pig是一个基于Hadoop的大规模数据分析平台，Pig为复杂的海量数据并行计算提供了

w蕾丝·2024-01-23 08:53

如何判断样本标注的靠谱程度？置信度学习（CL）简述

原因在于，想从海量数据中寻找并描述标签错误很难；即使有相关的

夕小瑶·2024-01-23 07:32

Databend x HuggingFace，海量数据，随心分析

作者：尚卓燃（PsiACE）澳门科技大学在读硕士，Databend研发工程师实习生ApacheOpenDAL(Incubating)Committerhttps://github.com/PsiACEHuggingFace是目前全球最流行的AI社区，推动数据科学家和企业在模型、数据集和应用等诸多方面进行创新与合作。HuggingFace上存在各种各样的数据集，不光可以用作学习和练习的样本，也可以作

Databend·2024-01-23 03:32

Iceberg教程

Manifestfile)2.5查询流程分析3.与Flink集成3.1环境准备3.1.1安装Flink3.1.2启动Sql-Client3.2语法教程来源于尚硅谷1.简介1.1概述Iceberg是一个面向海量数据分

Cool_Pepsi·2024-01-23 02:43

程序员波特·2024-01-22 21:28

开源：天猫推出电子版高并发系统设计，从架构系统分层到实战维护

毫无疑问，高并发意味着高流量，我们常见的高并发场景有电商的高并发、12306抢火车票的高并发、抖音的高并发、海量数据的高并发等等。其实这些问题还是不同的，需要具体讨论具体分析。

Java余笙·2024-01-22 19:12

Flink CDC 3.0 详解

配合Flink优秀的管道能力和丰富的上下游生态，FlinkCDC可以高效实现海量数据的实时集成。FlinkCDC于2023年12月7日重磅推出其全新的3.0版本，3.0版本的发布对FlinkCDC

小枫@码·2024-01-22 17:18

人工智能革命近在咫尺：利用数据实现社会影响、增强决策力和新机遇

未来几年，随着我们每天产生的海量数据的推动，将会出现大量唾手可得的人工智能进步。数据是人工智能的核心，它可以让人工智能系统从经验中学习，提高性能和适应性。这种唾手可得的人

结构化文摘·2024-01-22 14:02

QuestDB时序数据库快速入门

随着业务快速发展，使得海量数据在传统关系型数据库上性能瓶颈问题，转移到QuestDB时序数据库上后得到性能的极大提升，解决了海量数据高性能快速读

不会飞的小龙人·2024-01-22 12:51

Flink背景

数仓简介在信息爆炸的时代，为了从海量数据中洞察业务价值，驱动运营决策，企业通常会构建用于数据分析的数据仓库。

201001070·2024-01-22 08:31

08. Springboot集成webmagic实现网页爬虫

如果将现有网络上的海量数据使用爬虫工具将数据爬取保存

有一只柴犬·2024-01-22 06:59

芯片优缺点_算力至上？AI芯片大对决

随着人工智能、自动驾驶、5G、云计算等各种技术的不断发展，海量数据都将会继续源源不断的产生。预计到2025年，数据总量将比现在增长10倍。在这些技术的发展中，很大的一部分都基于对大数据的研究和分析。

weixin_39628180·2024-01-22 06:28

算力至上？四大AI芯片大对决

随着人工智能、自动驾驶、5G、云计算等各种技术的不断发展，海量数据都将会继续源源不断的产生。预计到2025年，数据总量将比现在增长10倍。在这些技术的发展中，很大的一部分都基于对大数据的研究和分析。

AI科技大本营·2024-01-22 06:50

Hbase 与 ElasticSearch 的结合使用

最近在做用elasticSearch建立hbase的二级索引，通过查询elasticSearch实现对hbase的快速查询，从而实现海量数据的秒级快速查询。在这里记录一下自己工作的解决过程。

AnillegalName·2024-01-21 19:28

03-黑马程序员大数据开发：Apache Hive

：了解什么是分布式SQL计算；了解什么是ApacheHive2.使用Hive处理数据的好处操作接口采用类SQL语法，提供快速开发的能力（简单、容易上手)底层执行MapReduce，可以完成分布式海量数据的

S1406793·2024-01-21 08:21

clickhouse 和 doris 哪个比较好

它具有很高的吞吐量和低延迟，能够处理海量数据并快速查询。Doris是一个开源的MPP数据库系统，旨在提供类似于传统数据库的功能，但是能够处理大规模数据。

格拉摩根终身伯爵·2024-01-21 08:53

Hadoop入门概述

以下是学习Hadoop时需要掌握的一些关键概念和技术要点：Hadoop概述Hadoop是什么：Hadoop是一个基于Java编写的开源软件库，用于在商用硬件集群上分布式处理和存储海量数据。

转身成为了码农·2024-01-21 07:41

网络爬虫采集工具

在当今数字化的时代，获取海量数据对于企业、学术界和个人都至关重要。网络爬虫成为一种强大的工具，能够从互联网上抓取并提取所需的信息。

147SEO·2024-01-21 04:07

SeaTunnel 海量数据同步工具的使用（连载中……）

一、概述SeaTunnel是一个非常易用，高性能、支持实时流式和离线批处理的海量数据处理产品，前身是WaterDrop（中文名：水滴），自2021年10月12日更名为SeaTunnel。

programmer_山风·2024-01-21 03:49

java计算机基础知识：2021.12.21 day01

1.计算机的基础知识(过一遍)什么是计算机能够处理海量数据,并且能高速运行程序的一套电子设备应用场景:云计算/多媒体应用/科学计算/计算机辅助设计(CAD工程制图)/数据的处理...组成:软件/硬件软件

简单点丶·2024-01-21 01:59

客户案例｜知名证券机构核心大数据平台升级之路

Hadoop作为海量数据处理的关键技术框架，自诞生以来就改变了企业对数据的存储、处理和分析的过程，因具备开源低成本、高可靠等特性，在证券行业得到了广泛的应用。

云掣YUNCHE·2024-01-21 01:17

B数和B+数的区别，Mysql为什么使用B+数据结构

B树和B+树都是多叉树，是改变二叉树结构的高度较大进行优化的（树的高度较大不适合存储海量数据）；但两者之间也有不同，Mysql选择B+树作为存储的数据结构。

tony_xj·2024-01-21 00:07

Postgis 图文安装详细教程 (Windows)

LY1201A/article/details/106428733文章目录安装Postgis的目的下载Windows下具体安装步骤安装Postgis的目的因为空间数据具有空间位置、空间关系、分类编码、海量数据等特征

放羊的许木木·2024-01-20 19:07

推荐频道

海量数据