Yuan_CSDF

ClickHouse（一）简介与架构

1.OLAP详解

1.1.OLAP的场景特征

1、读多于写

不同于事务处理（OLTP）的场景，比如电商场景中加购物车、下单、支付等需要在原地进行大量insert、update、delete操作，数据分析（OLAP）场景通常是将数据批量导入后，进行任意维度的灵活探索、BI工具洞察、报表制作等。

数据一次性写入后，分析师需要尝试从各个角度对数据做挖掘、分析，直到发现其中的商业价值、业务变化趋势等信息。这是一个需要反复试错、不断调整、持续优化的过程，其中数据的读取次数远多于写入次数。这就要求底层数据库为这个特点做专门设计，而不是盲目采用传统数据库的技术架构。

2、大宽表，读大量行但是少量列，结果集较小

在OLAP场景中，通常存在一张或是几张多列的大宽表，列数高达数百甚至数千列。对数据分析处理时，选择其中的少数几列作为维度列、其他少数几列作为指标列，然后对全表或某一个较大范围内的数据做聚合计算。这个过程会扫描大量的行数据，但是只用到了其中的少数列。而聚合计算的结果集相比于动辄数十亿的原始数据，也明显小得多。

3、数据批量写入，且数据不更新或少更新

OLTP类业务对于延时（Latency）要求更高，要避免让客户等待造成业务损失；而OLAP类业务，由于数据量非常大，通常更加关注写入吞吐（Throughput），要求海量数据能够尽快导入完成。一旦导入完成，历史数据往往作为存档，不会再做更新、删除操

4、无需事务，数据一致性要求低

OLAP类业务对于事务需求较少，通常是导入历史日志数据，或搭配一款事务型数据库并实时从事务型数据库中进行数据同步。多数OLAP系统都支持最终一致性。

5、灵活多变，不适合预先建模

分析场景下，随着业务变化要及时调整分析维度、挖掘方法，以尽快发现数据价值、更新业务指标。而数据仓库中通常存储着海量的历史数据，调整代价十分高昂。预先建模技术虽然可以在特定场景中加速计算，但是无法满足业务灵活多变的发展需求，维护成本过高。

1.1.1.技术选型

少量数据：单机程序
中级数据：ES、MySQL的分库分表
海量数据：druid，kylin，doris，clickhouse
海量数据做查询分析高效：列式数据库，写模式（保证同一列的数据类型是一样的：方便压缩）

1.2.ClickHouse官网解释

URL地址：https://clickhouse.tech/docs/zh/

1、绝大多数请求都是读请求
2、数据以相当大的批次（> 1000行）更新，而不是单行更新;或者它根本没有更新。
3、数据已添加到数据库，但不会进行修改。
4、对于读取，每次查询都从数据库中读取大量的行，但是同时又仅需要少量的列
5、表格“宽”，意味着它们包含大量列。
6、查询相对较少（通常每台服务器数百个查询或每秒更少）。
7、对于简单查询，允许延迟大约50毫秒。
8、列中的数据相对较小：一般来说，都是数字和短字符串(例如，每个URL 60个字节)
9、处理单个查询时需要高吞吐量（每个服务器每秒最多数十亿行）。
10、Transactions不是必需的。
11、对数据一致性要求低。
12、每个查询有一个大表。所有其他表都很小，除了这个大表。
13、查询结果明显小于源数据。换句话说，数据被过滤或聚合后能够被盛放在单台服务器的内存中

2.ClickHouse

2.1.概述

源代码：C++

典型特点总结：ROLAP、在线实时查询、完整的DBMS、列式存储、不需要任何数据预处理、支持批量更新、具有非常完善的SQL支持和函数、支持高可用、不依赖Hadoop复杂生态、开箱即用

简单的说，ClickHouse作为分析型数据库，有三大特点：一是跑分快，二是功能多，三是文艺范

1.跑分快： ClickHouse跑分是Vertica的5倍快：

clickHouse性能超过了市面上大部分的列式存储数据库，相比传统的数据ClickHouse要快100-1000X，ClickHouse还是有非常大的优势：
100Million 数据集:ClickHouse比Vertica约快5倍，比Hive快279倍，比MySQL快801倍
1Billion 数据集:ClickHouse比Vertica约快5倍，MySQL和Hive已经无法完成任务了

2.功能多：ClickHouse支持数据统计分析各种场景

支持类SQL查询，
支持繁多库函数（例如IP转化，URL分析等，预估计算/HyperLoglog等）
支持数组(Array)和嵌套数据结构(Nested Data Structure)
支持数据库异地复制部署

3.文艺范：目前ClickHouse的限制很多，生来就是为小资服务的

相对较缺乏的文档，社区刚开始活跃，只有开源的C++源码
不理睬Hadoop生态，走自己的路

函数数量对比：Clickhouse：779个、hive-1.x：216个、hive-2.x：271个

2.2使用场景

适合：用于结构良好清晰且不可变的事件或日志流分析。

不适合：事务性工作(OLTP)，高请求率的键值访问，低延迟的修改或删除已存在数据，Blob或文档存储，超标准化数据。

2.3ClickHouse优缺点

2.3.1优点

1、真正的面向列的 DBMS

ClickHouse 是一个 DBMS，而不是一个单一的数据库。它允许在运行时创建表和数据库、加载数据和运行查询，而无需重新配置和重新启动服务器。

2、数据压缩

一些面向列的 DBMS（InfiniDB CE 和 MonetDB）不使用数据压缩。但是，数据压缩确实提高了性能。

3、磁盘存储的数据

许多面向列的 DBMS（SAP HANA 和 GooglePowerDrill）只能在内存中工作。但即使在数千台服务器上，内存也太小，无法在 Yandex.Metrica 中存储所有浏览量和会话。

4、多核并行处理

多核多节点并行化大型查询。

5、在多个服务器上分布式处理

在 ClickHouse 中，数据可以驻留在不同的分片上。每个分片都可以用于容错的一组副本，查询会在所有分片上并行处理。

6、SQL支持

ClickHouse SQL 跟真正的 SQL 有不一样的函数名称。不过语法基本跟 SQL 语法兼容，支持 JOIN、FROM、IN 和 JOIN 子句以及标量子查询支持子查询。

7、向量化引擎

数据不仅按列存储，而且由矢量 - 列的部分进行处理，这使开发者能够实现高 CPU 性能。

8、实时数据更新

ClickHouse 支持主键表。为了快速执行对主键范围的查询，数据使用合并树 (MergeTree) 进行递增排序。由于这个原因，数据可以不断地添加到表中。

9、支持近似计算

该库支持为有限数量的随机密钥（而不是所有密钥）运行聚合。在数据中密钥分发的特定条件下，这提供了相对准确的结果，同时使用较少的资源。

10、数据复制和对数据完整性的支持

ClickHouse 使用异步多主复制。写入任何可用的副本后，数据将分发到所有剩余的副本。系统在不同的副本上保持相同的数据。数据在失败后自动恢复。

2.3.2缺点

没有完整的事务支持，不支持Transaction：想快就别想Transaction
缺少完整的Update/Delete操作，缺少高频率、低延迟的修改或删除已存在数据的能力，仅能用于批量删除或修改数据。
聚合结果必须小于一台机器的内存大小：不是大问题
支持有限操作系统，正在慢慢完善
开源社区刚刚启动，主要是俄语为主，中文社区：http://www.clickhouse.com.cn
不适合key-value存储，不支持 Blob 等文档型数据库

3.安装与启动

3.1安装

3.1.1在线安装

yum install yum-utils -y

rpm --import https://repo.clickhouse.tech/CLICKHOUSE-KEY.GPG

yum-config-manager --add-repo https://repo.clickhouse.tech/rpm/clickhouse.repo

yum install clickhouse-server clickhouse-client -y

3.1.2离线安装

下载地址：https://repo.yandex.ru/clickhouse/rpm/stable/x86_64/ https://packagecloud.io/Altinity/clickhouse

安装顺序：

rpm -ivh clickhouse-common-static-20.5.4.40-1.el7.x86_64.rpm

rpm -ivh clickhouse-server-common-20.5.4.40-1.el7.x86_64.rpm

rpm -ivh clickhouse-server-20.5.4.40-1.el7.x86_64.rpm

rpm -ivh clickhouse-client-20.5.4.40-1.el7.x86_64.rpm

注意：就算配置成集群了，每个服务器依然还是单独运行的。

安装的成功的核心目录

（1）/etc/clickhouse-server：服务端的配置文件目录，包括全局配置config.xml和用户配置users.xml等。

（2）/var/lib/clickhouse：默认数据存储目录，通常会修改默认路径配置，将数据保存到大容量磁盘挂载路径

（3）/var/log/clickhouse-server：默认日志保存目录，通常会修改路径配置将日志保存到大容量磁盘挂载的路径

可执行文件

clickhouse：主程序的可执行文件。
clickhouse-client：一个指向ClickHouse可执行文件的软链接，供客户端连接使用。
clickhouse-server：一个指向ClickHouse可执行文件的软链接，供服务端启动使用。
clickhouse-compressor：内置提供的压缩工具，可用于数据的正压反解。

3.2启动

3.2.1单机启动

前台启动：clickhouse-server --config-file=/etc/clickhouse-server/config.xml

后台启动：nohup clickhouse-server --config-file=/etc/clickhouse-server/config.xml 1>~/logs/clickhouse_std.log 2>~/logs/clickhouse_err.log &

进程查看：ps -aux | grep clickhouse 、netstat -nltp | grep clickhouse

如果报错：

解决方案：修改安装目录的权限！，默认使用clickhouse用户！命令为：

cd /var/lib/、chown -R root:root clickhouse

客户端启动：clickhouse-client --port 端口号。在/etc/clickhouse-server/config.xml中的9977

3.2.2集群启动

1.添加配置文件/etc/metrika.xml。分发到CK所在的服务器。如下所示：


	
		
		
			
				
				true
				
					hadoop1
					9977
				
			
			
				
				true
					hadoop2
					9977
				
			
			
				true
				
					hadoop3
					9977
				
			
		
	

	
	
		
			hadoop1
			2181
		
		
			hadoop2
			2181
		
		
			hadoop3
			2181
		
	

	
	
		hadoop2
	

	
		::/0
	

	
	
		
			10000000000
			0.01
			lz4

注意其中标签，不同服务器上的配置不一样。


        01  
		rep_1_1

手动创建可以直接被使用。这个是因为/etc/clickhouse-server/config.xml该配置文件有默认指定/etc/metrika.xml。如下，如果有需要修改，可添加：...来手动指定路径。

启动服务后，发现指定的集群无效，需要在/etc/clickhouse-server/config.xml文件中指定如下：

启动zookeeper与CK服务端，可参照上面的检查启动是否OK：

zkServer.sh start

nohup clickhouse-server --config-file=/etc/clickhouse-server/config.xml 1>~/logs/clickhouse_std.log 2>~/logs/clickhouse_err.log &

2.客户端连接：

clickhouse-client --host hadoop1 --port 9977 -m --user=bigdata --password=bigdata

-m如果设定，允许多行查询。

注意集群的使用：

如果创建了一张表，这张表的引擎是分布式的引擎，那么这个表所存储在那个集群里面的机器，就是一个集群了。每个clickhouse中的部分表是单机的，部分表是分布式的。

普通建表语句都是单机的。创建分布式才会在所有节点都可以显示。

create database if not exists mydb on cluster perftest_3shards_1replicas

3.设置连接用户名密码：vim /etc/clickhouse-server/users.xml 复制到所有节点


 bigdata
 
  ::/0
 
 default
 default

4.卸载 clickhouse

查询是否安装 clickhouse：rpm -qa | grep clickhouse
卸载 clickhouse：rpm -e clickhouse-client-20.5.4.40-2.noarch --nodeps、rpm -e clickhouse-server-20.5.4.40-2.noarch --nodeps、rpm -e clickhouse-common-static-20.5.4.40-2.x86_64 --nodeps
删除数据目录：rm -rf /var/lib/clickhouse
删除集群配置文件：rm -rf /etc/metrika.xml
删除配置文件：rm -rf /etc/clickhouse-*
删除日志文件：rm -rf /var/log/clickhouse-server
删除 zookeeper 上 clickhouse 的数据：rmr /clickhouse
也可以进行全局寻找：然后执行删除操作：find / -name 'clickhouse'

5.ClickHouse一些信息总结

配置文件路径：/etc/clickhouse-server/config.xml
日志文件路径：/var/log/clickhouse-server/
建表信息路径：/var/lib/clickhouse/metadata/
表数据路径：/var/lib/clickhouse/data/

你可能感兴趣的:(#,ClickHouse,架构,数据挖掘,数据分析)

ARM架构下的JDK 8安装包及部署指南：为您的开发环境加速平稳炜
ARM架构下的JDK8安装包及部署指南：为您的开发环境加速项目地址:https://gitcode.com/open-source-toolkit/8c506项目介绍在ARM架构的设备上，如树莓派等，搭建Java开发环境可能是一项挑战。为了简化这一过程，我们推出了ARM架构专属的JDK8安装包及部署指南。本项目提供了一个关键的软件资源——jdk-8u391-linux-aarch64.tar，专门
LLama 架构一览 Debroon llama
LLama架构一览预训练Transformer架构RMSNorm归一化：为什么大模型llama选RMSNorm，而不是其他？SwiGLU激活函数：为什么大模型llama选SwiGLU激活函数，而不是其他？RoPE旋转位置编码：为什么大模型llama选RoPE旋转位置编码，而不是其他？GQA分组查询注意力：为什么大模型llama选GQA分组查询注意力，而不是其他？KVCache推理加速llama、l
上海家化新掌舵人押注兴趣电商：内部架构大变革，三季报业绩仍降港湾商业观察用户运营
《港湾商业观察》杨忆宋10月29日，上海家化（600315.SH）公布了2024年第三季度业绩报告。上海家化拥有125年的品牌历史，是中国第一家上市的美妆日化企业，旗下品牌包括六神、佰草集、典萃、玉泽、双妹、高夫、家安、美加净、启初和汤美星。长期以来，上海家化一直是国货美妆行业的领跑者。然而，近年来公司业绩却每况愈下。2024年前三季度，公司营收和净利润双双下滑，第三季度，归属净利润更是出现上市以
使用腾讯云AI代码助手快速实现一个办公AI助手星释编程实践腾讯云AI代码助手
使用腾讯云AI代码助手快速实现一个办公AI助手作品简介这是一个基于Vue.js和TDesign的AI聊天演示项目，旨在为用户提供便捷的办公交流体验。技术架构本项目采用了前端框架Vue.js结合TDesign组件库进行开发，同时集成了相关的AI聊天功能模块。实现过程开发环境、开发流程开发环境：Node.js版本v18+开发流程：克隆项目代码。在项目根目录下运行npmi安装依赖。运行npmrundev
程序员如何培养技术领导力？借雨醉东风管理及面试心得职场和发展
关注我，持续分享逻辑思维&管理思维&面试题；可提供大厂面试辅导、及定制化求职/在职/管理/架构辅导；推荐专栏《10天学会使用asp.net编程AI大模型》，目前已完成所有内容。一顿烧烤不到的费用，让人能紧跟时代的浪潮。从普通网站，到公众号、小程序，再到AI大模型网站。干货满满。学成后可接项目赚外快，绝对划算。不仅学会如何编程，还将学会如何将AI技术应用到实际问题中，为您的职业生涯增添一笔宝贵的财富
Python 操作 Elasticsearch 全指南：从连接到数据查询与处理 XMYX-0 python elasticsearch jenkins
文章目录Python操作Elasticsearch全指南：从连接到数据查询与处理引言安装`elasticsearch-py`连接到Elasticsearch创建索引插入数据查询数据1.简单查询2.布尔查询更新文档删除文档和索引删除文档删除索引批量插入数据处理分页结果总结Python操作Elasticsearch全指南：从连接到数据查询与处理引言在大数据分析与搜索应用中，Elasticsearch是
利用Amazon S3实现灾备和多区域部署：多活全面解决方案 ivwdcwso 运维灾备云计算 aws s3 高可用
1.引言在现代云计算环境中，实现高可用性和灾难恢复是至关重要的。AmazonS3作为一种可靠的对象存储服务，为构建多活（Multi-Active）架构提供了强大支持。本文将详细探讨如何利用AmazonS3实现灾备和多区域部署的多活全面解决方案。2.多活架构概述多活架构是一种高可用性设计，其中多个区域或数据中心同时处理请求，而不是传统的主备模式。这种架构可以提供：更高的可用性更好的性能和低延迟imp
如何建设和维护数据仓库：深入指南数据库数据库开发
摘要数据仓库是企业数据管理的核心，它不仅支持决策制定，还能提供深入的数据分析。本文将详细介绍如何从零开始建设和维护一个高效、可靠的数据仓库，涵盖设计、实施、监控和优化的全过程。通过具体的代码示例和最佳实践，帮助读者深入理解数据仓库的构建和管理。引言数据仓库是企业数据管理的心脏，它集中存储和管理来自不同来源的数据，支持复杂的查询和分析。随着数据量的爆炸性增长，如何高效地建设和维护数据仓库成为企业面临
深入理解GPT底层原理--从n-gram到RNN到LSTM/GRU到Transformer/GPT的进化网络安全研发随想 rnn gpt lstm
从简单的RNN到复杂的LSTM/GRU,再到引入注意力机制,研究者们一直在努力解决序列建模的核心问题。每一步的进展都为下一步的突破奠定了基础,最终孕育出了革命性的Transformer架构和GPT大模型。1.从n-gram到循环神经网络(RNN)的诞生1.1N-gram模型在深度学习兴起之前,处理序列数据主要依靠统计方法,如n-gram模型。N-gram是一种基于统计的语言模型,它的核心思想是:一
Transformer入门（1）transformer及其编码器-解码器通信仿真实验室 Google BERT 构建和训练NLP模型 bert transformer 人工智能 NLP 自然语言处理
文章目录1.Transformer简介2.Transformer的编码器-解码器架构3.transformer的编码器1.Transformer简介Transformer模型是一种用于自然语言处理的机器学习模型，它在2017年由Google的研究者提出，并在论文《AttentionisAllYouNeed》中详细描述。Transformer模型的核心创新在于其采用了自注意力（self-attent
Grape-RAG disgare AI ai
Grape-RAG传统RAG的局限性图的优点用知识图谱来呈现数据关系GraphRAG传统RAG的局限性经典的RAG架构以向量数据库（VectorDB）为核心来检索语义相似性上下文，让大语言模型（LLM）不需要重新训练就能够获取最新的知识，其工作流如下图所示：这一架构目前广泛应用于各类AI业务场景中，例如问答机器人、智能客服、私域知识库检索等等。虽然RAG通过知识增强一定程度上缓解了LLM幻觉问题，
分布式资源管理和调度架构 johnny233 架构架构
概述不管是计算任务还是数据存储都会涉及资源分配，资源包括但不限于硬件资源如CPU、内存、硬盘、网口。在单机环境中，资源管理相对简单；分布式环境中，资源分布相对分散，如何协调资源应对计算任务和数据存储就是亟待解决的问题。资源管理和调度是将计算任务分配到资源的过程，为了处理并发的计算任务，系统会通过集群的方式组织资源。集群中的资源可以按照服务器或者虚拟机的方式划分。注：本文是《分布式架构原理与实践》的
【Elasticsearch 】聚合分析：聚合概述程风破～ Elasticsearch elasticsearch 大数据搜索引擎
博主简介：CSDN博客专家，历代文学网（PC端可以访问：https://literature.sinhy.com/#/?__c=1000，移动端可微信小程序搜索“历代文学”）总架构师，15年工作经验，精通Java编程，高并发设计，Springboot和微服务，熟悉Linux，ESXI虚拟化以及云原生Docker和K8s，热衷于探索科技的边界，并将理论知识转化为实际应用。保持对新技术的好奇心，乐于分
Transformer架构原理详解：编码器（Encoder）和解码器（Decoder） AI大模型应用之禅 AI大模型与大数据 java python javascript kotlin golang 架构人工智能
Transformer,编码器,解码器,自注意力机制,多头注意力,位置编码,序列到序列,自然语言处理1.背景介绍近年来，深度学习在自然语言处理（NLP）领域取得了显著进展，其中Transformer架构扮演着至关重要的角色。自2017年谷歌发布了基于Transformer的机器翻译模型BERT以来，Transformer及其变体在各种NLP任务上取得了突破性的成果，例如文本分类、问答系统、文本摘要
用Python爬虫获取微博热搜词：数据抓取、分析与可视化全流程 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 selenium
引言微博作为中国最受欢迎的社交平台之一，每时每刻都在更新着海量的内容。其中，微博热搜词反映了用户关注的热点话题、社会事件及潮流趋势。对于数据分析、情感分析以及趋势预测等领域，获取微博热搜数据是一个非常有价值的任务。在本篇博客中，我们将详细介绍如何使用Python爬虫技术获取微博的热搜词，并进行数据分析和可视化。通过全流程的讲解，帮助你了解如何通过爬虫技术抓取并分析微博热搜词数据。一、爬虫技术概述与
MVC 架构学习笔记 disgare 架构 mvc 架构学习
MVC架构学习笔记Service与DAO层方法命名规约业务错误是用返回值来处理还是抛异常来处理Service与DAO层方法命名规约CRUD是指在做计算处理时的增加(Create)、读取查询(Retrieve)、更新(Update)和删除(Delete)几个单词的首字母简写。主要被用在描述软件系统中DataBase或者持久层的基本操作功能。对应这里的crud方法的命名，每个人有不同的实践。以下是阿里
微信 PC 版 4.0：新架构，新升级创意锦囊微信架构
探索微信PC版4.0：新架构带来的革命性升级微信在2023年底推出了PC客户端4.0测试版，引入了全新的QT+C++原生跨平台架构。这次架构重构标志着微信在桌面端从传统的WebView技术迈向更现代化、高性能的原生技术基础，带来了显著的功能升级和用户体验优化。从旧到新：架构大变革旧架构：WebView+JavaScript微信旧版PC客户端主要依赖WebView技术，通过HTML、CSS和Java
服务化架构 IM 系统之红包功能设计与实现棕生 IM系统服务化架构 IM系统服务化架构红包逻辑发红包抢红包拆红包
在IM系统中，“红包”是一种很常见的应用。在前面的文章（见《基于需求分析模型来结构化剖析IM系统》）中，我们曾分析过，“红包”属于扩展功能需求，“消息”属于基础功能需求，红包功能的实现需要基于消息功能的实现。在文章（见《分层架构IM系统之消息收发功能设计与实现》）中，我们深入分析过消息的收发流程；在IM的服务化架构中，消息收发逻辑与在分层架构中类似，见下图，我们快速回顾一下。图中箭头表示数据流向。
分层架构 IM 系统之消息收发功能设计与实现棕生 IM系统分层架构 IM系统分层架构消息收发生产消息阶段推送消息阶段确认消息阶段电话模型
“消息收发”是IM系统最最核心的业务逻辑模块，本篇文章是整个“分层架构IM系统”的核心！IM，即“即时通讯”，要求消息具备“及时性”和“可靠性”：及时性，要求消息的收发需要很低的延时，在线双方通过消息交流时，没有明显的滞后感。可靠性，要求消息不能丢失；对于消息发送方来说，只要消息发送成功了，消息就会一直存在服务端，不会丢失（除非因产品策略，删除久远的历史消息）；对于服务端来说，只要接收方在线，一定
分层架构 IM 系统之架构演进棕生 IM系统分层架构 IM系统分层架构业务分离 MQ解耦
在电商业务日活几百万的情况下，IM系统采用分层架构方式，如下图。分层架构的IM系统，整体上包含了【终端层】、【入口层】、【业务逻辑层】、【路由层】、【数据访问层】和【存储层】，我们在上篇文章（分层架构IM系统之架构解读）中进行了介绍。今天讨论局部的架构调整和演进！随着用户日活量的增多，业务规模也在逐步增大（即后端接口数量越来越大），而且业务逻辑也越来越复杂；为了引流，平台几乎每周都会做运营活动，此
思考（八十五）：IM 服务设计思路 fananchong2 Go游戏服务器开发的一些思考 IM 服务架构设计聊天服后端
IM服务器IM服务器，在游戏开发中，俗称聊天服一般有内嵌在游戏服架构内，与外置于游戏服架构外外置于游戏服架构外的聊天服，通常就是完整的IM服务器设计目标消息可靠，不丢失无状态，易扩展高性能服务类型介绍设计以下服务：服务类型说明Gateway网关，保持玩家连接APIAPI服，HTTPWeb服务，处理除聊天流程外的逻辑，如注册账号、鉴权、好友管理、群组管理等等Single单聊消息处理服务Group群组
mybatis架构原理章绍龙 java基础
1、mybatis配置SqlMapConfig.xml，此文件作为mybatis的全局配置文件，配置了mybatis的运行环境等信息。mapper.xml文件即sql映射文件，文件中配置了操作数据库的sql语句。此文件需要在SqlMapConfig.xml中加载。SqlMapConfig.xml是mybatis的核心文件。mybatis将dao层与sql语句分离开来，虽然写的时候分离开来了，但是执
Docker的原理：如何理解容器技术的力量思维导图-java架构用心去追梦大数据 java storm
要理解Docker的原理以及容器技术的力量，可以通过一个思维导图来帮助整理和展示信息。以下是一个基于文本的思维导图结构，用于说明Docker和容器技术的关键概念，特别关注于Java架构师可能会感兴趣的部分：Docker与容器技术│├───基本概念│├───容器(Container)││└───是一个轻量级、可移植、自包含的软件包│├───镜像(Image)││└───包含应用程序及其所有依赖项的只
【人工智能 | 大数据】基于人工智能的大数据分析方法用心去追梦人工智能大数据数据分析
基于人工智能（AI）的大数据分析方法是指利用机器学习、深度学习和其他AI技术来分析和处理大规模数据集。这些方法能够自动识别模式、提取有用信息，并做出预测或决策，从而帮助企业和组织更好地理解市场趋势、客户行为以及其他关键因素。以下是几种主要的基于AI的大数据分析方法：机器学习模型：通过训练算法让计算机从历史数据中学习并做出预测或分类。常见的机器学习技术包括监督学习（如回归分析、支持向量机）、非监督学
hive电影数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示 + [手把手视频教程和开发文档] QQ-1305637939 毕业设计大数据毕设计算机毕业设计 hive spring boot 爬虫
hive电影数据分析Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示+[手把手视频教程和开发文档]【功能介绍】1.java爬取【豆瓣电影】网站中电影数据,保存为data.csv文件,数据量2万+2.data.csv上传到hadoop集群环境3.MR数据清洗data.csv4.Hive汇总处理,将Hive处理的结果数据保存到本地Mysql数据库中5.Springboot+Vu
hadoop电影数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示 + [手把手视频教程和开发文档] QQ-1305637939 计算机毕业设计毕业设计大数据毕设 hadoop spring boot 爬虫
全套视频教程全套开发文档hadoop电影数据分析系统Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示【Hadoop项目】1.java爬取【豆瓣电影】网站中电影数据,保存为data.csv文件,数据量2万+2.data.csv上传到hadoop集群环境3.data.csv数据清洗4.MR数据汇总处理,将Reduce的结果数据保存到本地Mysql数据库中5.Springboot
spark电影数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示 + [手把手视频教程和开发文档] QQ-1305637939 毕业设计大数据毕设计算机毕业设计 spark spring boot 爬虫大数据电影推荐电影分析
spark电影数据分析系统Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示+[手把手视频教程和开发文档【功能介绍】1.java爬取【豆瓣电影】网站中电影数据,保存为data.csv文件,数据量2万+2.data.csv上传到hadoop集群环境3.MR数据清洗data.csv4.Spark汇总处理,将Spark处理的结果数据保存到本地Mysql数据库中5.Springboo
hadoop图书数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫1万+数据大屏数据展示 + [手把手视频教程和开发文档] QQ-1305637939 毕业设计大数据毕设图书数据分析 hadoop spring boot 爬虫
hadoop图书数据分析系统Springboot协同过滤-余弦函数推荐系统爬虫1万+数据大屏数据展示+[手把手视频教程和开发文档]【亮点功能】1.Springboot+Vue+Element-UI+Mysql前后端分离2.Echarts图表统计数据,直观展示数据情况3.发表评论后，用户可以回复评论,回复的评论可以被再次回复,一级评论可以添加图片附件4.爬虫图书数据1万+5.推荐图书列表展示,推荐图
SpringCloud Alibaba：RocketMQ - 分布式消息中间件的最佳实践 mckim_ 笔记学习 spring cloud rocketmq
引言随着分布式系统和微服务架构的发展，消息队列作为异步通信的关键组件，其重要性日益凸显。RocketMQ作为一款高性能、高可靠的消息中间件，在处理海量消息方面表现卓越。本文将结合实际应用场景，全面介绍RocketMQ的基础知识、配置要点、高级特性以及性能监控的最佳实践。一、RocketMQ基础知识1.概述RocketMQ是由阿里巴巴开源的一款分布式消息中间件，以其高效、可靠、易用的特点著称。它支持
Mybatis框架蓝眸少年CY #SSM框架 mybatis
目录一、三层架构二、使用JDBC的缺陷三、快速入门1、概述2、解决的主要问题3、入门案例添加Maven坐标加入Maven插件编写Student实体类编写Dao接口StudentDao编写Dao接口Mapper映射文件StudentDao.xml创建MyBatis主配置文件创建测试类MyBatisTest配置日志功能insert操作（1）StudentDao接口中增加方法（2）StudentDao.
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他