大嘴吧Lucy

ClickHouse存储结构及索引详解

（公司同事新出炉的技术文，虽然除了字都认识外其他看不出个所以然，不妨碍我仰望大神们）

本文作者：擎创大飞哥

ClickHouse存储结构及索引详解

环境介绍

本文基于ClickHouse 20.8.5.45版本编写，操作系统使用的是CentOS 7.5，主要介绍MergeTree表引擎的存储结构以及索引过程，希望通过本文能够让大家对ClickHouse的底层有个更详细的了解。

创建表

创建语句

CREATE TABLE test_merge_tree ( `Id` UInt64, `Birthday` Date, `Name` String ) ENGINE = MergeTree() PARTITION BY toYYYYMM(Birthday) ORDER BY (Id, Name) SETTINGS index_granularity = 2

语句介绍

ENGINE，表引擎。ClickHouse支持很多种表引擎，本文主要讲解MergeTree，所以选用合并树。
PARTITION BY，分区键。用于指定数据以何种方式分区，合理使用分区可以有效减少查询时文件的扫描范围。
ORDER BY，排序键。用于指定数据以何种方式排序，默认情况下排序键和主键相同。
SETTINGS，配置。创建MergeTree Table时使用的配置，可选的配置有很多，这里只介绍index_granularity。index_granularity表示索引粒度，代表每隔多少行数据生成一条索引，默认值是8192。默认值需要的数据量很大，不方便本文展示数据文件，所以这里我把它调小了。

文件结构

刚刚创建的表只在数据目录下生成了一个名为test_merge_tree文件夹(具体路径为data/default/test_merge_tree)，并没有任何数据，接下来往该表里面插入一条数据，看看会生成哪些文件。
INSERT INTO test_merge_tree VALUES(1, '2000-02-01', 'Fly li')
在test_merge_tree目录下使用tree命令可以看到刚刚的那条命令生成了一个名为200002_1_1_0的文件夹。

分区目录命名规则

在介绍这些文件之前先介绍一下20000211_0这个目录的命名规则
PartitionId_MinBlockNum_MaxBlockNum_Level

PartitionId，分区Id。其值是由创建表时所指定的分区键决定的，由于我们创建表时使用的分区键为toYYYYMM(Birthday)，即生日的年月，而插入的Birthday为2000-02-01，所以其值为200002。
MinBlockNum、MaxBlockNum，最小最大数据块编号。其值在单张表内从1开始累加，每当新创建一个分区目录其值就会加1，且新创建的分区目录MinBlockNum和MaxBlockNum相等，只有当分区目录发生合并时其值才会不等。由于这是该表第一次插入数据，所以MinBlockNum和MaxBlockNum都为1。
Level，分区被合并的次数。level和MinBlockNum以及MaxBlockNum不同，它不是单张表内累加的，而是单张表中的单个分区内累加的。每当新创建一个分区目录其值均为0，只有当分区目录发生合并时其值才会大于0。

当分区发生合并时，新的分区目录名称命名规则将会在接下来介绍，这里不做详述。

文件介绍

存储结构

修改min_compress_block_size

在介绍这部分之前，需要先将min_compress_block_size配置改小，以方便分析mrk2和bin文件，其默认值为65535。
修改方法为在users.xml文件的profiles里面增加以下配置
24
修改完后重启clickhouse-server服务，然后再用以下命令查看是否修改成功

插入数据

刚刚已经插入了一条数据，但是那一条数据不具有代表性，所以这次决定多插入几条数据再来分析。
INSERT INTO test_merge_tree VALUES(3, '2000-02-03', 'Lisa'),(4, '2000-02-03', 'Lilei'),(6, '2000-02-08', 'Meimei'),(12, '2000-02-03', 'paker'),(31, '2000-02-07', 'vincent')
上面这条命令产生了个新的分区目录200002_2_2_0，此目录下的文件前面已经讲过，现在重点分析以下几个文件的存储格式

primary.idx

MergeTree表会按照主键字段生成primary.idx，用于加快表查询。前面创建表时使用的是(Id, Name)两个字段作为主键，所以每隔index_granularity行数据就会取(Id, Name)的值作为索引值，由于index_granularity被设置为2，所以每隔两行数据就会生成一个索引。也就是说会使用(3,'Lisa'), (6,'Meimei'), (31,'vincent')作为索引值。
这里我只介绍第一个索引(3,'Lisa')的存储格式，剩下的可以自己去梳理。Id是UInt64类型的，所以使用8字节来存储。从上图可以看出前8个字节为0x03，以小端模式来存储，接下来我们可以看到其它文件都是以小端模式来存储。Name是String类型，属于变长字段，所以会先使用1个字节来描述String的长度，由于Lisa的长度是4，所以第9个字节为0x04，再接下来就是Lisa的ASCII码。

Id.mrk2

mrk2文件格式比较固定，primary.idx文件中的每个索引在此文件中都有一个对应的Mark，Mark的格式如下图所示：

Offset in compressed file，8 Bytes，代表该标记指向的压缩数据块在bin文件中的偏移量。
Offset in decompressed block，8 Bytes，代表该标记指向的数据在解压数据块中的偏移量。
Rows count，8 Bytes，行数，通常情况下其等于index_granularity。

通过primary.idx中的索引寻找mrk2文件中对应的Mark非常简单，如果要寻找第n(从0开始)个index，则对应的Mark在mrk2文件中的偏移为n*24，从这个偏移处开始读取24 Bytes即可得到相应的Mark。

Id.bin

bin文件由若干个Block组成，由上图可知Id.bin文件中包含两个Block。每个Block主要由头部的Checksum以及若干个Granule组成，Block的格式如下图所示：

Checksum，16 Bytes，用于对后面的数据进行校验。
Compression algorithm，1 Byte，默认是LZ4，编号为0x82。
Compressed size，4 Bytes，其值等于Compression algorithm + Compressed size + Decompressed size + Compressed data的长度
Decompressed size，4 Bytes，数据解压缩后的长度。
Compressed data，压缩数据，长度为Compressed size - 9。

每个Block都会包含若干个Granule，具体有多少个Granule是由参数min_compress_block_size控制，每次Block中写完一个Granule的数据时，它会检查当前Block Size是否大于等于min_compress_block_size，如果满足则会把当前Block进行压缩然后写到磁盘中，不满足会继续等待下一个Granule。结合上面的INSERT语句，当插入第一个Granule(3, 4)时，数据的的size为16，由于16 < 24所以会等第二个Granule，当插入第二个Granule(6, 12)后数据的size为32，由于32 > 24所以会把(3, 4, 6, 12)压缩放到第一个Block里面。最后面的那个31由于是最后一条数据，就放到第二个Block里面。

partition.dat

partition.dat文件里面存放的是分区表达式的值，该分区表达式生成的值为200002，UInt32类型，转换成16进制就是0x00030d42。

minmax_Birthday.idx

minmax文件里面存放的是该分区里分区字段的最小最大值。分区字段Birthday的类型为Date，其底层由UInt16实现，存的是从1970年1月1号到现在所经过的天数。通过上面的INSERT语句我们可以知道Birthday的最小值为2000-02-03，最大值为2000-02-08。这两个时间转换成天数分别为10990和10995，再转换成16进制就是0x2aee和0x2af3。

分区合并

属于同一个分区的不同目录，ClickHouse会在分区目录创建后的一段时间自动进行合并，合并之后会生成一个全新的目录，以前老的分区目录不会立马删除，而是在合并后过一段时间再删除。新的分区目录名称遵循以下规则：

PartitionId，分区Id不变。
MinBlockNum，取该分区中最小的MinBlockNum。
MaxBlockNum，取该分区中最大的MaxBlockNum。
Level，取该分区中最大的Level值加1。

所以上面的两个分区目录200002_1_1_0和200002_2_2_0在过一段时间后最终会变成一个新的分区目录200002_1_2_1。由此可见如果你频繁插入数据会产生很多分区目录，在合并的时候会占用很多资源。所以最好一次插入很多条数据，尽量降低插入的频率。

索引过程

通过上面的介绍相信大家已经对ClickHouse的索引结构有所了解，接下来用一张图简要描述Id字段的索引过程。

其它列的索引过程类似，这里就不一一赘述了，有兴趣的朋友可以自己去研究。

总结

本文通过一个简单的例子来分析ClickHouse的存储结构，整个逻辑力求简洁明了，希望通过本文能够让喜欢ClickHouse的朋友对它的索引有个清晰的认识。

#ClickHouse# #存储结构#

你可能感兴趣的:(工程师实战,数据库,ClickHouse,攻略)

微信小程序的旅游服务助手景点酒店旅游规划的设计与实现 QQ1304979694 微信小程序旅游小程序
文章目录具体实现截图本项目支持的技术语言研究思路、方法和步骤本系统开发思路主要软件与实现手段系统可行性分析源码获取详细视频演示：文章底部获取博主联系方式！！！！java类核心代码部分展示微信小程序技术现状源码获取/详细视频演示具体实现截图本项目支持的技术语言前端开发框架:vue.js+uniapp数据库mysql版本不限微信开发者工具/hbuiderx数据库工具：Navicat/SQLyog等都可
从零开始学习 Go 语言九班长 Golang 学习 golang 后端开发语言 gin
Go语言（又称Golang）是由Google开发的一种静态强类型、编译型、并发型编程语言。它以其简洁的语法、高效的并发支持和强大的标准库而闻名，非常适合开发高性能的服务器端应用、分布式系统和云计算工具。本文将从零开始，详细介绍如何学习Go语言，涵盖基础语法、核心概念、并发编程、工具链和实战项目等内容。1.Go语言简介1.1Go语言的特点简洁易学：语法简洁，学习曲线平缓。高效编译：编译速度快，生成的
侯捷 C++ 课程学习笔记：深入掌握 C++ 高阶特性 —— 实践与心得分享清水白石008 C++学习笔记课程教程 c++学习笔记
侯捷C++课程学习笔记：深入掌握C++高阶特性——实践与心得分享自从开始接触侯捷C++系列精品课程以来，我对C++语言有了全新的认识与深入理解。这套课程不仅系统地梳理了C++的基础知识，更从实际案例中展示了许多高阶特性和工程实战技巧。作为一名长期从事C++开发的专业人士，我深深感受到侯捷老师讲解中那种由浅入深、逻辑严密的魅力，也正是这种教学风格让我在短时间内掌握了不少难以琢磨的知识点。今天，我将结
sql2019安装重启计算机失败,SQL SERVER 2019安装失败小蛋子儿哦
Detailedresults:Feature:全文和语义提取搜索Status:失败Reasonforfailure:该功能的某个依赖项出错，导致该功能的安装过程失败。NextStep:使用以下信息解决错误，卸载此功能，然后再次运行安装过程。Componentname:SQLServer数据库引擎服务实例功能Componenterrorcode:0x80004005Errordescription
FreeRTOS从入门到实战精通指南（一） niuTaylor RTOS学习与实战单片机嵌入式硬件 RTOS FREERTOS
FreeRTOS从入门到实战精通指南一、核心知识体系搭建1.FreeRTOS架构全景图硬件层FreeRTOS内核核心模块任务管理内存管理通信机制队列信号量事件组中断管理调度器二、关键概念深度解析1.抢占式调度vs中断特性抢占式调度中断触发机制软件触发（调度器决策）硬件触发（外设请求）响应速度微秒级（依赖任务切换时间）纳秒级（硬件直接响应）执行上下文任务上下文中断上下文典型应用场景任务优先级管理硬件
《代码拯救世界》可问可问春风重生之我来csdn写小说网络计算机小说网络安全
《代码拯救世界》第一章：神秘的黑客组织“全球多个银行系统遭受黑客攻击，资金被大量转移，损失高达数十亿美元……”新闻播报员的声音在办公室里回荡，小陈的手心已经捏出了汗。作为一名网络安全工程师，他知道这次攻击的严重性远超普通黑客行为。“老李，你看这个。”小陈把一份报告递给同事，“攻击手法非常专业，利用了多个零日漏洞（未被公开的漏洞），而且目标明确，显然是早有预谋。”老李推了推眼镜，眉头紧锁：“这不像普
Java面试宝典，kafka优先级队列 m0_57081324 程序员 java 经验分享面试
为什么要分库分表？首先回答一下为什么要分库分表，答案很简单：数据库出现性能瓶颈。用大白话来说就是数据库快扛不住了。数据库出现性能瓶颈，对外表现有几个方面：大量请求阻塞在高并发场景下，大量请求都需要操作数据库，导致连接数不够了，请求处于阻塞状态。SQL操作变慢如果数据库中存在一张上亿数据量的表，一条SQL没有命中索引会全表扫描，这个查询耗时会非常久。存储出现问题业务量剧增，单库数据量越来越大，给存储
探索数据库管理的新纪元：SQLAdmin - 易用的 SQLAlchemy 管理界面孔祯拓Belinda
探索数据库管理的新纪元：SQLAdmin-易用的SQLAlchemy管理界面sqladminSQLAlchemyAdminforFastAPIandStarlette项目地址:https://gitcode.com/gh_mirrors/sq/sqladmin项目简介在数据管理和Web开发的世界里，SQLAdmin是一个创新性的开源项目，它为SQLAlchemy模型提供了一个灵活且直观的后台管理界
Oracle证书靠谱吗？值得考吗？噗老师 Oracle认证 oracle 数据库
Oracle认证在数据库管理领域享有极高的声誉和价值，是许多专业人士职业生涯中的重要里程碑。那么，Oracle认证是否值得投入时间和精力去考取呢？这个问题的答案很大程度上取决于你的职业规划、个人兴趣和对未来的展望。首先，Oracle认证的价值还体现在其广泛的行业需求上。在金融、医疗、政府等多个行业中，对数据库管理和分析的依赖性日益增加，这导致了对Oracle专业人才的巨大需求。Oracle数据库在
python flask 使用教程快速搭建一个 Web 应用莫忘初心丶 python flask 前端
目录一、Flask简介二、Flask安装三、创建一个简单的Flask应用四、Flask路由与视图五、接收和处理用户输入六、模板引擎Jinja2七、Flask与数据库八、总结一、Flask简介Flask是一个轻量级的PythonWeb框架，旨在帮助开发者快速搭建Web应用。相比于Django等重量级框架，Flask更加简洁和灵活，非常适合用于小型Web项目的开发，甚至可以用于构建RESTfulAPI
Oracle OCP认证是否值得考？博睿谷IT99_ 数据库 oracle 开闭原则数据库
OracleOCP（OracleCertifiedProfessional）认证是数据库领域的传统权威认证，但随着云数据库和开源技术的崛起，其价值正面临分化。是否值得考取，需结合你的职业定位、行业需求及长期规划综合判断。以下是关键分析：一、什么情况下值得考？1.职业定位明确：扎根传统数据库领域适用人群：从事金融、电信、能源等传统行业的DBA（数据库管理员）；需维护Oracle旧版本（如11g/12
【MySQL基础-10】MySQL中的LENGTH()函数：用法详解与实例分析 AllenBright #MySQL mysql 数据库
在MySQL数据库中，LENGTH()函数是一个非常常用的字符串函数，用于计算字符串的字节长度。理解并掌握LENGTH()函数的用法，对于处理字符串数据、优化查询以及进行数据验证都非常有帮助。本文将详细介绍LENGTH()函数的用法，并通过实例演示其在实际中的应用。1.LENGTH()函数的基本语法LENGTH()函数的基本语法如下：LENGTH(str)str：要计算长度的字符串或字段。可以是字
MySQL的多租户和多云部署架构设计 vipfanxu mysql 数据库
引言MySQL是一种流行的关系型数据库管理系统，被广泛应用于大型企业和云计算环境中。随着云计算的兴起，多租户和多云部署的需求逐渐增加。本文将探讨MySQL在多租户和多云部署架构设计方面的考虑和实践。一、多租户部署架构设计多租户是指在一个系统中，通过虚拟化技术将多个租户隔离开来，每个租户都拥有自己的独立环境和资源。在MySQL的多租户部署架构设计中，需要考虑以下几个方面：数据库隔离、数据安全和性能优
麒麟服务器操作系统Redis部署手册太极淘麒麟操作系统管理工具服务器 redis 运维
软件简介Redis****介绍REmoteDIctionaryServer(Redis)是一个由SalvatoreSanfilippo写的key-value存储系统，是跨平台的非关系型数据库。Redis是一个开源的使用ANSIC语言编写、遵守BSD协议、支持网络、可基于内存、分布式、可选持久性的键值对(Key-Value)存储数据库，并提供多种语言的API。Redis通常被称为数据结构服务器，因为
达梦主备集群部署 sunny05296 数据库数据库达梦
DM数据守护（DataWatch）介绍DM数据守护（DataWatch）是一种集成化的高可用、高性能数据库解决方案，是数据库异地容灾的首选方案。达梦数据守护可快速恢复服务，只需数秒时间就可以将备库切换为主库对外提供数据库服务。DM数据守护提供多种解决方案，可以配置成实时主备、MPP主备、DMDSC主备或读写分离集群。实时主备由一个主库以及一个或者多个配置了实时（Realtime）归档的备库组成，其
麒麟服务器操作系统PostgreSQL环境部署手册太极淘麒麟操作系统管理工具 linux 服务器
软件简介PostgreSQL是一个免费的对象-关系数据库服务器(ORDBMS)，在灵活的BSD许可证下发行。ORDBMS（对象关系数据库系统）是面向对象技术与传统的关系数据库相结合的产物，查询处理是ORDBMS的重要组成部分，它的性能优劣将直接影响到DBMS的性能。软件环境操作系统环境操作系统版本操作系统架构银河麒麟服务器操作系统V10SP系列X86-64银河麒麟服务器操作系统V10SP系列ARM
查询、插入、更新、删除数据的SQL语句(SQLite) C++ 老炮儿的技术栈 sql c++算法笔记学习
以下以SQLite数据库为例，展示在C++中使用SQLite库来执行查询、插入、更新和删除数据的操作示例代码。首先确保你已经安装了SQLite库，并且在C++项目中包含了相关的头文件。#include#include#include//回调函数，用于查询结果处理staticintcallback(void*NotUsed,intargc,char**argv,char**azColName){fo
nebula graph传统使用Docker进行项目发版 boy快快长大解决问题合集 Nebula Graph数据库 docker java 容器
nebulagraph传统使用Docker进行项目发版1.nebulagraph服务2.搭建ES集群3.注意事项3.1图数据库的启动顺序3.2模糊查询失效1.nebulagraph服务1.在测试服务器中执行如下命令dockercommit85b6e2b8xxxxxx_nebula_es:1.0.0.2执行dockerimages之后能看到新的镜像xxx_nebula_es:1.0.0.2这里将测试
使用AI识别语音和B站视频并通过GPT生成思维导图思维导图gpt-4
AI脑图除了对文本、网页链接和文件生成思维导图外，现在也支持了对语音和B站视频的内容识别，并自动生成思维导图。语音生成思维导图直接发送语音：对AI脑图公众号直接发送语音（如使用语音说厦门三天两夜的旅行攻略），AI脑图会自动识别语音内容然后根据内容要求生成思维导图上传语音文件：支持多种音频格式，上传完成后AI脑图会识别音频内容，然后提炼内容关键信息、结构化梳理，并生成思维导图，同时也可以下载识别好的
使用AI识别语音和B站视频并通过GPT生成思维导图思维导图gpt-4
AI脑图除了对文本、网页链接和文件生成思维导图外，现在也支持了对语音和B站视频的内容识别，并自动生成思维导图。语音生成思维导图直接发送语音：对AI脑图公众号直接发送语音（如使用语音说厦门三天两夜的旅行攻略），AI脑图会自动识别语音内容然后根据内容要求生成思维导图上传语音文件：支持多种音频格式，上传完成后AI脑图会识别音频内容，然后提炼内容关键信息、结构化梳理，并生成思维导图，同时也可以下载识别好的
Python 数据分析实战：跨境电商行业发展解析萧十一郎@ python python 数据分析开发语言
目录一、案例背景二、代码实现2.1数据收集2.2数据探索性分析2.3数据清洗2.4数据分析2.4.1跨境电商消费者地域分布分析2.4.2跨境电商商品销售与价格关系分析2.4.3跨境电商行业未来发展预测三、主要的代码难点解析3.1数据收集3.2数据清洗-销售数据处理3.3数据分析-跨境电商消费者地域分布分析3.4数据分析-跨境电商商品销售与价格关系分析3.5数据可视化四、可能改进的代码4.1数据收集
用Python爬虫获取AliExpress商品信息：item_search API接口实战指南 JelenaAPI小小爬虫 Python API python 爬虫开发语言
引言在全球化电商的浪潮中，数据的力量不容小觑。对于电商分析师、市场研究者以及在线商家而言，能够快速获取商品信息是至关重要的。AliExpress作为全球知名的跨境电商平台，提供了丰富的商品数据。本文将介绍如何使用Python爬虫结合item_searchAPI接口，按关键字搜索并获取AliExpress上的商品信息。一、为什么选择Python爬虫Python因其简洁的语法和强大的库支持，成为编写爬
DMDDM文档数据库学习分享合作愉快：）数据库学习
达梦新云文档数据库（简称DMDDM），是一款由达梦公司独立研发的分布式原生文档数据库产品。一、关键特性1、高性能、高可用性：DMDDM文档数据库支持快速的数据读写操作，能够满足高性能应用的需求。支持主备集群和分布式集群部署方式，单个节点故障不影响整个系统的正常运行。提供DDM-Meta、DDM-Store和DDM-Engine三个核心组件，分别负责存储数据库元数据和集群调度、存储实际的数据库数据以
通过Bokeh实现大规模数据可视化的最佳实践【从静态图表到实时更新】步入烟尘算法指南信息可视化 Bokeh python
本文已收录于《Python超入门指南全册》本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学，从基础到精通不断进阶深入，后续还有实战项目，轻松应对面试，专栏订阅地址：https://blog.csdn.net/mrdeam/category_12647587.html优点：订阅限时19.9付费专栏，私信博主还可进入全栈VIP答疑群，作者优先解答机会（代码指导、远程服务），群里大佬众多可以
达梦数据库学习笔记 lwq979991632 数据库
达梦数据库学习资料一、操作系统安装1、配置信息CPU：4核心内存：4G网络：NAT2.安装包选择选择带GUI的服务器，勾选Java平台、KDE二、安装前准备1.数据库远程访问：关闭防火墙systemctlstopfirewalld（禁用）systemctldisablefirewalld(停止，关闭开机自启动)systemctlstatusfirewalld（查看状态）2.安装gcc包rpm-qa
达梦数据库学习之旅不是，哥们~ 数据库学习
一、开篇：走进达梦数据库的世界在当今数字化浪潮汹涌澎湃的时代，数据已然成为企业乃至国家发展的核心驱动力，而数据库作为数据存储、管理与高效运用的关键基础设施，其重要性不言而喻。达梦数据库，作为国产数据库领域的璀璨明珠，正凭借其卓越性能、高度可靠性以及强大的自主可控特性，在金融、电信、政务等诸多关键行业崭露头角，逐步打破国外数据库产品长期以来的垄断格局。对于广大技术爱好者与从业者而言，深入学习达梦数据
利用Pinecone和Hybrid Search实现高效向量检索 dgay_hua python
在当今数据驱动的世界中，快速准确的信息检索变得尤为重要。Pinecone作为一个功能强大的向量数据库，提供了广泛的功能，包括HybridSearch。本文将详细介绍如何使用Pinecone和HybridSearch构建高效的信息检索系统。1.技术背景介绍Pinecone是专为高效向量检索设计的数据库，可以处理高维数据。HybridSearch结合了密集向量和稀疏向量检索的优势，在提高检索准确性的同
抖音视频数据获取实战：从API调用到热门内容挖掘爱搞技术的猫猫 API 音视频
在短视频流量为王的时代，掌握抖音热门视频数据已成为内容运营、竞品分析及营销决策的关键。本文将手把手教你通过抖音开放平台API获取视频详情数据，并提供完整的代码实现及商业化应用思路。一、抖音API权限申请与核心接口抖音API需企业资质认证，个人开发者权限受限。以下是接入流程：企业开发者认证•登录开放平台，选择注册，提交信息等材料。•完成认证后，创建应用（如“视频数据分析工具”），获取ClientKe
【达梦数据库学习】数据库体系架构-逻辑结构理解合作愉快：）数据库数据库架构学习
1.1数据库和实例在有些情况下，数据库的概念包含的内容会很广泛。如在单独提到DM数据库时，可能指的是DM数据库产品，也有可能是正在运行的DM数据库实例，还可能是DM数据库运行中所需的一系列物理文件的集合等。但是，当同时出现DM数据库和实例时，DM数据库指的是磁盘上存放在DM数据库中的数据的集合，一般包括：数据文件、日志文件、控制文件以及临时数据文件等。实例一般是由一组正在运行的DM后台进程/线程以
Python 爬虫实战：社交媒体品牌反馈数据抓取与舆情分析西攻城狮北 python 爬虫媒体
一、引言在当今数字化时代，社交媒体已成为公众表达意见、分享信息的重要渠道。品牌的声誉和市场表现往往受到消费者在社交平台上的反馈和评价的影响，因此品牌舆情分析变得至关重要。本文将介绍如何使用爬虫技术爬取社交媒体上的品牌反馈数据，并通过数据分析技术，分析品牌的舆情动态。二、环境准备在开始之前，确保你的开发环境已经安装了以下必要的Python库：requests:用于发送HTTP请求。beautiful
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他