bainianminguo

Hbase概念原理扫盲

一、Hbase简介

1、什么是Hbase

Hbase的原型是google的BigTable论文，收到了该论文思想的启发，目前作为hadoop的子项目来开发维护，用于支持结构化的数据存储。

Hbase是一个高可靠性（存储在hdfs上，有副本机制），高性能，面向列，非关系型的数据库（类似redis），可伸缩的分布式存储系统（因为是存储在hdfs上），利用hbase技术可在廉价PC server上搭建大规模结构化的数据库存储集群。

Hbase的目标是存储并处理大型的数据，更具体来说仅需使用普通的硬件，就能够处理由成千上万行和列所组成的大型数据。

Hbase是基于hdfs构建的分布式存储框架，但是Hbase在hdfs上实现随机的读写改，解决了hdfs不支持的东西

2、Hbase的特点

A、海量存储

B、列式存储

这里的列式存储其实说的是列族存储，Hbase是根据列族来存储数据的，列族下面可以有非常多的列，列族在创建表的时候必须指定

Hbase中的列和mysql的列不是一个东西，Hbase的列就是他的数据

C、极易扩展

Hbase的扩展性主要体现在两个方面，一个是基于上层的梳理能力的扩展（RegionServer，相当于datanode，处理读写请求），一个是基于存储的扩展（hdfs）

通过横向添加RegionServer的机器，进行水平扩展，提升Hbase上层的处理能力，提升Hbase服务更多的Region的能力。

备注：RegionServer的作用是管理Region）（类似mysql中的表的概念），承接客户端的读写请求的访问，这个后面会详细的介绍通过横向添加datanode的机器，进行存储层的扩容，提升Bhbase的存储能力和提升后端存储的读写能力

D、稀疏

稀疏主要是针对于hbase列的灵活性，在列族中，你可以指定任意多的列，在列数据为空的情况下，是不会占用存储空间的，这里和mysql等数据库不一样，mysql如果每个字段没有值，那这个字段的值为null，不为空，且会占用存储空间

3、Hbase的架构

Hbase的架构示意图如下

Hbase由HMaster和HRegionServer组成，HMaster的高可用也依赖于zk，类似于hdfs中的Namenode;

HRegionServer相当于hdfs中的datanode，实际处理读写请求的节点;

a、Zookeeper

HBase通过zk来做Hmaster的高可用，RegionServer的监控，元数据的入口以及集群配置的维护等工作，具体工作入下

通过zk来保证集群中只有一个master在运行，如果master异常，会通过竞争机制产生新的master提供服务

通过zk来监控RegionServer的状态，当RegionServer有异常的时候，通过回调的形式通知master,RegionServer上下线的信息

通过zk存储元数据的统一入口地址；

b、HMaster

为RegionServer分配Region

维护集群的负载均衡，就是分配Region

维护集群的元数据信息

发现失效的Region，并将失效的Region分配到正常的RegionServer上

当RegionServer失效的时候，协调对应的Hlog和hdfs的block进行数据恢复

C、HRegionServer

HRegionServer直接对接用户的读写请求，是真正的干活的节点，他的功能概括如下

管理master为其分配的Region

处理来自客户端的读写请求

负责和底层hdfs的交互，存储数据到hdfs中

负责Region变大后的拆分

负责Storefile的合并工作

D、HDFS

Hdfs为hbase提供最终的底层数据存储服务

提供元数据和表数据的底层分布式存储服务

数据的多副本，保证高可靠和高可用

E、Hlog

一个HRegionServer中只有一个Hlog，Hlog相当于hdfs中的edits文件，保存Hbase的修改记录，当对Hbase写数据的时候，数据不是直接写进磁盘，他会在内存中保留一段时间（时间i将数据量的阈值可以设定）。但把数据保存在内存中可能有更高的概率引起数据丢失，为了解决这个问题，数据会先写在一个叫做Hlog的文件中，Hlog存储在磁盘上，也位于hdfs上，然后在写入内存，所以在系统出现故障或者内存丢失的时候，数据可以通过这个日志文件进行重建

F、Region

Region相当于mysql中的表，一个HRegionServer可以有多个Region，一个HRegionServer会有多个Region；如果表的数据太大，会进行拆分，按照数据量平均切分，所有HBase中的一张表会对应一个或者多个Region，当表的内容很小，一张表就对应一个Region，如果表很大的话，则这个Region会切分，切分Region会同时拆分这个Region的所有Store。

G、Store

Store相当于列族，通俗的讲就是列的家族，在hbase中，想创建一个列，必须要指定列族，也就是一个列必须属于某个列族。一个表中可以有多个列族，一个store对应一个列族，hbase官方不建议多个列族，一个列族就可以搞上百个列，足够用了。但是如果一个HRegion被切分的话，是切分列族，所以就算一个HRegion只有一个列表，切分后一个Region也会对应多个Store，多个strore会被分配到其他的HRegionServer节点进行存储

H、MemStore

MemStore就是列族中的数据放在内存中，写数据来了，会写到内存中，只要内存写入成功，则就返回。

I、StoreFile

StoreFile，数据放在内存不安全，而且有大小限制，所以需要把内存中的数据写到磁盘中，以Hfile的格式存储在hdfs上。每次memstore刷一次，形成一个storefile，所以storefile会很多，但是很小，因为内存本身就不大，后面storeFile也会合并，但是这个合并也仅仅是一个列族内部的StoreFile进行合并，不会跨列族合并的

J、HFile

这是磁盘上保存的原始数据的实际的物理文件，是实际的存储文件，storefile是以Hfile的形式存储在hdfs中

二、Hbase安装

1、首先要安装zk

2、然后要安装hdfs

3、最后在安装hbase

4、解压，修改配置文件

这里重点说下修改配置文件，前面的就不说了，因为我在实际使用过程中使用ambari工具来进行安装

首先修改hbase-env.sh

配置java的环境变量

export JAVA_HOME=/usr/lib/jvm/java

配置zk，Hbase也是强依赖于zookeeper的，是否要启用自己的zookeeper。如果用则为true，如果用外部的zookeeper，则为false

export HBASE_MANAGES_ZK=false

配置hbase-site.xml


      hbase.rootdir
      /apps/hbase/data

配置hbase是否启用集群

    
      hbase.cluster.distributed
      true

设置Hbase的服务的端口号，不是 web的端口号，web的端口号是16010

  
      hbase.master.info.port
      16010

    
      hbase.master.port
      16000

配置要连接的zk

   
      hbase.zookeeper.quorum
      abdi1,abdi2,abdi3

Zk存储数据的父目录，主要是为了区分多个hbase集群

    
      zookeeper.znode.parent
      /hbase-unsecure

配置regionservers文件

指定RegionServer的节点

由于hbase是强依赖于hdfs的，需要拷贝hdfs的配置文件到hbase的conf目录

我们一般情况会这样操作，创建一个软链接，链接到hdfs的core-site.xml和hdfs-site.xml中，就是让hbase知道我要连接哪个hadoop集群

但是在ambari安装的hbase的配置文件中没有找到相应的配置，但是在hbase启动的时候有加载hdfs的环境变量

启动hbase，可以看到有Hmaster和HRegionServer的java进程

ambari的web页面显示效果如下

注意：Hbase的Master和RegionServer安装是一样的，只是看我们是否要启动master

Hbase的web页面，采用16010端口

三、Hbase的简单shell操作

1、进入hbase shell

[root@abdi2 bin]# /usr/hdp/current/hbase-client/bin/hbase shell

2、查看当前有哪些表：list

hbase(main):003:0> list
TABLE                                                                                                                                                                                                                                                                         
0 row(s)
Took 0.2713 seconds                                                                                                                                                                                                                                                           
=> []
hbase(main):004:0>

3、创建表操作。这里的列族是必须要指定的，就是和mysql的列一样:create "student","info"

hbase(main):004:0> create "student","info"
Created table student
Took 1.3445 seconds                                                                                                                                                                                                                                                           
=> Hbase::Table - student
hbase(main):005:0> 
hbase(main):006:0> list
TABLE                                                                                                                                                                                                                                                                         
student                                                                                                                                                                                                                                                                       
1 row(s)
Took 0.0055 seconds                                                                                                                                                                                                                                                           
=> ["student"]

4、插入数据。Hbase中的数据没有什么类型，比如字符串，hash等，全部是字节:put "student","1001","info:name","laowang"

hbase(main):007:0> put "student","1001","info:name","laowang"
Took 0.1217 seconds                                                                                                                                                                                                                                                           
hbase(main):008:0> put "student","1001","info:age","18"
Took 0.0038 seconds                                                                                                                                                                                                                                                           
hbase(main):009:0> put "student","1001","info:sex","male"
Took 0.0049 seconds                                                                                                                                                                                                                                                           
hbase(main):010:0> put "student","1002","info:name","laoluo"
Took 0.0036 seconds                                                                                                                                                                                                                                                           
hbase(main):011:0> put "student","1002","info:age","20"
Took 0.0035 seconds

5、扫描查看数据：scan “student”

6、扫描查看数据，指定起始和截止Rowkey，前闭后开

7、查看指定Rowkey

8、查看指定行的指定列

9、更新数据

10、查看表结构

重点关注列族和版本即可，这里的版本是个数的意思，就一条数据存储几个版本

11、修改列族的版本信息

多更新几次数据

可以查看到有多个版本，这里的意思查看3个版本的数据，所以有三条，下面的命令是查看2个版本的数据，所以有两条

12、删除操作

删除某个Rowkey的指定列，可以看到其他列的数据还在，删除还可以指定时间戳，该时间戳之前的数据都会被删除

删除Rowkey对应的所有数据

13、统计条数

统计条数，Rowkey有几个，条数就有几条

14、清空表

15、删除表

16、命名空间（namespace）操作

命令空间，相当于数据库中的database

所有的表都是命名空间的成员，如果不指定，则默认在default的命名空间中

命名空间可以设置权限，比如定义访问控制列表，例如创建表，读取表，删除，更新操作，权限用的很少

Shell命令查看namespace、创建namespace

Hbase就是存储元数据的命名空间，是系统自己用的，不能给用户使用

在指定命名空间下建表

四、Hbase的数据结构

1、Rowkey

Rowkey是用来检索记录的主键，访问Hbase table中的行，只有三种方式

A、通过单个Rowkey访问

B、通过Rowkey的range访问

C、全表扫描

设计Rowkey非常重要也是Hbase里最重要的一门学问，数据会按照Rowkey的字典序排序进行存储，所以设计Rowkey要利用这个特性，把经常一起读取的行存储在一起，学习Hbase，Rowkey设计是学习的重点

2、Column Family

列族，Hbase表中的每个列，都会属于某个列族，列族是表的结构的一部分，列族在建表的时候必须要指定。列名都是以列族做为前缀。

在创建表的时候需要指定列族，列族可以指定多个

3、Cell

由Rowkey，column Family：column，version唯一确定的单元，cell中的数据是没有类型的，全部都是字节的形式存储

4、Time Stamp

时间戳，每个cell都保存着同一份数据的多个版本，版本通过时间戳来索引。时间戳可以由系统生成，也可以自己指定。每个cell中，不同版本的数据按照时间倒序排列，即最新的数据在最前面

通过时间戳不同来确定版本的

五、Hbase的原理

Hbase的写比读还快

1、读流程，hmaster没有关系，hmaster挂掉后，不影响读流程

a、先获取meta表的位置，也就元数据这张表存储的位置

b、去meta表所在位置获取meta表的信息，meta表存储的内容大致入下

Student 0 ----10000 rs1

Student 100001---20000 rs2

Stff 0---10000 rs3

Stff 10000—200000 rs4

c、然后在去对应的regionserver获取对应的数据

d、获取数据，先去内存中获取，如果内存中没有，到blockcache中获取，如果blockcash没有，则去磁盘获取，这里为什么先去内存获取数据？

e、返回数据的时候，先把数据写到blockcache中，然后在返回给client

Meta表的位置

Zk上查看meta表的存储位置

查看meta表的内容

2、写流程，和Hmaster没有关系

a、client到zk获取meta表的位置

b、Zk返回meta表的位置

c、Zk去regionserver读取meta表的内容

d、Regionserver将meta表的内容返回

e、去对应的regionserver开始执行写操作，先写Hlog文件，然后写到memstore，成功后，立刻返回，写入流程完成

因为先写到内存中，那么什么时候会刷到硬盘中呢

a、Regionserver的使用的总内存达到堆内存的40%

b、满足一个小时的条件，会刷memstore到硬盘中

c、单个region里的所有的Memstore加起来达到128MB，则会刷memstore到硬盘中

这样就会有很多小文件刷到hdfs中，但是hdfs不适合存储很多的小文件

默认是7天做一次合并

超过7天合并storefile文件

超过3个storefile文件，会进行合并

这个是合并一个列族的的storefile，不同列族的storefile文件不会进行合并的

3、高可用

Hmaster是Active和standby模式

高可用配置

扫描查看数据

你可能感兴趣的:(Hbase概念原理扫盲)

Spark技术系列（三）：Spark算子全解析——从基础使用到高阶优化数据大包哥 #Spark spark 大数据分布式
Spark技术系列（三）：Spark算子全解析——从基础使用到高阶优化1.算子核心概念与分类体系1.1算子本质解析延迟执行机制：转换算子构建DAG，行动算子触发Job执行任务并行度：由RDD分区数决定（可通过spark.default.parallelism全局配置）执行位置优化：基于数据本地性的任务调度策略1.2官方分类标准
Spring 源码硬核解析系列专题（扩展篇）：Spring Batch 的恢复机制源码解析 yinlongfei_love spring batch java
在第九期中，我们深入探讨了SpringBatch的批处理流程，剖析了Job和Step的执行机制。在企业级应用中，批处理任务可能因异常（如数据库故障、网络中断）失败，如何从失败点恢复并继续执行，是SpringBatch的关键特性之一。本篇将聚焦SpringBatch的恢复机制，深入源码分析其实现原理，并补充相关图示。1.恢复机制的核心概念SpringBatch的恢复机制依赖以下组件：JobRepos
Java进阶——面向对象编程 1加1等于 Java java 开发语言 java面向对象
本篇文章，将深入探讨Java面向对象编程的关键知识点，并用一些例子展示这些概念的实际工作开发中的应用。本文目录一、三大特性1.封装2.继承3.多态二、类与对象1.对象创建2.构造方法3.静态成员三、访问控制修饰符四、方法相关1.方法签名2.final关键字3.可变参数五、对象生命周期六、高级特性1.接口和抽象类2.内部类3.枚举类七、对象关系1.组合2.聚合总结一、三大特性1.封装封装是指隐藏对象
必看系列：JAVA面试该怎么准备以及如何在面试过程中展示自己的技术能力 web13688565871 面试学习路线阿里巴巴 java 面试开发语言
准备JAVA面试是一个系统而全面的过程，旨在确保你熟悉JAVA的各个方面，并能够清晰地展示自己的技术能力。以下是一些关键的准备步骤和面试技巧：一、面试准备深入理解JAVA基础：熟悉JAVA的核心概念，如JVM、数据类型、运算符、流程控制、面向对象编程（类、对象、继承、封装、多态）等。理解JAVA的内存模型，包括堆、栈和方法区，以及垃圾收集器的工作原理。掌握JAVA核心技术：对JAVA集合框架（如L
学习计划：第四阶段（第九周）狐凄学习 python 前端
目录第四阶段：特殊方法与高级特性第9周：了解属性装饰器周一周二周三周四周五总结一、学习内容回顾二、问题与解决三、学习成果四、下周计划第四阶段：特殊方法与高级特性第9周：了解属性装饰器周一上午理论学习阅读Python官方文档及相关教程，了解属性装饰器的基本概念。明确属性装饰器是Python提供的一种语法糖，用于简化属性的访问控制逻辑，将方法伪装成属性，使代码更简洁、易读。学习属性装饰器与传统属性访问
Python 中元组、字典和集合：核心数据结构全解析 Z.向前 python 数据结构开发语言程序人生改行学it
在Python编程中，元组、字典和集合是三种非常重要的数据结构，它们各自具有独特的特点和用途，能够帮助我们更高效地存储、检索和操作数据。掌握它们的使用方法，可以让你的代码更加简洁、高效和灵活。本文将详细介绍元组、字典和集合的概念、特点及相关知识，并通过示例代码帮助你更好地理解和应用。一、元组：不可变的有序序列（一）什么是元组？元组（Tuple）是Python中的一种有序、不可变的序列类型，用于存储
算法干货 | 深入理解堆排序：Java 代码 + 复杂度分析扣丁梦想家常见算法解析算法开发语言排序算法 java 数据结构
1.引言堆排序（HeapSort）是一种基于堆（Heap）数据结构的排序算法，具有时间复杂度为O(nlogn)，且不需要额外的辅助空间（空间复杂度为O(1)）。它是一种不稳定排序，但在实际应用中仍然非常高效，尤其适用于需要大量数据排序的场景。在本教程中，我们将详细介绍堆排序的原理、算法步骤、实现代码（Java版）、复杂度分析，并探讨其应用场景。2.堆的基本概念堆是一棵完全二叉树，并满足以下特性：大
STM32 RTC实时时钟详解与HAL库实战教程 DOMINICHZL STM32 单片机 stm32
摘要：本文深入讲解STM32的RTC（Real-TimeClock）模块，涵盖原理分析、CubeMX配置、HAL库编程实现，并提供完整的闹钟设置与时间校准例程代码。通过本文，您将掌握RTC在低功耗场景下的核心应用技巧。1.RTC模块概述RTC（实时时钟）是STM32内部独立运行的定时器模块，主要特点：独立供电：通过VBAT引脚连接备用电池（3V纽扣电池）32位计数器：可记录秒级时间（配合预分频器）
Lucene硬核解析专题系列（三）：查询解析与执行 yinlongfei_love lucene mybatis 全文检索
Lucene的索引构建为高效搜索奠定了基础，而查询解析与执行则是将用户意图转化为实际结果的关键环节。本篇将从查询的解析开始，逐步深入到查询类型、评分模型和执行流程，揭示Lucene搜索能力的底层原理。一、查询语法与QueryParser的工作原理Lucene的查询过程始于用户输入的搜索字符串，例如“人工智能AND机器学习”。这一字符串需要被解析为Lucene能够理解的结构化对象。QueryPars
从零开始：Spring Boot核心概念与架构解析小筱在线 springboot spring boot 架构后端
引言在当今的Java开发领域，SpringBoot已经成为构建企业级应用的首选框架之一。它以其简洁、高效、易于上手的特点，极大地简化了Spring应用的开发过程。本文将从SpringBoot的核心概念入手，深入解析其架构设计和运行原理，帮助读者从零开始全面理解SpringBoot。一、SpringBoot简介1.1什么是SpringBoot？SpringBoot是由Pivotal团队提供的基于Sp
Python博客搭建入门教程带你玩遍北海道
本文还有配套的精品资源，点击获取简介：本项目可能是关于创建个人博客的教程，使用Python语言并可能结合Django或Flask框架。博客创建涉及到Web开发的多个重要概念和步骤，比如HTTP协议、数据库操作和用户认证等。适合初学者通过实践提升编程和Web开发技能，并逐步扩展项目功能。1.PythonWeb开发简介Python凭借其简洁的语法、强大的库支持和广泛的社区资源，已成为Web开发领域中备
后端-优秀文章 weixin_33985507 javascript 后端前端 ViewUI
理解事务-MySQL事务处理机制作者从概念到实践队MySQL的食物处理机制讲得特别详细。一个人搞定APP前后端开发使用react-native开发app，使用express开发后端。五大常见的MySQL高可用方案我们在考虑MySQL数据库的高可用的架构时，主要要考虑如下几方面：如果数据库发生了宕机或者意外中断等故障，能尽快恢复数据库的可用性，尽可能的减少停机时间，保证业务不会因为数据库的故障而中断
大数据经典技术解析：Hadoop+Spark大数据分析原理与实践 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介大数据时代已经来临。随着互联网、移动互联网、物联网等新兴技术的出现，海量数据开始涌现。而在这些海量数据的基础上进行有效的处理，成为迫切需要解决的问题之一。ApacheHadoop和ApacheSpark是目前主流开源大数据框架。由于其易于部署、高容错性、并行计算能力强、适应数据量大、可编程、社区支持广泛等特点，大大提升了大数据应用的效率和效果。本文通过对Hado
Java内存管理与性能优化实践向哆哆 Java入门到精通 java 性能优化 python
Java内存管理与性能优化实践Java作为一种广泛使用的编程语言，其内存管理和性能优化是开发者在日常工作中需要深入了解的重要内容。Java的内存管理机制借助于垃圾回收（GC）来自动处理内存的分配和释放，但要实现高效的内存管理和优化性能，开发者仍然需要深入理解Java的内存模型、垃圾回收机制以及常见的性能瓶颈。本文将详细探讨Java内存管理的基本原理，并通过实际的性能优化实践，帮助开发者在开发过程中
c++中深拷贝和浅拷贝的联系和区别已是上好佳 java jvm 开发语言
在C++编程里，深拷贝和浅拷贝是两种不同的对象复制方式，它们在实现方式、资源管理和适用场景等方面存在显著差异。下面为你详细介绍它们的区别。1.基本概念浅拷贝：浅拷贝仅仅复制对象的成员变量值。对于基本数据类型（如int、double等），会直接复制其值；而对于指针类型的成员变量，浅拷贝只是复制指针的值（即内存地址），这就导致多个对象会共享同一块内存空间。深拷贝：深拷贝不仅会复制对象的成员变量值，当遇
编译链接实战（2）静态库vs动态库--概念及制作方法奇妙之二进制 #编译链接实战嵌入式/Linux linux 编译链接 gcc
文章目录基础概念静态库制作动态库制作基础概念静态库-独立exe我们把所有相关源代码进行编译，链接，最后生成可执行文件，这个文件不依赖于其他模块，是一个完整的可执行单元。操作系统处理这类文件的流程是直接将elf的所有段拷贝到内存中，然后将PC指针指向entry就可以运行了，什么场景下会这样使用呢？简单的应用程序，不依赖于其他模块依赖于其他模块，其他模块以静态库的方式链接到应用程序优点：程序是一个完整
C++STL之散列表 Cold_Sun_ C++C++STL
散列表（哈希表）是普通数组概念的推广。在散列表中，不是直接把关键字作为数组的下标，而是根据关键字计算出相应的下标。一个散列表中重要的是他的散列函数以及解决冲突的方法。这里试着自己模仿网上STL中hash表的实现写了一个，记在这里以便以后查看。这里散列函数选择的是除法散列法，解决冲突的方法选用的是链接法，表基于vector实现。代码如下：//hashtable.h#ifndefHASHTABLE_H
电动智能充气泵方案【天吉智芯】天吉智芯充气泵无刷电动充气泵一体机单片机嵌入式硬件
智能充气泵是一种常见的充气工具，它在我们的日常生活中扮演着重要的角色。它主要用于给车辆、自行车、橡皮艇、游泳圈等充气，方便人们在各种场合使用。它简单方便的操作，快速高效的充气速度，以及便携的设计，让我们能够在各种场合迅速充气。当然，我们在使用智能充气泵时也需要注意安全，遵循正确的操作步骤，以确保充气过程的顺利进行。智能充气泵的原理是利用机械或电动力量将气体压缩，使其体积减小，压力增大，从而达到充气
【电动充气泵方案设计解析】【天吉智芯方案】天吉智芯单片机嵌入式硬件
汽车轮胎充气泵，车用打气泵又叫充气机、打气机、车载充气泵，通过内部马达的运转来工作。抽气时，连通器的阀门被大气的气压冲开，气体进入气筒，而向轮胎中打气时，阀门又被气筒内的气压关闭，气体就进入了轮胎中，也算是使用了大气压的原理来同汽车、皮球、橡皮船充气。汽车打气泵方案‌主要包括以下几个关键部分：电源管理模块、电机驱动模块、气压检测模块和用户接口模块。这些模块共同协作，确保打气泵的正常运行和高效工作。
自然语言处理：文本表示梦丶晓羽 python Glove Word2Vec TF-IDF 自然语言处理人工智能
介绍大家好，博主又来给大家分享知识了。今天给大家分享的内容是自然语言处理中的文本表示。在当今数字化信息爆炸的时代，自然语言处理作为人工智能领域的重要分支，发挥着越来越关键的作用。而文本表示，则是自然语言处理的基石之一，它就像是一把神奇的钥匙，能够将人类丰富多样、充满语义的自然语言，转化为计算机可以理解和处理的形式。话不多说，我们直接进入正题。文本表示概念阐述在自然语言处理(NLP)中，文本表示是将
数据界的达克摩斯之剑----深入浅出带你理解网络爬虫(First) web18285997089 面试学习路线阿里巴巴爬虫
目录一.引言二.网络爬虫产生的背景三.爬虫背后的相关技术和原理1.插入URL的概念解析2.常见的几种URL格式四.网络爬虫的分类1.通用网络爬虫2.增量式网络爬虫3.DeepWeb爬虫一.引言网络爬虫是一种自动获取网页内容的程序或技术。它就像一只“小蜘蛛”，在互联网上爬行，抓取各种信息。想象一下，网络就像一张大网，上面有无数的网页，而爬虫就是在这张网上穿梭的“小虫子”。它可以根据预设的规则和目标，
【论文投稿】Python 网络爬虫：探秘网页数据抓取的奇妙世界 m0_74825172 面试学习路线阿里巴巴 python 爬虫 microsoft
目录前言一、Python——网络爬虫的绝佳拍档二、网络爬虫基础：揭开神秘面纱（一）工作原理：步步为营的数据狩猎（二）分类：各显神通的爬虫家族三、Python网络爬虫核心库深度剖析（一）requests：畅通无阻的网络交互（二）BeautifulSoup：解析网页的艺术大师（三）Scrapy：构建爬虫帝国的框架四、实战演练：从新手到高手的蜕变五、挑战与应对：在荆棘中前行六、结语：无限可能的爬虫之旅前
Python网络爬虫与数据采集实战——网络爬虫的基本流程 m0_51274464 面试学习路线阿里巴巴 python 爬虫开发语言
网络爬虫（WebScraper）是用于自动化地从互联网上抓取信息的程序。它广泛应用于搜索引擎、数据采集、市场分析等领域。本文将详细探讨网络爬虫的基本流程，包括URL提取、HTTP请求与响应、数据解析与存储，以及一个实际的爬虫示例。文章不仅关注基础概念，更会深入到实际开发中遇到的技术难点和最新的技术解决方案。1.URL提取URL提取是网络爬虫中最基础的步骤之一，爬虫首先需要从目标网站中提取出需要抓取
STM32超级终端RTC日历系统开发实战 | 零基础入门STM32第四十步触角01010001 STM32 stm32 单片机嵌入式硬件交互
主题内容教学目的/扩展视频RTC时钟的使用重点课程RTC时钟的原理，电路原理分析，固件库分析，驱动程序分析。在超级终端上显示时钟。做可修改的超级终端显示RTC的项目。师从洋桃电子，杜洋老师文章目录一、系统功能概述二、硬件系统架构2.1核心硬件组成2.2经典电路设计三、软件核心逻辑解析3.1主程序流程图3.2多任务处理机制四、RTC核心操作详解4.1时钟初始化流程4.2时间设置算法五、时间显示格式定
带缓冲I/O 和不带缓冲I/O的区别与联系 amoscykl 网络编程 C linux 缓冲 I/O
这里搜集从网上看到的一些言论，自认为还是比较靠谱的，有些不靠谱的根据自己的理解进行了修正。首先要明白不带缓冲的概念：所谓不带缓冲，并不是指内核不提供缓冲，而是只单纯的系统调用，不是函数库的调用。系统内核对磁盘的读写都会提供一个块缓冲（在有些地方也被称为内核高速缓存），当用write函数对其写数据时，直接调用系统调用，将数据写入到块缓冲进行排队，当块缓冲达到一定的量时，才会把数据写入磁盘。因此所谓的
1.1 Ubuntu 22.04上从源代码安装Odoo17 山上春 Odoo17学习 ubuntu linux 运维
在企业数字化转型的浪潮中，Odoo作为一款强大的开源企业资源规划（ERP）软件，备受关注。今天，我们将深入探讨如何在Ubuntu22.04操作系统上从源代码安装Odoo，并详细解释每个步骤背后的原理。一、前期准备1.系统选择建议使用LinuxUbuntu操作系统进行Odoo的安装。这是因为Odoo在其所有测试、调试和企业版安装中都使用该系统，而且大多数Odoo开发者也使用GNU/Linux发行版，
最短路算法（1）——floyd算法 _gxd_ 算法算法数据结构
本章将介绍原理及floyd的算法实现。最短路特点最短路的意思是给出若干条边，求两个点之间的最短路径。要注意的是顺序也很重要，i到j的最短路径不一定等于j到i的最短路径。最短路在不同的题目下要使用不同的算法，有的算法能处理负权边（或负环），有的不能。当然，每个算法的时间复杂度也不一样。floyd特点1.floyd可以求出任意两点之间的最短路。2.可以处理任何情况（如负边，负环）。3.时间复杂度为O(
如何利用serverless架构降低运维成本 AI天才研究院 ChatGPT AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
《如何利用serverless架构降低运维成本》关键词：Serverless架构、运维成本、FaaS、BaaS、成本模型、性能优化、项目实战摘要：Serverless架构正日益成为企业降低运维成本、提高开发效率的重要手段。本文将从Serverless架构的概述、核心概念详解、技术细节解析、数学模型应用以及实战应用等方面，全面探讨如何利用Serverless架构降低运维成本，为企业数字化转型升级提供
系统质量属性与架构评估 zhousenshan 软考-系统架构师架构
架构评估的重要概念系统架构风险：指架构设计中潜在的、存在问题的架构决策所带来的隐患。敏感点：指为了实现某种特定的质量属性，一个或多个构件所具有的特性。权衡点：指影响多个质量属性的特性，是多个质量属性的敏感点。风险点：可能引起风险的因素，可能导致一些问题。非风险点：如果某件事是可行的、可接受的，则为非风险点。系统架构风险如果业务逻辑的描述尚未达成共识，可能导致部分业务功能模块规则的矛盾，影响系统的可
ES 的分布式架构原理能说一下么（ES 是如何实现分布式的啊）？小新杂谈社后端面试 elasticsearch 分布式架构搜索引擎
面试题ES的分布式架构原理能说一下么（ES是如何实现分布式的啊）？面试官心理分析在搜索这块，lucene是最流行的搜索库。几年前业内一般都问，你了解lucene吗？你知道倒排索引的原理吗？现在早已经out了，因为现在很多项目都是直接用基于lucene的分布式搜索引擎——ElasticSearch，简称为ES。而现在分布式搜索基本已经成为大部分互联网行业的Java系统的标配，其中尤为流行的就是ES，
knob UI插件使用换个号韩国红果果 JavaScript jsonp knob
图形是用canvas绘制的 js代码 var paras = { max:800, min:100, skin:'tron',//button type thickness:.3,//button width width:'200',//define canvas width.,canvas height displayInput:'tr
Android+Jquery Mobile学习系列(5)-SQLite数据库白糖_ JQuery Mobile
目录导航 SQLite是轻量级的、嵌入式的、关系型数据库，目前已经在iPhone、Android等手机系统中使用,SQLite可移植性好，很容易使用，很小，高效而且可靠。因为Android已经集成了SQLite，所以开发人员无需引入任何JAR包，而且Android也针对SQLite封装了专属的API，调用起来非常快捷方便。我也是第一次接触S
impala-2.1.2-CDH5.3.2 dayutianfei impala
最近在整理impala编译的东西，简单记录几个要点：根据官网的信息（https://github.com/cloudera/Impala/wiki/How-to-build-Impala）： 1. 首次编译impala，推荐使用命令： ${IMPALA_HOME}/buildall.sh -skiptests -build_shared_libs -format 2.仅编译BE ${I
求二进制数中1的个数周凡杨 java 算法二进制
解法一：对于一个正整数如果是偶数，该数的二进制数的最后一位是 0 ，反之若是奇数，则该数的二进制数的最后一位是 1 。因此，可以考虑利用位移、判断奇偶来实现。 public int bitCount(int x){ int count = 0; while(x!=0){ if(x%2!=0){ /
spring中hibernate及事务配置 g21121 Hibernate
hibernate的sessionFactory配置：  <bean id="sessionFactory" class="org.springframework.orm.hibernate3.LocalSessionFactoryBean"> <
log4j.properties 使用 510888780 log4j
log4j.properties 使用一.参数意义说明输出级别的种类 ERROR、WARN、INFO、DEBUG ERROR 为严重错误主要是程序的错误 WARN 为一般警告，比如session丢失 INFO 为一般要显示的信息，比如登录登出 DEBUG 为程序的调试信息配置日志信息输出目的地 log4j.appender.appenderName = fully.qua
Spring mvc-jfreeChart柱图（2）布衣凌宇 jfreechart
上一篇中生成的图是静态的，这篇将按条件进行搜索，并统计成图表，左面为统计图，右面显示搜索出的结果。第一步：导包第二步；配置web.xml(上一篇有代码) 建BarRenderer类用于柱子颜色 import java.awt.Color; import java.awt.Paint; import org.jfree.chart.renderer.category.BarR
我的spring学习笔记14-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。 PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java
maven 之 cobertura 简单使用 antlove maven test unit cobertura report
1. 创建一个maven项目 2. 创建com.CoberturaStart.java package com; public class CoberturaStart { public void helloEveryone(){ System.out.println("=================================================
程序的执行顺序百合不是茶 JAVA执行顺序
刚在看java核心技术时发现对java的执行顺序不是很明白了,百度一下也没有找到适合自己的资料,所以就简单的回顾一下吧代码如下; 经典的程序执行面试题 //关于程序执行的顺序 //例如： //定义一个基类 public class A(){ public A(
设置session失效的几种方法 bijian1013 web.xml session失效监听器
在系统登录后，都会设置一个当前session失效的时间，以确保在用户长时间不与服务器交互，自动退出登录，销毁session。具体设置很简单，方法有三种：（1）在主页面或者公共页面中加入：session.setMaxInactiveInterval(900);参数900单位是秒，即在没有活动15分钟后，session将失效。这里要注意这个session设置的时间是根据服务器来计算的，而不是客户端。所
java jvm常用命令工具 bijian1013 java jvm
一.概述程序运行中经常会遇到各种问题，定位问题时通常需要综合各种信息，如系统日志、堆dump文件、线程dump文件、GC日志等。通过虚拟机监控和诊断工具可以帮忙我们快速获取、分析需要的数据，进而提高问题解决速度。本文将介绍虚拟机常用监控和问题诊断命令工具的使用方法，主要包含以下工具: &nbs
【Spring框架一】Spring常用注解之Autowired和Resource注解 bit1129 Spring常用注解
Spring自从2.0引入注解的方式取代XML配置的方式来做IOC之后，对Spring一些常用注解的含义行为一直处于比较模糊的状态，写几篇总结下Spring常用的注解。本篇包含的注解有如下几个： Autowired Resource Component Service Controller Transactional 根据它们的功能、目的，可以分为三组，Autow
mysql 操作遇到safe update mode问题 bitray update
我并不知道出现这个问题的实际原理,只是通过其他朋友的博客,文章得知的一个解决方案,目前先记录一个解决方法,未来要是真了解以后,还会继续补全. 在mysql5中有一个safe update mode,这个模式让sql操作更加安全,据说要求有where条件,防止全表更新操作.如果必须要进行全表操作,我们可以执行 SET
nginx_perl试用 ronin47 nginx_perl试用
因为空闲时间比较多，所以在CPAN上乱翻，看到了nginx_perl这个项目(原名Nginx::Engine)，现在托管在github.com上。地址见：https://github.com/zzzcpan/nginx-perl 这个模块的目的，是在nginx内置官方perl模块的基础上，实现一系列异步非阻塞的api。用connector/writer/reader完成类似proxy的功能（这里
java-63-在字符串中删除特定的字符 bylijinnan java
public class DeleteSpecificChars { /** * Q 63 在字符串中删除特定的字符 * 输入两个字符串，从第一字符串中删除第二个字符串中所有的字符。 * 例如，输入”They are students.”和”aeiou”，则删除之后的第一个字符串变成”Thy r stdnts.” */ public static voi
EffectiveJava--创建和销毁对象 ccii 创建和销毁对象
本章内容： 1. 考虑用静态工厂方法代替构造器 2. 遇到多个构造器参数时要考虑用构建器（Builder模式） 3. 用私有构造器或者枚举类型强化Singleton属性 4. 通过私有构造器强化不可实例化的能力 5. 避免创建不必要的对象 6. 消除过期的对象引用 7. 避免使用终结方法 1. 考虑用静态工厂方法代替构造器类可以通过
[宇宙时代]四边形理论与光速飞行 comsci
从四边形理论来推论为什么光子飞船必须获得星光信号才能够进行光速飞行？一组星体组成星座向空间辐射一组由复杂星光信号组成的辐射频带，按照四边形-频率假说一组频率就代表一个时空的入口那么这种由星光信号组成的辐射频带就代表由这些星体所控制的时空通道，该时空通道在三维空间的投影是一
ubuntu server下python脚本迁移数据 cywhoyi python Kettle pymysql cx_Oracle ubuntu server
因为是在Ubuntu下，所以安装python、pip、pymysql等都极其方便，sudo apt-get install pymysql，但是在安装cx_Oracle（连接oracle的模块）出现许多问题，查阅相关资料，发现这边文章能够帮我解决，希望大家少走点弯路。http://www.tbdazhe.com/archives/602 1.安装python 2.安装pip、pymysql
Ajax正确但是请求不到值解决方案 dashuaifu Ajax async
Ajax正确但是请求不到值解决方案解决方案：1 . async: false , 2. 设置延时执行js里的ajax或者延时后台java方法！！！！！！！例如： $.ajax({ &
windows安装配置php+memcached dcj3sjt126com PHP Install memcache
Windows下Memcached的安装配置方法 1、将第一个包解压放某个盘下面，比如在c:\memcached。 2、在终端（也即cmd命令界面）下输入 'c:\memcached\memcached.exe -d install' 安装。 3、再输入： 'c:\memcached\memcached.exe -d start' 启动。（需要注意的: 以后memcached将作为windo
iOS开发学习路径的一些建议 dcj3sjt126com ios
iOS论坛里有朋友要求回答帖子，帖子的标题是：想学IOS开发高阶一点的东西，从何开始，然后我吧啦吧啦回答写了很多。既然敲了那么多字，我就把我写的回复也贴到博客里来分享，希望能对大家有帮助。欢迎大家也到帖子里讨论和分享，地址：http://bbs.csdn.net/topics/390920759 下面是我回复的内容：结合自己情况聊下iOS学习建议，
Javascript闭包概念 fanfanlovey JavaScript 闭包
1.参考资料 http://www.jb51.net/article/24101.htm http://blog.csdn.net/yn49782026/article/details/8549462 2.内容概述要理解闭包，首先需要理解变量作用域问题内部函数可以饮用外面全局变量 var n=999; 　　functio
yum安装mysql5.6 haisheng mysql
1、安装http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm 2、yum install mysql 3、yum install mysql-server 4、vi /etc/my.cnf 添加character_set_server=utf8
po/bo/vo/dao/pojo的详介 IT_zhlp80 java BO VO DAO POJO po
JAVA几种对象的解释 PO:persistant object持久对象,可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作. VO:value object值对象。通常用于业务层之间的数据传递，和PO一样也是仅仅包含数据而已。但应是抽象出的业务对象,可
java设计模式 kerryg java 设计模式
设计模式的分类：一、设计模式总体分为三大类： 1、创建型模式（5种）：工厂方法模式，抽象工厂模式，单例模式，建造者模式，原型模式。 2、结构型模式（7种）：适配器模式，装饰器模式，代理模式，外观模式，桥接模式，组合模式，享元模式。 3、行为型模式（11种）：策略模式，模版方法模式，观察者模式，迭代子模式，责任链模式，命令模式，备忘录模式，状态模式，访问者
[1]CXF3.1整合Spring开发webservice——helloworld篇木头.java spring webservice CXF
Spring 版本3.2.10 CXF 版本3.1.1 项目采用MAVEN组织依赖jar 我这里是有parent的pom，为了简洁明了，我直接把所有的依赖都列一起了，所以都没version，反正上面已经写了版本 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="ht
Google 工程师亲授：菜鸟开发者一定要投资的十大目标 qindongliang1922 工作感悟人生
身为软件开发者，有什么是一定得投资的？ Google 软件工程师 Emanuel Saringan 整理了十项他认为必要的投资，第一项就是身体健康，英文与数学也都是必备能力吗？来看看他怎么说。（以下文字以作者第一人称撰写））你的健康无疑地，软件开发者是世界上最久坐不动的职业之一。每天连坐八到十六小时，休息时间只有一点点，绝对会让你的鲔鱼肚肆无忌惮的生长。肥胖容易扩大罹患其他疾病的风险，
linux打开最大文件数量1,048,576 tianzhihehe c linux
File descriptors are represented by the C int type. Not using a special type is often considered odd, but is, historically, the Unix way. Each Linux process has a maximum number of files th
java语言中PO、VO、DAO、BO、POJO几种对象的解释衞酆夼 java VO BO POJO po
PO:persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作。 BO:business object业务对象封装业务逻辑的java对象