Vanessa_wanglu

01-HBASE的安装和物理模型

1.传统的关系型数据库

mysql

1. 开源【社区版】，收费版【企业版】

2.市场占有率最高特别是在web领域

3.安装及操作比oracle简单许多

4. 端口：3306

oracle

1. 实用环境比较严格

2.收费

3.08年收购了mysql

4.MariaDB--相当于是mysql的升级版

5.集群能力比mysql强 --- 10台

6.端口：1521

sqlserver

1.微软平台下的项目中使用

2.收费

3.端口：1433

2.nosql--非关系型数据库 （not only sql）

不支持sql语句（SQL99标准）

1.hbase 列存储数据库 -- 列家族：列簇/列族

2.MongoDB 文档型数据库 -- 爬虫项目中

3.redis 基于内存的键值对数据库

flume+kafka+sparkStreaming/storm+redis+机器学习/前端报表展示

4.Neo4J 图形结构数据库

什么时候选用nosql数据库：

1.当单表数据量过大，又不得不全表扫描，且不能进行分库分表，可以考虑使用nosql数据库

2.单表行上亿条时 --oracle 性能瓶颈

nosql数据库对事务的支持不佳：

事务：确认支付-》更新所买产品的库存量-》与支付平台的系统交互确认-》订单生成并保存到数据库 -》更新用户的订单库数据-》完成

3.hbase的应用场景：

1.直接接入业务在线查询使用：

借助hbase的强大的分布式查询系统及完善的检索机制，可以使客户从海量数据中快速的实时查询

1.电商订单

物流 --信息

2.快递物流公司的物理信息存储查询

3.大型社交网站数据

4.银行数据 -- 信用卡

5.电信公司

6.医疗、交通.............

2.大数据平台数据存储:

1.直接在线从hbase系统中获取数据进行需要分析

MapReduce、hive、spark可以直接从hbase中获取数据进行分析

2.离线分析平台的临时数据的存储

驴妈妈离线分析平台中的应用

3.作为实时数据展示的数据临时存储库

flume+kafka+sparkStreaming/storm+redis/hbase+前端报表展示

4.hbase的特点：

1.在生态系统中的位置 :hbase是构建在hdfs上

2.hbase源于谷歌的BigTable ，和hdfs结合使用

google的三大潮流：GFS MapReduce BigTable --- HBASE的前身

3.为海量数据提供检索和存储平台

4.基于【列存储】的分布式nosql数据库

列存储和行存储：

1.RDBMS都是基于行存储：

每行的数据是一个连续的存储单元

每行的数据被保存在一起，插入数据或更新数据更简单

如果select时只涉及到几个字段，行所有的数据都会被加载，系统io加大

2.Hbase列存储：

每列的数据被保存在一起

每列数据是一个连续的存储单元，插入数据或更新数据比较麻烦

如果select时只涉及到几个字段，只有涉及的列才会被系统加载读取，系统io大大减小

以列为单位进行存储，每列数据类型相同，更容易实现压缩和存储，数据更加安全

5.合适【结构化】和【非结构化】数据的存储

针对日志的类型进行讲解：

结构化的日志每条日志的字段数量和种类固定；

非结构化的日志每条日志的字段数量和种类可能不一样；

各种文档、图片、视频也都是属于非结构化数据；

6. 基于key-value形式存储的数据库

1.key：rowkey+列簇+列+时间戳 -> vlaue

2.高可用性、高性能、可伸缩的分布式数据库

高可用性、可伸缩：基于hdfs

高性能：对比RDBMS，hbase是大规模的高并发的分布式数据库；

借助强大的搜索引擎，可以快速的从海量数据中检索数据。

结构化的日志数据例如： Apache的访问日志

访问ip 时间资源 http状态访问流量

101.81.13.86 2017-1019 Get xx 200 98kb

101.81.13.88 2017-1019 Get xx 200 98kb

非结构化的日志数据例如：用户行为日志数据

日志类型 uuid umid 时间浏览器

pv 001 110 15xxx Chrome

日志类型 uuid umid 时间浏览器订单id 金额支付方式

支付请求 001 110 15xxx Chrome 999 88 aliapy

日志类型 uuid 订单id 金额

支付成功 001 999 88

pv 001 110 15xxx Chrome

支付请求 001 110 15xxx Chrome 999 88 aliapy

支付成功 001 999 88

如何将以上三种类型的日志数据存储到一张表中

5.hive与hbase区别

1.hive：

1.高延迟，存储的是结构化的数据

2.面向分析的，使用hql语句

3.hive不能接入业务中使用

hive与RDBMS的区别？？

1.hive是面向行存储的数据仓库工具，是纯逻辑表（不是物理表）

2.hive本身不存储和计算数据，完全依赖hdfs和MapReduce，本质就是将hql转换为MapReduce

2.hbase：

低延迟，适合存储结构化和非结构化的数据

面向数据检索和存储的，是一个数据库

hbase可以接入业务中使用

hbase是列存储，hbase中的表时物理表，通过索引可以快速进行数据的检索更新等操作

hbase是一种nosql数据库，是一个构建在hdfs上的面向列存储的分布式数据库

6.hbase的架构： 主从架构

master：

主节点，用来管理调度regionserver从节点；

负责分布表的region给regionserver节点。

region是hbase表存储及管理的基本单元；

region就是表在行方向上的拆分，大表拆分成一些小表进行管理。

regionserver：

从节点，负责管理当前节点上的表的region；

负责响应客户端的读写请求。

zookeeper：

hbase，kakfa ， storm 强依赖于zookeeper；

持有hbase表的元数据表的寻址入口；

监听master和regionserver的运行状态及节点宕机后的容灾处理；

基于观察者模式监控hbase运行状态；

保证hbase集群的高可用性。

hdfs ：

hbase 构建在hdfs上的数据库

1.hbase的分布式的安装部署：

1、Hadoop安装部署并启动hdfs服务，在开启hbase前一定要开启hdfs

2、zookeeper的安装部署及服务启动，在开启hbase前一定要开启zookeeper

       
   $ bin/zkServer.sh start 
  

3、上传并解压hbase安装包

       
   $ tar zxf hbase-0.98.6-cdh5.3.6.tar.gz  
  

4、完全分布式配置：

(1) 修改hbase-env.sh

 
    # The java implementation to use.  Java 1.6 required. 
   
    export JAVA_HOME=/opt/modules/jdk1.7.0_67             
   
    # Tell HBase whether it should manage it's own instance of Zookeeper or not. 
   
    export HBASE_MANAGES_ZK=false     //声明不使用hbase内置的zookeeper服务

(2) 修改hbase-site.xml

 
    //声明hbase框架数据在hdfs上的存储路径 
   
        hbase.rootdir   
   
        hdfs://192.168.88.134:8020/hbase 
   
        hbase.cluster.distributed 
   
        true 
   
        //声明zookeeper集群的地址 
   
        hbase.zookeeper.quorum 
   
        192.168.88.134

(3)修改 regionservers文件

添加regionserver节点的主机名或ip地址例如：com.bigdata

5、替换hbase的lib目录中关于Hadoop和zookeeper的依赖jar包（仅限使用Apache版本的hbase时需要查看并执行的）

如果使用的是Apache版本的hbase, 查看 hbase的lib目录下的Hadoop和zookeeper的jar包版本是否为2.5.0和3.4.5

6、启动hbase服务

 
    $ bin/hbase-daemon.sh  start master 
   
    $ bin/hbase-daemon.sh  start regionserver

hbase的web监控管理界面

http://com.bigdata:60010/master-status

1. Backup Masters （ master节点的备份） --类似 ha

2. user table ：用户表

3. catalog tables : hbase的系统表

hbase:meta -> hbase上所有用户表的元数据表

hbase:namespace -> hbase上命名空间相关数据

7、启动hbase服务进程后两处变化

1）hdfs上 http://com.bigdata:50070/explorer.html#/hbase/data

/hbase/data

目录为hbase上所有表的数据在hdfs上的存储路径

用户自定义的命名空间（库）会出现在data目录下

/hbase/data/default

是hbase的默认命名空间库--类似hvie的default库

当用户创建表时不指定库（命名空间）时会在该默认库下创建表

/hbase/data/hbase

是hbase的系统表的命名空间库

hbase:meta -> hbase上所有用户表的元数据表

hbase:namespace -> hbase上命名空间相关数据

2）zookeeper上

[zk: localhost:2181(CONNECTED) 4] ls /hbase

[meta-region-server, backup-masters, table, draining, region-in-transition, table-lock, running, master, namespace, hbaseid, online-snapshot, replication, splitWAL, recovering-regions, rs]

hbase启动后会将自己的节点元数据等信息注册到zookeeper上

hbase的数据存储模型：

bhase表中的数据类型：

1.hbase中没有数据类型之分

mysql-》 int char string float double

2.bhase表的数据在读或写时都以字节数组的形式存在

写 -》需要将数据先转换为字节数组

读 -》需要将读取的字节数组转换为其他格式进行显示

hbase中的数据存储模型术语：

rowkey：行键。用来标识唯一一行数据，类似RDBMS中的主键。

column family【cf】：列簇、列族。将相同类型或功能的列聚集在一起，目的是对列增加一层索引。

列簇的数量：从性能上考虑数量≤3

column：列字段。一个列必须存在于某个列簇中。

cell ：单元格。最新最基本的存储单元，单元格内是实际值的存储。

时间戳：值插入到hbase表的cell时的时间（时间戳表示）

可以用来控制cell数据的多个历史版本，通过指定时间戳来获取cell的历史值

版本：hbase中每个cell中的值可以有多个基于时间戳的版本，

默认建表时只允许保留一个版本，可以在建表时指定cell可存储版本的数量

默认获取一个cell单元格值时显示的是最新的值

如何确定一个单元格的值：

key ： rowkey+cf+column+时间戳

2.hbase shell的基本使用

 
    $ bin/start-hbase.sh    
   
    $ bin/hbase shell    进行shell交互命令行    
   
    repl命令行

hbase shell命令行默认无法退格解决：

xshell ：

文件-属性-终端-键盘-两个都选择ASCII127

CRT ：

选项-会话选项-仿真-终端-选择linux

选项-会话选项-映射键-勾选：

 
   hbase(main):005:0> help              
  

     COMMAND GROUPS: 
   
       Group name: general 
   
       Commands: status, table_help, version, whoami 
   
       Group name: ddl 
   
       Commands: alter, alter_async, alter_status, create, describe, disable, disable_all, drop, drop_all, enable, enable_all, exists, get_table, is_disabled, is_enabled, list, show_filters 
   
       Group name: namespace 
   
       Commands: alter_namespace, create_namespace, describe_namespace, drop_namespace, list_namespace, list_namespace_tables 
   
       Group name: dml 
   
       Commands: append, count, delete, deleteall, get, get_counter, incr, put, scan, truncate, truncate_preserve 
   
       Group name: tools 
   
       Commands: assign, balance_switch, balancer, catalogjanitor_enabled, catalogjanitor_run, catalogjanitor_switch, close_region, compact, flush, hlog_roll, major_compact, merge_region, move, split, trace, unassign, zk_dump 
   
       Group name: replication 
   
       Commands: add_peer, disable_peer, enable_peer, list_peers, list_replicated_tables, remove_peer, set_peer_tableCFs,  show_peer_tableCFs 
   
       Group name: snapshots 
   
       Commands: clone_snapshot, delete_snapshot, list_snapshots, rename_snapshot, restore_snapshot, snapshot 
   
       Group name: quotas 
   
       Commands: list_quotas, set_quota 
   
       Group name: security 
   
       Commands: grant, revoke, user_permission 
   
       Group name: visibility labels 
   
       Commands: add_labels, clear_auths, get_auths, set_auths, set_visibility

 
   hbase(main):007:0>  create   //回车后提示命令的用法 
  

 
   hbase(main):007:0>  help 'create'  查看create的用法 
  

 
    > create 'ns1:t1', {NAME => 'f1', VERSIONS => 5}   
   
      //表示在ns1命名空间下创建一个名称为t1的表，表的列簇命名f1，且该列簇下的cell的版本数都是5个

 
    >  create_namespace  'ns1'    //创建一个名称为ns1的命名空间  
   

 
    > create 't1', {NAME => 'f1'}, {NAME => 'f2'}, {NAME => 'f3'}     
   
        //默认命名空间下创建一个名称为t1的表，并且该表有三个列簇，名称分别为 f1 f2 f3   
   
    >  create 't2', f1, 'f2', 'f3'  //效果同上

 
    > create 't1', {NAME => 'f1', VERSIONS => 1, TTL => 2592000, BLOCKCACHE => true},{NAME => 'f2'}   
   
        {NAME => 'f1', VERSIONS => 1, TTL => 2592000, BLOCKCACHE => true}  
   
            //这是列簇f1，里面的属性设置只针对f1 
   
           {NAME => 'f2'}    
   
                  //这是列簇f2，属性全是使用的默认值

表的属性是针对某个列簇进行配置的，一张表中的多个列簇的属性可以不一样，创建表时需要使用{NAME => 'f2'}在内部定义某个列簇的属性

 
   > create 't3', {NAME => 'f1', VERSIONS => 3, TTL => 2592000, BLOCKCACHE => true},{NAME => 'f2'} 
  

 
    > desc 't3' 
   
    DESCRIPTION                             ENABLED              
   
    't3', {NAME => 'f1', DATA_BLOCK_ENCODI true NG => 'NONE', BLOOMFILTER => 'ROW', REPLICATION_SCOPE => '0', VERSIONS => '3', COMPRESSION => 'NONE', MIN_VERSIONS => '0', TTL => '2592000 SECONDS (30 DAYS)', KEEP_DELETED_CELLS => 'false',  BLOCKSIZE => '65536', IN_MEMORY => 'false', BLOCKCACHE => 'true'}, {NAME => 'f2', DATA_BLOCK_ENCODING => 'NONE', BLOOFMILTER => 'R 
    OW', REPLICATION_SCOPE  => '0', VERSIONS => '1', COMPRESSION => 'NONE', MIN_VERSIONS => '0', TT 
    L =>  'FOREVER', KEEP_DELETED_CELLS => 'false', BLOCKSIZE => '65536', IN_MEMORY = > 'fa 
    lse', BLOCKCACHE => 'true'}

以员工表演示：

 
    > create 'emp' , 'info'   
   
    > put 'emp' , '10001' ,'info:name','tom'    
   
    > put 'emp' , '10001' ,'info:age','22' 
   
    > put 'emp' , '10002' ,'info:name','lio' 
   
    > put 'emp' , '10002' ,'info:age','23' 
   
    > put 'emp' , '10002' ,'info:sex','boy' 
   
    > put 'emp' , '10003' ,'info:name','lili' 
   
    > put 'emp' , '10003' ,'info:age','19' 
   
    > put 'emp' , '10003' ,'info:age','20'  覆盖数据   
   
    > scan 'emp'  扫描表

总结hbase shell常用的命令

scan 扫描表

 
    > scan 'emp'     全表扫描    
   
    > scan 'emp', {COLUMNS => 'info:name'}    扫描某一列的数据 
   
    > scan 'emp', {COLUMNS => 'info'}          扫描某一个列簇的数据 
   
    > scan 'emp', {COLUMNS => ['info:name','info:age']}    扫描多列数据   
   
    > scan 'emp', {COLUMNS => 'info:name',LIMIT => 2}      扫描前2条数据   
   
    > scan 'emp', {STARTROW =>'10002'}        指定起始rowkey 
   
    > scan 'emp', {STARTROW =>'10001',STOPROW=>'10003'}    指定起止rowkey，默认左闭右开 
   
    > scan 'emp',{ VERSIONS=>5 }              扫描获取每个cell的最多5个历史版本数据

get 获取数据

 
    > get 'emp' ,'10002'        获取某条数据的cell   
   
    > get 'emp' ,'10002',{COLUMN => 'info'}       获取某条数据的某个列簇下的cell 
   
    > get 'emp' ,'10002',{COLUMN => 'info:name'}  获取某个cell的值

delete删除数据

 
    > deleteall 'ns1:t1', 'r1'             删除某一行数据   
   
    > deleteall 't1', 'r1', 'c1'           删除的某个cell的数据   
   
    > deleteall 't1', 'r1', 'c1', ts1      删除的某个cell指定的时间戳的值及该时间戳之前的

删除数据并没有直接将数据从hbase库中删除，而是给对应的cell打上一个‘删除’标签

打上‘删除’标签的cell不能再通过get或scan或java api读取

这些打上‘删除’标签的cell在会大合并期间进行清除

truncate清空数据

 
    > truncate 't1'  //清空一张表的数据   
   

Truncating 't1' table (it may take a while):

- Disabling table...

- Dropping table...

- Creating table...

drop

 
    > drop 't1' 
   
    ERROR: Table t1 is enabled. Disable it first. 
   
    > disable  't1' 
   
    > drop 't1'

version版本：

支持cell的多版本数据

优点：可以保持多个cell的历史值，客户端可以获取历史值

缺点：过多的版本会占用空间，影响读写性能，根据业务需求设计尽量少的版本

> create 't5' , {NAME => 'f1', VERSIONS => 5}

> put 't5','10001','f1:age','21'

> put 't5','10001','f1:age','25'

 
    > get 't5','10001',{COLUMN => 'f1:age', TIMESTAMP => 1508399069424}  获取时间戳    1508399069424的历史版本值   
   
    > get 't5','10001',{COLUMN => 'f1:age', VERSIONS => 4}   获取最新的4个版本   
   
    > scan 't5',{VERSIONS => 5}             
   
    > delete 't5','10001','f1:age',1508399069424  删除指定时间戳的版本及该版本之前的所有历史版本 
   
    >  scan 't5',{VERSIONS => 5} 
   
    > count 'emp'  统计多少条数据

3.hbase表的物理模型：

hbase中将表分成了多个reigon进行管理

region是hbase中表数据存储和管理的基本单元

hbase集群的负载均衡也是以region为单位

思考以下问题：

1.region如何划分的？

hbase中存储元数据的表meta由zookeeper管理，根据zookeeper找到对应的regioner，hbase表中的数据的存储默认是按照rowkey的字典顺序排序的, 表在行的方向上基于rowkey被分割成了多个region.master宕掉之后会维持一段时间的读写

2.region如何被分配管理的？

1. 分布式管理：一张表的多个region会被随机分配给集群的regionserver节点进行管理，分配是由master来执行;

2. 负载均衡：同一张表的多个region会均匀分散在regionserver上 ;每个regionserver节点可以维护管理不同表的region，并且每个regionserver上所管理的region的个数是趋向相等的

3. 分布式存储：每张表在建表时没有指定预分区的情况下有1个region，随着region数据量的增大，达到一定阈值（小于10G的一个动态阈值）时会进行split分割，region一分为二，原region会offline，新的region会被master随机分配给regionserver管理

3.region的划分的好处：

region是hbase中 分布式存储 、管理和 负载均衡的最小单元

负载均衡-》每个regionserver上所管理的region的个数是趋向相等的

4.region的结构：

每个region是由1个或多个store组成的，每个store保存了一个列簇的数据，即由列簇决定（列簇的数量与store的数量相等）

每个store的组成？

由一个memstore和多个 storeFile以及一个Hlog组成

1. memstore：是一个hbase表写入数据时的内存缓存区，

为了加速hbase的数据写速度，默认占用的内存大小128M

查看hbase默认配置文件的途径：

/opt/modules/cdh//hbase-0.98.6-cdh5.3.6/hbase-common/src/main/resources/hbase-default.xml

http://com.bigdata:60010/conf

memstore配置如下：

 
           hbase.hregion.memstore.flush.size 
   
           134217728 
   
               Memstore will be flushed to disk if size of the memstore 
   
               exceeds this number of bytes.  Value is checked by a thread that runs 
   
               every hbase.server.thread.wakefrequency.

2.storeFile：是由memstore中flush出的数据，存储在hdfs上，最终落地为Hfile，数量可能有1个也可能有多个，最终会被大合并成一个storeFile文件

3.每个region还包含一个Hlog预写日志（新版本中允许一个regionserver配置一个Hlog）

当向hbase表中写数据时数据会先写入到Hlog中，预写日志可以用来临时保存写入的数据，防止memstore内的数据因宕机而丢失， memstore内的数据丢失后可以从Hlog预写日志恢复。

hbase表在hdfs及web上的体现： http://com.bigdata:50070/explorer.html#/hbase/data/default/emp/

第八十九篇大数据开发中的数据算法：贪心策略 - 生活中的“精打细算”艺术
在资源有限的世界里，贪心算法教会我们：局部最优的累积，往往是通往全局最高效的捷径。本文通过3个生活化场景+原创图表，揭示大数据开发中最实用的优化策略。目录一、贪心算法核心思想：当下即最优二、三大核心应用场景详解（附原创图表）1.文件压缩优化：Huffman编码2.任务调度优化：SPT算法3.网络拓扑优化：Prim算法三、贪心算法适用性分析四、大数据工程最佳实践五、总结：贪心思维的艺术一、贪心算法核
vivo Pulsar 万亿级消息处理实践（3）-KoP指标异常修复
作者：vivo互联网大数据团队-ChenJianbo本文是《vivoPulsar万亿级消息处理实践》系列文章第3篇。Pulsar是Apache基金会的开源分布式流处理平台和消息中间件，它实现了Kafka的协议，可以让使用KafkaAPI的应用直接迁移至Pulsar，这使得Pulsar在Kafka生态系统中更加容易被接受和使用。KoP提供了从Kafka到Pulsar的无缝转换，用户可以使用Kafka
广州曼顿2P数字微断：保护电力设备的安全守护者 mdkk678 安全
在现代社会，电力设备的安全运行对各行各业至关重要。然而，电力系统中存在各种电压波动、过载和短路等问题，可能对设备造成损害。为了保护电力设备免受这些问题的影响，广州曼顿推出了2P数字微断器。本文将介绍这一创新产品的特点和优势，以及它对电力设备的保护作用。广州曼顿科技有限公司专注用户侧智慧数字电气产品研制，以及智慧电能服务大数据云平台建设。基于人工智能技术，大幅提升人触电时的生命安全保障，以及电气火灾
Python爬虫在社交平台数据挖掘中的应用：深入探索用户互动程序员威哥 python 爬虫数据挖掘
引言社交媒体已经成为全球用户互动的主要平台，每天都有大量的信息生成，用户之间的互动行为如点赞、评论、分享、转发等构成了宝贵的数据资源。如何利用这些互动数据为商业决策、用户行为分析以及产品优化提供支持，已经成为数据科学与大数据分析领域的一个重要课题。Python作为一款强大的编程语言，凭借其丰富的爬虫库和数据分析工具，已经成为挖掘社交平台数据的重要工具。在本文中，我们将通过Python爬虫技术，深入
突破性能瓶颈，几个高性能Python网络框架，高效实现网络应用
引言随着互联网和大数据时代的到来，高性能网络应用的需求日益增加。Python作为一种流行的编程语言，在高性能网络编程领域也具有广泛的应用。本文将深入探讨基于Python的几种高性能网络框架，分析它们各自的优势和适用场景，帮助开发者选择最适合自己需求的网络框架这里插播一条粉丝福利，如果你正在学习Python或者有计划学习Python，想要突破自我，对未来十分迷茫的，可以点击这里获取最新的Python
AI人工智能与机器学习的大数据融合应用 AI智能探索者人工智能机器学习大数据 ai
AI人工智能与机器学习的大数据融合应用关键词：AI人工智能、机器学习、大数据、融合应用、数据挖掘摘要：本文深入探讨了AI人工智能与机器学习在大数据融合应用方面的相关内容。首先介绍了研究的背景、目的、预期读者和文档结构，对核心术语进行了清晰定义。接着阐述了AI、机器学习和大数据的核心概念及相互联系，给出了形象的文本示意图和Mermaid流程图。详细讲解了核心算法原理，并通过Python源代码进行说明
百度地图迁徙大数据深度解析与实战指南
百度地图迁徙大数据深度解析与实战指南在数字化时代，人口流动数据已成为洞察社会经济活动的关键指标。百度地图依托海量位置数据和AI算法打造的"迁徙大数据"平台，为城市规划、交通管理、商业选址等领域提供了重要决策支持。本文将系统性解析百度地图迁徙大数据的查看方法、核心功能及实战应用场景，帮助读者快速掌握这一数据驱动的决策工具。一、迁徙大数据的核心价值迁徙大数据通过聚合手机用户的定位信息，构建全国范围的人
Python爬虫实战：利用Selenium与反反爬技术高效爬取天眼查企业信息 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy selenium
摘要本文将详细介绍如何使用Python爬虫技术获取天眼查的企业信息数据。我们将从爬虫基础开始，逐步深入到高级反反爬技术，最终构建一个能够稳定获取天眼查数据的爬虫系统。文章包含完整的代码实现、技术原理分析以及实际应用场景，帮助读者全面掌握企业信息爬取的核心技术。关键词：Python爬虫、天眼查、Selenium、反反爬技术、企业信息采集、数据挖掘一、引言在当今大数据时代，企业信息数据对于市场分析、商
智慧城市大脑解决方案
智慧城市大脑背景与意义智慧城市大脑作为城市管理的创新模式，通过集成大数据、人工智能等技术，实现了对城市运行的全面感知与智能决策。它不仅提升了城市管理效率，还为市民带来了更加便捷、安全的生活体验。智慧城市大脑建设历程某城市作为智慧城市大脑的创新策源地，自2016年起便与阿里巴巴集团深度合作，投入巨资自主研发城市数据大脑“交通小脑”平台。该平台成功接入了大量视频和数据，实现了对道路和时间资源的再分配，
智慧城市大脑：城市治理的新引擎 Fulima_cloud 智慧城市人工智能
在科技日新月异的今天，智慧城市的概念已经深入人心。而智慧城市大脑，作为智慧城市的中枢神经系统，运用大数据、云计算、物联网、人工智能等先进技术，构建的城市级智能化管理体系，正逐步成为提升城市治理能力、优化城市服务、推动城市可持续发展的重要力量。智慧城市大脑是什么，简而言之，是运用大数据、云计算、物联网、人工智能等先进技术，构建的城市级智能化管理体系。它如同城市的“智慧中枢”，通过对城市全域运行数据的
HBase总结
HBase1.HBase核心概念HBase的作用HBase主要用于存储和管理超大规模的结构化或半结构化数据（如PB级），特点包括：高扩展性：通过分布式架构横向扩展，支持数千台服务器高吞吐量：适合实时随机读写（如用户行为日志、实时分析）强一致性：保证同一行数据的原子性操作灵活的数据模型：支持动态列和稀疏存储典型应用场景：互联网公司的用户行为日志存储（如点击流数据）社交媒体的实时消息存储物联网设备时序
KaiwuDB X 济南大数据局：构建城市级重点车辆智慧监管中枢数据库
项目背景2022年2月14日，交通运输部联合多部门对《道路运输车辆动态监督管理办法》进行重要修订。新规突出"科技强监"理念，明确要求各级管理机构依托智能监管平台构建常态化监管机制：一方面强化对重点营运车辆的动态监测，另一方面建立事故预防预警体系。这一政策不仅为城市重点车辆监管提供了权威的政策指引，更在全国范围内掀起了监管平台智能化升级的热潮。作为城市治理的中枢部门，济南市大数据局肩负着重点车辆监管
Docker容器如何实现分布式微服务：从0到1的深度解析 cda2024 docker 分布式微服务
在当今云计算和大数据时代，企业面临的最大挑战之一是如何快速、稳定地部署和管理复杂的软件应用。传统的单体架构已难以满足现代互联网应用的需求，而分布式微服务架构成为了解决这一难题的关键。但问题随之而来：如何高效地构建和管理分布式微服务？Docker容器技术的出现为这个问题带来了新的曙光。它不仅简化了应用程序的打包和部署过程，还为微服务架构提供了强大的支持。本文将深入探讨Docker容器如何实现分布式微
2025年7月-9月广深地区学术会议征稿邀稿 | 2025年7-9月广州学术会议、深圳学术会议参会投稿 | 广深参会 EI 检索会议推荐 | 期待在广东与您相见，共襄学术盛举！
会议名称【点击会议名称查看详情】会议时间会议地点第四届能源与电力系统国际学术会议(ICEEPS2025)2025年7月17-19日广州第七届电子与通信，网络与计算机技术国际学术会议（ECNCT2025）2025年7月18-20日广州2025年人工智能与基础模型国际学术会议（AIFM2025）2025年7月18-20日广州第六届经济管理与大数据应用国际学术会议(ICEMBDA2025)2025年7月
Python爬企查查网站数据的爬虫代码如何写？ cda2024 python 爬虫开发语言
在大数据时代，数据的获取与分析变得尤为重要。企业信息查询平台“企查查”作为国内领先的企业信用信息查询工具，提供了丰富的企业数据资源。对于数据科学家和工程师而言，能够从这些平台高效地抓取数据，无疑是一项重要的技能。本文将详细介绍如何使用Python编写爬虫代码，从企查查网站抓取企业数据，并探讨其中的技术难点和解决方案。为什么选择Python？Python是一门广泛应用于数据科学和网络爬虫开发的语言，
如何利用AWS Lambda作为Serverless数据库进行大数据处理 AI天才研究院 AI人工智能与大数据自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术Serverless数据库一直是构建数据分析应用的主要选择之一。它能帮助客户节省运行服务所需的服务器成本、快速弹性扩展和自动伸缩能力，并且能提升整体性能，有效减少运维和开发资源投入。但是，在实际生产环境中，它们也面临着很多技术上的挑战，比如如何让Serverless数据库服务可以像传统数据库一样，做到高并发处理、实时计算等。而AWSLambda为Serverless数据
大数据领域数据产品的零售行业应用创新模式大数据洞察大数据与AI人工智能大数据零售单例模式 ai
大数据领域数据产品的零售行业应用创新模式关键词：大数据、零售行业、数据产品、应用创新、客户洞察、智能决策、数字化转型摘要：本文深入探讨了大数据技术在零售行业中的应用创新模式。我们将从零售行业数字化转型的背景出发，分析大数据产品如何重塑零售价值链，包括客户洞察、供应链优化、精准营销和智能决策等方面。文章将详细介绍相关技术原理、算法实现和实际应用案例，为零售企业提供可操作的大数据应用框架和创新思路。1
大数据如何助力企业文化“软实力”升级？深挖数据背后的文化密码 Echo_Wish 大数据高阶实战秘籍大数据
大数据如何助力企业文化“软实力”升级？深挖数据背后的文化密码今天我们聊一个听起来很“软”的话题——企业文化，但从一个不太“软”的角度来看：大数据如何参与企业文化的建设与提升。企业文化往往被看作无形资产，是团队凝聚力、创新力的源泉。但传统“喊口号”式的文化建设常常效果有限。大数据技术的兴起，给我们提供了洞察员工心理、量化文化影响的新思路，让文化建设从“感性”走向“理性”，从“盲目”变得“精准”。一、
Docker快速部署Hive服务长路 ㅤ 运维 Docker配置 Hive环境大数据远程调试
文章目录前言Docker快速配置hive环境资料获取前言博主介绍：✌目前全网粉丝4W+，csdn博客专家、Java领域优质创作者，博客之星、阿里云平台优质作者、专注于Java后端技术领域。涵盖技术内容：Java后端、大数据、算法、分布式微服务、中间件、前端、运维等。博主所有博客文件目录索引：博客目录索引(持续更新)CSDN搜索：长路视频平台：b站-Coder长路Docker快速配置hive环境Ap
从UI设计到数字孪生实战：构建智慧教育的个性化学习平台
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：数字孪生重构智慧教育的技术范式在教育数字化转型加速推进的背景下，传统在线教育正面临"个性化不足、学习体验单一、效果评估滞后"的瓶颈。教育部数据显示，采用数字孪生技术的智慧教育平台，学生学习效率平均提升35
每天一道大厂SQL题【Day25】脉脉真题实战(一)每日活跃用户_用户每日登陆脉脉会访问app不同的模块,现有两个表表1记录了每日脉脉活跃用户的ui(1)
文章目录每天一道大厂SQL题【Day25】脉脉真题实战(一)每日活跃用户每日语录第25题：1.需求列表1.初级题:每日活跃用户思路分析(1)创建表(2)思路答案获取加技术群讨论附表文末SQL小技巧后记每天一道大厂SQL题【Day25】脉脉真题实战(一)每日活跃用户大家好，我是Maynor。相信大家和我一样，都有一个大厂梦，作为一名资深大数据选手，深知SQL重要性，接下来我准备用100天时间，基于大
Spring Boot 项目启动时按需初始化加载数据我叫晨曦啊 spring boot spring boot java 后端
1、新建类，类上添加注解@Component，该类用于在项目启动时处理数据加载任务；2、该类实现ApplicationRunner接口，并重写run方法；3、在重写的run方法里处理数据加载任务；注意：有定时加载数据需求的话，添加定时任务即可；一次性加载大数据量时可能内存溢出；同一个项目中，可以定义多个ApplicationRunner的实现类；存在多个ApplicationRunner的实现类时
云原生--微服务、CICD、SaaS、PaaS、IaaS 青秋. 云原生 docker 云原生微服务 kubernetes serverless service_mesh ci/cd
往期推荐浅学React和JSX-CSDN博客一文搞懂大数据流式计算引擎Flink【万字详解，史上最全】-CSDN博客一文入门大数据准流式计算引擎Spark【万字详解，全网最新】_大数据spark-CSDN博客目录1.云原生概念和特点2.常见云模式3.云对外提供服务的架构模式3.1IaaS（Infrastructure-as-a-Service）3.2PaaS（Platform-as-a-Servi
Apache SeaTunnel × Hive 深度集成指南：原理、配置与实践数据库
在大数据处理的复杂生态中，数据的高效流转与整合是实现数据价值的关键。ApacheSeaTunnel作为一款高性能、分布式、易扩展的数据集成框架，能够快速实现海量数据的实时采集、转换和加载；而ApacheHive作为经典的数据仓库工具，为结构化数据的存储、查询和分析提供了坚实的基础。将ApacheSeaTunnel与Hive进行集成，能够充分发挥两者的优势，构建起高效的数据处理链路，满足企业多样化的
大数据平台之ranger与ldap集成，同步用户和组无级程序员大数据大数据 hadoop
ranger可以通过ranger-usersync与linux系统同步用户，但是，还有个问题，就是我们的hiveserver一般是集群，可以是多台服务器，那么我们空间同步哪一台呢，而且如果用户多了，如何管理用户登录密码呢，所以，还是要用ldap比较合理。首先是安装openldap:yum-yinstallopenldapcompat-openldapopenldap-clientsopenldap
vue-scrollto实现页面组件锚点定位长路 ㅤ 前端 vue.js 前端 javascript
文章目录前言背景操作指南安装及配置步骤vue组件中使用参考文章前言博主介绍：✌目前全网粉丝3W+，csdn博客专家、Java领域优质创作者，博客之星、阿里云平台优质作者、专注于Java后端技术领域。涵盖技术内容：Java后端、大数据、算法、分布式微服务、中间件、前端、运维等。博主所有博客文件目录索引：博客目录索引(持续更新)视频平台：b站-Coder长路背景vue中在hash模式下，页面的动态渲染
SQL Server 临时表、表变量与WITH语句的用法与区别 Favor_Yang SQL调优及高级SQL语法编写数据库 sql sqlserver
引言在SQLServer数据处理中，临时表、表变量和WITH语句（CTE）是关键的中间结果集管理工具。临时表适合大数据量操作，表变量优化小数据量场景，而CTE则简化复杂查询逻辑。三者选择需综合考量数据量级、事务需求及代码可读性。本文将深入解析其工作机制，通过实测对比指导场景化选型。1.临时表（TemporaryTables）定义与创建通过#（本地）或##（全局）前缀创建物理表：--本地临时表CRE
从0到1：Vue.js与D3.js搭建AI大数据动态看板
一、引言在当今AI和大数据盛行的时代，数据如同企业的“石油”，蕴含着巨大的价值。随着数据量呈指数级增长，如何从海量数据中快速提取有价值的信息，并以直观、易懂的方式呈现出来，成为了数据分析领域的关键挑战。数据看板作为一种强大的数据可视化工具，能够将复杂的数据转化为直观的图表、图形和指标，帮助用户快速理解数据背后的含义，做出更明智的决策。无论是企业的管理层、业务分析师还是数据科学家，都可以通过数据看板
Flink ClickHouse 连接器：实现 Flink 与 ClickHouse 无缝对接 Edingbrugh.南空大数据 flink flink clickhouse 大数据
引言在大数据处理领域，ApacheFlink是一款强大的流处理和批处理框架，而ClickHouse则是一个高性能的列式数据库，专为在线分析处理（OLAP）场景设计。FlinkClickHouse连接器为这两者之间搭建了一座桥梁，使得用户能够在Flink中方便地与ClickHouse数据库进行交互，实现数据的读写操作。本文将详细介绍FlinkClickHouse连接器的相关内容，包括其特点、使用方法
【前端开发】Uniapp分页器：新增输入框跳转功能
基于UniApp官方扩展组件库uni-ui中的uni-pagination分页器组件，针对大数据量场景进行优化主要优化以下内容：新增输入框跳转功能：在原有分页器基础上，新增了一个输入框区域，允许用户直接输入目标页码进行跳转双向页码绑定优化：实现了输入框与当前页码的双向绑定机制。当用户通过其他方式（如点击上一页、下一页、页码按钮）切换页面时，输入框会自动更新显示当前页码。同时，当用户在输入框中输入页
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag

01-HBASE的安装和物理模型

你可能感兴趣的:(hbase,大数据,大数据开发)