溜三丝耶

HBase优化

文章目录

HBase优化

预分区

手动设定预分区
生成十六进制序列预分区
按照文件中设置的规则预分区
使用JavaAPI创建预分区

RowKey设计

rowkey常用的设计方案

生成随机数，hash，散列值
字符串反转
字符串拼接

案例分析

内存优化
基础优化

ZooKeeper会话超时时间
设置RPC监听数量
手动控制Major Compaction
优化HStore文件大小
优化HBase客户端缓存
指定scan.next扫描HBase所获取的行数
BlockCache占用RegionServer堆内存的比例
MemStore占用RegionServer堆内存的比例

底层结构

HBase优化

曾为梦想仗剑走天涯，如今这个那个得优化。
还想围观群众吃个瓜？赶紧关注我博涨文化！

预分区

预分区和RowKey设计是搭配使用的。
预分区的分区键是什么样的，RowKey就得是什么样的，他俩得配合使用才行。比如，都是十六进制。

如果不使用预分区，那么等数据量大了就会进行自动分裂。
自动分裂有什么坏处呢？

很长一段时间内，只有很少的Region，那么并发度就是个问题。
自动分裂时，Region的分界点不能确定。
可能导致：某个Region负载过重，也就是Region的热点问题。

每一个Region维护着startKey和endKey，如果加入的数据符合某个Region维护的RowKey范围，则该数据交给这个Region维护。那么依照这个原则，我们可以将数据所要投放的分区提前大致的规划好，以提高HBase性能。

手动设定预分区

hbase(main):092:0> create 'emp1', 'info', SPLITS => ['1000','2000','3000','4000']
Created table emp1
Took 1.3647 seconds                                                                                                                   
=> Hbase::Table - emp1

在hadoop131:16010打开HBase集群web界面，拉到Tables栏，然后点击emp1表，查看Region的分区情况。在Table Regions栏可以看到：

这里，设置了5个分区：(-∞, 1000), [1000, 2000), [2000, 3000), [3000, 4000), [4000, +∞)

生成十六进制序列预分区

hbase(main):094:0> create 'emp2', 'info', {NUMREGIONS => 5, SPLITALGO => 'HexStringSplit'}
Created table emp2
Took 1.3252 seconds                                                                                                                   
=> Hbase::Table - emp2

这里的分区键为什么是长这个样子的呢？

因为十六进制最大为FFFFFFFF，那么均分5分，就是这个样子了呢。

按照文件中设置的规则预分区

创建splits.txt文件：

aaaa
bbbb
cccc
dddd

然后执行：

hbase(main):098:0> create 'emp3', 'info', SPLITS_FILE => 'splits.txt'

SPLITS_FILE会自动对文件内的key进行排序

使用JavaAPI创建预分区

    public static void preRegion(String nameSpace, String tableName, String... families) throws IOException {
        if(families.length <= 0) {
            System.out.println("至少有一个列族");
            return;
        }

        Admin admin = connection.getAdmin();
        try {
            if(admin.tableExists(TableName.valueOf(nameSpace, tableName))) {
                System.out.println(nameSpace + ":" + tableName + "已存在");
                return;
            }

            TableDescriptorBuilder builder = TableDescriptorBuilder
                    .newBuilder(TableName.valueOf(nameSpace, tableName));

            for(String family: families) {
                ColumnFamilyDescriptorBuilder cfBuilder = ColumnFamilyDescriptorBuilder
                        .newBuilder(Bytes.toBytes(family));
                builder.setColumnFamily(cfBuilder.build());
            }

            TableDescriptor descriptor = builder.build();

            byte[][] splitKeys = new byte[4][];
            for(int i = 0; i < 4; i ++) {
                splitKeys[i] = Bytes.toBytes(String.valueOf((i + 1) * 1000));
            }

            admin.createTable(descriptor, splitKeys);
        } catch (Exception e) {
            e.printStackTrace();
        } finally {
            admin.close();
        }
    }

RowKey设计

一条数据的唯一标识就是rowkey，那么这条数据存储于哪个分区，取决于rowkey处于哪个预分区的区间内。设计rowkey的主要目的，就是要让数据均匀的分布于所有的Region中，在一定程度上防止数据倾斜。

rowkey常用的设计方案

生成随机数，hash，散列值

比如：

原本rowKey为1001的，SHA1后变成：dd01903921ea24941c26a48f2cec24e0bb0e8cc7
原本rowKey为3001的，SHA1后变成：49042c54de64a1e9bf0b33e00245660ef92dc7bd
原本rowKey为5001的，SHA1后变成：7b61dec07e02c188790670af43e717f0f46e8913

在做此操作之前，一般我们会选择从数据集中抽取样本，来决定什么样的rowkey来Hash后作为每个分区的临界值。

字符串反转

20170524000001转成10000042507102
20170524000002转成20000042507102

这样也可以在一定程度上散列逐步put进来的数据。

字符串拼接

20170524000001_a12e
20170524000001_93i7

案例分析

网站首页访问记录实时存入hbase，统计网站首页每分钟的访问次数
注意：rowkey唯一性 + 读数据的时候数据需要在一块那么写的时候就写在一块

思路：满足业务 -> user_id, timestamp：

rowKey："yyyyMMddHHmm".hashCode()%5_yyyyMMddHHmmssSSSS_user_id

regionKey：
-∞, 1
1, 2
2, 3
3, 4
4, +∞

| 竖线是assic码较大的字符，可以用于过滤匹配rowkey。
预分区个数：每个RegionServer分5~10个Region
rowkey设计尽可能短一些
列族名和列名尽可能的短：一般情况一个字符

内存优化

HBase操作过程中需要大量的内存开销，毕竟Table是可以缓存在内存中的。
但是不建议分配非常大的堆内存，因为GC过程持续太久会导致RegionServer处于长期不可用状态。
一般16~36G内存就可以了，如果因为框架占用内存过高导致系统内存不足，框架一样会被系统服务拖死。

基础优化

ZooKeeper会话超时时间

hbase-site.xml
属性：zookeeper.session.timeout
解释：默认值为90000毫秒（90s）。当某个RegionServer挂掉，90s之后Master才能觉察到。可适当减小此值，以加快Master响应，可调整至60000毫秒。

设置RPC监听数量

hbase-site.xml
属性：hbase.regionserver.handler.count
解释：默认值为30，用于指定RPC监听的数量，可以根据客户端的请求数进行调整，读写请求较多时，增加此值。

一般调成regionServer的cup核数的两倍

手动控制Major Compaction

hbase-site.xml
属性：hbase.hregion.majorcompaction
解释：默认值为604800000秒（7天），Major Compaction的周期，若关闭自动Major Compaction，可将其设为0

优化HStore文件大小

hbase-site.xml
属性：hbase.hregion.max.filesize
解释：默认值10737418240（10GB），如果需要运行HBase的MR任务，可以减小此值。因为一个region对应一个map任务，如果单个region过大，会导致map任务执行时间过长。该值的意思就是，如果HFile的大小达到这个数值，则这个region会被切分为两个HFile。

优化HBase客户端缓存

hbase-site.xml
属性：hbase.client.write.buffer
解释：默认值2097152bytes（2M）用于指定HBase客户端缓存，增大该值可以减少RPC调用次数，但是会消耗更多内存。一般我们需要设定一定的缓存大小，以达到减少RPC次数的目的。

指定scan.next扫描HBase所获取的行数

hbase-site.xml
属性：hbase.client.scanner.caching
解释：用于指定scan.next方法获取的默认行数，值越大，消耗内存越大。

BlockCache占用RegionServer堆内存的比例

hbase-site.xml
属性：hfile.block.cache.size
解释：默认0.4，读请求比较多的情况下，可适当调大

MemStore占用RegionServer堆内存的比例

hbase-site.xml
属性：hbase.regionserver.global.memstore.size
解释：默认0.4，写请求较多的情况下，可适当调大

底层结构

Log-Structured Merge Tree 存储引擎
lsm tree

你可能感兴趣的:(HBase)

数据中台（二）数据中台相关技术栈 Yuan_CSDF #数据中台
1.平台搭建1.1.Amabari+HDP1.2.CM+CDH2.相关的技术栈数据存储：HDFS，HBase，Kudu等数据计算：MapReduce,Spark,Flink交互式查询：Impala,Presto在线实时分析：ClickHouse，Kylin，Doris，Druid，Kudu等资源调度：YARN，Mesos，Kubernetes任务调度：Oozie，Azakaban，AirFlow，
Hadoop相关面试题努力的搬砖人. java 面试 hadoop
以下是150道Hadoop面试题及其详细回答，涵盖了Hadoop的基础知识、HDFS、MapReduce、YARN、HBase、Hive、Sqoop、Flume、ZooKeeper等多个方面，每道题目都尽量详细且简单易懂：Hadoop基础概念类1.什么是Hadoop？Hadoop是一个由Apache基金会开发的开源分布式计算框架，主要用于处理和存储大规模数据集。它提供了高容错性和高扩展性的分布式存
Flink读取kafka数据并写入HDFS 王知无(import_bigdata) Flink系统性学习专栏 hdfs kafka flink
硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021年从零到大数据专家面试篇之消息队列篇2021年从零到大数据专家面试篇之Spark篇2021年从零到大数据专家面试篇之Hbase篇
java+redis+pipleline_详解Java使用Pipeline对Redis批量读写（hmset&hgetall） 666齐乐家园
一般情况下，RedisClient端发出一个请求后，通常会阻塞并等待Redis服务端处理，Redis服务端处理完后请求命令后会将结果通过响应报文返回给Client。感觉这有点类似于HBase的Scan，通常是Client端获取每一条记录都是一次RPC调用服务端。在Redis中，有没有类似HBaseScannerCaching的东西呢，一次请求，返回多条记录呢？有，这就是Pipline。官方介绍ht
Flume详解——介绍、部署与使用克里斯蒂亚诺罗纳尔多阿维罗 flume 大数据分布式
1.Flume简介ApacheFlume是一个专门用于高效地收集、聚合、传输大量日志数据的分布式、可靠的系统。它特别擅长将数据从各种数据源（如日志文件、消息队列等）传输到HDFS、HBase、Kafka等大数据存储系统。特点：可扩展：支持大规模数据传输，灵活扩展容错性：支持数据恢复和失败重试，确保数据不丢失多种数据源：支持日志文件、网络数据、HTTP请求、消息队列等多种来源流式处理：数据边收集边传
大数据学习（67）- Flume、Sqoop、Kafka、DataX对比 viperrrrrrr 大数据学习 flume kafka sqoop datax
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦工具主要作用数据流向实时性数据源/目标应用场景Flume实时日志采集与传输从数据源到存储系统实时日志文件、网络流量等→HDFS、HBase、Kafka等日志收集、实时监控、实时分析Sqoop关系型数据库与Hadoop间数据同步关系型数据库→Hadoop生态系统（HDFS、Hive、
HBase学习二：HBase的表结构 hucs420109 HBase HBase
HBase的表结构初次接触HBase，可能看到以下描述会懵：“基于列存储”，“稀疏MAP”，“RowKey”,“ColumnFamily”。其实没那么高深，我们需要分两步来理解HBase,就能够理解为什么HBase能够“快速地”“分布式地”处理“大量数据”了。内存结构文件存储结构先介绍几个名称概念行键RowKey：行键，类似mysql中的主键，Table中的记录按照RowKey排序，行键是表结构的
分布式存储—— HBase数据模型详解 Future_yzx 分布式 hbase 数据库
目录1.3HBase数据模型1.3.1两类数据模型1.3.2数据模型的重要概念1.3.3数据模型的操作1.3.4数据模型的特殊属性1.3.5CAP原理与最终一致性1.3.6小结本文章参考、总结于学校教材课本《HBase开发与应用》1.3HBase数据模型在开始学习HBase之前非常有必要先学习HBase的特性，因此本节将介绍HBase的逻辑模型、物理模型和访问HBase的方法等。和传统的关系型数据
分布式存储学习——HBase表结构设计 Future_yzx oracle 数据库
目录1.4.1模式创建1.4.2Rowkey设计1.4.3列族定义1.4.3.1可配置的数据块大小1.4.3.2数据块缓存1.4.3.3布隆过滤器1.4.3.4数据压缩1.4.3.5单元时间版本1.4.3.6生存时间1.4.4模式设计实例1.4.4.1实例1：动物分类1.4.4.2实例2：店铺与商品1.4.4.3实例3：网上商城用户消费记录1.4.4.4实例4：微博用户与粉丝1.4.4.5小结本文
HBase2.6.1部署文档 CXH728 zookeeper hbase
1、HBase概述ApacheHBase是基于Hadoop分布式文件系统（HDFS）之上的分布式、列存储、NoSQL数据库。它适合处理结构化和半结构化数据，能够存储数十亿行和数百万列的数据，并支持实时读写操作。HBase通常应用于需要快速随机读写、低延迟访问以及高吞吐量的场景，例如大规模日志处理、社交网络数据存储等。HBase特性列存储模型：HBase的数据是按列族存储的，适合高稀疏数据。行键分区
使用Couchbase中的向量搜索进行智能查询 eahba python
技术背景介绍Couchbase是一种强大的分布式NoSQL数据库，广泛应用于云、移动、AI和边缘计算应用中。其向量搜索功能，作为全文搜索服务的一部分，支持在应用中进行高效的语义查询。这为开发者在实现AI驱动的应用时提供了极大的便利。核心原理解析Couchbase的向量搜索利用向量嵌入技术对文本进行处理，可以实现基于语义相似度的查询。这与传统的关键词匹配有根本的不同，更适合AI应用场景中模糊或语义相
Zookeeper与Kafka学习笔记上海研博数据 zookeeper kafka 学习
一、Zookeeper核心要点1.核心特性分布式协调服务，用于维护配置/命名/同步等元数据采用层次化数据模型（Znode树结构），每个节点可存储<1MB数据典型应用场景：HadoopNameNode高可用HBase元数据管理Kafka集群选举与状态管理2.设计限制内存型存储，不适合大数据量场景数据变更通过版本号（Version）控制，实现乐观锁机制采用ZAB协议保证数据一致性二、Kafka核心架构
phoenix无法连接hbase shell创建表失败_报错_PleaseHoldException: Master is initializing---记录020_大数据工作笔记0180 添柴程序猿 hbase连接报错 phoenix连接hbase phoenix PleaseHoldExcep
今天发现,我的phoenix,去连接hbase集群,怎么也连不上了,奇怪了...弄了一晚上org.apache.hadoop.hbase.PleaseHoldException:Masterisinitializing[root@hadoop120bin]#ll总用量184-rwxr-xr-x.1rootroot36371月222020chaos-daemon.sh-rwxr-xr-x.1root
regionserver实例僵住问题分析 spring208208 hbase hbase
问题现象：应用提交超时，发现regionserver实例异常。hbase原生页面这个实例dead，业务连接到这个rs的进程超时8个regionserver实例。D08在18：30分后显示warning，应用提交任务到这个rs节点超时，hbase控制台不显示d08的rs信息了。19：30在页面停止rs实例失败，然后kill进程。18：30统计图等就不刷新了，但是机器里rs进程在。d08节点还有dn，
hbase 默认目录_[HBase] HBase数据存储目录解析 weixin_39577422 hbase 默认目录
Hbase在hdfs上的存储位置，根目录是由配置项hbase.rootdir决定，默认就是"/hbase"/hbase/WALs在该目录下，对于每个RegionServer，都会对应1~n个子目录/hbase/oldWALs当/hbase/WALs中的HLog文件被持久化到存储文件时，它们就会被移动到/hbase/oldWALs/hbase/hbase.id集群的唯一ID/hbase/hbase.
hbase-05 namespace、数据的确界&TTL 小技工丨大数据技术学习 hbase 数据库大数据
要点掌握HBase的命名空间namespace概念掌握HBase数据版本确界掌握HBase数据TTL1.HBase的namespace1.1namespace基本介绍在HBase中，namespace命名空间指对一组表的逻辑分组，类似RDBMS中的database，方便对表在业务上划分。ApacheHBase从0.98.0,0.95.2两个版本号开始支持namespace级别的授权操作，HBase
Hbase在hdfs上的archive目录占用空间过大宝罗Paul 大数据 hbase
hbase版本：1.1.2hadoop版本：2.7.3Hbase在hdfs上的目录/apps/hbase/data/archive占用空间过大，导致不停地发出hdfs空间使用率告警。【问题】告警信息alert:datanode_storageistriggered告警信息表明某个或某些datanode的HDFS存储空间使用率已超过阈值(我们设置的是80%)，需要清理。[hdfs@master-2r
hbase集群archive目录过大问题处理 spring208208 大数据组件线上问题分析 hbase 数据库大数据
1.问题现象现场反馈hbase集群/hbase/archive目录过大，大小约为1.52PB现场集群已经清理掉2个月以前的snapshot文件，当前archive目录文件仍不能释放现场发现1T以上的archive子目录有211个查看集群hbase配置，hmaster堆栈大小20GB，hmaster清理周期5分钟查看hmaster进程分配内存占用6G上下问题分析HMaster内存估算，假如/hbas
Flume-HBase-Kafka 正在緩沖҉99% kafka Flume HBase 大数据
Flume-HBase-Kafka一、各自介绍1.Flume简介和特征2.HBase简介和特征3.Kafka简介和特征二、通过Flume读取日志文件写入到Kafka中在写入HBase各自作用一、各自介绍1.Flume简介和特征一、简介Flume是一个分布式、可靠、和高可用的海量日志聚合的系统，支持在系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方
大数据面试临阵磨枪不知看什么？看这份心理就有底了-大数据常用技术栈常见面试100道题大模型大数据攻城狮大数据面试职场和发展面试题数据仓库算法
目录1描述Hadoop的架构和它的主要组件。2MapReduce的工作原理是什么？3什么是YARN，它在Hadoop中扮演什么角色？4Spark和HadoopMapReduce的区别是什么？5如何在Spark中实现数据的持久化？6SparkStreaming的工作原理是什么？7如何优化Spark作业的性能？8描述HBase的架构和它的主要组件。9HBase的读写流程是怎样的？10HBase如何处理
value error wqq奋斗的小鸟 pyspark
ValueError:invalidliteralforint()withbase10:''int()函数只能转化数字组成的字符串
如何使用Spark Streaming将数据写入HBase Java资深爱好者 spark hbase 大数据
在SparkStreaming中将数据写入HBase涉及到几个步骤。以下是一个基本的指南，帮助你理解如何使用SparkStreaming将数据写入HBase。1.环境准备HBase：确保HBase集群已经安装并运行。Spark：确保Spark已经安装，并且Spark版本与HBase的Hadoop版本兼容。HBaseConnectorforSpark：你需要使用HBase的SparkConnecto
华为MRS产品组件 QianJin_zixuan hadoop hive 大数据数据库架构 gaussdb
MRS：MRS是一个在华为云上部署和管理Hadoop系统的服务，一键即可部署Hadoop集群。MRS提供租户完全可控的一站式企业级大数据集群云服务（全栈大数据平台），轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件。集群管理：使用MRS的首要操作就是购买集群，MRS的扩容不论在存储还是计算能力上，都可以简单地通过增加Core节点或者Task节点来完成。集群Core节
HBase：大数据时代的“超级数据库” 狮歌~资深攻城狮 hbase 大数据
HBase：大数据时代的“超级数据库”你是不是也被数据淹没过？大家有没有这样的经历，手机里存了成千上万张照片，每次想找某一张特定的照片时，都得翻半天？或者在工作中面对堆积如山的数据报表，感觉像是在大海捞针。今天我们要聊的HBase，就是为了解决这种“数据洪流”的问题。什么是HBase？HBase是一个分布式的、面向列的开源数据库，它基于Google的Bigtable论文设计而成。简单来说，HBas
HBase常用的Filter过滤器操作梵高的夏天 python 算法机器学习
HBase常用的Filter过滤器操作_hbasefilter-CSDN博客HBase过滤器种类很多，我们选择8种常用的过滤器进行介绍。为了获得更好的示例效果，先利用HBaseShell新建students表格，并往表格中进行写入多行数据。一、数据准备工作（1）在默认命名空间中新建表格students，设置列族info、score。hbase:002:0>create'students','inf
Pinpoint应用性能管理工具Docker化安装小苏少 Docker Linux 软件测试 docker pinpoint linux JVM监控
目录Pinpoint应用性能管理工具Docker化安装Pinpoint是什么为什么用Pinpoint下载hbase-create.hbase编写Dockerfile编写run.sh构建Dockerfile启动Pinpoint其他Pinpoint应用性能管理工具Docker化安装本文主要介绍Pinpoint应用性能管理工具Docker化安装，以及在后期Pinpoint进行版本升级时，如何同步升级Do
hbase put 写入数据慢_HBase 马斯克·贾 hbase put 写入数据慢
HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。逻辑结构物理存储结构数据模型逻辑上，HBase的数据模型同关系型数据库很类似，数据存储在一张表中，有行有列。HBase的底层物理存储结构(K-V)。NameSpace命名空间，类似于关系型数据库的DatabBase概念，每个命名空间下有多个表。HBase有两个自带的命名空间，分别是hbase和default，hbase中存放的是H
如何用HBase轻松管理海量数据？狮歌~资深攻城狮 hbase 大数据
如何用HBase轻松管理海量数据？小白也能学会的入门指南数据太多，头都大了？你有没有过这样的经历：面对堆积如山的数据文件，感觉像是被淹没在信息的海洋里？别担心，今天我们要聊的HBase，就是来帮你解决这个问题的神器。不管你是技术小白还是有一定经验的开发者，这篇文章都能让你轻松上手HBase。什么是HBase？HBase是一个分布式的、面向列的开源数据库，专门用来处理大规模数据。它基于Google的
Zookeeper（67） Zookeeper在HBase中的应用是什么？辞暮尔尔-烟火年年微服务 zookeeper hbase python
Zookeeper在HBase中起到了至关重要的作用，主要用于协调和管理HBase集群中的多个组件。具体来说，Zookeeper在HBase中的应用包括以下几个方面：Master选举：HBase集群中可以有多个Master节点，但只有一个处于Active状态，其余为Standby状态。Zookeeper用于进行Master节点的选举。RegionServer协调：Zookeeper用于管理和协调R
深入HBase——核心组件黄雪超大数据基础 #深入HBase hbase 数据库数据结构
引入通过上一篇对HBase核心算法和数据结构的梳理，我们对于其底层设计有了更多理解。现在我们从引入篇里面提到的HBase架构出发，去看看其中不同组件是如何设计与实现。核心组件首先，需要提到的就是HBase架构中会依赖到的Zookeeper和HDFS。对于HDFS看过深入HDFS的小伙伴，应该都不陌生，它提供了高可靠的海量数据存储和读写能力；而对于Zookeeper，它是一个分布式协调存储服务，主要
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他