海量文档查同或聚类问题 -- Locality Sensitive Hash 算法

海量文档查同或聚类问题 -- Locality Sensitive Hash 算法 - fxjtoday的专栏 - 博客频道 - CSDN.NET

海量文档查同或聚类问题 -- Locality Sensitive Hash 算法

分类：
Web Data Mining
Algorithm

2011-02-22 15:56
736人阅读
评论(0)
收藏
举报

考虑一下这个场景
,
使用网络爬虫高速爬取大量的网页内容
,
如果想把这些网页进行实时聚类
,
并从中提取每个网页聚类的主题
.
我们应该怎么样去做

对于普通或常见的聚类算法
,
比如
K-means,
或
Hierarchical
聚类
,
无法适用于这个常见
,
对于这些聚类算法无法进行
incremental

聚类
,
即在聚类开始前必须知道整个数据集
,
而这个场景中的数据集是随着爬虫不断增多的
.
而且这些聚类算法的
performance
不够高
,
比如对于
K-means
需要不断的
partition
以达到比较好的聚类效果
.
所以向来聚类算法在我的印象中是低效的
,
而面对这样一个需要实时数据递增处理的场景
,
我们需要一种
one-shot
的高效算法
,
接收到网页内容
,
迅速判断其类别
,
而不用后面不断地
revisit
或
recluster.

首先介绍下面这个聚类方法

Leader-Follower Clustering (LFC)

The algorithm can be described as follows:

If distance between input and the nearest cluster above threshold, then create
new cluster for the input.

Or else, add input to the cluster and update cluster center.

其实这个聚类方法再简单不过了
,
我是先想到这个方法
,
然后才发现这个方法有这么个看上去蛮牛比的名字
.

有了这个方法
,
当新网页来的时候
,
和所有老的网页形成的聚类算下相似度
,
相似就归到这类
,
不相似就创建新类

这个过程当中有个经典问题
, KNN

问题

(K-Nearest Neighbor)

.

面

对海量数据
,
而且是高维数据
(
对于文本
feature
一般是选取文本中的
keywords,
文本中的
keywords
一般是很多的
), KNN
问题很难达到线性
search
的
,
即一般是比较低效的
.
这样也没办法达到我们的要求
,
我们需要新的方法来解决这个
KNN
问题

当然该牛人出场了
,
他提出了一种算法

Locality Sensitive Hash(LSH)

这个算法的效果是
,
你可以把高维向量
hash
成一串
n-bit
的数字
,
当两个向量
cosin
夹角越小的时候
(
即他们越相似
),
那么他们
hash
成的这两串数字就越相近
.

比较常用的
LSH
算法是下面这个

Charikar's simhash

Moses S. Charikar. 2002. Similarity estimation techniques from rounding
algorithms. In STOC ’02: Proceedings of the thiry-fourth annual ACM symposium
on Theory of computing, pages 380–388, New York, NY, USA. ACM.

用
LSH
算法怎么样来解决高维数据的
KNN
问题了
,
我们可以参考
Google
在
WWW2007
发表的一篇论文
“Detecting near-duplicates for web crawling”,
这篇文章中是要找到
duplicate
的网页
,
和我们的问题其实是同一个问题
,
都是怎样使用
LSH
解决
KNN
问题

分两步
,

第一步
,
象我们上面说的那样
,
将文档这样的高维数据通过
Charikar's simhash

算法转化为一串比特位
.
对于
Google
的问题
,

We experimentally validate that for a repository of 8 billion webpages, 64-bit
simhash fingerprints and k = 3 are reasonable.

就是对于
80
亿的文档
,
我们把每个文档转化为
64-bit
的
simhash fingerprints,
当两个
fingerprints
有
k = 3
位不同时
,
我们就认为这两个文档不相同
.

Charikar's simhash is a dimensionality reduction
technique
. It maps high-dimensional vectors to small-sized fingerprints.

其实
LSH
算法的基本原理就是
,
把一个多维空间上的点投影到一个平面上
,
当多维空间中的两个点在平面上的投影之间距离很近的时候
,
我们可以认为这两个在多维空间中的点之间的实际距离也很近
.
但是
,
你想象一下
,
你把一个三维球体中的两个点投影到一个随机平面上
,
当投影很靠近的时候
,
其实那两个点不一定很靠近
,
也有可能离的很远
.
所以这儿可以把两个点投影到多个随机平面上
,
如果在多个随机平面上的投影都很靠近的话
,
我们就可以说这两个多维空间点之间实际距离很近的概率很大
.
这样就可以达到降维
,
大大的减少了计算量
.

算法过程如下
,
其实挺好理解的

Computation:

Given a set of features extracted from a document and their corresponding
weights, we use simhash to generate an f-bit fingerprint as follows.

We maintain an f-dimensional vector V, each of whose dimensions is initialized
to zero.

A feature is hashed into an f-bit hash value.

These f bits (unique to the feature) increment/decrement the f components of
the vector by the weight of that feature as follows:

ü if the i-th bit of the hash value is 1, the i-th component of V
is incremented by the weight of that feature;

ü if the i-th bit of the hash value is 0, the i-th component of V
is decremented by the weight of that feature.

When all features have been processed, some components of V are positive while
others are negative. The signs of components determine the corresponding bits
of the final fingerprint.

For our system, we used the original C++ implementation of simhash, done by
Moses Charikar himself.

第二步
, HAMMING DISTANCE PROBLEM

第一步把所有文档都变成
64-bit
的
fingerprints,
那么面对几十亿的
fingerprints,
怎么样能快速找到和目标
fingerprint
相差
k
位的所有
fingerprint
了
.

其实这就是个对于
hamming distance
的
KNN
问题
,

Definition: Given a collection of f-bit fingerprints and a query fingerprint F,
identify whether an existing fingerprint differs from F in at most k bits.

汉明距离

(hamming distance)

在信息论中，两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数。换句话说，它就是将一个字符串变换成另外一个字符串所需要替换的字符个数

可见
,
对于
hamming
距离
,
不是简单的通过排序索引就可以解决的

说两个简单的方法
,
虽然不可行
,
但也是一种思路

耗费时间的方法

Build a sorted table of all existing fingerprints

对于给定的
F,
找出所有
Hamming distance from F is at most k
的
fingerprint
然后去
table
里面搜索
,
看有没有

For 64-bit _ngerprints and k = 3, we need C₆₄
³
= 41664
probes.
这样查找时间太长了
.

耗费空间的方法

还有个办法就是空间换时间
,
对现有的每个
fingerprints,
先事先算出所有和它
Hamming distance
小于
3
的情况
,
但这种方法预先计算量也太大了
,
如果现有
n
个
fingerprint,
就需要算
41664*n.

可见用传统的方法是很难高效的解决这个问题的
.

那么怎么办
,
有什么办法能够在海量的
F bit
的向量中
,
迅速找到和查询向量
F ′
只差
k bit
的向量集合了

We now develop a practical algorithm that lies in between the two approaches
outlined above: it is possible to solve the problem with a small number of
probes and by duplicating the table of fingerprints by a small factor.

我们需要一种介于上面两种比较极端的情况的方法
,
耗些时间
,
也耗些空间
,
但都不要太多
......

设想一下对于
F bit,
可以表示
2^F

个数值
,
如果这儿我们完全随机产生
2^d

个
F bit
的数
,
当
d<<F
时
,
这些随机数值的高
d
位重复的应该不多
,
为什么
,
这些数值是完全随机产生的
,
所以应该相对均匀的分布在
2^F

大小的空间里
,
如果完全平均生成
2^d

个数
,
那么每个数的高
d
位都是不同
.
但是这儿是随机产生
,
所以会有些数的高
d
位是相同的
,
不过数量不会多
.
所以这边就可以把高
d
位作为计数器
,
或索引
.
这个假设是这个方法的核心
,
有了这个假设
,
不难想到下面怎么做
...

首先对现有的所有
fingerprints
进行排序
,
生成有序的
fingerprints
表

选择一个
d ′,
使得
|d ′-d|
的值很小
(
就是说你选择的这个
d’
和
d
只要差的不多
,
都可以
),
因为表是有序的
,
一次检测就能够找出所有和
F ′
在最高的
d ′
位相同的指纹
,
因为
|d ′-d|
的值很小
,
所有符合要求的指纹数目也比较小
,
对于其中的每一个符合要求的指纹
,
我们可以轻易的判断出它是否和
F
最多有
K
位不同
(
这些不同很自然的限定在低
f-d ′
位
)
。

上面介绍的方法帮我们定位和
F
有
K
位不同的指纹
,
不过不同的位被限定在低
f-d ′
位中。这对大部分情况来说是合适的
,
但你不能保证没有
k
位不同出现在高
d
位的情况
.
为了覆盖所有的情况
,
采用的方法就是使用一种排序算法
π,
把当前的
F bit
随机打乱
,
这样做的目的是使当前的高位
bit,
在打乱后出现在低位
bit,
然后我们再对打乱后的表排序
,
并把
F ′
用相同的排序算法
π
打乱

再重复我们上面的过程
,
来查找低
f-d ′
位上
k
位不同的情况

这样当我们多使用几种排序算法
π,
重复多次上面的过程
,
那么漏掉
’k
位不同出现在高
d
位
’
的情况的概率就会相当的小
,
从而达到覆盖到所有情况

还有个问题
,
这儿的假设是
, 2^d

个数是随机产生的
.
那么我们这儿的
fingerprints
是基于
hash
算法产生的
,
本身具有很大的随机性
,
所以是符合这个假设的
.
这点原文
4.2 Distribution of Fingerprints
有相应的实验数据
.

假设
f=64,k=3,
那么近似网页的指纹最多有
3
位不同。假设我们有
8B=2³⁴

的已有指纹
,
即
d=34
。

我们可以生成
20
个有序排列表
(
即使用
20
种不同的排列算法打乱原
fingerprint,
并生成有序表
),
方法如下
,

把
64
位分成
6
块
,
分别是
11,11,11,11,10
和
10
位。共有
C(6,3)=20
种方法从
6
块中选择
3
块。对于每种选择
,
排列
π
使得选出的块中的位成为最高位
. d ′
的值就是选出的块中的位数的总和。因此
d ′=31,32,
或者
33 (
和
d
差的不多
).
平均每次检测返回最多
2^34~31

个排列后的指纹。实际应该不会很多

你也可以用
16
个表
,
或更少
,
但使用的表越少
,
必须
d
的取值也越少
,
这样最后需要验证的
fingerprint
就越多
,
这儿就有个时空的平衡
,
时间和空间不可兼得
.

说到这儿大家是不是已经被这个复杂的方法给搞晕
, Google
的这个方法是为了在几十亿篇文章中发现相同的文章
,
相对的精确性要求比较的高
,
如果为了我们的初衷
,
进行文本聚类的话
,
我们不需要用
64-bit
来进行
hash,

也许可以用
16bit,
这个可以通过实验来选择
,
为了避免复杂的汉明距离问题
,
只当两个文章的

fingerprint

完全一致时才认为他们属于一类
,
随着用更少的位数来进行
hash,
这个应该是可行的
,
不过需要具体的实验证明

LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
mysql禁用远程登录 igotyback mysql
去mysql库中的user表里，将host都改成localhost之后刷新权限FLUSHPRIVILEGES;
第1步win10宿主机与虚拟机通过NAT共享上网互通学习3人组大数据大数据
VM的CentOS采用NAT共用宿主机网卡宿主机器无法连接到虚拟CentOS要实现宿主机与虚拟机通信，原理就是给宿主机的网卡配置一个与虚拟机网关相同网段的IP地址，实现可以互通。1、查看虚拟机的IP地址2、编辑虚拟机的虚拟网络的NAT和DHCP的配置，设置虚拟机的网卡选择NAT共享模式3、宿主机的IP配置，确保vnet8的IPV4属性与虚拟机在同一网段4、ping测试连通性[root@localh
CentOS7 安装MySQL5.7.44 不要Null了 java centos mysql
1.下载mysql安装包，我放在百度网盘里(下方链接)链接：https://pan.baidu.com/s/1_Mn1XW_1mWdTV4mhnLG66A提取码：s31n2.首先看看以前是否安装过mysqlrpm-qa|grep-imysql如果已经安装过mysql会提示卸载mysqlrpm-emysql-…3.使用FinallShell或者Xftp进行上传放到/usr/local/mysql，没
管理员权限的软件不能开机自启动的解决方法 ss_ctrl
这是几种解决方法：1.将启动参数写入到32位注册表里面去在64位系统下我们64位的程序访问此HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows\CurrentVersion\Run注册表路径，是可以正确访问的，32位程序访问此注册表路径时，默认会被系统自动映射到HKEY_LOCAL_MACHINE\SOFTWARE\WOW6432Node\Microsoft
Tomcat 中 catalina.out、catalina.log、localhost.log 和 access_log 的区别金色888
打开Tomcat安装目录中的log文件夹，我们可以看到很多日志文件，这篇文章就来介绍下这些日记文件的具体区别。catalina.out日志#catalina.out日志文件是Tomcat的标准输出（stdout）和标准出错（stderr）输出的“目的地”。我们在应用里使用System.out打印的内容都会输出到这个日志文件中。另外，如果我们在应用里使用其他的日志框架，配置了向Console输出日志
华为坤灵路由器配置SSH redmond88 网络技术华为 ssh 运维
配置SSH服务器的管理网口IP地址。system-view[HUAWEI]sysnameSSHServer[SSHServer]interfacemeth0/0/0[SSHServer-MEth0/0/0]ipaddress10.248.103.194255.255.255.0[SSHServer-MEth0/0/0]quit在SSH服务器端生成本地密钥对。[SSHServer]rsalocal-
华为坤灵路由器初始化开局的注意事项，含NAT配置 redmond88 网络技术华为服务器运维
坤灵路由器比较坑，无web界面，全程命令行配置，但是版本更新导致和华为企业路由器配置很多不一样的地方，今天介绍下1、aaa密码复杂度修改：#使能设备对密码进行四选三复杂度检查功能。system-view[HUAWEI]aaa[HUAWEI-aaa]local-aaa-userpasswordpolicyadministrator[HUAWEI-aaa-lupp-admin]passwordcomp
Java内存模型基础 2401_84002271 程序员 java 学习经验分享
1.2Java内存模型的抽象结构Java中所有的实例域、静态域和数组元素都存储在堆内存中，堆内存在线程之间共享（文章中用“共享变量”指代）。局部变量(LocalVariables)、方法定义参数(FormalMethodParameters)和异常处理器参数(ExceptionHandlerParameters)不会在线程之间共享，它们不会存在内存可见性问题，因此也不受内存模型的影响。Java线程
jdbc连接池怎么工作烟雨国度 java 数据库服务器
是否是否是否开始初始化DruidDataSource应用程序请求连接ThreadLocal中有连接?返回ThreadLocal中的连接从连接池获取新连接将连接存入ThreadLocal执行SQL操作调用closeAll()是否自动提交?归还连接到连接池从ThreadLocal移除连接保持连接不变结束开始事务操作调用begin()设置自动提交为false执行多个SQL操作事务是否成功?调用commi
Unity 常用快捷键 z2014z Unity 学习 unity 开发工具
Unity常用快捷键工具栏CtrlShiftAlt功能QHand（手形）工具可以平移整个Scene视图WTranslate（移动）工具移动所选择的游戏对象ERotate（旋转）工具按任意角度旋转游戏对象RScale（缩放）工具缩放选中的游戏对象T横切面工具可以沿着横截面缩放，沿着横截面的中心点旋转ZCenter工具改变游戏对象的轴心点XLocal工具改变物体的坐标VVertexSnap顶点捕捉操作
网上商城项目总结报告 WEB前端程序贵前端
网上商城项目总结报告1：掌握的知识通过网上商城这个实战项目的开发，不仅了解到了一个项目的业务逻辑，而且掌握了实现相关业务功能的方法。通过这个实战项目，了解到了模块化开发项目的基础结构的搭建，以及项目文件的管理方式。通过这个实战项目，运用封装的接口api文档实现了客户端服务器之间的交互知识。通过封装的axios实例对象与方法，向服务器请求数据，然后渲染页面。通过运用localStorage本地储存的
MySQL用户权限管理 hzw0510 MySQL mysql oracle 数据库
创建/授权用户创建用户格式创建用户命令一般格式：createuser[用户名]@[访问地址]identifiedby[密码]举例1：创建zhangsan用户，只是创建用户并没有权限，'localhost'表示只能在本地登录，无法通过远程连接；密码是passwordCREATEUSER'zhangsan'@'localhost'
2020-11-12 写单片机内存的脚本 nc openocd 事务自动测试 linuxScripter
这是写单片机内存的脚本：z@z-ThinkPad-T400:~/zworkT400/EDA_heiche/zREPOgit/simple-gcc-stm32-project$catz.wholeRun.oneCase.cmdcattmp6.toWrite|awk'{system("echomwb"$1""$2"|nclocalhost4444");}'catUSER/DEBUG/debug.h|g
python学习第七节：正则表达式一只会敲代码的小灰灰 python学习 python 学习正则表达式
python学习第七节：正则表达式正则表达式基本上在所有开发语言中都会使用到，在python中尤为重要。当我们使用python开发爬虫程序将目标网页扒下来之后我们要从网页中解析出我们想要的信息，这个时候就需要正则表达式去进行匹配。importrere的常量re模块中有9个常量，常量的值都是int类型！（知道就行）修饰符描述re.l使匹配对大小写不敏感re.L做本地化识别(locale-aware)
配置 yum本地源 linnux领域 linux
1.挂载mount/dev/sr0/mnt2.创建centos目录mkdir/opt/centos3.将挂载内容复制到centos目录下cp-rfv/mnt/*/opt/centos4.创建yum备份目录mkdir/opt/yum5.备份mv/etc/yum.repos.d/*/opt/yum6.创建配置文件，文件名自定义touch/etc/yum.repos.d/local.repo7.编辑lo
K8S学习之PV&&PVC david161
部署mysql之前我们需要先了解一个概念有状态服务。这是一种特殊的服务，简单的归纳下就是会产生需要持久化的数据，并且有很强的I/O需求，且重启需要依赖上次存储到磁盘的数据。如典型的mysql，kafka，zookeeper等等。在我们有比较优秀的商业存储的前提下，非常推荐使用有状态服务进行部署，计算和存储分离那是相当的爽的。在实际生产中如果没有这种存储，localPV也是不错的选择，当然local
qiankun 结合 vue3，小白快速上手体验陈y_d vue.js 前端 javascript
一、主应用改造首先需要维护一份微应用列表，里面包含了微应用的名称、入口和生效规则，若需要给子应用传递内容，可以在props传入对应的内容//app.jsconstapps=[{name:'micro-vue-app3',entry:'//localhost:3013',container:'#micro-vue-app3',activeRule:'/micro-vue3-app3',props:{
实现多级缓存的六种策略方法 Kixuan214 缓存 redis rabbitmq
保证多级缓存数据一致性是一个复杂的任务，尤其是在分布式和高并发环境中。以下是一些常见的方法和策略，可以帮助实现多级缓存的数据一致性1.缓存失效策略1.1主动失效在更新数据库时，主动使相关缓存失效。步骤：更新数据库删除或失效缓存publicclassCacheService{privateLocalCachelocalCache;privateRedisCacheredisCache;private
SAM2跑通（Ubuntu20.04)内含安装多个cuda 好好607 pytorch linux
参考链接：github链接安装cuda，之前借鉴的方法安装多个cuda补充cuda安装：Asymlinkalreadyexistsat/usr/local/cuda.Updatetothisinstallation?选择no，否则会创建一个软连接覆盖之前那个/usr/local/cudasudogedit~/.bashrc如果按第二个链接安装的cuda，手动改一下版本即可SAM环境安装步骤除了本地
MySQL连接层-（通讯协议-线程-验证）否极泰来+ mysql
通讯协议通讯协议连接方式所支持的操作系统TCP/IPlocal,remoteAIISocketfilelocalUNIX-derivedoperatingsystemsincludingLinux,BSD,MaxOSXSharedmemorylocalWindowsNamedpipeslocalWindows1.TCP/IP（传输控制协议/互联网协议）：-是用于连接互联网上主机的一套通信协议-使用
SIPp常用脚本之三：UAC weixin_34075551 网络
UAC是作为SIP消息的发起端，可以控制消息速率什么的，方便极了。一、uac.xml;tag=[call_number]To:Call-ID:[call_id]CSeq:1INVITEContact:sip:[field0]@[local_ip]:[local_port]Max-Forwards:70Subject:PerformanceTestContent-Type:application/s
一文搞懂 Flink Task 数据交互之数据写源码 mn_kw flink 交互 java
一文搞懂FlinkTask数据交互之数据写源码1.RecordWriterOutput2.RecordWriter3.数据分区器ChannelSelector4.数据输出模型ResultPartition5.子模型ResultSubpartition6.本地buffer池LocalBufferPool7.获取buffer8.将buffer添加到ResultSubpartitionFlink重要源码
react 更新元素状态叶绿素yls
所有的react元素都是immutable不可变的。当元素被创建之后，我们无法修改他的内容或属性。根据我们现在所学的react的知识，我们要更新元素的内容，我们必须重新渲染这个元素，也就是重新创建这个元素。看一个例子：functiontick(){constelement=Hello,worldItis{newDate().toLocaleString()}.;ReactDOM.render(el
Elasticsearch7.7.0 配置用户名和密码 i0208 Elasticsearch
配置用户和密码需要在配置文件中开启x-pack验证,修改config目录下面的elasticsearch.yml文件，在里面添加如下内容,并重启ES[root@localhostesuser]#vim/opt/es/elasticsearch-7.7.0/config/elasticsearch.ymlxpack.security.enabled:truexpack.license.self_ge
Linux实操篇_实用指令_压缩和解压类指令 Shaw_Young
压缩和解压缩类gzip/gunzip指令gzip用于压缩文件,gunzip用于解压的基本语法语法功能描述gzip文件压缩文件,只能将文件压缩成为*.gz文件gunzip文件.gz解压缩文件命令应用实例案例1:gzip压缩,将/home下的hello.txt文件进行压缩[root@localhosthome]#gziphello.txt案例2:gunzip压缩,将/home下的hello.txt.g
java:datatimeformat(处理字符串格式问题) StringBuilder（处理字符串）BigDecimal(解决小数失真) 不会编程的阿成 java 开发语言
时间相关的获取方案LocalDate:代表本地的日期（年，月，日，星期）LocalTime:代表本地时间（时，分，秒，纳秒）localDateTime:代表本地日期，时间（年，月，日，星期，时，分，秒，纳秒）importjava.text.SimpleDateFormat;importjava.util.Date;publicclassTimeDemo{publicstaticvoidmain(S
Failure to find (pom/jar) in http://xxx.com was cached in the local repository @Young Cheung jar java
maven项目reimport正常，但是package就报错Failuretofind(pom/jar)inhttp://xxx.comwascachedinthelocalrepository到本地仓库将报错的jar包拷贝的任意目录下，在该目录下执行mvninstall:install-file-DgroupId=com.aliyun.oss-DartifactId=aliyun-sdk-oss
【Java】Mybatis Druid连接池配置详细 beautiful_huang Java
pom.xmlcom.alibabadruid1.0.18.propertiesspring.datasource.driver-class-name=com.mysql.jdbc.Driverspring.datasource.url=jdbc:mysql://localhost:3306/mybatis2?characterEncoding=utf-8&useSSL=truespring.da
docker_持久化存储打败404 docker 容器运维
DockerVolumes单机部署要在Docker中使用Volumes（卷）来实现持久化存储，步骤非常简单。以下是具体的操作方法：创建一个DockerVolume你可以通过DockerCLI来创建卷。执行以下命令创建一个名为my_volume的卷：#这将创建一个卷，Docker会自动管理它的存储位置。[root@localhostmy-flask-app]#dockervolumecreatemy
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。

海量文档查同或聚类问题 -- Locality Sensitive Hash 算法

海量文档查同或聚类问题 -- Locality Sensitive Hash 算法

你可能感兴趣的:(local)