feng_zhiyu

【网络爬虫】Redis存储

原文见：https://germey.gitbooks.io/python3webspider/content/5.3.2-Redis%E5%AD%98%E5%82%A8.html

Redis 是一个基于内存的高效的键值型非关系型数据库，存取效率极高，而且支持多种存储数据结构，使用也非常简单，在本节我们介绍一下 Python 的 Redis 操作，主要介绍 RedisPy 这个库的用法。

1. 准备工作

在本节开始之前请确保已经安装好了 Redis 及 RedisPy库，如果要做数据导入导出操作的话还需要安装 RedisDump，如没有安装可以参考第一章的安装说明。

2. Redis、StrictRedis

RedisPy 库提供两个类 Redis 和 StrictRedis 用于实现Redis 的命令操作。

StrictRedis 实现了绝大部分官方的命令，参数也一一对应，比如 set() 方法就对应 Redis 命令的 set 方法。而Redis 是 StrictRedis 的子类，它的主要功能是用于向后兼容旧版本库里的几个方法，为了做兼容，将方法做了改写，比如 lrem() 方法就将 value 和 num 参数的位置互换，和Redis 命令行的命令参数不一致。

官方推荐使用 StrictRedis，所以本节我们也用 StrictRedis类的相关方法作演示。

3. 连接Redis

当前在本地我已经安装了 Redis 并运行在 6379 端口，密码设置为 foobared。

那么可以用如下示例连接 Redis 并测试：

from redis import StrictRedis

redis = StrictRedis(host='localhost', port=6379, db=0, password='foobared')
redis.set('name', 'Bob')
print(redis.get('name'))

在这里我们传入了 Redis 的地址，运行端口，使用的数据库，密码信息。在默认不传的情况下，这四个参数分别为 localhost、6379、0、None。现在我们声明了一个StrictRedis 对象，然后接下来调用了 set() 方法，设置一个键值对，然后在将其获取打印。

运行结果：

b'Bob'

这样就说明我们连接成功，并可以执行 set()、get() 操作了。

当然我们还可以使用 ConnectionPool 来连接，示例如下：

from redis import StrictRedis, ConnectionPool

pool = ConnectionPool(host='localhost', port=6379, db=0, password='foobared')
redis = StrictRedis(connection_pool=pool)

这样的连接效果是一样的，观察源码可以发现 StrictRedis内其实就是用 host、port 等参数又构造了一个 ConnectionPool，所以我们直接将 ConnectionPool 当参数传给 StrictRedis 也是一样的。

另外 ConnectionPool 还支持通过 URL 来构建，URL 的格式支持如下三种：

redis://[:password]@host:port/db
rediss://[:password]@host:port/db
unix://[:password]@/path/to/socket.sock?db=db

这三种 URL 分别表示创建 Redis TCP 连接、Redis TCP+SSL 连接、Redis Unix Socket 连接，我们只需要构造上面任意一种连接 URL 即可，其中 password 部分如果有则可以写，没有可以省略，下面我们再用URL连接演示一下：

url = 'redis://:foobared@localhost:6379/0'
pool = ConnectionPool.from_url(url)
redis = StrictRedis(connection_pool=pool)

在这里我们使用了第一种连接字符串进行连接，我们首先声明了一个 Redis 连接字符串，然后调用 from_url() 方法创建一个 ConnectionPool，然后将其传给 StrictRedis 即可完成连接，所以使用 URL 的连接方式还是比较方便的。

4. Key 操作

在这里主要将 Key 的一些判断和操作方法做下总结：

方法	作用	参数说明	示例	示例说明	示例结果
exists(name)	判断一个key是否存在	name: key名	`redis.exists('name')`	是否存在name这个key	True
delete(name)	删除一个key	name: key名	`redis.delete('name')`	删除name这个key	1
type(name)	判断key类型	name: key名	`redis.type('name')`	判断name这个key类型	b’string’
keys(pattern)	获取所有符合规则的key	pattern: 匹配规则	`redis.keys('n*')`	获取所有以n开头的key	[b’name’]
randomkey()	获取随机的一个key		`randomkey()`	获取随机的一个key	b’name’
rename(src, dst)	将key重命名	src: 原key名 dst: 新key名	`redis.rename('name', 'nickname')`	将name重命名为nickname	True
dbsize()	获取当前数据库中key的数目		`dbsize()`	获取当前数据库中key的数目	100
expire(name, time)	设定key的过期时间，单位秒	name: key名 time: 秒数	`redis.expire('name', 2)`	将name这key的过期时间设置2秒	True
ttl(name)	获取key的过期时间，单位秒，-1为永久不过期	name: key名	`redis.ttl('name')`	获取name这key的过期时间	-1
move(name, db)	将key移动到其他数据库	name: key名 db: 数据库代号	`move('name', 2)`	将name移动到2号数据库	True
flushdb()	删除当前选择数据库中的所有key		`flushdb()`	删除当前选择数据库中的所有key	True
flushall()	删除所有数据库中的所有key		`flushall()`	删除所有数据库中的所有key	True

5. String操作

Redis 中存在最基本的键值对形式存储，用法总结如下：

方法	作用	参数说明	示例	示例说明	示例结果
set(name, value)	给数据库中key为name的string赋予值value	name: key名 value: 值	`redis.set('name', 'Bob')`	给name这个key的value赋值为Bob	True
get(name)	返回数据库中key为name的string的value	name: key名	`redis.get('name')`	返回name这个key的value	b’Bob’
getset(name, value)	给数据库中key为name的string赋予值value并返回上次的value	name: key名 value: 新值	`redis.getset('name', 'Mike')`	赋值name为Mike并得到上次的value	b’Bob’
mget(keys, *args)	返回多个key对应的value	keys: key的列表	`redis.mget(['name', 'nickname'])`	返回name和nickname的value	[b’Mike’, b’Miker’]
setnx(name, value)	如果key不存在才设置value	name: key名	`redis.setnx('newname', 'James')`	如果newname这key不存在则设置值为James	第一次运行True，第二次False
setex(name, time, value)	设置可以对应的值为string类型的value，并指定此键值对应的有效期	name: key名 time: 有效期 value: 值	`redis.setex('name', 1, 'James')`	将name这key的值设为James，有效期1秒	True
setrange(name, offset, value)	设置指定key的value值的子字符串	name: key名 offset: 偏移量 value: 值	`redis.set('name', 'Hello') redis.setrange('name', 6, 'World')`	设置name为Hello字符串，并在index为6的位置补World	11，修改后的字符串长度
mset(mapping)	批量赋值	mapping: 字典	`redis.mset({'name1': 'Durant', 'name2': 'James'})`	将name1设为Durant，name2设为James	True
msetnx(mapping)	key均不存在时才批量赋值	mapping: 字典	`redis.msetnx({'name3': 'Smith', 'name4': 'Curry'})`	在name3和name4均不存在的情况下才设置二者值	True
incr(name, amount=1)	key为name的value增值操作，默认1，key不存在则被创建并设为amount	name: key名 amount:增长的值	`redis.incr('age', 1)`	age对应的值增1，若不存在则会创建并设置为1	1，即修改后的值
decr(name, amount=1)	key为name的value减值操作，默认1，key不存在则被创建并设置为-amount	name: key名 amount:减少的值	`redis.decr('age', 1)`	age对应的值减1，若不存在则会创建并设置为-1	-1，即修改后的值
append(key, value)	key为name的string的值附加value	key: key名	`redis.append('nickname', 'OK')`	向key为nickname的值后追加OK	13，即修改后的字符串长度
substr(name, start, end=-1)	返回key为name的string的value的子串	name: key名 start: 起始索引 end: 终止索引，默认-1截取到末尾	`redis.substr('name', 1, 4)`	返回key为name的值的字符串，截取索引为1-4的字符	b’ello’
getrange(key, start, end)	获取key的value值从start到end的子字符串	key: key名 start: 起始索引 end: 终止索引	`redis.getrange('name', 1, 4)`	返回key为name的值的字符串，截取索引为1-4的字符	b’ello’

6. List操作

List，即列表。Redis 还提供了列表存储，列表内的元素可以重复，而且可以从两端存储，用法总结如下：

方法	作用	参数说明	示例	示例说明	示例结果
rpush(name, *values)	在key为name的list尾添加值为value的元素，可以传多个	name: key名 values: 值	`redis.rpush('list', 1, 2, 3)`	给list这个key的list尾添加1、2、3	3，list大小
lpush(name, *values)	在key为name的list头添加值为value的元素，可以传多个	name: key名 values: 值	`redis.lpush('list', 0)`	给list这个key的list头添加0	4，list大小
llen(name)	返回key为name的list的长度	name: key名	`redis.llen('list')`	返回key为list的列表的长度	4
lrange(name, start, end)	返回key为name的list中start至end之间的元素	name: key名 start: 起始索引 end: 终止索引	`redis.lrange('list', 1, 3)`	返回起始为1终止为3的索引范围对应的list	`[b'3', b'2', b'1']`
ltrim(name, start, end)	截取key为name的list，保留索引为start到end的内容	name:key名 start: 起始索引 end: 终止索引	`ltrim('list', 1, 3)`	保留key为list的索引为1到3的元素	True
lindex(name, index)	返回key为name的list中index位置的元素	name: key名 index: 索引	`redis.lindex('list', 1)`	返回key为list的列表index为1的元素	b’2’
lset(name, index, value)	给key为name的list中index位置的元素赋值，越界则报错	name: key名 index: 索引位置 value: 值	`redis.lset('list', 1, 5)`	将key为list的list索引1位置赋值为5	True
lrem(name, count, value)	删除count个key的list中值为value的元素	name: key名 count: 删除个数 value: 值	`redis.lrem('list', 2, 3)`	将key为list的列表删除2个3	1，即删除的个数
lpop(name)	返回并删除key为name的list中的首元素	name: key名	`redis.lpop('list')`	返回并删除名为list的list第一个元素	b’5’
rpop(name)	返回并删除key为name的list中的尾元素	name: key名	`redis.rpop('list')`	返回并删除名为list的list最后一个元素	b’2’
blpop(keys, timeout=0)	返回并删除名称为在keys中的list中的首元素，如果list为空，则会一直阻塞等待	keys: key列表 timeout: 超时等待时间，0为一直等待	`redis.blpop('list')`	返回并删除名为list的list的第一个元素	[b’5’]
brpop(keys, timeout=0)	返回并删除key为name的list中的尾元素，如果list为空，则会一直阻塞等待	keys: key列表 timeout: 超时等待时间，0为一直等待	`redis.brpop('list')`	返回并删除名为list的list的最后一个元素	[b’2’]
rpoplpush(src, dst)	返回并删除名称为src的list的尾元素，并将该元素添加到名称为dst的list的头部	src: 源list的key dst: 目标list的key	`redis.rpoplpush('list', 'list2')`	将key为list的list尾元素删除并返回并将其添加到key为list2的list头部	b’2’

7. Set操作

Set，即集合。Redis 还提供了集合存储，集合中的元素都是不重复的，用法总结如下：

方法	作用	参数说明	示例	示例说明	示例结果
sadd(name, *values)	向key为name的set中添加元素	name: key名 values: 值，可为多个	`redis.sadd('tags', 'Book', 'Tea', 'Coffee')`	向key为tags的set中添加Book、Tea、Coffee三个内容	3，即插入的数据个数
srem(name, *values)	从key为name的set中删除元素	name: key名 values: 值，可为多个	`redis.srem('tags', 'Book')`	从key为tags的set中删除Book	1，即删除的数据个数
spop(name)	随机返回并删除key为name的set中一个元素	name: key名	`redis.spop('tags')`	从key为tags的set中随机删除并返回该元素	b’Tea’
smove(src, dst, value)	从src对应的set中移除元素并添加到dst对应的set中	src: 源set dst: 目标set value: 元素值	`redis.smove('tags', 'tags2', 'Coffee')`	从key为tags的set中删除元素Coffee并添加到key为tags2的set	True
scard(name)	返回key为name的set的元素个数	name: key名	`redis.scard('tags')`	获取key为tags的set中元素个数	3
sismember(name, value)	测试member是否是key为name的set的元素	name:key值	`redis.sismember('tags', 'Book')`	判断Book是否为key为tags的set元素	True
sinter(keys, *args)	返回所有给定key的set的交集	keys: key列表	`redis.sinter(['tags', 'tags2'])`	返回key为tags的set和key为tags2的set的交集	{b’Coffee’}
sinterstore(dest, keys, *args)	求交集并将交集保存到dest的集合	dest:结果集合 keys:key列表	`redis.sinterstore('inttag', ['tags', 'tags2'])`	求key为tags的set和key为tags2的set的交集并保存为inttag	1
sunion(keys, *args)	返回所有给定key的set的并集	keys: key列表	`redis.sunion(['tags', 'tags2'])`	返回key为tags的set和key为tags2的set的并集	{b’Coffee’, b’Book’, b’Pen’}
sunionstore(dest, keys, *args)	求并集并将并集保存到dest的集合	dest:结果集合 keys:key列表	`redis.sunionstore('inttag', ['tags', 'tags2'])`	求key为tags的set和key为tags2的set的并集并保存为inttag	3
sdiff(keys, *args)	返回所有给定key的set的差集	keys: key列表	`redis.sdiff(['tags', 'tags2'])`	返回key为tags的set和key为tags2的set的差集	{b’Book’, b’Pen’}
sdiffstore(dest, keys, *args)	求差集并将差集保存到dest的集合	dest:结果集合 keys:key列表	`redis.sdiffstore('inttag', ['tags', 'tags2'])`	求key为tags的set和key为tags2的set的差集并保存为inttag	3
smembers(name)	返回key为name的set的所有元素	name: key名	`redis.smembers('tags')`	返回key为tags的set的所有元素	{b’Pen’, b’Book’, b’Coffee’}
srandmember(name)	随机返回key为name的set的一个元素，但不删除元素	name: key值	`redis.srandmember('tags')`	随机返回key为tags的set的一个元素

8. Sorted Set操作

Sorted Set，即有序集合，它相比集合多了一个分数字段，利用它我们可以对集合中的数据进行排序，其用法总结如下：

方法	作用	参数说明	示例	示例说明	示例结果
zadd(name, args, *kwargs)	向key为name的zset中添加元素member，score用于排序。如果该元素存在，则更新其顺序	name: key名 args: 可变参数	`redis.zadd('grade', 100, 'Bob', 98, 'Mike')`	向key为grade的zset中添加Bob，score为100，添加Mike，score为98	2，即添加的元素个数
zrem(name, *values)	删除key为name的zset中的元素	name: key名 values: 元素	`redis.zrem('grade', 'Mike')`	从key为grade的zset中删除Mike	1，即删除的元素个数
zincrby(name, value, amount=1)	如果在key为name的zset中已经存在元素value，则该元素的score增加amount，否则向该集合中添加该元素，其score的值为amount	name: key名 value: 元素 amount: 增长的score值	`redis.zincrby('grade', 'Bob', -2)`	key为grade的zset中Bob的score减2	98.0，即修改后的值
zrank(name, value)	返回key为name的zset中元素的排名（按score从小到大排序）即下标	name: key名 value: 元素值	`redis.zrank('grade', 'Amy')`	得到key为grade的zset中Amy的排名	1
zrevrank(name, value)	返回key为name的zset中元素的倒数排名（按score从大到小排序）即下标	name: key名 value: 元素值	`redis.zrevrank('grade', 'Amy')`	得到key为grade的zset中Amy的倒数排名	2
zrevrange(name, start, end, withscores=False)	返回key为name的zset（按score从大到小排序）中的index从start到end的所有元素	name: key值 start: 开始索引 end: 结束索引 withscores: 是否带score	`redis.zrevrange('grade', 0, 3)`	返回key为grade的zset前四名元素	[b’Bob’, b’Mike’, b’Amy’, b’James’]
zrangebyscore(name, min, max, start=None, num=None, withscores=False)	返回key为name的zset中score在给定区间的元素	name:key名 min: 最低score max:最高score start: 起始索引 num: 个数 withscores: 是否带score	`redis.zrangebyscore('grade', 80, 95)`	返回key为grade的zset中score在80和95之间的元素	[b’Amy’, b’James’]
zcount(name, min, max)	返回key为name的zset中score在给定区间的数量	name:key名 min: 最低score max: 最高score	`redis.zcount('grade', 80, 95)`	返回key为grade的zset中score在80到95的元素个数	2
zcard(name)	返回key为name的zset的元素个数	name: key名	`redis.zcard('grade')`	获取key为grade的zset中元素个数	3
zremrangebyrank(name, min, max)	删除key为name的zset中排名在给定区间的元素	name:key名 min: 最低位次 max: 最高位次	`redis.zremrangebyrank('grade', 0, 0)`	删除key为grade的zset中排名第一的元素	1，即删除的元素个数
zremrangebyscore(name, min, max)	删除key为name的zset中score在给定区间的元素	name:key名 min: 最低score max:最高score	`redis.zremrangebyscore('grade', 80, 90)`	删除score在80到90之间的元素	1，即删除的元素个数

9. Hash操作

Hash，即哈希。Redis 还提供了哈希表的数据结构，我们可以用name指定一个哈希表的名称，然后表内存储了各个键值对，用法总结如下：

方法	作用	参数说明	示例	示例说明	示例结果
hset(name, key, value)	向key为name的hash中添加映射	name: key名 key: 映射键名 value: 映射键值	`hset('price', 'cake', 5)`	向key为price的hash中添加映射关系，cake的值为5	1，即添加的映射个数
hsetnx(name, key, value)	向key为name的hash中添加映射，如果映射键名不存在	name: key名 key: 映射键名 value: 映射键值	`hsetnx('price', 'book', 6)`	向key为price的hash中添加映射关系，book的值为6	1，即添加的映射个数
hget(name, key)	返回key为name的hash中field对应的value	name: key名 key: 映射键名	`redis.hget('price', 'cake')`	获取key为price的hash中键名为cake的value	5
hmget(name, keys, *args)	返回key为name的hash中各个键对应的value	name: key名 keys: 映射键名列表	`redis.hmget('price', ['apple', 'orange'])`	获取key为price的hash中apple和orange的值	[b’3’, b’7’]
hmset(name, mapping)	向key为name的hash中批量添加映射	name: key名 mapping: 映射字典	`redis.hmset('price', {'banana': 2, 'pear': 6})`	向key为price的hash中批量添加映射	True
hincrby(name, key, amount=1)	将key为name的hash中映射的value增加amount	name: key名 key: 映射键名 amount: 增长量	`redis.hincrby('price', 'apple', 3)`	key为price的hash中apple的值增加3	6，修改后的值
hexists(name, key)	key为namehash中是否存在键名为key的映射	name: key名 key: 映射键名	`redis.hexists('price', 'banana')`	key为price的hash中banana的值是否存在	True
hdel(name, *keys)	key为namehash中删除键名为key的映射	name: key名 key: 映射键名	`redis.hdel('price', 'banana')`	从key为price的hash中删除键名为banana的映射	True
hlen(name)	从key为name的hash中获取映射个数	name: key名	`redis.hlen('price')`	从key为price的hash中获取映射个数	6
hkeys(name)	从key为name的hash中获取所有映射键名	name: key名	`redis.hkeys('price')`	从key为price的hash中获取所有映射键名	[b’cake’, b’book’, b’banana’, b’pear’]
hvals(name)	从key为name的hash中获取所有映射键值	name: key名	`redis.hvals('price')`	从key为price的hash中获取所有映射键值	[b’5’, b’6’, b’2’, b’6’]
hgetall(name)	从key为name的hash中获取所有映射键值对	name: key名	`redis.hgetall('price')`	从key为price的hash中获取所有映射键值对	{b’cake’: b’5’, b’book’: b’6’, b’orange’: b’7’, b’pear’: b’6’}

10. RedisDump

RedisDump 提供了强大的 Redis 数据的导入和导出功能，本节我们来看下它的具体用法。

首先确保已经安装好了 RedisDump。

RedisDump 提供两个可执行命令，redis-dump 用于导出数据，redis-load 用于导入数据。

redis-dump

我们可以首先输入如下命令查看所有可选项：

redis-dump -h

运行结果如下：

Usage: redis-dump [global options] COMMAND [command options] 
    -u, --uri=S                      Redis URI (e.g. redis://hostname[:port])
    -d, --database=S                 Redis database (e.g. -d 15)
    -s, --sleep=S                    Sleep for S seconds after dumping (for debugging)
    -c, --count=S                    Chunk size (default: 10000)
    -f, --filter=S                   Filter selected keys (passed directly to redis' KEYS command)
    -O, --without_optimizations      Disable run time optimizations
    -V, --version                    Display version
    -D, --debug
        --nosafe

可以看到其参数，-u 代表 Redis 连接字符串，-d 代表数据库代号，默认全部，-s 代表导出之后的休眠时间，-c 代表分块大小，默认是 10000，-f 代表导出时的过滤器，-O 代表禁用运行时优化，-V 显示版本，-D 开启调试。

我们拿本地的 Redis 做测试，运行在 6379 端口上，密码为 foobared，导出命令如下：

redis-dump -u :foobared@localhost:6379

如果没有密码的话可以不加密码前缀，命令如下：

redis-dump -u localhost:6379

运行之后可以将本地 0-15号数据库的所有数据输出出来，例如：

{"db":0,"key":"name","ttl":-1,"type":"string","value":"James","size":5}
{"db":0,"key":"name2","ttl":-1,"type":"string","value":"Durant","size":6}
{"db":0,"key":"name3","ttl":-1,"type":"string","value":"Durant","size":6}
{"db":0,"key":"name4","ttl":-1,"type":"string","value":"HelloWorld","size":10}
{"db":0,"key":"name5","ttl":-1,"type":"string","value":"James","size":5}
{"db":0,"key":"name6","ttl":-1,"type":"string","value":"James","size":5}
{"db":0,"key":"age","ttl":-1,"type":"string","value":"1","size":1}
{"db":0,"key":"age2","ttl":-1,"type":"string","value":"-5","size":2}

每条数据都包含五个字段，db 即数据库代号，key 即键名，ttl 即该键值对的有效时间，type 即键值类型，size 即占用空间。

如果想要将其输出为 Json 行文件，可以使用如下命令：

redis-dump -u :foobared@localhost:6379 > ./redis_data.jl

这样我们就可以成功将 Redis 的所有数据库的所有数据导出成 Json 行文件了。

另外我们可以使用 -d 参数指定某个数据库的导出，例如只导出 1 号数据库的内容：

redis-dump -u :foobared@localhost:6379 -d 1 > ./redis.data.jl

如果只想导出特定的内容，如想导出 adsl 开头的数据，可以加入 -f 参数用来过滤，命令如下：

redis-dump -u :foobared@localhost:6379 -f adsl:* > ./redis.data.jl

其中 -f 的参数即 Redis 的 keys 命令的参数，可以写一些过滤规则。

redis-load

我们同样可以首先输入如下命令查看所有可选项：

redis-load -h

运行结果如下：

redis-load --help 

  Try: redis-load [global options] COMMAND [command options]  

    -u, --uri=S                      Redis URI (e.g. redis://hostname[:port]) 

    -d, --database=S                 Redis database (e.g. -d 15) 

    -s, --sleep=S                    Sleep for S seconds after dumping (for debugging) 

    -n, --no_check_utf8 

    -V, --version                    Display version 

    -D, --debug 

        --nosafe

可以看到其参数，-u 代表 Redis 连接字符串，-d 代表数据库代号，默认全部，-s 代表导出之后的休眠时间，-n 代表不检测 UTF-8 编码，-V 显示版本，-D 开启调试。

我们可以将 Json 行文件导入到 Redis 数据库中：

< redis_data.json redis-load -u :foobared@localhost:6379

这样就可以成功将 Json 行文件导入到数据库中了。

另外如下命令同样可以达到同样的效果：

cat redis_data.json | redis-load -u :foobared@localhost:6379

以上便是 RedisDump 的使用概述，使用它我们可以高效便捷地实现 Redis 数据库的导入导出。

11. 结语

本节我们了解了 RedisPy 对 Redis 数据库的一些基本操作，另外还了解了 RedisDump 对数据导入导出做了演示，由于其便捷和高效性，在后文我们会利用 Redis 实现很多架构，如维护代理池、Cookies 池、ADSL 拨号代理池、ScrapyRedis 分布式架构等，所以 Redis 的操作需要好好掌握。

你可能感兴趣的:(网络爬虫)

Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
Python精选200Tips：121-125 AnFany Python200+Tips python 开发语言
Spendyourtimeonself-improvement121Requests-简化的HTTP请求处理发送GET请求发送POST请求发送PUT请求发送DELETE请求会话管理处理超时文件上传122BeautifulSoup-网页解析和抓取解析HTML和XML文档查找单个标签查找多个标签使用CSS选择器查找标签提取文本修改文档内容删除标签处理XML文档123Scrapy-强大的网络爬虫框架示例
爬虫之隧道代理：如何在爬虫中使用代理IP？ 2401_87251497 python 开发语言爬虫网络 tcp/ip 网络协议
在进行网络爬虫时，使用代理IP是一种常见的方式来绕过网站的反爬虫机制，提高爬取效率和数据质量。本文将详细介绍如何在爬虫中使用隧道代理，包括其原理、优势以及具体的实现方法。无论您是爬虫新手还是有经验的开发者，这篇文章都将为您提供实用的指导。什么是隧道代理？隧道代理是一种高级的代理技术，它通过创建一个加密的隧道，将数据从客户端传输到代理服务器，再由代理服务器转发到目标服务器。这样不仅可以隐藏客户端的真
Python爬虫代理池极客李华 python授课 python 爬虫开发语言
Python爬虫代理池网络爬虫在数据采集和信息抓取方面起到了关键作用。然而，为了应对网站的反爬虫机制和保护爬虫的真实身份，使用代理池变得至关重要。1.代理池的基本概念：代理池是一组包含多个代理IP地址的集合。通过在爬虫中使用代理池，我们能够隐藏爬虫的真实IP地址，实现一定程度的匿名性。这有助于防止被目标网站封锁或限制访问频率。2.为何使用代理池：匿名性：代理池允许爬虫在请求目标网站时使用不同的IP
盘点一个Python网络爬虫抓取股票代码问题（上篇）皮皮_f075
大家好，我是皮皮。一、前言前几天在Python白银群【厚德载物】问了一个Python网络爬虫的问题，这里拿出来给大家分享下。image.png二、实现过程这个问题其实for循环就可以搞定了，看上去粉丝的代码没有带请求头那些，导致获取不到数据。后来【瑜亮老师】、【小王子】给了具体思路，代码如下图所示：image.png后来【小王子】也给了一个具体代码，如下：importrequestsimportt
python ray分布式_取代 Python 多进程！伯克利开源分布式框架 Ray weixin_39946313 python ray分布式
Ray由伯克利开源，是一个用于并行计算和分布式Python开发的开源项目。本文将介绍如何使用Ray轻松构建可从笔记本电脑扩展到大型集群的应用程序。并行和分布式计算是现代应用程序的主要内容。我们需要利用多个核心或多台机器来加速应用程序或大规模运行它们。网络爬虫和搜索所使用的基础设施并不是在某人笔记本电脑上运行的单线程程序，而是相互通信和交互的服务的集合。云计算承诺在所有维度上(内存、计算、存储等)实
如何用python爬取股票数据选股_用python爬取股票数据 weixin_39752087
获取数据是数据分析中必不可少的一部分，而网络爬虫是是获取数据的一个重要渠道之一。鉴于此，我拾起了Python这把利器，开启了网络爬虫之路。本篇使用的版本为python3.5，意在抓取证券之星上当天所有A股数据。程序主要分为三个部分：网页源码的获取、所需内容的提取、所得结果的整理。一、网页源码的获取很多人喜欢用python爬虫的原因之一就是它容易上手。只需以下几行代码既可抓取大部分网页的源码。imp
使用 RecursiveUrlLoader 实现递归网页爬取：深入解析与实践指南 qq_37836323 python 前端数据库
使用RecursiveUrlLoader实现递归网页爬取：深入解析与实践指南1.引言在当今的数字时代，网络爬虫已成为获取和分析大量在线信息的重要工具。LangChain提供的RecursiveUrlLoader是一个强大的工具，能够递归地爬取网页内容，并将其转换为易于处理的文档格式。本文将深入探讨RecursiveUrlLoader的使用方法、特性以及实际应用场景。2.RecursiveUrlLo
Python 协程 & 异步编程 (asyncio) 入门介绍 linmeiyun 后端 python python 爬虫学习开发语言机器学习
在近期的编码工作过程中遇到了async和await装饰的函数，查询资料后了解到这种函数是基于协程的异步函数。这类编程方式称为异步编程，常用在IO较频繁的系统中，如：Tornadoweb框架、文件下载、网络爬虫等应用。协程能够在IO等待时间就去切换执行其他任务，当IO操作结束后再自动回调，那么就会大大节省资源并提供性能。接下来便简单的讲解一下异步编程相关概念以及案例演示。1.协程简介1.1协程的含义
python网络爬虫（五）——爬取天气预报光电的一只菜鸡 python python 爬虫开发语言
1.注册高德天气key 点击高德天气，然后按照开发者文档完成key注册；作为爬虫练习项目之一。从高德地图json数据接口获取天气，可以获取某省的所有城市天气，高德地图的这个接口还能获取县城的天气。其天气查询API服务地址为https://restapi.amap.com/v3/weather/weatherInfo?parameters，若要获取某城市的天气推荐2.安装MongoDB Mong
顶级的python入门教程！小白到大师，从这篇教程开始！马大哈（Python） python pycharm 开发语言学习青少年编程
1.为什么要学习Python？学习Python的原因有很多，以下是几个主要的原因：广泛应用：Python被广泛应用于Web开发、数据科学、人工智能、机器学习、自动化运维、网络爬虫、科学计算、游戏开发等多个领域。掌握Python意味着你可以在这些领域中找到丰富的职业机会。入门简单：Python的语法简洁明了，易于学习和理解，对于编程初学者来说非常友好。它的代码风格一致，可读性强，有助于培养良好的编程
爬虫更换ip地址 xiaoxiongip666 爬虫 tcp/ip 网络协议
网络爬虫更换IP地址是为了应对网站的反爬策略，如IP限制、频率控制等。IP地址轮换的主要目的是保持匿名性和隐蔽性，防止被目标服务器识别为同一个爬虫客户端。以下是一些常见的IP更换方法：使用代理IP池：通过购买或使用免费的代理IP服务，爬虫程序会周期性地从池中获取一个新的IP地址，然后进行请求。常见的代理服务提供商有小熊IP等。间隔时间更换：爬虫可以在每次请求之间设置一个随机或固定的等待时间，然后更
Python爬虫实战 weixin_34007879 爬虫 json java
引言网络爬虫是抓取互联网信息的利器，成熟的开源爬虫框架主要集中于两种语言Java和Python。主流的开源爬虫框架包括：1.分布式爬虫框架：Nutch2.Java单机爬虫框架：Crawler4j,WebMagic,WebCollector、Heritrix3.python单机爬虫框架：scrapy、pyspiderNutch是专为搜索引擎设计的的分布式开源框架，上手难度高，开发复杂，基本无法满足快
Day21—爬虫性能优化技巧 Ztop 爬虫（新手推荐）爬虫 python 性能优化
在网络爬虫的开发过程中，性能优化是一个关键环节。一个高效的爬虫不仅能够快速完成任务，还能减轻对目标网站的压力，降低被封禁的风险。本文将讨论如何优化爬虫性能，包括请求头优化、连接池、缓存策略等技巧。1.请求头优化请求头是HTTP请求的重要组成部分，它包含了客户端向服务器发送的元数据。通过优化请求头，可以模拟正常用户的行为，减少被网站识别为爬虫的可能性。User-Agent：设置合适的User-Age
【网络安全】Bingbot索引投毒实现储存型XSS 秋说网络安全 web安全漏洞挖掘
未经许可，不得转载。文章目录前言Bingbot如何运作正文漏洞步骤前言Bing是由微软开发的搜索引擎，提供网页、视频、图片和地图等多种搜索功能。其目标是通过呈现有条理且相关的搜索结果，帮助用户做出更明智的决策。Bingbot是微软开发的网络爬虫，也被称为蜘蛛或搜索引擎机器人，主要用于探索和索引Bing搜索引擎的网页。自2010年10月推出以来，Bingbot通过外部和内部链接发现新网页，并更新已存
21.7K Star力荐！跨平台的开源免费可视化爬虫，让数据采集不再是难题！科技Ins 实用工具爬虫
朋友们！你是否曾梦想着轻松地从网上抓取数据，却苦于编程技能的门槛？现在，有了EasySpider，这一切都变得触手可及！这不仅仅是一个工具，它是一个革命性的网络爬虫神器，让你能够像专业人士一样，无需编写一行代码，就能轻松设计和执行爬虫任务。无论是动态内容还是复杂页面，EasySpider都能帮你搞定。而且，它完全免费，开源，跨平台，还有活跃的社区支持。准备好了吗？让我们一探究竟，看看EasySpi
爬虫进阶之人见人爱的Scrapy框架--Scrapy入门我真的超级好
不要重复造轮子，这是学习Python以来听得最多的一句话，无非就是叫我们要灵活运用现有的库，毕竟Python的一大特点就是拥有功能强大强大而种类丰富的库。那么在爬虫领域要灵活使用哪个轮子呢？--当然是目前最火的爬虫框架Scrapy。笔者通过慕课网免费课程《Python最火爬虫框架Scrapy入门与实践》+书籍《精通Scrapy网络爬虫》+度娘+CSDN完成自学，其中遇到诸多困难（要么太深入没看懂，
python网络爬虫（一）——网络爬虫基本原理光电的一只菜鸡 python python 爬虫数据库
1.使用BeautifulSoup解析网页通过request库已经抓取到网页源码，接下来要从源码中找到并提取数据。BeautifulSoup是python的一个库，其主要功能是从网页中抓取数据。BeautifulSoup目前已经被移植到bs4库中，也就是说在导入BeautifulSoup时需要先安装bs4。安装好bs4库后，还需要安装lxml库。如果我们不安装lxml库，就会使用python默
Python爬虫核心面试题2 闲人编程程序员面试 python 爬虫开发语言面试网络 HTTP
网络爬虫1.什么是HTTP协议？它有哪些常见的请求方法？2.在进行网络爬虫时，如何判断一个网站是否允许被爬取？3.在使用HTTP请求时，如何处理重定向？4.解释HTTP状态码200、404、500的含义。5.什么是Session？如何在爬虫中保持Session？6.在爬虫中，如何处理Cookies？7.解释什么是SSL/TLS？如何在爬虫中处理SSL证书验证？8.如何处理请求超时？9.什么是HTT
如何在Java爬虫中设置代理IP：详解与技巧天启代理ip java 爬虫 tcp/ip
在进行网络爬虫时，使用代理IP可以有效地避免被目标网站封禁，提升数据抓取的成功率。本文将详细介绍如何在Java爬虫中设置代理IP，并提供一些实用的技巧和示例代码。为什么需要代理IP？在进行爬虫操作时，频繁的请求可能会引起目标网站的注意，甚至导致IP被封禁。就像一只贪心的小猫不停地偷鱼吃，迟早会被发现。为了避免这种情况，我们可以使用代理IP，模拟多个用户，从而降低被封禁的风险。获取代理IP获取代理I
Java爬虫开发：Jsoup库在图片URL提取中的实战应用小白学大数据 python java 爬虫开发语言测试工具前端 javascript
在当今的互联网时代，数据的获取和处理变得尤为重要。对于网站内容的自动化抓取，爬虫技术扮演着不可或缺的角色。Java作为一种广泛使用的编程语言，拥有丰富的库支持网络爬虫的开发。其中，Jsoup库以其简洁、高效的特点，成为处理HTML内容和提取数据的优选工具。本文将详细介绍如何使用Jsoup库开发Java爬虫，以实现图片URL的提取。Jsoup库简介Jsoup是一个用于解析HTML文档的Java库，它
Scrapy添加代理IP池：自动化爬虫的秘密武器天启代理ip scrapy tcp/ip 自动化
在网络爬虫的世界里，IP地址的频繁更换是防止被目标网站封禁的有效手段。通过在Scrapy中添加代理IP池，你可以轻松实现自动化的IP切换，提高数据抓取的效率和稳定性。今天，我们就来详细讲解一下如何在Scrapy中添加代理IP池，让你的爬虫更加智能和高效。什么是代理IP池？代理IP池是指一组可以轮换使用的代理IP地址集合。通过在爬虫中使用代理IP池，你可以在每次请求时随机选择一个代理IP，从而避免因
python网络爬虫（三）——爬虫攻防光电的一只菜鸡 python python 爬虫开发语言
爬虫是模拟人的浏览访问行为，进行数据的批量抓取，当抓取的数据量逐渐增大时，会给被访问的服务器造成很大的压力，甚至有可能崩溃。换句话说就是，服务器是不喜欢有人抓取自己的数据的，那么，网站方面就会这队这些爬虫者采取一些反爬策略。服务器识别爬虫的一种方式是通过检查连接的User-Agent来识别到底是浏览器访问还是代码访问的。如果是代码访问的，当访问量增大时，服务器其就会直接封掉来访IP。在
python网络爬虫（二）——数据的清洗与组织光电的一只菜鸡 python python 爬虫 java
学会了网络爬虫发送请求后，我们可以获得一段目标的HTML代码，但是还没有把数据提取出来，接下来需要进行数据的清洗与组织。foritemindata:result={'title':item.get_test(),'link':item.get('href')}print(result) 首先明确要提取的数据是标题和链接，标题在a标签中，提取标签的正文用get_text()方法；链接在a标签的
python网络爬虫的流程图_python爬虫系列（1）- 概述 weixin_39649965 python网络爬虫的流程图
原标题：python爬虫系列（1）-概述事由之前间断地写过一些python爬虫的一些文章，如：工具分享|在线小说一键下载Python帮你定制批量获取智联招聘的信息Python帮你定制批量获取你想要的信息用python定制网页跟踪神器，有信息更新第一时间通知你（附视频演示）把python网页跟踪神器部署到云上，彻底解放你的电脑个人认为学习python语言的话，爬虫是一个非常适合入门的方向。为了把学习
【Python进阶】Python爬虫的基本概念，带你进一步了解Python爬虫！！！程序员陌陌 python 爬虫开发语言
一、Python爬虫基本概念网络爬虫，又称为网页蜘蛛或爬虫，是一种自动浏览万维网的程序。它按照一定的算法顺序抓取网页内容，同时将抓取到的数据存储起来，用于进一步的分析和处理。网络爬虫在信息获取、数据挖掘、搜索引擎构建等方面发挥着关键作用。二、工作流程确定目标网站：明确需要抓取数据的网站和具体页面。分析网页结构：使用开发者工具查看网页的HTML结构，确定数据存放的位置。编写爬虫代码：使用Python
搜索引擎原理详解风不归Alkaid 搜索引擎搜索引擎
搜索引擎是一种复杂的软件系统，旨在帮助用户找到互联网上的信息。它们通过索引大量网页并快速响应用户查询来工作。搜索引擎的核心功能包括爬虫（crawling）、索引（indexing）、查询处理（queryprocessing）和排名（ranking）。一、网络爬虫（WebCrawling）网络爬虫（WebCrawling）是搜索引擎的核心组件之一，它的主要任务是发现和获取互联网上的网页内容，以便后续
网络爬虫是否存在侵权行为，合法吗？ Bj陈默爬虫 python 网络
网络爬虫是一种按照一定规则自动抓取互联网信息的程序或脚本。其是否存在侵权行为以及是否合法不能一概而论，需要根据具体情况进行分析判断，主要从以下几个方面考量：一、合法性的判定遵守robots协议：robots协议（也称爬虫协议）是网站通过该协议明确警示搜索引擎哪些页面可以爬取，哪些页面不能爬取，相当于网站立在自己房间门口的一个“牌子”，告知外来者谁可以过来，谁不可以过来。如果网络爬虫在被爬取方设置的
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，