doubles_blog

路飞学城-Python 爬虫实战密训-第 1 章

本节学习体会：

鸡汤心得：

1、时代发展太快，要不断学习新东西，武装自己，才能跟得上时代的潮流，不然就是面临被pass的命运

2、要看清楚趋势，不要闭门造车

3、学习编程语言就跟学英语一样，方法很重要。总结为input-output-correction。

input：就是大量的视频、博客、书籍灌进去（每天坚持2小时看视频或者其他方式学习）

output：大量的练习，代码是敲出来的，不是看出来的。多去做题巩固。

correction：树木成长过程需要园艺工人修修剪剪，我们编程学习过程中也需要有人来指导修正。导师检查你的作业，指出一些学习方法与编程习惯的纠正。

爬虫笔记：

1、不会web能不能做爬虫？

答案：web与爬虫是不分家的。学web的一般都会一些反爬机制，学爬虫的对于web的前后端知识肯定是非常精通的，不然一段js都看不懂，会找不到入口的。

2、学爬虫会经历几个阶段：

首先是：找不着入口，不知道从何爬起。====》解决方法：多试几次，多摩擦几次。

然后是：反复的试错，试着试着就突然找到入口了。===》作总结

3、爬虫必备知识：

1、爬虫的本质，通过代码伪造浏览器行为发送请求。

2、Http请求伪造像不像要看以下两点：

- 请求头：（就是一个包装袋，描述里面是什么东西）

- user-agent: 代指用户使用的什么设备访问

- cookie：在用户浏览器上保存的标记。

- Host: 可以仿造浏览器里的headers

- refer: 防盗链有关

- origin: 跟浏览器一样就好

- 自定义的。。。

- 请求体：（就是袋子里面实际的东西）

- get请求的：name=alex&age=18

- post请求的：{"name":"alex","age":18}

3、分析Http请求

- chrome、firefox浏览器基本够用

- 专业的抓包工具

4、例子（爬取拉勾网，并修改个人信息）

爬取思路：

1、点击登录按钮，获取登录地址： https://passport.lagou.com/login/login.html

2、随便输入几个账号跟密码（输错，不要登录上），点击登录，点击浏览器的network，查看各个请求的请求头与请求体。

3、分析登录流程，整个请求流程，各个请求页的东西。===》不断试错

最后发现：

1、先获取token，发现在源码里面有自定义请求头里的Token和code：

window.X_Anti_Forge_Token = '07f11f54-4da9-4ea2-942c-4a72067e9b64';

window.X_Anti_Forge_Code = '36139046';

2、每一步重定向都有cookie返回（每次操作都更新一下cookie）

3、下一次操作是建立在上一次操作的submitcode的基础上。

4、建议先不要用session，先自己一步一步来，这个页面，那个页面，一个一个请求分析好后，知道每一步是做什么的时候，再去用session。

5、重定向：

这里A网站重定向到B

浏览器去访问A网站，A网站会返回一个location响应头给浏览器，这个location里面包含了重定向的地址，然后浏览器根据这个地址访问到了b网站

2、学习到的知识点总结

一、requests模块

http://www.cnblogs.com/wupeiqi/articles/6283017.html
https://www.cnblogs.com/lei0213/p/6957508.html
Python标准库中提供了：urllib、urllib2、httplib等模块以供Http请求，但是，它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作，甚至包括各种方法覆盖，来完成最简单的任务。
Requests 是使用 Apache2 Licensed 许可证的基于Python开发的HTTP 库，其在Python内置模块的基础上进行了高度的封装，从而使得Pythoner进行网络请求时，变得美好了许多，使用Requests可以轻而易举的完成浏览器可有的任何操作。

1、安装

命令行用pip安装：

pip install requests

2、请求方式：

2.1、get请求

requests.get(url='x')
与
requests.request(method='get',url='x')
是一样的，因为get()的源码里面也是调用request(method='get',url='x')
无参数：

import requests
import json
r = requests.get("https://www.baidu.com/")
r.encoding = r.apparent_encoding    # 将编码格式设为网页原有的编码格式，避免中文乱码
# r.encoding = 'gbk'    # 设置输出的编码格式为gbk
print(r.url)    # 打印请求网址
print(r.text)   # 打印请求到的内容，一般为网页源码，为str格式
print(r.content)   # 打印请求到的内容，为bytes格式，二进制数据，需要转码，推荐使用：response.content.decode('utf8')的方式获取相应的html页面
# response.text返回的是Unicode格式，通常需要转换为utf-8格式，否则就是乱码。response.content是二进制模式，可以下载视频之类的，如果想看的话需要decode成utf-8格式。不管是通过response.content.decode("utf-8)的方式还是通过response.encoding="utf-8"的方式都可以避免乱码的问题发生
print(r.cookies)    # 查看cookies
print(r.status_code)  # 打印get请求的状态码，这里为200，表示请求成功
print(r.headers['content-type'])    # 查看请求的数据类型，这里是text/html，表示为html的文本类型
print(r.encoding)   # 查看编码格式，这里是utf-8
# 输出为json格式 
response = requests.get("http://httpbin.org/get")
print(type(response.text))  # 
print(response.json())  # 等同于json.loads(response.text)
print(json.loads(response.text))
print(type(response.json()))    #

有参数：

import requests
   
payload = {'key1': 'value1', 'key2': 'value2'}
ret = requests.get("http://httpbin.org/get", params=payload)
 
print(ret.url)  # 输出为：http://httpbin.org/get?key1=value1&key2=value2
# print(ret.text)

添加请求头headers

不加请求头：

import requests
  
url = 'https://www.zhihu.com/'
response = requests.get(url)
response.encoding = "utf-8"
print(response.text)

结果提示发生400错误（也就说你连知乎登录页面的html都下载不下来）
因为服务器把你认为是爬虫等恶意请求给拦截了，所以我们要添加headers来伪造成浏览器的请求


400 Bad Request

400 Bad Request
openresty

所以我们按F12，查看network下的www.zhihu.com页面的headers，

代码如下：

import requests
  
url = 'https://www.zhihu.com/'
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36'
}
response = requests.get(url,headers=headers)
print(response.text)

2.2、post请求

通过post把数据提交到url地址，等同于一字典的形式提交form表单里面的数据，一般用于用户登录。
对于 POST 请求来说，我们一般需要为它增加一些参数。那么最基本的传参方法可以利用 data 这个参数。

1、传入表单，字典的方式。

一般这种方式，headers下面会有一个form data，如下：

import requests


response = requests.post(
    url='https://dig.chouti.com/login',
    data={
        'phone': '8615911111111',
        'password': '1314520',
        'oneMonth': '1'
    },
    headers={
        'user-agent': 'Mozilla/5.0 (iPad; CPU OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1'},
    cookies=r1_cookie
)
print(response.text)

例二：

import requests
 
payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.post("http://httpbin.org/post", data=payload)
print r.text
#运行结果如下：
{
"args": {}, 
"data": "", 
"files": {}, 
"form": {
"key1": "value1", 
"key2": "value2"
}, 
"headers": {
"Accept": "*/*", 
"Accept-Encoding": "gzip, deflate", 
"Content-Length": "23", 
"Content-Type": "application/x-www-form-urlencoded", 
"Host": "http://httpbin.org", 
"User-Agent": "python-requests/2.9.1"
}, 
"json": null, 
"url": "http://httpbin.org/post"
}

2、传入json数据

当浏览器里headers里的form data编程payload时，就是传入json数据。
有时候我们需要传送的信息不是表单形式的，需要我们传JSON格式的数据过去，所以我们可以用 json.dumps() 方法把表单数据序列化。

import json
import requests
 
url = 'http://httpbin.org/post'
payload = {'some': 'data'}
r = requests.post(url, data=json.dumps(payload))
print r.text

运行结果：

{
"args": {}, 
"data": "{\"some\": \"data\"}", 
"files": {}, 
"form": {}, 
"headers": {
"Accept": "*/*", 
"Accept-Encoding": "gzip, deflate", 
"Content-Length": "16", 
"Host": "http://httpbin.org", 
"User-Agent": "python-requests/2.9.1"
}, 
"json": {
"some": "data"
}, 
"url": "http://httpbin.org/post"
}

3、传入文件

如果想要上传文件，那么直接用 file 参数即可：
#新建一个 test.txt 的文件，内容写上 Hello World!

import requests
 
url = 'http://httpbin.org/post'
files = {'file': open('test.txt', 'rb')}
r = requests.post(url, files=files)
print r.text
 
{
"args": {}, 
"data": "", 
"files": {
"file": "Hello World!"
}, 
"form": {}, 
"headers": {
"Accept": "*/*", 
"Accept-Encoding": "gzip, deflate", 
"Content-Length": "156", 
"Content-Type": "multipart/form-data; boundary=7d8eb5ff99a04c11bb3e862ce78d7000", 
"Host": "http://httpbin.org", 
"User-Agent": "python-requests/2.9.1"
}, 
"json": null, 
"url": "http://httpbin.org/post"
}

这样我们便成功完成了一个文件的上传。
requests 是支持流式上传的，这允许你发送大的数据流或文件而无需先把它们读入内存。要使用流式上传，仅需为你的请求体提供一个类文件对象即可，非常方便：

with open('massive-body') as f:
requests.post('http://some.url/streamed', data=f)

2.3、其他请求：

r = requests.get("https://www.baidu.com") # 等效于requests.request(method='get', url='https://www.baidu.com')
requests.get(url, params=None, **kwargs)
requests.post(url, data=None, json=None, **kwargs)
requests.put(url, data=None, **kwargs)
requests.head(url, **kwargs)
requests.delete(url, **kwargs)
requests.patch(url, data=None, **kwargs)
requests.options(url, **kwargs)

# 以上方法均是在此方法的基础上构建
requests.request(method, url, **kwargs)

3、requests.session()会话保持

会话对象requests.Session能够跨请求地保持某些参数，比如cookies，即在同一个Session实例发出的所有请求都保持同一个cookies,而requests模块每次会自动处理cookies，这样就很方便地处理登录时的cookies问题。
不用session()的情况：

# 登录抽屉的例子：
import requests
from bs4 import BeautifulSoup


# 第一次访问任意页面获取cookies
r1 = requests.get(
    url='https://dig.chouti.com/all/hot/recent/1',
    headers={'user-agent':'Mozilla/5.0 (iPad; CPU OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1'}
)
# print(r1.text)
r1_cookie=r1.cookies.get_dict()


# 第二次携带第一次的cookies登录，并对cookies授权，获取授权后的cookies，用授权后的cookies里的gpsd也可以
r2 = requests.post(
    url='https://dig.chouti.com/login',
    data={
        'phone': '8615918732559',
        'password': 'xxxxx',
        'oneMonth': '1'
    },
    headers={
        'user-agent': 'Mozilla/5.0 (iPad; CPU OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1'},
    cookies=r1_cookie
)
r2_cookies = r2.cookies.get_dict() 


# 以后访问就都使用授权后的cookies了
vote = requests.post(
    url='https://dig.chouti.com/link/vote?linksId=%s' % id,
    headers={
        'user-agent': 'Mozilla/5.0 (iPad; CPU OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1'},
    cookies=r2_cookies
)

用了session()会话保持后
用session对象取代requests去访问get请求或者post请求，就不用再担心cookies的问题了，它会自动更新cookies。

 import requests
 
    session = requests.Session()
 
    ### 1、首先登陆任何页面，获取cookie
 
    i1 = session.get(url="http://dig.chouti.com/help/service")
 
    ### 2、用户登陆，携带上一次的cookie，后台对cookie中的 gpsd 进行授权
    i2 = session.post(
        url="http://dig.chouti.com/login",
        data={
            'phone': "8615131255089",
            'password': "xxxxxx",
            'oneMonth': ""
        }
    )
 
    i3 = session.post(
        url="http://dig.chouti.com/link/vote?linksId=8589623",
    )
    print(i3.text)
session的一些基本设置：
# 用session对象发出get请求，设置cookies
session.get('http://httpbin.org/cookies/set/number/12456')
# 用session对象发出另外一个get请求，获取cookies
response = session.get('http://httpbin.org/cookies')

4、ssl证书认证：

现在随处可见 https 开头的网站，Requests可以为HTTPS请求验证SSL证书，就像web浏览器一样。要想检查某个主机的SSL证书，你可以使用 verify 参数，因为前段时间12306 证书不是无效的嘛，来测试一下：
无证书访问：

import requests
response = requests.get('https://www.12306.cn')
# 在请求https时，request会进行证书的验证，如果验证失败则会抛出异常
print(response.status_code)

结果爆出异常：

关闭证书验证

import requests
# 关闭验证，但是仍然会报出证书警告
response = requests.get('https://www.12306.cn',verify=False)
print(response.status_code)

还是报错：
E:\doubles\learnpython\venv\lib\site-packages\urllib3\connectionpool.py:857: InsecureRequestWarning: Unverified HTTPS request is being made. Adding certificate verification is strongly advised. See: https://urllib3.readthedocs.io/en/latest/advanced-usage.html#ssl-warnings
InsecureRequestWarning)
200
消除验证证书的警报

from requests.packages import urllib3
import requests
  
urllib3.disable_warnings()
response = requests.get('https://www.12306.cn',verify=False)
print(response.status_code)

5、代理

import requests
  
proxies = {
  "http": "http://127.0.0.1:9743",
  "https": "https://127.0.0.1:9743",
}
response = requests.get("https://www.taobao.com", proxies=proxies)
print(response.status_code)

6、认证

如果碰到需要认证的网站可以通过requests.auth模块实现
auth：用户输入用户名和密码后，浏览器会通过base64对用户名和密码加密再发送给服务端，通常是将用户名和密码加密为asdfadgdadsagljpoiqwjfl=，然后再在这个字符串前面加上base64和一个空格，发送到请求体，然后服务端会通过base64再将它解密出来。
HPPT_AUTHORIZATION:base asdfadgdadsagljpoiqwjfl=

import requests
from requests.auth import HTTPBasicAuth
#方法一
r = requests.get('http://120.27.34.24:9001', auth=HTTPBasicAuth('user', '123'))
#方法二
r = requests.get('http://120.27.34.24:9001', auth=('user', '123'))
print(r.status_code)

7、异常

import requests
from requests.exceptions import ReadTimeout, ConnectionError, RequestException
try:
    response = requests.get("http://httpbin.org/get", timeout = 0.5)
    print(response.status_code)
except ReadTimeout:
    print('Timeout')
except ConnectionError:
    print('Connection error')
except RequestException:
    print('Error')

首先被捕捉的异常是timeout,当把网络断掉的haul就会捕捉到ConnectionError，如果前面异常都没有捕捉到，最后也可以通过RequestExctption捕捉到

8、实例

下载一张图片：

import requests
 
response = requests.get('http://img.ivsky.com/img/tupian/pre/201708/30/kekeersitao-002.jpg')
b = response.content
with open('F://fengjing.jpg','wb') as f:
    f.write(b)

9、内置状态码

100: ('continue',),
101: ('switching_protocols',),
102: ('processing',),
103: ('checkpoint',),
122: ('uri_too_long', 'request_uri_too_long'),
200: ('ok', 'okay', 'all_ok', 'all_okay', 'all_good', '\\o/', '✓'),
201: ('created',),
202: ('accepted',),
203: ('non_authoritative_info', 'non_authoritative_information'),
204: ('no_content',),
205: ('reset_content', 'reset'),
206: ('partial_content', 'partial'),
207: ('multi_status', 'multiple_status', 'multi_stati', 'multiple_stati'),
208: ('already_reported',),
226: ('im_used',),
 
# Redirection.
300: ('multiple_choices',),
301: ('moved_permanently', 'moved', '\\o-'),
302: ('found',),
303: ('see_other', 'other'),
304: ('not_modified',),
305: ('use_proxy',),
306: ('switch_proxy',),
307: ('temporary_redirect', 'temporary_moved', 'temporary'),
308: ('permanent_redirect',
      'resume_incomplete', 'resume',), # These 2 to be removed in 3.0
 
# Client Error.
400: ('bad_request', 'bad'),
401: ('unauthorized',),
402: ('payment_required', 'payment'),
403: ('forbidden',),
404: ('not_found', '-o-'),
405: ('method_not_allowed', 'not_allowed'),
406: ('not_acceptable',),
407: ('proxy_authentication_required', 'proxy_auth', 'proxy_authentication'),
408: ('request_timeout', 'timeout'),
409: ('conflict',),
410: ('gone',),
411: ('length_required',),
412: ('precondition_failed', 'precondition'),
413: ('request_entity_too_large',),
414: ('request_uri_too_large',),
415: ('unsupported_media_type', 'unsupported_media', 'media_type'),
416: ('requested_range_not_satisfiable', 'requested_range', 'range_not_satisfiable'),
417: ('expectation_failed',),
418: ('im_a_teapot', 'teapot', 'i_am_a_teapot'),
421: ('misdirected_request',),
422: ('unprocessable_entity', 'unprocessable'),
423: ('locked',),
424: ('failed_dependency', 'dependency'),
425: ('unordered_collection', 'unordered'),
426: ('upgrade_required', 'upgrade'),
428: ('precondition_required', 'precondition'),
429: ('too_many_requests', 'too_many'),
431: ('header_fields_too_large', 'fields_too_large'),
444: ('no_response', 'none'),
449: ('retry_with', 'retry'),
450: ('blocked_by_windows_parental_controls', 'parental_controls'),
451: ('unavailable_for_legal_reasons', 'legal_reasons'),
499: ('client_closed_request',),
 
# Server Error.
500: ('internal_server_error', 'server_error', '/o\\', '✗'),
501: ('not_implemented',),
502: ('bad_gateway',),
503: ('service_unavailable', 'unavailable'),
504: ('gateway_timeout',),
505: ('http_version_not_supported', 'http_version'),
506: ('variant_also_negotiates',),
507: ('insufficient_storage',),
509: ('bandwidth_limit_exceeded', 'bandwidth'),
510: ('not_extended',),
511: ('network_authentication_required', 'network_auth', 'network_authentication'),

状态码用法

import requests
response = requests.get('http://www.jianshu.com/404.html')
# 使用request内置的字母判断状态码
  
#如果response返回的状态码是非正常的就返回404错误
if response.status_code != requests.codes.ok:
    print('404')
  
#如果页面返回的状态码是200，就打印下面的状态
response = requests.get('http://www.jianshu.com')
if response.status_code == 200:
    print('200')

二、Beautifulsoup模块

https://cuiqingcai.com/1319.html
前面我们用requests模块下载了网页，接下来就是对网页的解析了，我们可以用正则提取网页里的一些有用信息，但是正则用起来很麻烦，匹配的精准度也不够，所以我们一般使用模块，比如Beautufulsoup模块。

1、安装

建议安装Beautifulsoup4，使用pip安装如下：

pip install beautifulsoup4

2、使用示例

from bs4 import BeautifulSoup
 
html = '''
The Dormouse's story

The Dormouse's story
 
Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.
...
'''
soup = BeautifulSoup(html,'lxml') # 实例化一个soup对象，html是之前下载的html代码，'lxml'是解析器，需要安装，python内置的是html.parser解析器
print(soup.prettify())	# 格式化输出，更美观
print(soup.title)	# 获取第一个title标签，The Dormouse's story
print(soup.title.name)	# 获取第一个title标签名，结果是title
print(soup.title.string)	# 获取第一个title的内容，The Dormouse's story
print(soup.title.parent.name)	# 获取第一个title的父标签名，head
print(soup.p)		# 获取第一个p标签，The Dormouse's story
print(soup.p["class"])	# 获取第一个p标签的class属性，["title"]
print(soup.a)		# 获取第一个a标签，Elsie
print(soup.find_all('a'))	# 找出所有的a标签，返回一个列表
print(soup.find(id='link3'))	# 找出第一个id为'link3'的标签。

3、各属性用法

获取标签名name：

soup.title.name #可以获得该title标签的名称，即title

标签属性attrs
标签名也是属性的一部分，可以通过属性来获取标签名

soup.p.attrs['name']	# 获取p标签的名字即p
soup.p.attrs['id']	# 获取p标签id
soup.p.attrs['class']		# 获取p标签的样式class

标签内容string

soup.p.string	# 结果就可以获取第一个p标签的内容：The Dormouse's story

也可以嵌套获取

soup.head.title.p.string	# 结果同soup.p.string,

获取子标签，
孙标签也是嵌在子标签里一起输出的
法一：

print(soup.p.contents)	# 获取p节点里面的所有节点，并以列表的形式返回

法二：

print(soup.p.children)	# 获取p节点里面的所有节点，并以迭代器iter的形式返回，只能通过循环迭代获取

比如：

for i,child in enumerate(soup.p.children):
    print(i,child)

获取子子孙孙标签，每个子标签跟孙标签都作为一条记录获取

print(soup.p.descendants)

父节点和祖先节点
通过soup.a.parent就可以获取父节点的信息
通过list(enumerate(soup.a.parents))可以获取祖先节点，这个方法返回的结果是一个列表，会分别将a标签的父节点的信息存放到列表中，以及父节点的父节点也放到列表中，并且最后还会讲整个文档放到列表中，所有列表的最后一个元素以及倒数第二个元素都是存的整个文档的信息
兄弟节点

soup.a.next_siblings 获取后面的兄弟节点
soup.a.previous_siblings 获取前面的兄弟节点
soup.a.next_sibling 获取下一个兄弟标签
souo.a.previous_sinbling 获取上一个兄弟标签

4、find_all

find_all(name,attrs,recursive,text,**kwargs)
可以根据标签名，属性，内容查找文档

html='''

    
        Hello
    
    
        
            Foo
            Bar
            Jay
        
        
            Foo
            Bar
        
    

'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')
print(soup.find_all('ul'))	# 查找所有的ul标签，并以列表的形式返回
print(type(soup.find_all('ul')[0]))	# 查找所有的ul标签，返回列表里的第一个ul标签。

同时我们是可以针对结果再次find_all,从而获取所有的li标签信息

for ul in soup.find_all('ul'):
    print(ul.find_all('li'))

# 通过attrs属性查找

print(soup.find_all(attrs={'id': 'list-1'}))
print(soup.find_all(attrs={'name': 'elements'}))

attrs可以传入字典的方式来查找标签，但是这里有个特殊的就是class,因为class在python中是特殊的字段，所以如果想要查找class相关的可以更改attrs={'class_':'element'}或者soup.find_all('',{"class":"element})，特殊的标签属性可以不写attrs，例如id
通过标签文本查找

print(soup.find_all(text='Foo'))

返回的结果是所有Foo的文本。

5、find（用法与find_all差不多）

find(name,attrs,recursive,text,**kwargs)
find返回的匹配结果的第一个元素
其他一些类似的用法：
find_parents()返回所有祖先节点，find_parent()返回直接父节点。
find_next_siblings()返回后面所有兄弟节点，find_next_sibling()返回后面第一个兄弟节点。
find_previous_siblings()返回前面所有兄弟节点，find_previous_sibling()返回前面第一个兄弟节点。
find_all_next()返回节点后所有符合条件的节点, find_next()返回第一个符合条件的节点
find_all_previous()返回节点后所有符合条件的节点, find_previous()返回第一个符合条件的节点

6、select（通过css查找标签）

通过select()直接传入CSS选择器就可以完成选择
熟悉前端的人对CSS可能更加了解，其实用法也是一样的
.表示class #表示id
标签1，标签2 找到所有的标签1和标签2
标签1 标签2 找到标签1内部的所有的标签2
[attr] 可以通过这种方法找到具有某个属性的所有标签
[atrr=value] 例子[target=_blank]表示查找所有target=_blank的标签

from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')
print(soup.select('.panel .panel-heading'))	# 查找class为panel下面，所有class为panel-heading的标签
print(soup.select('ul li'))	# 查找ul标签下所有的li标签
print(soup.select('#list-2 .element'))	# 查找id为list-2，所有class为element的标签
print(type(soup.select('ul')[0]))	# 查找ul标签下的第一个子标签
# 获取文本
for li in soup.select('li'):
    print(li.get_text())
# 获取属性
# 获取属性的时候可以通过[属性名]或者attrs[属性名]
for ul in soup.select('ul'):
    print(ul['id'])
    print(ul.attrs['id'])

Beautifulsoup总结：

推荐使用lxml解析库，必要时使用html.parser
标签选择筛选功能弱但是速度快
建议使用find()、find_all() 查询匹配单个结果或者多个结果
如果对CSS选择器熟悉建议使用select()
记住常用的获取属性和文本值的方法

登录示例：

1、抽屉登录并点赞

import requests
from bs4 import BeautifulSoup

# 访问页面获取源码与cookies，注意携带headers，伪造的更像浏览器
r1 = requests.get(
    url='https://dig.chouti.com/all/hot/recent/1',
    headers={'user-agent':'Mozilla/5.0 (iPad; CPU OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1'}
)
r1_cookie=r1.cookies.get_dict()

# 分析源码，获取每篇文章的链接id
soup = BeautifulSoup(r1.text,'html.parser')
div = soup.find('div', 'content-list')
item_list = div.find_all(attrs={'class': 'item'})
id_list = []
for item in item_list:
    tag = item.find(name='div', attrs={'class': 'part2'})
    # link_id = link_div.attrs['share-linkid']
    link_id = tag.get('share-linkid')
    id_list.append(link_id)
    # print(link_id)

# 携带headers与之前的cookies，登录抽屉，并对cookies授权
r2 = requests.post(
    url='https://dig.chouti.com/login',
    data={
        'phone': '86159xxxxxxxx',
        'password': 'xxxxxx',
        'oneMonth': '1'
    },
    headers={
        'user-agent': 'Mozilla/5.0 (iPad; CPU OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1'},
    cookies=r1_cookie
)
r2_cookies = r2.cookies.get_dict()

# 携带授权后的cookies，对文章点赞
for id in id_list:
    vote = requests.post(
        url='https://dig.chouti.com/link/vote?linksId=%s' % id,
        headers={
            'user-agent': 'Mozilla/5.0 (iPad; CPU OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1'},
        cookies=r2_cookies
    )

    vote_cancel = requests.post(
        url='https://dig.chouti.com/vote/cancel/vote.do',
        data={
            'linksId':'%s' % id
        },
        headers={
            'user-agent': 'Mozilla/5.0 (iPad; CPU OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1'},
        cookies=r1_cookie
    )

    print(vote_cancel.text)

2、自动登录github并获取个人信息

import requests
from bs4 import BeautifulSoup

# 第一步，获取token
get_token_html = requests.get('https://github.com/login')
get_token_soup = BeautifulSoup(get_token_html.text, 'html.parser')
# 因为input标签的内容是空的，所以不要用hidden_tag.text，它是个空值。
token = get_token_soup.find(name='input',attrs={'name': 'authenticity_token'}) .get('value')
# 获取cookies，此时未授权
cookies_list=get_token_html.cookies.get_dict()
# print(token)
# print(ret1_cookies)

# 第二步，携带步骤一的cookies和token登录github
sign_in_html = requests.post(
    url='https://github.com/session',
    data={
        'utf8': '✓',
        'authenticity_token': '%s' % token,
        'login': 'gituser',
        'password': 'gitpassword',
        'commit': 'Sign in'
    },
    headers={'User-Agent': 'Mozilla/5.0 (iPad; CPU OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1'},
    cookies=cookies_list
)
# 获取登录后授权的cookies
sign_in_cookies = sign_in_html.cookies.get_dict()

# print(sign_in_html.text)
# 通过登录后的返回页获取用户名
sign_in_soup = BeautifulSoup(sign_in_html.text, 'lxml')
username = sign_in_soup.find('strong', attrs={'class': 'css-truncate-target'}).text
print('用户信息之用户名是：', username)

# 第三步，进入个人信息页
profile_html = requests.get(
    url='https://github.com/%s'%username,
    headers={'User-Agent': 'Mozilla/5.0 (iPad; CPU OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1'},
    cookies=sign_in_cookies
)

profile_soup = BeautifulSoup(profile_html.text, 'lxml')
# 下载用户头像
avatar_url = profile_soup.find('img', attrs={'class': 'avatar width-full rounded-2'}).get('src')
avatar_filename = '%s_avatar.jpg'%username
with open(avatar_filename,'wb') as f:
    avatar_img = requests.get(avatar_url)
    f.write(avatar_img.content)
print('已下载用户头像在本地！')

# 获取用户仓库信息
repositories_html = requests.get('https://github.com/%s?tab=repositories'%username)
# print(repositories_html.text)
repositories_soup = BeautifulSoup(repositories_html.text, 'lxml')
repositories_div = repositories_soup.find(name='div', id='user-repositories-list')
repositories_li_list = repositories_div.find_all('li')
for li in repositories_li_list:
    tag = li.find(name='a', attrs={'itemprop': 'name codeRepository'})
    repositories_name = tag.text.strip()
    repositories_href = 'https://github.com%s' % tag.get('href')
    print('用户仓库名：%s,仓库链接地址:%s'%(repositories_name,repositories_href))

你可能感兴趣的:(python,爬虫,爬虫,鸡汤,requests,Beautifulsoup)

【动手学深度学习】#1PyTorch基础操作 -一杯为品- 机器学习深度学习人工智能
主要参考学习资料：《动手学深度学习》阿斯顿·张等著【动手学深度学习PyTorch版】哔哩哔哩@跟李牧学AI目录1.1数据操作1.1.1入门1.1.2运算符1.1.3广播机制1.1.4索引和切片1.1.5节省内存1.1.6转换为其他Python对象1.2数据预处理1.2.1读取数据集1.2.2处理缺失值1.2.3转换为张量格式1.3线性代数1.3.1标量1.3.2向量1.3.3矩阵1.3.4张量1.
使用python3批量查询ip9000.txt的9000端口标题 longerxin2020 Linux 脚本集合 python 开发语言
fromseleniumimportwebdriverfromselenium.webdriver.chrome.optionsimportOptionsfromselenium.common.exceptionsimportWebDriverException#配置chromium浏览器选项options=Options()options.binary_location="/usr/bin/ch
python中定义结构体的方法 lxc521wjh python
Python中没有专门定义结构体的方法，不过可以使用class标记定义类来代替结构体，其成员可以在构造函数__init__中定义，具体方法如下。classitem:def__init__(self):self.name=''#名称self.size=10#尺寸self.list=[]#列表a=item()#定义结构对象a.name='cup'a.size=8a.list.append('water
python网格插值站点_在python中，在二维零网格上两点之间插值一条值线 weixin_39965490 python网格插值站点
TLDR:在2dnumpy数组中找到2个点后，如何在0数组中在它们之间插值一条1行？在上下文：目前我正在尝试从二值化的医学图像数据(0和1)对一个3d数组执行2d操作。最终目标是在填充体素/像素(即第一个和最后一个实例)的起点和终点之间添加一条1s的线。在为此，我使用SimpleITK分割一行，然后将其转换为numpy数组。在其他示例之后，我编写了返回一组数组的函数，这些数组显示填充(1)个像素和
python 网格数据插值_python – 网格数据的快速插值 weixin_39747399 python 网格数据插值
当然！有两个选项可以做不同的事情，但是既能利用原始数据的定期网格性质。第一个是scipy.ndimage.zoom.如果你只想通过内插原始数据生成一个更加密集的规则网格，那就是要走的路。第二个是scipy.ndimage.map_coordinates.如果你想在你的数据中插入一些(或许多)任意点，但仍然利用原始数据的定期网格性质(例如，不需要四叉树)，那就是去的方式。作为一个快速示例(这将使用三
地理数据中的分辨率转换木叶清风666 地理信息数据处理 matlab python 开发语言
数据分辨率问题气象海洋数据在实际应用中，常常涉及到重采样，即分辨率的提高或降低等操作。本文提供了matlab以及python的样例程序，以降低（网格平均）或提高（线性插值）数据的分辨率。1.高分辨率——>低分辨率可以使用循环逐个网格进行操作,但循环次数过多,存在效率低下的问题。%---需要的分辨率0.25°,以及经纬度网格点deg=0.25;lat_era=16:deg:47.75;lon_era
一个简单的语音识别实现---百度在线语音识别REST API SDK（Python）简单使用 DerrickOzil 语音识别 python sdk 语音识别
百度在线语音识别RESTAPISDK（Python）简单使用首先申请开发者权限注册开发者信息完成注册创建新应用下载SDK并查看key在应用管理中，选择查看key，记录AppID、APIKey、SecretKey三个参数值。测试音频链接：http://pan.baidu.com/s/1o8Ue4B4密码：o5r1]注意事项音频格式限制pcm（不压缩）、wav、amr采样频率及位数支持评测8k/16k
python_学习爬虫遇到的第一个问题_urllib获取baidu首页源代码 KJDETL python_爬虫 python 学习爬虫
第一天学习爬虫，学习的是urllib的基本用法，通过urllib.request获取baidu首页源代码。#导入urllib所需要的库importurllib.request#左边自定义名称，右边是要访问的地址url='https://www.baidu.com/Index.htm'#左边自定义名称可以叫做响应，右边是通过urllib.request.urlopen方法向url发出请求respon
python基础版课件_Python入门基础ppt课件.ppt 六间仓库的仓老师 python基础版课件
《Python入门基础ppt课件.ppt》由会员分享，可在线阅读，更多相关《Python入门基础ppt课件.ppt(30页珍藏版)》请在人人文库网上搜索。1、Python语言基础,1,Python诞生于20世纪90年代初，是一种解释型、面向对象、动态数据类型的高级程序设计语言，是最受欢迎的程序设计语言之一。这节课我们主要来介绍Python语言的基本情况和基础知识。,课程描述,2,课程知识点,1初识
Python从入门到实践电子书,python编程入门到实践pdf 小六oO 智能写作 python django 开发语言
《Python编程从入门到实践》txt下载在线阅读，求百度网盘云资源《Python编程》（[美]埃里克·马瑟斯（EricMatthes））电子书网盘下载免费在线阅读资源链接：链接：提取码：6vcz书名：Python编程作者：[美]埃里克·马瑟斯（EricMatthes）译者：袁国忠豆瓣评分：9.2出版社：人民邮电出版社出版年份：2020-10页数：476内容简介：本书是针对所有层次Python读者
在使用selenium进行爬虫时， add_experimental_optio(),add_argument()的用法数据牧马人 selenium 爬虫测试工具
driver.add_experimental_option('excludeSwitches',['enable-automation'])是在使用SeleniumWebDriver与浏览器交互时设置的一行代码。这行代码用于禁用浏览器中的自动化检测。具体来说，当你在使用SeleniumWebDriver与浏览器交互时，有些浏览器（例如GoogleChrome）可能会检测到自动化行为（例如，通过检
【2025年春季】全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！白帽子凯哥 web安全学习安全 CTF夺旗赛网络安全
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、SQL注入（7-8天）2、文件上传（7-8天）3、其他漏洞（14-15
Python（1）Python全方位指南：定义、应用与零基础入门实战一个天蝎座白勺程序猿 Python入门到精通 python 开发语言
背景：为什么Python成为开发者必备技能？‌Python自1991年发布以来，凭借‌“简单高效”‌的设计理念，成为全球增长最快的编程语言。根据TIOBE2023年榜单，Python稳居前三，其核心竞争力包括：‌开发效率高‌：代码量仅为Java的1/5，C++的1/10。‌跨领域通吃‌：从Web开发到AI训练，覆盖90%以上技术场景。‌企业级应用‌：YouTube用Python处理视频推荐，NAS
Python 赋能经济趋势与股票研究：数据驱动的投资洞察 Small踢倒coffee_氕氘氚笔记经验分享
在当今数据爆炸的时代，Python凭借其强大的数据处理能力和丰富的开源库，已成为经济趋势分析和股票研究的利器。本文将探讨如何利用Python进行以下方面的研究：**一、数据获取与清洗*****数据来源:*****财经数据API:**Tushare、AKShare、YahooFinance、AlphaVantage等提供丰富的股票、基金、宏观经济等数据。***网络爬虫:**使用BeautifulSo
突破反爬终极指南：如何用Python实现100%隐形数据抓取（附实战代码）煜bart 机器人人工智能 web3.py
引言：当爬虫遭遇铜墙铁壁2023年Q2最新统计显示，全球Top100网站中89%部署了AI驱动的反爬系统，传统爬虫存活率暴跌至17%。本文将揭秘一套基于深度伪装技术的爬虫方案，在最近三个月实测中保持100%成功率，成功突破Cloudflare、Distil等顶级防护系统。---###一、指纹伪装：让爬虫"隐身"的核心科技####1.1浏览器指纹深度克隆（代码实现）```pythonfromsele
Python自动化炒股：利用XGBoost和LightGBM进行股票市场预测的实战案例云策量化 Python自动化炒股量化投资量化软件 python 量化交易 QMT PTrade 量化炒股量化投资 deepseek
推荐阅读：《程序化炒股：如何申请官方交易接口权限？个人账户可以申请吗？》Python自动化炒股：利用XGBoost和LightGBM进行股票市场预测的实战案例在当今快节奏的金融市场中，自动化交易和预测模型成为了投资者和交易者的重要工具。Python以其强大的数据处理能力和丰富的机器学习库，成为了实现这些模型的首选语言。本文将带你了解如何使用XGBoost和LightGBM这两个流行的机器学习算法来
python缩进几个空格-解析Python的缩进规则的使用 weixin_39962675
Python中的缩进（Indentation）决定了代码的作用域范围。这一点和传统的c/c++有很大的不同（传统的c/c++使用花括号{}符，python使用缩进空格）。每行代码中开头的空格数（whitespace）用于计算该行代码的缩进级别（Indentationlevel），注意一个Tab等于8个空格（Space），缩进级别为0表示无缩进空格。Python中的每一条语句都有一个缩进级别,并且缩
33.从入门到精通：Python3 正则表达式 re.match函数 re.search方法 re.match与re.search的区别摘星月为妆。 Python从入门到精通正则表达式
33.从入门到精通：Python3正则表达式re.match函数re.search方法re.match与re.search的区别Python3正则表达式re.match函数re.search方法re.match与re.search的区别Python3正则表达式在Python3中，可以使用re模块来进行正则表达式的匹配和处理。以下是一个简单的例子，说明如何使用re模块进行正则表达式匹配：import
Python与Web 3.0：重新定义数字身份验证的未来 Echo_Wish Python！实战！python 前端开发语言
Python与Web3.0：重新定义数字身份验证的未来随着Web3.0的迅猛发展，传统的身份验证方式正面临越来越大的挑战。从依赖中心化服务器存储用户数据，到如今去中心化、用户掌控数据的新时代，身份验证系统经历了前所未有的变革。而作为一个人工智能、区块链和Python技术的深度爱好者，我认为Python将成为构建Web3.0身份验证系统的重要工具。今天，我们就来聊聊如何结合Python与Web3.0
python中re.search()函数的用法前行的zhu pytorch 正则表达式正则表达式 python
说到使用正则匹配字符串，就不得不说三个常用的匹配检索方法：re.search(),re.match()和re.findall()。主要的区别是前两个方法只在目标字符串中匹配一次满足条件的正则表达式；而re.findall()方法匹配目标字符串中所有满足条件的正则表达式；另外re.match()只会匹配目标字符串开头是否满足正则表达式，若开头不满足则匹配失败，函数返回None；而re.search(
python 中 Re库函数 re.search() weixin_43964993 python python
re.search(pattern,string,flags=0)在一个字符串中搜索匹配正则表达式的第一个位置，返回match对象pattern:正则表达式的字符串或原生字符串表示string:待匹配字符串flags:正则表达式使用时的控制标记常用标记说明re.I re.IGNORECASE忽略正则表达式的大小写，[A‐Z]能够匹配小写字符re.M re.MULTILINE正则表达式中的^操作
python中search用法_Python中的python re.search方法详解 weixin_39688856 python中search用法
re.search扫描整个字符串并返回第一个成功的匹配，若string中包含pattern子串，则返回Match对象，否则返回None，注意，如果string中存在多个pattern子串，只返回第一个。re.search()方法用来精确匹配并提取第一个符合规律的对象，而对象内容的提取则使用search方法的属性group()来实现。函数语法：re.search(pattern,string,fla
pandas 读写excel jimox_ai pandas
在Python中，使用Pandas库读写Excel文件是一个常见的操作。Pandas提供了`read_excel`和`to_excel`方法来分别实现读取和写入Excel文件的功能。以下是一些基本的示例：###读取Excel文件```pythonimportpandasaspd#读取Excel文件df=pd.read_excel('path_to_your_excel_file.xlsx')#显示
大话 Python：python 操作 excel 系列 -- pandas 读取、分析、保存 2401_84140734 程序员 python excel pandas
read_excel()直接读取excel文件df=pd.read_excel(‘C:/test.xlsx’)4，读取当前字段计算后生成新字段获取原有字段paymount值paymount=df[‘paymount’]业务计算（金额-10）paymount_new=paymount-10添加新字段paymount_newdf[‘paymount_new’]=paymount_new这个步骤可以加入
python简单案例代码,python案例讲解视频 2401_84471631 python
这篇文章主要介绍了python简单案例代码，具有一定借鉴价值，需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获，下面让小编带着大家一起了解一下。Python是一种高级，解释性，交互式且面向对象的脚本语言。Python的设计具有很高的可读性。它使用英语作为关键字，相对于而其他语言则使用标点符号作为语句结束不同，是依靠缩进作为结束。并且其语法结构比其他语言精简。Python是Web开发，游戏开发
Python爬虫实战教程——如何爬取多个国家的实时汇率数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫 chrome 信息可视化
1.引言随着全球经济一体化，跨国交易和投资变得越来越普遍，实时汇率数据成为了金融领域和国际贸易中的关键数据。对于金融分析师、投资者或者是开发者来说，能够实时获取并分析汇率数据是至关重要的。本文将深入探讨如何使用Python爬虫技术抓取多个国家的实时汇率数据。我们将使用最新的技术和工具，介绍如何通过Python编写一个高效、可扩展的汇率数据爬虫。2.为什么需要实时汇率数据？汇率数据被广泛应用于以下几
漫画算法python篇pdf_用Python抓取漫画并制作mobi格式电子书 jian bao 漫画算法python篇pdf
想看某一部漫画，但是用手机看感觉屏幕太小，用电脑看吧有太不方面。正好有一部Kindle，决定写一个爬虫把漫画爬取下来，然后制作成mobi格式的电子书放到kindle里面看。本人对于Python学习创建了一个小小的学习圈子，为各位提供了一个平台，大家一起来讨论学习Python。欢迎各位到来Python学习群：943752371一起讨论视频分享学习。Python是未来的发展方向，正在挑战我们的分析能力
python的格式转换库_3个Python PDF库，提取信息、转换格式、分割剪裁有它就够了！... 来朝三博士 python的格式转换库
PDFMiner：PDFMiner是一个从PDF文档中提取信息的工具。与其他PDF相关的工具不同，它只用于获取和分析文本数据。PDFMiner能获取页面中文本的准确位置，以及字体或行等其他信息。它还有一个PDF转换器，可以将PDF文件转换成其他文本格式(如HTML)。还有一个可扩展的解析器PDF，可以用于文本分析以外的其他用途。(地址https://github.com/euske/pdfmine
使用python去编写PDF转换成为EPUB以及MOBI工具 winfredzhang python pdf 转换 EPUB MOBI
在数字时代，PDF格式因其可靠性和跨平台特性成为了文档分享的标准。然而，当我们需要在电子阅读器上阅读这些文档时，转换为EPUB或MOBI格式会提供更好的阅读体验。今天，我们将深入分析一个使用Python和wxPython开发的PDF转换工具，探讨其实现原理和技术细节。C:\pythoncode\new\ConvertPdfToEpub.py需求分析在开始编码之前，让我们明确需求：用户友好的界面，允
Ubuntu安装开发者平台Backstage xuhss_com 计算机计算机
Python微信订餐小程序课程视频https://edu.csdn.net/course/detail/36074Python实战量化交易理财系统https://edu.csdn.net/course/detail/35475Ubuntu安装开发者平台Backstage什么是Backstage?Backstage是一个构建开发者门户的开源平台。通过支持一个集中的软件分类，Backstage可以保存
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin