陳兴华²⁰¹⁸

python爬虫-Day02

Handler处理器和自定义Opener

opener是 urllib2.OpenerDirector 的实例，我们之前一直都在使用的urlopen，它是一个特殊的opener（也就是模块帮我们构建好的）。

但是基本的urlopen()方法不支持代理IP、cookie等其他的HTTP/HTTPS高级功能。所以要支持这些功能：
1、使用相关的Handler处理器来创建特定功能的处理器对象；
2、然后通过urllib.request.build_opener()方法使用这些处理器对象，创建自定义opener对象；
3、使用自定义的opener对象，调用open()方法发送请求。

如果程序里所有的请求都使用自定义的opener，可以使用urllib2.install_opener()将自定义的 opener 对象 定义为 全局opener，表示如果之后凡是调用urlopen，都将使用这个opener（根据自己的需求来选择）

简单的自定义opener()

import urllib
from urllib import request

# 构建一个HTTPHandler 处理器对象，支持处理HTTP请求
handler = urllib.request.HTTPHandler()  # http

# 构建一个HTTPHandler 处理器对象，支持处理HTTPS请求
# handlers = urllib.request.HTTPSHandler()  # 处理https的处理器

# 调用urllib2.build_opener()方法，创建支持处理HTTP请求的opener对象
opener = urllib.request.build_opener(handler)

# 构建 Request请求
req = urllib.request.Request("http://www.baidu.com", headers=headers)

# 调用自定义opener对象的open()方法，发送request请求
response = opener.open(req)

# 获取服务器响应内容
print(response.read())

Cookie

Cookie 是指某些网站服务器为了辨别用户身份和进行会话跟踪，而储存在用户浏览器上的文本文件，Cookie可以保持登录信息到用户下次与服务器的会话。

Cookie原理
HTTP是无状态的协议, 为了保持连接状态, 引入了Cookie机制 Cookie是http消息头中的一种属性，包括：
Cookie名字（Name）
Cookie的值（Value）
Cookie的过期时间（Expires/Max-Age）
Cookie作用路径（Path）
Cookie所在域名（Domain），
使用Cookie进行安全连接（Secure）。

前两个参数是Cookie应用的必要条件，另外，还包括Cookie大小（Size，不同浏览器对Cookie个数及大小限制是有差异的）。

Cookie由变量名和值组成，根据 Netscape公司的规定，Cookie格式如下：
Set－Cookie: NAME=VALUE；Expires=DATE；Path=PATH；Domain=DOMAIN_NAME；SECURE

Cookie应用

Cookies在爬虫方面最典型的应用是判定注册用户是否已经登录网站，用户可能会得到提示，是否在下一次进入此网站时保留用户信息以便简化登录手续。

cookielib库 和 HTTPCookieProcessor处理器
在Python处理Cookie，一般是通过cookielib模块和 urllib2模块的HTTPCookieProcessor处理器类一起使用。

cookielib模块：主要作用是提供用于存储cookie的对象

HTTPCookieProcessor处理器：主要作用是处理这些cookie对象，并构建handler对象。

cookielib 库
该模块主要的对象有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。

CookieJar：管理HTTP cookie值、存储HTTP请求生成的cookie、向传出的HTTP请求添加cookie的对象。整个cookie都存储在内存中，对CookieJar实例进行垃圾回收后cookie也将丢失。

FileCookieJar (filename,delayload=None,policy=None)：从CookieJar派生而来，用来创建FileCookieJar实例，检索cookie信息并将cookie存储到文件中。filename是存储cookie的文件名。delayload为True时支持延迟访问访问文件，即只有在需要时才读取文件或在文件中存储数据。

MozillaCookieJar (filename,delayload=None,policy=None)：从FileCookieJar派生而来，创建与Mozilla浏览器 cookies.txt兼容的FileCookieJar实例。

LWPCookieJar (filename,delayload=None,policy=None)：从FileCookieJar派生而来，创建与libwww-perl标准的 Set-Cookie3 文件格式兼容的FileCookieJar实例。

其实大多数情况下，我们只用CookieJar()，如果需要和本地文件交互，就用 MozillaCookjar() 或 LWPCookieJar()

Cookie案例：

1.获取Cookie

import urllib.request
from http import cookiejar  # python3
# import cookiejar  # python2

# 创建一个对象存储cookie
cookies = cookiejar.LWPCookieJar()
# cookie处理器, 提取cookie
cookie_handler = urllib.request.HTTPCookieProcessor(cookies)
# 创建打开器, 处理cookie
opener = urllib.request.build_opener(cookie_handler)

# 使用opener打开url
response = opener.open("http://www.baidu.com/")
# 得到cookies
print(cookies)

下载cookie

import urllib.request
from http import cookiejar

filename = "baiducookie.txt"  # 用于保存cookie
# 管理cookie的对象
cookies = cookiejar.LWPCookieJar(filename=filename)
# 创建cookie处理器
cookie_handler = urllib.request.HTTPCookieProcessor(cookies)
# 创建打开器
opener = urllib.request.build_opener(cookie_handler)

# 添加UA，并打开百度，下载cookie
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"
}

req = urllib.request.Request("http://www.baidu.com", headers=headers)

# 打开
response = opener.open(req)

# 保存， 忽略错误
cookies.save(ignore_discard=True, ignore_expires=True)

使用下载的cookie

import urllib.request
from http import cookiejar

filename = "baiducookie.txt"
cookies = cookiejar.LWPCookieJar()

# 使用cookie
cookies.load(filename)

cookie_handler = urllib.request.HTTPCookieProcessor(cookies)
opener = urllib.request.build_opener(cookie_handler)

# 添加UA，并打开百度
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"
}

req = urllib.request.Request("http://www.baidu.com", headers=headers)
response = opener.open(req)

示例： cookie登录qq空间

1，用自己的账号登录qq空间，将登录成功后的cookie拷贝出来
2，将拷贝出来的cookie保存在HTTP头部信息headers中
3，使用headers发送请求
QQ空间： https://user.qzone.qq.com/904552498

练习：登录人人网

# 人人网登录接口： 
url = "http://www.renren.com/ajaxLogin/login?1=1&uniqueTimestamp=2018921035604"
# 参数：
data = {
    "email": "18566218481",
    "icode": "",
    "origURL": "http://www.renren.com/home",
    "domain": "renren.com",
    "key_id": "1",
    "captcha_type": "web_login",
    "password": "1260ec8f79d73201e2e7aaca932e88465dffe9f59bd7104a9d7c1bac981dad59",
    "rkey": "44fd96c219c593f3c9612360c80310a3",
    "f": "http%3A%2F%2Fwww.renren.com%2F548819077%2Fprofile",
}

1， 保存登录成功后的cookie
2， 使用保存的cookie进行登录， 登录后获取个人信息
	url = "http://www.renren.com/548819077/profile"

##HTTP代理神器Fiddler / Charles青花瓷

Fiddler是一款强大Web调试工具，它能记录所有客户端和服务器的HTTP请求。 Fiddler启动的时候，默认IE的代理设为了127.0.0.1:8888，而其他浏览器是需要手动设置。

请求 (Request) 部分详解

Headers —— 显示客户端发送到服务器的 HTTP 请求的 header，显示为一个分级视图，包含了 Web 客户端信息、Cookie、传输状态等。
Textview —— 显示 POST 请求的 body 部分为文本。
WebForms —— 显示请求的 GET 参数 和 POST body 内容。
HexView —— 用十六进制数据显示请求。
Auth —— 显示响应 header 中的 Proxy-Authorization(代理身份验证) 和 Authorization(授权) 信息.
Raw —— 将整个请求显示为纯文本。
JSON - 显示JSON格式文件。
XML —— 如果请求的 body 是 XML 格式，就是用分级的 XML 树来显示它。

响应 (Response) 部分详解

Transformer —— 显示响应的编码信息。
Headers —— 用分级视图显示响应的 header。
TextView —— 使用文本显示相应的 body。
ImageVies —— 如果请求是图片资源，显示响应的图片。
HexView —— 用十六进制数据显示响应。
WebView —— 响应在 Web 浏览器中的预览效果。
Auth —— 显示响应 header 中的 Proxy-Authorization(代理身份验证) 和 Authorization(授权) 信息。
Caching —— 显示此请求的缓存信息。
Privacy —— 显示此请求的私密 (P3P) 信息。
Raw —— 将整个响应显示为纯文本。
JSON - 显示JSON格式文件。
XML —— 如果响应的 body 是 XML 格式，就是用分级的 XML 树来显示它 。

###ProxyHandler处理器（代理设置）

使用代理IP，这是爬虫/反爬虫的第二大招，通常也是最好用的。

很多网站会检测某一段时间某个IP的访问次数(通过流量统计，系统日志等)，如果访问次数多的不像正常人，它会禁止这个IP的访问。

所以我们可以设置一些代理服务器，每隔一段时间换一个代理IP，就算IP被禁止，依然可以换个IP继续爬取。

免费的开放代理获取基本没有成本，我们可以在一些代理网站上收集这些免费代理，测试后如果可以用，就把它收集起来用在爬虫上面。

免费短期代理网站举例：（免费代理不稳定，可用率低）
    西刺免费代理IP
    快代理免费代理
    Proxy360代理
    全网代理IP

收费代理：
    芝麻代理，蘑菇代理，快代理等..

import urllib.request
import random

# 假设此时有一已经格式化好的ip代理地址proxies
# 可访问西刺代理获取免费代理ip：http://www.xicidaili.com/

# ip代理
iplist = [
    "http://183.159.84.198:18118",
    "http://183.159.92.206:18118",
    "http://119.179.209.43:61234",
    "http://183.159.82.181:18118"
]

# ua
UserAngentList=[
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36",
    "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; Touch; rv:11.0) like Gecko",
    "Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1",
    "Mozilla/5.0 (Linux; Android 5.0; SM-G900P Build/LRX21T) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Mobile Safari/537.36"
]

url = 'https://blog.csdn.net'

for i in range(3):
    headers = { "User-Agent": random.choice(UserAngentList)}
    proxy = {"http": random.choice(iplist)}
    
    try:
    	proxy_handler = urllib.request.ProxyHandler(proxy)
		opener = urllib.request.build_opener(proxy_handler)
		req = urllib.request.Request(url, headers=headers)
		response = opener.open(req)  # 使用代理
		print(response.code)

    except:
        print('失败')
    else:
        print('成功')

使用西刺代理客户端：

安装ccproxy代理
设置禁止外部用户访问： 设置 -> 高级 -> 网络 -> 禁止局域网外用户，取消勾选

import urllib.request
import random

# 使用西刺代理
# 无密码
proxy = {"http": "http://172.20.10.3:808"}

# 有密码（需要在 西刺代理软件中添加账号和密码 ）
proxy = {"http": "http://user1:[email protected]:808"}

HTTP响应状态码参考

1xx:信息

100 Continue
	服务器仅接收到部分请求，但是一旦服务器并没有拒绝该请求，客户端应该继续发送其余的请求。
101 Switching Protocols
	服务器转换协议：服务器将遵从客户的请求转换到另外一种协议。


2xx:成功

200 OK
	请求成功（其后是对GET和POST请求的应答文档）
201 Created
	请求被创建完成，同时新的资源被创建。
202 Accepted
	供处理的请求已被接受，但是处理未完成。
203 Non-authoritative Information
	文档已经正常地返回，但一些应答头可能不正确，因为使用的是文档的拷贝。
204 No Content
	没有新文档。浏览器应该继续显示原来的文档。如果用户定期地刷新页面，而Servlet可以确定用户文档足够新，这个状态代码是很有用的。
205 Reset Content
	没有新文档。但浏览器应该重置它所显示的内容。用来强制浏览器清除表单输入内容。
206 Partial Content
	客户发送了一个带有Range头的GET请求，服务器完成了它。


3xx:重定向

300 Multiple Choices
	多重选择。链接列表。用户可以选择某链接到达目的地。最多允许五个地址。
301 Moved Permanently
	所请求的页面已经转移至新的url。
302 Moved Temporarily
	所请求的页面已经临时转移至新的url。
303 See Other
	所请求的页面可在别的url下被找到。
304 Not Modified
	未按预期修改文档。客户端有缓冲的文档并发出了一个条件性的请求（一般是提供If-Modified-Since头表示客户只想比指定日期更新的文档）。服务器告诉客户，原来缓冲的文档还可以继续使用。
305 Use Proxy
	客户请求的文档应该通过Location头所指明的代理服务器提取。
306 Unused
	此代码被用于前一版本。目前已不再使用，但是代码依然被保留。
307 Temporary Redirect
	被请求的页面已经临时移至新的url。


4xx:客户端错误

400 Bad Request
	服务器未能理解请求。
401 Unauthorized
	被请求的页面需要用户名和密码。
401.1
	登录失败。
401.2
	服务器配置导致登录失败。
401.3
	由于 ACL 对资源的限制而未获得授权。
401.4
	筛选器授权失败。
401.5
	ISAPI/CGI 应用程序授权失败。
401.7
	访问被 Web 服务器上的 URL 授权策略拒绝。这个错误代码为 IIS 6.0 所专用。
402 Payment Required
	此代码尚无法使用。
403 Forbidden
	对被请求页面的访问被禁止。
403.1
	执行访问被禁止。
403.2
	读访问被禁止。
403.3
	写访问被禁止。
403.4
	要求 SSL。
403.5
	要求 SSL 128。
403.6
	IP 地址被拒绝。
403.7
	要求客户端证书。
403.8
	站点访问被拒绝。
403.9
	用户数过多。
403.10
	配置无效。
403.11
	密码更改。
403.12
	拒绝访问映射表。
403.13
	客户端证书被吊销。
403.14
	拒绝目录列表。
403.15
	超出客户端访问许可。
403.16
	客户端证书不受信任或无效。
403.17
	客户端证书已过期或尚未生效。
403.18
	在当前的应用程序池中不能执行所请求的 URL。这个错误代码为 IIS 6.0 所专用。
403.19
	不能为这个应用程序池中的客户端执行 CGI。这个错误代码为 IIS 6.0 所专用。
403.20
	Passport 登录失败。这个错误代码为 IIS 6.0 所专用。
404 Not Found
	服务器无法找到被请求的页面。
404.0
	没有找到文件或目录。
404.1
	无法在所请求的端口上访问 Web 站点。
404.2
	Web 服务扩展锁定策略阻止本请求。
404.3
	MIME 映射策略阻止本请求。
405 Method Not Allowed
	请求中指定的方法不被允许。
406 Not Acceptable
	服务器生成的响应无法被客户端所接受。
407 Proxy Authentication Required
	用户必须首先使用代理服务器进行验证，这样请求才会被处理。
408 Request Timeout
	请求超出了服务器的等待时间。
409 Conflict
	由于冲突，请求无法被完成。
410 Gone
	被请求的页面不可用。
411 Length Required
	"Content-Length" 未被定义。如果无此内容，服务器不会接受请求。
412 Precondition Failed
	请求中的前提条件被服务器评估为失败。
413 Request Entity Too Large
	由于所请求的实体的太大，服务器不会接受请求。
414 Request-url Too Long
	由于url太长，服务器不会接受请求。当post请求被转换为带有很长的查询信息的get请求时，就会发生这种情况。
415 Unsupported Media Type
	由于媒介类型不被支持，服务器不会接受请求。
416 Requested Range Not Satisfiable
	服务器不能满足客户在请求中指定的Range头。
417 Expectation Failed
	执行失败。
423
	锁定的错误。


5xx:服务器错误

500 Internal Server Error
	请求未完成。服务器遇到不可预知的情况。
500.12
	应用程序正忙于在 Web 服务器上重新启动。
500.13
	Web 服务器太忙。
500.15
	不允许直接请求 Global.asa。
500.16
	UNC 授权凭据不正确。这个错误代码为 IIS 6.0 所专用。
500.18
	URL 授权存储不能打开。这个错误代码为 IIS 6.0 所专用。
500.100
	内部 ASP 错误。
501 Not Implemented
	请求未完成。服务器不支持所请求的功能。
502 Bad Gateway
	请求未完成。服务器从上游服务器收到一个无效的响应。
502.1
	CGI 应用程序超时。　·
502.2
	CGI 应用程序出错。
503 Service Unavailable
	请求未完成。服务器临时过载或当机。
504 Gateway Timeout
	网关超时。
505 HTTP Version Not Supported
	服务器不支持请求中指明的HTTP协议版本

Day02

Requests: 让 HTTP 服务人类

虽然Python的标准库中 urllib.request 模块已经包含了平常我们使用的大多数功能，但是它的 API 使用起来让人感觉不太好，而 Requests 自称 “HTTP for Humans”，说明使用更简洁方便。

requests 唯一的一个非转基因的 Python HTTP 库，人类可以安全享用：

requests 继承了urllib2的所有特性。Requests支持HTTP连接保持和连接池，支持使用cookie保持会话，支持文件上传，支持自动确定响应内容的编码，支持国际化的 URL 和 POST 数据自动编码。

requests 的底层实现其实就是 urllib3
requests 的文档非常完备，中文文档也相当不错
Requests 能完全满足当前网络的需求，支持Python 2.6以上。

开源地址：https://github.com/kennethreitz/requests
中文文档 API：http://docs.python-requests.org/zh_CN/latest/index.html

安装方式

利用 pip 安装 或者利用 easy_install 都可以完成安装：
pip install requests

或 easy_install requests

Requests使用

GET请求和POST请求

最基本的GET请求

最基本的GET请求可以直接用get方法
response = requests.get("http://www.baidu.com/")

也可以这么写
# response = requests.request("get", "http://www.baidu.com/")

添加 headers 和 查询参数：
	如果想添加 headers，可以传入headers参数来增加请求头中的headers信息。如果要将参数放在url中传递，可以利用params参数。

示例：百度搜索

import requests
kw = {'wd':'长城'}

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"
}

# params 接收一个字典或者字符串的查询参数，字典类型自动转换为url编码，不需要urlencode()
response = requests.get("http://www.baidu.com/s?", params = kw, headers = headers)

# 查看响应内容，response.text 返回的是Unicode格式的数据
print(response.text)

# 查看响应内容，response.content返回的字节流数据
print(respones.content)

# 查看完整url地址
print(response.url)

# 查看响应头部字符编码
print(response.encoding)

# 查看响应码
print(response.status_code)

使用response.text 时，Requests 会基于 HTTP 响应的文本编码自动解码响应内容，大多数 Unicode 字符集都能被无缝地解码。
使用response.content 时，返回的是服务器响应数据的原始二进制字节流，可以用来保存图片等二进制文件。

基本POST请求（data参数）

1. 最基本的GET请求可以直接用post方法
   response = requests.post("http://www.baidu.com/", data = data)
2. 传入data数据
   对于 POST 请求来说，我们一般需要为它增加一些参数。那么最基本的传参方法可以利用data这个参数。

示例：有道翻译

import requests
import json

def youdaoAPI(kw):
    url = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule"
    response = requests.post(url, data=kw, headers=header)
    res = response.content
    # tgt = json.loads(res)  # json解析
    tgt = res.json() # 自带json解析
    print(tgt["translateResult"])

if __name__ == '__main__':

    kw = input("请输入你想翻译的内容：")
    timet = int(time.time() * 1000)
    data = {
        "i": kw,
        "from": "AUTO",
        "to": "AUTO",
        "smartresult": "dict",
        "client": "fanyideskweb",
        "salt": timet,
        "sign": "f66461b42fe9edb6d88230788fb33cfb",
        "doctype": "json",
        "version": "2.1",
        "keyfrom": "fanyi.web",
        "action	": "FY_BY_REALTIME",
        "typoResult	": "false",
    }
    youdaoAPI(data)

代理（proxies参数）

如果需要使用代理，你可以通过为任意请求方法提供proxies参数来配置单个请求：

import requests

# 根据协议类型，选择不同的代理
proxies = {
  "http": "http://12.34.56.79:9527",
  "https": "http://12.34.56.79:9527",
}
# 带密码代理
# proxies = {"https": "http://User1:[email protected]:808"}

response = requests.get("http://www.baidu.com", proxies = proxies)
print(response.text)

web客户端验证

如果是Web客户端验证，需要添加 auth = (账户名, 密码)

import requests

auth=('test', '123456')
response = requests.get('https://api.github.com/user', auth = auth)
print(response.text)

Cookies 和 Session

Cookies

如果一个响应中包含了cookie，那么我们可以利用 cookies参数拿到：

import requests

response = requests.get("http://www.baidu.com/")

# 返回CookieJar对象:
cookiejar = response.cookies

# 将CookieJar转为字典：
cookiedict = requests.utils.dict_from_cookiejar(cookiejar)

print(cookiejar)  # ]>
print(cookiedict)  # {'BDORZ': '27315'}

Session

在 requests 里，session对象是一个非常常用的对象，这个对象代表一次用户会话：从客户端浏览器连接服务器开始，到客户端浏览器与服务器断开。

会话能让我们在跨请求时候保持某些参数，比如在同一个 Session 实例发出的所有请求之间保持 cookie 。

示例：实现笔趣阁登录

import requests

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"
}

session = requests.session()  # 保存cookie

# 笔趣阁登录
url = "https://www.biquge5200.cc/u/login.htm"
data = {
    # 用户名： niejeff, 密码： 123456
    "name": "niejeff",
    "password": "E10ADC3949BA59ABBE56E057F20F883E",
    "autoLogin": "1",
    "autologin": "1"
}

# 登录
response = session.post(url, data=data, headers=headers)
print(response.text)

处理HTTPS请求 SSL证书验证

Requests也可以为HTTPS请求验证SSL证书：

import requests

# 要想检查某个主机的SSL证书，你可以使用 verify 参数（也可以不写）
response = requests.get("https://www.baidu.com/", verify=True)

# 忽略验证， 可以省略不写或设置为verify=false
response = requests.get("https://www.baidu.com/")

print（response.text）

如果SSL证书验证不通过，或者不信任服务器的安全证书，则会报出SSLError，据说 12306 证书是自己做的：
来测试一下：

import requests
response = requests.get("https://www.12306.cn/mormhweb/")
print(response.text)

果然：
SSLError: ("bad handshake: Error([('SSL routines', 'ssl3_get_server_certificate', 'certificate verify failed')],)",)

如果我们想跳过 12306 的证书验证，把 verify 设置为 False 就可以正常请求了。
import requests
response = requests.get("https://www.12306.cn/mormhweb/",verify=False)
print response.text

你可能感兴趣的:(python爬虫)

Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
python爬取微信小程序数据,python爬取小程序数据 2301_81900439 前端
大家好，小编来为大家解答以下问题，python爬取微信小程序数据，python爬取小程序数据，现在让我们一起来看看吧！Python爬虫系列之微信小程序实战基于Scrapy爬虫框架实现对微信小程序数据的爬取首先，你得需要安装抓包工具，这里推荐使用Charles，至于怎么使用后期有时间我会出一个事例最重要的步骤之一就是分析接口，理清楚每一个接口功能，然后连接起来形成接口串思路,再通过Spider的回调
【Python爬虫】百度百科词条内容 PokiFighting 数据处理 python 爬虫开发语言
词条内容我这里随便选取了一个链接，用的是FBI的词条importurllib.requestimporturllib.parsefromlxmlimportetreedefquery(url):headers={'user-agent':'Mozilla/5.0(WindowsNT6.1;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/80.
Python爬虫代理池极客李华 python授课 python 爬虫开发语言
Python爬虫代理池网络爬虫在数据采集和信息抓取方面起到了关键作用。然而，为了应对网站的反爬虫机制和保护爬虫的真实身份，使用代理池变得至关重要。1.代理池的基本概念：代理池是一组包含多个代理IP地址的集合。通过在爬虫中使用代理池，我们能够隐藏爬虫的真实IP地址，实现一定程度的匿名性。这有助于防止被目标网站封锁或限制访问频率。2.为何使用代理池：匿名性：代理池允许爬虫在请求目标网站时使用不同的IP
10个高效的Python爬虫框架，你用过几个？进击的C语言 python
小型爬虫需求，requests库+bs4库就能解决；大型爬虫数据，尤其涉及异步抓取、内容管理及后续扩展等功能时，就需要用到爬虫框架了。下面介绍了10个爬虫框架，大家可以学习使用！1.Scrapyscrapy官网：https://scrapy.org/scrapy中文文档：https://www.osgeo.cn/scrapy/intro/oScrapy是一个为了爬取网站数据，提取结构性数据而编写的
python爬虫(5)之CSDN It is a deal️ 小项目 python json 爬虫
CSDN的爬虫相对于doubatop250更加简单，一般只需要title和url即可下面是相关的代码：#爬虫之csdn#分析urlhttps://www.csdn.net/api/articles?type=more&category=python&shown_offset=0（firstpage）#https://www.csdn.net/api/articles?type=more&categ
Python——爬虫星和月 python
当编写一个Python爬虫时，你可以使用BeautifulSoup库来解析网页内容，使用requests库来获取网页的HTML代码。下面是一个简单的示例，演示了如何获取并解析网页内容：importrequestsfrombs4importBeautifulSoup#发送HTTP请求获取网页内容url='https://www.example.com'#要爬取的网页的URLresponse=requ
基于Python爬虫四川成都二手房数据可视化系统设计与实现(Django框架) 研究背景与意义、国内外研究现状_django商品房数据分析论文(1) 莫莫Android开发信息可视化 python 爬虫
3.国外研究现状在国外，二手房数据可视化也是一个热门的研究领域。以美国为例，有很多公司和网站提供了专门的二手房数据可视化工具，如Zillow、Redfin等。这些工具通常提供房价趋势图、房价分布图、房源信息等功能，帮助用户更好地了解房市动态。综上所述，虽然国内外在二手房数据可视化方面已经有了一些研究成果，但对于四川成都地区的二手房市场还没有相关的研究和可视化系统。因此，本研究旨在设计并实现一个基于
python requests下载网页_python爬虫 requests-html的使用 weixin_39600319 python requests下载网页
一介绍Python上有一个非常著名的HTTP库——requests，相信大家都听说过，用过的人都说非常爽！现在requests库的作者又发布了一个新库，叫做requests-html，看名字也能猜出来，这是一个解析HTML的库，具备requests的功能以外，还新增了一些更加强大的功能，用起来比requests更爽！接下来我们来介绍一下它吧。#官网解释'''Thislibraryintendsto
解决“Python中 pip不是内部或外部命令，也不是可运行的程序或批处理文件”的方法。 གཡུ ། Python 常规问题 python pip 机器学习自然语言处理
解决‘Python中pip不是内部或外部命令，也不是可运行的程序或批处理文件。’的方法1、pip是什么？pip是一个以Python计算机程序语言写成的软件包管理系统，他可以安装和管理软件包，另外不少的软件包也可以在“Python软件包索引”中找到。它可以通过cmd（命令提示符）非常方便地下载和管理Python第三方库，比如，Python爬虫中常见的requests库等。但是我们在使用cmd运行pi
python爬虫的urlib知识梳理卑微小鹿爬虫
1:urlib.request.urlopen发送请求getpost网络超时timeout=0.1网络请求模拟一个浏览器所发送的网络请求创建requestrequest头信息➕host/IP➕验证➕请求方式cookice客户返回响应数据所留下来的标记代理ipUrlib.request.proxyhander字典类型异常处理codereasonhearders拆分URLurlpaseurlsplit
Python爬虫入门实战：抓取CSDN博客文章 A Bug's Code Journey 爬虫 python
一、前言在大数据时代，网络上充斥着海量的信息，而爬虫技术就是解锁这些信息宝库的钥匙。Python，以其简洁易读的语法和强大的库支持，成为编写爬虫的首选语言。本篇博客将从零开始，带你一步步构建一个简单的Python爬虫，抓取CSDN博客的文章标题和链接。二、环境准备在开始之前，确保你的环境中安装了Python和以下必要的库：1.requests：用于发送HTTP请求2.BeautifulSoup：用
Python爬虫——Selenium方法爬取LOL页面张小生180 python 爬虫 selenium
文章目录Selenium介绍用Selenium方法爬取LOL每个英雄的图片及名字Selenium介绍Selenium是一个用于自动化Web应用程序测试的工具，但它同样可以被用来进行网页数据的抓取（爬虫）。Selenium通过模拟用户在浏览器中的操作（如点击、输入、滚动等）来与网页交互，并可以捕获网页的渲染结果，这对于需要JavaScript渲染的网页特别有用。安装Selenium首先，你需要安装S
Python爬虫如何搞定动态Cookie？小白也能学会！图灵学者 python精华 python 爬虫 github
目录1、动态Cookie基础1.1Cookie与Session的区别1.2动态Cookie生成原理2、requests.Session方法2.1Session对象保持2.2处理登录与Cookie刷新2.3长连接与状态保持策略3、Selenium结合ChromeDriver实战3.1安装配置Selenium3.2动态抓取&处理Cookie4、requests-Session结合Selenium技巧4
Python爬虫基础知识板栗妖怪 python 爬虫开发语言
(未完成)爬虫概念爬虫用于爬取数据，又称之为数据采集程序爬取数据来源于网络，网络中数据可以是有web服务器、数据库服务器、索引库、大数据等等提供爬取数据是公开的、非盈利。python爬虫使用python编写的爬虫脚本可以完成定时、定量、指定目标的数据爬取。主要使用多（单）线程/进程、网络请求库、数据解析、数据储存、任务调度等相关技术。爬虫和web后端服务关系爬虫使用网络请求库，相当于客户端请求，w
python爬虫处理滑块验证_python selenium爬虫滑块验证用户6731453637 python爬虫处理滑块验证
importrandomimporttimefromPILimportImagefromioimportBytesIOimportrequestsasrqfrombs4importBeautifulSoupasbsfromseleniumimportwebdriverfromselenium.webdriverimportActionChainsfromselenium.webdriverimpo
如何用python爬取股票数据选股_用python爬取股票数据 weixin_39752087
获取数据是数据分析中必不可少的一部分，而网络爬虫是是获取数据的一个重要渠道之一。鉴于此，我拾起了Python这把利器，开启了网络爬虫之路。本篇使用的版本为python3.5，意在抓取证券之星上当天所有A股数据。程序主要分为三个部分：网页源码的获取、所需内容的提取、所得结果的整理。一、网页源码的获取很多人喜欢用python爬虫的原因之一就是它容易上手。只需以下几行代码既可抓取大部分网页的源码。imp
Python爬虫基础总结醉蕤 Python python 爬虫
活动地址：CSDN21天学习挑战赛学习的最大理由是想摆脱平庸，早一天就多一份人生的精彩；迟一天就多一天平庸的困扰。学习日记目录学习日记一、关于爬虫1、爬虫的概念2、爬虫的优点3、爬虫的分类4、重要提醒5、反爬和反反爬机制6、协议7、常用请求头和常用的请求方法8、常见的响应状态码9、url的详解二、爬虫基本流程三、可能需要的库四、小例1、requests请求网页2、python解析网页源码（使用Be
2024年最新初面蚂蚁金服，Python爬虫实战：爬取股票信息(1)，面试题解析已整理成文档怎么办 imtokenmax合约众筹 2024年程序员学习 python 爬虫开发语言
收集整理了一份《2024年最新Python全套学习资料》免费送给大家，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上Python知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来如果你需要这些资料，可以添加V无偿获取：hxbc188（备注666）正文首先要爬取股票数据
Python怎么去抓取公众号的文章？Python爬虫爬取微信公众号方法快乐星球没有乐 python 爬虫微信
很多小伙伴在学习了爬虫之后都能够使用它去抓取一些网页上的数据了，但是最近有小伙伴问我微信公众号上的文章要怎么去抓取出来。那这一篇文章将会以实际的代码示例来介绍如何去使用python爬虫抓取微信公众号的文章。1.下载wkhtmltopdf1这个应用程序，它可以将HTML格式的数据转换成PDF格式的。2.打开python编辑器，新建一个python项目命名为wxgzhPDF并在里面创建一个空白的pyt
Python爬虫——使用JSON库解析JSON数据_爬虫json解析 Java老杨程序员 python 爬虫 json
文章目录1如何在网页中获取JSON数据？2Python内置的JSON库这几天在琢磨爬取动态网页，发现需要爬取js内容，虽然说最后还是没有用上JSON库进行解析，不过笔记写的都写了，就发出来记录一下吧。1如何在网页中获取JSON数据？打开一个具有动态渲染的网页，按F12打开浏览器开发工具，点击“网络”，再刷新一下网页，观察是否有新的数据包。发现有js后缀的文件，这就是我们想要的json数据了。2Py
Python100个库分享第16个—sqlparse(SQL解析器) 一晌小贪欢 Python100个库分享 sql python 爬虫开发语言 python学习 python爬虫
目录专栏导读库的介绍库的安装1、解析SQL语句2、格式化SQL语句3、提取表名4、分割多条SQL语句实际应用代码参考：总结专栏导读欢迎来到Python办公自动化专栏—Python处理办公问题，解放您的双手️‍博客主页：请点击——>一晌小贪欢的博客主页求关注该系列文章专栏：请点击——>Python办公自动化专栏求订阅此外还有爬虫专栏：请点击——>Python爬虫基础专栏求订阅此外还有python基础
python web自动化 gaoguide2015 自动化脚本 web html
1.python爬虫之模拟登陆csdn(登录、cookie)http://blog.csdn.net/yanggd1987/article/details/52127436?locationNum=32、xml解析：Python网页解析：BeautifulSoup与lxml.html方式对比（xpath）lxml库速度快，功能强大，推荐。http://blog.sina.com.cn/s/blog
Python爬虫-小某书达人榜单写python的鑫哥爬虫实战进阶 python 爬虫开发语言 cookie requests
前言本文是该专栏的第35篇，后面会持续分享python爬虫干货知识，记得关注。本文案例来介绍某平台达人榜单，值得注意的是，在开始之前，需要提前登录，否则榜单无法拿到。废话不多说，下面跟着笔者直接往下看正文。正文目标：aHR0cHM6Ly9keS5odWl0dW4uY29tL2FwcC8jL2FwcC9kYXNoYm9hcmQ=（注：使用base64自行解码）需求：红薯版-达人榜单打开页面之后，先点
【Python爬虫实战】：二手房数据爬取 3344什么都不是 python pandas 数据分析
文章目录系列文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言万维网上有着无数的网页，包含着海量的信息，无孔不入、森罗万象。但很多时候，无论出于数据分析或产品需求，我们需要从某些网站，提取出我们感兴趣、有价值的内容，但是纵然是进化到21世纪的人类，依然只有两只手，一双眼，不可能去每一个网页去点去看，然后再复制粘贴。所以我们需要一种能自动获取网页内容并可以按照指定规则提取
Python爬虫实战 weixin_34007879 爬虫 json java
引言网络爬虫是抓取互联网信息的利器，成熟的开源爬虫框架主要集中于两种语言Java和Python。主流的开源爬虫框架包括：1.分布式爬虫框架：Nutch2.Java单机爬虫框架：Crawler4j,WebMagic,WebCollector、Heritrix3.python单机爬虫框架：scrapy、pyspiderNutch是专为搜索引擎设计的的分布式开源框架，上手难度高，开发复杂，基本无法满足快
2024年Python爬虫：爬取招聘网站系列 - 前程无忧 2401_84562659 程序员 python 爬虫开发语言
importpprint#格式化输出模块importcsv#保存csv数据算了，我直接贴代码吧，流程都写清楚了，我把注释也标上了。兄弟们在学习的时候没有人解答和好的学习资料教程就很痛苦，解答或者其它教程都在这了电子书、视频都有！对应视频教程：【Python爬虫】招聘网站实战合集第一弹：爬取前程无忧，零基础也能学会！f=open(‘python招聘数据1.csv’,mode=‘a’,encoding
2024年Python最新Python爬虫入门教程30：爬取拉勾网招聘数据信息(1) 2401_84584609 程序员 python 爬虫信息可视化
Python爬虫入门教程23：A站视频的爬取，解密m3u8视频格式Python爬虫入门教程24：下载某网站付费文档保存PDFPython爬虫入门教程25：绕过JS加密参数，实现批量下载抖某音无水印视频内容Python爬虫入门教程26：快手视频网站数据内容下载Python爬虫入门教程27：爬取某电商平台数据内容并做数据可视化Python爬虫入门教程28：爬取微博热搜榜并做动态数据展示Python爬虫
python爬虫面试真题及答案_Python面试题爬虫篇(附答案) 朴少 python爬虫面试真题及答案
0|1第一部分必答题注意：第31题1分，其他题均每题3分。1，了解哪些基于爬虫相关的模块？-网络请求：urllib，requests，aiohttp-数据解析：re，xpath，bs4，pyquery-selenium-js逆向：pyexcJs2，常见的数据解析方式？-re、lxml、bs43，列举在爬虫过程中遇到的哪些比较难的反爬机制？-动态加载的数据-动态变化的请求参数-js加密-代理-coo
2024年Python最全Python爬虫实战：爬取股票信息_python 获取a股所有代码(1) 2401_84585339 程序员 python 爬虫 windows
doc=PyQuery(r.text)list=[]#获取所有section中a节点，并进行迭代foriindoc('.stockTablea').items():try:href=i.attr.hreflist.append(re.findall(r"\d{6}",href)[0])except:continuelist=[item.lower()foriteminlist]#将爬取信息转换小写
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul