还算小萌新？

python爬虫学习笔记 1.8 （urllib:get请求和post请求）

python爬虫学习笔记 1.1（通用爬虫和聚焦爬虫）
python爬虫学习笔记 1.2 （ HTTP和HTTPS ）
python爬虫学习笔记 1.3 str和bytes的区别
python爬虫学习笔记 1.4 （Request简单使用）request安装
python爬虫学习笔记 1.5 （Requests深入）
python爬虫学习笔记 1.6 （HTTP/HTTPS抓包工具-Fiddler）
python爬虫学习笔记 1.7 （urllib模块的基本使用）
python爬虫学习笔记 1.8 （urllib:get请求和post请求）
python爬虫学习笔记 1.9 （Handler处理器和自定义Opener）
python爬虫学习笔记 2 （非结构化数据和结构化数据提取）
python爬虫学习笔记 2.1 （正则表达式re模块）
python爬虫学习笔记 2.2 （使用正则表达式得爬虫得简单案例）
python爬虫学习笔记 2.3 （XPath与lxml类库）
python爬虫学习笔记 2.4 （使用Xpath得案例）
python爬虫学习笔记 2.5 （json与JsonPath）
python爬虫学习笔记 2.6 （糗事百科案例）
python爬虫学习笔记 2.7 （多线程爬虫案例（初步了解））
python爬虫学习笔记 2.8 （beautifulsoup4）
python爬虫学习笔记 2.9 （使用bs4得案例）
python爬虫学习笔记 3 （动态HTML处理和机器图像识别）
python爬虫学习笔记 3.1 （动态HTML介绍）
python爬虫学习笔记 3.2 （Selenium与PhantomJS）
python爬虫学习笔记 3.#（番外）（selenium和chromedriver使用中得问题）

urllib默认只支持HTTP/HTTPS的GET和POST方法

urllib.parse.urlencode()

编码工作使用urllib.parse的urlencode()函数，帮我们将key:value这样的键值对转换成"key=value"这样的字符串，解码工作可以使用urllib.parse的unquote()函数。

# IPython3 中的测试结果
In [1]: import urllib.parse

In [2]: word = {"wd" : "学习使我快乐"}

# 通过urllib.urlencode()方法，将字典键值对按URL编码转换，从而能被web服务器接受。
In [3]: urllib.parse.urlencode(word)  
Out[3]: "wd=%E5%AD%A6%E4%B9%A0%E4%BD%BF%E6%88%91%E5%BF%AB%E4%B9%90"

# 通过urllib.unquote()方法，把 URL编码字符串，转换回原先字符串。
In [4]: print urllib.parse.unquote("wd=%E5%AD%A6%E4%B9%A0%E4%BD%BF%E6%88%91%E5%BF%AB%E4%B9%90")
wd=学习使我快乐

一般HTTP请求提交数据，需要编码成 URL编码格式，然后做为url的一部分，或者作为参数传到Request对象中。

GET方式

GET请求一般用于我们向服务器获取数据，比如说，我们用百度搜索python:https://www.baidu.com/s?wd=python

在其中我们可以看到在请求部分里，http://www.baidu.com/s? 之后出现一个长长的字符串，其中就包含我们要查询的关键词，于是我们可以尝试用默认的Get方式来发送请求。

# urllib_get.py

url = "http://www.baidu.com/s"
word = {"wd":"传智播客"}
word = urllib.parse.urlencode(word) #转换成url编码格式（字符串）
newurl = url + "?" + word    # url首个分隔符就是 ?

headers={ "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36"}

request = urllib.request.Request(newurl, headers=headers)

response = urllib.request.urlopen(request)

print (response.read())

批量爬取贴吧页面数据

首先我们创建一个python文件, tiebaSpider.py，我们要完成的是，输入一个百度贴吧的地址，比如：

百度贴吧LOL吧第一页：http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=0

第二页： http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=50

第三页： http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=100

发现规律了吧，贴吧中每个页面不同之处，就是url最后的pn的值，其余的都是一样的，我们可以抓住这个规律。

简单写一个小爬虫程序，来爬取百度LOL吧的所有网页。

先写一个main，提示用户输入要爬取的贴吧名，并用urllib.urlencode()进行转码，然后组合url，假设是lol吧，那么组合后的url就是：http://tieba.baidu.com/f?kw=lol

批量爬取贴吧页面数据

首先我们创建一个python文件, tiebaSpider.py，我们要完成的是，输入一个百度贴吧的地址，比如：

百度贴吧LOL吧第一页：http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=0

第二页： http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=50

第三页： http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=100

发现规律了吧，贴吧中每个页面不同之处，就是url最后的pn的值，其余的都是一样的，我们可以抓住这个规律。

简单写一个小爬虫程序，来爬取百度LOL吧的所有网页。
先写一个main，提示用户输入要爬取的贴吧名，并用urllib.urlencode()进行转码，然后组合url，假设是lol吧，那么组合后的url就是：http://tieba.baidu.com/f?kw=lol

# 模拟 main 函数
if __name__ == "__main__":

    kw = raw_input("请输入需要爬取的贴吧:")
    # 输入起始页和终止页，str转成int类型
    beginPage = int(raw_input("请输入起始页："))
    endPage = int(raw_input("请输入终止页："))

    url = "http://tieba.baidu.com/f?"
    key = urllib.parse.urlencode({"kw" : kw})

    # 组合后的url示例：http://tieba.baidu.com/f?kw=lol
    url = url + key
    tiebaSpider(url, beginPage, endPage)

接下来，我们写一个百度贴吧爬虫接口，我们需要传递3个参数给这个接口，一个是main里组合的url地址，以及起始页码和终止页码，表示要爬取页码的范围。

def tiebaSpider(url, beginPage, endPage):
    """
        作用：负责处理url，分配每个url去发送请求
        url：需要处理的第一个url
        beginPage: 爬虫执行的起始页面
        endPage: 爬虫执行的截止页面
    """

    for page in range(beginPage, endPage + 1):
        pn = (page - 1) * 50

        filename = "第" + str(page) + "页.html"
        # 组合为完整的 url，并且pn值每次增加50
        fullurl = url + "&pn=" + str(pn)
        #print fullurl

        # 调用loadPage()发送请求获取HTML页面
        html = loadPage(fullurl, filename)
	    html = html.decode()
        # 将获取到的HTML页面写入本地磁盘文件
        writeFile(html, filename)

我们已经之前写出一个爬取一个网页的代码。现在，我们可以将它封装成一个小函数loadPage，供我们使用。

def loadPage(url, filename):
    '''
        作用：根据url发送请求，获取服务器响应文件
        url：需要爬取的url地址
        filename: 文件名
    '''
    print ("正在下载" + filename)

    headers = {"User-Agent": "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"}

    request = urllib.request.Request(url, headers = headers)
    response = urllib.request.urlopen(request)
    return response.read()

最后如果我们希望将爬取到了每页的信息存储在本地磁盘上，我们可以简单写一个存储文件的接口.

def writeFile(html, filename):
    """
        作用：保存服务器响应文件到本地磁盘文件里
        html: 服务器响应文件
        filename: 本地磁盘文件名
    """
    print ("正在存储" + filename)
    with open(filename, 'w') as f:
        f.write(html)
    print "-" * 20

其实很多网站都是这样的，同类网站下的html页面编号，分别对应网址后的网页序号，只要发现规律就可以批量爬取页面了。

全部代码

from past.builtins import raw_input
import urllib.request
import requests


def tiebaSpider(url,beginPage,endPage):
    """
           作用：负责处理url，分配每个url去发送请求
           url：需要处理的第一个url
           beginPage: 爬虫执行的起始页面
           endPage: 爬虫执行的截止页面
       """
    #https://tieba.baidu.com/f?kw=lol&pn=50
    for page in range(beginPage,endPage+1):
        pn = (page-1) * 50

        filename = "第" + str(page) + "页.html"

        fullurl = url + "&pn" + str(pn)

        html = loadPage(fullurl,filename)

        html = html.decode()

        writeFile(html,filename)

def loadPage(url,filename):
    '''
        作用：根据url发送请求，获取服务器响应文件
        url：需要爬取的url地址
        filename: 文件名
    '''
    print("正在下载" + filename)

    headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36"}

    request = urllib.request.Request(url, headers = headers)

    response = urllib.request.urlopen(request)

    return response.read()

def writeFile(html,filename):
    """
        作用：保存服务器响应文件到本地磁盘文件里
        html: 服务器响应文件
        filename: 本地磁盘文件名
    """
    print("正在存储" + filename)

    with open(filename,'w',encoding="utf-8") as f:

        f.write(html)



if __name__ == "__main__":

    kw = raw_input("请输入需要爬取的贴吧：")

    beginPage = int(raw_input("请输入起始页："))
    endPage = int(raw_input("请输入终止页："))

    url = "http://tieba.baidu.com/f?"
    # 将键值转化为字节符
    key = urllib.parse.urlencode({"kw":kw})

    url = url + key

    tiebaSpider(url,beginPage,endPage)

POST方式：

上面我们说了Request请求对象的里有data参数，它就是用在POST里的，我们要传送的数据就是这个参数data，data是一个字典，里面要匹配键值对。

有道词典翻译网站：

输入测试数据，再通过使用Fiddler观察，其中有一条是POST请求，而向服务器发送的请求数据并不是在url里，那么我们可以试着模拟这个POST请求。

于是，我们可以尝试用POST方式发送请求。

base_url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'
data = {
    'i': 'spider',
    'from': 'AUTO',
    'to': 'AUTO',
    'smartresult': 'dict',
    'client': 'fanyideskweb',
    'salt': '15722497498890',
    'sign': 'a5bfb7f00ee1906773bda3074ff32fec',
    'ts': '1572249749889',
    'bv': '1b6a302b48b06158238e3c036feb6ba1',
    'doctype': 'json',
    'version': '2.1',
    'keyfrom': 'fanyi.web',
    'action': 'FY_BY_REALTlME',
}
headers= {
    'Accept': 'application/json, text/javascript, */*; q=0.01',
    'Accept-Encoding': 'gzip, deflate',
    'Accept-Language': 'zh-CN,zh;q=0.9',
    'Connection': 'keep-alive',
    'Content-Length': '239',
    'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
    'Cookie': '_ntes_nnid=106c3a7170510674c7f7d772e62a558b,1565682306312; OUTFOX_SEARCH_USER_ID_NCOO=1135450303.6725993; OUTFOX_SEARCH_USER_ID="[email protected]"; [email protected]|1570794528|0|other|00&99|not_found&1570667109&mail_client#bej&null#10#0#0|152885&0||[email protected]; _ga=GA1.2.1944828316.1572140505; JSESSIONID=aaa-Ya9um-M_N80M5xr4w; ___rl__test__cookies=1572249749875',
    'Host': 'fanyi.youdao.com',
    'Origin': 'http://fanyi.youdao.com',
    'Referer': 'http://fanyi.youdao.com/',
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36',
    'X-Requested-With': 'XMLHttpRequest',
}

data = urllib.parse.urlencode(data)

data = data.encode()

request =  urllib.request.Request(base_url,data = data ,headers = headers)
response = urllib.request.urlopen(request)
print(response.read())

这里提供一个使用requests的代码作为对比：

import requests

base_url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'
data = {
    'i': 'spider',
    'from': 'AUTO',
    'to': 'AUTO',
    'smartresult': 'dict',
    'client': 'fanyideskweb',
    'salt': '15722497498890',
    'sign': 'a5bfb7f00ee1906773bda3074ff32fec',
    'ts': '1572249749889',
    'bv': '1b6a302b48b06158238e3c036feb6ba1',
    'doctype': 'json',
    'version': '2.1',
    'keyfrom': 'fanyi.web',
    'action': 'FY_BY_REALTlME',
}
headers= {
    'Accept': 'application/json, text/javascript, */*; q=0.01',
    'Accept-Encoding': 'gzip, deflate',
    'Accept-Language': 'zh-CN,zh;q=0.9',
    'Connection': 'keep-alive',
    'Content-Length': '239',
    'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
    'Cookie': '_ntes_nnid=106c3a7170510674c7f7d772e62a558b,1565682306312; OUTFOX_SEARCH_USER_ID_NCOO=1135450303.6725993; OUTFOX_SEARCH_USER_ID="[email protected]"; [email protected]|1570794528|0|other|00&99|not_found&1570667109&mail_client#bej&null#10#0#0|152885&0||[email protected]; _ga=GA1.2.1944828316.1572140505; JSESSIONID=aaa-Ya9um-M_N80M5xr4w; ___rl__test__cookies=1572249749875',
    'Host': 'fanyi.youdao.com',
    'Origin': 'http://fanyi.youdao.com',
    'Referer': 'http://fanyi.youdao.com/',
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36',
    'X-Requested-With': 'XMLHttpRequest',
}
response = requests.post(base_url,headers = headers,data=data)
print(response.text)

发送POST请求时，需要特别注意headers的一些属性：
Content-Length: 144：是指发送的表单数据长度为144，也就是字符个数是144个。

Content-Type: application/x-www-form-urlencoded ：表示浏览器提交 Web 表单时使用，表单数据会按照 name1=value1&name2=value2 键值对形式进行编码。

X-Requested-With: XMLHttpRequest ：表示Ajax异步请求。

获取AJAX加载的内容

有些网页内容使用AJAX加载，这种数据无法直接对网页url进行获取。只要记得，AJAX一般返回的是JSON，只要对AJAX地址进行post或get，就能返回JSON数据了。

如果非要从HTML页面里获取展现出来的数据，也不是不可以。但是要记住，作为一名爬虫工程师，你更需要关注的是数据的来源。

import urllib

# demo1

url = "https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action"

headers={"User-Agent": "Mozilla...."}

# 变动的是这两个参数，从start开始往后显示limit个
formdata = {
    'start':'0',
    'limit':'10'
}
data = urllib.parse.urlencode(formdata)

request = urllib.request.Request(url, data = data, headers = headers)
response = urllib.request.urlopen(request)

print (response.read())


# demo2

url = "https://movie.douban.com/j/chart/top_list?"
headers={"User-Agent": "Mozilla...."}

# 处理所有参数
formdata = {
    'type':'11',
    'interval_id':'100:90',
    'action':'',
    'start':'0',
    'limit':'10'
}
data = urllib.parse.urlencode(formdata)

request = urllib.request.Request(url, data = data, headers = headers)
response = urllib.request.urlopen(request)

print (response.read())

GET方式是直接以链接形式访问，链接中包含了所有的参数，服务器端用Request.QueryString获取变量的值。如果包含了密码的话是一种不安全的选择，不过你可以直观地看到自己提交了什么内容。

POST则不会在网址上显示所有的参数，服务器端用Request.Form获取提交的数据，在Form提交的时候。但是HTML代码里如果不指定 method 属性，则默认为GET请求，Form中提交的数据将会附加在url之后，以?分开与url分开。

表单数据可以作为 URL 字段（method=“get”）或者 HTTP POST （method=“post”）的方式来发送。比如在下面的HTML代码中，表单数据将因为（method=“get”）而附加到 URL 上：

<form action="form_action.asp" method="get">
    <p>First name: <input type="text" name="fname" /></p>
    <p>Last name: <input type="text" name="lname" /></p>
    <input type="submit" value="Submit" />
</form>

处理HTTPS请求 SSL证书验证

现在随处可见 https 开头的网站，urllib可以为 HTTPS 请求验证SSL证书，就像web浏览器一样，如果网站的SSL证书是经过CA认证的，则能够正常访问，如：https://www.baidu.com/等…

如果SSL证书验证不通过，或者操作系统不信任服务器的安全证书，比如浏览器在访问12306网站如：https://www.12306.cn/mormhweb/的时候，会警告用户证书不受信任。（据说 12306 网站证书是自己做的，没有通过CA认证）

urllib在访问的时候则会报出SSLError：

import urllib

url = "https://www.12306.cn/mormhweb/"

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}

request = urllib.request.Request(url, headers = headers)

response = urllib.request.urlopen(request)

print (response.read())

运行结果：

URLError:

所以，如果以后遇到这种网站，我们需要单独处理SSL证书，让程序忽略SSL证书验证错误，即可正常访问。

import urllib
# 1. 导入Python SSL处理模块
import ssl

# 2. 表示忽略未经核实的SSL证书认证
context = ssl._create_unverified_context()

url = "https://www.12306.cn/mormhweb/"

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}

request = urllib.request.Request(url, headers = headers)

# 3. 在urlopen()方法里 指明添加 context 参数
response = urllib.request.urlopen(request, context = context)

print (response.read().decode())

关于CA

CA(Certificate Authority)是数字证书认证中心的简称，是指发放、管理、废除数字证书的受信任的第三方机构，如北京数字认证股份有限公司、上海市数字证书认证中心有限公司等…

CA的作用是检查证书持有者身份的合法性，并签发证书，以防证书被伪造或篡改，以及对证书和密钥进行管理。

现实生活中可以用身份证来证明身份，那么在网络世界里，数字证书就是身份证。和现实生活不同的是，并不是每个上网的用户都有数字证书的，往往只有当一个人需要证明自己的身份的时候才需要用到数字证书。

普通用户一般是不需要，因为网站并不关心是谁访问了网站，现在的网站只关心流量。但是反过来，网站就需要证明自己的身份了。

比如说现在钓鱼网站很多的，比如你想访问的是www.baidu.com，但其实你访问的是www.daibu.com”，所以在提交自己的隐私信息之前需要验证一下网站的身份，要求网站出示数字证书。

一般正常的网站都会主动出示自己的数字证书，来确保客户端和网站服务器之间的通信数据是加密安全的。

Python爬虫学习路径与实战指南 10 晨曦543210 学习
一、终极整合：构建企业级爬虫系统的7大核心模块1、混沌工程防护层使用ChaosMonkey随机注入故障，测试系统韧性fromchaosmonkeyimportChaosMonkeymonkey=ChaosMonkey()monkey.enable_failure("proxy_pool",probability=0.3)#30%概率模拟代理失效2、动态规则引擎实时更新反爬策略规则库classAnt
Python爬虫学习路径与实战指南 05 晨曦543210 学习
一、数据清洗与预处理的魔鬼细节1.非结构化文本处理正则表达式进阶：用命名分组提取复杂文本。importretext="价格:￥199.00折扣价:￥159.00"pattern=r"价格:￥(?P\d+\.\d{2})折扣价:￥(?P\d+\.\d{2})"match=re.search(pattern,text)print(match.groupdict())#{'price':'199.00'
Python爬虫学习路径与实战指南 06 晨曦543210 学习
一、跨平台数据抓取策略1.桌面应用数据提取Windows应用：使用pywinauto自动化操作并提取数据。frompywinautoimportApplicationapp=Application().start("notepad.exe")app.Notepad.edit.set_text("需要提取的文本")macOS应用：通过AppleScript桥接调用系统API。2.游戏数据抓取内存读取
Python爬虫学习——超时设置 ZIUPAN python爬虫
在本机网络不好还是网络响应太慢的情况下，为了防止等待太长时间，可以设置一个超时时间，即超过了这个时间还没有得到响应，那就报错。需要用到timeout参数。这个时间的计算是指发出请求到服务器返回响应的时间。柿栗如下：importrequestsr=requests.get("https://www.taobao.com",timeout=1)print(r.status_code)通过以上方式，我们
Python爬虫学习资源 python游乐园文本处理 python 爬虫学习
书籍《Python网络爬虫从入门到实践》内容由浅入深，详细介绍了Python爬虫的基础知识和实践技巧，包括网页解析、数据存储、反爬虫策略等。书中配有大量的示例代码和案例分析，适合初学者快速上手。《Python网络数据采集》这本书涵盖了网页抓取的各个方面，包括如何处理HTML和XML、使用正则表达式、处理表单和登录验证等。书中还介绍了如何使用Scrapy框架进行大规模数据采集，以及如何处理反爬虫机制
Python爬虫学习路径与实战指南 03 晨曦543210 学习
一、深度技术扩展1.浏览器自动化高阶技巧无头模式（Headless）：提升Selenium效率，减少资源占用。fromselenium.webdriver.chrome.optionsimportOptionsoptions=Options()options.add_argument("--headless")#无头模式driver=webdriver.Chrome(options=options
python爬虫学习 - 查看显卡价格不惧神风学习笔记
python爬虫学习-查看显卡价格这是一个简单的爬虫项目，用于从中关村网站上爬取显卡报价数据，后续可以考虑爬取相关的参数信息让数据更立体。数据的保存使用的是json，以python为主要开发语言。这个项目纯粹玩玩儿，不会使用什么现有的框架，只要能动就好。python版本：3.6.8pip版本：18.1（不想用21版本的，装一个库弹一个错误简直要命）我的主要目的是要每日爬取NVIDIA显卡的均价和极
【自用】Python爬虫学习（三）：图片下载、使用代理、防盗链视频下载、多线程与多进程 Lucky_云佳 #Python爬虫学习 python 爬虫学习
Python爬虫学习（三）使用BeautifulSoup解析网页并下载图片模拟用户登录处理使用代理视频下载，防盗链的处理多线程与多进程使用BeautifulSoup解析网页并下载图片目的：对某网站的某个专栏页面的图片进行下载得到高清图。思路：从主页获取每张图片对应的子页面的链接地址，在子页面找到对应的高清图片下载地址然后下载。查找使用BeautifulSoup，直接从主页拿到的图片下载链接为缩略图
python爬虫学习笔记-requests基础资料小助手 python #python爬虫 python 爬虫学习
爬虫初始为什么要学习爬虫之前在授课过程中，好多同学都问过我这样的一个问题：为什么要学习爬虫，学习爬虫能够为我们以后的发展带来那些好处？其实学习爬虫的原因和为我们以后发展带来的好处都是显而易见的，无论是从实际的应用还是从就业上。我们都知道，当前我们所处的时代是大数据的时代，在大数据时代，要进行数据分析，首先要有数据源，而学习爬虫，可以让我们获取更多的数据源，并且这些数据源可以按我们的目的进行采集。优
Python爬虫学习笔记_DAY_26_Python爬虫之requests库的安装与基本使用【Python爬虫】_requests库ip 苹果Android开发组程序员 python 爬虫学习
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
Python爬虫学习（一）——爬取新浪新闻 WayBling python python 爬虫
参照网易云课堂的课程实践的结果：准备工作：安装requests和BeautifulSoup4。打开cmd，输入如下命令pipinstallrequestspipinstallBeautifulSoup4打开我们要爬取的页面，这里以新浪新闻为例，地址为：http://news.sina.com.cn/china/大概的思路就是通过浏览器的开发者工具检测到要获取数据所需要的request是什么，然后使
python电影评价分析_用 Python 分析豆瓣电影 TOP250 weixin_39806413 python电影评价分析
用Python分析豆瓣电影TOP250既然要分析豆瓣电影TOP250,那么肯定就要把相关的数据采集下来,比如排名,电影名,导演,主演等信息.那就肯定使用一下爬虫咯,如果还不会的话,欢迎看之前的文章:Python爬虫学习(一)概述Python爬虫学习(二)urllib基础使用Python爬虫学习(三)urllib进阶使用Python爬虫学习(四)正则表达式Python爬虫学习(五)爬取电影排行榜及其
Python爬虫学习——爬取小说章节一大块肥皂 Python爬虫 python 爬虫
之前学了Python好久都没有用，感觉再不继续学就要忘了。。。赶紧再挖个坑继续学习。这个部分会用Python去做爬虫来进行学习，巩固python的知识。爬虫的教程看的是Jack-Cui大佬的文章。这一次是跟着大佬学习：Python3网络爬虫（二）：下载小说的正确姿势（2020年最新版）_Jack-Cui-CSDN博客练习-爬取章节前面的爬虫基础部分就看大佬的上一篇博文，讲的非常棒：Python3网
手机Python爬虫教程：利用手机学习Python爬虫的终极指南一只会写程序的猫 Python 智能手机 python 爬虫
【引言】在数字化时代，手机已经成为人们生活中不可或缺的一部分。而Python爬虫作为一种强大的数据获取工具，也受到越来越多人的关注。但是，是否可以利用手机进行Python爬虫学习呢？本文将介绍如何通过手机学习Python爬虫，为你打开一扇全新的学习之门。【一、手机学习资源】1.《Python爬虫入门教程》（手机应用）这款手机应用程序提供了Python爬虫的基础知识和实例讲解，适合初学者使用。你可以
Python爬虫：从入门到实践来恩1003 Python爬虫 python 爬虫开发语言
Python爬虫学习资料Python爬虫学习资料Python爬虫学习资料在当今数字化信息爆炸的时代，数据已成为企业和个人发展的重要资产。Python爬虫作为一种高效获取网络数据的工具，正逐渐被广大开发者所熟知和应用。无论是市场调研、学术研究，还是数据分析，Python爬虫都能发挥巨大作用。本文将带你从基础概念出发，逐步深入到爬虫的实战应用，助你掌握这一强大的数据获取技能。一、爬虫基础：开启数据获取
python爬虫心得_python爬虫学习心得 weixin_39941721 python爬虫心得
爬虫新手一枚，因为工作原因需要学习相关的东西。发表下这段时间学习的心得，有说得不对的地方欢迎指指点点。一.什么是爬虫在学习爬虫之前只对爬虫有个概念性的认识。通过向服务器发送请求获取服务器传回信息，再根据其提取所需的信息。原理虽然简单，但是涉及的细节非常多，从一个坑爬出来又掉进另一个坑。二.post和getpost和get是两种向服务器发送请求的方式，有些http基础的同学应该都清楚他们的用处，在写
Python大数据之Python爬虫学习总结——day16 数据可视化笨小孩124 Python爬虫学习总结信息可视化 python 大数据
数据可视化Map_地图基础地图知识点:基础示例:实战练习:知识点:自定义模块:制作中国地图data1.txt文件内容python代码示例制作区域地图data2.txt文件内容python代码示例Line_折线图基础折线图实战练习:Bar_柱状图基础柱状图反转以及主题设置Json数据python数据转为json数据知识点:示例:json数据转为python数据知识点:json文件:示例:Map_地图
python爬虫要不要学正则_Python爬虫学习（四）正则表达式 weixin_39583751 python爬虫要不要学正则
经过前面的学习之后，大家现在应该可以顺利地得到一个网页源码字符串，对于Python中的字符串，Python提供了很多操作，大家可以其去尝试提取网页源码字符串中想要的信息。在这里，给大家推荐的是正则表达式!文章最后还有爬取糗事百科的实例哦！什么是正则表达式说白了，正则表达式就是描述我们需要提取的那部分信息的规则的工具。举个栗子，比如，我们想要提取'Stayhungry,123stayfoolish!
python爬虫学习小叶丶
Python爬虫(1):基本原理Python爬虫(2):Requests的基本用法Python爬虫(3):Requests的高级用法Python爬虫(4):BeautifulSoup的常用方法Python爬虫(5):豆瓣读书练手爬虫Python爬虫(6):煎蛋网全站妹子图爬虫Python爬虫(7):多进程抓取拉钩网十万数据Python爬虫(8):分析Ajax请求爬取果壳网Python爬虫(9):C
Python爬虫学习曹博Blog Python python 爬虫学习
1.1搭建爬虫程序开发环境爬取未来七天天气预报frombs4importBeautifulSoupfrombs4importUnicodeDammitimporturllib.requesturl="http://www.weather.com.cn/weather/101120901.shtml"try:headers={"User-Agent":"Mozilla/5.0(WindowsNT10
python爬虫学习day2—百度翻译 2401_82964032 爬虫学习 python 百度
##第零步安装requests库以及了解AJAX请求##第一步打开百度翻译网址，随便输入一个英文单词，我们可以发现网页进行了局部刷新，而非整体性的，因此我们可以猜测，这是一个AJAX请求。##第二步F12打开控制台，点击网络(network)，因为我们已经猜测这是一个AJAX请求，因此我们选择XHR(实现网页得局部刷新)或者叫Fetch/XHR。然后输入一个英文单词，例如write。我们挨个点击，
python爬虫学习day3—KFC肯德基餐厅信息查询 2401_82964032 爬虫学习 beautifulsoup
##第零步安装requests库以及了解AJAX请求##第一步打开肯德基餐厅信息查询(kfc.com.cn)随便输入一个地址后发现页面没有整体刷新，并且点击下一页页面也仍然是局部刷新，因此判断是AJAX请求。##第二步F12打开控制台，点击网络(network)，选择XHR(实现网页得局部刷新)或者叫Fetch/XHR。选择一个地址后，我们可以得到点击后我们可以得到：其url为https://ww
python爬虫学习day1—Books to Scrape 2401_82964032 python beautifulsoup
##第零步安装requests库与BeautifulSoup库，以及学习一点点html知识##第一步导入requests库与BeautifulSoup库importrequestsfrombs4importBeautifulSoup##第三步查看网站是否有反爬机制如果有可以选择伪装浏览器headers={"User-Agent":"自己浏览器的标识"}按F12找到网络（network）然后刷新网页
python爬虫beautifulsoup实例-Python爬虫学习（二）使用Beautiful Soup库 weixin_37988176
（一）使用BeautifulSoup库（默认将HTML转换为utf-8编码）1，安装BeautifulSoup库：pipinstallbeautifulsoup42，简单使用：importrequests;from_socketimporttimeoutfrombs4importBeautifulSoup#使用BeautifulSoup库需要导包#fromaifcimportdatadefgetH
python爬虫学习步骤和推荐资料 suoge223 python 爬虫学习
学习Python爬虫是一项非常实用的技能，可以帮助你获取网络上的数据，进行信息抓取和分析。以下是一系列学习步骤和对应的参考资料，帮助你入门和深入学习Python爬虫。###学习步骤：####Step1:基础Python编程在学习爬虫之前，首先要确保你对基础的Python语法有一定的了解。参考资料：-[Python官方文档](https://docs.python.org/3/)-[w3school
Python爬虫学习之scrapy库蜀道之南718 python 爬虫学习笔记 scrapy
一、scrapy库安装pipinstallscrapy-ihttps://pypi.douban.com/simple二、scrapy项目的创建1、创建爬虫项目打开cmd输入scrapystartproject项目的名字注意:项目的名字不允许使用数字开头也不能包含中文2、创建爬虫文件要在spiders文件夹中去创建爬虫文件cd项目的名字\项目的名字\spiderscdscrapy_baidu_09
Python大牛写的爬虫学习路线，分享给大家！ IT青年
今天给大家带来我的python爬虫学习路线，供大家参考！第一步，学会自己安装python、库和你的编辑器并设置好它我们学习python的最终目的是要用它来达到我们的目的，它本身是作为工具的存在，我们一定要掌握自己的工具的各类设置，比如安装、环境配置、库的安装，编辑器的设置等等。当然也可以用比如Anaconda来管理你的版本和各种库！为了帮助大家更轻松的学好Python开发，爬虫技术，Python数
python爬虫学习笔记之数据提取 py爱好者~ 笔记 1024程序员节 python 爬虫
参考博客：python爬虫学习笔记_fdk少东家的博客-CSDN博客1、XPath语法和lxml库1.01、什么是XPath?xpath(XMLPathLanguage)是一门在XML和HTML文档中查找信息的语言，可用来在XML和HTML文档中对元素和属性进行遍历。1.02、XPath工具Chrome插件XPathHelper。Firefox插件XPathChecker。1.03、XPath语法
python爬虫学习笔记之数据存储 py爱好者~ 笔记 python 爬虫
参考博客：python爬虫学习笔记_fdk少东家的博客-CSDN博客1、json文件处理：1.01、什么是json：JSON(JavaScriptObjectNotation,JS对象标记)是一种轻量级的数据交换格式。它基于ECMAScript（w3c制定的js规范）的一个子集，采用完全独立于编程语言的文本格式来存储和表示数据。简洁欸和清晰的层次结构使得JSON成为理想的数据交换语言。易于人阅读和
python爬虫学习笔记之网络请求 py爱好者~ 笔记分类爬虫 python
参考博客：python爬虫学习笔记_fdk少东家的博客-CSDN博客'requests'库安装和文档地址：利用pip进行安装：pipinstallrequests中文文档：Requests:让HTTP服务人类—Requests2.18.1文档发送GET请求：1.最简单的发送get请求就是通过requests.get来调用：response=requests.get('http://www.baid
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，

python爬虫学习笔记 1.8 （urllib:get请求和post请求）

python爬虫学习笔记 1.8 （urllib:get请求和post请求）

urllib默认只支持HTTP/HTTPS的GET和POST方法

urllib.parse.urlencode()

GET方式

批量爬取贴吧页面数据

简单写一个小爬虫程序，来爬取百度LOL吧的所有网页。

批量爬取贴吧页面数据

全部代码

POST方式：

有道词典翻译网站：

获取AJAX加载的内容

处理HTTPS请求 SSL证书验证

关于CA

你可能感兴趣的:(python爬虫学习)