Joseph_JL

python网络爬虫与信息提取

学习视频链接：

https://www.icourse163.org/learn/BIT-1001870001?tid=1464881473#/learn/announce

知识点：

工具：

一、网络爬虫之规则

1.requests库入门

安装requests库

request库的7个主要方法

requests.request() 构造一个请求，支撑以下各方法的基础方法
requests.get() 获取html网页的主要方法
requests.post() 向网页提交post请求的方法
requests.head() 获取网页有信息的方法
requests.put() 向网页提交put请求
requests.patch() 向网页提交局部修改
requests.delete() 向网页提交删除请求

后面六个方法调用第一个方法实现的

get方法：

response=requests.get(url,params=None,**kwargs)

url：拟获取页面的url链接

params:url中的额外参数，字典或字节流格式，可选

**kwargs：12个控制访问的参数

Response对象

包含爬虫返回的内容

Response对象的属性：

r.status_code
r.text http响应内容的字符串形式，即，url对应的页面内容
r.encoding 从http的header中猜测的响应内容编码方式
r.apparent_encoding 从内容中分析出的相应内容编码方式，备选编码方式
r.content http响应内容的二进制形式

理解编码：

r.encoding：如果header中不存在charset，则认为编码为ISO-8859-1，但不能解析中文。

r.apparent_encoding：根据网页内容分析编码格式

Request库的异常:

requests.ConnectionError：网络连接异常，如DNS查询失败，拒绝连接

requests.HTTPError：HTTP连接异常

requests.URLRequired：URL缺失异常

requests.TooManyRequests：超过最大重定向次数，产生重定向异常

requests.ConnectTimeout：连接远程服务器超时异常（仅指连接）

requests.Timeout 请求URL超时，产生超时异常，（发出URL请求到获得整个内容）

r.raise_for_status() 能够判断状态码，不是200，产生requests.HTTPError

爬取网页的通用代码框架

import requests

def getHTMLText(url):
    try:
        r=requests.get(url,timeout=30)
        r.raise_for_status() # 如果状态不是200，引发HTTPError异常
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return "产生异常"

if __name__=="__main__":
    url="https://www.baidu.com"
    print(getHTMLText(url))

http方法：

patch和put的区别：

假设URL位置有一组数据UserInfo,包括UserID、UserName等20个字段。

需求：用于修改了UserName，其他不变。

采用patch，仅需向URL提交UserName的局部更新请求
采用put，必须将所有20个字段一并提交到URL，未提交字段将被删除

head方法，获取网络资源的概要信息

post方法，向网页提交信息

request方法，最基础的方法

requests.request(method,url,**kwargs)

**kwargs 访问控制参数，均为可选项

params：字典或字节序列，作为参数添加到url中
data：字典、字节序列、文件对象，作为Request的内容
json：JSON格式的数据，作为Request的内容向服务器提交
headers:字典，HTTP定制头
cookies：字典或CookieJar，Request中的cookie
auth：元组，支持HTTP认证功能
files：字典类型，传输提交文件
timeout：设定超时时间，秒为单位
proxies：字典类型，设定访问代理服务器，可以增加登录验证
allow_redirects：True/False，默认为True，重定向开关
stream：True/False，默认为True，获取内容立即下载开关
verify：True/False，默认为True，认证SSL证书开关
cert：本地SSL证书路径

requests.get(url,params=None,**kwargs)

requests.head(url,**kwargs)

requests.post(url,data=None,json=None,**kwargs)


requests.put(url,params=None,**kwargs)

requests.patch(url,params=None,**kwargs)

requests.delete(url,**kwargs)

2.网络爬虫的Robots协议

网络爬虫问题：

服务器性能骚扰、数据法律侵权、隐私泄露

Robots协议：

Robots Exclusion Standard 网络爬虫排除标准

作用：告知，哪些内容可以爬取，哪些内容不可以爬取

形式：在网站根目录下的robots.txs文件

Robots协议规定如果一个网站不提供robots.txt文件，默认允许被爬取。

3.requests库网络爬虫实战（5个实例）

实例1：京东商品页面的爬取

实例2：亚马逊商品的爬取

【注意】定制headers，避免被网站服务器识别为爬虫

一般只需要修改：

headers={'user-agent':'Mazilla/5.0'}

实例3：百度搜索关键词提交（用程序自己提交关键词并搜索）

实例4：网络图片的爬取并保存下来

import requests
import os
url="https://c-ssl.duitang.com/uploads/item/201608/09/20160809112917_ZkVCP.jpeg"
root="F://csnotes//notes//crawler//code//img"
path=root+url.split('/')[-1]

try:
    if not os.path.exists(root):
        os.mkdir(root)
    if not os.path.exists(path):
        r=requests.get(url)
        with open(path,'wb') as f:
            f.write(r.content)
            f.close()
            print("文件保存成功")
    else:
        print("文件已存在")
except:
    print("爬取失败")

使用图片的原名字，只需要截取/最后的名称

实例5：ip地址的归属地

在网络上找API

网站上面的人机交互方式，“图形文本框点击”在正式向服务器提交的时候都是以链接的形式提交，只要我们知道链接形式，就可以通过Python程序去提交。

网络上任何一个东西都对应一个url，理论上都可以爬取

二、网路爬虫之爬取

1.beautifulsoup4库

安装beautiful soup：

pip install beautifulsoup4

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的python库

使用beautifulsoup4解析`字符串格式的html代码`

import bs4
from bs4 import BeautifulSoup

soup=BeautifulSoup(r.text,'html.parser') 
soup2=BeautifulSoup("data",'html.parser') # html字符串形式

soup3=BeautifulSoup(open("D://demo.html"),'html.parser') #html以打开文件形式导入

beautifulsoup本身解析的是html和xml的文档，与标签树一一对应，通过bs4转换为一个BeautifulSoup类。
通过beautifulsoup库使得标签树成为一个变量。即BeautifulSoup类对应一个HTML/XML文档的全部内容

beautifulsoup库解析器

主要使用html.parser解析器

beautifulsoup类的基本元素

元素获取：

from bs4 import BeautifulSoup
import requests
r=requests.get("https://python123.io/ws/demo.html")
soup=BeautifulSoup(r.text,"html.parser")
# 获得标签
print(soup.title)
print(soup.a)
# 获得标签的名字
tag=soup.a
print(tag.name)  
print(tag.parent.name) 
# 获得标签的属性
print(tag.attrs)
print(tag.attrs["class"])
print(tag.attrs["href"])


# 标签的类型
print(type(tag)) #
# 标签属性的类型
print(type(tag.attrs)) #

基于bs4库的对html标签树遍历

html文档标签树

下行遍历：

.contents和.children：获得下一层儿子节点列表，可以使用下标
.descendants：获取所有子孙节点列表

.contents返回列表类型

.children和.descentdants返回迭代类型，只能用在for循环中

tag=soup.body

# .contents的使用
print(type(tag.contents)) #
print(tag.contents[1])

# .children的使用，遍历儿子节点
print(type(tag.children)) #
for child in soup.body.children:
    print(child)

# .descendants的使用，遍历子孙节点
print(type(tag.descendants)) #
for child in soup.body.descendants:
    print(child)

上行遍历：

.parent：返回父亲节点
.parents：返回先辈节点

# .parent的使用
print(type(soup.title.parent)) # 父亲只有一个
print(soup.title.parent)

# .parents的使用
print(type(soup.a.parents)) # 先辈需要遍历
for parent in soup.a.parents:
    if(parent is None):
        print(parent)
    else:
        print(parent.name)

平行遍历：

.next_sibling：返回后一个平行节点标签
.previous_sibling：返回前一个平行节点标签
.next_siblings：返回后面所有平行节点标签
.previous_siblings：返回前面所有平行节点标签

所有的平行遍历发生在同一个父节点下

平行遍历的下一个节点不一定是标签类型，可能是NavigableString类型

<p>
    <a href="http://www.icourse163.org/course/BIT-268001" class="py1" id="link1">Basic Python</a>
    and 
    <a href="http://www.icourse163.org/course/BIT-1001870001" class="py2" id="link2">Advanced Python</a>
</p>

基于bs4库的html格式输出：prettify()方法

让html友好的输出

为html文本的标签和内容增加换行符
也可以对每个标签做处理

编码问题：bs4库将每一个读入的html文件或字符串都转换为utf-8编码

2.信息标记与提取方法

信息标记语言

信息标记三种形式

**XML（eXtensible Markup Language）**通过标签形式来构建所有信息

XML是基于html发展的一种通用的信息表达形式

XML实例：将每一个信息域定义相关标签，采用嵌套形式组织起来
JSON（javaScript Object Notation) 有类型的键值对key：value，采用双引号表示类型

对于javascript等编程语言，可以直接将json格式作为程序的一部分

JSON实例：
YAML（YAML Ain’t Markup Language）无类型的键值对key:value

通过缩进表示所属关系

减号表达并列关系

| 表示整块数据 #表示注释

YAML实例：

比较：

XML：最早的通用信息标记语言，可拓展性好，但繁琐。

主要应用在：Internet上的信息交互与传递，如html
JSON：信息有类型，适合程序处理（js），较XML简洁。

主要应用在：移动应用云端和节点的信息通信，无注释。

用在程序对接口处理的地方，json数据在经过传输之后能够作为程序代码的一部分并被程序直接运行，这样json格式中对数据类型的定义才能最大化发挥作用

缺陷：无法使用注释
YAML：信息无类型，文本信息比例最高，可读性好。

主要应用在：各类系统的配置文件，有注释易读

信息提取的一般方法

信息提取指从标记后的信息中，提取出所关注的内容

方法一：完整解析信息的标记形式，再提取关键信息

XML、JSON、YAML

需要表及解析器例如：bs4库的标签树遍历

优点：信息解析准确

缺点：提取过程繁琐，速度慢
方法二：无视标记形式，直接搜索关键信息

搜索

对信息的文本，查找函数即可

优点：提取过程简洁，速度较快

缺点：提取结果准确性与信息内容直接相关
【使用多】融合方法：结合形式解析与搜索方法，提取关键信息

XML、JSON、YAML +搜索

标记解析器+文本查找函数

实例：提取HTML中所有的URL连接

demo.html

思路：

找到所有的标签

解析标签格式，提取href后的真实链接内容

for link in soup.find_all('a'):
    print(link.get('href'))

`<>.find_all()`方法

# 1.name:字符串检索 标签
# 查找所有a标签
print(soup.find_all('a'))#返回列表类型
# 查找所有a标签或b标签,or
print(soup.find_all(['a','b']))
# 标签名称为true，返回所有标签
print(soup.find_all(True))
import re
# 查找所有以b开头的所有信息
soup.find_all(re.compile('b'))


# 2.attrs：字符串检索 属性
# 带有class='course'属性的p标签
soup.find_all('p','course')
# 属性中id='link1'
soup.find_all(id='link1')
# 正则表达式,id以'link'开头
soup.find_all(id=re.compile('link'))

# 3.recursive是否对子孙全部检索，默认为true。
# 只搜索当前节点的儿子，可置为false
soup.find_all('a',recursive=False)

# 4.string 字符串检索 标签中字符串域
# 精确检索
soup.find_all(string="Basic Python") 
# 模糊检索，正则表达式
soup.find_all(string=re.compile("python"))

进行文本检索时：使用find_all函数+正则表达式可以很有效的在html和xml文本中检索到所需要信息或者获得所需要信息的相关区域

find_all（）简写形式：

7个扩展方法：

3.实例1：中国大学排名爬取

url：

【软科排名】2021年最新软科中国大学排名|中国最好大学排名 (shanghairanking.cn)

功能描述：

输入：大学排名url链接
输出：大学排名信息的屏幕输出（排名，大学名称，总分）
技术路线：requests-bs4

定向爬虫

程序设计：

request获取网页内容 getHTMLTest()
bs4提取网页内容到合适数据结构fillUnivList()
展示输出结果（存储到数据库）PrintUnivList()

老师课堂教学实例：url不可用，仅代码

import requests
import bs4
from bs4 import BeautifulSoup

def getHTMLTest(url):
    try:
        r=requests.get(url,timeout=30,headers={'user-agent':'Mazilla/5.0'})
        r.raise_for_status()
        r.encodingk=r.apparent_encoding
        return r.text
    except:
        return ""

def fillUnivList(ulist,html):
    soup=BeautifulSoup(html,"html.parser")
    for tr in soup.find('tbody').children:
        if isinstance(tr,bs4.element.Tag):
            tds=tr('td') #找到tr标签里面的所有td
            ulist.append([tds[0].string,tds[1].string,tds[3].string]) #将每个大学的信息组成一个列表，放到大列表中

def printUnivList(ulist,num):
    tplt="{0:^10}\t{1:{3}^10}'t{2:^10}" #中文输出对齐问题
    print(tplt.format("排名","学校名称","总分"),chr(12288)) #表头的设置
    for i in range(num): #打印学校信息
        u=ulist[i]
        print(tplt..format(u[0],u[1],u[2]),chr(12288))

def main():
    uinfo=[]
    url="https://m.dxsbb.com/news/38833.html" # 此处与老师的url不一致
    html=getHTMLTest(url) #html=r.text 为字符串
    fillUnivList(uinfo,html)
    printUnivList(uinfo,20) # 只列出20所学校的相关信息

三、网络爬虫之实战

1.Re库

概念、语法

正则表达式——是用来简洁表示一组字符串的表达式。

通用的字符串表达框架
简洁，表达一组字符串的特征或者模式，的表达式
针对字符串表达“简洁”和“特征”思想的工具
判断某个字符串是否属于某个类型

作用

表达文本类型的特征（病毒、入侵等）
同时查找或替换一组字符串
匹配字符串的全部或部分特征

主要应用在字符串匹配中

使用

**编译：**将符合正则表达式语法的字符串转换成正则表达式特征

编译后的特征与一组字符串对应，编译之前的正则表达式只是符合正则表达式语法的单一字符串，并不是真正意义上的正则表达式

语法

由字符+操作符构成

常用操作符：

基本使用

Re库是Python的标准库，主要用于字符串匹配

raw string类型（原生字符串类型）

re库采用raw string类型表示正则表达式，表示为：r’text’

如：r’[1-9]\d{5}'和r’\d{3}-\d{8}\\d{4}=\d{7}‘’

raw string是指不包含转义符的字符串

正则表达式的表示类型

当正则表达式中包含“转义字符”时，使用raw string来表示

Re库主要功能函数

re.search()函数

re.match()函数

此时未匹配到，match为空变量

re.findall()函数，返回列表

spolit()函数

将匹配的部分去掉，剩下的部分作为各单个元素放到列表里面

re.finder()函数

re.sub()函数

用一个新的字符串替换匹配上的字符串

re库的另一种等价用法

re.compile()函数

字符串或者或者原生字符串并不是正则表达式，它只是一种表示。

通过compile编译生成的一个对象regex才是正则表达式，它代表了一组字符串

正则表达式对象的概念

正则表达式对象的方法

只需要直接给出相关的字符串就可以了

re库的match对象

match对象就是一次匹配的结果，包含了很多匹配的相关信息

match对象的属性

match对象的方法

match对象包含了一次正则表达式匹配过程中，出现的更多的信息。

只包含一次匹配的结果，如果需要得到每一个返回的对象，需要用finditer()函数实现返回迭代器类型

Re库的贪婪匹配和最小匹配

re库默认采用贪婪匹配，即最长匹配

最小匹配

小结：

正则表达式，是用来简洁表达一组字符串的表达式

re库提供了六个方法

两种调用方式，将资质证表达式编译成正则表达式对象

编程使用中，文本处理和操纵是最常使用的功能，正则表达式很好的支持了文本匹配和文本替换

2.淘宝商品比价定向爬虫

功能描述

目标：获取淘宝搜索页面的信息，提取其中的商品名称和价格。
理解：淘宝的搜索接口、翻页的处理
技术路线：requests+re

url链接接口

程序的结构设计

提交商品搜索请求，循环获取页面
对于每个页面，提取商品名称和价格信息
将信息输出到屏幕上

import requests
import re

def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""

# 解析网页：不使用beautifulSoup库提取商品信息，只采用正则表达式,提取价格和标题
def parsePage(ilt, html):
    try:
        plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"',html) #返回的是列表
        tlt = re.findall(r'\"raw_title\"\:\".*?\"',html)
        for i in range(len(plt)):
            price = eval(plt[i].split(':')[1])  #eval能去掉最外层双引号和单引号
            title = eval(tlt[i].split(':')[1])
            ilt.append([price , title])
    except:
        print("")

def printGoodsList(ilt):
    tplt = "{:4}\t{:8}\t{:16}"
    print(tplt.format("序号", "价格", "商品名称"))
    count = 0
    for g in ilt:
        count = count + 1
        print(tplt.format(count, g[0], g[1]))
        
def main():
    goods = '书包'
    depth = 3 #爬取深度
    start_url = 'https://s.taobao.com/search?q=' + goods
    infoList = [] # 输出结果
    for i in range(depth): # 对每一个页面进行爬取
        try:
            url = start_url + '&s=' + str(44*i)
            html = getHTMLText(url) #获取网页
            parsePage(infoList, html) #解析页面
        except:
            continue #某个页面解析失败跳过继续往后解析
    printGoodsList(infoList)
    
main()

本实例中因为具体数据是script脚本给出的，并非静态html页面，因此采用正则表达式获取

3.股票数据定向爬虫

功能描述

目标：获取上交所和深交所所有股票的名称和交易信息
输出：保存到文件中
技术路线：requests+bs4+re

候选数据网站的选择

选取原则：股票信息静态存在于HTML页面中，非js代码生成，没有Robots协议限制。
选取方法：查看源代码
选取心态：不要纠结于某个网站，多找信息源尝试

程序结构设计

从东方财富网获取股票列表
根据股票列表逐个到百度股票获取个股信息
将结果存储到文件

import requests
from bs4 import BeautifulSoup
import re
import traceback

def getHTMLText(url):
    try:
        r=requests.get(url,headers={'user-agent':'Mazilla/5.0'},timeout=30)
        print(r.status_code)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return ""

def getStockList(lst,stockURL): #lst为返回的股票列表 stockURL为获取股票列表的网址
    html=getHTMLText(stockURL)
    soup=BeautifulSoup(html,'html.parser')
    a=soup.find_all('a')
    for i in a:
        try:
            href=i.attrs['href']
            lst.append(re.findall(r'[s][hz]\d{6}',href)) #【重要】利用正则表达式获取beautifulSoup处理后的文本
        except:
            continue

def getStockInfo(lst,stockURL,fpath): #lst为股票列表，stockURL为具体股票的链接，fpath为文件地址
    for stock in lst:
        url=stockURL+stock+".html"
        html=getHTMLText(url)
        try:
            if html=="":
                continue
            infoDict={} #存储个股的所有信息
            soup=BeautifulSoup(html,'html.parser')
            stockInfo=soup.find('div',attrs={'class':'stock-bets'})

            name=stockInfo.find_all(attrs={'class':'bets-name'})[0]
            infoDict.update({'股票名称':name.text.split()[0]}) #股票名称后面课程还有其他信息，删减掉
            
            keyList=stockInfo.find_all('dt') #股票信息key
            valueList=stockInfo.find_all('dd') #股票信息value
            for i in range(len(keyList)):
                key=keyList[i].text
                val=valueList[i].text
                infoDict[key]=val #将信息存储到字典中

            #将股票信息保存到文件中
            with open(fpath,'a',encoding='utf-8') as f:
                f.write(str(infoDict)+'\n')
        except:
            traceback.print_exc() #打印错误信息
            continue

def main():
    stock_list_url="http://quote.eastmoney.com"
    stock_info_url="https://gupiao.baidu.com"
    output_file='D://BaiduStockInfo.txt'
    slist=[] #股票列表

    getStockList(slist,stock_list_url) #获取股票列表
    getStockInfo(slist,stock_info_url,output_file) #根据股票列表到相关网站获取相应股票信息，并存储到文件中

main()

优化：提升用户体验

提高速度

在已知网页编码情况下，可以直接手动赋值编码

增加动态进度显示

增加“不换行动态进度条”信息展示：采用\r

进度条的\r属性在IDLE中被禁止，可以使用command命令行查看

完整代码

import requests
from bs4 import BeautifulSoup
import traceback
import re

def getHTMLText(url, code="utf-8"):
    try:
        r = requests.get(url)
        r.raise_for_status()
        r.encoding = code
        return r.text
    except:
        return ""

def getStockList(lst, stockURL):
    html = getHTMLText(stockURL, "GB2312")
    soup = BeautifulSoup(html, 'html.parser') 
    a = soup.find_all('a')
    for i in a:
        try:
            href = i.attrs['href']
            lst.append(re.findall(r"[s][hz]\d{6}", href)[0])
        except:
            continue

def getStockInfo(lst, stockURL, fpath):
    count = 0
    for stock in lst:
        url = stockURL + stock + ".html"
        html = getHTMLText(url)
        try:
            if html=="":
                continue
            infoDict = {}
            soup = BeautifulSoup(html, 'html.parser')
            stockInfo = soup.find('div',attrs={'class':'stock-bets'})

            name = stockInfo.find_all(attrs={'class':'bets-name'})[0]
            infoDict.update({'股票名称': name.text.split()[0]})
            
            keyList = stockInfo.find_all('dt')
            valueList = stockInfo.find_all('dd')
            for i in range(len(keyList)):
                key = keyList[i].text
                val = valueList[i].text
                infoDict[key] = val
            
            with open(fpath, 'a', encoding='utf-8') as f:
                f.write( str(infoDict) + '\n' )
                count = count + 1
                print("\r当前进度: {:.2f}%".format(count*100/len(lst)),end="")
        except:
            count = count + 1
            print("\r当前进度: {:.2f}%".format(count*100/len(lst)),end="")
            continue

def main():
    stock_list_url = 'https://quote.eastmoney.com/stocklist.html'
    stock_info_url = 'https://gupiao.baidu.com/stock/'
    output_file = 'D:/BaiduStockInfo.txt'
    slist=[]
    getStockList(slist, stock_list_url)
    getStockInfo(slist, stock_info_url, output_file)

main()

小结

区分是js获取的动态网页还是html静态页面
合理使用beautifulSoup和re库，特征明显的数据可以直接采用正则表达式获取；一般先采用beautifulSoup库提取数据，再利用正则表达式详细提取
优化：实现了爬取进程的动态滚动条

四、网络爬虫之框架——Scrapy框架

1.概述

安装scrapy库（需要关闭)

pip install scrapy

scrapy -h测试安装效果

介绍

爬虫框架结构

5个核心模块+2个中间件

scrapy框架包含三条主要数据流路径：在这5个模块之间，数据包括用户提交的网络爬虫请求以及从网络上获取的相关内容在这些结构之间进行流动，形成了数据流。

engine从spiders获取了爬取用户的请求requests，engine转发给scheduler模块，scheduler模块负责对爬取请求进行调度。
engine从scheduler获得下一个要爬取的网络请求（这个时候的网络请求是真实的，要去网络上去爬取的请求），engine通过中间件发送给downloader模块，downloader模块拿到请求后真实连接互联网并爬取相关网页；将爬取的内容封装形成一个response对象，通过中间件发送给engine，再转发给spiders。
spiders处理从网络上获取的内容，产生两个数据类型，一个是爬取项items，另一个是网页上感兴趣的新的爬取请求。将数据发送engine，engine将item转发给item pipelines，将requests转发给scheduler

框架入口是spiders，出口是item pipelines

engine，scheduler，downloader都是已有的功能实现

用户需要编写spiders模块和item pipelines模块，基于模板的编写，称为配置

spiders模块用来向整个框架提供要访问的url链接，同时要解析从网络页面上获得的内容

item pipelines模块负责对提取的信息进行后处理

爬虫框架解析

engine：不需要用户修改

控制所有模块之间的数据流
根据条件触发事件

downloader

根据请求下载网页
也不需要用户修改

scheduler

对所有爬去请求进行调度管理
也不需要用户修改

engine和downloader之间的中间件 Downloader Middleware

目的：实施engine、scheduler和downloader之间进行用户可配置的控制
功能：用户可以自定义修改、丢弃、新增请求或响应

用户可以编写配置代码，一般用户可以不更改这个中间件

spiders：最核心，需要用户编写配置代码

解析Downloader返回的响应（Response）
产生爬取项（scraped item）
产生额外的爬去请求（Request）

Item pipelines

以流水线方式处理spider产生的爬取项
由一组操作顺序组成，类似流水线，每个操作是一个Item Pipeline类型
可能的操作包括：对Item的数据进行清理、检验、查重爬取项中的HTML数据、将数据存储到数据库
需要用户配置

从网页中提取出来的item信息，用户希望怎么处理

spider Middleware

目的：对请求和爬取项的再处理
功能：修改、丢弃、新增请求或爬取项
用户可以编写配置代码

requests库和Scrapy库（框架）比较

相同点：

都可以对页面进行请求和爬取
两者都没有处理js、提交表单、应对验证码等功能（可扩展）

不同点：

非常小的爬取需求：requests

不太小的请求：scrapy框架

自搭框架：requests>scrapy

Scrapy常用命令

scrapy是为持续运行设计的专业爬虫框架，提供操作的Scrapy命令行

命令行格式：

scrapy常用命令

scrapy框架下一个project是一个最大单元，相当于一个scrapy框架；

框架中可以有多个爬虫，每一个爬虫相当于一个spider模块

2.基本使用

scrapy爬虫的第一个实例

产生scrpy框架：

建立Scrapy爬虫工程

cmd中cd到特定目录中，scrapy startproject python123demo
在工程中产生一个Scrapy爬虫，生成demo.py
配置产生的spider爬虫，修改demo.py文件

修改具体链接

更改爬取方法的具体功能

此处实现：将response中的内容写到一个文件中
运行爬虫，获取网页

完整版代码

yield关键字的使用

yield是python33个关键字之一

生成器

生成器是一个不断产生值的函数
包含yield语句的函数是一个生成器
生成器每次产生一个值（yield语句），函数被冻结，被唤醒后再产生一个值

生成器的使用一般与循环搭配在一起，可以通过循环调用

普通写法：列举所有可能的值，再返回列表

为什么要有生成器？

生成器相比一次列出所有内容的优势：更节省存储空间，响应更迅速，使用更灵活

当n很大时，使用生成器写法
生成器写法，urls是一个列表，通过for循环使用yield语句每次提交一个url请求。

start_requests是一个生成器函数，对其调用每次返回一个url链接

基本使用小结

scrapy爬虫的使用步骤

创建一个工程和Spider模板
编写spider
编写item Pipeline
优化配置策略

Scrapy爬虫的数据类型

Request类
Response类
Item类
- Spider对网页相关信息进行获取后，会提取其中的信息，把其中的信息生成键值对，并且封装成字典，这种字典就是item类

scrapy爬虫提取信息的方法

scrapy爬虫支持多种HTML信息提取方法

BeautifulSoup
Ixml
re
XPath Selector
CSS Selector

CSS Selector的基本使用

3.实例：股票数据Scrapy爬虫

步骤1：建立工程和Spider模板

\>scrapy startproject BaiduStocks
\>cd BaiduStocks
\>scrapy genspider stocks baidu.com
进一步修改spiders、stocks.py文件

stock.py

# -*- coding: utf-8 -*-
import scrapy
import re


class StocksSpider(scrapy.Spider):
    name = "stocks"
    start_urls = ['https://quote.eastmoney.com/stocklist.html']

    def parse(self, response):
        for href in response.css('a::attr(href)').extract():
            try:
                stock = re.findall(r"[s][hz]\d{6}", href)[0]
                url = 'https://gupiao.baidu.com/stock/' + stock + '.html'
                yield scrapy.Request(url, callback=self.parse_stock)
            except:
                continue

    def parse_stock(self, response):
        infoDict = {}
        stockInfo = response.css('.stock-bets')
        name = stockInfo.css('.bets-name').extract()[0]
        keyList = stockInfo.css('dt').extract()
        valueList = stockInfo.css('dd').extract()
        for i in range(len(keyList)):
            key = re.findall(r'>.*', keyList[i])[0][1:-5]
            try:
                val = re.findall(r'\d+\.?.*', valueList[i])[0][0:-5]
            except:
                val = '--'
            infoDict[key]=val

        infoDict.update(
            {'股票名称': re.findall('\s.*\(',name)[0].split()[0] + \
             re.findall('\>.*\<', name)[0][1:-1]})
        yield infoDict

步骤2：编写Spider

配置stocks.py文件
修改对返回页面的处理
修改对新增URL爬取请求的处理

步骤3：编写Pipelines

配置pipelines.py文件
定义对爬取项Scraped Item的处理类

新建了一个类，找到settings.py，配置ITEM_PIPELINE选项，才能找到这个类

pipelines.py

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html


class BaidustocksPipeline(object):
    def process_item(self, item, spider):
        return item

class BaidustocksInfoPipeline(object):
    def open_spider(self, spider):
        self.f = open('BaiduStockInfo.txt', 'w')

    def close_spider(self, spider):
        self.f.close()

    def process_item(self, item, spider):
        try:
            line = str(dict(item)) + '\n'
            self.f.write(line)
        except:
            pass
        return item

settings.py

# Configure item pipelines
# See https://scrapy.readthedocs.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
    'BaiduStocks.pipelines.BaidustocksInfoPipeline': 300,
}

生成了一个spider，它能够从东方财富网获得股票的列表，并且针对每一个股票列表生成一个百度股票的链接；并向百度股票的链接进行信息爬取；

对于爬取后的信息，经过spider的处理，提取出其中关键信息，形成字典，并且将这个字典以item类的形式给到了item pipelinses进行后续处理

实例优化

你可能感兴趣的:(python,爬虫)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
Ubuntu基础（Python虚拟环境和Vue） aaiier ubuntu python linux
Python虚拟环境sudoaptinstallpython3python3-venv进入项目目录cdXXX创建虚拟环境python3-mvenvvenv激活虚拟环境sourcevenv/bin/activate退出虚拟环境deactivateVue安装Node.js和npm#安装Node.js和npm（Ubuntu默认仓库可能版本较旧，适合入门）sudoaptinstallnodejsnpm#验
苦练Python第9天：if-else分支九剑 python后端前端人工智能
苦练Python第9天：if-else分支九剑前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众号：倔强青铜三。欢迎点赞、收藏、关注，一键三连！！！欢迎来到100天Python挑战第9天！今天我们不练循环，改磨“分支剑法”——ifelse三式：单分支、双分支、多分支，以及嵌套和三元运算符，全部实战演练，让
苦练Python第8天：while 循环之妙用 python后端前端人工智能
苦练Python第8天：while循环之妙用原文链接：https://dev.to/therahul_gupta/day-9100-while-loops-with-real-world-examples-528f作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众
苦练Python第5天：字符串从入门到格式化 python后端人工智能前端
苦练Python第5天：字符串从入门到格式化原文链接：https://dev.to/therahul_gupta/day-5100-working-with-strings-basics-to-formatting-2kkn作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st

python网络爬虫与信息提取

python网络爬虫与信息提取

一、网络爬虫之规则

1.requests库入门

request库的7个主要方法

Response对象

爬取网页的通用代码框架

request方法，最基础的方法

**kwargs 访问控制参数，均为可选项

2.网络爬虫的Robots协议

3.requests库网络爬虫实战（5个实例）

二、网路爬虫之爬取

1.beautifulsoup4库

使用beautifulsoup4解析字符串格式的html代码

beautifulsoup库解析器

beautifulsoup类的基本元素

基于bs4库的对html标签树遍历

基于bs4库的html格式输出：prettify()方法

2.信息标记与提取方法

信息标记语言

信息提取的一般方法

<>.find_all()方法

3.实例1：中国大学排名爬取

三、网络爬虫之实战

1.Re库

概念、语法

基本使用

re库的match对象

Re库的贪婪匹配和最小匹配

2.淘宝商品比价定向爬虫

3.股票数据定向爬虫

四、网络爬虫之框架——Scrapy框架

1.概述

介绍

爬虫框架解析

requests库和Scrapy库（框架）比较

Scrapy常用命令

2.基本使用

scrapy爬虫的第一个实例

yield关键字的使用

基本使用小结

3.实例：股票数据Scrapy爬虫

你可能感兴趣的:(python,爬虫)

使用beautifulsoup4解析`字符串格式的html代码`

`<>.find_all()`方法