jgzquanquan

爬虫入门

1. 概述

本文首先介绍Requests库如何自动爬取HTML页面以及如何自动网络请求提交，随后将会讲解如何阅读网络爬虫排除标准。获取了网页之后用BeautifulSoup库解析HTML页面，然后讲解正则表达式，以及如何用正则表达式提取网页关键信息。当然会有很多实战内容如下：

• 京东商品页面的爬取
• 亚马逊商品页面的爬取
• 百度/360搜索关键字提交
• 网络图片的爬取和存储
• IP地址归属地的自动查询

2. Requests库介绍

2.1.Requests库主要有7个主要方法：

（1）requests.request() 构造一个请求，支撑以下各方法的基础方法

（2）requests.get() 获取HTML网页的主要方法，对应于HTTP的GET

GET请求获取URL位置的资源

requests.get(url, params=None, **kwargs)

∙ url : 拟获取页面的url链接

∙ params :url中的额外参数，字典或字节流格式，可选

∙ **kwargs:12个控制访问的参数

（3）requests.head() 获取HTML网页头信息的方法，对应于HTTP的HEAD

HEAD请求获取URL位置资源的响应消息报告，即获得该资源的头部信息

requests.head(url, **kwargs)

（4）requests.post()向HTML网页提交POST请求的方法，对应于HTTP的 POST. POST 请求向URL位置的资源后附加新的数据

requests.post(url, data=None,json=None,**kwargs)

（5）requests.put() 向HTML网页提交PUT请求的方法，对应于HTTP的PUT

PUT 请求向URL位置存储一个资源，覆盖原URL位置的资源

requests.put(url, data=None,**kwargs)

（6）requests.patch() 向HTML网页提交局部修改请求，对应于HTTP的 PATCH。PATCH 请求局部更新URL位置的资源，即改变该处资源的部分内容

requests.patch(url, data=None,**kwargs)

（7）requests.delete() 向HTML页面提交删除请求，对应于HTTP的DELETE

DELETE 请求删除URL位置存储的资源

requests.delete(url, **kwargs)

2.2.Requests库的13个访问参数

（1）params : 字典或字节序列，作为参数增加到url中

>>> kv = {'key1': 'value1','key2':'value2'}
>>> r = requests.request('GET', 'http://python123.io/ws',params=kv)
>>> print(r.url)
http://python123.io/ws?key1=value1&key2=value2

（2）data : 字典、字节序列或文件对象，作为Request的内容

>>> kv = {'key1' : 'value1' , 'key2' :'value2' }
>>> r = requests.request ('POST' , 'http://python123.io/ws' ,data=kv )
>>> body = '主体内容'
>>> r = requests.request ('POST' , 'http://python123.io/ws' ,data=body )

（3）json : JSON格式的数据，作为Request的内容

>>> kv = {'key1' : 'value1' }
>>> r = requests.request ('POST' , 'http://python123.io/ws' ,json=kv )

（4）headers : 字典，HTTP定制头

>>> hd = {'user‐agent' : 'Chrome/10' }
>>> r = requests.request ('POST' , 'http://python123.io/ws' ,headers=hd )

（5）cookies : 字典或CookieJar，Request中的cookie

（6）auth : 元组，支持HTTP认证功能

（7）files : 字典类型，传输文件

>>> fs = {'file': open('data.xls', 'rb')}
>>> r = requests.request('POST', 'http://python123.io/ws', files=fs)

（8）timeout : 设定超时时间，秒为单位

>>> r = requests.request('GET', 'http://www.baidu.com',timeout=10)

（9）proxies : 字典类型，设定访问代理服务器，可以增加登录认证

>>> pxs = { 'http': 'http://user:[email protected]:1234'
'https': 'https://10.10.10.1:4321' }
>>> r = requests.request('GET', 'http://www.baidu.com', proxies=pxs)

（10）allow_redirects : True/False，默认为True，重定向开关

（11）stream : True/False，默认为True，获取内容立即下载开关

（12）verify : True/False，默认为True，认证SSL证书开关

（13）cert : 本地SSL证书路径

2.3.Response对象的属性

（1）r.status_code HTTP请求的返回状态，200表示连接成功404表示失败
（2）r.text HTTP响应内容的字符串形式，即，url对应的页面内容
（3）r.encoding 从HTTP header中猜测的响应内容编码方式
（4）r.apparent_encoding 从内容中分析出的响应内容编码方式
（5）r.content HTTP响应内容的二进制形式

注意：r.encoding：如果header中不存在charset认为编码为ISO‐8859-1

r.text根据r.encoding显示网页内容

r.apparent_encoding：根据网页内容分析出的编码方式，可以看作是r.encoding的备选

2.4.Requests库的异常

r.raise_for_status()在方法内部判断r.status_code是否等于200，不需要增加额外的if语句，该语句便于利用try‐except进行异常处理

2.5.爬取网页的通用代码框架

importrequests
def getHtml(url):
    try:
        r = requests.get(url,timeout=30)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return "error"
url="http://www.baidu.com"
print(getHtml(url))

3. Robots协议的使用

3.1网络爬虫引发的的问题

（1）Web服务器默认接收人类访问受限于编写水平和目的，网络爬虫将会为Web服务器带来巨大的资源开销

（2）服务器上的数据有产权归属网络爬虫获取数据后牟利将带来法律风险

（3）网络爬虫可能具备突破简单访问控制的能力，获得被保护数据

从而泄露个人隐私

3.2网络爬虫的限制

（1）来源审查：判断User‐Agent进行限制

检查来访HTTP协议头的User‐Agent域，只响应浏览器或友好爬虫的访问

（2）发布公告：Robots协议

告知所有爬虫网站的爬取策略，要求爬虫遵守

3.3．Robots协议

RobotsExclusion Standard，网络爬虫排除标准
（1）作用：网站告知网络爬虫哪些页面可以抓取，哪些不行
（2）形式：在网站根目录下的robots.txt文件

（3）网络爬虫：自动或人工识别robots.txt，再进行内容爬取
（4）约束性：Robots协议是建议但非约束性，网络爬虫可以不遵守，但存在法律风险

4. Requests库网络爬取实战

实例1：京东商品页面的爬取

（1）商品网址https://item.jd.com/2967929.html

（2）代码实例及结果

import requests
def getHtml(url):
    try:
        r = requests.get(url,timeout=30)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return  "error"
url="https://item.jd.com/2967929.html"
print(getHtml(url))

实例2：亚马逊商品页面的爬取

（1）商品网址https://www.amazon.cn/gp/product/B01M8L5Z3Y

这里出现错误主要原因是亚马逊网站识别出了这是爬虫去获取网页信息，这里解决方案是采取伪装成浏览器的方式去访问

（2）实例代码

import requests
url="https://www.amazon.cn/gp/product/B01M8L5Z3Y"
try:
    kv = {'user-agent':'Mozilla/5.0'}
    r=requests.get(url,headers=kv)
    r.raise_for_status()
    r.encoding=r.apparent_encoding
    print(r.text[:1000])
except:
    print("爬取失败")

实例3：百度/360搜索关键词提交

（1）百度的关键词接口：http://www.baidu.com/s?wd=keyword

（2） 360的关键词接口：http://www.so.com/s?q=keyword

（3）百度的关键词接口实例代码

import requests
url="http://www.baidu.com/s"
keyword="Java"
try:
    kv = {'wd':keyword}
    r=requests.get(url,params=kv)
    r.raise_for_status()
    r.encoding=r.apparent_encoding
    print(len(r.text))
except:
    print("爬取失败")

（4） 360的关键词接口实例代码

import requests
url="http://www.so.com/s"
keyword="Java"
try:
    kv = {'q':keyword}
    r=requests.get(url,params=kv)
    r.raise_for_status()
    r.encoding=r.apparent_encoding
    print(len(r.text))
except:
    print("爬取失败")

实例4：网络图片的爬取和存储

（1）图片地址：

http://image.nationalgeographic.com.cn/2014/0707/20140707104220398.jpg

（2）图片爬取全代码：

import requests
import os
url="http://image.nationalgeographic.com.cn/2014/0707/20140707104220398.jpg"
root="E://pics//"
path=root+url.split('/')[-1]
try:
    if not os.path.exists(root):
        os.mkdir(root)
    if not os.path.exists(path):
        r=requests.get(url)
        with open(path,'wb') as f:
            f.write(r.content)
            f.close()
            print("文件保存成功")
    else:
        print("文件已存在")
except:
    print("爬虫失败")

实例5：IP地址归属地的自动查询

（1）网页地址：http://m.ip138.com/ip.asp?ip=ipaddress

（2）代码实例：

import requests
url="http://m.ip138.com/ip.asp?ip="
try:
    r=requests.get(url+'202.204.80.112')
    r.raise_for_status()
    r.encoding=r.apparent_encoding
    print(r.text[-500:])
except:
    print("爬取失败")

5.Beautiful Soup库入门

5 .1 Beautiful Soup库小案例

（1）页面网址：http://python123.io/ws/demo.html

（2）实例代码：

import requests
from bs4 import BeautifulSoup
r=requests.get("http://python123.io/ws/demo.html")
demo=r.text
soup=BeautifulSoup(demo,'html.parser')
print(soup.prettify())

（3）解析结果：

5 .2 Beautiful Soup库的理解

5 .3 Beautiful Soup库的引用

（1）Beautiful Soup库，也叫beautifulsoup4 或 bs4

（2）约定引用方式如下，即主要是用BeautifulSoup类

from bs4 import BeautifulSoup

import bs4

5 .4BeautifulSoup类

（1）Tag 标签，最基本的信息组织单元，分别用<>和标明开头和结尾

（任何存在于HTML语法中的标签都可以用soup.访问获得，当HTML文档中存在多个相同对应内容时，soup.返回第一个）

（2）Name 标签的名字，
…
的名字是'p'，格式：.name

（3）Attributes 标签的属性，字典形式组织，格式：.attrs

（4）NavigableString 标签内非属性字符串，<>…中字符串，格式：.string

（5）Comment 标签内字符串的注释部分，一种特殊的Comment类型

（6）举例说明：

import requests
from bs4 import BeautifulSoup
import bs4
r=requests.get("http://python123.io/ws/demo.html")
demo=r.text
soup=BeautifulSoup(demo,'html.parser')
print(soup.title)
tag=soup.a
print(tag)
print(tag.name)
print(tag.parent.name)
print(tag.attrs['class'])
print(type(tag))
print(tag.string)

输出结果：

['py1']

BasicPython

5 .5基于bs4库的HTML内容遍历方法

（1）HTML基本格式

（2）标签树的下行遍历

.contents子节点的列表，将所有儿子节点存入列表
.children 子节点的迭代类型，与.contents类似，用于循环遍历儿子节点
.descendants 子孙节点的迭代类型，包含所有子孙节点，用于循环遍历
BeautifulSoup类型是标签树的根节点

举例说明：

print(soup.head)
print(soup.head.contents)

Thisis a python demo page

[Thisis a python demo page]

遍历方法：

forchild in soup.body.children:
print(child)
for child in soup.body.descendants:
print(child)

（3）标签树的上行遍历

.parent节点的父亲标签
.parents 节点先辈标签的迭代类型，用于循环遍历先辈节点

遍历所有先辈节点，包括soup本身，所以要区别判断

使用实例：

for parent in soup.a.parents:
    if parent is None:
        print(parent)
    else:
        print(parent.name)

body

html

[document]

（4）标签树的平行遍历、

.next_sibling返回按照HTML文本顺序的下一个平行节点标签

.previous_sibling返回按照HTML文本顺序的上一个平行节点标签

.next_siblings迭代类型，返回按照HTML文本顺序的后续所有平行节点标签

.previous_siblings迭代类型，返回按照HTML文本顺序的前续所有平行节点标签

5.6 基于bs4库的HTML格式输出

(1) bs4库的prettify()方法

.prettify()为HTML文本<>及其内容增加更加'\n'

.prettify()可用于标签，方法：.prettify()

(2) bs4库的编码

bs4库将任何HTML输入都变成utf‐8编码

Python3.x默认支持编码是utf‐8,解析无障碍

6. 信息标记与提取方法

6.1 信息的标记

标记后的信息可形成信息组织结构，增加了信息维度

标记的结构与信息一样具有重要价值

标记后的信息可用于通信、存储或展示

标记后的信息更利于程序理解和运用

6.2 HTML的信息标记

6.3 XML信息标记

6.4 信息提取的一般方法

方法一：完整解析信息的标记形式，再提取关键信息
需要标记解析器，例如：bs4库的标签树遍历
优点：信息解析准确
缺点：提取过程繁琐，速度慢

方法二：无视标记形式，直接搜索关键信息

对信息的文本查找函数即可

优点：提取过程简洁，速度较快

缺点：提取结果准确性与信息内容相关

方法三：结合形式解析与搜索方法，提取关键信息

实例：提取HTML中所有URL链接

思路：1) 搜索到所有标签

2) 解析标签格式，提取href后的链接内容

r=requests.get("http://python123.io/ws/demo.html")
demo=r.text
soup=BeautifulSoup(demo,'html.parser')

for link  in soup.find_all('a'):
    print(link.get('href'))

6.5基于bs4库的HTML内容查找方法

（1）<>.find_all(name,attrs, recursive, string, **kwargs)方法

返回一个列表类型，存储查找的结果

<1>∙ name : 对标签名称的检索字符串

print(soup.find_all('a'))

[BasicPython, Advanced Python]

for tag in soup.find_all(True):
    print(tag.name)

html

head

title

body

for tag in soup.find_all(re.compile('b')):
    print(tag.name)

body

<2> attrs:对标签属性值的检索字符串，可标注属性检索

import  re
print(soup.find_all(id=re.compile('link')))

<3> recursive: 是否对子孙全部检索，默认True

<4> string: <>…中字符串区域的检索字符串

import  re
print(soup.find_all(string=re.compile('python')))

['This is a python demo page', 'The demo python introducesseveral python courses.']

(2) (..) 等价于 .find_all(..)

soup(..) 等价于 soup.find_all(..)

(3)扩展方法

<>.find() 搜索且只返回一个结果，同.find_all()参数

<>.find_parents() 在先辈节点中搜索，返回列表类型，同.find_all()参数

<>.find_parent() 在先辈节点中返回一个结果，同.find()参数

<>.find_next_siblings() 在后续平行节点中搜索，返回列表类型，同.find_all()参数

<>.find_next_sibling() 在后续平行节点中返回一个结果，同.find()参数

<>.find_previous_siblings() 在前序平行节点中搜索，返回列表类型，同.find_all()参数

<>.find_previous_sibling() 在前序平行节点中返回一个结果，同.find()参数

7. 正则表达式入门

7.1 正则表达式的概念

正则表达式是用来简洁表达一组字符串的表达式，是一种通用的字符串表达框架，是一种针对字符串表达“简洁” 和“特征” 思想的工具，可以用来判断某字符串的特征归属。

可以用于表达文本类型的特征（病毒、入侵等），同时查找或替换一组字符串，匹配字符串的全部或部分

7.2 正则表达式的常用操作符

. ；表示任何单个字符

[ ]；字符集，对单个字符给出取值范围；[abc] 表示a、 b、 c，[a‐z]表示a到z单个字符

[^ ] ；非字符集，对单个字符给出排除范围 [^abc]；表示非a或b或c的单个字符

*；前一个字符0次或无限次扩展 abc* ；表示 ab、 abc、 abcc、 abccc等

+；前一个字符1次或无限次扩展 abc+ ；表示abc、 abcc、 abccc等

? ；前一个字符0次或1次扩展 abc? ；表示 ab、 abc

| ；左右表达式任意一个 abc|def ；表示 abc、def

{m} ；扩展前一个字符m次；ab{2}c表示abbc

{m,n} ；扩展前一个字符m至n次（含n）； ab{1,2}c表示abc、 abbc

^ ；匹配字符串开头；^abc表示abc且在一个字符串的开头

$ ；匹配字符串结尾；abc$表示abc且在一个字符串的结尾

( )；分组标记，内部只能使用 | 操作符； (abc)表示abc，(abc|def)表示abc、 def

\d ；数字，等价于[0‐9]

\w ；单词字符，等价于[A‐Za‐z0‐9_]

例子：

P(Y|YT|YTH|YTHO)?N 'PN'、 'PYN'、 'PYTN'、'PYTHN'、 'PYTHON'

PYTHON+ 'PYTHON'、 'PYTHONN'、 'PYTHONNN' …

PY[TH]ON 'PYTON'、 'PYHON'

PY[^TH]?ON 'PYON'、 'PYaON'、 'PYbON'、 'PYcON'…

PY{:3}N 'PN'、 'PYN'、 'PYYN'、 'PYYYN'

^[A‐Za‐z]+$ 由26个字母组成的字符串

^[A‐Za‐z0‐9]+$ 由26个字母和数字组成的字符串

^‐?\d+$ 整数形式的字符串

^[0‐9]*[1‐9][0‐9]*$ 正整数形式的字符串

[1‐9]\d{5} 中国境内邮政编码，6位

[\u4e00‐\u9fa5] 匹配中文字符

\d{3}‐\d{8}|\d{4}‐\d{7} 国内电话号码，010‐68913536

(([1‐9]?\d|1\d{2}|2[0‐4]\d|25[0‐5]).){3}([1‐9]?\d|1\d{2}|2[0‐4]\d|25[0‐5])

IP地址字符串形式的正则表达式（IP地址分4段，每段0‐255）

7.3 Python Re库的使用方式

（1）Re库一些基本知识

Re库是Python的标准库，主要用于字符串匹配

re库采用raw string类型表示正则表达式，表示为：r'text'

例如： r'[1‐9]\d{5}' r'\d{3}‐\d{8}|\d{4}‐\d{7}'

raw string是不包含对转义符再次转义的字符串

re库也可以采用string类型表示正则表达式，但更繁琐

例如：'[1‐9]\\d{5}' '\\d{3}‐\\d{8}|\\d{4}‐\\d{7}'

建议：当正则表达式包含转义符时，使用raw string

（2）Re库的主要功能函数

re.search() 在一个字符串中搜索匹配正则表达式的第一个位置，返回match对象

re.search(pattern, string, flags=0)

∙ pattern :正则表达式的字符串或原生字符串表示

∙ string :待匹配字符串

∙ flags :正则表达式使用时的控制标记

import re
match =re.search(r'[1-9]\d{5}','BIT 100081')
if match:
    print(match.group(0))

结果：100081

re.match() 从一个字符串的开始位置起匹配正则表达式，返回match对象

import re
match =re.match(r'[1-9]\d{5}','100081 BIT')
if match:
    print(match.group(0))

结果：100081

re.findall() 搜索字符串，以列表类型返回全部能匹配的子串

import re
ls =re.findall(r'[1-9]\d{5}','100081 BIT  100011 BIT')
print(ls)

结果：['100081', '100011']

re.split() 将一个字符串按照正则表达式匹配结果进行分割，返回列表类型

import re
print(re.split(r'[1-9]\d{5}','100081 BIT  100011 BIT'))

结果：['', ' BIT ', ' BIT']

re.finditer() 搜索字符串，返回一个匹配结果的迭代类型，每个迭代元素是match对

import re
for m in re.finditer(r'[1-9]\d{5}','BIT100081  BIT100081'):
    if m:
        print(m.group(0))

结果：100081

100081

re.sub() 在一个字符串中替换所有匹配正则表达式的子串，返回替换后的字符串

re.sub(pattern, repl, string, count=0, flags=0)

∙ pattern :正则表达式的字符串或原生字符串表示

∙ repl :替换匹配字符串的字符串

∙ string :待匹配字符串

∙ count :匹配的最大替换次数

∙ flags :正则表达式使用时的控制标记

import re
print(re.sub(r'[1-9]\d{5}','zipcode','BIT100081  BIT100081'))

结果：BITzipcode BITzipcode

regex =re.compile(pattern, flags=0)

∙ pattern : 正则表达式的字符串或原生字符串表示

∙ flags : 正则表达式使用时的控制标记

>>> regex =re.compile(r'[1‐9]\d{5}')

然后regex对象有六种方法，与上面函数功能相同

将正则表达式的字符串形式编译成正则表达式对

常用标记说明

re.I re.IGNORECASE 忽略正则表达式的大小写，[A‐Z]能够匹配小写字符

re.M re.MULTILINE 正则表达式中的^操作符能够将给定字符串的每行当作匹配开

始

re.S re.DOTALL 正则表达式中的.操作符能够匹配所有字符，默认匹配除换行外的所有字符

（4） Re库的match对象

Match对象是一次匹配的结果，包含匹配的很多信息

属性说明

.string 待匹配的文本

.re 匹配时使用的patter对象（正则表达式）

.pos 正则表达式搜索文本的开始位置

.endpos 正则表达式搜索文本的结束位置

方法说明

.group(0) 获得匹配后的字符串

.start() 匹配字符串在原始字符串的开始位置

.end() 匹配字符串在原始字符串的结束位置

.span() 返回(.start(),.end())

（5） Re库的匹配方式

默认采取最大匹配，只要长度输出可能不同的，都可以通过在操作符后增加?变成最小匹配

操作符说明

*? 前一个字符0次或无限次扩展，最小匹配

+? 前一个字符1次或无限次扩展，最小匹配

?? 前一个字符0次或1次扩展，最小匹配

{m,n}? 扩展前一个字符m至n次（含n），最小匹配

你可能感兴趣的:(python,爬虫)

Python 学习第五册深度学习第1章什么是深度学习 weixin_38135241 python 学习深度学习人工智能
----用教授的方式学习。目录1.1人工智能、机器学习与深度学习1.1.1人工智能1.1.2机器学习1.1.3从数据中学习表示1.1.4深度学习之“深度”1.1.5用三张图理解深度学习的工作原理1.2深度学习之前：机器学习简史1.2.1概率建模1.2.2核方法1.2.3决策树、随机森林与梯度提升机1.2.4深度学习有何不同什么是深度学习？1.1人工智能、机器学习与深度学习三者关系：1.1.1人工智
Python 爬虫实战：汽车电商平台价格波动监控与市场趋势洞察西攻城狮北 python 爬虫汽车实战案例
目录一、环境准备与依赖安装二、目标网站分析1.网站页面结构分析2.数据爬取策略三、代码实现1.数据抓取模块(1)爬取车型列表(2)爬取车型详情(3)主爬取函数2.数据存储模块3.数据分析模块四、完整工作流程(1)初始化爬虫(2)执行爬虫(3)数据存储(4)数据分析五、注意事项六、扩展功能在当今数字化时代，汽车电商平台为消费者提供了便捷的购车渠道。通过Python爬虫技术，我们可以监控汽车电商平台的
Python实现微博关键词爬虫才华是浅浅的耐心 python 新浪微博爬虫
1.背景介绍随着社交媒体的广泛应用，微博上的海量数据成为了很多研究和分析的重要信息源。为了方便获取微博的相关内容，本文将介绍如何使用Python编写一个简单的爬虫脚本，从微博中抓取指定关键词的相关数据，并将这些数据保存为Excel文件。本文将以关键词“樊振东”为例，展示从微博抓取该关键词相关数据的全过程。废话不多说，先上结果图。2.项目实现思路该爬虫通过向微博的搜索接口发送HTTP请求，获取与指定
使用 Python 实现批量发送电子邮件才华是浅浅的耐心 python 爬虫开发语言
引言：在日常工作中，我们可能会遇到需要批量发送邮件的场景，例如通知、营销邮件或测试邮件。如果手动发送，不仅效率低下，还容易出错。今天，我将分享一个使用Python实现的自动化邮件发送脚本，通过读取Excel文件中的发件人和收件人信息，轻松完成批量邮件发送任务。功能概述这个脚本的主要功能包括：从Excel文件中读取发件人信息（邮箱和授权码）和收件人信息（邮箱）。根据发件人邮箱的域名，自动匹配SMTP
python 之GUI设计：Entry组件时间之里 python-tkinter python python
说明：Entry（输入框）组件通常用于获取用户的输入文本。使用条件：Entry组件在GUI界面的设计中主要用于单行文本的键入（实际键入的内容可以比显示的空间更长，此种情况下结束鼠标和位移键能够产看自己输入的隐藏内容），通过几何外观图形属性设计可以改变实际的元素表现如果你希望接收多行文本的输入，可以使用Text组件（后面介绍）。常见用法：-普通输入框作为输入框最重要的属性是输入内容的获取：eg:pa
Python Tkinter库实战（用Entry和button控件做一个小型的浏览器） IT界小菜鸡笔记 python 开发语言
大家好，上一期我们大概了解了一下PythonTkinter库。这是一个方便快捷的GUI库；可以用短短几行代码生成出一个用户图形化接口的窗口。算是非常方便。既然前一期我们了解了tk库。那么我们今天就来做一个实战。今天这个实战项目源自于我一个奇奇怪怪的想法。当时打开浏览器的时候想着，既然我打开浏览器输入网址，搜索URL。既然别人可以，那我为什么不可以自己做一个呢？抱着这个想法，我就开始了这个实验。废话
珍藏！Java SpringBoot 精品源码合集约惠来袭，获取路径大公开秋野酱 java spring boot 开发语言
技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计、开题报告、任务书、中期检查PPT、系统功能实现、代码编写、论文编写和辅导、论文降重、长期答辩答疑辅导、腾讯会议一对一专业讲解辅导答辩、模拟答辩演练、和理解代码逻辑思路。文末获取源码联系文末获取源码联
python调用DeepSeek的API garfield_sun06 大模型 python 语言模型
1获取API获得deepseek开放平台的APIhttps://platform.deepseek.com/api_keys点击创建APIkey2调用方法方法一：采用openai的调用方法pipinstallopenai需要openai的包调用的代码框架fromopenaiimportOpenAIimportosclient=OpenAI(api_key='自己的APIkey',base_url=
Python GUI 开发：全面指南一休哥助手 python python 开发语言
1.PythonGUI开发简介GUI是指图形用户界面，它使用户可以通过图形元素（如按钮、文本框、下拉菜单等）与应用程序进行交互。与命令行界面相比，GUI更加直观易用。Python提供了多种库和框架，使开发者能够轻松创建功能丰富的桌面应用程序。1.1为什么选择Python进行GUI开发？简洁易读：Python的语法简洁，代码易于理解，开发者可以专注于应用程序的逻辑而不是语法。跨平台：Python是跨
基于Python+Django的可视化学习系统设计与实现（毕业设计源码+技术文档+系统部署）逐梦设计 Python毕业设计实战案例 python django 课程设计 vue.js 毕业设计源码
博主简介作者简介：Java领域优质创作者、CSDN博客专家、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、多年校企合作经验，被多个学校常年聘为校外企业导师，指导学生毕业设计并参与学生毕业答辩指导，有较为丰富的相关经验。期待与各位高校教师、企业讲师以及同行交流合作主要内容：Java项目、Python项目、前端项目、PHP、ASP.NET、人工智能与大数据、
Python图形界面(GUI)Tkinter笔记（十四）：Entry与Button的碰撞（1）小叶肥辉 tkinter python gui tkinter
用功能按钮(Button)、单行文本输入框(Entry)、文本框内容读取(get)实现一个极简易的加法运算，及与其他控件的交互，提高体验，主要体现其人机交互的意义。因为Entry()文本输入框没有限制输入内容属性的参数，它是把所有的输入都视作它特有的一个类属性，所以用get()方法读取出来是一个字符串而这字符串可包括字母或其它符号。因此我们必须对其进行判断后再计算，若直接计算可能会出现不可预料的错
python ppt转pdf macos_如何在 macOS 上一键批量把 PPT 和 Word 文件转成 PDF weixin_39857792 python ppt转pdf macos
原标题：如何在macOS上一键批量把PPT和Word文件转成PDF相信不少人都有或曾经有过需要将多个PPT/Word文件转为PDF的需求，可能是一堆PPT课件为了方便批注，也可能是一些Word文档为了方便阅读。每次只能打开一个文档，选择「另存为」，选「PDF」，点「保存」，关掉，再打开下一个文档，文档数目一多，整个过程就会变得很令人沮丧。最近我研究了一下这个磨人的问题，制作了一个动作可以在不到2秒
python智能合约编程_技术指南 | Python智能合约开发？看这一篇就够了 weixin_39897127 python智能合约编程
01前言在之前的技术视点文章中，我们介绍了目前本体主网支持的智能合约体系以及相应的智能合约开发工具SmartX。很多小伙伴都想上手练一练。在本期的技术视点中，我们将正式开始讲述智能合约语法部分。本体的智能合约API分为7个模块，分别是Blockchain&BlockAPI、RuntimeAPI、StorageAPI、NativeAPI、UpgradeAPI、ExecutionEngineAPI以及
langchain chroma 与 chromadb笔记 phynikesi langchain 笔记 chromadb
chromadb可独立使用也可搭配langchain框架使用。环境：python3.9langchain=0.2.16chromadb=0.5.3chromadb使用示例importchromadbfromchromadb.configimportSettingsfromchromadb.utilsimportembedding_functions#加载embedding模型en_embeddin
python电脑怎么打开任务管理器_利用Python调用Windows API，实现任务管理器功能 weixin_39778400
任务管理器具体功能有：1、列出系统当前所有进程。2、列出隶属于该进程的所有线程。3、如果进程有窗口，可以显示和隐藏窗口。4、强行结束指定进程。通过Python调用WindowsAPI还是很实用的，能够结合Python的简洁和WindowsAPI的强大，写出各种各样的脚本。编码中的几个难点有：1、API的入参是结构体时，怎么解决？答：Python内手动建立结构体。详见：https://baijiah
OpenCV 基础模块 Python 版 ice_junjun OpenCV opencv python 计算机视觉
OpenCV基础模块权威指南（Python版）一、模块全景图plaintextOpenCV架构(v4.x+)├─核心层│├─core：基础数据结构与操作（Mat/Scalar/Point）│└─imgproc：图像处理流水线（滤波→变换→检测）├─交互层│├─highgui：GUI与媒体I/O（显示/捕获/交互）│└─video：视频分析（运动检测/目标跟踪）├─3D视觉层│└─calib3d：相
Python入门(函数) 高育良00003 python 开发语言
一.基础认识一种映射关系1.1什么是函数呢？概念函数是可以重复执行的语句块，可以重复调用作用用于封装语句块，提高代码的重用性1.2函数的定义语法：deffunction():#def为关键字，function为函数名#语句想要执行的操作returnre#re为返回值二.函数的调用函数名后+小括号()表示函数的执行2.1基本用法语法：函数名(实际调用的参数)2.2调用传参2.2.1位置传参最为常见，
python本地连接minio 伶星37 python 网络服务器
在你浏览器能成功访问到你的minio网页，并且成功登录之后。接下来如果你想用python连接数据库，并且想用python连接minio，就可以用这个blog。连接代码client=Minio("localhost:9000",#9000是默认端口号access_key="admin",#你的账户secret_key="password",#你的密码secure=False,#这点我会详细说明)为什
逆向爬虫-筑基篇-第二层-壹-计算机网络和因特网-008 蓝花楹下逆向爬虫计算机网络网络
第二层网络初探计算机网络和因特网计算机网络与因特网之史分组交换之兴：1961-1972昔时，电话网为天下通信之主宰，其以电路交换之术，使语音恒速传于发收之间。然至20世纪60年代，计算机之重要日增，分时计算机亦现于世。彼时，智者思虑如何将计算机相连，使地理分布之用户共享其能。用户之流量，多具突发之性，如发一令于远机，继而静待其应，或思其答。当此之时，天下有三组智者，各自发明分组交换之术，以代电路交
头歌实践教学平台 Python程序设计实训答案（三）学习的锅头哥实践教学平台实训答案 python
第七阶段文件实验一文本文件的读取第1关：学习-Python文件之文本文件的读取任务描述本关任务：使用open函数以只写的方式打开文件，打印文件的打开方式。相关知识为了完成本关任务，你需要掌握：文本文件；open函数及其参数；文件打开模式；文件对象常用属性；关闭文件close函数。#请在下面的Begin-End之间按照注释中给出的提示编写正确的代码##########Begin###########
python基础之--面相对象--OOP基本特性暴龙胡乱写博客 python 开发语言人工智能
python基础之–面相对象–OOP基本特性文章目录python基础之--面相对象--OOP基本特性一，OOP基本特性1.1封装1.2继承/派生1.2.1基础概念1.2.3继承实现1.3多态1.4对象对成员的操作（补充）1.5私有属性1.6重写魔术方法二，super函数2.1基本使用2.2super().\__init__()一，OOP基本特性OOP的四大基本特性是封装、继承、多态和抽象。1.1封
Dify1.01版本vscode 本地环境搭建运行实践 hamish-wu vscode 编辑器 dify 大模型 python flask
dify是python编写的低代码AI开发平台，是常用的大模型开发平台。本文基于最新的1.0.1版本实践完成，有需要的可以私信交流。咨询免费，详细文档及视频需要一定成本，大概相当于节约的时间成本。搭建环境windows11开发工具vscode搭建步骤：1.Startthedocker-composestackwindow环境下运行docker命令，需要下载docker官网镜像，会遇到timeout
vscode python 入门教程(一) window 10 环境下安装pyenv hamish-wu Python python 开发语言 pyenv
python的环境配置方法很多，由于python有两个大版本，很多时候需要切换某个固定的版本才能运行三方包，所以推荐使用pyenv配置python环境变量pyenv的安装安装方法：Invoke-WebRequest-UseBasicParsing-Uri"https://raw.githubusercontent.com/pyenv-win/pyenv-win/master/pyenv-win/i
mongodb与爬虫的关系 getapi mongodb 爬虫数据库
MongoDB与爬虫之间的关系主要体现在数据存储和管理的层面。爬虫（WebCrawler或Spider）是一种自动化工具，用于从互联网上抓取网页内容或特定数据。而MongoDB是一个NoSQL数据库，常被用来存储和管理爬虫抓取到的数据。以下是它们之间关系的具体分析：1.爬虫的数据存储需求爬虫在运行过程中会抓取大量的非结构化或半结构化数据（例如HTML页面、JSON数据、图片链接等）。这些数据通常具
1-5 Python 入门之运算符的使用 Sa_sa_ki_Haise python
第1关：算术、比较、赋值运算符100任务要求参考答案评论201任务描述相关知识算术运算符比较(关系)运算符赋值运算符编程要求测试说明任务描述在编程时，我们常常需要对数值或对象进行算术、比较运算和赋值运算，以此来实现我们的功能需求。本关介绍Python中的一些基本运算符，并要求对给定的苹果和梨的数量进行算术运算、比较、赋值运算，然后输出相应的结果。相关知识要实现上述功能，需要用到Python中的各种
rabbitmq + minio +python 上传文件伶星37 rabbitmq python ruby
功能实现RabbitMq接收hello里面传来的消息根据消息在MobileFile里面新建文件新建文件上传到miniopython新建文件importospath='./MobileFile'file_path=os.path.join(path,"new_file.txt")withopen(file_path,"w")asfile:pass转换成函数格式importosdefcreatefil
vscode python 入门教程(二) vscode使用gti 管理代码 hamish-wu vscode ide 编辑器
vscode代码管理需要用管道git的命令，这点和idea的代码管理区别比较大。作为java开发需要自己熟悉适应一下。一、GitHub新建一个仓库过程略二、本地git项目初始化gitinitvscode中可以看到文件状态gitstatus使用gitremote命令吧本地git仓库和远程git仓库链接起来[email protected]提交代码gitcommit-m"评论
Python进阶之-加密库cryptography使用详解夏天Aileft Python python 网络加密
✨前言cryptography库是一个强大的Python加密库，提供了对加密算法和协议的高层和低层访问。它是用来实现数据加密、签名、密钥管理等功能的。以下是一些常见用法的详解，帮助你理解如何使用这个库。✨安装首先，你需要确保安装了cryptography库：pipinstallcryptography✨1.对称加密对称加密是指加密和解密使用相同的密钥。Fernet是cryptography库中提供
python列表添加元素的三种方法定义集合数据对象_python 学习第三天可迭代对象（列表，字典，元组和集合）... weixin_39852491
列表，字典，元组和集合列表list列表是由一系列特定元素组成的，元素和元素之间没有任何关联关系，但他们之间有先后顺序关系列表是一种容器列表是序列的一种列表是可以被改变的序列Python中的序列类型简介（sequence）字符串（str）列表（list）元组（tuple）字节串（bytes）字节数组（bytearray）创建空列表的字面值L=[]#L绑定空列表创建非空列表：L=[1,’two’,3,
python~集合详解鱼跃龙 python python集合详解 set集合
集合的基本操作首先需要明确的是：集合(set)是一个无序的不重复元素序列，多用来进行排重；不支持切片和索引取值！1.创建集合>>>a={1,2,4,4}>>>a{1,2,4}>>>type(a)**创建空集合时需要注意：不能直接用大括号，只能用set()；否则创建的是一个字典>>>b=set()>>>type(b)>>>c={}>>>type(c)2.添加元素add()方法是将要添加的元素作为一个
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http

爬虫入门

爬虫入门

1. 概述

2. Requests库介绍

2.1.Requests库主要有7个主要方法：

（1）requests.request() 构造一个请求，支撑以下各方法的基础方法

（2）requests.get() 获取HTML网页的主要方法，对应于HTTP的GET

（3）requests.head() 获取HTML网页头信息的方法，对应于HTTP的HEAD

（4）requests.post()向HTML网页提交POST请求的方法，对应于HTTP的 POST. POST 请求向URL位置的资源后附加新的数据

（5）requests.put() 向HTML网页提交PUT请求的方法，对应于HTTP的PUT

（6）requests.patch() 向HTML网页提交局部修改请求，对应于HTTP的 PATCH。PATCH 请求局部更新URL位置的资源，即改变该处资源的部分内容

（7）requests.delete() 向HTML页面提交删除请求，对应于HTTP的DELETE

2.2.Requests库的13个访问参数

（1）params : 字典或字节序列，作为参数增加到url中

（2）data : 字典、字节序列或文件对象，作为Request的内容

（3）json : JSON格式的数据，作为Request的内容

（4）headers : 字典，HTTP定制头

（5）cookies : 字典或CookieJar，Request中的cookie

（6）auth : 元组，支持HTTP认证功能

（7）files : 字典类型，传输文件

（8）timeout : 设定超时时间，秒为单位

（9）proxies : 字典类型，设定访问代理服务器，可以增加登录认证

（10）allow_redirects : True/False，默认为True，重定向开关

（11）stream : True/False，默认为True，获取内容立即下载开关

（12）verify : True/False，默认为True，认证SSL证书开关

（13）cert : 本地SSL证书路径

2.3.Response对象的属性

2.4.Requests库的异常

2.5.爬取网页的通用代码框架

3. Robots协议的使用

3.1网络爬虫引发的的问题

（1）Web服务器默认接收人类访问受限于编写水平和目的，网络爬虫将会为Web服务器带来巨大的资源开销

（2）服务器上的数据有产权归属网络爬虫获取数据后牟利将带来法律风险

（3）网络爬虫可能具备突破简单访问控制的能力，获得被保护数据

3.2网络爬虫的限制

（1）来源审查：判断User‐Agent进行限制

（2）发布公告：Robots协议

3.3．Robots协议

4. Requests库网络爬取实战

实例1：京东商品页面的爬取

（1）商品网址https://item.jd.com/2967929.html

（2）代码实例及结果

实例2：亚马逊商品页面的爬取

（1）商品网址https://www.amazon.cn/gp/product/B01M8L5Z3Y

（2）实例代码

实例3：百度/360搜索关键词提交

（1） 百度的关键词接口：http://www.baidu.com/s?wd=keyword

（2） 360的关键词接口：http://www.so.com/s?q=keyword

（3） 百度的关键词接口实例代码

（4） 360的关键词接口实例代码

实例4：网络图片的爬取和存储

（1）图片地址：

（2）图片爬取全代码：

实例5：IP地址归属地的自动查询

（1） 网页地址：http://m.ip138.com/ip.asp?ip=ipaddress

（2） 代码实例：

5.Beautiful Soup库入门

5 .1 Beautiful Soup库小案例

（1） 页面网址：http://python123.io/ws/demo.html

（2） 实例代码：

（3） 解析结果：

5 .2 Beautiful Soup库的理解

5 .3 Beautiful Soup库的引用

（1）Beautiful Soup库，也叫beautifulsoup4 或 bs4

（2）约定引用方式如下，即主要是用BeautifulSoup类

5 .4BeautifulSoup类

（1）Tag 标签，最基本的信息组织单元，分别用<>和标明开头和结尾

（2）Name 标签的名字，…的名字是'p'，格式：.name

（3）Attributes 标签的属性，字典形式组织，格式：.attrs

（4）NavigableString 标签内非属性字符串，<>…中字符串，格式：.string

（5）Comment 标签内字符串的注释部分，一种特殊的Comment类型

（6）举例说明：

5 .5基于bs4库的HTML内容遍历方法

（1）HTML基本格式

（2）标签树的下行遍历

（3）标签树的上行遍历

（4）标签树的平行遍历、

5.6 基于bs4库的HTML格式输出

(1) bs4库的prettify()方法

(2) bs4库的编码

（1）百度的关键词接口：http://www.baidu.com/s?wd=keyword

（3）百度的关键词接口实例代码

（1）网页地址：http://m.ip138.com/ip.asp?ip=ipaddress

（2）代码实例：

（1）页面网址：http://python123.io/ws/demo.html

（2）实例代码：

（3）解析结果：

（2）Name 标签的名字，
…
的名字是'p'，格式：.name