刻苦的樊同学

python爬虫从基础到实战一站式服务

一，第一站（基础）

1，http&https

http协议：就是服务器和客户端进行数据交互的一种形式。

常用的请求头信息：

-User-Agent：请求载体的身份标识
Connection：请求完毕后，是断开连接还是保持连接

常用的响应头信息：

-Content-Type：服务器返回客户端的数据类型

https：安全的超文本传输协议

2，requests第一血

requests模块就是python中的一款基于网络请求的模块，功能很强大，简单快捷，效率高。

作用：模拟浏览器发请求

如何使用：

（1）指定url

（2）发起请求

（3）获取响应数据

（4）持久化存储

环境安装

pip install requests

# 需求，爬取csdn首页的全部html代码
import requests
if __name__=="__main__":
    # 指定url
    url = "https://www.csdn.net/"
    # 发起请求
    response = requests.get(url=url)
    # 获取响应数据（字符串格式）
    result_text=response.text
    # 持久化存储
    print(result_text)

3，爬取百度指定词条对应的搜索结果页面（简易网页采集器）

下面有一个知识点是UA伪装，就是让爬虫对应的请求载体身份标识伪装成某一款浏览器，可以F12得到请求后的请求头信息，把User-Agent的内容复制过来即可。

# 需求，爬取csdn首页的全部html代码
import requests
#UA伪装：让爬虫对应的请求载体身份标识伪装成某一款浏览器
if __name__=="__main__":
    # 指定url
    url = "https://www.baidu.com/s?ie=UTF-8"
    # UA伪装
    headers={
        "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36"
    }
    # 动态输入搜索内容
    kw = input("请输入搜索关键字：")
    params={
        "wd":kw
    }
    # 发起请求
    response = requests.get(url=url,params=params,headers=headers)
    # 获取响应数据（字符串格式）
    result_text=response.text
    # 持久化存储
    print(result_text)

4，破解百度翻译

在左边输入文字，网站会发送ajax请求，然后返回翻译后的结果。

那么这里用requests来直接发送翻译请求，首先F12获取ajax的请求信息。

# 需求，爬取csdn首页的全部html代码
import requests
#UA伪装：让爬虫对应的请求载体身份标识伪装成某一款浏览器
if __name__=="__main__":
    # 指定url
    url = "https://fanyi.baidu.com/sug"
    # UA伪装
    headers={
        "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36"
    }
    # 动态输入搜索内容
    kw = input("请输入要翻译的内容：")
    data={
        "kw":kw
    }
    # 发起请求
    response = requests.post(url=url,params=data,headers=headers)
    # 获取响应数据（如果确认返回格式是json类型的，那么可以调用json方法拿到json对象）
    result=response.json()
    # result结果
    #{'errno': 0, 'data': [{'k': '测试', 'v': 'test; testing; measurement ; checkout'}, {'k': '测试仪', 'v': 'tester'}, {'k': '测试区', 'v': 'test section'}, {'k': '测试员', 'v': 'test controler'}, {'k': '测试头', 'v': 'measuring head'}]}

    # 持久化存储
    print(result["data"][0]["v"])

5，爬取豆瓣电影分类排行榜

F12发现，其实也是ajax请求，复制请求地址，模拟参数，相同的操作再来一波

# 需求，爬取csdn首页的全部html代码
import requests
#UA伪装：让爬虫对应的请求载体身份标识伪装成某一款浏览器
if __name__=="__main__":
    # 指定url
    url = "https://movie.douban.com/j/new_search_subjects"
    # UA伪装
    headers={
        "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36"
    }

    data={
        "sort":"U",
        "range":"0,10",
        "start":"20"
    }
    # 发起请求
    response = requests.get(url=url,params=data,headers=headers)
    # 获取响应数据（如果确认返回格式是json类型的，那么可以调用json方法拿到json对象）
    result=response.json()
    # 持久化存储
    datalist = result["data"]
    for obj in datalist:
        print("电影：" + obj.get("title"))
        print("主演：" + str(obj.get("casts")))
        print("导演：" + str(obj.get("directors")))

二，数据解析

聚焦爬虫：爬取页面中指定的页面内容

数据解析分类：

正则
bs4
xpath（重点）

这里先爬取指定一个在线地址的图片，得到二进制形式的响应数据，并存储

# 需求，爬取csdn首页的全部html代码
import requests
#UA伪装：让爬虫对应的请求载体身份标识伪装成某一款浏览器
if __name__=="__main__":
    # 指定url
    url = "https://img-blog.csdnimg.cn/20201216201054832.jpg"
    # # UA伪装
    # headers={
    #     "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36"
    # }
    #
    # data={
    #     "sort":"U",
    #     "range":"0,10",
    #     "start":"20"
    # }
    # 发起请求
    response = requests.get(url=url)
    # 获取响应数据
    # content 返回的是二进制形式的图片数据
    # text 字符串格式
    # json() json对象格式
    result=response.content
    # 二进制图片持久化存储  wb：写入二进制数据
    with open('./test.jpg','wb') as fp:
        fp.write(result)

1，正则解析-爬取糗事百科中糗图板块下所有的图片

.*？表示匹配任意字符到下一个符合条件的字符

import requests
import re
if __name__=="__main__":
    # 指定url
    url = "https://www.qiushibaike.com"
    # # UA伪装
    headers={
        "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36"
    }
    # 发起请求
    response = requests.get(url=url,headers=headers)
    result=response.text
    # 使用正则找到图片在线地址 .*?
    ex = '.*?
    image_url_list = re.findall(ex,result,re.S)
    # 遍历
    for src in image_url_list:
        print(src)
        # 拿到在线地址之后再发get请求拿到二进制数据，并持久化即可

2，bs4解析-解析糗事百科的所有图片的alt属性值

环境安装

pip install bs4
pip install lxml

如何实例化BeautifulSoup对象？

对象的实例化

1，将本地的html文档中的数据加载到该对象中

fp=open('./test.html','r',encoding='utf-8')
soup = BeautifulSoup(fp,'lxml')

2，将互联网上获取到的页面源码加载到该对象中

page_text = response.text
soup = BeautifulSoup(page_text,'lxml')

提供的用于数据解析的方法和属性

soup.tagName：返回的是html文档中第一次出现tagName对应的标签
soup.find()：
- soup.find(“tagName”)：等同于soup.div
- 属性定位：soup.find(“div”,class_ / id / attr = “song”)
select()
- select(‘某种选择器’)，返回的是一个列表
- 层级选择器
  - soup.select(".tang > ul > li > a")：>表示一个层级
  - soup.select(".tang > ul > li a")：空格表示多个层级
获取标签之间的文本数据
- soup.a.text / get_text()：可以获取某一个标签中所有的文本内容
- soup.a.string：只可以获取该标签下面直系的文本内容
获取标签中的属性值
- soup.a[‘text’]

import requests
from bs4 import BeautifulSoup
if __name__=="__main__":
    # 指定url
    url = "https://www.qiushibaike.com"
    # # UA伪装
    headers={
        "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36"
    }
    # 发起请求
    response = requests.get(url=url,headers=headers)
    result=response.text
    soup = BeautifulSoup(result,'lxml')
    div_list = soup.select('.recommend-article > ul > li > a > img')
    for div in div_list:
        print(div['alt'])

3，xpath解析-爬取博客网站的所有博客信息

原理：实例化一个etree对象，需要将被解析的页面源码数据加载到该对象中。

调用etree的xpath方法结合着xpath表达式实现标签的定位和内容的捕获。

环境安装

pip install lxml

如何实例化一个etree对象？

from lxml import etree

使用方式

将本地的html文档中的源码数据加载到etree对象中

etree.parse(filePath)

可以从互联网上获取的源码数据加载到该对象中

etree.HTML(‘page_text’)

xpath表达式

/ 斜杠表示的是从根节点开始定位，表示的是一个层级
//双斜杠表示是多个层级，可以表示从任意位置开始定位
定位属性：//div[@class=‘song’] tag[@attrName=‘attrValue’]
索引定位：//div[@class=‘song’]/p[3] 索引是从1开始的
取文本：
- /text() ：获取的是标签中直系的文本内容
- //text()：标签中非直系的文本内容（所有的文本内容）
取属性：/@attrName ==>img/@src

下面列出了最有用的路径表达式：

nodename	选取此节点的所有子节点。
/	从根节点选取。
//	从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。
.	选取当前节点。
…	选取当前节点的父节点。
@	选取属性。

开始爬取博客网站

# 需求，爬取csdn首页的全部html代码
import requests
from lxml import etree
def test():
    # 指定url
    url = "https://blogs.qianlongyun.cn/page/"
    # UA伪装
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36"
    }
    # 发起请求
    for i in range(12):
        print("========== 当前爬取页面：第"+str(i)+"页 ==============")
        newUrl = url+str(i+1)+"/"
        response = requests.get(url=newUrl, headers=headers)
        # 得到etree对象
        etreeObj = etree.HTML(response.text)
        # 得到所有文章的div
        articles = etreeObj.xpath("//div[@class='content']/article")
        for article in articles:
            print("========================")
            # 拿到文章标题
            content = article.xpath(".//h2/a/text()")[0]
            print("博客标题："+content)
            imgUrl = article.xpath(".//img/@src")[0]
            print("博客配图在线链接：" + imgUrl)
            author = article.xpath("./p[1]/span[1]/text()")[0]
            print("作者：" + author)
if __name__=="__main__":
    test()

4，验证码识别

识别验证码图片中的数据，用于模拟登录操作。

人眼识别（不推荐）
第三方接口识别（推荐，但是由于收费，此处跳过）

如何读取验证码？

先使用xpath解析到验证码图片的在线地址，并转为二进制持久化存储（下载到本地），然后使用第三方接口进行识别即可

5，模拟登录以及模拟登录cookie存储

点击登录按钮会发出一个post请求，post请求中会携带登录之前录入的登录信息（账号，密码，验证码）

涉及到一个问题？登录成功之后会返回cookie并存储到浏览器，爬虫如何设置cookie？

session会话对象

作用：1，可以进行请求的发送 2，如果请求过程中产生了cookie，则该cookie会被自动存储/携带在该session对象中

创建一个session对象，requests.Session()
使用session对象进行模拟登录post请求的发送（cookie就会被存储到session中）
session对象对登录成功之后的所有页面进行get请求（携带了cookie）

6，模拟登录古诗文网并爬取个人主页详细信息

import requests
from lxml import etree
def test():
    # 指定url古诗文网登录页
    url = "https://so.gushiwen.cn/user/login.aspx?from=http://so.gushiwen.cn/user/collect.aspx"
    # UA伪装
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36"
    }

    login_html=requests.get(url=url,headers=headers).text
    etreeObj = etree.HTML(login_html)
    # 找到验证码的标签，并复制xpath值
    yzm_src = "https://so.gushiwen.cn"+etreeObj.xpath('//*[@id="imgCode"]/@src')[0]
    # 请求验证码在线地址，得到二进制数据，并持久化到本地
    yzm_data = requests.get(url=yzm_src,headers=headers).content
    with open("yzm.jpg","wb") as tp:
        tp.write(yzm_data)

    yzm_value = input("验证码图片已下载，请输入验证码：")

    data={
        "__VIEWSTATE": "q5220JT0+dsek1Iq8Fjx0xFeucO6gCylR4IaiN5dDnXvRTA4UDtUG4oJlRrRML4jIcJ7LBp+bQgN/glEST9wTy81hdDS3DOcSZ5tYzDTwPn2Fa6Jqit2/GdazXs=",
        "__VIEWSTATEGENERATOR": "C93BE1AE",
        "from": "http://so.gushiwen.cn/user/collect.aspx",
        "email": "18838030468",
        "pwd": "aini12345",
        "code": yzm_value,
        "denglu": "登录"
    }

    # 创建session
    session = requests.session()
    # 登录url
    loginUrl = "https://so.gushiwen.cn/user/login.aspx?from=http%3a%2f%2fso.gushiwen.cn%2fuser%2fcollect.aspx"

    print("正在模拟登录中。。。")
    response = session.post(url=loginUrl,data=data, headers=headers)
    if response.status_code==200:
        print("登录成功！开始爬取信息！")
        # 持久化登录成功后的html到本地
        with open('test.html','w',encoding='utf-8') as fp:
            fp.write(response.text)
        # 详情页的url
        xqUrl = "https://so.gushiwen.cn/user/collectbei.aspx?sort=t"
        # 然后就可以继续爬取详情页了（使用session发请求）

    else:
        print("模拟登录失败，请重试！")

if __name__=="__main__":
    test()

三，代理

破解封ip这种反爬机制！

代理的作用：

突破自身ip访问的控制
隐藏自身真实ip

1，代理在爬虫中的应用

在百度中搜索ip，可以得到当前请求百度时本机的ip地址

这里使用代理来请求百度

这里提供一个全国代理网站：http://www.goubanjia.com/，这里提供很多免费的代理！

代理ip的类型：

http：应用到http协议的url中
https：应用到https协议的url中

代理ip的匿名度：

透明：服务器知道此次请求使用了代理，也知道请求对应真实的ip（代理ip）
匿名：知道使用了代理，不知道真实ip
高匿：不知道使用了代理，更不知道真实ip

    url = "https://www.baidu.com/s?wd=ip"
    # UA伪装
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36"
    }
    response = requests.get(url=url,headers=headers,proxies={"https":"222.110.147.50:3128"})
    with open("test.html","w",encoding="utf-8") as fp:
        fp.write(response.text)

四，高性能异步爬虫

1，单线程串行爬虫示例

示例：爬取三个压缩包

import requests

urls = [
    "http://disk.tiger2.cn/FastDFS/libfastcommonV1.0.7.tar.gz",
    "http://disk.tiger2.cn/FastDFS/FastDFS_v5.05.tar.gz",
    "http://disk.tiger2.cn/FastDFS/fastdfs_client_java._v1.25.tar.gz"
]
headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36"
    }

def getContent(url):
    print("正在爬取："+url)
    response = requests.get(url=url,headers=headers)
    if response.status_code == 200:
        return response.content

def parseContent(content):
    print("响应数据长度为：",len(content))

for url in urls:
    content = getContent(url)
    parseContent(content)

执行结果：

很明显，三个是同步的执行的，requests的get方法是一个阻塞的方法，效率会比较低。

2，异步爬虫之多进程and多线程

多线程，多进程（不建议）

线程池，进程池（建议）线程数量有限

import requests
# 导入线程池模块所需要的类
from multiprocessing.dummy import Pool
urls = [
    "http://disk.tiger2.cn/FastDFS/libfastcommonV1.0.7.tar.gz",
    "http://disk.tiger2.cn/FastDFS/FastDFS_v5.05.tar.gz",
    "http://disk.tiger2.cn/FastDFS/fastdfs_client_java._v1.25.tar.gz"
]
headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36"
    }

def getContent(url):
    print("正在爬取："+url)
    response = requests.get(url=url,headers=headers)
    if response.status_code == 200:
        print("响应数据长度为：",len(response.content))

# 实例化一个线程池对象
pool = Pool(4)
# 将列表中每一个列表元素传递给getContent方法进行处理（异步）
pool.map(getContent,urls)

原则：线程池处理的是阻塞且耗时的操作！并不是什么都可以执行！

3，异步爬虫之线程池案例应用

import requests
from lxml import etree
headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36"
    }
url = "https://www.pearvideo.com/category_5"
response = requests.get(url=url,headers=headers)
if response.status_code==200:
    etreeObj = etree.HTML(response.text)
    # 得到视频列表的li
    li_list = etreeObj.xpath('//*[@id="listvideoListUl"]/li')
    # 存放视频真实地址
    urls=[ ]
    for li in li_list:
        detail_url = "https://www.pearvideo.com/"+li.xpath('.//a/@href')[0]
        # 这只是一个视频详情页的链接，并不是视频链接，要靠F12大胆的去发现，这里发现请求详情页后，又发了一个请求
        # https://www.pearvideo.com/videoStatus.jsp?contId=1718464&mrd=0.7595792109906241
        # 其中的contId就是detail_url参数的最后面的数字
        print(detail_url)
        name = li.xpath('.//div[@class="vervideo-title"]/text()')[0]+".mp4"
        print(name)
        # 截取字符串
        contId = detail_url[32:]
        # 请求视频详情页
        response = requests.get("https://www.pearvideo.com/videoStatus.jsp?contId="+contId+"&mrd=0.7595792109906241")
        if response.status_code==200:
            # 得到视频真实地址
            jsons=response.json()
            react_url = jsons["videoInfo"]["videos"]["srcUrl"]
            print("视频真实地址：",react_url)
            # 下面的操作就不写了，就是把url放到urls里，然后和上面的示例操作一样

4，多任务异步协程实现

下面请求三个url，使用多任务异步协程，每个url请求模拟等待2秒，那么三个如果是同步的话应该耗时六秒，如果异步那么应该是两秒。

import asyncio
import time

async def request(url):
    print("正在下载",url)
    # 在异步协程中如果出现了同步模块相关的代码，那么就无法实现异步
    # time.sleep(2)
    # 当在asyncio中遇到阻塞操作必须进行手动挂起
    await asyncio.sleep(2)
    print("下载完毕",url)

start = time.time()

urls=[
    "www.test.com",
    "www.test123.com",
    "www.456.com"
]

# 任务列表：存放多个任务对象
stasks = []
for url in urls:
    c = request(url)
    task = asyncio.ensure_future(c)
    stasks.append(task)

loop = asyncio.get_event_loop()
# 需要将任务列表封装到wait中
loop.run_until_complete(asyncio.wait(stasks))

print("耗时",time.time()-start)

5，aiohttp多任务异步协程实现异步爬虫

首先安装aiohttp

pip install aiohttp

然后使用如下

import asyncio
import time
import aiohttp

async def request(url):
    async with aiohttp.ClientSession() as session:
        # get() post()都可以
        async with await session.get(url) as response:
            # text()返回字符串形式的响应数据
            # read()返回二进制形式的响应数据
            # json()返回的就是json对象
            # 注意：获取响应数据操作之前一定要使用await进行手动挂起
            page_text = await response.text()

start = time.time()

urls=[
    "www.test.com",
    "www.test123.com",
    "www.456.com"
]

# 任务列表：存放多个任务对象
stasks = []
for url in urls:
    c = request(url)
    task = asyncio.ensure_future(c)
    stasks.append(task)

loop = asyncio.get_event_loop()
# 需要将任务列表封装到wait中
loop.run_until_complete(asyncio.wait(stasks))

print("耗时",time.time()-start)

结果同上，耗时两秒。

五，selenium简介

1，selenium模块的基本使用

问题：什么是selenium？selinium和爬虫之间具有怎样的关联？

便捷的获取网站中动态加载的数据

便捷实现模拟登录

基于浏览器自动化的一个模块（可以直接操作浏览器，类似无人驾驶去自动驾驶的效果）

selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支持多种浏览器

2，selenium初试-爬取药监局的企业信息

药监局网站的企业信息是ajax动态加载的，可以由selenium来模拟浏览器来完成信息的获取！

1，环境安装

pip install selenium

下载安装selenium：pip install selenium
下载浏览器驱动程序：
- http://chromedriver.storage.googleapis.com/index.html
查看驱动和浏览器版本的映射关系：
- http://blog.csdn.net/huilan_same/article/details/51896672
实例化一个浏览器对象
编写基于浏览器自动化的操作代码

进行操作之前要把浏览器对应的驱动程序解压并放置到一个位置

from selenium import webdriver
from lxml import etree

# 实例化一个浏览器对象（传入浏览器的驱动程序chromedriver.exe）
bro = webdriver.Chrome(executable_path='./chromedriver.exe')
# 让浏览器发起一个指定url对应请求
bro.get('http://scxk.nmpa.gov.cn:81/xk/')
# page_source获取浏览器当前页面的页面源码数据
page_text = bro.page_source
# 解析企业名称
tree = etree.HTML(page_text)
li_list = tree.xpath('//*[@id="gzlist"]/li')
for li in li_list:
    company_name = li.xpath('.//a/text()')[0]
    print('公司名称：',company_name)
bro.quit()

3，selenium其他自动化操作

from selenium import webdriver
from lxml import etree
import time
# 实例化一个浏览器对象（传入浏览器的驱动程序chromedriver.exe）
bro = webdriver.Chrome(executable_path='./chromedriver.exe')
# 让浏览器发起一个指定url对应请求
bro.get('https://www.taobao.com/')
# 标签定位
search_input = bro.find_element_by_id('q')
# 标签交互（向输入框输入内容）
search_input.send_keys('IPhone')
# 执行一组js程序（向下滚动一个屏幕的距离）
bro.execute_script('window.scrollTo(0,document.body.scrollHeight)')
# 点击按钮
btn = bro.find_element_by_css_selector('.btn-search')
btn.click()
# 回退
bro.back()
# 前进
bro.forward()
time.sleep(5)
bro.quit()

4，iframe处理+动作链

像上面直接通过id或者class获取标签的话，如果这些标签在iframe里就会报错！

这里使用selenium来实现拖动滑块

from selenium import webdriver
#导入动作链对应的类
from selenium.webdriver import ActionChains

# 实例化一个浏览器对象（传入浏览器的驱动程序chromedriver.exe）
bro = webdriver.Chrome(executable_path='./chromedriver.exe')
# 让浏览器发起一个指定url对应请求
bro.get('https://www.runoob.com/try/try.php?filename=jqueryui-api-droppable')
# 如果定位的标签是存在与iframe中则必须通过如下操作再进行标签定位
bro.switch_to.frame('iframeResult')# 切换浏览器标签定位的作用域
# 获取拖动小滑块的div元素
div = bro.find_element_by_id('draggable')
# 动作链
action = ActionChains(bro)
# 点击长按指定的标签（滑块）
action.click_and_hold(div)
for i in range(5):
    # perform立即执行动作链操作
    # move_by_offset(x,y)：x：水平方向 y：竖直方向
    action.move_by_offset(17,0).perform()
# 释放动作链
action.release()
bro.quit()

5，selenium实现模拟登陆

通过上面的基础操作，那么用selenium来实现模拟登录是在是太简单方便了！

当然一切操作都离不开F12啦！

这里写一个例子，来模拟登录qq空间吧！

from selenium import webdriver
import time

# 实例化一个浏览器对象（传入浏览器的驱动程序chromedriver.exe）
bro = webdriver.Chrome(executable_path='./chromedriver.exe')
# 让浏览器发起一个指定url对应请求
bro.get('https://qzone.qq.com/')
bro.switch_to.frame('login_frame')# 值是iframe的id值
# 获取登录链接标签
loginButton = bro.find_element_by_id('switcher_plogin')
# 点击
loginButton.click()
# 账号输入框
account_input = bro.find_element_by_id('u')
# 密码输入框
pwd_input = bro.find_element_by_id('p')
# 输入账号和密码
account_input.send_keys('675361896')
pwd_input.send_keys('*******')
# 点击登录
login = bro.find_element_by_id('login_button')
login.click()
time.sleep(5)
bro.quit()

6，无头浏览器+规避检测

上面的效果是自动弹出来浏览器并自动进行操作的（可视化）

无头浏览器：只默默的执行，并不会弹出浏览器

推荐大家可以使用谷歌的无头浏览器，是一款无界面的谷歌浏览器

如何实现？

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import time
# 创建一个参数对象，用来控制chrome以无界面模式打开
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
# 驱动路径
path = r'C:\Users\ZBLi\Desktop\1801\day05\ziliao\chromedriver.exe'
# 创建浏览器对象
browser = webdriver.Chrome(executable_path=path, chrome_options=chrome_options)
# 上网
url = 'http://www.baidu.com/'
browser.get(url)
time.sleep(3)
browser.save_screenshot('baidu.png')
browser.quit()

selenium规避被检测识别

现在不少大网站有对selenium采取了监测机制。比如正常情况下我们用浏览器访问淘宝等网站的 window.navigator.webdriver的值为

undefined。而使用selenium访问则该值为true。那么如何解决这个问题呢？

只需要设置Chromedriver的启动参数即可解决问题。在启动Chromedriver之前，为Chrome开启实验性功能参数excludeSwitches，它的值为[‘enable-automation’]，完整代码如下：

from selenium.webdriver import Chrome
from selenium.webdriver import ChromeOptions
option = ChromeOptions()
option.add_experimental_option('excludeSwitches', ['enable-automation'])
driver = Chrome(options=option)

完整示例如下

from selenium import webdriver
import time
####################################################################
# 无可视化界面
from selenium.webdriver.chrome.options import Options
# 实现规避检测
from selenium.webdriver import ChromeOptions
option = ChromeOptions()
option.add_experimental_option('excludeSwitches', ['enable-automation'])
# 创建一个参数对象，用来控制chrome以无界面模式打开
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')

# 实例化一个浏览器对象（传入浏览器的驱动程序chromedriver.exe）
bro = webdriver.Chrome(executable_path='./chromedriver.exe',chrome_options=chrome_options,options=option)
####################################################################
# 让浏览器发起一个指定url对应请求
bro.get('https://qzone.qq.com/')
bro.switch_to.frame('login_frame')# 值是iframe的id值
# 获取登录链接标签
loginButton = bro.find_element_by_id('switcher_plogin')
# 点击
loginButton.click()
# 账号输入框
account_input = bro.find_element_by_id('u')
# 密码输入框
pwd_input = bro.find_element_by_id('p')
# 输入账号和密码
account_input.send_keys('675361896')
pwd_input.send_keys('*******')
# 点击登录
login = bro.find_element_by_id('login_button')
login.click()
time.sleep(5)
bro.quit()

7，selenium实现12306模拟登录

这是12306官网的登录页面

模拟登录的思路如下：

selenium输入账号和密码
selenium截屏
selenium截图验证码的div
使用超级鹰在线接口实现此类验证码的识别（传入验证码图片，返回对应的图的坐标，实现模拟点击即可）
然后模拟点击，进行登录

from selenium import webdriver
import time
# 用于裁剪
from PIL import Image

bro = webdriver.Chrome(executable_path='./chromedriver.exe')
# 浏览器全屏放大
bro.maximize_window()
# 让浏览器发起一个指定url对应请求
bro.get('https://kyfw.12306.cn/otn/resources/login.html')
time.sleep(1)
zhdl = bro.find_element_by_xpath('/html/body/div[2]/div[2]/ul/li[2]/a')
zhdl.click()
time.sleep(2)
# save_screenshot就是将当前页面进行截图并保存
bro.save_screenshot('aa.png')
# 确定验证码图片对应的左上角和右下角的坐标（确定裁剪的区域）  这个xpath可以在F12中找到验证码div元素右键copy->xpath
code_img_ele = bro.find_element_by_id('J-loginImg')
# 验证码div元素左上角的坐标
location = code_img_ele.location
print(location)
# 验证码div元素对应长和高
size = code_img_ele.size
print(size)
# 左上角和右下角坐标
# 因为我个人电脑的原因，屏幕缩放比例是125%，所以都乘以1.25
range = (
    int(location['x']*1.25),int(location['y']*1.25),int((location['x']+size['width'])*1.25),int((location['y']+size['height'])*1.25)
)
# 至此，验证码图片区域进行图片裁剪
i = Image.open('./aa.png')
# crop根据指定区域进行图片裁剪
frame = i.crop(range)
# 保存截图到当前目录
frame.save('./code.png')
bro.quit()

最后得到的code.png就是验证码图片，如下图

然后把这个图片根据超级鹰在线接口得到返回的坐标进行模拟点击。

# 比如通过超级鹰在线接口返回了坐标信息，我们对坐标信息进行数据处理，处理成了[[253,23],[267,25]]   （两个坐标）
list = [[253,23],[267,25]]
# 遍历列表，使用动作链对每一个列表元素对应的x,y指定的位置进行模拟点击
for l in list:
    x = l[0]
    y = l[1]
    # 这个x,y坐标只是相对于code.png这张图片来说的，但是模拟点击要得到这个验证码图片要点击的内容的坐标是相对于浏览器的，所以用动作链来切换为浏览器的坐标并进行模拟点击
    ActionChains(bro).move_to_element_with_offset(code_img_ele,x,y).click().perform()
    time.sleep(1)
#录入用户名和密码，并点击登录确认按钮
bro.find_element_by_id('username').send_keys('xxx')
bro.find_element_by_id('password').send_keys('xxx')
bro.find_element_by_id('login').click()
print('模拟登录成功')
bro.quit()

六，scrapy框架

什么是scrapy框架？

爬虫中封装好的一个明星框架，功能：高性能的持久化存储，异步的数据下载，高性能的异步解析，分布式。

1，scrapy环境安装

环境安装：
- linux和mac操作系统：
  - pip install scrapy
- windows系统：
  - pip install wheel
  - 下载twisted，下载地址为http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted，要下载对应安装的python版本喝操作系统位数
  - 安装twisted：pip install Twisted‑17.1.0‑cp36‑cp36m‑win_amd64.whl
  - pip install pywin32
  - pip install scrapy
    测试：在终端里录入scrapy指令，没有报错即表示安装成功！
scrapy使用流程：
- 创建工程：
  - scrapy startproject ProName
- 进入工程目录：
  - cd ProName
- 创建爬虫文件：
  - scrapy genspider spiderName www.xxx.com
- 编写相关操作代码
- 执行工程：
  - scrapy crawl spiderName

2，scrapy基本使用

scrapy使用流程：
- 创建工程：
  - scrapy startproject ProName
- 进入工程目录：
  - cd ProName
- 创建爬虫文件：
  - scrapy genspider spiderName www.xxx.com
- 编写相关操作代码
- 执行工程：
  - scrapy crawl spiderName
  - scrapy crawl spiderName --nolog （这是忽略详情信息，建议）

创建好scrapy框架之后，开始编写爬虫代码，这里还以爬取糗事百科网站的标题为示例！

上面是以命令启动的scrapy爬虫，不能进行debug调试，下面的方式启动可以debug调试！

创建start.py文件，内容如下

from scrapy.cmdline import execute

execute(['scrapy', 'crawl', 'spiderName', '--nolog'])	# 相当于在终端输入命令

在上面创建的爬虫文件spiderName.py中进行编写

import scrapy

class SpidernameSpider(scrapy.Spider):
    name = 'spiderName'
    # 允许爬取的域名（如果遇到非该域名的url则爬取不到数据）
    allowed_domains = ['https://www.qiushibaike.com']
    # 起始爬取的url
    start_urls = ['https://www.qiushibaike.com/']

    # 访问起始URL并获取结果后的回调函数，该函数的response参数就是向起始的url发送请求后，获取的响应对象.该函数返回值必须为可迭代对象或者NUll
    def parse(self, response):
        # xpath为response中的方法，可以将xpath表达式直接作用于该函数中
        odiv = response.xpath('//*[@id="content"]/div/div[2]/div/ul/li')
        content_list = []  # 用于存储解析到的数据
        for div in odiv:
            # xpath函数返回的为列表，列表中存放的数据为Selector类型的数据。我们解析到的内容被封装在了Selector对象中，需要调用extract()函数将解析的内容从Selecor中取出。
            author = div.xpath('.//a[@class="recmd-content"]/text()')[0].extract()
            # 打印展示爬取到的数据
            print(author)

3，scrapy的数据持久化存储

scrapy的高性能持久化存储操作

基于终端指令的持久化存储
- 保证爬虫文件的parse方法中有可迭代类型对象（通常为列表or字典）的返回，该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作。

import scrapy
class QiubaiSpider(scrapy.Spider):
    name = 'qiubai'
    allowed_domains = ['https://www.qiushibaike.com/']
    start_urls = ['https://www.qiushibaike.com/']
    def parse(self, response):
        #xpath为response中的方法，可以将xpath表达式直接作用于该函数中
        odiv = response.xpath('//div[@id="content-left"]/div')
        content_list = [] #用于存储解析到的数据
        for div in odiv:
            #xpath函数返回的为列表，列表中存放的数据为Selector类型的数据。我们解析到的内容被封装在了Selector对象中，需要调用extract()函数将解析的内容从Selecor中取出。
            author = div.xpath('.//div[@class="author clearfix"]/a/h2/text()')[0].extract()
            content=div.xpath('.//div[@class="content"]/span/text()')[0].extract()
            #将解析到的内容封装到字典中
            dic={
                '作者':author,
                '内容':content
            }
            #将数据存储到content_list这个列表中
            content_list.append(dic)
        return content_list

执行指令：
- 执行输出指定格式进行存储：将爬取到的数据写入不同格式的文件中进行存储
  scrapy crawl 爬虫名称 -o xxx.json
  scrapy crawl 爬虫名称 -o xxx.xml
  scrapy crawl 爬虫名称 -o xxx.csv
基于管道的持久化存储操作
- scrapy框架中已经为我们专门集成好了高效、便捷的持久化操作功能，我们直接使用即可。要想使用scrapy的持久化操作功能，我们首先来认识如下两个文件：
- items.py：数据结构模板文件。定义数据属性。
- pipelines.py：管道文件。接收数据（items），进行持久化操作。
- 持久化流程：
  - 1.爬虫文件爬取到数据后，需要将数据封装到items对象中。
  - 2.使用yield关键字将items对象提交给pipelines管道进行持久化操作。
  - 3.在管道文件中的process_item方法中接收爬虫文件提交过来的item对象，然后编写持久化存储的代码将item对象中存储的数据进行持久化存储
  - 4.settings.py配置文件中开启管道
小试牛刀：将糗事百科首页中的段子和作者数据爬取下来，然后进行持久化存储
- 爬虫文件：qiubaiDemo.py

import scrapy
from secondblood.items import SecondbloodItem
class QiubaidemoSpider(scrapy.Spider):
  name = 'qiubaiDemo'
  allowed_domains = ['www.qiushibaike.com']
  start_urls = ['http://www.qiushibaike.com/']
  def parse(self, response):
      odiv = response.xpath('//div[@id="content-left"]/div')
      for div in odiv:
          # xpath函数返回的为列表，列表中存放的数据为Selector类型的数据。我们解析到的内容被封装在了Selector对象中，需要调用extract()函数将解析的内容从Selecor中取出。
          author = div.xpath('.//div[@class="author clearfix"]//h2/text()').extract_first()
          author = author.strip('\n')#过滤空行
          content = div.xpath('.//div[@class="content"]/span/text()').extract_first()
          content = content.strip('\n')#过滤空行
          #将解析到的数据封装至items对象中
          item = SecondbloodItem()
          item['author'] = author
          item['content'] = content
          yield item#提交item到管道文件（pipelines.py）

items文件：items.py

import scrapy
class SecondbloodItem(scrapy.Item):
  # define the fields for your item here like:
  # name = scrapy.Field()
  author = scrapy.Field() #存储作者
  content = scrapy.Field() #存储段子内容

管道文件：pipelines.py

class SecondbloodPipeline(object):
  #构造方法
  def __init__(self):
      self.fp = None  #定义一个文件描述符属性
#下列都是在重写父类的方法：
  #开始爬虫时，执行一次
  def open_spider(self,spider):
      print('爬虫开始')
      self.fp = open('./data.txt', 'w')
 #因为该方法会被执行调用多次，所以文件的开启和关闭操作写在了另外两个只会各自执行一次的方法中。
  def process_item(self, item, spider):
      #将爬虫程序提交的item进行持久化存储
      self.fp.write(item['author'] + ':' + item['content'] + '\n')
      return item
  #结束爬虫时，执行一次
  def close_spider(self,spider):
      self.fp.close()
      print('爬虫结束')

配置文件

#开启管道
ITEM_PIPELINES = {
'secondblood.pipelines.SecondbloodPipeline': 300, #300表示为优先级，值越小优先级越高
}

面试题：如果最终需要将爬取到的数据值一份存储到磁盘文件，一份存储到数据库中，则应该如何操作scrapy？
答：管道文件中的代码为

 #该类为管道类，该类中的process_item方法是用来实现持久化存储操作的。
  class DoublekillPipeline(object):
      def process_item(self, item, spider):
          #持久化操作代码 （方式1：写入磁盘文件）
          return item
  #如果想实现另一种形式的持久化操作，则可以再定制一个管道类：
  class DoublekillPipeline_db(object):
      def process_item(self, item, spider):
          #持久化操作代码 （方式1：写入数据库）
          return item

在settings.py开启管道操作代码为：

#下列结构为字典，字典中的键值表示的是即将被启用执行的管道文件和其执行的优先级。
ITEM_PIPELINES = {
 'doublekill.pipelines.DoublekillPipeline': 300,
  'doublekill.pipelines.DoublekillPipeline_db': 200,
}
#上述代码中，字典中的两组键值分别表示会执行管道文件中对应的两个管道类中的process_item方法，实现两种不同形式的持久化操作。

4，scrapy基于Spider类的全站数据爬取

大部分的网站展示的数据都进行了分页操作，那么将所有页码对应的页面数据进行爬取就是爬虫中的全站数据爬取。
基于scrapy如何进行全站数据爬取呢？
- 将每一个页码对应的url存放到爬虫文件的起始url列表（start_urls）中。（不推荐）
- 使用Request方法手动发起请求。（推荐）
需求：将糗事百科所有页码的作者和段子内容数据进行爬取切持久化存储

import scrapy
from qiushibaike.items import QiushibaikeItem
# scrapy.http import Request
class QiushiSpider(scrapy.Spider):
  name = 'qiushi'
  allowed_domains = ['www.qiushibaike.com']
  start_urls = ['https://www.qiushibaike.com/text/']
  #爬取多页
  pageNum = 1 #起始页码
  url = 'https://www.qiushibaike.com/text/page/%s/' #每页的url
  def parse(self, response):
      div_list=response.xpath('//*[@id="content-left"]/div')
      for div in div_list:
          #//*[@id="qiushi_tag_120996995"]/div[1]/a[2]/h2
          author=div.xpath('.//div[@class="author clearfix"]//h2/text()').extract_first()
          author=author.strip('\n')
          content=div.xpath('.//div[@class="content"]/span/text()').extract_first()
          content=content.strip('\n')
          item=QiushibaikeItem()
          item['author']=author
          item['content']=content
          yield item #提交item到管道进行持久化
       #爬取所有页码数据
      if self.pageNum <= 13: #一共爬取13页（共13页）
          self.pageNum += 1
          url = format(self.url % self.pageNum)
          #递归爬取数据：callback参数的值为回调函数（将url请求后，得到的相应数据继续进行parse解析），递归调用parse函数
          yield scrapy.Request(url=url,callback=self.parse)

你可能感兴趣的:(冷知识,python,爬虫,scrapy)

动态规划之背包问题的Python实现名侦探debug Python 数据结构 python 数据结构动态规划求解
目录1.问题描述2.动态规划之网格法3.python实现1.问题描述题目来源于《算法图解》第9章练习题9.2，如下图所示。对于背包问题，通常的做法有列举法、贪婪算法和动态规划（1）列举法：列举出所有的可能情况，再选择最优解，但当情况很多时，这种算法复杂度很高（2）贪婪算法：在容量允许范围内，每次都拿剩余物品中价值最高的，贪婪算法能够快速解决复杂度很高的问题，但通常得到的是次优解，但就对这个题目而言
总结10个Python赚钱的接单平台兼职月入5000+ begefefsef 面试学习路线阿里巴巴 android 前端后端
前言“如果说当下什么编程语言最靠谱或者比较适合搞副业？”答案肯定100%是：Pythonpython是所有语法中最简单易上手的语言，不需要特别的的英语词汇量，逻辑思维也不需要很差就能上手。而且学会了之后就能编写代码爬取各种数据，制作各种图表，提升工作效率。而且还能利用业余时间接点私活，一个月轻松收入过万不是问题，这样的生活他不香吗？今天就给大家盘点几个基本入门接私活的资源，让你轻松学python，
大学生学完python靠几个接单网站兼职，实现经济独立「已注销」 python 开发语言
大学生学完python靠几个接单网站兼职，实现经济独立程序员就是当今时代的手艺人，程序员可以通过个人的技术来谋生。而在工作之余接私单可以作为一种创富的途径，受到程序员的广泛认可。说句实在话，现在这个时代，很多人仅靠主业顶多维持基本生活，想让自己、家人生活好一点很难。我接的私活并不算多，加起来也就几万左右，只能算一半，我想把一些经验分享出来，毕竟现在生活都不容易，能赚一点是一点。一、程序员接活、新手
Python wifi 安装手机app yichengace python
目的当测试机数量越来越多时，测试包的安装会成为一个问题，用wifi安装来解决这个问题，并且用脚本语言来批量控制思路思路就是py调用pc端的adb命令，向手机发送请求，无线是因为，如果未来测试机越来越多，一台电脑的usb接口数量肯定不够准备工具python，adb，pycharm，测试用app，这里选择qq（https://qd.myapp.com/myapp/qqteam/AndroidQQ/mo
深度学习之目标检测的常用标注工具铭瑾熙人工智能机器学习深度学习深度学习目标检测目标跟踪
1LabelImgLabelImg是一款开源的图像标注工具，标签可用于分类和目标检测，它是用Python编写的，并使用Qt作为其图形界面，简单好用。注释以PASCALVOC格式保存为XML文件，这是ImageNet使用的格式。此外，它还支持COCO数据集格式。2labelmelabelme是一款开源的图像/视频标注工具，标签可用于目标检测、分割和分类。灵感是来自于MIT开源的一款标注工具Label
Python 舆论风向分析爬虫：全流程数据获取、清洗与情感剖析西攻城狮北 python 爬虫开发语言实战案例
引言在当今信息爆炸的时代，互联网上充斥着海量的用户言论和观点。了解舆论风向对于企业、政府机构以及研究者等具有重要的意义，可以帮助他们及时把握公众情绪、调整策略与决策。Python作为一种强大的编程语言，在数据爬取与分析方面具有得天独厚的优势，能够助力我们高效地实现舆情监测与深入剖析。一、环境搭建与目标确定1.环境搭建为了顺利完成爬虫与数据分析任务，首先需要确保你的开发环境已经安装了以下Python
PyCharm 集成 DeepSeek：本地运行 or API 直连？打造你的 AI 编程神器！ AI云极【AI智能系列】pycharm 人工智能 ide deepseek
在AI赋能编程的时代，如何让AI辅助写代码，提升开发效率？DeepSeek作为一款开源、强大、免费的AI编程助手，结合PyCharm，能够大幅提升Python编程体验。今天，我们就来详细讲解如何在PyCharm中接入DeepSeek，无论你想使用本地部署的DeepSeek，还是官方API版本，都能轻松实现！为什么选择DeepSeek+PyCharm？DeepSeekR1采用6710亿参数的MoE（
Python3.5源码分析-sys模块及site模块导入小屋子大侠 python Python分析 python源码
Python3源码分析本文环境python3.5.2。参考书籍>python官网Python3的sys模块初始化根据分析完成builtins初始化后，继续分析sys模块的初始化，继续分析_Py_InitializeEx_Private函数的执行，void_Py_InitializeEx_Private(intinstall_sigs,intinstall_importlib){...sysmod=
【CUDA】Pytorch_Extensions joker D888 深度学习 pytorch python cuda c++深度学习
【CUDA】Pytorch_Extensions为什么要开发CUDA扩展？当我们在PyTorch中实现自定义算子时，通常有两种选择：使用纯Python实现（简单但效率低）使用C++/CUDA扩展（高效但需要编译）对于计算密集型的操作（如神经网络中的自定义激活函数），使用CUDA扩展可以获得接近硬件极限的性能。本文将以实现一个多项式激活函数x²+x+1为例，展示完整的开发流程。完整CUDA扩展代码解
Labelbox：引领AI与人类协作的未来魏兴雄Milburn
Labelbox：引领AI与人类协作的未来labelbox-pythonLabelboxPythonClient项目地址:https://gitcode.com/gh_mirrors/la/labelbox-python项目介绍Labelbox是一款专为企业和学术研究社区设计的开源工具，旨在简化数据标注、生成高质量的人类反馈数据、评估和提升模型性能，并通过无缝结合AI与人类工作流程来自动化任务。无
基于python使用scanpy分析单细胞转录组数据探序基因单细胞分析 python 开发语言
探序基因肿瘤研究院整理相关后缀的格式介绍：.h5ad：是一种用于存储单细胞数据的文件格式，可以通过anndata库在Python中处理.loom：高效的数据存储格式（.loom文件），使得用户可以轻松地存储、查询和分析大规模的单细胞数据集。Loompy的设计目标是提供一个快速、灵活且易于使用的工具，以支持生物信息学家和研究人员在单细胞水平上进行数据分析。python的单细胞转录组数据结构说明：da
本地搭建小型 DeepSeek 并进行微调非著名架构师大模型知识文档智能硬件人工智能大数据大模型 deepseek
本文将指导您在本地搭建一个小型的DeepSeek模型，并进行微调，以处理您的特定数据。1.环境准备Python3.7或更高版本PyTorch1.8或更高版本CUDA(可选，用于GPU加速)Git2.克隆DeepSeek仓库bash复制gitclonehttps://github.com/deepseek-ai/deepseek.gitcddeepseek3.安装依赖bash复制pipinstall
使用Python和OpenCV实现图像像素压缩与解压东方佑量子变法 python opencv 开发语言
在本文中，我们将探讨如何使用Python和OpenCV库来实现一种简单的图像像素压缩算法。我们将详细讨论代码的工作原理，并提供一个具体的示例来演示该过程。1.引言随着数字媒体的普及，图像处理成为了一个重要的领域。无论是为了减少存储空间还是加快网络传输速度，图像压缩技术都扮演着至关重要的角色。这里，我们提出了一种基于像素重复模式的简单压缩算法，它适用于具有大量连续相同像素值的图像。2.技术栈介绍2.
【Python系列】Python 解释器的站点配置 Kwan的解忧杂货铺@新空间代码工作室 s1 Python python 开发语言
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术点,如集合,jvm,并发编程redis,kafka,Spring,微服务,Netty等常用开发工具系列:罗列常用的开发工具,如IDEA,M
利用Beautiful Soup和Pandas进行网页数据抓取与清洗处理实战傻啦嘿哟 pandas
目录一、准备工作二、抓取网页数据三、数据清洗四、数据处理五、保存数据六、完整代码示例七、总结在数据分析和机器学习的项目中，数据的获取、清洗和处理是非常关键的步骤。今天，我们将通过一个实战案例，演示如何利用Python中的BeautifulSoup库进行网页数据抓取，并使用Pandas库进行数据清洗和处理。这个案例不仅适合初学者，也能帮助有一定经验的朋友快速掌握这两个强大的工具。一、准备工作在开始之
python做一个注册界面_python如何做一个登录注册界面 weixin_39824033 python做一个注册界面
python做一个登录注册界面的方法：首先初始化一个window界面，并使用画布实现欢迎的logo；然后用代码实现登录和注册按钮；接着并进行登录判断代码；最后完成注册界面即可。【相关学习推荐：python视频教程】python做一个登录注册界面的方法：一、登录界面1、首先初始化一个window界面window=tk.Tk()window.title('WelcometoMofanPython')w
python读取zip包内文件_Python模块学习：zipfile zip文件操作 weixin_40001634 python读取zip包内文件
最近在写一个网络客户端下载程序，用于下载服务器上的数据。有些数据(如文本，office文档)如果直接传输的话，将会增加通信的数据量，使下载时间变长。服务器在传输这些数据之前先对其进行压缩，客户端接收到数据之后进行解压，这样可以减小网通传输数据的通信量，缩短下载的时间，从而增加客户体验。以前用C#做类似应用程序的时候，我会用SharpZipLib这个开源组件，现在用Python做类似的工作，只要使用
python制作登陆窗口_python登陆界面 weixin_39758494 python制作登陆窗口
广告关闭腾讯云11.11云上盛惠，精选热门产品助力上云，云服务器首年88元起，买的越多返的越多，最高返5000元！print(账号密码错误！请重试。)returnfalsebutton(master,text=登陆,width=10,command=test).grid(row=3,column=0,sticky=w,padx=10,pady=5)button(master,text=退出,wid
如何使用零配置的Sphinx生成Python文档？潮易 sphinx 全文检索搜索引擎
如何使用零配置的Sphinx生成Python文档？在Python编程中，编写文档是非常重要的。一个好的文档可以帮助其他开发者理解和使用你的代码。Sphinx是一个用于生成Python项目的文档的静态网页生成器，它支持多种文档格式，包括ReStructuredText和Markdown。以下是使用零配置的方式来使用Sphinx生成Python文档的详细步骤：1.首先，确保你已经安装了Sphinx。打
如何订阅&q；/扫描&q；主题、修改消息并发布到新主题？潮易 python 开发语言
如何订阅&q；/扫描&q；主题、修改消息并发布到新主题？这个问题涉及到Python编程中的MQTT（MessageQueuingTelemetryTransport）库的使用，该库允许我们创建客户端订阅和发布消息到MQTT服务器。以下是一个简单的步骤：1.安装MQTT库：可以使用pip安装`paho-mqtt`库。```pythonpipinstallpaho-mqtt```2.创建一个MQTT客
Python-tkinter自制登录界面（含注册） GCHEK python 开发语言
简单的用户登录、注册界面importtkinterastkimporttimeimportsubprocessimportsysimportosimporttkinter.messageboxwindow=tk.Tk()window.title('GCHEK')window.geometry('400x300')#设置储存用户信息的容器，这里用的txt。ifnotos.path.exists('U
Python爬虫requests(详细) dme. Python爬虫零基础入门爬虫 python
本文来学爬虫使用requests模块的常见操作。1.URL参数无论是在发送GET/POST请求时，网址URL都可能会携带参数，例如：http://www.5xclass.cn?age=19&name=dengres=requests.get(url="https://www.5xclass.cn?age=19&name=deng")res=requests.get(url="https://www
使用python计算等比数列求和的方法 HAMYHF windows
在python中，计算Sum=m+mm+mmm+mmmm+.....+mmmmm.....,输入两个数m,n。m的位数累加到n的值，列出算式并计算出结果：#为了打印出算式，并计算出结果，将m,mm这些放入到列表中#定义列表中的m初始值为0,用Ele来代表m,mm....Ele=0#定义总和为0Sum=0#定义一个空列表List=[]#输入两个值n=int(input("inputadigit：")
Python+Playwright常用元素定位方法 HAMYHF python 功能测试
CSSselector选择器在CSS中，定位元素主要通过选择器完成，以下是几种常见的CSS选择器定位方法：标签选择器(element):直接使用HTML元素名称来定位，例如p会选择所有段落元素。属性选择器(attribute):选择所有具有指定属性的元素，无论该属性的值是什么。例如，[title]会选择所有包含title属性的元素。选择具有指定属性，并且该属性值完全等于给定值的元素。例如，[typ
Python中的 redis keyspace 通知_python 操作redis psubscribe(‘__keyspace@0__ ‘) 2301_82243733 程序员 python 学习面试
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
Python数据分析与可视化程序媛小果 python python 数据分析开发语言
Python数据分析与可视化在数据驱动的商业世界中，数据分析和可视化成为了理解复杂数据集、做出明智决策的关键工具。Python，作为一种功能强大且易于学习的编程语言，提供了丰富的库和框架，使得数据分析和可视化变得简单高效。本文将探讨Python在数据分析和可视化中的应用，包括数据预处理、分析、以及如何通过可视化工具将数据洞察转化为可操作的策略。1.数据分析的重要性数据分析是提取数据中有用信息的过程
【Python 学习 / 7】模块与文件操作卜及中 Python基础 python 学习数据库
文章目录前言一、导入模块1.导入整个模块2.导入模块中的特定函数3.给模块或函数起别名二、常用模块1.`math`模块2.`random`模块3.`os`模块4.`sys`模块三、文件处理1.打开文件2.读取文件3.写入文件4.关闭文件5.使用`with`语句管理文件四、日期时间1.`datetime`模块获取当前日期和时间创建日期和时间对象格式化日期和时间解析字符串为日期对象2.`time`模块
经销商管理系统架构设计方案（附 Java版本和Python版本源代码详解） AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
经销商管理系统架构设计方案（Java实现源代码详解）关键词：经销商管理系统，Java，SpringBoot，MyBatis，MySQL，架构设计，源代码1.背景介绍随着市场竞争的日益激烈，企业对经销商的管理越来越重视。传统的经销商管理方式效率低下，信息滞后，难以适应现代企业的发展需求。为了提高经销商管理效率，降低运营成本，越来越多的企业开始采用信息化的手段来管理经销商，而经销商管理系统应运而生。经
Python:数据从Excel表格链接到Word文档更新Excel即可自动更新Word 一个花生米生花 python excel word
要使用Python来创建或更新一个Word文档，并将数据从Excel表格链接到Word文档中，你可以使用python-docx库来操作Word文档和openpyxl或pandas库来读取Excel文件。不过，需要注意的是，python-docx库并不支持将外部文件链接到Word文档的功能。你可以在Word文档中插入Excel数据的快照，但它们不会自动更新。如果你想要在Word文档中插入Excel数
使用Odoo Shell卸载模块 odoo中国 odoo odoo 开源软件 erp
使用OdooShell卸载模块我们在Odoo使用过程中，因为模块安装错误或者前端错误等导致odoo无法通过界面登录，这时候你可以使用OdooShell来卸载模块。OdooShell是一个交互式Pythonshell，允许你直接与Odoo数据库和模型进行交互。以下是使用OdooShell卸载模块的详细步骤：步骤1：启动OdooShell要启动OdooShell，你需要在终端中运行以下命令。确保你已经
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比