开局签到Python基础

2.爬虫之xpath选择器&selenium模块

1. xpath选择器

1.1 xpath介绍

xpath: 是一门在xml/html文档中查找信息的语句.

安装: 
pip install lxml
导入:
from lxml import etree
生成对象:

html = etree.HTML('html文档字符串')
html = etree.parse('.html文件路径', etree.HTMLParser())

1.2 选取节点表达式

查询节点:
/  : 从根节点选取 (值是一个对象)
// : 不管任何位置, 直接查找 (值是一个对象)
.  : 从当前节点
.. : 从父节点
/@属性名: 获取属性值	
/text(): 获取标签内容

1. 查找所有节点

* : 通配符表示所有

# 导入模块
from lxml import etree

# html文档字符串
doc = '''

 
  
  Example website
 
 
  
   Name: My image 1 

   Name: My image 2 

   Name: My image 3 

   Name: My image 4 

   Name: My image 5 

   testName: My image 6 

  
 

'''

# 生成对象
html = etree.HTML(doc)

# 查找所有节点
node = html.xpath('//*')
print(node)

"""
[, , ...]
"""

2. 指定节点

//标签名

# 指定节点（结果为列表）
node = html.xpath('//head')
print(node)
"""
[]
"""

3. 子节点

指定子标签:
1. //父标签名/子标签名
2. 标签名/child::子标签名

# div下的a标签
# 从父节点开始找子节点
node = html.xpath('//div/a')
print(node)
# [, ...

# 指定子标签
node = html.xpath('//a[1]/child::img/@src')
print(node)
# ['image1_thumb.jpg']


# 所有子标签
node = html.xpath('//a[1]/child::*')
print(node)
# [, ]

4. 子孙节点

子/孙标签:
1. //祖或父标签名//子或孙标签名
1. 标签名/child::*

# 无数据
node = html.xpath('//body/a')
print(node)  

# []


# 通过父节点找子孙节点
node = html.xpath('//body//a')
print(node)

# [, ...

# descendant：所有子孙节点
node = html.xpath('//a[6]/descendant::*')
print(node)
"""
[, , 
, ]
"""

# 指定子孙节点
node = html.xpath('//a[6]/descendant::h5/text()')
print(node)
# ['test']

5. 父节点

子节点/.. 找到父节点

# 父节点( a[@href="image1.html"] 查询a标签href属性值为image1.html的标签 )
node = html.xpath('//body//a[@href="image1.html"]/..')
print(node)
# []

# 索引从1开始
node = html.xpath('//body//a[1]/..')
print(node)
# []

# (parent::父标签名)

node = html.xpath('//body//a[1]/parent::div')
print(node)
# []

node = html.xpath('//body//a[1]/parent::*')
print(node)
# []

6. 祖先节点

# 获取祖先节点中的div
node = html.xpath('//a/ancestor::div')
print(node)
# [, , ]

# 获取所有祖先节点
node = html.xpath('//a/ancestor::*')
print(node)
# []

7. 属性匹配

单属性值匹配:
标签名[@属性名='属性值']

多属性值匹配:
标签有class属性有多个值, 直接匹配就不可以了, 需要用contains
标签名[contains@属性名='属性值']

# 找到a标签href属性值为image1.html的标签
node = html.xpath('//body//a[@href="image1.html"]')
print(node)
# []

node = html.xpath('//body//a[@class="li"]')
print(node)
# []

node = html.xpath('//body//a[contains(@class,"li")]')
print(node)
# []

8. 文本内容获取

标签名/text() 取当前标签的文本内容

# 文本获取
node = html.xpath('//body//a[@href="image1.html"]/text()')
print(node)  
# ['Name: My image 1 ']

node = html.xpath('//body//a/text()')
print(node)
"""
['Name: My image 1 ', 'Name: My image 2 ', 'Name: My image 3 ',
 'Name: My image 4 ', 'Name: My image 5 ', 'Name: My image 6 ']
"""

9. 属性值获取

标签名/@属性名 取当前标签的属性
标签名/attribute::* 获取所有属性值

node = html.xpath('//body//a/@href')
print(node)
# ['image1.html', 'image2.html', 'image3.html', 'image4.html', 'image5.html', 'image6.html']

# 注意从1 开始取（不是从0）
node = html.xpath('//body//a[1]/@href')
print(node)
# ['image1.html']

node = html.xpath('//a[1]/@aa')
print(node)
# ['bb']

# attribute::* 获取所有属性值
node = html.xpath('//a[1]/attribute::*')
print(node)  
# ['image1.html', 'bb']

10. 按序选择

正序:
标签名[序号]      序号从1开始

倒序:
标签名[last()]    最后一个
标签名[last()-n]  倒数第n+1个

node = html.xpath('//a[2]/text()')
print(node)
# ['Name: My image 2 ']

node = html.xpath('//a[2]/@href')
print(node)
# ['image2.html']

# 倒数最后一个
node = html.xpath('//a[last()]/@href')
print(node)
# ['image6.html']

# 倒数第二个
node = html.xpath('//a[last()-1]/@href')
print(node)

11. 位置条件

标签名[position()<序号]

# 位置小于3的
node = html.xpath('//a[position()<3]/@href')
print(node)
# ['image1.html', 'image2.html']

12. 同级节点查找

/following:当前节点之后所有同级节点(包括同级节点的子孙节点)
following-sibling:当前节点之后同级节点（只找兄弟）

# a标签的所有同级标签(所有标签)
node = html.xpath('//a[3]/following-sibling::*')
print(node)
# [, , ]

# a标签的所有同级标签(指定某个标签)
node = html.xpath('//a[3]/following-sibling::a')
print(node)
# [, , ]

# a标签的所有同级标签(所有标签, 取第二个)
node = html.xpath('//a[1]/following-sibling::*[2]')
print(node)
# []

node = html.xpath('//a[1]/following-sibling::*[2]/@href')
print(node)
# ['image3.html']

1.3 复制xpath路径

xpath路径: //*[@id="hotsearch-content-wrapper"]/li[1]/a/span[2]
完整xpath路径: /html/body/div[1]/div[1]/div[5]/div/div/div[3]/ul/li[1]/a/span[2]

2. Web应用测试工具

selenium: 是一个用于Web应用程序测试的工具.

使用requests速度快, 可以开启多线程, requests无法直接执行JavaScript代码.
爬虫中使用是为了解决requests无法直接执行JavaScript代码的问题, 但是速度慢.

2.1 安装selenium

安装selenium: pip3 install selenium==3.141.0
最新版本好多方法弃用了...

2.2 下载驱动

谷歌浏览器驱动网址: http://npm.taobao.org/mirrors/chromedriver/

* 1. 找到chrome版本信息

* 2. 下载对应版本的驱动(驱动器版本向下兼容)

* 3. 下载之后解压得到一个可执行文件(不需要安装)

2.3 等待元素加载

网页加载需要一定的时间, 通过代码去查找标签速度非常快, 可能标签还没加载完, 代码就查找了, 
如果找不到会报错.
在执行代码查找标签之前先等待标签加载完毕.
两种方式:
1. 显示等待: 每个标签都要写等待逻辑.
2. 隐式等待: 写一个逻辑, 所有标签遵循这个规则.
   元素对象.implicitly_wait(等待加载时间)  超时报错

from selenium import webdriver

bro=webdriver.Chrome(executable_path='./chromedriver.exe')

# 在地址栏输入地址
bro.get('https://www.jd.com/')
bro.implicitly_wait(10)

...

2.4 简单使用

生成对象:
浏览器对象 = webdriver.Chrome(executable_path='驱动器路径') 

打开网页: 
浏览器对象.get('网络地址')

打印文本信息:
浏览器对象.page_source

关闭当前页面:
浏览器对象.close()

退出浏览器:
浏览器对象.quit()

# 导入网络驱动程序模块
from selenium import webdriver

# 得到一个谷歌浏览器对象(打开一个浏览器窗口)
bro = webdriver.Chrome(executable_path='./chromedriver.exe')  # 指定使用的驱动

# 在地址栏里输入了访问地址
bro.get('https://www.baidu.com/')

# 打印网页文本信息
print(bro.page_source)

# 关闭浏览器
bro.close()

2.5 查找标签

 (最新版本模块很多方法被弃用!)
# ===============find系列方法查找元素===================
不带s:
1. find_element_by_id                  通过id查找
2. find_element_by_link_text           通过a标签的文本内容找
3. find_element_by_partial_link_text   通过a标签的文本内容找, 模糊匹配
4. find_element_by_tag_name            标签名
5. find_element_by_class_name          类名
6. find_element_by_name                name属性
7. find_element_by_css_selector        通过css选择器
8. find_element_by_xpath               通过xpaht选择器
带s:
强调：find_elements_by_xxx的形式是查找到多个元素, 结果为列表

元素对象.send_keys('搜索关键字') 往控件中写入搜索关键字
元素对象.clear() 清空输入的内容
元素对象.click() 点击按钮
元素对象.get_attribute('属性名') 获取元素的属性
元素对象.text 获取元素的文本信息

css选择器的复制方法:
#app > div > div > div > div.el-col.el-col-24 > section > div > 
div.scroll_main.el-scrollbar__wrap.el-scrollbar__wrap--hidden-default > div

1. 自动搜索案例

* 1. 找到输入框

* 2. 找到搜索按键

from selenium import webdriver


# 用代码打开一个浏览器

bro = webdriver.Chrome(executable_path='chromedriver.exe')  # win

# 在地址栏输入地址
bro.get('https://www.so.com/')

# 找到输入框
search = bro.find_element_by_id('input')
# 在输入框输入美女
search.send_keys("美女")

# 找到搜索按钮
button = bro.find_element_by_id('search-button')
# 点击一下按钮
button.click()


print(bro.page_source)  # 当前页面的html内容
# 将页面缓存
with open('baidu.html', 'w', encoding='utf-8') as f:
    f.write(bro.page_source)  # 包含redner+ajax

bro.close()

2.自动登入案例

全自定登入越来越难. 必要的时候验证手动验证.

* 1. 找到登入按键

* 2. 找打账户登入

* 3. 找到用户名与密码输入框

* 4. 找打登入按键

* 5. 登入代码(验证码手动)

from selenium import webdriver
import time

bro = webdriver.Chrome(executable_path='./chromedriver.exe')

# 在地址栏输入地址
bro.get('https://www.baidu.com/')
bro.implicitly_wait(10)
# 获取页面登入按键
user_login = bro.find_element_by_id('s-top-loginbtn')
# 点击登入
user_login.click()

# # 找到账户登入
account_login = bro.find_element_by_id('TANGRAM__PSP_11__changePwdCodeItem')
# # 点击账户登入
account_login.click()

# 找到账户密码输入框并输入信息
username = bro.find_element_by_id('TANGRAM__PSP_11__userName')
username.send_keys('[email protected]')

password = bro.find_element_by_id('TANGRAM__PSP_11__password')
password.send_keys('1314.qqq')

# 获取登入按键
button = bro.find_element_by_id('TANGRAM__PSP_11__submit')
button.click()

time.sleep(10)

bro.close()

2.6 无界面浏览器

selenium必须是打开浏览窗口, 爬虫不需要展示窗口, 则设置为无界面浏览器.

from selenium import webdriver

from selenium.webdriver.chrome.options import Options

# 得到一个配置对象
chrome_options = Options()
chrome_options.add_argument('window-size=1920x3000')  # 指定浏览器分辨率
chrome_options.add_argument('--disable-gpu')  # 谷歌文档提到需要加上这个属性来规避bug
chrome_options.add_argument('--hide-scrollbars')  # 隐藏滚动条, 应对一些特殊页面
chrome_options.add_argument('blinfk-settings=imagesEnabled=alse')  # 不加载图片, 提升速度
chrome_options.add_argument('--headless')  # 浏览器不提供可视化页面. 
# linux下如果系统不支持可视化不加这条会启动失败

# 设置配置
bro = webdriver.Chrome(executable_path='./chromedriver.exe', options=chrome_options)

bro.get('https://www.baidu.com')
print(bro.page_source)

2.7 pillow扣图

安装pillow模块: pip install pillow

元素对象.save_screenshot('保存路径')   把整个页面保存成图片
元素对象.location 元素的左上角坐标.
元素对象.size 元素占用的大小
元素对象.id  元素id(selenium分配的)
元素对象.tag_name (元素的名称)

from selenium import webdriver
from PIL import Image

bro = webdriver.Chrome(executable_path='./chromedriver.exe')

# 在地址栏输入地址
bro.get('https://www.jd.com/')

# 找到图片
img = bro.find_element_by_css_selector('a.logo_tit_lk')
print(img.location)  # 图片位置 {'x': 105, 'y': 41}
print(img.size)  # 图片大小  通过位置和大小可以唯一确定这张图，通过截图可以把图截出来
# {'height': 120, 'width': 190}
print(img.id)  # selenium提供的id号，忽略
print(img.tag_name)  # a

location = img.location
size = img.size
bro.save_screenshot('./main.png')  # 把整个页面保存成图片
# 补充：标签位置和大小:size和location
# pillow抠图，把图标抠出来
# 第一个参数 开始截图的x坐标
# 第二个参数 开始截图的y坐标
# 第三个参数 结束截图的x坐标
# 第四个参数 结束截图的y坐标
img_tu = (
    # 105 41 105+120 41+190
    int(location['x']), int(location['y']), int(location['x'] + size['width']), int(location['y'] + size['height']))
# #使用pillow打开截图
img = Image.open('./main.png')
# 从截图中按照位置扣除验证码
code_img = img.crop(img_tu)
# 把扣出来的图，保存到本地
code_img.save('./code.png')

bro.close()

# 一般用来扣验证码图片：可能会由于分辨率问题导致扣出的图不一致---》通过修改分辨率--》实现正确抠图
# 验证码是img---》src--》自己加载就能拿到验证码，保存到本地即可(requests)-->更简单

2.8 执行js

浏览器对象.execute_scripr('js代码')

常用操作: 
1. 执行js代码
2. 使用页面的变量和函数

1. alert弹框

# alert弹框
from selenium import webdriver
import time

bro = webdriver.Chrome(executable_path='./chromedriver.exe')

# 在地址栏输入地址
bro.get('https://www.csdn.net/')
bro.execute_script("alert('hello')")

time.sleep(3)
bro.switch_to.alert.accept()  # 需要关闭alert弹窗不然会报错
bro.close()

2. 滑动页面

垂直滑动 window.scrollBy(起始坐标, 结束坐标)
document.body.scrollHeight 获取页面的高度

# 滑动页面
from selenium import webdriver
import time

bro = webdriver.Chrome(executable_path='./chromedriver.exe')

# 在地址栏输入地址
bro.get('https://www.csdn.net/')
# 向下滑动500px
bro.execute_script("window.scrollBy(0, 500)")
time.sleep(2)

# 滑动底部
bro.execute_script("window.scrollBy(0, document.body.scrollHeight )")
time.sleep(2)

bro.close()

3. 使用变量

使用页面中定义的表量

from selenium import webdriver

bro = webdriver.Chrome(executable_path='./chromedriver.exe')

# 在地址栏输入地址
bro.get('https://www.baidu.com')
bro.execute_script('console.log(bds)')

2.9 选项卡操作

选项卡-->新开网页
新开选项卡: window.open() 
获取虽有选项卡: 浏览器对象.window_handles 
切换选项卡: 浏览器对象..switch_to.window(选项卡)

from selenium import webdriver

bro = webdriver.Chrome(executable_path='./chromedriver.exe')

# 在地址栏输入地址
bro.get('https://www.baidu.com')

# 新开选项卡
bro.execute_script('window.open()')

# 获取所有选项卡  值是一个列表 [选项卡1, 选项卡2, ...]
all_window = bro.window_handles

# 切换到第一个选项卡 打开博客园
bro.switch_to.window(all_window[0])
bro.get('https://www.cnblogs.com/')

# 切换到第二个选项卡 打开csnd
bro.switch_to.window(all_window[1])
bro.get('https://www.csdn.net/')

bro.close()  # 关闭第二个选项卡
bro.quit()  # 退出浏览器

2.10 页面前进后退

后退: 浏览器对象.back()
前进: 浏览器对象.forward()

from selenium import webdriver
import time
bro = webdriver.Chrome(executable_path='./chromedriver.exe')

# 在地址栏输入地址
bro.get('https://www.baidu.com')
bro.get('https://www.taobao.com')
bro.get('https://www.bilibili.com/')
time.sleep(1)

# 后退到淘宝
bro.back()
time.sleep(1)

# 后退到百度
bro.back()
time.sleep(1)

# 前进到淘宝
bro.forward()
time.sleep(1)

# 前进到哔哩哔哩弹幕网
bro.forward()
time.sleep(1)


# 退出浏览器
bro.quit()

2.11 异常处理

from selenium import webdriver
bro = webdriver.Chrome(executable_path='./chromedriver.exe')

# 在地址栏输入地址
try:
    bro.get('https://www.baidu.com')
    bro.find_element_by_id('xxxx')

except Exception as e:
    print(f'程序出错: {e}')
    bro.quit()

2.12 半自动登入博客园

操作步骤:
    1. 先半自动登入到博客园
    2. 将cookice保存到本地
    3. 携带cookice访问博客园

* 1. 获取登入标签

* 2. 获取账户密码表单按钮

* 3. 获取账户密码登入标签

* 4. 半自动登入获取cookie保存到本地

from selenium import webdriver
bro = webdriver.Chrome(executable_path='./chromedriver.exe')

# 在地址栏输入地址
try:
    bro.get('https://www.cnblogs.com/')
    # 隐式等待
    bro.implicitly_wait(10)
    # 获取登入按钮
    login_button = bro.find_element_by_link_text('登录')
    # 点击登入
    login_button.click()
    
    # 获取密码登入标签
    password_button = bro.find_element_by_class_name('mat-tab-label-content')
    password_button.click()

    # 获取账户框
    username_input = bro.find_element_by_id('mat-input-0')
    # 输入账户名
    username_input.send_keys('你的账户')

    # 获取密码框
    password_input = bro.find_element_by_id('mat-input-1')
    # 输入密码
    password_input.send_keys('你的密码')

    # 获取登入按键
    button = bro.find_element_by_class_name('mat-button-wrapper')
    # 点击登入
    button.click()

    # 手动操作验证码, 程序停止在这里, 按下任意按键往下走
    input()

    # 将cookie保存到问文件中
    import json
    with open('cookie.json', mode='w') as wf:
        # get_cookies() 获取cookie 值是一个列表套字典
        json.dump(bro.get_cookies(), wf)

except Exception as e:
    print(f'程序出错: {e}')

finally:
    bro.quit()

* 5. cookie信息

[
    {
        "domain":"www.cnblogs.com",
        "httpOnly":true,
        "name":".AspNetCore.Antiforgery.b8-pDmTq1XM",
        "path":"/",
        "secure":false,
        "value":"CfDJ8EOBBtWq0dNFoDS-ZHPSe53mEWd-ZGyjWftpCaA67Ju_PAmyKJdgIMJ6TQroItTC3KugfG1kyhlNdZx9twkZXOMpcOw8OMkPl0v3uajxTJTOJKtxX4sy1Az7e2VbFXcrcgff2l2J1QRpKn75hQ0ldtYSAD"
    },
    {
        "domain":".cnblogs.com",
        "expiry":1720163214,
        "httpOnly":false,
        "name":"_ga",
        "path":"/",
        "secure":false,
        "value":"GA1.2.1702123200.1657091158"
    },
    {
        "domain":".cnblogs.com",
        "httpOnly":true,
        "name":".CNBlogsCookie",
        "path":"/",
        "secure":false,
        "value":"6AE367FDC883C9497C0965F5DCB0773D77C7B6E04AC8D3483B085CC7C8C7FD46E080F1CFF9028730A81B4781393E850814E684ABDFA2FFD7D01C0CAEB96C28EA39E26578AFF0E5355617C5C2A5191DB59937CC937D"
    },
    {
        "domain":".cnblogs.com",
        "expiry":1690787158,
        "httpOnly":false,
        "name":"__gpi",
        "path":"/",
        "secure":false,
        "value":"UID=00000769a61d749c:T=1657091158:RT=1657091158:S=ALNI_MYpovhSSJNIllzFre6jRxKvDbXmXA"
    },
    {
        "domain":".cnblogs.com",
        "expiry":1690787158,
        "httpOnly":false,
        "name":"__gads",
        "path":"/",
        "secure":false,
        "value":"ID=614211f6e18ef14e:T=1657091158:S=ALNI_MabIFcMdHavfJFTtGjdvxUNM6oWJA"
    },
    {
        "domain":".cnblogs.com",
        "expiry":1657177614,
        "httpOnly":false,
        "name":"_gid",
        "path":"/",
        "secure":false,
        "value":"GA1.2.2027133757.1657091158"
    },
    {
        "domain":".cnblogs.com",
        "httpOnly":true,
        "name":".Cnblogs.AspNetCore.Cookies",
        "path":"/",
        "secure":false,
        "value":"CfDJ8EOBBtWq0dNFoDS-ZHPSe50ngXRAr8WvkjMPVK2CErFjHpfDDCUA5wWx_coJ_pBtFO5I5aDCaZKVAU3ENMhSzukVskoTcTgvCsxz6lBceGIdIGBAjpxkahkqzDHb323TpdV2X3KMcJUTH-Fzz5NDhvMzDBfrcgOuvhUiu67tqzJeweta9Ld_qo2d7zGzHcCQOhVZJAXsZYB6lERqnNx83pRWzwUbmeoxPjvpQiILl6Amab0RkkoGS4wP5K1l0_gn1XBdke5Vp2fXqVIAJoIpV12PC2AjcrV2ABKdYMts_qAZ6UrhK_Rk7cc8wrvyNPP63dvg8pqsceIPl45GS0XuqfPLg1K9nCydFp426a-2UUix2pIwyxKDsq3IpP6qgq4QlkzfZm9CvgF7Tq-14s4327l9uCJEYmrNyeghaBM-4WhHabI_FD6K-xweqaFVx_n5aN5vhXV9yFRiUOFD71kn5FcwOhnImFKDHnmRUaSSy4AyhawQ8hT6UTQcXcigkDStc4wkz-jXpsDdYYxED3fZAp9IwLQv63U9mEG51LlyM7jQ8"
    },
    {
        "domain":".cnblogs.com",
        "httpOnly":false,
        "name":"Hm_lpvt_866c9be12d4a814454792b1fd0fed295",
        "path":"/",
        "secure":false,
        "value":"1657091215"
    },
    {
        "domain":".cnblogs.com",
        "expiry":1720163214,
        "httpOnly":false,
        "name":"_ga_3Q0DVSGN10",
        "path":"/",
        "secure":false,
        "value":"GS1.1.1657091159.1.1.1657091214.5"
    },
    {
        "domain":".cnblogs.com",
        "expiry":1688627214,
        "httpOnly":false,
        "name":"Hm_lvt_866c9be12d4a814454792b1fd0fed295",
        "path":"/",
        "secure":false,
        "value":"1657091158"
    }
]

* 6. 携带cookie访问博客园

from selenium import webdriver
bro = webdriver.Chrome(executable_path='./chromedriver.exe')

# 在地址栏输入地址
try:
    # 访问博客园
    bro.get('https://www.cnblogs.com/')

    # 读取cookie
    with open('cookie.json', mode='r', encoding='utf8') as rf:
        import json
        cookie = json.load(rf)

    # 浏览器对象添加cookie [{}, {}, ..]
    for item in cookie:
        # 将所有的cookie字典逐个添加
        bro.add_cookie(item)

    # 刷新页面
    bro.refresh()

    import time
    time.sleep(3)

except Exception as e:
    print(f'程序出错: {e}')

finally:
    bro.quit()

2.13 抽屉新闻自动点赞

操作步骤:
1. 使用selenium半自动登入到抽屉新闻网, 获取到cookie.
2. 使用request携带cookie访问抽屉新闻网, 批量点赞文章.

* 1. 获取登入按键

* 2. 获取到手机号码登入

* 3. 获取到手机号输入输入框, 密码输入框, 登入按钮

* 4. 自动登入代码

from selenium import webdriver

bro = webdriver.Chrome(executable_path='./chromedriver.exe')

# 在地址栏输入地址
try:
    # 访问抽屉新闻
    bro.get('https://dig.chouti.com/')
    # 隐式等待
    bro.implicitly_wait(10)

    # 获取登入按键
    login_button = bro.find_element_by_id('login_btn')

    # login_button.click()
    # 点击会报错 Message: element click intercepted 消息：元素点击被拦截

    # 使用js操作点击
    bro.execute_script('arguments[0].click()', login_button)

    # 获取手机号码登入选择标签
    phone_login = bro.find_element_by_link_text('手机号登录')
    phone_login.click()

    # 获取手机号码输入框
    phone_input = bro.find_element_by_name('phone')
    phone_input.send_keys('账户')

    import time

    time.sleep(2)

    # 获取密码输入款
    password_input = bro.find_element_by_name('password')
    password_input.send_keys('密码')

    import time

    time.sleep(2)

    # 获取登入按键
    button_btn = password_input = bro.find_element_by_name('password')
    button_btn.click()
	
    input()  # 手动验证.
    
    
    # 获取cookie 保存到本地
    with open('chouti_cookie.json', mode='w') as wf:
        import json

        json.dump(bro.get_cookies(), wf)

except Exception as e:
    print(f'程序出错: {e}')

finally:
    bro.quit()

* 5. 获取到cookie

[
    {
        "domain":"dig.chouti.com",
        "expiry":2147483647,
        "httpOnly":false,
        "name":"YD00000980905869%3AWM_NI",
        "path":"/",
        "secure":false,
        "value":"hVmgjDuEehm%2F6tUcue5fPsyZBX4g%2BiVrsda5Y2A%2BAlPh5Q9JvDwOUT75TtZvqQSBAJT0GPwQDrndVOoDV6BF%2FM2FysGrBvko6XTGutmHh5yXaXVnRwGhFNF6B0E2IN3UpudUlU%3D"
    },
    {
        "domain":"dig.chouti.com",
        "expiry":1814786532,
        "httpOnly":false,
        "name":"_9755xjdesxxd_",
        "path":"/",
        "secure":false,
        "value":"32"
    },
    {
        "domain":"dig.chouti.com",
        "expiry":1814786532,
        "httpOnly":false,
        "name":"gdxidpyhxdE",
        "path":"/",
        "secure":false,
        "value":"XUz83Gg7sk4v6wKgX6oScjyLZD7IOVNSrpWzlqERCDA2o1hH1BbZYPc58ewHkCKaUMqoZyHX%2BNtoujYBmJlLnvPj1cg6yK2nlPDJDbWKGZo%2FICGr%5CLmiL2ZHNV9lEvGjnRsa%2B%5CArVE1PLTD7%2FnAD7Jbrm%2BKBV7V0IIg6eR%5CLUeRseNE6x6%3A1657106532758"
    },
    {
        "domain":"dig.chouti.com",
        "expiry":2147483647,
        "httpOnly":false,
        "name":"YD00000980905869%3AWM_TID",
        "path":"/",
        "secure":false,
        "value":"wLMI2HmPOO5FVVQAQBfUBrdKG0JzBhyT"
    },
    {
        "domain":"dig.chouti.com",
        "expiry":1688641631,
        "httpOnly":false,
        "name":"__snaker__id",
        "path":"/",
        "secure":false,
        "value":"akew1JdgZb6KMz9y"
    },
    {
        "domain":".chouti.com",
        "httpOnly":false,
        "name":"Hm_lpvt_03b2668f8e8699e91d479d62bc7630f1",
        "path":"/",
        "secure":false,
        "value":"1657105631"
    },
    {
        "domain":".chouti.com",
        "expiry":1688641631,
        "httpOnly":false,
        "name":"Hm_lvt_03b2668f8e8699e91d479d62bc7630f1",
        "path":"/",
        "secure":false,
        "value":"1657105631"
    },
    {
        "domain":"dig.chouti.com",
        "expiry":2147483647,
        "httpOnly":false,
        "name":"YD00000980905869%3AWM_NIKE",
        "path":"/",
        "secure":false,
        "value":"9ca17ae2e6ffcda170e2e6eed6e868fbf18dd8c569b4a88ba3c44e979b9facd55eedbc81a8b443ae9fa4d4d22af0fea7c3b92aac8aa388e950b79bab89f025f6ac9b84f86ff7baa094fc528288fc88aa6396aefbbab14be99fa4b1eb3f93e78697c77d8d8b9cd8b860b886ba92d4598sa29f86b5b34d94a99fa5f166a88a8190c75ef69e8ad0d03a86a7bda8f14ab6b5a1d7db6085abbc8ecb64f7a79882db5eae8eb9a8eb4e8e9afaa3b34ff29782d4d87cb7bc9b8dd837e2a3"
    },
    {
        "domain":"dig.chouti.com",
        "expiry":1688641630,
        "httpOnly":false,
        "name":"deviceId",
        "path":"/",
        "secure":false,
        "value":"web.eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJqaWQisaOiI5ZmY2Nzk5Yy04NTdlLTQ3MGYtOGMzYS0yMTY1ZTE3MDBkZGMiLCJleHBpcmUiOiIxNjU5Njk3NjMwNDQzIn0.ZxRk1tBgdJ4EZraM_AnGOxvKNl6Mgv1x7FJqCfklTTg"
    }
]

* 注意!!!

* 6. 点赞请求地址
发送请求地址: https://dig.chouti.com/link/vote

* 7. 点赞携带数据: linkId: 文章id
文章id 在div标签 或 div标签a标签的data-id属性中

* 8. 点赞成功之后返回响应

* 9. request访问抽屉网 获取所有文章div标签节点

import requests
from bs4 import BeautifulSoup
header = {

    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36'
}
res=requests.get('https://dig.chouti.com/',headers=header)
# print(res.text)
soup=BeautifulSoup(res.text,'lxml')
div_list=soup.find_all(class_='link-item')
for div in div_list:
    article_id=div.attrs.get('data-id')
    print(article_id)
    if article_id:
        data = {
            'linkId': article_id
        }
        # cookie 写入
        cookie={}
        with open('chouti.json', 'r') as f: 
            import json
            res = json.load(f)
        for item in res:
            # selenium的cookie和requests模块使用的cookie不太一样，requests只要name和value
            cookie[item['name']] = item['value']
        res = requests.post('https://dig.chouti.com/link/vote', headers=header, data=data,cookies=cookie)
        print(res.text)

2.14 京东商品信息

* 1. 获取到搜索框

* 2. 获取搜索按键 或者使用 回车按键

* 3. 获取商品信息

* 获取图片就有一直出问题, 图片链接后缀一会是.jpg, 
一会是.jpg.avif 只能拿到前四个商品的图片, 之后的都是None.
img的src数值值放在了data-lazy-img属性中

from selenium import webdriver
# 导入按键模块
from selenium.webdriver.common.keys import Keys

bro = webdriver.Chrome(executable_path='./chromedriver.exe')


def get_commodity(bro):
    # 获取商品信息
    li_list = bro.find_elements_by_class_name('gl-item')

    # 遍历商品列表
    for commodity in li_list:
        # 跳过广告, 广告的排版不一样 以下获取商品信息操作会出错
        try:
            # 商品名称 通过css类选择器查找
            name = commodity.find_element_by_css_selector('.p-name em').text
            # 商品价格
            price = commodity.find_element_by_css_selector('.p-price i').text
            # 商品链接
            url = commodity.find_element_by_css_selector('.p-img a').get_attribute('href')
            # 商品评论数
            commit = commodity.find_element_by_css_selector('.p-commit a').text

            img = commodity.find_element_by_css_selector('.p-img img').get_attribute('src')
            # img的src属性没有值则从data-lazy-img属性中取
            if not img:
                img = 'https:' + commodity.find_element_by_css_selector('.p-img img').get_attribute('data-lazy-img')

            # 去除.avif后缀
            img = img.strip('.avif')

            print(f"""
    商品名称: {name}
    商品价格: {price}
    商品链接: {url}
    商品图片: {img}
    商品评论数: {commit}
    
    """)
        except Exception:
            continue

    # 获取下一页
    next_button = bro.find_element_by_class_name('pn-next')
    import time
    time.sleep(2)
    next_button.click()

    # 递归执行, 报错则停
    get_commodity(bro)


try:
    # 爬取京东商品信息
    bro.get('https://www.jd.com/')
    # 隐式等待
    bro.implicitly_wait(10)

    # 获取搜索框
    search_input = bro.find_element_by_id('key')
    # 搜索商品
    search_input.send_keys('Python')

    # 通过回车按键搜索
    search_input.send_keys(Keys.ENTER)

    # 获取数据
    get_commodity(bro)

except Exception as e:
    print(f'出现异常: {e}')

finally:
    bro.quit()

结果:
商品名称: 零基础学Python（Python3.9全彩版）（编程入门 项目实践 同步视频）
商品价格: 69.40
商品链接: https://item.jd.com/12353915.html
商品图片: https://img10.360buyimg.com/n1/s200x200_jfs/t1/192162/30/9469/137831/60cff716E24a6f3a9/f11a344fb18010fc.jpg
商品评论数: 20万+
...

2.15 动作链

from selenium import webdriver
import time
# pillow
from PIL import Image

# 引入超级鹰

from chaojiying import Chaojiying_Client
# 导入动作链
from selenium.webdriver import ActionChains

# 生成对象
bro=webdriver.Chrome(executable_path='./chromedriver.exe')
# 隐式等待
bro.implicitly_wait(10)

try:
    bro.get('https://kyfw.12306.cn/otn/resources/login.html')
    bro.maximize_window()  # 窗口最大化，全屏
    # 获取到图片验证码位置
    button_z=bro.find_element_by_css_selector('.login-hd-account a')
    button_z.click()
    time.sleep(2)
    # 截取整个屏幕
    bro.save_screenshot('./main.png')
    # 验证码的位置和大小
    img_t=bro.find_element_by_id('J-loginImg')
    print(img_t.size)
    print(img_t.location)

    size=img_t.size
    location=img_t.location

    img_tu = (int(location['x']), int(location['y']), int(location['x'] + size['width']), int(location['y'] + size['height']))
    # 抠出验证码
    # 打开
    img = Image.open('./main.png')
    # 抠图
    fram = img.crop(img_tu)
    # 截出来的小图
    fram.save('code.png')

    # 调用超级鹰破解
    chaojiying = Chaojiying_Client('用户名', '密码', '903641')	

    im = open('code.png', 'rb').read()													
    # 本地图片文件路径 来替换 a.jpg 有时WIN系统须要//


    # 返回结果如果有多个 260,133|123，233,处理这种格式[[260,133],[123,233]]
    res=chaojiying.PostPic(im, 9004)
    print(res)
    result=res['pic_str']

    all_list = []
    if '|' in result:
        list_1 = result.split('|')
        count_1 = len(list_1)
        for i in range(count_1):
            xy_list = []
            x = int(list_1[i].split(',')[0])
            y = int(list_1[i].split(',')[1])
            xy_list.append(x)
            xy_list.append(y)
            all_list.append(xy_list)
    else:
        x = int(result.split(',')[0])
        y = int(result.split(',')[1])
        xy_list = []
        xy_list.append(x)
        xy_list.append(y)
        all_list.append(xy_list)
    print(all_list)
    # 用动作链，点击图片
    # [[260,133],[123,233]]
    for a in all_list:
        x = a[0]
        y = a[1]
        ActionChains(bro).move_to_element_with_offset(img_t, x, y).click().perform()
        time.sleep(1)

    username=bro.find_element_by_id('J-userName')
    username.send_keys('账户')
    password=bro.find_element_by_id('J-password')
    password.send_keys('密码')
    time.sleep(3)
    submit_login=bro.find_element_by_id('J-login')
    submit_login.click()
    time.sleep(3)

    print(bro.get_cookies())
    time.sleep(10)
    bro.get('https://www.12306.cn/index/')
    time.sleep(5)

except Exception as e:
    print(e)
finally:
    bro.close()

你可能感兴趣的:(9.,爬虫,爬虫,selenium,python)

Python 运用 Matplotlib 绘制动画图的流程 Python编程之道 Python人工智能与大数据 Python编程之道 python matplotlib 开发语言 ai
Python运用Matplotlib绘制动画图的流程关键词：Python、Matplotlib、动画图、绘制流程、动画原理摘要：本文详细介绍了使用Python的Matplotlib库绘制动画图的完整流程。从背景知识入手，阐述了Matplotlib动画绘制的目的和适用读者群体，接着深入剖析了核心概念，包括动画的基本原理和架构。通过核心算法原理的讲解和Python源代码示例，展示了如何实现动画绘制。同
Python Pandas 如何进行数据分组统计 Python编程之道 Python人工智能与大数据 Python编程之道 python pandas 网络 ai
PythonPandas如何进行数据分组统计关键词：PythonPandas、数据分组、groupby、聚合函数、数据透视表、数据统计、数据分析摘要：本文将深入探讨如何使用PythonPandas库进行高效的数据分组统计操作。我们将从基础概念入手，详细讲解groupby机制的原理和使用方法，介绍各种聚合函数的应用，探讨高级分组技巧，并通过实际案例展示如何解决复杂的数据分析问题。文章还将涵盖性能优化
Python可视化环境：Matplotlib_Seaborn+Conda配置 Python编程之道 Python人工智能与大数据 Python编程之道 python matplotlib conda ai
Python可视化环境：Matplotlib/Seaborn+Conda配置关键词：Python可视化、Matplotlib、Seaborn、Conda、环境配置摘要：本文主要探讨了如何利用Conda来配置Python可视化所需的Matplotlib和Seaborn环境。首先介绍了Python可视化的背景和重要性，明确目标读者为想要学习Python可视化的初学者和有一定基础的开发者。接着详细解析了
Nuitka 打包Python程序 Humbunklung 学海泛舟 python 开发语言 nuitka
文章目录Nuitka打包Python程序**一、Nuitka核心优势**⚙️**二、环境准备（Windows示例）****三、基础打包命令****单文件脚本打包****带第三方库的项目**️**四、高级配置选项****示例：完整命令**⚠️**五、常见问题与解决****六、Nuitkavs其他工具****七、最佳实践建议****八、使用举例**总结Nuitka打包Python程序需要把Python
python selenium 滚动页面到定位元素我有一个希哥 python selenium 前端
用js语句target=driver.find_element_by_id("id")driver.execute_script("arguments[0].scrollIntoView();",target)或target=WebDriverWait(driver,3).until(expected_conditions.presence_of_element_located((By.ID,"i
pythonselenium时间选择_使用pythonselenium选择特定日期（滚动日期） xu534328661
所有人我们正在尝试自动化日期选择过程以供参考Clickhere。请参考出生日期和预约日期字段。我们选择日期的方式是不同的。我不知道如何为这两个字段选择日期。你能帮帮我吗？在我已经尽了我的最大努力，它与下面的代码除了日期字段Python版本：2.7硒3.8.0铬：48倍importseleniumimportsysfromseleniumimportwebdriverfromselenium.web
python与anaconda安装（先安装了python后安装anaconda，基于python已存在的基础上安装anaconda）——逼死强迫症、超详解苹果酱0567 面试题汇总与解析 java 开发语言中间件 spring boot 后端
版权声明：本文为CSDN博主「牛斌帅」的原创文章，遵循CC4.0BY-SA版权协议，转载请附上原文出处链接及本声明。原文链接：https://blog.csdn.net/qq_43529415/article/details/100847887目录一、安装python（python3.7.4）1、下载(1)下载1(32位)(2)下载2(64位)2、安装3、配置python环境变量4、检验pytho
（转）优秀的 python 机器学习库 patrick75 python 机器学习 python 机器学习
优秀的python机器学习库IntroductionThereisnodoubtthatneuralnetworks,andmachinelearningingeneral,hasbeenoneofthehottesttopicsintechthepastfewyearsorso.It’seasytoseewhywithallofthereallyinterestinguse-casestheys
DAY 2 字符串与比较运算心落薄荷糖 Python训练营 python 算法
文章目录题目1：字符串的操作小结题目2：比较运算题目1：字符串的操作题目:定义两个字符串变量，str1赋值为“Hello”，str2赋值为“Python”。将这两个字符串拼接起来（中间加一个空格），并将结果存储在变量greeting中；计算greeting字符串的长度，存储在变量length中；获取greeting字符串的第一个字符，存储在变量first_char中。然后，使用f-string分三
python学习记录14 彤银浦学习 python
1.字符串的编码和解码不同的计算机之间在信道中传输的信息本质上是二进制数据，因此当你有一串文本需要传输给另外一台电脑时，则需要将这串文本编译为二进制类型的数据。python中的二进制数据类型称为byte类型。将字符串的str类型转变为byte类型称为字符串的编码，将byte类型转变为str类型称为字符串的解码。字符串的编码用到的是encode的方法，语法格式为：string.encode(enco
selenium元素等待及滚动条滚动测试也算程序员？ selenium python 测试工具单元测试测试用例压力测试功能测试
selenium三大等待，sleep（强制）、implicitlyWait（隐式等待）、WebDriverWait（显式等待），主要记一下最后面的WebDriverWait。WebDriverWait是三大等待中最常用也是最好用的一种等待方式，比起另外两种而言，B格更高、更智能。写法为：#WebDriverWait(driver,等待总时长,查询间隔时间).until(EC.visibility_
Python实例之十大歌手评分 *濒危物种* 算法前端 python
实例背景：十大歌手，为丰富校园文化生活，学校拟组织一场歌手大赛，从参赛选手中选拔出十名相对突出的学生，授予“校园十大歌手”称号。比赛之中设置有评委组，每名选手演唱完毕之后会由评委组的十名评委打分。为保证比赛公平公正、防止作弊和恶意打分，计算得分(即平均分)时会先去掉最高分和最低分要求实现：根据每位评委的输入分数，实现计算每位选手得分的功能。【重要步骤提示】定义列表放评委给分找出列表的最高分和最低分
如何用Python统计字符串（引用ASCII码）【两种方法】 *濒危物种* python 前端 linux
要求实现：根据输入的字符串，统计其中大写字母、小写字母、数字、字符各有多少个【重要步骤提示】0-9的ASCII数字的ASCII码值取值范围为48-57；a-z小写英文字母的取值范围为97-122；A-Z大写英文字母的取值范围为65-90；Len()、append()方法的使用ord()函数获取字符对应的ASCII码值方法一#引到用户输入字符list1=list(input('请输入一行字符：'))
Python机器学习元学习库higher 音程机器学习人工智能 python 机器学习
higher是一个用于元学习（Meta-Learning）和高阶导数（Higher-ordergradients）的Python库，专为PyTorch设计。它扩展了PyTorch的自动微分机制，使得在训练过程中可以动态地计算参数的梯度更新，并把这些更新过程纳入到更高阶的梯度计算中。一、主要用途higher主要用于以下场景：元学习（Meta-Learning）比如MAML（Model-Agnosti
Python Selenium 滚动到特定元素 Humbunklung 学海泛舟 python selenium 开发语言
文章目录PythonSelenium滚动到特定元素⚙️**1.使用`scrollIntoView()`方法（最推荐）**️**2.结合`ActionChains`移动鼠标（模拟用户行为）****3.使用坐标计算滚动（精确控制像素）**⚠️**4.处理复杂场景的进阶技巧****（1）元素在iframe中****（2）动态加载内容****（3）横向滚动****5.常见问题与解决方案****总结：根据场
Python 常用正则表达式大全朱公子的Note python 爬虫正则表达式
你是否在写Python爬虫时，总是卡在“正则提取”这一步？明明页面源码已经拿到，却怎么也匹配不到目标数据……不是提取失败，就是提取不全，搞得调试半天还抓不到核心字段？别急！今天我们就来一次**“正则一网打尽”**，专为爬虫而生的表达式宝典，让你写起爬虫来如虎添翼！在当下数据驱动时代，网络数据是企业的“金矿”，而Python爬虫则是挖掘这金矿的“利器”！从电商价格到社交媒体评论，爬虫技术让数据采集变
学校老师课堂点名管理系统带TkinterUI界面深度学习乐园 oracle 数据库
完整源码项目包获取→点击文章末尾名片！基于PythonTkinter的学生管理系统，有最基本的增删改查功能，还有随机点名、顺序点名功能##1、研究现状综述目前，在学生信息管理领域，各大高校面临的难题在于对学生信息管理的效率过低，传统的人工管理造成了资金和劳动力的浪费。因此，大部分学者研究的是针对高校的学生信息或成绩管理系统，而用python语言的也很少，其中大多用的是PyQt5模块。而且，针对低年
算法训练营|数组总结慧泽huize 数据结构算法 leetcode python c++
时间复杂度：算法执行语句的次数空间复杂度：算法在运行过程中临时占存储空间大小数组（C++）：存放在连续内存空间的相同类型固定大小的数据的集合，不能删除，只能覆盖列表（Python）：数据可以是不同类型，列表长度可变1.二分查找循环不变量原则，清楚区间定义时间复杂度：O(logn)空间复杂度：O(1)2.双指针法快指针找到新数组元素，慢指针指向新数组下标时间复杂度：O(n)空间复杂度：O(1)3.双
python正则匹配11个数字_python正则表达式re.match()匹配多个字符方法的实现小馬锅 python正则匹配11个数字
1.*表示匹配任意多个字符\d*表示匹配任意多个数字字符importretext="123h1elloworld"text1="123Helloworld456"text2="helloworld"res=re.match("\d*",text)res1=re.match("\d*",text1)res2=re.match("\d*",text2)print(res.group())print(r
基于MATLAB的资源优化与工期固定-资源均衡分析方法研究【附代码】拉勾科研工作室 matlab 开发语言
算法与建模领域的探索者|专注数据分析与智能模型设计✨擅长算法、建模、数据分析matlab、python、仿真✅具体问题可以私信或查看文章底部二维码✅感恩科研路上每一位志同道合的伙伴！（1）资源均衡优化相关理论与问题分类在现代工程项目中，资源的合理分配和使用是确保项目按时完成、成本可控的关键因素。资源均衡优化作为项目管理中的核心环节，旨在通过调整资源的使用方案，使资源消耗在整个工期内尽可能平稳，避免
医学图像增强的层级化模糊与虚拟仪器无参考质量评价研究【附代码】拉勾科研工作室计算机视觉图像处理人工智能
算法与建模领域的探索者|专注数据分析与智能模型设计✨擅长算法、建模、数据分析matlab、python、仿真✅具体问题可以私信或查看文章底部二维码✅感恩科研路上每一位志同道合的伙伴！（1）层级模糊隶属度的X光医学图像增强算法针对X光医学图像普遍存在的对比度差、细节模糊等问题，本算法提出了一种基于层级模糊隶属度的增强方法。该方法的核心思想在于利用拉普拉斯金字塔分解图像，并在多尺度下分层计算模糊隶属度
【半夜爬起来学python】零基础学习Pygame|第一期|知识点+小球反弹游戏案例奈樱. python(pygame)pygame 学习游戏 pip
一.安装PygamePygame是跨平台Python模块，很多编译器不会向用户提供该模块，需要我们自己安装。安装步骤：打开Pygame官网：www.pygame.org点击PYGAME2.6.0-25JUN,2024下载好之后，解压压缩包，安装路径最好放在c盘里Administrator文件里在菜单栏点击搜索，输入cmd，找到“命令提示符”输入命令pipinstallpygame运行的时候会发现命
【Python】Pygame从零开始学习宅男很神经 python 开发语言
模块一：Pygame入门与核心基础本模块将引导您完成Pygame的安装，并深入理解Pygame应用程序的基石——游戏循环、事件处理、Surface与Rect对象、显示控制以及颜色管理。第一章：Pygame概览与环境搭建1.1什么是Pygame？Pygame是一组专为编写视频游戏而设计的Python模块。它构建在优秀的SDL(SimpleDirectMediaLayer)库之上，允许您使用Pytho
【python】判断值是否为NaN MoFe1 python 开发语言
importmathdefis_nan(value):returnisinstance(value,float)andmath.isnan(value)#测试print(is_nan(float('nan')))#输出：Trueprint(is_nan(None))#输出：Falseprint(is_nan('abc'))#输出：False
print(3 or 5)的结果是什么？为什么？ Lauren_Lu python
print(3or5)的结果是：3原因：在Python中，or是一个逻辑运算符，但当它作用于非布尔类型（比如整数）时，它的行为是：返回第一个为真的值；如果第一个值为假，则返回第二个值。具体分析：3是一个非零整数，在布尔上下文中被视为True所以3or5就是：如果3是True，就返回3；否则返回5由于3是True，所以返回的是3。类似例子：print(0or5)#输出5，因为0被视为Falsepri
深度学习实战：基于嵌入模型的AI应用开发 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络人工智能深度学习 ai
深度学习实战：基于嵌入模型的AI应用开发关键词：嵌入模型（EmbeddingModel）、深度学习、向量空间、语义表示、AI应用开发、相似性搜索、迁移学习摘要：本文将带你从0到1掌握基于嵌入模型的AI应用开发全流程。我们会用“翻译机”“数字身份证”等生活比喻拆解嵌入模型的核心原理，结合Python代码实战（BERT/CLIP模型）演示如何将文本、图像转化为可计算的语义向量，并通过“智能客服问答”“
[python系列] 创建虚拟环境 venv en-route python virtualenv
虚拟环境定义Python中的虚拟环境是一个隔离的运行环境，旨在为每个Python项目提供独立的执行空间，支持在不同的项目中分别管理依赖关系，而不会影响到其他项目或系统的原始Python安装。可以将虚拟环境视为每个Python项目的“独立容器”，每个容器具备以下特点：拥有独立的Python解释器拥有各自独立的包管理和安装的软件包与其他虚拟环境相互隔离允许同一包存在不同版本使用虚拟环境的重要性体现在以
Python代理池的构建与应用：实现高效爬虫与防封禁策略程序员威哥 python 爬虫开发语言
在进行大规模网络数据抓取时，IP封禁是最常见的反爬虫手段之一。为了应对这一挑战，代理池成为了一个重要工具。通过构建代理池，爬虫程序可以随机切换代理IP，避免同一IP被频繁访问而导致封禁，确保数据抓取任务的稳定性和持续性。本文将详细介绍如何使用Python构建一个高效的代理池，并结合实际应用场景，讲解如何使用代理池提升爬虫的抓取能力和防封禁策略。一、代理池的工作原理代理池的基本工作原理是，爬虫请求时
Python爬虫实战：用Tushare和Baostock爬取股票历史数据及K线图与技术指标计算
在金融数据分析和量化交易中，股票历史数据的获取是进行技术分析、回测和策略研究的第一步。传统上，投资者需要依赖付费数据服务，然而如今，借助Python强大的爬虫工具和开源数据接口，我们能够轻松地爬取免费的历史股票数据，并结合K线图与技术指标来进行深入分析。Tushare和Baostock是两个非常流行的开源金融数据接口。Tushare提供了丰富的国内外金融数据，特别是A股市场的历史数据和实时数据，而
Python_计算两个省市之间的直线距离_2506 夏天里的肥宅水 PYTHON python spring 开发语言
更新代码上一版链接importpandasaspdimporttimeimportpickleimportosimportsysfromgeopy.geocodersimportNominatimfromgeopy.distanceimportgeodesicfromtqdmimporttqdm#ConfigurationINPUT_FILE=r"距离.xlsx"#输入文件路径OUTPUT_FIL
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开