不再熬夜

selenium用法

一、请求库selenium

selenium是一个自动化测试工具，而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题。操作浏览器模拟人的行为。

下载浏览器驱动：以谷歌浏览器为例---->谷歌浏览器驱动（版本号对应）

安装：pip3 install selenium

基本使用（元素定位和操作）

from selenium import webdriver
import time

# 浏览器对象，打开了谷歌浏览器
bro=webdriver.Chrome(executable_path='./chromedriver.exe')

# 在浏览器中输入一个网站并访问
bro.get('http://www.baidu.com')

# 通过id找到input输入框，往输入框中输入美女，敲回车
kw=bro.find_element_by_id('kw')
kw.clear() # 清空
kw.send_keys('美女')  # 输入
search=bro.find_element_by_css_selector('#su')
search.click() # 点击该控件

print(bro.page_source) # 加载完js后的页面内容

time.sleep(3)
bro.close()  # 关闭页面
bro.quit()  # 关闭整个浏览器

无界面浏览器

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

chrome_options = Options()

chrome_options.add_argument('window-size=1920x3000') # 指定浏览器分辨率
chrome_options.add_argument('--disable-gpu') # 谷歌文档提到需要加上这个属性来规避bug
chrome_options.add_argument('--hide-scrollbars') # 隐藏滚动条, 应对一些特殊页面
chrome_options.add_argument('blink-settings=imagesEnabled=false') # 不加载图片, 提升速度
chrome_options.add_argument('--headless') # 浏览器不提供可视化页面. linux下如果系统不支持可视化不加这条会启动失败

bro=webdriver.Chrome(executable_path='./chromedriver.exe',options=chrome_options)

# 在浏览器中输入一个网站并访问
bro.get('https://www.baidu.com')

print(bro.page_source) # 页面内容，加载完js后

bro.close()

获取元素位置、属性、大小

from selenium import webdriver
import base64

bro = webdriver.Chrome(executable_path='./chromedriver.exe')

bro.get('https://kyfw.12306.cn/otn/resources/login.html')
driver.implicitly_wait(10)

user_login=driver.find_element_by_css_selector('.login-hd-account>a')
user_login.click()
time.sleep(2)

img = bro.find_element_by_id('J-qrImg')

print(img.id)    # selenium提供的id，忽略
print(img.tag_name) # 标签名

print('-----')  # 后续根据位置和大小把图截出来，一般是验证码，破解，自动输入
print(img.location) # img标签的位置
print(img.size)     # img标签大小

# 获取属性
src=img.get_attribute('src')
res=base64.b64decode(src.split(',')[-1])
with open('扫描.png','wb') as f:
    f.write(res)

隐式、显式等待
显式等待：指定某个标签等待时间，写起来复杂用的少

wait=WebDriverWait(driver,10)
wait.until(EC.presence_of_element_located((By.ID,'content_left')))
contents=browser.find_element(By.CSS_SELECTOR,'#content_left')

隐式等待：只要代码中要去找某一个标签，如果没有加载出来，就会等待设置的固定时间（秒）

# 只需要写一句话，等待所有要获取的标签
driver.implicitly_wait(10)
driver.find_element_by_css_selector()

示例：

from selenium import webdriver
import time

bro=webdriver.Chrome(executable_path='./chromedriver.exe')

# 隐式等待，等所有---->只要代码中要去找某一个标签，如果没有加载出来，就会等待10s
# 再找控件，只要没加载成功，就会等待，最多等10s
bro.implicitly_wait(10)

# 显式等待，指定某个标签等待，写起来复杂用的少
bro.get('http://www.baidu.com')

# 找到页面中登录按钮
# login_btn=bro.find_element_by_css_selector('#s-top-loginbtn')  #  css 选择器
# login_btn=bro.find_element_by_xpath('//*[@id="s-top-loginbtn"]')  #  xpath 选择器

# 自带的
# login_btn=bro.find_element_by_id('s-top-loginbtn')  #  selenium自带的选择器
login_btn=bro.find_element_by_link_text('登录')  #  selenium自带的选择器,通过a标签内容
# login_btn=bro.find_element_by_partial_link_text('录') # selenium自带的选择器,通过a标签内容模糊

# login_btn=bro.find_elements_by_class_name() # selenium自带的选择器,通过类名
# login_btn=bro.find_elements_by_name() # selenium自带的选择器,通过name属性
# login_btn=bro.find_elements_by_tag_name() # selenium自带的选择器,通过标签名

# 点击登录按钮
login_btn.click()

# 找到用户名框
name=bro.find_element_by_id('TANGRAM__PSP_11__userName')
password=bro.find_element_by_id('TANGRAM__PSP_11__password')
name.send_keys('[email protected]')
password.send_keys('xxx')

submit=bro.find_element_by_id('TANGRAM__PSP_11__submit')
# 找到密码框
time.sleep(3)

submit.click()

time.sleep(3)

bro.close()

执行js

from selenium import webdriver
import time

bro=webdriver.Chrome(executable_path='./chromedriver.exe')
bro.implicitly_wait(10)

bro.get('http://www.baidu.com')

# bro.execute_script('console.log(vm)')
# bro.execute_script('alert(1)')
bro.execute_script('alert(document.cookie)')  # 这里面写js代码

time.sleep(3)
bro.close()

切换选项卡

import time
from selenium import webdriver

browser=webdriver.Chrome(executable_path='./chromedriver.exe')
browser.get('https://www.baidu.com')

browser.execute_script('window.open()')  # 执行js代码，查找一个已经存在的或新建的浏览器窗口

print(browser.window_handles) # 获取所有的选项卡

# 选择选项卡
# browser.switch_to_window(browser.window_handles[1])
browser.switch_to.window(browser.window_handles[1])
browser.get('https://www.taobao.com')
time.sleep(3)

browser.switch_to_window(browser.window_handles[0])
browser.get('https://www.sina.com.cn')

browser.close()
browser.quit()  # 关闭整个浏览器

模拟前进后退

import time
from selenium import webdriver

browser = webdriver.Chrome(executable_path='./chromedriver.exe')

browser.get('https://www.baidu.com')
browser.get('https://www.taobao.com')
browser.get('http://www.sina.com.cn/')

# 后退
browser.back()
time.sleep(2)
# 前进
browser.forward()
browser.close()

异常处理

from selenium import webdriver
from selenium.common.exceptions import TimeoutException, NoSuchElementException, NoSuchFrameException

browser = webdriver.Chrome()
try:
    browser.get('http://www.baidu.com')
except Exception as e:
    print(e)
finally:
    browser.close()

动作链

from selenium import webdriver
from selenium.webdriver.support.wait import WebDriverWait  # 等待页面加载某些元素
import time
from selenium.webdriver import ActionChains

driver = webdriver.Chrome()
driver.get('http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable')
wait=WebDriverWait(driver,3)
try:
    driver.switch_to.frame('iframeResult') # 切换到iframeResult
    sourse=driver.find_element_by_id('draggable')
    target=driver.find_element_by_id('droppable')

    actions=ActionChains(driver) # 拿到动作链对象
    actions.drag_and_drop(sourse,target) # 把动作放到动作链中，准备串行执行
    actions.perform()  # 释放鼠标让动作生效
    time.sleep(2)
finally:
    driver.close()

示例：
12306的滑动

from selenium import webdriver
from selenium.webdriver.support.wait import WebDriverWait  # 等待页面加载某些元素
import time
from selenium.webdriver import ActionChains

from selenium.webdriver.chrome.options import Options

# 防止前端检测出我们是通过自动化软件控制的
options = Options()
options.add_argument("--disable-blink-features=AutomationControlled")
driver = webdriver.Chrome(executable_path='./chromedriver.exe', chrome_options=options)

# driver = webdriver.Chrome()
driver.get('https://kyfw.12306.cn/otn/resources/login.html')

wait = WebDriverWait(driver, 3)

try:
    username_login = driver.find_element_by_link_text('账号登录')
    username_login.click()

    username = driver.find_element_by_id('J-userName')
    password = driver.find_element_by_id('J-password')
    username.send_keys('xxxxxxxxxxx')
    password.send_keys('xxx')
    time.sleep(2)
    submit = driver.find_element_by_id('J-login')
    submit.click()
    time.sleep(5)

    hk = driver.find_element_by_id('nc_1_n1z')

    actions = ActionChains(driver)  # 拿到动作链对象
    actions.drag_and_drop_by_offset(hk, 300, 0)
    actions.perform()
    time.sleep(50)
finally:
    driver.close()

注：
滑块验证，前端会判断是机器还是人工操作（window.navigator.webdriver==true），防止检测出我们是通过自动化软件控制的，需配置options.add_argument("--disable-blink-features=AutomationControlled")。

selenium登录cnblogs获取cookie
为了登录到某个网站，拿到cookie，使用selenium速度慢，使用requests发送请求。
半自动登录到cnblogs，拿到cookie，保存到本地；下次，在打开页面把cookie写入浏览器就是登录状态。

import time
from selenium import webdriver

driver = webdriver.Chrome()
driver.implicitly_wait(10)

###########  登录过程  ###########
# try:
#     driver.get('https://www.cnblogs.com/')
#
#     # 找到登录，点击
#     login = driver.find_element_by_css_selector('#navbar_login_status > a:nth-child(6)')
#     login.click()
#     username = driver.find_element_by_id('mat-input-0')
#     password = driver.find_element_by_id('mat-input-1')
#     username.send_keys('[email protected]')
#     password.send_keys('xxx')
#
#     input('手动输入用户名密码')
#
#     summit = driver.find_element_by_css_selector(
#         'body > app-root > mat-sidenav-container > mat-sidenav-content > div > div > app-sign-in > app-content-container > div > div > div > form > div > button')
#     summit.click()
#
#     # 验证码（自动破解、手动破解）
#     input('已经破解了验证码，敲回车')
#
#     # 获取cookie
#     print(type(driver.get_cookies()))
#
#     # 把cookie保存到文件中
#     import json
#
#     with open('cnblogs.json', 'w', encoding='utf-8') as f:
#         f.write(json.dumps(driver.get_cookies()))
#
#     time.sleep(5)
#
# except Exception as e:
#     print(e)
#
# finally:
#     driver.close()


# 不登录，使用代码把cookie写入浏览器
import json

driver.get('https://www.cnblogs.com/')
# 把cookie写入浏览器
with open('../cnblogs.json', 'r', encoding='utf-8') as f:
    cookies = json.loads(f.read())

for cookie in cookies:  # cookie的json文件是列表形式，套字典，放一个个字典，所以用循环往里放
    driver.add_cookie(cookie)

# 刷新一下页面
driver.refresh()

time.sleep(10)
driver.close()

抽屉半自动点赞
selenium登录拿到cookie，再使用requests携带cookie发送请求。

from selenium import webdriver
import json
import time

#### 登录过程 ####
# bro=webdriver.Chrome(executable_path='chromedriver.exe')
# bro.implicitly_wait(10)
# bro.get('https://dig.chouti.com/')
# try:
#     sub_btn=bro.find_element_by_id('login_btn')
#     print(sub_btn)
#
#     # sub_btn.click()  # 报错
#     bro.execute_script('arguments[0].click();',sub_btn)  # 拿到控件，通过执行js代码，让js去执行点击
#
#     # username=bro.find_element_by_css_selector('body > div.login-dialog.dialog.animated2.scaleIn > div > div.login-body > div.form-item.login-item.clearfix.phone-item.mt24 > div.input-item.input-item-short.left.clearfix > input')
#     username=bro.find_element_by_css_selector('div.input-item>input.login-phone')
#     username.send_keys('18953675221')
#     # password=bro.find_element_by_css_selector('body > div.login-dialog.dialog.animated2.scaleIn > div > div.login-footer > div.form-item.login-item.clearfix.mt24 > div')
#     password = bro.find_element_by_css_selector('div.input-item>input.pwd-password-input')
#     password.send_keys('lqz123')
#
#     time.sleep(3)
#     btn=bro.find_element_by_css_selector('body > div.login-dialog.dialog.animated2.scaleIn > div > div.login-footer > div:nth-child(4) > button')
#
#     btn.click()
#
#     input('等')
#
#     with open('chouti.json','w') as f:
#         json.dump(bro.get_cookies(),f)
#
# finally:
#     bro.close()


#### 点赞过程 ####
import requests

bro = webdriver.Chrome(executable_path='chromedriver.exe')
bro.implicitly_wait(10)
bro.get('https://dig.chouti.com/')

# 使用把屏幕滑倒最底下，如果有加载，就加载完成了
bro.execute_script('window.scrollTo(0, document.body.scrollHeight);')
# bro.find_elements_by_css_selector('.link-item')
cookie = {}

## 从文件中读出cookie
with open('../chouti.json', 'r') as f:
    res = json.load(f)

# 这是requests使用的cookie
for item in res:
    cookie[item['name']] = item['value']
print(cookie)  # requests能够使用的cookie

div = bro.find_element_by_class_name('link-con')
time.sleep(2)
header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36'
}
div_list = div.find_elements_by_class_name('link-item')
for div in div_list:
    article_id = div.get_attribute('data-id')
    print(article_id)
    # 使用requests发送请求
    res = requests.post('https://dig.chouti.com/link/vote', data={'linkId': article_id}, cookies=cookie, headers=header)
    print(res.text)
bro.close()

二、打码平台使用

验证码种类：

简单的字母数字的---->验证码截图出来---->图像识别（OCR识别)---->数字字母
12306之前的，找出符合的图片
滑动验证
计算类…

验证码破解：

人工破解
自动破解
打码平台（验证码破解平台，成功率没有100%）---->云打码、超级鹰等---->给它一张图片，识别后返回结果（收费的）

超级鹰的使用：
下载源代码
输入账号密码、软件ID、验证码类型、上传图片，发送请求即可识别。

#!/usr/bin/env python
# coding:utf-8

import requests
from hashlib import md5


class Chaojiying_Client(object):

    def __init__(self, username, password, soft_id):
        self.username = username
        password = password.encode('utf8')
        self.password = md5(password).hexdigest()
        self.soft_id = soft_id
        self.base_params = {
            'user': self.username,
            'pass2': self.password,
            'softid': self.soft_id,
        }
        self.headers = {
            'Connection': 'Keep-Alive',
            'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)',
        }

    def PostPic(self, im, codetype):
        """
        im: 图片字节
        codetype: 题目类型 参考 http://www.chaojiying.com/price.html
        """
        params = {
            'codetype': codetype,
        }
        params.update(self.base_params)
        files = {'userfile': ('ccc.jpg', im)}
        r = requests.post('http://upload.chaojiying.net/Upload/Processing.php', data=params, files=files,
                          headers=self.headers)
        return r.json()

    def ReportError(self, im_id):
        """
        im_id:报错题目的图片ID
        """
        params = {
            'id': im_id,
        }
        params.update(self.base_params)
        r = requests.post('http://upload.chaojiying.net/Upload/ReportError.php', data=params, headers=self.headers)
        return r.json()


if __name__ == '__main__':

    # res=requests.get('https://api.django-vue-admin.com/admin/captcha/image/1784cd5088e40cd3fb97f811ea8bd49befd646f7/')
    # with open('js.png','wb') as f:
    #     f.write(res.content)


    chaojiying = Chaojiying_Client('xxx', 'xxx', '903641')  # 账号 密码 用户中心>>>软件ID 生成一个替换 96001
    im = open('js.png', 'rb').read()
    print(chaojiying.PostPic(im, 6001))

注：账号需充值积分，才可以使用。

三、xpath使用

一门在html中查找数据的语言。

记住的语法：

/   取当前路径下的xx  # 从当前标签下找 /body/a/img
//  取所有路径下的xx  # 从当前标签的子子孙孙找 //a
标签名字 # //p
.   当前路径  # ./p .//p
..  上一层  # //body//a[1]/..     
@   取属性  # //a[@href="image.html"]

示例：

doc = '''

 
  
  Example website
 
 
  
   Name: My image 1 

   Name: My image 2 

   Name: My image 3 

   Name: My image 4 

   Name: My image 5 

   testName: My image 6 

  
 

'''

# 以lxml模块为例
from lxml import etree

html = etree.HTML(doc)  # 要解析的字符串（html）
# 如果是文件，使用贡献
# html=etree.parse('search.html',etree.HTMLParser())

# 1 所有节点
a=html.xpath('//*')
a=html.xpath('/*')

# 2 指定节点（结果为列表）
a=html.xpath('//head')  # 找出所有的head标签

# 3 子节点，子孙节点
a=html.xpath('//div/a')
a=html.xpath('//body/a') #无数据
a=html.xpath('//body//a')

# 4 父节点
a=html.xpath('//body//a[@href="image1.html"]/..')
# a=html.xpath('//body//a[1]/..')  # 第一个a标签
a=html.xpath('//a[1]')  # 第一个a标签
# 也可以这样
a=html.xpath('//body//a[1]/parent::*')

# 5 属性匹配
a=html.xpath('//body//a[@href="image1.html"]')
a=html.xpath('//a[@href="image1.html"]')

a=html.xpath('//base[@href="http://example.com/"]')
a=html.xpath('//*[@href="http://example.com/"]')

# 6 文本获取
a=html.xpath('//body//a[@href="image1.html"]/text()')
a=html.xpath('//a/text()')

# 7 属性获取
a=html.xpath('//body//a/@href')
a=html.xpath('//body//a[1]/@xx')
# # 注意从1 开始取（不是从0）
a=html.xpath('//body//a[1]/@href')

# 8 属性多值匹配
# a标签有多个class类，直接匹配就不可以了，需要用contains
a=html.xpath('//body//a[@class="li"]')

a=html.xpath('//body//a[contains(@class,"li")]')

a=html.xpath('//body//a[contains(@class,"li")]/text()')

# 9 多属性匹配
a=html.xpath('//body//a[contains(@class,"li") or @name="items"]')
a=html.xpath('//body//a[contains(@class,"li") and @name="items"]/text()')
a=html.xpath('//body//a[contains(@class,"li")]/text()')

# 10 按序选择
a=html.xpath('//a[2]/text()')
a=html.xpath('//a[2]/@href')
a=html.xpath('//a/@href[contains(@class,"vervideo-lilink")]/@href')
# 取最后一个
a=html.xpath('//a[last()]/@href')
# 位置小于3的
a=html.xpath('//a[position()<3]/@href')
# 倒数第二个
a=html.xpath('//a[last()-2]/@href')

# 11 节点轴选择
# ancestor：祖先节点
# 使用了* 获取所有祖先节点
a=html.xpath('//a/ancestor::*')
a=html.xpath('//a/ancestor::div')
# # 获取祖先节点中的div
a=html.xpath('//a/ancestor::div')
# attribute：属性值
a=html.xpath('//a[1]/attribute::*')
# child：直接子节点
a=html.xpath('//a[1]/child::*')
a=html.xpath('//a[1]/child::img')
# descendant：所有子孙节点
a=html.xpath('//a[6]/descendant::*')

# following:当前节点之后所有节点
a=html.xpath('//a[1]/following::*')
a=html.xpath('//a[1]/following::*[1]/@href')

# following-sibling:当前节点之后同级节点
a=html.xpath('//a[1]/following-sibling::*')
a=html.xpath('//a[1]/following-sibling::a')
a=html.xpath('//a[1]/following-sibling::*[2]')
a = html.xpath('//a[1]/following-sibling::*[2]/@href')

print(a)

总结：
selenium：

只要人能做的，都可以使用代码实现
隐式，显式等待
模拟前进后退
切换选项卡
执行js
异常处理
动作链：模拟点击，拖拽行为
自动登录12306（前端能够检测到是否使用了selenium）
获取登录的cookie
继续使用selenium：add_cookie
使用requests携带cookie
抽屉半自动点赞

xpath语法：
lxml为例（lxml是解析器），bs4、re、selenium自带的、lxml这些都有xpath、css。

/
//
.
..
标签名
*
[@属性名='属性值']
类的话：有多个

打码平台：

花点钱破解验证码
原理：平台提供了接口，使用http传递图片给它，它给你破解，返回破解后的数据
本质用了requests模块
字母和数字：图像识别---->ocr技术
复杂的：人工

《Python入门+Python爬虫》——6Day 数据库可视化——Flask框架应用不摆烂的小劉 python python flask 爬虫
Python学习版本:Python3.X观看：Python入门+Python爬虫+Python数据分析1.Flask入门1.1关于Flask1.1.1了解框架Flask作为Web框架，它的作用主要是为了开发Web应用程序。那么我们首先来了解下Web应用程序。Web应用程序(WorldWideWeb)诞生最初的目的，是为了利用互联网交流工作文档。一切从客户端发起请求开始。所有Flask程序都必须创建
python爬虫项目（一百九十八）：电商平台用户行为数据分析与推荐系统、爬取电商平台用户行为数据人工智能_SYBH 爬虫试读 2025年爬虫百篇实战宝典:从入门到精通 python 爬虫数据分析开发语言信息可视化 okhttp
在现代电商平台中，用户的行为数据对于优化用户体验、提升销量以及个性化推荐至关重要。通过抓取和分析用户的浏览、点击、购买等行为数据，电商平台能够更好地了解用户的偏好，从而推荐相关产品，增加用户的黏性和购买意愿。本篇博客将详细介绍如何通过爬虫技术抓取电商平台的用户行为数据，并结合数据分析和推荐算法，构建一个简单的推荐系统。目录一、电商平台用户行为数据二、爬虫技术实现2.1网站分析2.2使用Seleni
爬虫学习第六篇轻松搞定网络请求笨鸟笃行 python学习爬虫学习 python
嘿，小伙伴们！今天咱们来聊聊用Python进行网络请求，这是爬虫学习的敲门砖哦。别怕，跟着我一步步来，保证让你轻松上手！（一）安装requests模块首先，得把requests模块装上。看过上一篇的小伙伴应该都搞定了吧，这玩意儿超好用，能帮我们轻松发起网络请求。如果没搞定的，跟着我重新安装一遍，在vscode的终端里输入pipinstallrequests，回车，搞定！就像给手机装了个APP一样简
爬虫学习第一篇（认识爬虫流程和使用工具）笨鸟笃行 python学习爬虫学习
认识爬虫什么是爬虫？爬虫听着好像是一个什么虫子的名字，其实爬虫是一个自动化请求网站并提取数据的程序，简单理解即是一个自动化爬取数据的脚本例如以下就是一个十分简单的爬虫代码（不过这个代码不适用于所有网页，只能爬取一些没有限制的网站）importrequests#导入请求库url=""#输入爬取内容的地址res=requests.get(url)#发送请求到url这个地址print(res.statu
爬虫第二篇（网络通信之发送请求）笨鸟笃行 python学习爬虫
发起请求请求的组成部分1.请求方式（get，post等）2.请求url（目标的url）3.请求头（一般需要包含user-agent，referer，cookie）4.请求体（主要应用于post请求，post请求的参数在请求体内，get参数一般在url里面）请求方式GET请求1.定义GET请求是HTTP协议中最常见的请求方法之一，用于从服务器获取资源。它通过URL地址来请求数据，通常用于获取网页内容
Python爬虫实战（一）：翻页爬取数据存入SqlServer_python爬虫翻页 2401_84563438 程序员 python 爬虫 sqlserver
print(str(e))#关闭游标，断开数据库cursor.close()db.close()#实现主要逻辑defrun(self):fortype_numinrange(1,46):#1.拼接网页获取每个类别的页数pageurl=self.baseurl%(1,type_num)html_str=self.parse_url(url)page=self.get_page_num(html_st
Java练习题，随机生成四位验证码宝耶 java 开发语言
packagelianxibao;importjava.util.Random;publicclasslianxilei{publicstaticvoidmain(String[]args){char[]chs=newchar[52];for(inti=0;i
如何使用Python爬虫实时获取股票行情数据并进行分析：完整教程 Python爬虫项目 2025年爬虫实战项目爬虫 python 开发语言信息可视化 c++
前言在金融领域，股票行情的实时获取和分析是投资决策中至关重要的一环。借助Python的强大生态系统，结合爬虫技术和数据分析库，投资者可以实时获取股票行情数据，并通过各种算法和模型进行深入分析。本教程将从零开始，带你深入学习如何使用Python爬取股票行情数据并进行分析。一、爬虫技术概述爬虫是从网络上自动提取信息的程序，它可以帮助我们获取互联网数据。在股票分析中，爬虫技术的应用非常广泛，尤其是通过A
python爬虫爬取图片 kanguhong python 爬虫开发语言
"""爬取目标：https://pic.netbian.com/彼岸图首页地址：https://pic.netbian.com/4kmeinv/第N页：https://pic.netbian.com/4kmeinv/index_N.htmlhttps://pic.netbian.com/uploads/allimg/240709/194631-1720525591a682.jpg仅供学习，不可用于
阿里云服务器的作用腾云服务器阿里云服务器云计算
使用阿里云服务器能做什么？大家都知道可以用来搭建网站、数据库、机器学习、Python爬虫、大数据分析等应用，阿里云服务器网来详细说下使用阿里云服务器常见的玩法以及企业或个人用户常见的使用场景：玩转阿里云服务器使用阿里云服务器最常见的应用就是用来搭建网站，例如个人博客、企业网站等；除了搭建网站还可以利用阿里云GPU服务器搭建机器学习和深度学习等AI应用；使用阿里云大数据类型云服务器做数据分析；利用云
爬虫获取阿里巴巴 item_search 接口：根据关键字获取在售商品数据 Jelena15779585792 孔夫子API 爬虫
在电商领域，快速准确地获取商品信息对于市场分析、选品策略、库存管理以及价格监控等场景至关重要。阿里巴巴开放平台提供的item_search接口允许开发者通过关键字搜索在售商品，并获取相关商品的详细信息。本文将详细介绍如何使用爬虫技术调用item_search接口，获取在售商品数据，并提供完整的开发指南和代码示例。一、接口概述item_search是阿里巴巴开放平台提供的一个API接口，允许开发者通
Python爬虫获取item_search_img-按图搜索淘宝商品（拍立淘）接口 Jelena15779585792 API python 爬虫图搜索算法
一、引言随着电商行业的不断发展，消费者对商品搜索的效率和准确性要求越来越高。淘宝作为国内领先的电商平台，推出了按图搜索商品的功能（拍立淘），极大地提升了用户的购物体验。本文将详细介绍如何使用淘宝按图搜索商品的API接口（item_search_img），包括注册账号、上传图片、调用接口及解析响应等步骤。二、注册账号与获取API密钥注册淘宝开放平台账号要使用淘宝的按图搜索功能，首先需要在淘宝开放平台
使用Python爬虫获取淘宝搜索词推荐API接口 Jelena15779585792 淘宝API Python python 爬虫开发语言
在电商领域，搜索词推荐功能对于优化用户体验和提升搜索效率至关重要。淘宝作为国内领先的电商平台，提供了丰富的API接口，其中item_search_suggest接口可以获取搜索词推荐。本文将详细介绍如何使用Python爬虫技术调用该API接口，并获取搜索词推荐信息。一、概述淘宝的item_search_suggestAPI接口允许开发者根据提供的搜索关键字或其他相关条件，返回与搜索词相关的推荐词组
使用 Python 爬虫抓取电商平台特定商品库存与销售数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言信息可视化自动化
一、引言随着电子商务的蓬勃发展，库存和销售数据已经成为商家、供应链管理者和市场分析师的重要参考。对于电商平台而言，实时获取商品库存、销量以及价格等信息，能够帮助商家及时调整策略、优化存货管理、做出销售预测。因此，抓取这些电商平台上的商品数据变得至关重要。本文将详细介绍如何使用Python编写爬虫，抓取电商平台（如淘宝、京东、亚马逊等）上特定商品的库存、销售数据。我们将结合最新技术，使用Reques
使用Python爬虫抓取并分析电商网站销量数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 selenium
目录：前言爬虫基础概念什么是Web爬虫爬虫的工作原理Python爬虫库介绍准备工作安装所需的库选择目标电商网站分析目标电商网站使用浏览器开发者工具分析页面结构识别需要抓取的销量数据构建爬虫程序使用requests获取网页使用BeautifulSoup解析静态网页使用Selenium抓取动态页面防止反爬虫技术模拟浏览器请求使用代理池随机延迟请求抓取电商网站的销量数据抓取商品标题、销量、价格等信息处理
【Python爬虫(67)】Python爬虫实战：探秘旅游网站数据宝藏奔跑吧邓邓子 Python爬虫 python 爬虫开发语言旅游网站
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、引言二、爬虫前期准备2.1目标网站分析2.2技术栈选择2.3环
【Python爬虫(81)】当量子计算邂逅Python爬虫：一场技术变革的预演奔跑吧邓邓子 Python爬虫量子计算 python 爬虫开发语言
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、量子计算：崭露头角的技术新星1.1量子计算的基本原理1.2发展
【Python爬虫(100)】从当下到未来：Python爬虫技术的进阶之路奔跑吧邓邓子 Python爬虫 python 爬虫开发语言未来发展
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、爬虫技术发展现状与瓶颈1.1爬虫技术发展现状1.2爬虫技术瓶颈
【Python爬虫(88)】当Python爬虫邂逅智能硬件：解锁数据新玩法奔跑吧邓邓子 Python爬虫 python 爬虫智能硬件开发语言
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、引言二、智能硬件的数据采集需求剖析2.1智能音箱的数据采集需求
【Python爬虫(98)】从数据抓取到产业变革：爬虫技术的跨界融合与生态进化奔跑吧邓邓子 Python爬虫 python 爬虫开发语言产业融合生态
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、引言二、爬虫技术在新兴产业中的深度融合2.1智能医疗领域的应用
【数据分析】4 商业数据分析技能模型总结 loyd3 数据分析数据分析数据挖掘
优秀的商业分析师需要具备的能力数据分析能力逻辑思维能力赢得结果能力一、数据分析能力扩展：工具链生态与进阶场景1.数据获取技术升级企业级数据源管理：数据湖架构（AWSS3/阿里云OSS）与数据仓库（Snowflake/Redshift）权限管理API自动化采集（Postman+PythonRequests模块）反爬虫策略突破（IP代理池/Selenium模拟登录）新兴数据源拓展：社交舆情数据（Twi
Python 网络爬虫入门全知道安年CJ Python python 爬虫开发语言运维 php 服务器
一、引言在当今数字化时代，网络上的数据量呈爆炸式增长。无论是进行数据分析、市场调研，还是开发智能应用，获取网络数据都变得极为重要。而Python网络爬虫就是一把打开网络数据宝库的利器。它能够自动地从网页中抓取我们需要的信息，为后续的数据处理和分析提供丰富的素材。本博客将带领大家逐步走进Python网络爬虫的精彩世界。二、网络爬虫基础概念（一）什么是网络爬虫网络爬虫，也称为网页蜘蛛，是一种按照一定的
【2025年07期免费获取股票数据API接口】实例演示五种主流语言获取股票行情api接口之沪深A股历史分时KDJ数据获取实例演示及接口API说明文档不会写代码的码农农 python java 开发语言大数据
在近一至两年期间，股票量化分析逐步成为备受关注的热门议题。对于投身于该领域工作而言，首要步骤便是获取全面且精准的股票数据。无论是实时交易数据、历史交易记录、财务数据，亦或是基本面信息，这些数据均是开展量化分析过程中不可或缺的宝贵资源。我们的核心任务在于从这些数据中提炼出具有价值的信息，从而为投资策略提供坚实有力的指导。在数据探索进程中，我尝试运用了多种方法，涵盖自编网易股票页面爬虫程序、申万行业数
Python网络安全脚本网络安全Ash python web安全开发语言
点击文末小卡片，免费获取网络安全全套资料，资料在手，涨薪更快前言睡不着，那就起来学习其实base64模块很早之前用过今天做爬虫的时候有个URL需要用它来编码一下所以百度又学了一下遇到最大的问题就是python3和python2区别问题python3的这个不支持直接上字符串纠结了好久。base64编码Base64是网络上最常见的用于传输8Bit字节代码的编码方式之一，大家可以查看RFC2045~RF
selenium浏览器下载汇总 gallonyin RPA selenium 测试工具
chromedriver官网：https://googlechromelabs.github.io/chrome-for-testing/下载chromewin64位：https://storage.googleapis.com/chrome-for-testing-public/131.0.6778.85/win64/chrome-win64.zip下载chromedriverwin64位：ht
selenium 调用chrome driver 报错 feelxing selenium selenium chrome chrome driver
一、配置Systeminfo:host:'MEV-PC',ip:'192.168.1.2',os.name:'Windows7',os.arch:'amd64',os.version:'6.1',java.version:'1.8.0_112'chromedrivert2.9selenium-java版本3.31二、运行代码三、错误Exceptioninthread"main"org.openqa
‌XPath vs CSS Selector 深度对比 test猿 css 前端
‌核心差异总览‌‌对比维度‌‌XPath‌‌CSSSelector‌‌语法复杂度‌较高（需路径表达式）简洁（类似前端开发习惯）‌性能‌较慢（全局遍历）更快（浏览器原生优化）‌文本匹配‌✅支持（contains(text(),'abc')）❌不支持‌轴定位‌✅支持（父级、兄弟等）❌仅支持直接层级（>、+等）‌动态属性处理‌✅灵活（starts-with()等函数）✅有限（^=、$=等部分匹配）‌伪类
Selenium按文本查找元素全解析 test猿 selenium 测试工具
以下方法基于Python语言实现，适用于最新版Selenium4.15+，建议收藏备用！‌方法一：XPath文本定位‌pythonCopyCode#精确匹配文本（全字符匹配）element=driver.find_element(By.XPATH,'//*[text()="完整文本内容"]')#部分匹配文本（包含指定字符串）element=driver.find_element(By.XPATH,
支持selenium的chrome driver更新到133.0.6943.126 代码的乐趣 selenium chrome python
最近chrome释放新版本：133.0.6943.126如果运行selenium自动化测试出现以下问题，是需要升级chromedriver才可以解决的。selenium.common.exceptions.SessionNotCreatedException:Message:sessionnotcreated:ThisversionofChromeDriveronlysupportsChromev
支持selenium的chrome driver更新到133.0.6943.98 代码的乐趣 selenium chrome python
最近chrome释放新版本：133.0.6943.98如果运行selenium自动化测试出现以下问题，是需要升级chromedriver才可以解决的。selenium.common.exceptions.SessionNotCreatedException:Message:sessionnotcreated:ThisversionofChromeDriveronlysupportsChromeve
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S

selenium用法

一、请求库selenium

二、打码平台使用

三、xpath使用

test

你可能感兴趣的:(爬虫,selenium,xpath,验证码)