Johnny丶me

Python笔记：Selenium库的使用以及结合Scrapy框架的操作案例

Selenium库的介绍

Selenium是一个自动化测试工具，利用它可以驱动浏览器执行特定的动作，如点击，下拉，等操作
Selenium可以获取浏览器当前呈现的页面源代码，做到可见既可爬，对应JavaScript动态渲染的信息爬取非常有效
官方网址：http://www.seleniumhq.org
官方文档：http://selenium-python.readthedocs.io
中文文档：http://selenium-python-zh.readthedocs.io
安装：$ pip3 install selenium (注：此处是默认mac下的python3环境执行的命令)
Selenium支持非常多的浏览器，如Chrome、Firefox、Edge等，还支持无界面浏览器PhantomJS
ChromeDriver浏览器驱动的安装：（注意浏览器版本：）
- 首先查看当前谷歌Chrome浏览器的版本，再到下面网址下载, 注意查看对应的版本信息
- 网址：https://chromedriver.storage.googleapis.com/index.html
- Windows安装：将解压的文件：chromedriver.exe 放置到Python的Scripts目录下
- Mac/Linux安装：将解压的文件：chromedriver 放置到/usr/local/bin/目录下
- PhantomJS驱动的下载地址：http://phantomjs.org/download.html

动态渲染页面爬取

对于访问Web时直接响应的数据（就是response内容可见），我们使用urllib、requests或Scrapy框架爬取
对应一般的JavaScript动态渲染的页面信息（Ajax加载），我们可以通过分析Ajax请求来抓取信息
即使通过Ajax获取数据，但还有会部分加密参数，后期经过JavaScript计算生成内容，导致我们难以直接找到规律，如淘宝页面，58同城部分信息
为了解决这些问题，我们可以直接使用模拟浏览器运行的方式来实现信息获取
除了Selenium之外在Python中有许多模拟浏览器运行库，如：Splash、PyV8、Ghost等

Selenium的使用

1 ) 模拟谷歌浏览器访问百度首页，并输入python关键字搜索

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait

#初始化一个浏览器（如：谷歌，使用Chrome需安装chromedriver）
driver = webdriver.Chrome()
#driver = webdriver.PhantomJS() #无界面浏览器
try:
    #请求网页
    driver.get("https://www.baidu.com")
    #查找id值为kw的节点对象（搜索输入框）
    input = driver.find_element_by_id("kw")
    #模拟键盘输入字串内容
    input.send_keys("python")
    #模拟键盘点击回车键
    input.send_keys(Keys.ENTER)
    #显式等待,最长10秒
    wait = WebDriverWait(driver,10)
    #等待条件：10秒内必须有个id属性值为content_left的节点加载出来，否则抛异常。
    wait.until(EC.presence_of_element_located((By.ID,'content_left')))
    # 输出响应信息
    print(driver.current_url)
    print(driver.get_cookies())
    print(driver.page_source)
finally:
    #关闭浏览器
    #driver.close()
    pass

2 ) 声明浏览器对象

from selenium import webdriver

driver = webdriver.Chrome()  #谷歌 需：ChromeDriver驱动
driver = webdriver.FireFox() #火狐 需：GeckoDriver驱动
driver = webdriver.Edge()  
driver = webdriver.Safari()  
driver = webdriver.PhantomJS() #无界面浏览器

3 ) 访问页面

from selenium import webdriver

driver = webdriver.Chrome()
#driver = webdriver.PhantomJS()
driver.get("http://www.taobao.com")
print(driver.page_source)
#driver.close()

4 ) 查找节点

获取单个节点的方法：

find_element_by_id()
find_element_by_name()
find_element_by_xpath()
find_element_by_link_text()
find_element_by_partial_link_text()
find_element_by_tag_name()
find_element_by_class_name()
find_element_by_css_seletor()

使用案例：

from selenium import webdriver
from selenium.webdriver.common.by import By

#创建浏览器对象
driver = webdriver.Chrome()
#driver = webdriver.PhantomJS()
driver.get("http://www.taobao.com")
#下面都是获取id属性值为q的节点对象
input = driver.find_element_by_id("q")
print(input)

input = driver.find_element_by_css_selector("#q")
print(input)

input = driver.find_element_by_xpath("//*[@id='q']")
print(input)

#效果同上
input = driver.find_element(By.ID,"q")
print(input)

#driver.close()

获取多个节点的方法：
- find_elements_by_id()
- find_elements_by_name()
- find_elements_by_xpath()
- find_elements_by_link_text()
- find_elements_by_partial_link_text()
- find_elements_by_tag_name()
- find_elements_by_class_name()
- find_elements_by_css_seletor()

5 )节点交互

from selenium import webdriver
import time

#创建浏览器对象
driver = webdriver.Chrome()
#driver = webdriver.PhantomJS()
driver.get("http://www.taobao.com")
#下面都是获取id属性值为q的节点对象
input = driver.find_element_by_id("q")
#模拟键盘输入iphone
input.send_keys('iphone')
time.sleep(3)
#清空输入框
input.clear()
#模拟键盘输入iPad
input.send_keys('iPad')
#获取搜索按钮节点
botton = driver.find_element_by_class_name("btn-search")
#触发点击动作
botton.click()

#driver.close()

6 ) 动态链

ActionChains是一种自动化低级别交互的方法，如鼠标移动，鼠标按钮操作，按键操作和上下文菜单交互。
这对于执行更复杂的操作（如悬停和拖放）很有用.
move_to_element（to_element ）-- 将鼠标移到元素的中间
move_by_offset（xoffset，yoffset ）-- 将鼠标移至当前鼠标位置的偏移量
drag_and_drop（源，目标）-- 然后移动到目标元素并释放鼠标按钮。
pause（秒）-- 以秒为单位暂停指定持续时间的所有输入
perform（）-- 执行所有存储的操作。
release（on_element = None ）释放元素上的一个持有鼠标按钮。
reset_actions（）-- 清除已存储在远程端的操作。
send_keys（* keys_to_send ）-- 将键发送到当前的焦点元素。
send_keys_to_element（element，* keys_to_send ）-- 将键发送到一个元素。

使用案例:

    from selenium import webdriver
    from selenium.webdriver import ActionChains
    import time

    #创建浏览器对象
    driver = webdriver.Chrome()
    #加载指定url地址
    url = 'http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'
    driver.get(url)
    # 切换Frame窗口    
    driver.switch_to.frame('iframeResult')
    #获取两个div节点对象
    source = driver.find_element_by_css_selector("#draggable")
    target = driver.find_element_by_css_selector("#droppable")
    #创建一个动作链对象
    actions = ActionChains(driver)
    #将一个拖拽操作添加到动作链队列中
    actions.drag_and_drop(source,target)
    time.sleep(3)
    #执行所有存储的操作（顺序被触发）
    actions.perform()
    #driver.close()

7 ) 执行JavaScript

from selenium import webdriver

#创建浏览器对象
driver = webdriver.Chrome()
#加载指定url地址
driver.get("https://www.zhihu.com/explore")
#执行javascript程序将页面滚动移至底部
driver.execute_script('window.scrollTo(0,document.body.scrollHeight)')
#执行javascript实现一个弹框操作
driver.execute_script('window.alert("Hello Selenium!")')

#driver.close()

8 ) 获取节点信息

from selenium import webdriver
# from selenium.webdriver import ActionChains

#创建浏览器对象
driver = webdriver.Chrome()
#加载请求指定url地址
driver.get("https://www.zhihu.com/explore")
#获取id属性值为zh-top-link-logo的节点（logo）
logo = driver.find_element_by_id("zh-top-link-logo")
print(logo) #输出节点对象
print(logo.get_attribute('class')) #节点的class属性值
#获取id属性值为zu-top-add-question节点（提问按钮）
input = driver.find_element_by_id("zu-top-add-question")
print(input.text) #获取节点间内容
print(input.id)  #获取id属性值
print(input.location) #节点在页面中的相对位置
print(input.tag_name) #节点标签名称
print(input.size)     #获取节点的大小
#driver.close()

9 ) 切换Frame

网页中有一种节点叫做iframe，也就是子Frame，他可以将一个页面分成多个子父界面。
我们可以使用switch_to.frame()来切换Frame界面，实例详见上面动态链案例。

10 ）延迟等待

浏览器加载网页是需要时间的，Selenium也不例外，若要获取完整网页内容，就要延时等待。

在Selenium中延迟等待方式有两种：一种是隐式等待，一种是显式等待（推荐）。
隐式：

from selenium import webdriver

#创建浏览器对象
driver = webdriver.Chrome()
#使用隐式等待(固定时间)
driver.implicitly_wait(2) 
#加载请求指定url地址
driver.get("https://www.zhihu.com/explore")
#获取节点
input = driver.find_element_by_id("Popover1-toggle")
print(input) # 获取节点间内容

#driver.close()

显式：

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait

#创建浏览器对象
driver = webdriver.Chrome()
#加载请求指定url地址
driver.get("https://www.zhihu.com/explore")
#显式等待,最长10秒
wait = WebDriverWait(driver,10)
#等待条件：10秒内必须有个id属性值为Popover1-toggle的节点加载出来，否则抛异常。
input = wait.until(EC.presence_of_element_located((By.ID,'Popover1-toggle')))
print(input) #获取节点间内容
#driver.close()

11 ）前进和后退

from selenium import webdriver
import time

#创建浏览器对象
driver = webdriver.Chrome()
#加载请求指定url地址
driver.get("https://www.baidu.com")
driver.get("https://www.taobao.com")
driver.get("https://www.jd.com")
time.sleep(2)
driver.back() #后退
time.sleep(2) #前进
driver.forward()
#driver.close()

12 ) Cookies

from selenium import webdriver
from selenium.webdriver import ActionChains

#创建浏览器对象
driver = webdriver.Chrome()
#加载请求指定url地址
driver.get("https://www.zhihu.com/explore")
print(driver.get_cookies())
driver.add_cookie({'name':'Joh','domain':'www.zhihu.com','value':'zhangsan'})
print(driver.get_cookies())
driver.delete_all_cookies()
print(driver.get_cookies())
#driver.close()

13 ) 选项卡管理

from selenium import webdriver
import time

#创建浏览器对象
driver = webdriver.Chrome()
#加载请求指定url地址
driver.get("https://www.baidu.com")
#使用JavaScript开启一个新的选型卡
driver.execute_script('window.open()')
print(driver.window_handles)
#切换到第二个选项卡，并打开url地址
driver.switch_to_window(driver.window_handles[1])
driver.get("https://www.taobao.com")
time.sleep(2)
#切换到第一个选项卡，并打开url地址
driver.switch_to_window(driver.window_handles[0])
driver.get("https://www.jd.com")
#driver.close()

14 ) 异常处理

from selenium import webdriver
from selenium.common.exceptions import TimeoutException,NoSuchElementException

#创建浏览器对象
driver = webdriver.Chrome()
try:
    #加载请求指定url地址
    driver.get("https://www.baidu.com")
except TimeoutException:
    print('Time Out')

try:
    #加载请求指定url地址
    driver.find_element_by_id("demo")
except NoSuchElementException:
    print('No Element')
finally:
    #driver.close()
    pass

Selenium库的案例

1）任务

使用Selenium爬取淘宝商品，指定关键字和指定页码信息来进行爬取
url地址：https://s.taobao.com/search?q=mac

代码实现

注：下面的代码应该不能正确运行，因为淘宝已对Selenium做了相关封禁处理，可以自行在网络上寻找解决方案

'''通过关键字爬取淘宝网站的信息数据'''
from selenium import webdriver
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
from pyquery import PyQuery as pq
from urllib.parse import quote

KEYWORD = "mac"
MAX_PAGE = 10

# browser = webdriver.Chrome()
# browser = webdriver.PhantomJS()
#创建谷歌浏览器对象，启用Chrome的Headless无界面模式
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
browser = webdriver.Chrome(chrome_options=chrome_options)
#显式等待：
wait = WebDriverWait(browser, 10)

def index_page(page):
    '''抓取索引页 :param page: 页码'''
    print('正在爬取第', page, '页')
    try:
        url = 'https://s.taobao.com/search?q=' + quote(KEYWORD)
        browser.get(url)
        if page > 1:
            input = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-pager div.form > input')))
            submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '#mainsrp-pager div.form > span.btn.J_Submit')))
            input.clear()
            input.send_keys(page)
            submit.click()
        #等待条件：显示当前页号，显式商品
        wait.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR, '#mainsrp-pager li.item.active > span'), str(page)))
        wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '.m-itemlist .items .item')))
        get_products()
    except TimeoutException:
        index_page(page)

def get_products():
    '''提取商品数据'''
    html = browser.page_source
    doc = pq(html)
    items = doc('#mainsrp-itemlist .items .item').items()
    for item in items:
        product = {
            'image': item.find('.pic .img').attr('data-src'),
            'price': item.find('.price').text(),
            'deal': item.find('.deal-cnt').text(),
            'title': item.find('.title').text(),
            'shop': item.find('.shop').text(),
            'location': item.find('.location').text()
        }
        print(product)
        save_data(product)


def save_data(result):
    '''保存数据'''
    pass

def main():
    '''遍历每一页'''
    for i in range(1, MAX_PAGE + 1):
        index_page(i)
    browser.close()


# 主程序入口
if __name__ == '__main__':
    main()

Scrapy框架中使用Selenium案例

1 ）任务

通过Scrapy框架使用Selenium
以PhantomJS进行演示，爬取淘宝商品信息
将信息存入数据库MongoDB中

2 ）创建项目

说明：需要特别注意解决淘宝对selenium的封禁处理，需要网上自行寻找解决方案(网上很多))，并将配置加入代码中

首先新建项目，名为scrapyselenium：$ scrapy startproject scrapyselenium
进入项目目录下，创建一个Spider（爬虫类）：
```
cd srapytselenium
scrapy genspider taobao www.baobao.com
```
进入settings.py的配置文件：将ROBOTSTXT_OBEY改为false, $ROBOTSTXT_OBEY = False

3 ) 定义Item类

# 定义信息封装类（图片、价格、购买人数、标题、店铺、发货源）
from scrapy import Item, Field

class ProductItem(Item):
    collection = 'products'
    image = Field()
    price = Field()
    deal = Field()
    title = Field()
    shop = Field()
    location = Field()

4 ) 解析页面

在配置文件settings.py最后面定义搜索关键字和最大页码数信息
```
    KEYWORDS = ['mac']
    MAX_PAGE = 100
```

进入spider/taobao.py文件中编写

# -*- coding: utf-8 -*-
from scrapy import Request, Spider
from urllib.parse import quote
from scrapyseleniumtest.items import ProductItem

class TaobaoSpider(Spider):
    name = 'taobao'
    allowed_domains = ['www.taobao.com']
    base_url = 'https://s.taobao.com/search?q='

    def start_requests(self):
        for keyword in self.settings.get('KEYWORDS'):
            for page in range(1, self.settings.get('MAX_PAGE') + 1):
                url = self.base_url + quote(keyword)
                yield Request(url=url, callback=self.parse, meta={'page': page}, dont_filter=True)

    def parse(self, response):
        pass

5 ) 对接Selenium

通过定义DownloaderMiddleware中间件来实现对Selenium的使用。

# -*- coding: utf-8 -*-

from selenium import webdriver
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from scrapy.http import HtmlResponse
from logging import getLogger

class SeleniumMiddleware():
    def __init__(self, timeout=None, service_args=[]):
        self.logger = getLogger(__name__)
        self.timeout = timeout
        self.browser = webdriver.PhantomJS(service_args=service_args)
        self.browser.set_window_size(1400, 700)
        self.browser.set_page_load_timeout(self.timeout)
        self.wait = WebDriverWait(self.browser, self.timeout)

    def __del__(self):
        self.browser.close()

    def process_request(self, request, spider):
        """
        用PhantomJS抓取页面
        :param request: Request对象
        :param spider: Spider对象
        :return: HtmlResponse
        """
        self.logger.debug('PhantomJS is Starting')
        page = request.meta.get('page', 1)
        try:
            self.browser.get(request.url)
            if page > 1:
                input = self.wait.until(
                    EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-pager div.form > input')))
                submit = self.wait.until(
                    EC.element_to_be_clickable((By.CSS_SELECTOR, '#mainsrp-pager div.form > span.btn.J_Submit')))
                input.clear()
                input.send_keys(page)
                submit.click()
            self.wait.until(
                EC.text_to_be_present_in_element((By.CSS_SELECTOR, '#mainsrp-pager li.item.active > span'), str(page)))
            self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '.m-itemlist .items .item')))
            return HtmlResponse(url=request.url, body=self.browser.page_source, request=request, encoding='utf-8',
                                status=200)
        except TimeoutException:
            return HtmlResponse(url=request.url, status=500, request=request)

    @classmethod
    def from_crawler(cls, crawler):
        return cls(timeout=crawler.settings.get('SELENIUM_TIMEOUT'),
                service_args=crawler.settings.get('PHANTOMJS_SERVICE_ARGS'))

在settings.py配置文件中.设置我们自定义的中间件设置：

DOWNLOADER_MIDDLEWARES = {
    'scrapyselenium.middlewares.SeleniumMiddleware': 543,
}

6 ) 解析页面信息

# -*- coding: utf-8 -*-
from scrapy import Request, Spider
from urllib.parse import quote
from scrapyselenium.items import ProductItem

class TaobaoSpider(Spider):
    name = 'taobao'
    allowed_domains = ['www.taobao.com']
    base_url = 'https://s.taobao.com/search?q='

    def start_requests(self):
        for keyword in self.settings.get('KEYWORDS'):
            for page in range(1, self.settings.get('MAX_PAGE') + 1):
                url = self.base_url + quote(keyword)
                yield Request(url=url, callback=self.parse, meta={'page': page}, dont_filter=True)

    def parse(self, response):
        products = response.xpath(
            '//div[@id="mainsrp-itemlist"]//div[@class="items"][1]//div[contains(@class, "item")]')
        for product in products:
            item = ProductItem()
            item['price'] = ''.join(product.xpath('.//div[contains(@class, "price")]//text()').extract()).strip()
            item['title'] = ''.join(product.xpath('.//div[contains(@class, "title")]//text()').extract()).strip()
            item['shop'] = ''.join(product.xpath('.//div[contains(@class, "shop")]//text()').extract()).strip()
            item['image'] = ''.join(product.xpath('.//div[@class="pic"]//img[contains(@class, "img")]/@data-src').extract()).strip()
            item['deal'] = product.xpath('.//div[contains(@class, "deal-cnt")]//text()').extract_first()
            item['location'] = product.xpath('.//div[contains(@class, "location")]//text()').extract_first()
            yield item

7 ）存储结果

配置文件信息

ITEM_PIPELINES = {
    'scrapyselenium.pipelines.MongoPipeline': 300,
}

KEYWORDS = ['mac']
MAX_PAGE = 100
SELENIUM_TIMEOUT = 20
PHANTOMJS_SERVICE_ARGS = ['--load-images=false', '--disk-cache=true']
MONGO_URI = 'localhost'
MONGO_DB = 'taobao'

处理 Pipeline 文件

import pymongo

class MongoPipeline(object):
    def __init__(self, mongo_uri, mongo_db):
        self.mongo_uri = mongo_uri
        self.mongo_db = mongo_db

    @classmethod
    def from_crawler(cls, crawler):
        return cls(mongo_uri=crawler.settings.get('MONGO_URI'), mongo_db=crawler.settings.get('MONGO_DB'))

    def open_spider(self, spider):
        self.client = pymongo.MongoClient(self.mongo_uri)
        self.db = self.client[self.mongo_db]

    def process_item(self, item, spider):
        self.db[item.collection].insert(dict(item))
        return item

    def close_spider(self, spider):
        self.client.close()

你可能感兴趣的:(Python,selenium,scrapy)

【Python爬虫(96)】从0到1：打造爬虫驱动的数据分析平台奔跑吧邓邓子 Python爬虫 python 爬虫数据分析开发语言平台
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、平台搭建基础1.1明确平台目标与定位1.2技术选型依据二、数据
Python接口自动化测试框架（工具篇）-- 接口测试工具JMeter 职说测试 python 自动化测试工具
文章目录一、前言二、JMeter2.1、安装jmeter2.2、JMeter接口测试案例2.3、快速创建JMeter接口测试计划三、扩展3.1、接口自动化测试3.2、性能自动化测试一、前言相比使用postman做接口测试，作为测试人员，熟练使用jmeter做接口测试已经是必备技能，这可以从各大招聘测试岗的JD中得到印证，它不仅仅能做接口测试、还有可以做性能测试、自动化测试都能作为其解决方案之一；其
Python处理PDF——PyMuPDF的安装与使用程序员小六进阶技术 python技术 python 开发语言
1、PyMuPDF简介1.介绍在介绍PyMuPDF之前，先来了解一下MuPDF，从命名形式中就可以看出，PyMuPDF是MuPDF的Python接口形式。MuPDFMuPDF是一个轻量级的PDF、XPS和电子书查看器。MuPDF由软件库、命令行工具和各种平台的查看器组成。MuPDF中的渲染器专为高质量抗锯齿图形量身定制。它以精确到像素的几分之一内的度量和间距呈现文本，以在屏幕上再现打印页面的外观时
Python 用 Selenium & DataFrame 提取网页内表格数据 solosoft python selenium
提取的数据导入DataFrame，方便后期处理frompandas.core.frameimportDataFramefromseleniumimportwebdriverdriver=webdriver.Edge();driver.get("http://data.eastmoney.com/hsgt/index.html")table_content=driver.find_element_b
python爬取网页的方法总结,python爬虫获取网页数据阳阳2013哈哈 python
大家好，小编来为大家解答以下问题，python爬取网页信息代码正确爬取不到，利用python爬取简单网页数据步骤，今天让我们一起来看看吧！文章目录1.抓取网页源代码2.抓取一个网页源代码中的某标签内容3.抓取多个网页子标签的内容Python用做数据处理还是相当不错的，如果你想要做爬虫，Python是很好的选择，它有很多已经写好的类包，只要调用，即可完成很多复杂的功能在我们开始之前，我们需要安装一些
Python 开发常见问题汇总公众号/头条号：技术很有趣 flask pip python 1024程序员节
1WARNING:Retrying(Retry(total=3,connect=None,read=None,redirect=None,status=None))afterconnectionbrokenby'ConnectTimeoutError根因：本地代理未配置或者配置不对解决方法：方法一：使用开源的镜像源配置或者公司内部镜像源，举例：[global]index-url=https://X
解决selenium的WebDriver object has no attribute ‘find_element_by_xpath‘问题追逐程序梦想者 selenium python 测试工具
解决selenium的WebDriverobjecthasnoattribute'find_element_by_xpath’问题在使用selenium操作浏览器时，常见的一种定位元素的方式就是Xpath定位。但有时候会出现WebDriverobjecthasnoattribute'find_element_by_xpath’的错误提示，意思是WebDriver对象没有该方法。这通常是因为引入se
Python爬虫库Selenium .NET跨平台
Selenium库是一个自动化测试工具，支持多种浏览器。在爬虫中主要解决JavaScript渲染的问题。用法讲解：0.基本用法fromseleniumimportwebdriverfromselenium.webdriver.common.byimportByfromselenium.webdriver.common.keysimportKeysfromselenium.webdriver.sup
8个Python爬虫高效数据抓取技巧程序员小鱼_ python 爬虫 python 爬虫开发语言
在数据驱动的时代，Python爬虫成为了获取网络数据的重要工具。本文将深入浅出地介绍8个高效的Python爬虫技巧，帮助初学者提升数据抓取能力，从简单的网页内容提取到复杂的动态网站抓取，逐步解锁爬虫高级技能。1.使用Requests库优雅地请求网页技巧简介：Requests是Python中处理HTTP请求的明星库，简洁易用。实践示例：importrequestsurl='https://examp
Python selenium 库 ONE_PUNCH_Ge python
Selenium是一个用于自动化Web浏览器操作的强大工具，广泛应用于Web应用程序测试、网页数据抓取和任务自动化等场景。Selenium为各种编程语言提供了API，用作测试。目前的官方API文档有C#、JavaScript、Java、Python、Ruby。安装Selenium和WebDriver安装Selenium要开始使用Selenium，首先需要安装selenium库，并下载适用于你浏览器
Python装饰器居然还能这么用！新手小白必看[附源码] 花小姐的春天跟着花姐学Python python 装饰器模式 0基础学Python Python教程后端脚本
大家好呀！我是花姐。你有没有遇到过这样的情况：你写了一个函数，突然想到要给它增加一些额外功能，或者你希望能在多个地方重复使用这段功能，结果却发现每次都得重新写一遍代码，超级烦！别担心，今天花姐给大家介绍一个神器——装饰器！它可以在不改变原始函数代码的情况下，为函数增加新功能，而且代码更加简洁、高效，关键是让你的代码更“优雅”。好啦，今天我们就来一起看看装饰器的魔力，它怎么帮助我们做出更简洁、可复用
Python Cookbook-2.8 更新随机存取文件我不会编程555 #Python学习 python linux 前端
任务给定一个包含很多固定长度记录的大二进制文件，你想读取其中某一条记录，并且修改该条记录的某些字段的值，然后写回到文件中。解决方案读取记录，解包，执行任何需要的数据更新，然后将所有字段重新组合成记录，接着找到正确的位置，最后再写入。见如下代码:importstruct#或者说，一条记录是8个4字节整数format_string='81'thefile=open('somebinfile','r+b
pythoncookbook 3rd pdf_Python Cookbook, 3rd Edition 第三版英文版 weixin_39928801 pythoncookbook 3rd pdf
IfyouneedhelpwritingprogramsinPython3,orwanttoupdateolderPython2code,thisbookisjusttheticket.PackedwithpracticalrecipeswrittenandtestedwithPython3.3,thisuniquecookbookisforexperiencedPythonprogrammers
pycharm 远程连接服务器 python packaging tool not found 安屿咨询 python pycharm 服务器开发语言 ide
python相关学习资料：https://edu.51cto.com/video/3832.htmlhttps://edu.51cto.com/video/3502.htmlhttps://edu.51cto.com/video/4645.htmlPyCharm远程连接服务器时遇到PythonPackagingToolNotFound的问题在使用PyCharm远程连接服务器进行开发时，可能会遇到“
BUG之路1——Ubuntu安装pycharm报python package tools not found错误 DH小碧池 Python之路 pycharm 报错 ubuntu 安装
心路历程：真的想死啊，搞了我三天，就想在linux上架个django的服务器，然后安装个pycharm就出了一个占用我三天时间的BUG。最后终于在stackoverflow上看到国外的大神了。最后的解决方法真的是想死，简单的不能再简单，但是就是没注意到。系统：ubuntu16工具：pycharm报错描述：在安装完pycharm之后设置项目python版本时，报错：pythonpackagetool
micropython连接onenet实现从应用端调用api到设备端执行-汇总 trashedmaker python 单片机网络嵌入式硬件
完整源码GitHub-stupidcmd/Connect-to-the-onenet-platform-with-micropython:用micropython连接onenet平台并用python脚本读取设备的数据，下发命令控制设备每一步的完整代码都在最底下1应用调用api与平台沟通python调用onenet平台api读取和下发命令（应用端的尝试）-CSDN博客2设备端自动计算tokenmic
micropython通过umqtt连接至onenet-uasyncio提升性能(异步协程) trashedmaker linux 数据库网络
micropython连接onenet实现从应用端调用api到设备端执行-汇总-CSDN博客↑汇总目录我们要明确功能（1）我们要上传数据即post（2）我们也要set属性和处理set属性1明确需求2创建任务3创建任务函数4运行异步程序5测试一下micropython通过umqtt连接至onenet-设备直接读取设备信息-CSDN博客上一篇↑文末有完整代码直接用配合着理解,虽然简单但是怕出错未注明作
Python-Machine-Learning-Cookbook 项目教程张亭齐Crown
Python-Machine-Learning-Cookbook项目教程Python-Machine-Learning-CookbookCodefilesforPython-Machine-Learning-Cookbook项目地址:https://gitcode.com/gh_mirrors/py/Python-Machine-Learning-Cookbook1.项目目录结构及介绍Python
Weditor安装遇到了问题:Preparing metadata (pyproject.toml) did not run successfully. BullSmall 自动化 python android
问题现象uiautomator2环境部署的时候，在安装Weditor的时候并不顺利，安装过程遇到的问题如下定位过程尼玛，耗费我2小时，借助度娘，总结下网友描述这个问题的原因：weditor不支持python3.1以上版本，要降低python版本-setup包版本太低，使用pipinstall--upgradepipsetuptools==45.2.0升级setup包先gitclonehttps:/
“码农”成长记，渐渐不想「砸」电脑了程序员程序员发展
在互联网这个充满神奇与挑战的江湖里，程序员们就像是一群身怀绝技的侠客，在代码的世界里闯荡。一开始，很多程序员都觉得自己像是个“搬砖”的码农，每天对着屏幕，一行行地敲着代码，仿佛在堆砌一座看不见尽头的城堡。初入编程世界，那感觉就像掉进了一个巨大的迷宫。各种编程语言，像Python、Java、C++，就如同迷宫里错综复杂的路径，让人眼花缭乱。每一种语言都有它独特的语法规则，就好像不同门派的武功秘籍，各
Python Cookbook-2.24 在 Mac OSX平台上统计PDF文档的页数我不会编程555 #Python学习 python pdf 开发语言
任务你的计算机运行着比较新的MacOSX系统(10.3的“Panther”或更新的版本)，现在需要知道一个PDF文档的页数。解决方案PDF格式和Python都已经集成到了MacOsX系统中(10.3或更高版本)，因而这个问题解决起来也相对比较容易:#!/usr/binpythonimportCoreGraphicsdefpageCount(pdfPath):#返回指定路径的PDF文档的页数pdf=
python for net_转：.NET 4.0 下使用 Python for .NET 知之狐 python for net
转：首先，我要搞清楚Pythonfor.NET,IronPython它们之间的区别。Python作为一门语言，其解释器(因为是解释型动态语言，所以我觉得称之为解释器interpreter比编译器compiler更合适)并不是只有唯一实现的。通常我们从Python官方网站下载的Python解释器其实只是一种用纯C语言的实现，大家习惯称之为CPython。而目前流行的还有另外两种解释器：Jython和
w238光影视频平台卓怡学长计算机毕业设计 java spring spring boot 数据库课程设计 maven
作者简介：多年一线开发工作经验，原创团队，分享技术代码帮助学生学习，独立完成自己的网站项目。代码可以查看文章末尾⬇️联系方式获取，记得注明来意哦~赠送计算机毕业设计600个选题excel文件，帮助大学选题。赠送开题报告模板，帮助书写开题报告。作者完整代码目录供你选择：《Springboot网站项目》400套《ssm网站项目》800套《小程序项目》300套《App项目》500套《Python网站项目
深入解析：FIR滤波器在FPGA上的设计与实现全流程 king-agic FPGA fpga开发经验分享
在FPGA中实现FIR（FiniteImpulseResponse）滤波器涉及多个步骤，包括滤波器设计、系数量化、硬件架构设计、HDL（HardwareDescriptionLanguage）编码、综合、布局布线以及验证。1.滤波器设计使用软件工具如MATLAB、Octave或者Python中的SciPy库来设计FIR滤波器。定义滤波器的规格，例如采样频率、截止频率、通带和阻带衰减等。生成滤波器的
强者联盟——Python语言结合Spark框架博文视点全栈工程师全栈全栈数据 Spark Python PySpark
引言：Spark由AMPLab实验室开发，其本质是基于内存的快速迭代框架，“迭代”是机器学习最大的特点，因此非常适合做机器学习。得益于在数据科学中强大的表现，Python语言的粉丝遍布天下，如今又遇上强大的分布式内存计算框架Spark，两个领域的强者走到一起，自然能碰出更加强大的火花（Spark可以翻译为火花），因此本文主要讲述了PySpark。本文选自《全栈数据之门》。全栈框架Spark由AMP
Python系列之例题100题（26-30题）爱study花小卷 python例题算法 python
Hello！友友们！我们话不多说，直接干题！！！26：落体反弹问题;一球从100米高度自由落下，每次落地后反跳回原高度的一半；在落下，求它在第十次落地时，共经过了多少米？第十次反弹多高？n=100count=0list=[]whilecount<10:ifcount==0:list.append(n)n/=2count+=1else:list.append(2*n)n/=2count+=1prin
Python 编程题第四节：斐波那契数列、列表的复制、暂停后输出、成绩评级、统计字符 MYX_309 Python编程题 python 开发语言学习
斐波那契数列方法一（递归）deff(a):ifa==1:return1elifa==2:return1else:returnf(a-1)+f(a-2)print(f(3))方法二（非递归）n=int(input())lst=[1,1]foriinrange(2,n+1):lst.append(lst[i-1]+lst[i-2])print(lst[n-1])列表的复制这样赋值改变list1也会改变
Python 编程题第三节：完数、质数分解、判断某年某天 MYX_309 python 开发语言
完数完数：一个数等于除他以外的的所有因子之和被称为完数l2=[]forainrange(1,1001):sum=0foriinrange(1,a):ifa%i==0:sum+=iifsum==a:l2.append(a)print(l2)质数分解很巧妙a=int(input())lst=[]y=2whilea>=y:#最小的质数为2，所以从2开始ifa%y==0:lst.append(y)a=a/
Python办公自动化教程（008）：设置excel单元格边框和背景颜色叁拾舞 Python python excel
3.2添加边框示例代码importopenpyxlfromopenpyxl.stylesimportBorder,Side#1️⃣创建Excel工作簿wb=openpyxl.Workbook()sheet=wb.activesheet.title="球员信息"#2️⃣定义边框样式（细线边框）thin_border=Border(left=Side(style="thin"),right=Side(
PythonNet：实现Python与.Net代码相互调用！编程乐趣 python .net microsoft
现在是多元化编程，每一个程序员都需要使用多门编程语言，特别现在是AI时代，对于我们.Net程序员来说，就需要经常同时使用Python和.Net。下面一个开源库，方便我们来突破Python和.NET的界限。01项目简介Python.NET是一个开源项目，它允许Python代码与.NETCommonLanguageRuntime（CLR）进行交互，为.NET开发者提供了一个强大的应用脚本工具。通过Py
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。