总裁余(余登武)

爬虫笔记：Python Selenium详解

1.简介
Selenium是一个用于测试网站的自动化测试工具，支持各种浏览器包括Chrome、Firefox、Safari等主流界面浏览器，同时也支持phantomJS无界面浏览器。
支持多种操作系统如Windows、Linux、IOS、Android等。
2.安装
pip install Selenium
3.安装浏览器驱动
当selenium升级到3.0之后，对不同的浏览器驱动进行了规范。如果想使用selenium驱动不同的浏览器，必须单独下载并设置不同的浏览器驱动。

各浏览器下载地址：

Firefox浏览器驱动：https://github.com/mozilla/geckodriver/releases
Chrome浏览器驱动：链接1
链接2

IE浏览器驱动：http://selenium-release.storage.googleapis.com/index.html
Edge浏览器驱动：https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/
Opera浏览器驱动：https://github.com/operasoftware/operachromiumdriver/releases
PhantomJS浏览器驱动：https://phantomjs.org/

1.基本使用

from selenium import webdriver#浏览器驱动对象
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait

path='D:\chromedriver_win32\chromedriver.exe'#驱动目录
browser = webdriver.Chrome(path)#声明一个浏览器对象
try:
    browser.get('https://www.baidu.com')#访问网址
    input = browser.find_element_by_id('kw')
    input.send_keys('Python')#在键盘里输入python
    input.send_keys(Keys.ENTER)#输入回车
    wait = WebDriverWait(browser, 10)#等待10秒
    wait.until(EC.presence_of_element_located((By.ID, 'content_left')))#等待ID为content_left加载出来
    print(browser.current_url)
    print(browser.get_cookies())
    print(browser.page_source)#源代码
finally:
    browser.close()

2.声明浏览器对象

from selenium import webdriver

browser = webdriver.Chrome()
browser = webdriver.Firefox()
browser = webdriver.Edge()
browser = webdriver.PhantomJS()
browser = webdriver.Safari()

3.访问页面

from selenium import webdriver
path='D:\chromedriver_win32\chromedriver.exe'#驱动目录
browser = webdriver.Chrome(path)
browser.get('https://www.taobao.com')
print(browser.page_source)#打印源代码
#browser.close()

浏览器会自动打开淘宝页面，如果要关闭，可以在末尾添加browser.close()。
浏览器淘宝页面会一闪而过

page_source

查找元素
4.查找单个元素

from selenium import webdriver
path='D:\chromedriver_win32\chromedriver.exe'#驱动目录
browser = webdriver.Chrome(path)
browser.get('https://www.taobao.com')
input_first = browser.find_element_by_id('q')
input_second = browser.find_element_by_css_selector('#q')
input_third = browser.find_element_by_xpath('//*[@id="q"]')
print(input_first, input_second, input_third)
browser.close()

定位元素方法

通用方法

from selenium import webdriver
from selenium.webdriver.common.by import By
path='D:\chromedriver_win32\chromedriver.exe'#驱动目录
browser = webdriver.Chrome(path)
browser.get('https://www.taobao.com')
input_first = browser.find_element(By.ID, 'q')#通过id
print(input_first)
browser.close()

5.查找多个元素

from selenium import webdriver
path='D:\chromedriver_win32\chromedriver.exe'#驱动目录
browser = webdriver.Chrome(path)
browser.get('https://www.taobao.com')
lis = browser.find_elements_by_css_selector('.service-bd li')
print(lis)
browser.close()

选中的是左侧导航栏标签

通用写法

from selenium import webdriver
from selenium.webdriver.common.by import By

path='D:\chromedriver_win32\chromedriver.exe'#驱动目录
browser = webdriver.Chrome(path)
browser.get('https://www.taobao.com')
lis = browser.find_elements(By.CSS_SELECTOR, '.service-bd li')
print(lis)
browser.close()

元素交互操作
6.对获取的元素调用交互方法

from selenium import webdriver
import time

path='D:\chromedriver_win32\chromedriver.exe'#驱动目录
browser = webdriver.Chrome(path)
browser.get('https://www.taobao.com')
input = browser.find_element_by_id('q')#捕捉输入框
input.send_keys('iPhone')#在输入框里输入iphone
time.sleep(1)#等待1秒
input.clear()#清除
input.send_keys('iPad')#再次输入ipad
button = browser.find_element_by_class_name('btn-search')#搜索按钮
button.click()#点击按钮

结果如图

分析输入框id为q

点击按钮的class为btn-search

更多操作：http://selenium-python.readthedocs.io/api.html#module-selenium.webdriver.remote.webelement

交互操作
7.交互动作,将动作附加到动作链中串行执行

from selenium import webdriver
from selenium.webdriver import ActionChains
path='D:\chromedriver_win32\chromedriver.exe'#驱动目录
browser = webdriver.Chrome(path)
url = 'http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'
browser.get(url)
browser.switch_to.frame('iframeResult')
source = browser.find_element_by_css_selector('#draggable')
target = browser.find_element_by_css_selector('#droppable')
actions = ActionChains(browser)
actions.drag_and_drop(source, target)
actions.perform()

更多操作

执行JavaScript

from selenium import webdriver
path='D:\chromedriver_win32\chromedriver.exe'#驱动目录

browser = webdriver.Chrome(path)
browser.get('https://www.zhihu.com/explore')
browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')
browser.execute_script('alert("To Bottom")')

获取元素信息
9.获取属性

from selenium import webdriver
path='D:\chromedriver_win32\chromedriver.exe'#驱动目录

from selenium.webdriver import ActionChains

browser = webdriver.Chrome(path)
url = 'https://blog.csdn.net/KOBEYU652453/article/details/113743933'
browser.get(url)
logo = browser.find_element_by_id('article_content')#定位
print(logo)
print(logo.get_attribute('class'))#获取logo的class

结果

网页中的class

10.获取文本值

from selenium import webdriver
path='D:\chromedriver_win32\chromedriver.exe'#驱动目录

browser = webdriver.Chrome(path)
url = 'https://blog.csdn.net/KOBEYU652453/article/details/113743933'
browser.get(url)

input = browser.find_element_by_class_name('article_content')
print(input.text)

11.获取ID、位置、标签名、大小

from selenium import webdriver
path='D:\chromedriver_win32\chromedriver.exe'#驱动目录

browser = webdriver.Chrome(path)
url = 'https://blog.csdn.net/KOBEYU652453/article/details/113743933'
browser.get(url)

input = browser.find_element_by_class_name('article_content')
print(input.id)
print(input.location)
print(input.tag_name)
print(input.size)

Frame

path='D:\chromedriver_win32\chromedriver.exe'#驱动目录

import time
from selenium import webdriver
from selenium.common.exceptions import NoSuchElementException

browser = webdriver.Chrome(path)
url = 'http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'
browser.get(url)
browser.switch_to.frame('iframeResult')
source = browser.find_element_by_css_selector('#draggable')
print(source)
try:
    logo = browser.find_element_by_class_name('logo')
except NoSuchElementException:
    print('NO LOGO')
browser.switch_to.parent_frame()
logo = browser.find_element_by_class_name('logo')
print(logo)
print(logo.text)

等待

当使用了隐式等待执行测试的时候，如果 WebDriver没有在 DOM中找到元素，将继续等待，超出设定时间后则抛出找不到元素的异常, 换句话说，当查找元素或元素并没有立即出现的时候，隐式等待将等待一段时间再查找 DOM，默认的时间是0

from selenium import webdriver
path='D:\chromedriver_win32\chromedriver.exe'#驱动目录

browser = webdriver.Chrome(path)

browser.implicitly_wait(10)
browser.get('https://www.zhihu.com/explore')
input = browser.find_element_by_class_name('zu-top-add-question')
print(input)

显示等待

path='D:\chromedriver_win32\chromedriver.exe'#驱动目录
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

browser = webdriver.Chrome(path)
browser.get('https://www.taobao.com/')
wait = WebDriverWait(browser, 10)
input = wait.until(EC.presence_of_element_located((By.ID, 'q')))#等待条件
button = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '.btn-search')))
print(input, button)

等待条件如下

* title_is 标题是某内容
* title_contains  标题包含某内容
* presence_of_element_located 元素加载出，传入定位元组，如(By.ID, 'p')
* visibility_of_element_located  元素可见，传入定位元组
* visibility_of 可见，传入元素对象
* presence_of_all_elements_located 所有元素加载出
* text_to_be_present_in_element 某个元素文本包含某文字
* text_to_be_present_in_element_value  某个元素值包含某文字
* frame_to_be_available_and_switch_to_it  frame加载并切换
* invisibility_of_element_located 元素不可见
* element_to_be_clickable  元素可点击
* staleness_of  判断一个元素是否仍在DOM，可判断页面是否已经刷新
* element_to_be_selected  元素可选择，传元素对象
* element_located_to_be_selected  元素可选择，传入定位元组
* element_selection_state_to_be  传入元素对象以及状态，相等返回True，否则返回False
* element_located_selection_state_to_be  传入定位元组以及状态，相等返回True，否则返回False
* alert_is_present 是否出现Alert

等待详细内容

前进后退

import time
from selenium import webdriver
path='D:\chromedriver_win32\chromedriver.exe'#驱动目录
browser = webdriver.Chrome(path)
browser.get('https://www.baidu.com/')
browser.get('https://www.taobao.com/')
browser.get('https://www.python.org/')
browser.back()
time.sleep(1)
browser.forward()
browser.close()

Cookies

from selenium import webdriver
path='D:\chromedriver_win32\chromedriver.exe'#驱动目录
browser = webdriver.Chrome(path)
browser.get('https://www.zhihu.com/explore')
print(browser.get_cookies())#打印cookies
browser.add_cookie({
     'name': 'name', 'domain': 'www.zhihu.com', 'value': 'germey'})#添加cookies
print(browser.get_cookies())
browser.delete_all_cookies()#删除所有cookies
print(browser.get_cookies())

选项卡管理

import time
from selenium import webdriver
path='D:\chromedriver_win32\chromedriver.exe'#驱动目录
browser = webdriver.Chrome(path)
browser.get('https://www.baidu.com')
browser.execute_script('window.open()')
print(browser.window_handles)
browser.switch_to_window(browser.window_handles[1])
browser.get('https://www.taobao.com')
time.sleep(1)
browser.switch_to_window(browser.window_handles[0])
browser.get('https://python.org')

异常处理

path='D:\chromedriver_win32\chromedriver.exe'#驱动目录
from selenium import webdriver
from selenium.common.exceptions import TimeoutException, NoSuchElementException

browser = webdriver.Chrome(path)
try:
    browser.get('https://www.baidu.com')
except TimeoutException:
    print('Time Out')
try:
    browser.find_element_by_id('hello')
except NoSuchElementException:
    print('No Element')
finally:
    browser.close()

详细文档
http://selenium-python.readthedocs.io/api.html#module-selenium.common.exceptions

全平台QQ聊天数据库解密项目常见问题解决方案管旭韶
全平台QQ聊天数据库解密项目常见问题解决方案qq-win-db-keyQQNT/WindowsQQ聊天数据库解密项目地址:https://gitcode.com/gh_mirrors/qq/qq-win-db-key项目基础介绍本项目是一个开源项目，旨在为用户提供全平台QQ聊天数据库的解密方法。项目主要使用Python、JavaScript和C++等编程语言实现。新手常见问题及解决步骤问题一：如何
用鸿蒙打造真正的跨设备数据库：从零实现分布式存储网罗开发 HarmonyOS 实战源码实战 harmonyos 数据库分布式
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
Python Day58 别勉. python机器学习 python 信息可视化数据分析
Task：1.时序建模的流程2.时序任务经典单变量数据集3.ARIMA（p，d，q）模型实战4.SARIMA摘要图的理解5.处理不平稳的2种差分a.n阶差分—处理趋势b.季节性差分—处理季节性建立一个ARIMA模型，通常遵循以下步骤：数据可视化：观察原始时间序列图，判断是否存在趋势或季节性。平稳性检验：对原始序列进行ADF检验。如果p值>0.05，说明序列非平稳，需要进行差分。确定差分次数d:进行
Python Day56 别勉. python机器学习 python 开发语言
Task：1.假设检验基础知识a.原假设与备择假设b.P值、统计量、显著水平、置信区间2.白噪声a.白噪声的定义b.自相关性检验：ACF检验和Ljung-Box检验c.偏自相关性检验：PACF检验3.平稳性a.平稳性的定义b.单位根检验4.季节性检验a.ACF检验b.序列分解：趋势+季节性+残差记忆口诀：p越小，落在置信区间外，越拒绝原假设。1.假设检验基础知识a.原假设与备择假设原假设(Null
Python Day57 别勉. python机器学习 python 开发语言
Task：1.序列数据的处理：a.处理非平稳性：n阶差分b.处理季节性：季节性差分c.自回归性无需处理2.模型的选择a.AR§自回归模型：当前值受到过去p个值的影响b.MA(q)移动平均模型：当前值收到短期冲击的影响，且冲击影响随时间衰减c.ARMA(p,q)自回归滑动平均模型：同时存在自回归和冲击影响时间序列分析：ARIMA/SARIMA模型构建流程时间序列分析的核心目标是理解序列的过去行为，并
Python Day44 别勉. python机器学习 python 开发语言
Task：1.预训练的概念2.常见的分类预训练模型3.图像预训练模型的发展史4.预训练的策略5.预训练代码实战：resnet181.预训练的概念预训练（Pre-training）是指在大规模数据集上，先训练模型以学习通用的特征表示，然后将其用于特定任务的微调。这种方法可以显著提高模型在目标任务上的性能，减少训练时间和所需数据量。核心思想：在大规模、通用的数据（如ImageNet）上训练模型，学习丰
Python Day42 别勉. python机器学习 python 开发语言
Task：Grad-CAM与Hook函数1.回调函数2.lambda函数3.hook函数的模块钩子和张量钩子4.Grad-CAM的示例1.回调函数定义：回调函数是作为参数传入到其他函数中的函数，在特定事件发生时被调用。特点：便于扩展和自定义程序行为。常用于训练过程中的监控、日志记录、模型保存等场景。示例：defcallback_function():print("Epochcompleted!")
Python-什么是集合難釋懷 python 开发语言数据库
一、前言在Python中，除了我们常用的列表（list）、元组（tuple）和字典（dict），还有一种非常实用的数据结构——集合（set）。集合是一种无序且不重复的元素集合，常用于去重、交并差运算等场景。本文将带你全面了解Python中集合的基本用法、操作方法及其适用场景，并通过大量代码示例帮助你掌握这一重要数据类型。二、什么是集合（set）？✅定义：集合是Python中的一种可变数据类型，它存
Python Day53 别勉. python机器学习 python 开发语言
Task：1.对抗生成网络的思想：关注损失从何而来2.生成器、判别器3.nn.sequential容器：适合于按顺序运算的情况，简化前向传播写法4.leakyReLU介绍：避免relu的神经元失活现象1.对抗生成网络的思想：关注损失从何而来这是理解GANs的关键！传统的神经网络训练中，我们通常会直接定义一个损失函数（如均方误差MSE、交叉熵CE），然后通过反向传播来优化这个损失。这个损失的“来源”
〖Python零基础入门篇⑮〗- Python中的字典哈哥撩编程 #① -零基础入门篇 Python全栈白宝书 python 开发语言后端 python中的字典
>【易编橙·终身成长社群，相遇已是上上签！】-点击跳转～<作者：哈哥撩编程（视频号同名）图书作者：程序员职场效能宝典博客专家：全国博客之星第四名超级个体：COC上海社区主理人特约讲师：谷歌亚马逊分享嘉宾科技博主：极星会首批签约作者文章目录⭐️什么是字典？⭐️字典的结构与创建方法⭐️字典支持的数据类型⭐️在列表与元组中如何定义字典
python换行输出字典_Python基础入门：字符串和字典 weixin_39959236 python换行输出字典
10、字符串常用转义字符转义字符描述\\反斜杠符号\'单引号\"双引号\n换行\t横向制表符(TAB)\r回车三引号允许一个字符串跨多行，字符串中可以包含换行符、制表符以及其他特殊字符para_str="""这是一个多行字符串的实例多行字符串可以使用制表符TAB(\t)。也可以使用换行符[\n]。"""print(para_str)#这是一个多行字符串的实例#多行字符串可以使用制表符#TAB()。
Python----Python中的集合及其常用方法 redrose2100 Python python 开发语言后端
【原文链接】1集合的定义和特点（1）集合是用花括号括起来的，集合的特点是元素没有顺序，元素具有唯一性，不能重复>>>a={1,2,3,4}>>>type(a)>>>a={1,2,3,1,2,3}>>>a{1,2,3}2集合的常用运算（1）集合元素没有顺序，所以不能像列表和元组那样用下标取值>>>a={1,2,3}>>>a[0]Traceback(mostrecentcalllast):File""
langchain+langserver+langfuse整合streamlit构建基础智能体中心 Messi^ 人工智能-大模型应用 langchain 人工智能
ServerApi******#!/usr/bin/python--coding:UTF-8--importuvicornfromfastapiimportFastAPIfrombaseimportFaissEnginefromlangserve.serverimportadd_routesfromlangchain_core.promptsimportPromptTemplatefromlang
pycharm两种运行py之路径问题 hellopbc software #pycharm python pycahrm path
文章目录pycharm两种运行py之路径问题pycharm两种运行py之路径问题运行python代码在pycharm中有两种方式：一种是直接鼠标点击runxxx运行，还有一种是使用#In[]:点击该行左边的绿色三角形按钮运行有可能在pythonconsole窗口运行有可能在你当前运行文件的窗口（就是run之后产生的那个窗口）**问题：**你会发现，涉及到路径问题时（使用相对路径），可能在这两种运行
Python元组的遍历難釋懷 python 前端 linux
一、前言在Python中，元组（tuple）是一种非常基础且常用的数据结构，它与列表类似，都是有序的序列，但不同的是，元组是不可变的（immutable），一旦创建就不能修改。虽然元组不能被修改，但它支持高效的遍历操作，非常适合用于存储不会变化的数据集合。本文将系统性地介绍Python中元组的多种遍历方式，包括基本遍历、索引访问、元素解包、结合函数等，并结合大量代码示例帮助你掌握这一重要技能。二、
Python集合生成式
一、前言在Python中，我们已经熟悉了列表生成式（ListComprehension），它为我们提供了一种简洁高效的方式来创建列表。而除了列表之外，Python还支持一种类似的语法结构来创建集合——集合生成式（SetComprehension）。集合生成式不仅可以帮助我们快速构造一个无序且不重复的集合，还能有效提升代码的可读性和执行效率。本文将带你全面了解：✅什么是集合生成式✅集合生成式的语法结
Selenium使用指南
点击文末小卡片，免费获取软件测试全套资料，资料在手，涨薪更快Selenium是网页应用中最流行的自动化测试工具，可以用来做自动化测试或者浏览器爬虫等。官网地址为：相对于另外一款web自动化测试工具QTP来说有如下优点：免费开源轻量级，不同语言只需要一个体积很小的依赖包支持多种系统，包括Windows，Mac，Linux支持多种浏览器，包括Chrome，FireFox，IE，safari，opera
Python开发从新手到专家：第三章列表、元组和集合 caifox菜狐狸 Python开发从新手到专家 python 元素集合列表元组数据结构字典
在Python开发的旅程中，数据结构是每一位开发者必须掌握的核心知识。它们是构建程序的基石，决定了代码的效率、可读性和可维护性。本章将深入探讨Python中的三种基本数据结构：列表、元组和集合。这三种数据结构在实际开发中有着广泛的应用，从简单的数据存储到复杂的算法实现，它们都扮演着不可或缺的角色。无论你是刚刚接触Python的新手，还是希望进一步提升编程技能的开发者，本章都将是你的宝贵指南。我们将
python入门之字典二十四桥_ python入门 python
文章目录一、字典定义二、字典插入三、字典删除四、字典修改五、字典查找六、字典遍历七、字典拆包一、字典定义#{}键值对各个键值对之间用逗号隔开#1.有数据的字典dict1={'name':'zmz','age':20,'gender':'boy'}print(dict1)#2.创建空字典dict2={}print(dict2)dict3=dict()print(dict3)二、字典插入dict1={
python类的定义与使用菜鸟驿站2020 python
class01.py代码如下classTicket():#类的名称首字母大写#在类里定义的变量称为属性,第一个属性必须是selfdef__init__(self,checi,fstation,tstation,fdate,ftime,ttime,notes):self.checi=checiself.fstation=fstationself.tstation=tstationself.fdate
Python爬虫设置代理IP 菜鸟驿站2020 python
配置代理ipfrombs4importBeautifulSoupimportrequestsimportrandom#从ip代理网站获取ip列表defget_ip_list(url,headers):web_data=requests.get(url,headers=headers)soup=BeautifulSoup(web_data.text,'lxml')ips=soup.find_all(
Tensorflow 回归模型 FLASK + DOCKER 部署至 Ubuntu 虚拟机
准备工作：安装虚拟机，安装ubuntu，安装python3.x、pip和对应版本的tensorflow和其他库文件,安装docker。注意事项：1.windows系统运行的模型文件不能直接运行到虚拟机上，需在虚拟机上重新运行并生成模型文件2.虚拟机网络状态改为桥接Flask代码如下：fromflaskimportFlask,request,jsonifyimportpickleimportnump
10个可以快速用Python进行数据分析的小技巧_python 通径分析 2401_86043917 python 数据分析开发语言
df.iplot()![](https://img-blog.csdnimg.cn/img_convert/f3c1ad79e3c29ed0231d72af2988f6f9.jpeg)![](https://img-blog.csdnimg.cn/img_convert/dd456c392a2ddd14c649270707520e48.jpeg)df.iplot()vsdf.plot()右侧的可视
【Python多线程】晟翰逸闻 Python python
文章目录前言一、Python等待event.set二、pythonracecondition和lock使用使用锁(Lock)三.pythonDeadLock使用等综合运用总结前言这篇技术文章讨论了多线程编程中的几个重要概念。它首先介绍了等待事件的使用，并强调了避免使用“ForLoop&Sleep”进行等待的重要性。接着，文档解释了竞态条件，并提供了处理共享资源的建议，即在使用共享资源时进行加锁和解
【pycharm专业版】【如何远程配置Python解释器】【SSH】资源存储库 python pycharm
Wejustlookedatconfiguringalocalinterpreter.Butwedon’talwayshavea“local”environment.Sometimes–andincreasinglyoften–ourenvironmentisoverthere.我们刚刚看了配置本地解释器。但我们并不总是有一个“本地”的环境。有时候–而且越来越多的时候–我们的环境就在那里。Let’
python线程同步锁_python的Lock锁，线程同步 weixin_39649660 python线程同步锁
一、Lock锁凡是存在共享资源争抢的地方都可以使用锁，从而保证只有一个使用者可以完全使用这个资源一旦线程获得锁，其他试图获取锁的线程将被阻塞acquire(blocking=True,timeout=-1):默认阻塞，阻塞可以设置超时时间，非阻塞时，timeout禁止设置，成功获取锁，返回True，否则返回Falsereleas():释放锁，可以从任何线程调用释放，已上锁的锁，会被重置为unloc
并发与并行：python多线程详解 m_merlon python 服务器 Python进阶教程 python
简介多进程和多线程都可以执行多个任务，线程是进程的一部分。线程的特点是线程之间可以共享内存和变量，资源消耗少，缺点是线程之间的同步和加锁比较麻烦。在cpython中，截止到3.12为止依然存在全局解释器锁（GIL）,不能发挥多核的优势，因此python多线程更适合IO密集型任务并发提高效率，CPU密集型任务推荐使用多进程并行解决。注：此说法仅适用于python（如：c++的多线程可以利用到多核并行
python多线程：生产者与消费者，高级锁定Condition、queue队列使用案例与注意事项网小鱼的学习笔记 Python python java 大数据
高级锁定这是python中的另一种中锁定，就像是它的名字一样是可以有条件的condition，首先程序使用acquire进入锁定状态，如果需要符合一定的条件才处理数据，此时可以调用wait，让自己进入睡眠状态，程序设计时候需要用notify通知其他线程，然后放弃锁定release此时其他再等待的线程因为受到通知notify，这时候被激活了，就开始运作。生产者与消费者的设计程序用producer方法
python协程与异步并发，同步与阻塞，异步与非阻塞，Python异步IO、协程与同步原语介绍，协程的优势和劣势网小鱼的学习笔记 Python python 服务器开发语言
协程与异步软件系统的并发使用异步IO，无非是我们提的软件系统的并发，这个软件系统，可以是网络爬虫，也可以是web服务等并发的方式有多种，多线程，多进程，异步IO等多线程和多进程更多应用于CPU密集型的场景，比如科学计算的事件都消耗在CPU上面，利用多核CPU来分担计算任务多线程和多进程之间的场景切换和通讯代价很高，不适合IO密集型的场景，而异步IO就是非常适合IO密集型的场景，例如网络爬虫和web
使用Python和FFmpeg实现RGB到YUV444的转换追逐程序梦想者 ffmpeg python 开发语言
使用Python和FFmpeg实现RGB到YUV444的转换如果你需要将RGB图像转换为YUV444格式的图像，那么本文将为你提供一个简单且可靠的方法。我们将使用Python和FFmpeg来完成这个任务。首先，让我们了解一下什么是RGB和YUV。RGB表示红、绿、蓝三种颜色的组合，是最常见的图像格式之一。另一方面，YUV是一种亮度-色度编码，用于视频压缩和传输，它将图像分成明亮度（Y）和色度（U和
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数

爬虫笔记：Python Selenium详解

你可能感兴趣的:(爬虫,爬虫,python)