一夜惊仙

Python爬虫(三) —— 爬取动态渲染页面

文章目录

使用Selenium库

例子引入
声明游览器对象
访问页面
查找节点

单个节点
多个节点

节点交互
动作链
模拟执行javascript
获取节点信息

获取属性
获取文本值
获取id，位置，标签名和大小

切换Frame
延时等待

隐式等待
显示等待

前进和后退
Cookies
选项卡管理

虽然有些通过ajax动态渲染出来的页面通过对请求链接的分析我们仍然可以使用urllib或requests库来进行数据爬取，但javascript动态渲染页面的方式不止ajax一种，如echart官网的许多图表都是经过javascript执行特定算法生成的，且对于淘宝这种页面，其ajax请求中含有很多加密参数，我们也很难直接分析出它的规律。

为了解决这些问题，我们可以直接使用模拟浏览器运行的方式来实现，这样就可以做到在浏览器中看到是什么样，抓取的源码就是什么样，也就是可见即可爬。这样我们就不用再去管网页内部的JavaScript用了什么算法渲染页面，不用管网页后台的Ajax接口到底有哪些参数。

使用Selenium库

Selenium是一个自动化测试工具，利用它可以驱动浏览器执行特定的动作，如点击、下拉等操作，同时还可以获取浏览器当前呈现的页面的源代码，做到可见即可爬。对于一些JavaScript 动态渲染的页面来说，此种抓取方式非常有效。

例子引入

在使用Selenium之前，要根据电脑上已安装的chrome游览器的版本选择合适的版本下载chromedriver(下载地址：http://chromedriver.storage.googleapis.com/index.html)，windows下将下载到的chromedriver.exe文件放进python安装目录的scripts子目录即可。

下面来看一段使用selenium通过googledriver唤醒chrome自动进行测试的例子：

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait

browser = webdriver.Chrome()
try:
    browser.get('https://www.baidu.com')
    input = browser.find_element_by_id('kw')
    input.send_keys('Python')
    input.send_keys(Keys.ENTER)
    wait = WebDriverWait(browser, 10)
    wait.until(EC.presence_of_element_located((By.ID, 'content_left')))
    print(browser.current_url)
    # 输出当前的cookie
    print(browser.get_cookies())
    # 输出网页源代码
    print(browser.page_source)
finally:
    browser.close()

上述代码在游览器中造成的效果是先打开https://www.baidu.com百度页面，向里面输入Python，按回车确认搜索，游览器的搜索结果就出来了。游览器渲染出页面后selenium会马上抓取游览器此时相关的实时数据，如网页源码，cookie等。

声明游览器对象

selenium支持很多游览器，如Chrome，Firefox,Opera和Edge等，还支持Andriod，BlackBerry等手机端的游览器，另外还支持无界面游览器PhantomJS。

from selenium import webdriver

browser = webdriver.Chrome()
browser = webdriver.Firefox()
browser = webdriver.Edge()
browser = webdriver.PhantomJS()
browser = webdriver.Safari()

得到了游览器对象之后，我们就可以使相应的游览器执行一定的自动化操作。

访问页面

使用get()方法来请求网页。

from selenium import webdriver

browser = webdriver.Chrome()
browser.get('https://www.taobao.com')
print(browser.page_source)
browser.close()

查找节点

Selenium可以驱动浏览器完成各种操作，比如填充表单、模拟点击等。比如，我们想要完成向某个输入框输入文字的操作，总需要知道这个输入框在哪里吧？而Selenium提供了一系列查找节点的方法，我们可以用这些方法来获取想要的节点，以便下一步执行一些动作或者提取信息。

单个节点

from selenium import webdriver

browser = webdriver.Chrome()
browser.get('https://www.taobao.com')
# 根据id查找节点
input_first = browser.find_element_by_id('q')
# 根据css选择器查找节点
input_second = browser.find_element_by_css_selector('#q')
# 根据xpath字符串查找节点
input_third = browser.find_element_by_xpath('//*[@id="q"]')
# 得到的节点都是WebElement类型
print(input_first, input_second, input_third)
browser.close()

# /*******----- 输出: ------********\
#

除了上述通过id,css选择器，xpath表达式查找节点外，selenuim还提供了其他各种根据类名，标签名查找节点的方法：

find_element_by_id()

find_element_by_name()

find_element_by_xpath()

find_element_by_link_text()

find_element_by_partial_link_text()

find_element_by_tag_name()

find_element_by_class_name()

find_element_by_css_selector()

另外，selenium还提供了一个通用的查找节点的方法find_element()，它需要两个参数，查找方式By和查找信息：

from selenium import webdriver
from selenium.webdriver.common.by import By

browser = webdriver.Chrome()
browser.get('https://www.taobao.com')
# find_element(By.ID, 'q')其实等价于find_element_by_id('q')
input_first = browser.find_element(By.ID, 'q')
print(input_first)
browser.close()

多个节点

如果符合条件的节点有多个，则再使用find_element()系列的方法就只能得到匹配列表中第一个符合条件的节点了，要想拿到所有匹配成功的节点，则需要使用find_elements()系列的方法。

from selenium import webdriver

browser = webdriver.Chrome()
browser.get('https://www.taobao.com')
lis = browser.find_elements_by_css_selector('.service-bd li')
# 可见，find_elements()系列方法得到的是一个列表，其中每个节点都是WebElement类型
print(lis)
browser.close()

# /*******----- 输出: ------********\
# [, , , , , , , , , , , , , , , ]

可见，find_elements()系列方法除了加了个-s外，其他方面与find_element()的使用没有什么不同。

节点交互

Selenium 可以驱动浏览器来执行一些操作，也就是说可以让浏览器模拟执行一些动作。比较常见的用法有：输入文字时用send_keys()方法，清空文字时用clear()方法，点击按钮时用click()方法。

from selenium import webdriver
import time

browser = webdriver.Chrome()
browser.get('https://www.taobao.com')
input = browser.find_element_by_id('q')
input.send_keys('iPhone')
time.sleep(1)
input.clear()
input.send_keys('iPad')
button = browser.find_element_by_class_name('btn-search')
button.click()

动作链

在上面的实例中，一些交互动作都是针对某个节点执行的。比如，对于输入框，我们就调用它的输入文字和清空文字的方法；对于按钮，就调用它的点击方法。其实，还有另外一些操作，它们是没有特定的执行对象的，比如鼠标拖曳、键盘按键等，这些动作用另一种方式来执行，那就是动作链。

通过动作链模拟鼠标拖拽动作：

from selenium import webdriver
from selenium.webdriver import ActionChains

browser = webdriver.Chrome()
browser.get('http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable')
browser.switch_to.frame('iframeResult')
source = browser.find_element_by_css_selector('#draggable')
target = browser.find_element_by_css_selector('#droppable')
actions = ActionChains(browser)
# 定义鼠标操作的起始节点和目标节点
actions.drag_and_drop(source, target)
# 执行动作链
actions.perform()

模拟执行javascript

对于有些操作，selenium并没有提供相应的实现方式，如下拉进度条。

from selenium import webdriver

browser = webdriver.Chrome()
browser.get('http://www.zhihu.com/explore')
# 模拟执行javascript将进度条拉到最底层
browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')
# javascript弹窗
browser.execute_script('alert("To Bottom")')

获取节点信息

事实上，使用selenium的page_source拿到网页的源代码后我们就可以使用解析库进行分析了，但selenium中也提供了关于节点的操作。

获取属性

使用get_attribute()获取节点属性。

from selenium import webdriver
from selenium.webdriver import ActionChains

browser = webdriver.Chrome()
url = 'http://www.zhihu.com/explore'
browser.get(url)
logo = browser.find_element_by_id('zh-top-link-logo')
print(logo)
# 使用get_attribute(attriName)得到属性的属性值
print(logo.get_attribute('class'))

# /*******----- 输出: ------********\
# 
# zu-top-link-logo

获取文本值

直接使用text属性可获得节点的内部文本信息。

from selenium import webdriver

browser = webdriver.Chrome()
url = 'http://www.zhihu.com/explore'
browser.get(url)
input = browser.find_element_by_class_name('z-top-add-question')
# 使用text属性获取节点内部纯文本
print(input.text)

获取id，位置，标签名和大小

id，location，tag_name和size属性分别用于获取id，位置，标签名和大小这几个属性的值。

from selenium import webdriver

browser = webdriver.Chrome()
url = 'http://www.zhihu.com/explore'
browser.get(url)
input = browser.find_element_by_class_name('z-top-add-question')
print(input.id)
print(input.location)
print(input.tag_name)
print(input.size)

切换Frame

我们知道，网页中有一种节点叫作iframe，也就是子Frame，相当于页面的子页面，它的结构和外部网页的结构完全一致。Selenium打开页面后，它默认是在父级Frame里面操作，而此时如果页面中还有子Frame，它是不能获取到子Frame里面的节点的。这时就需要使用switch_to.frame()方法来切换Frame。

from selenium import webdriver
from selenium.common.exceptions import NoSuchElementException

browser = webdriver.Chrome()
url = 'http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'
browser.get(url)
# 使用switch_to.frame()切换到子Frame
browser.switch_to.frame('iframeResult')
try:
    logo = browser.find_element_by_class_name('logo')
except NoSuchElementException:
    # 很显然，在子Frame里获取在父级Frame里的logo肯定是行不通的
    print('No LOGO')
# 切换回父级Frame
browser.switch_to.parent_frame()
logo = browser.find_element_by_class_name('logo')
print(logo)
print(logo.text)

# /*******----- 输出: ------********\
# No LOGO
# 
# RUNOOB.COM

延时等待

在Selenium中，get()方法会在网页框架加载结束后结束执行，此时如果获取page_source ，可能并不是浏览器完全加载完成的页面，如果某些页面有额外的Ajax请求，我们在网页惊代码中也不一定能成功获取到。所以，这里需要延时等待一定时间，确保节点已经加载出来。

等待的方式有两种，一是隐式等待，另一个是显示等待。

隐式等待

from selenium import webdriver

browser = webdriver.Chrome()
browser.implicitly_wait(10)
url = 'https://www.zhihu.com/explore'
input = browser.find_element_by_class_name('zu-top-add-question')
print(input)

隐式等待的效果其实并没有那么好，因为我们只规定了一个固定时间，而页面的加载时间会受到网络条件的影响。

显示等待

显示等待则指定要查找的节点，然后指定一个最长等待时间。如果
在规定时间内加载出来了这个节点，就返回查找的节点；如果到了规定时间依然没有加载出该节点，则抛出超时异常。

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

browser = webdriver.Chrome()
url = 'https://www.taobao.com/'
browser.get(url)
# 使用WebDriverWait对象指定最长等待时间
wait = WebDriverWait(browser, 10)
# 使用until()传入结束等待的条件
# presence_of_element_located()表示指定的节点出现了
input = wait.until(EC.presence_of_element_located((By.ID, 'q')))
# element_to_be_clickable()表示指定的节点(按钮)是可点击的状态
button = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '.btn-search')))
# 如果 10 秒内它是可点击的，也就是成功加载出来了，就返回这个按钮节点；如果超过 10 秒还不可点击，也就是还没有加载出来，就抛出异常
print(input, button)


# /*******----- 输出: ------********\
#

而等待条件，除了上述代码中演示过的，其实还有很多：

等待条件	含义
title_is	标题是某内容
title_contains	标题包含某内容
presence_of_element_located	节点加载出来，传入定位元组，如(By. ID, ‘p’)
visibility_of_element_located	节点可见，传人定位元组
visibility_of	可见，传人节点对象
presence_of^all_elements_located	所有节点都加载出来
text_towbe_present-in_element	某个节点文本包含某文字
text_to_be_present_in_element_value	某个节点值包含某文字
frame_to_be_available_and_switch_to_it	加载并切换
invisibility_of_element-located	节点不可见
element_to-be-Clickable	节点可点击
staleness_of	判断一个节点是否仍在DOM,可用于判断一个页面是否已经刷新
element_to_be_selected	节点可选择，传入节点对象
element_located_to_be_selected	节点可选择，传人定位元组
element_selection_state_to_be	传人节点对象以及状态，相等返回True,否则返回False
element_located_selection_state_to_be	传入定位元组以及状态，相等返回True,否则返回False
alert_is_present	是否出现警告

前进和后退

一般浏览器都有前进和后退功能(即返回到上级网页和回到之后的网页)， Selenium也可以完成这个操作，它使用back()方法后退，使用于forward()方法前进。

from selenium import webdriver
import time
browser = webdriver.Chrome()
browser.get('https://www.baidu.com/')
browser.get('https://www.taobao.com/')
browser.get('https://www.python.org/')
browser.back()
time.sleep(1)
browser.forward()
browser.close()

Cookies

使用Selenium，还可以方便地对Cookies进行操作，例如获取、添加、删除Cookies等。

from selenium import webdriver

browser = webdriver.Chrome()
# 页面加载完成后，游览器的cookie就已经生成了
browser.get('https://www.zhihu.com/explore')
# 使用get_cookie()输出所有cookie
print(browser.get_cookies())
# 使用add_cookie()向游览器增加cookie记录
browser.add_cookie({'name': 'name', 'domain': 'www.zhihu.com', 'value': 'germey'})
print(browser.get_cookies())
# 删除所有cookie
browser.delete_all_cookies()
print(browser.get_cookies())
browser.close()

# /*******----- 输出: ------********\
# [{'value': '1', 'path': '/', 'domain': '.zhihu.com', 'httpOnly': False, 'name': 'l_n_c', 'secure': False}, {'value': '80f350dcd7c650b07bd7b485fcab5bf7', 'path': '/', 'domain': 'www.zhihu.com', 'httpOnly': False, 'name': 'tgw_l7_route', 'expiry': 1547908601.342857, 'secure': False}, {'value': '51854390.0.10.1547907704', 'path': '/', 'domain': '.zhihu.com', 'httpOnly': False, 'name': '__utmb', 'expiry': 1547909504, 'secure': False}, {'value': '4eb359484d4a4a7c976db940667702a7|1547907703000|1547907703000', 'path': '/', 'domain': '.zhihu.com', 'httpOnly': False, 'name': 'q_c1', 'expiry': 1642515702.342909, 'secure': False}, {'value': '3d56b90bcd968521f27ea4779c962193', 'path': '/', 'domain': 'www.zhihu.com', 'httpOnly': False, 'name': '_xsrf', 'secure': False}, {'value': '"NmFmZTc4MjA3OGViNDUyNGEzODQ2MTMyMDQyNTgwNDY=|1547907703|8766f13e22119faced8db1aa6daff9bcdfab1e32"', 'path': '/', 'domain': '.zhihu.com', 'httpOnly': False, 'name': 'r_cap_id', 'expiry': 1550499702.342951, 'secure': False}, {'value': '"ZTcyZGMyZTI4NGI2NDY1NzkyYjM2MzRmMDkzZjEyYjI=|1547907702|2bf8c3ca9cd16dc3d843cd3d1f00fdaf7f068467"', 'path': '/', 'domain': '.zhihu.com', 'httpOnly': False, 'name': 'cap_id', 'expiry': 1550499701.342968, 'secure': False}, {'value': '"YTllZjJkMTZmZDQxNGE4ZmIwMWIwZTI3M2IzNTNjMTg=|1547907703|c46368fc45e35567ef681be1ca4c3004938c9066"', 'path': '/', 'domain': '.zhihu.com', 'httpOnly': False, 'name': 'l_cap_id', 'expiry': 1550499702.342985, 'secure': False}, {'value': '1', 'path': '/', 'domain': '.zhihu.com', 'httpOnly': False, 'name': 'n_c', 'secure': False}, {'value': '"ACBiqfWy2Q6PTmkQdt7ZJ9dWbDRjWANhr70=|1547907705"', 'path': '/', 'domain': '.zhihu.com', 'httpOnly': False, 'name': 'd_c0', 'expiry': 1642515704.387046, 'secure': False}, {'value': '51854390.825222534.1547907704.1547907704.1547907704.1', 'path': '/', 'domain': '.zhihu.com', 'httpOnly': False, 'name': '__utma', 'expiry': 1610979704, 'secure': False}, {'value': '51854390', 'path': '/', 'domain': '.zhihu.com', 'httpOnly': False, 'name': '__utmc', 'secure': False}, {'value': '51854390.1547907704.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none)', 'path': '/', 'domain': '.zhihu.com', 'httpOnly': False, 'name': '__utmz', 'expiry': 1563675704, 'secure': False}, {'value': '51854390.000--|3=entry_date=20190119=1', 'path': '/', 'domain': '.zhihu.com', 'httpOnly': False, 'name': '__utmv', 'expiry': 1610979704, 'secure': False}, {'value': '9d0a8461-702d-4f3a-8c94-e0950d80e675', 'path': '/', 'domain': '.zhihu.com', 'httpOnly': False, 'name': '_zap', 'expiry': 1610979704, 'secure': False}]
# [{'value': '1', 'path': '/', 'domain': '.zhihu.com', 'httpOnly': False, 'name': 'l_n_c', 'secure': False}, {'value': '80f350dcd7c650b07bd7b485fcab5bf7', 'path': '/', 'domain': 'www.zhihu.com', 'httpOnly': False, 'name': 'tgw_l7_route', 'expiry': 1547908601.342857, 'secure': False}, {'value': '51854390.0.10.1547907704', 'path': '/', 'domain': '.zhihu.com', 'httpOnly': False, 'name': '__utmb', 'expiry': 1547909504, 'secure': False}, {'value': '4eb359484d4a4a7c976db940667702a7|1547907703000|1547907703000', 'path': '/', 'domain': '.zhihu.com', 'httpOnly': False, 'name': 'q_c1', 'expiry': 1642515702.342909, 'secure': False}, {'value': '3d56b90bcd968521f27ea4779c962193', 'path': '/', 'domain': 'www.zhihu.com', 'httpOnly': False, 'name': '_xsrf', 'secure': False}, {'value': '"NmFmZTc4MjA3OGViNDUyNGEzODQ2MTMyMDQyNTgwNDY=|1547907703|8766f13e22119faced8db1aa6daff9bcdfab1e32"', 'path': '/', 'domain': '.zhihu.com', 'httpOnly': False, 'name': 'r_cap_id', 'expiry': 1550499702.342951, 'secure': False}, {'value': '"ZTcyZGMyZTI4NGI2NDY1NzkyYjM2MzRmMDkzZjEyYjI=|1547907702|2bf8c3ca9cd16dc3d843cd3d1f00fdaf7f068467"', 'path': '/', 'domain': '.zhihu.com', 'httpOnly': False, 'name': 'cap_id', 'expiry': 1550499701.342968, 'secure': False}, {'value': '"YTllZjJkMTZmZDQxNGE4ZmIwMWIwZTI3M2IzNTNjMTg=|1547907703|c46368fc45e35567ef681be1ca4c3004938c9066"', 'path': '/', 'domain': '.zhihu.com', 'httpOnly': False, 'name': 'l_cap_id', 'expiry': 1550499702.342985, 'secure': False}, {'value': '1', 'path': '/', 'domain': '.zhihu.com', 'httpOnly': False, 'name': 'n_c', 'secure': False}, {'value': '"ACBiqfWy2Q6PTmkQdt7ZJ9dWbDRjWANhr70=|1547907705"', 'path': '/', 'domain': '.zhihu.com', 'httpOnly': False, 'name': 'd_c0', 'expiry': 1642515704.387046, 'secure': False}, {'value': '51854390.825222534.1547907704.1547907704.1547907704.1', 'path': '/', 'domain': '.zhihu.com', 'httpOnly': False, 'name': '__utma', 'expiry': 1610979704, 'secure': False}, {'value': '51854390', 'path': '/', 'domain': '.zhihu.com', 'httpOnly': False, 'name': '__utmc', 'secure': False}, {'value': '51854390.1547907704.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none)', 'path': '/', 'domain': '.zhihu.com', 'httpOnly': False, 'name': '__utmz', 'expiry': 1563675704, 'secure': False}, {'value': '51854390.000--|3=entry_date=20190119=1', 'path': '/', 'domain': '.zhihu.com', 'httpOnly': False, 'name': '__utmv', 'expiry': 1610979704, 'secure': False}, {'value': '9d0a8461-702d-4f3a-8c94-e0950d80e675', 'path': '/', 'domain': '.zhihu.com', 'httpOnly': False, 'name': '_zap', 'expiry': 1610979704, 'secure': False}, {'value': 'germey', 'path': '/', 'domain': 'www.zhihu.com', 'httpOnly': False, 'name': 'name', 'expiry': 2178627704, 'secure': True}]
# []

选项卡管理

在使用游览器打开网页时会伴随选项卡的开启，使用Selenium可以对选项卡进行操作。

from selenium import webdriver
import time

browser = webdriver.Chrome()
# 在第一个选项(此时也只有一个选项卡)卡中打开https://www.baidu.com
browser.get('https://www.baidu.com')
# 执行window.open()开启一个新选项卡
browser.execute_script('window.open()')
print(browser.window_handles)
# 切换到第二个选项卡
browser.switch_to_window(browser.window_handles[1])
browser.get('https://www.taobao.com')
time.sleep(1)
# 在回到第一个选项卡中打开https://python.org
browser.switch_to_window(browser.window_handles[0])
browser.get('https://python.org')

Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
python爬取微信小程序数据,python爬取小程序数据 2301_81900439 前端
大家好，小编来为大家解答以下问题，python爬取微信小程序数据，python爬取小程序数据，现在让我们一起来看看吧！Python爬虫系列之微信小程序实战基于Scrapy爬虫框架实现对微信小程序数据的爬取首先，你得需要安装抓包工具，这里推荐使用Charles，至于怎么使用后期有时间我会出一个事例最重要的步骤之一就是分析接口，理清楚每一个接口功能，然后连接起来形成接口串思路,再通过Spider的回调
【Python爬虫】百度百科词条内容 PokiFighting 数据处理 python 爬虫开发语言
词条内容我这里随便选取了一个链接，用的是FBI的词条importurllib.requestimporturllib.parsefromlxmlimportetreedefquery(url):headers={'user-agent':'Mozilla/5.0(WindowsNT6.1;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/80.
Python爬虫代理池极客李华 python授课 python 爬虫开发语言
Python爬虫代理池网络爬虫在数据采集和信息抓取方面起到了关键作用。然而，为了应对网站的反爬虫机制和保护爬虫的真实身份，使用代理池变得至关重要。1.代理池的基本概念：代理池是一组包含多个代理IP地址的集合。通过在爬虫中使用代理池，我们能够隐藏爬虫的真实IP地址，实现一定程度的匿名性。这有助于防止被目标网站封锁或限制访问频率。2.为何使用代理池：匿名性：代理池允许爬虫在请求目标网站时使用不同的IP
10个高效的Python爬虫框架，你用过几个？进击的C语言 python
小型爬虫需求，requests库+bs4库就能解决；大型爬虫数据，尤其涉及异步抓取、内容管理及后续扩展等功能时，就需要用到爬虫框架了。下面介绍了10个爬虫框架，大家可以学习使用！1.Scrapyscrapy官网：https://scrapy.org/scrapy中文文档：https://www.osgeo.cn/scrapy/intro/oScrapy是一个为了爬取网站数据，提取结构性数据而编写的
python爬虫(5)之CSDN It is a deal️ 小项目 python json 爬虫
CSDN的爬虫相对于doubatop250更加简单，一般只需要title和url即可下面是相关的代码：#爬虫之csdn#分析urlhttps://www.csdn.net/api/articles?type=more&category=python&shown_offset=0（firstpage）#https://www.csdn.net/api/articles?type=more&categ
Python——爬虫星和月 python
当编写一个Python爬虫时，你可以使用BeautifulSoup库来解析网页内容，使用requests库来获取网页的HTML代码。下面是一个简单的示例，演示了如何获取并解析网页内容：importrequestsfrombs4importBeautifulSoup#发送HTTP请求获取网页内容url='https://www.example.com'#要爬取的网页的URLresponse=requ
基于Python爬虫四川成都二手房数据可视化系统设计与实现(Django框架) 研究背景与意义、国内外研究现状_django商品房数据分析论文(1) 莫莫Android开发信息可视化 python 爬虫
3.国外研究现状在国外，二手房数据可视化也是一个热门的研究领域。以美国为例，有很多公司和网站提供了专门的二手房数据可视化工具，如Zillow、Redfin等。这些工具通常提供房价趋势图、房价分布图、房源信息等功能，帮助用户更好地了解房市动态。综上所述，虽然国内外在二手房数据可视化方面已经有了一些研究成果，但对于四川成都地区的二手房市场还没有相关的研究和可视化系统。因此，本研究旨在设计并实现一个基于
python requests下载网页_python爬虫 requests-html的使用 weixin_39600319 python requests下载网页
一介绍Python上有一个非常著名的HTTP库——requests，相信大家都听说过，用过的人都说非常爽！现在requests库的作者又发布了一个新库，叫做requests-html，看名字也能猜出来，这是一个解析HTML的库，具备requests的功能以外，还新增了一些更加强大的功能，用起来比requests更爽！接下来我们来介绍一下它吧。#官网解释'''Thislibraryintendsto
解决“Python中 pip不是内部或外部命令，也不是可运行的程序或批处理文件”的方法。 གཡུ ། Python 常规问题 python pip 机器学习自然语言处理
解决‘Python中pip不是内部或外部命令，也不是可运行的程序或批处理文件。’的方法1、pip是什么？pip是一个以Python计算机程序语言写成的软件包管理系统，他可以安装和管理软件包，另外不少的软件包也可以在“Python软件包索引”中找到。它可以通过cmd（命令提示符）非常方便地下载和管理Python第三方库，比如，Python爬虫中常见的requests库等。但是我们在使用cmd运行pi
python爬虫的urlib知识梳理卑微小鹿爬虫
1:urlib.request.urlopen发送请求getpost网络超时timeout=0.1网络请求模拟一个浏览器所发送的网络请求创建requestrequest头信息➕host/IP➕验证➕请求方式cookice客户返回响应数据所留下来的标记代理ipUrlib.request.proxyhander字典类型异常处理codereasonhearders拆分URLurlpaseurlsplit
Python爬虫入门实战：抓取CSDN博客文章 A Bug's Code Journey 爬虫 python
一、前言在大数据时代，网络上充斥着海量的信息，而爬虫技术就是解锁这些信息宝库的钥匙。Python，以其简洁易读的语法和强大的库支持，成为编写爬虫的首选语言。本篇博客将从零开始，带你一步步构建一个简单的Python爬虫，抓取CSDN博客的文章标题和链接。二、环境准备在开始之前，确保你的环境中安装了Python和以下必要的库：1.requests：用于发送HTTP请求2.BeautifulSoup：用
Python爬虫——Selenium方法爬取LOL页面张小生180 python 爬虫 selenium
文章目录Selenium介绍用Selenium方法爬取LOL每个英雄的图片及名字Selenium介绍Selenium是一个用于自动化Web应用程序测试的工具，但它同样可以被用来进行网页数据的抓取（爬虫）。Selenium通过模拟用户在浏览器中的操作（如点击、输入、滚动等）来与网页交互，并可以捕获网页的渲染结果，这对于需要JavaScript渲染的网页特别有用。安装Selenium首先，你需要安装S
Python爬虫如何搞定动态Cookie？小白也能学会！图灵学者 python精华 python 爬虫 github
目录1、动态Cookie基础1.1Cookie与Session的区别1.2动态Cookie生成原理2、requests.Session方法2.1Session对象保持2.2处理登录与Cookie刷新2.3长连接与状态保持策略3、Selenium结合ChromeDriver实战3.1安装配置Selenium3.2动态抓取&处理Cookie4、requests-Session结合Selenium技巧4
Python爬虫基础知识板栗妖怪 python 爬虫开发语言
(未完成)爬虫概念爬虫用于爬取数据，又称之为数据采集程序爬取数据来源于网络，网络中数据可以是有web服务器、数据库服务器、索引库、大数据等等提供爬取数据是公开的、非盈利。python爬虫使用python编写的爬虫脚本可以完成定时、定量、指定目标的数据爬取。主要使用多（单）线程/进程、网络请求库、数据解析、数据储存、任务调度等相关技术。爬虫和web后端服务关系爬虫使用网络请求库，相当于客户端请求，w
python爬虫处理滑块验证_python selenium爬虫滑块验证用户6731453637 python爬虫处理滑块验证
importrandomimporttimefromPILimportImagefromioimportBytesIOimportrequestsasrqfrombs4importBeautifulSoupasbsfromseleniumimportwebdriverfromselenium.webdriverimportActionChainsfromselenium.webdriverimpo
如何用python爬取股票数据选股_用python爬取股票数据 weixin_39752087
获取数据是数据分析中必不可少的一部分，而网络爬虫是是获取数据的一个重要渠道之一。鉴于此，我拾起了Python这把利器，开启了网络爬虫之路。本篇使用的版本为python3.5，意在抓取证券之星上当天所有A股数据。程序主要分为三个部分：网页源码的获取、所需内容的提取、所得结果的整理。一、网页源码的获取很多人喜欢用python爬虫的原因之一就是它容易上手。只需以下几行代码既可抓取大部分网页的源码。imp
Python爬虫基础总结醉蕤 Python python 爬虫
活动地址：CSDN21天学习挑战赛学习的最大理由是想摆脱平庸，早一天就多一份人生的精彩；迟一天就多一天平庸的困扰。学习日记目录学习日记一、关于爬虫1、爬虫的概念2、爬虫的优点3、爬虫的分类4、重要提醒5、反爬和反反爬机制6、协议7、常用请求头和常用的请求方法8、常见的响应状态码9、url的详解二、爬虫基本流程三、可能需要的库四、小例1、requests请求网页2、python解析网页源码（使用Be
2024年最新初面蚂蚁金服，Python爬虫实战：爬取股票信息(1)，面试题解析已整理成文档怎么办 imtokenmax合约众筹 2024年程序员学习 python 爬虫开发语言
收集整理了一份《2024年最新Python全套学习资料》免费送给大家，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上Python知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来如果你需要这些资料，可以添加V无偿获取：hxbc188（备注666）正文首先要爬取股票数据
Python怎么去抓取公众号的文章？Python爬虫爬取微信公众号方法快乐星球没有乐 python 爬虫微信
很多小伙伴在学习了爬虫之后都能够使用它去抓取一些网页上的数据了，但是最近有小伙伴问我微信公众号上的文章要怎么去抓取出来。那这一篇文章将会以实际的代码示例来介绍如何去使用python爬虫抓取微信公众号的文章。1.下载wkhtmltopdf1这个应用程序，它可以将HTML格式的数据转换成PDF格式的。2.打开python编辑器，新建一个python项目命名为wxgzhPDF并在里面创建一个空白的pyt
Python爬虫——使用JSON库解析JSON数据_爬虫json解析 Java老杨程序员 python 爬虫 json
文章目录1如何在网页中获取JSON数据？2Python内置的JSON库这几天在琢磨爬取动态网页，发现需要爬取js内容，虽然说最后还是没有用上JSON库进行解析，不过笔记写的都写了，就发出来记录一下吧。1如何在网页中获取JSON数据？打开一个具有动态渲染的网页，按F12打开浏览器开发工具，点击“网络”，再刷新一下网页，观察是否有新的数据包。发现有js后缀的文件，这就是我们想要的json数据了。2Py
Python100个库分享第16个—sqlparse(SQL解析器) 一晌小贪欢 Python100个库分享 sql python 爬虫开发语言 python学习 python爬虫
目录专栏导读库的介绍库的安装1、解析SQL语句2、格式化SQL语句3、提取表名4、分割多条SQL语句实际应用代码参考：总结专栏导读欢迎来到Python办公自动化专栏—Python处理办公问题，解放您的双手️‍博客主页：请点击——>一晌小贪欢的博客主页求关注该系列文章专栏：请点击——>Python办公自动化专栏求订阅此外还有爬虫专栏：请点击——>Python爬虫基础专栏求订阅此外还有python基础
python web自动化 gaoguide2015 自动化脚本 web html
1.python爬虫之模拟登陆csdn(登录、cookie)http://blog.csdn.net/yanggd1987/article/details/52127436?locationNum=32、xml解析：Python网页解析：BeautifulSoup与lxml.html方式对比（xpath）lxml库速度快，功能强大，推荐。http://blog.sina.com.cn/s/blog
Python爬虫-小某书达人榜单写python的鑫哥爬虫实战进阶 python 爬虫开发语言 cookie requests
前言本文是该专栏的第35篇，后面会持续分享python爬虫干货知识，记得关注。本文案例来介绍某平台达人榜单，值得注意的是，在开始之前，需要提前登录，否则榜单无法拿到。废话不多说，下面跟着笔者直接往下看正文。正文目标：aHR0cHM6Ly9keS5odWl0dW4uY29tL2FwcC8jL2FwcC9kYXNoYm9hcmQ=（注：使用base64自行解码）需求：红薯版-达人榜单打开页面之后，先点
【Python爬虫实战】：二手房数据爬取 3344什么都不是 python pandas 数据分析
文章目录系列文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言万维网上有着无数的网页，包含着海量的信息，无孔不入、森罗万象。但很多时候，无论出于数据分析或产品需求，我们需要从某些网站，提取出我们感兴趣、有价值的内容，但是纵然是进化到21世纪的人类，依然只有两只手，一双眼，不可能去每一个网页去点去看，然后再复制粘贴。所以我们需要一种能自动获取网页内容并可以按照指定规则提取
Python爬虫实战 weixin_34007879 爬虫 json java
引言网络爬虫是抓取互联网信息的利器，成熟的开源爬虫框架主要集中于两种语言Java和Python。主流的开源爬虫框架包括：1.分布式爬虫框架：Nutch2.Java单机爬虫框架：Crawler4j,WebMagic,WebCollector、Heritrix3.python单机爬虫框架：scrapy、pyspiderNutch是专为搜索引擎设计的的分布式开源框架，上手难度高，开发复杂，基本无法满足快
2024年Python爬虫：爬取招聘网站系列 - 前程无忧 2401_84562659 程序员 python 爬虫开发语言
importpprint#格式化输出模块importcsv#保存csv数据算了，我直接贴代码吧，流程都写清楚了，我把注释也标上了。兄弟们在学习的时候没有人解答和好的学习资料教程就很痛苦，解答或者其它教程都在这了电子书、视频都有！对应视频教程：【Python爬虫】招聘网站实战合集第一弹：爬取前程无忧，零基础也能学会！f=open(‘python招聘数据1.csv’,mode=‘a’,encoding
2024年Python最新Python爬虫入门教程30：爬取拉勾网招聘数据信息(1) 2401_84584609 程序员 python 爬虫信息可视化
Python爬虫入门教程23：A站视频的爬取，解密m3u8视频格式Python爬虫入门教程24：下载某网站付费文档保存PDFPython爬虫入门教程25：绕过JS加密参数，实现批量下载抖某音无水印视频内容Python爬虫入门教程26：快手视频网站数据内容下载Python爬虫入门教程27：爬取某电商平台数据内容并做数据可视化Python爬虫入门教程28：爬取微博热搜榜并做动态数据展示Python爬虫
python爬虫面试真题及答案_Python面试题爬虫篇(附答案) 朴少 python爬虫面试真题及答案
0|1第一部分必答题注意：第31题1分，其他题均每题3分。1，了解哪些基于爬虫相关的模块？-网络请求：urllib，requests，aiohttp-数据解析：re，xpath，bs4，pyquery-selenium-js逆向：pyexcJs2，常见的数据解析方式？-re、lxml、bs43，列举在爬虫过程中遇到的哪些比较难的反爬机制？-动态加载的数据-动态变化的请求参数-js加密-代理-coo
2024年Python最全Python爬虫实战：爬取股票信息_python 获取a股所有代码(1) 2401_84585339 程序员 python 爬虫 windows
doc=PyQuery(r.text)list=[]#获取所有section中a节点，并进行迭代foriindoc('.stockTablea').items():try:href=i.attr.hreflist.append(re.findall(r"\d{6}",href)[0])except:continuelist=[item.lower()foriteminlist]#将爬取信息转换小写
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S