浅弋、璃鱼

python学习之爬虫(六)--selenium: 无头浏览器、selenium的基本使用、selenium元素定位的方法、selenium爬虫案例练习

一、无头浏览器:

1.什么是selenium:

Selenium是一个Web的自动测试工具, 最初是为了网站自动化测试二开发的, Selenium可以直接运行在浏览器上,特支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器), 可以接收指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏.

2.Phantom JS的介绍:

PhantomJS是一个基于Webkit的"无界面"(headless)浏览器, 它会把网站加载到内存并执行页面上的JavaScript.
下载地址: http://phantomjs.org/download.html

3. Chromedriver的介绍:

Chromedriver也是一个能够被selenium驱动的浏览器,但是和PhantomJS的区别在于它是有界面的.
下载地址：https://npm.taobao.org/mirrors/chromedriver

4.driver的安装:

最简单的安装方式: 解压后吧bin目录下的可执行文件移动到环境变量下

5. PhantomJS安装实例:

5.1 下载PhantomJS

wget https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-linux-x86_64.tar.bz2

5.2 解压并建立软连接:

tar -xvjf phantomjs-2.1.1-linux-x86_64.tar.bz2 
sudo cp -R phantomjs-2.1.1-linux-x86_64 /usr/local/share/ 
sudo ln -sf /usr/local/share/phantomjs-2.1.1-linux-x86_64/bin/phantomjs /usr/local/bin/

6. chromedriver安装示例:

chromedriver下载地址：
http://chromedriver.storage.googleapis.com/index.html

----- Linux 下安装方式
chromedriver_linux64.zip : 版本 ChromeDriver v2.22 (2016-06-06)
（支持 Chrome v49-52，当前Ubuntu虚拟机下的Chrome版本为50.0）


1. unzip chromedriver_linux64.zip
2. sudo chmod +x chromedriver
3. sudo mv chromedriver /usr/local/bin/


----- MacOS X 下安装方式
chromedriver_mac64.zip : 版本 ChromeDriver v2.32 (2017-08-30)
（支持 Chrome v59-61）

1. 安装 同Linux



----- Windows 下安装方式
chromedriver_win32.zip : 版本 ChromeDriver v2.32 (2017-08-30)
（支持 Chrome v59-61）

1. 解压 chromedriver_win32.zip
2. 将 chromedriver 移动到 Python安装目录下
（其实放哪都可以，但是需要配环境变量，放Python安装目录下省事）


注意：Chromedriver和电脑上的chrome版本有对应关系，建议使用最新的Chromedriver版本并且更新chrome浏览器到最新版

7.小结

能够安装PhtantomJs和Chromedriver浏览器
能够知道selenium是自动化测试工具/local/share/phantomjs-2.1.1-linux-x86_64/bin/phantomjs /usr/local/bin/

二、selenium的基本使用:

安装selenium:

pip install selenium

1.加载网页:

selenium通过控制浏览器,对应获取的数据都是elements的内容.

# coding=utf-8
from selenium import webdriver
import time
# 指定driver的绝对路径
# driver = webdriver.PhantomJS(executable_path='/home/worker/Desktop/driver/phantomjs') 
driver = webdriver.Chrome(executable_path=r''/home/worker/Desktop/driver/chromedriver')

# 想一个url发起请求
driver.get("https://www.baidu.com/")
# 保存页面
driver.save_screenshot("baidu.png")
time.sleep(5)

# 退出
driver.quit()

2.定位和操作 :

以百度搜索为例:

# coding=utf-8

from selenium import webdriver
import time
# 指定driver的绝对路径
# driver = webdriver.PhantomJS(executable_path='/home/worker/Desktop/driver/phantomjs') 
driver = webdriver.Chrome(executable_path=r'F:\学习\python学习内容\python练习\02_selenium的使用\chromedriver_win32\chromedriver.exe')

# 想一个url发起请求
driver.get("https://www.baidu.com/")
driver.find_element_by_id('kw').send_keys('python')
time.sleep(5)
driver.find_element_by_id('su').click()
time.sleep(5)

# 退出
driver.quit()

3.查看请求信息:

driver.page_source # 查看网页源码
driver.get_cookies() # # 获取当前浏览器的全部cookies
driver.current_url # 获取当前页面的url

4.退出:

driver.close() #退出当前页面
driver.quit()  #退出浏览器

5.练习:

模拟百度搜索’传智博客’

# coding=utf-8
from selenium import webdriver
import time

# 指定driver的绝对路径
driver = webdriver.Chrome(executable_path=r'F:\学习\python学习内容\python练习\02_selenium的使用\chromedriver_win32\chromedriver.exe')


driver.get("https://www.baidu.com/")
driver.find_element_by_id('kw').send_keys("传智播客")
time.sleep(5)
driver.find_element_by_id('su').click()
time.sleep(5)

# 退出
driver.quit()

6.小结:

selenium的导包:from selenium import webdriver
selenium创建driver对象:webdriver.PhantomJS()
selenium请求数:driver.get(“http://www.baidu.com/”)
selenium查看数据: driver.page_source
关闭无界面浏览器: driver.quit()
根据id定位元素: driver.find_element_by_id(“kw”)
操作点击事件: click()
给输入框赋值:send_keys()

三、selenium元素定位的方法:

1.selenium的定位操作:

定位元素语法:

find_element_by_id(返回一个元素)
find_elements_by_xpatn(返回一个包含元素的列表)
find_elements_by_link_text(根据连接文本获取元素列表)
find_elements_by_partial_link_text(根据连接包含的文本获取袁旭列表)
find_elements_by_tag_name(根据标签名获取元素列表)
find_elements_by_class_name(根据类名获取元素列表)

注意:

find_element和find_elements的区别: 多了s就返回列表, 没有s就返回匹配到的第一个元素
by_link_text和by_partial_link_text的区别: 全部文本和包含某个文本

练习:

以豆瓣首页为例: https://www.douban.com/

# coding=utf-8
from selenium import webdriver
import time

# 指定driver的绝对路径
driver = webdriver.Chrome(executable_path=r'F:\学习\python学习内容\python练习\02_selenium的使用\chromedriver_win32\chromedriver.exe')

driver.get("https://www.douban.com/")

# find_element_by_id (返回一个元素)
ret1 = driver.find_element_by_id("anony-nav")
print("ret1: {}".format(ret1))

# find_elements_by_xpath （返回一个包含元素的列表）
ret2 = driver.find_elements_by_xpath('//*[@id="anony-nav"]/h1')
for el in ret2:
    print("ret2: {}".format(el))      

# find_elements_by_link_text （根据连接文本获取元素列表）
ret3 = driver.find_elements_by_link_text("下载豆瓣 App")
for el in ret3:
    print("ret3: {}".format(el)) 

# find_elements_by_partial_link_text （根据链接包含的文本获取元素列表）
ret4 = driver.find_elements_by_partial_link_text("豆瓣")
for el in ret4:
    print("ret4: {}".format(el)) 

# find_elements_by_tag_name (根据标签名获取元素列表)
ret5 = driver.find_elements_by_tag_name("h1")
for el in ret5:
    print("ret5: {}".format(el)) 

# find_elements_by_class_name （根据类名获取元素列表）
ret6 = driver.find_elements_by_class_name("section")
for el in ret6:
    print("ret6: {}".format(el)) 

time.sleep(5)

# 退出
driver.quit()

2.获取数据:

find_element仅仅能获取元素, 不能够直接获取其中的数据,如果需要获取其中的数据, 需要使用一下方法:

element.text: 获取文本
element.get_attribute(“href”): 获取属性值

四、selenium的其他方法:

1.selenium处理cookie:

driver.get_cookies(): 获取的是完整的cookie信息, 不光有name、value, 还有domain等其他信息.

# 把cookie转化成字典
dookie_dict = {cookie['name']: cookie['value'] for cookie in driver.get_cookies()}

# 删除一条cookie
driver.delete_cookie('cookie_name')

# 删除所有的cookie
driver.delete_cookies()

2.页面等待:

如果页面采用了动态html技术,name页面上部分元素出现的时间编不能确定,这个时候可以设置一个等待时间, 强制要求在时间内出现,否则报错.
页面等待的方法: time.sleep(10)

3.selenium执行js代码:

# coding=utf-8
from selenium import webdriver
import time

# 指定driver的绝对路径
driver = webdriver.Chrome(executable_path=r'F:\学习\python学习内容\python练习\02_selenium的使用\chromedriver_win32\chromedriver.exe')

driver.get("http://www.itcast.cn/")
time.sleep(2)

js = 'window.scrollTo(0,document.body.scrollHeight)' # js语句:页面到最后
driver.execute_script(js) # 执行js的方法

time.sleep(5)
# 退出
driver.quit()

4.switch方法切换的操作:

4.1 标签页切换

一个浏览器肯定会有很多窗口, 所有我们肯定要有方法来实现窗口的切换. 切换窗口的方法如下:

# 1. 获取当前所有的窗口
current_windows = driver.window_handles

# 2.根据窗口索引进行切换
driver.switch_to.window(current_windows[1])

完整代码:

# coding=utf-8
from selenium import webdriver
import time

# 指定driver的绝对路径
driver = webdriver.Chrome(executable_path=r'F:\学习\python学习内容\python练习\02_selenium的使用\chromedriver_win32\chromedriver.exe')

# 打开第一个页面
driver.get("https://www.baidu.com/")
time.sleep(1)
driver.find_element_by_id("kw").send_keys('python')
time.sleep(1)
driver.find_element_by_id('su').click()
time.sleep(1)

# 通过js打开第二个标签页
js = 'window.open("http://www.sougou.com/");'
driver.execute_script(js)
time.sleep(3)

# 获取当前所有窗口
windows = driver.window_handles
print(windows)
time.sleep(2)
# 根据窗口进行切换
driver.switch_to.window(windows[0])
time.sleep(2)
driver.switch_to.window(windows[1])

time.sleep(6)
# 退出
driver.quit()

4.2 页内iframe:

iframe是html中常用的一种技术, 即一个页面中嵌套了另一个页面, selenium默认是访问不了frame中的内容的, 对应的解决思路是: driver.switch_to.frame()

在使用selenium登良路QQ邮箱的过程中, 会发现无法在邮箱登录input标签中输入内容,通过观察源码可以发现, from表单在一个frame中,所以需要切换到frame中

login_frame = driver.find_element_by_id('login_frame')	# 定位到frame
driver.switch_to.frame(login_frame)	# 转向到该frame中

练习:

模拟登录QQ邮箱:

# coding=utf-8
from selenium import webdriver
import time

# 指定driver的绝对路径
driver = webdriver.Chrome(executable_path=r'F:\学习\python学习内容\python练习\02_selenium的使用\chromedriver_win32\chromedriver.exe')
mail_url = "https://mail.qq.com/cgi-bin/loginpage"
driver.get(mail_url)
time.sleep(2)

# 根据定位,切换到iframe
login_frame = driver.find_element_by_id('login_frame')
driver.switch_to.frame(login_frame)

driver.find_element_by_link_text("帐号密码登录").click()

# 输入邮箱的账号密码
driver.find_element_by_xpath('//*[@id="u"]').send_keys("117****[email protected]")
driver.find_element_by_xpath('//*[@id="p"]').send_keys("********")
driver.find_element_by_xpath('//*[@id="login_button"]').click()
time.sleep(3)

# 切换到iframe元素的外边
windows = driver.window_handles
driver.switch_to.window(windows[0])

username = driver.find_element_by_xpath('//*[@id="useralias"]').text
print(username)


time.sleep(10)
# 退出
driver.quit()

4.3 alert弹窗:

当触发了某个事件之后，页面出现了弹窗提示，处理这个提示或者获取提示信息方法如下：

driver.switch_to.alert() # 跟frame一样的处理方式！

5. 页面前进和后退

driver.forward()     # 前进
driver.back()        # 后退

6. selenium的优缺点

selenium能够执行页面上的js，对于js渲染的数据和模拟登陆处理起来非常容易
selenium由于在获取页面的过程中会发送很多请求，所以效率非常低，所以在很多时候需要酌情使用

五、selenium的爬虫案例练习:

1.斗鱼爬虫:

爬取斗鱼直播平台的所有房间信息：https://www.douyu.com/directory/all

1.1 思路分析：

数据的位置：
每个房间的数据都在class=layout-Cover-list的ul中
实现翻页和控制程序结束:
selenium中通过点击就可以实现翻页，观察存在下一页和不存在下一页时候标签的变化

存在下一页时：aria-disabled=“false”
不存在下一页时:aria-disabled=“true”

1.2 实现代码:

ps:应该是斗鱼做了反爬, 始终没有得到预期结果

# coding=utf-8
from selenium import webdriver
import time
# 指定driver的绝对路径
# driver = webdriver.PhantomJS(executable_path='/home/worker/Desktop/driver/phantomjs') 
# driver = webdriver.Chrome(executable_path=r'F:\学习\python学习内容\python练习\02_selenium的使用\chromedriver_win32\chromedriver.exe')

class Douyu:
    def __init__(self):
        """初始化数据"""
        self.start_url = "https://www.douyu.com/directory/all"
        self.driver = driver = webdriver.Chrome(executable_path=r'F:\学习\python学习内容\python练习\02_selenium的使用\chromedriver_win32\chromedriver.exe')
        self.content_list = []
    
    def get_content_list(self):
        """提取数据"""
        time.sleep(5)
        li_list = self.driver.find_elements_by_xpath('//ul[@class="layout-Cover-list"]/li')
        for li in li_list:
            item = {}
            item['title'] = li.find_element_by_xpath('//h3[@class="DyListCover-intro"]').text
            item['zone'] = li.find_element_by_xpath('//span[@class="DyListCover-zone"]').text
            item['anchor'] = li.find_element_by_xpath('//h2[@class="DyListCover-user"]').text
            item['watch_num'] = li.find_element_by_xpath('//span[@class="DyListCover-hot"]').text
            self.content_list.append(item)
            print(item)
        # 提取下一页数据
        next_url = self.driver.find_element_by_xpath('//li[@title="下一页"]')    
        if next_url.get_attribute("aria-disabled")=="false":
            return next_url
        else:
            return False

    def save_content_list(self):
        """保存content"""
        for content in self.content_list:
            print(content)

    def run(self):
        """运行逻辑"""
        self.driver.get(self.start_url)
        next_url = self.get_content_list()
        while next_url:
            next_url.click()
            time.sleep(3)
            next_url = self.get_content_list()
        # self.save_content_list()
        self.driver.close()

if __name__ == "__main__":
    douyu = Douyu()
    douyu.run()

ps: 有看出问题的同学,欢迎留言(笑哭)…

2.网易云音乐爬虫:

完成网易云音乐的所有列表名字和url地址
地址: http://music.163.com/#/discover/playlist

2.1 思路分析:

确定程序入口位置;
确定首页数据的位置和url地址;
实现反野和程序停止的判断;

2.2 技术点:

数据在iframe中:

2.3 参考代码:

# coding=utf-8
from selenium import webdriver
import time
# 指定driver的绝对路径
# driver = webdriver.PhantomJS(executable_path='/home/worker/Desktop/driver/phantomjs') 
# driver = webdriver.Chrome(executable_path=r'F:\学习\python学习内容\python练习\02_selenium的使用\chromedriver_win32\chromedriver.exe')


class CloudMusic(object):
    def __init__(self, *args, **kwargs):
        self.start_url = 'http://music.163.com/#/discover/playlist'
        self.driver = webdriver.Chrome(executable_path=r'F:\学习\python学习内容\python练习\02_selenium的使用\chromedriver_win32\chromedriver.exe')


    def get_content_list(self):
        """提取数据"""   
        # 切换进iframe
        data_frame = self.driver.find_element_by_id('g_iframe')
        self.driver.switch_to.frame(data_frame)

        # 获取数据
        li_list = self.driver.find_elements_by_xpath('//*[@id="m-pl-container"]/li')
        print(f"该页有歌单:{len(li_list)}")
        content_list = []
        for li in li_list:
            item = {}
            item['title'] = li.find_element_by_class_name('msk').get_attribute("title")
            item['href'] = li.find_element_by_class_name('msk').get_attribute("href")
            print(item)
            content_list.append(item)
        
        # 下一页
        page_url_list = self.driver.find_elements_by_xpath('.//div[@class="u-page"]/a')
        next_url = page_url_list[-1] if page_url_list[-1].get_attribute("class") != "zbtn znxt js-disabled" else None
        return content_list, next_url

    def save_content_list(self, content_list):
        for content in content_list:
                print(content)

    def run(self):
        """实现主逻辑"""
        # 请求首页面
        self.driver.get(self.start_url)
        time.sleep(3)

        # 获取数据
        contemt_list, next_url = self.get_content_list()

        # 请求下一页
        while next_url is not None:
            js = 'window.scrollTo(0,document.body.scrollHeight)'  # js语句：滚动到页面最底部
            self.driver.execute_script(js)  # 执行js的方法
            print(next_url.get_attribute('href'))
            next_url.click() #页面没有完全加载完，会报错
            time.sleep(3)

            # 此时在iframe标签中 代码逻辑需要我们先切出
            windows = self.driver.window_handles
            self.driver.switch_to.window(windows[0])

            content_list, next_url = self.get_content_list()
            self.save_content_list(content_list)
        # 保存逻辑
        # self.save_content_list(content_list)
        # 退出浏览器
        self.driver.quit()


if __name__ == "__main__":
    cloudmusic = CloudMusic()
    cloudmusic.run()

六、小结:

Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
python爬取微信小程序数据,python爬取小程序数据 2301_81900439 前端
大家好，小编来为大家解答以下问题，python爬取微信小程序数据，python爬取小程序数据，现在让我们一起来看看吧！Python爬虫系列之微信小程序实战基于Scrapy爬虫框架实现对微信小程序数据的爬取首先，你得需要安装抓包工具，这里推荐使用Charles，至于怎么使用后期有时间我会出一个事例最重要的步骤之一就是分析接口，理清楚每一个接口功能，然后连接起来形成接口串思路,再通过Spider的回调
使用selenium调用firefox提示Profile Missing的问题解决歪歪的酒壶 selenium 测试工具 python
在Ubuntu22.04环境中，使用python3运行selenium提示ProfileMissing，具体信息为：YourFirefoxprofilecannotbeloaded.Itmaybemissingorinaccessible在这个问题的环境中firefox浏览器工作正常。排查中，手动在命令行执行firefox可以打开浏览器，但是出现如下提示Gtk-Message:15:32:09.9
大模型训练数据库Common Crawl WindyChanChan 数据集语言模型数据库
CommonCrawl介绍‌‌CommonCrawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。CommonCrawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌CommonCrawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据
Python精选200Tips：121-125 AnFany Python200+Tips python 开发语言
Spendyourtimeonself-improvement121Requests-简化的HTTP请求处理发送GET请求发送POST请求发送PUT请求发送DELETE请求会话管理处理超时文件上传122BeautifulSoup-网页解析和抓取解析HTML和XML文档查找单个标签查找多个标签使用CSS选择器查找标签提取文本修改文档内容删除标签处理XML文档123Scrapy-强大的网络爬虫框架示例
爬虫技术抓取网站数据被限制怎么处理 Bearjumpingcandy 爬虫
爬虫技术用于抓取网站数据时，可能会遇到一些限制，常见的包括反爬机制、速率限制、IP封禁等。以下是应对这些情况的一些策略：尊重robots.txt：每个网站都有robots.txt文件，遵循其中的规定可以避免触犯网站的抓取规则。设置合理频率：控制爬虫请求的速度，通过添加延迟或使用代理服务器，减少对目标网站的压力。使用代理：获取并使用代理IP地址可以更换访问来源，降低被识别的可能性。模拟用户行为：使用
网站推广爬虫 Bearjumpingcandy 爬虫
网站推广爬虫是一种用于升网站曝光度和推广效果的工具。它通过自动化地访问和收集网站信息，从而实现对目标网站的广告、关键词、排名等数据进行分析和优化。以下是网站推广爬虫的一些介绍：数据收集：网站推广爬虫可以自动访问目标网站，并收集相关的数据，如网站流量、关键词排名、竞争对手信息等。这些数据可以帮助网站推广人员了解网站的现状和竞争环境，从而制定相应的推广策略。关键词优化：通过分析搜索引擎的关键词排名情况
爬虫技术抓取网站数据 Bearjumpingcandy 爬虫
爬虫技术是一种自动化获取网站数据的技术，它可以模拟人类浏览器的行为，访问网页并提取所需的信息。以下是爬虫技术抓取网站数据的一般步骤：发起HTTP请求：爬虫首先会发送HTTP请求到目标网站，获取网页的内容。解析HTML：获取到网页内容后，爬虫会使用HTML解析器解析HTML代码，提取出需要的数据。数据提取：通过使用XPath、CSS选择器或正则表达式等工具，爬虫可以从HTML中提取出所需的数据，如文
爬虫技术抓取网站数据 Bearjumpingcandy 爬虫
爬虫技术是指通过程序自动访问网页并提取数据的技术。一般来说，爬虫技术包含以下几个步骤：确定目标网站：确定需要抓取的网站，并了解其页面结构和数据特点。分析页面结构：分析网页的结构和源代码，找到需要抓取的数据在页面中的位置和标识。编写爬虫程序：使用编程语言（如Python）编写爬虫程序，实现对目标网站的自动访问和数据提取。处理抓取数据：对抓取到的数据进行清洗、去重、整合等处理，以便后续的分析和利用。爬
爬虫之隧道代理：如何在爬虫中使用代理IP？ 2401_87251497 python 开发语言爬虫网络 tcp/ip 网络协议
在进行网络爬虫时，使用代理IP是一种常见的方式来绕过网站的反爬虫机制，提高爬取效率和数据质量。本文将详细介绍如何在爬虫中使用隧道代理，包括其原理、优势以及具体的实现方法。无论您是爬虫新手还是有经验的开发者，这篇文章都将为您提供实用的指导。什么是隧道代理？隧道代理是一种高级的代理技术，它通过创建一个加密的隧道，将数据从客户端传输到代理服务器，再由代理服务器转发到目标服务器。这样不仅可以隐藏客户端的真
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
python抓取网页内容401应该用哪个库_python3使用requests模块爬取页面内容入门坂田月半
python的爬虫相关模块有很多，除了requests模块，再如urllib和pycurl以及tornado等。相比而言，requests模块是相对简单易上手的。通过文本，大家可以迅速学会使用python的requests模块爬取页码内容。1.Requests唯一的一个非转基因的PythonHTTP库，人类可以安全享用。官网：http://cn.python-requests.org/zh_CN/
【Python爬虫】百度百科词条内容 PokiFighting 数据处理 python 爬虫开发语言
词条内容我这里随便选取了一个链接，用的是FBI的词条importurllib.requestimporturllib.parsefromlxmlimportetreedefquery(url):headers={'user-agent':'Mozilla/5.0(WindowsNT6.1;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/80.
爬虫和代理IP的关系 xiaoxiongip666 爬虫 tcp/ip 服务器
爬虫和代理IP之间的关系是相互依存的。代理IP为爬虫提供了绕过IP限制、隐藏真实IP、提高访问速度等能力，使得爬虫能够更有效地进行数据抓取。然而，在使用时也需要注意合法性、稳定性、成本以及隐私保护等问题。
python语言爬虫爬取歌曲程序代码 EYYLTV python 爬虫 android
importrequestssong_urls=[“http://music.163.com/song/media/outer/url?id=25795016.mp3”,“https://m703.music.126.net/20240915140140/670dfe5c0144991d4cb778d6662fd762/jd-musicrep-privatecloud-audio-public/o
python语言爬虫爬取歌曲代码X EYYLTV python 爬虫 java
importrequestssong_urls=[“https://m804.music.126.net/20240915142147/4e01caa69abda60b165e185607805ee1/jdyyaac/obj/w5rDlsOJwrLDjj7CmsOj/30379084686/b56a/dbd5/39fc/792d87f5d7014bb78547ec3804eeaac5.m4a?au
拼多多商家电话采集工具爬虫教程分享小电商达人爬虫
以下是使用Python编写的拼多多商家电话采集爬虫教程：一、前期准备安装Python：从Python官方网站下载并安装最新版本的Python，安装过程中注意勾选将Python添加到系统路径选项。安装相关库：在命令提示符中运行以下命令来安装所需的库。pipinstallrequests：用于发送HTTP请求获取网页内容。pipinstallbeautifulsoup4：用于解析HTML页面。二、分析
Python爬虫代理池极客李华 python授课 python 爬虫开发语言
Python爬虫代理池网络爬虫在数据采集和信息抓取方面起到了关键作用。然而，为了应对网站的反爬虫机制和保护爬虫的真实身份，使用代理池变得至关重要。1.代理池的基本概念：代理池是一组包含多个代理IP地址的集合。通过在爬虫中使用代理池，我们能够隐藏爬虫的真实IP地址，实现一定程度的匿名性。这有助于防止被目标网站封锁或限制访问频率。2.为何使用代理池：匿名性：代理池允许爬虫在请求目标网站时使用不同的IP
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
10个高效的Python爬虫框架，你用过几个？进击的C语言 python
小型爬虫需求，requests库+bs4库就能解决；大型爬虫数据，尤其涉及异步抓取、内容管理及后续扩展等功能时，就需要用到爬虫框架了。下面介绍了10个爬虫框架，大家可以学习使用！1.Scrapyscrapy官网：https://scrapy.org/scrapy中文文档：https://www.osgeo.cn/scrapy/intro/oScrapy是一个为了爬取网站数据，提取结构性数据而编写的
python爬虫(5)之CSDN It is a deal️ 小项目 python json 爬虫
CSDN的爬虫相对于doubatop250更加简单，一般只需要title和url即可下面是相关的代码：#爬虫之csdn#分析urlhttps://www.csdn.net/api/articles?type=more&category=python&shown_offset=0（firstpage）#https://www.csdn.net/api/articles?type=more&categ
python学习第七节：正则表达式一只会敲代码的小灰灰 python学习 python 学习正则表达式
python学习第七节：正则表达式正则表达式基本上在所有开发语言中都会使用到，在python中尤为重要。当我们使用python开发爬虫程序将目标网页扒下来之后我们要从网页中解析出我们想要的信息，这个时候就需要正则表达式去进行匹配。importrere的常量re模块中有9个常量，常量的值都是int类型！（知道就行）修饰符描述re.l使匹配对大小写不敏感re.L做本地化识别(locale-aware)
分布式框架Celery七(Django-Celery-Flower实现异步和定时爬虫及其监控邮件告警) yjjpp2301 Celery 分布式 django python 后端
Django中集成方式安装模块pipinstallDjango==3.2.22pipinstallcelerypipinstallredispipinstalleventlet#在windows环境下需要安装eventlet包-----------pipinstalldjango-celery-beatpipinstalldjango-celery-resultspipinstalldjango-
生产者消费者模式_Labview基础之生产者消费者设计模式（事件） weixin_39532699 生产者消费者模式
1绪论近期，开了一个QQ群，刚开始的目的也是想多拉写软件相关的大神，有问题的时候也可以交流交流。记得当时有个软件在写的时候遇到了一个棘手的问题，outlook邮箱配置账户密码的问题，到现在也没解决，算了，也不是很迫切。2000人群就留在那里爬虫发单吧！建群以后才发现，原来这一块的小白还挺多，总结起来就一个原因：做这个软件的大多数都不是软件出生，都是因为临时要搭建一个上位机平台，匆匆入门......
Python——爬虫星和月 python
当编写一个Python爬虫时，你可以使用BeautifulSoup库来解析网页内容，使用requests库来获取网页的HTML代码。下面是一个简单的示例，演示了如何获取并解析网页内容：importrequestsfrombs4importBeautifulSoup#发送HTTP请求获取网页内容url='https://www.example.com'#要爬取的网页的URLresponse=requ
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s