丨郭巨侠丨

Python练习之小爬虫--从requests到selenium

前言：
开始学习python快2个月了，前段时间突然很喜欢爬虫，研究了一段时间，有一些心得体会，也完成了我自己的需求，趁着还新鲜记录一下，做一个总结。也希望能帮到刚入坑的同学，尽早爬坑。

(一)工具

我用的是pycharm和anaconda，这里强烈推荐anaconda，如果用原版python，以后会发现有些库安装不了或者过程曲折，折腾一下午白瞎的痛苦不要问我是怎么知道的。。。
安装好后进入cmd，用pip安装两个库，requests库和bs4。
以上步骤弄好后进入正题

(二)静态网页数据采集

这里直接用一个经典的案例好了----豆瓣电影TOP250。
http://movie.douban.com/top250/
1、首先分析网页，看看网页的结构找到我们需要采集的元素。这里需要使用chrome浏览器或者chrome内核的浏览器F12功能，如图

F12得到是当前页面的源码，我们需要的信息就在这里面，然后用红框标注的箭头在页面上我们需要采集的信息上点一下，就得到了该信息具体在源码的哪个位置了（或者在网页上点击右键，审查元素）。

这是点了肖申克救赎的结果，从图上就可以很清晰的看出来，每一部电影的所有信息都在一个Li标签里面，电影名字在一个span标签里，标签属性是title。由此就可以得出我们的爬虫逻辑是遍历所有的Li标签，取出需要的数据。
2、代码的实现

import requests
from bs4 import BeautifulSoup

URL = 'http://movie.douban.com/top250/'

def gethtml(url):
    html = requests.get(url, headers={
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 \ '
                      '(KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36'
    }).content

这段就是用requests来请求豆瓣top250的网页，.content获得网页的源码。在使用requests的时候，一般都要加上headers参数，来伪装成一个浏览器访问，有的网站需要添加更多参数才行。

def parsehtml(html):
    soup = BeautifulSoup(html,'html.parser')
    lis = soup.find('ol',{'class': 'grid_view'}).find_all('li')
    movie_name_list = []
    for li in lis:
        movie_name = li.find('div',{'class': 'hd'}).find('span',{'class': 'title'}).getText()
        movie_name_list.append(movie_name)
    next_page = soup.find('span',{'class': 'next'}).find('a')
    if next_page:
        return movie_name_list, URL + next_page['href']
    return movie_name_list, None

这段定义了一个解析函数，用beautifulsoup定位到我们需要的元素并获取文本，返回两个值一个是电影名字列表，一个是下一页的网址

url = URL
with open('movies', 'w') as fp:
    while url:
        html = gethtml(url)
        movies, url = parsehtml(html)
        fp.write('{movies}\n'.format(movies='\n'.join(movies)))

这段就算是主函数了，用url接收返回的下一页的网址，while循环获得所有页的电影名字，然后写入文件。
拼接起来就是一段完整的代码，结果如图

至此，一个爬取静态网页的框架就有了，很简单，从零开始2到3天就能搞定其语法和代码实现。接下来就是花了我将近2个星期的采用ajax技术的网页爬取了。

(三)动态网页数据采集

这里的动态网页我是指用ajax技术异步加载的网页，对新人很不友好的一个坑。在读过n篇文章和m次测试后，我才意识到这种网页看着源代码里啥内容都有，但是你就是get不到。因为requests.get(url)，面对ajax网页，get到的只是一个框架，内容是之后加载的，requests表示无能为力。还好这时候逆天神器selenium出现了。
selenium本是一个自动化测试的工具，现在却是爬虫的好朋友，因为它能模拟浏览器的行为。
1、准备工作
Selenium必须配合webdriver才能使用，各大浏览器都有自己的webdriver，我懒得装新浏览器，就用win10自带的Edge浏览器了。（好像有个无头浏览器也可以替代webdriver）
2、分析网页
我的目标网页是一个类似聊天室的课堂，有老师讲课，有学生发言，有老师回复。输入账户密码登陆后的源码是这样的

源码一目了然，所有信息都在div标签里，class属性为dl_message，每一个div标签里的子标签对应着相应的信息。
3、代码实现

from selenium import webdriver
import time
from docx import Document
import requests
from io import BytesIO
import os
from docx.shared import RGBColor
from selenium.common.exceptions import NoSuchElementException
from datetime import datetime

导入这一堆模块

#日期
y = input('date_of_year:')
m = input('date_of_month:').zfill(2)
d_start = input('start_of_day:')
d_end = input('end_of_day:')

我的目标是导出这个课堂的历史聊天记录，然后导出的记录存到docx文档中，并按照当天的日期保存。

#设置存储路径，按照时间保存
basepath = 'C:\\Users\\yy\\Desktop\\'
dir_name = '{name}'.format(name = (y+"."+m))
dir_path = os.path.join(basepath,dir_name)
os.mkdir(dir_path)
browser = webdriver.Edge()
browser.get('http://www.targetwebsite.com')
time.sleep(6)

这里利用os模块在桌面上新建一个文件夹，接着调用webdriver打开Edge浏览器，然后打开目标网站（对于需要登陆的网站，可以提前登陆一次，之后webdriver打开的时候是带着cookie的）。time模块的sleep方法就是让程序等待6秒，因为网页加载需要时间（这也是selinium爬虫的一个劣势，就是效率比较低）。

def weekday(date):
    week = datetime.strptime(date,'%Y%m%d').weekday()
    if week > 4:
        return '-周末'
    else:
        return ''

这个方法是获得任意一天是周几。周一是0，周天是6。

def getpics(element):
    try:
        element.find_element_by_tag_name('img')
    except NoSuchElementException:
        pass
    else:
        msg_imgs = element.find_elements_by_tag_name('img')
        for msg_img in msg_imgs:
            msg_img_url = msg_img.get_attribute('src')
            img = requests.get(msg_img_url).content
            document_class.add_picture(BytesIO(img))

这个函数是用来获取课堂上的图片的。每个图片都在img标签里，关于selenium的定位语法我就不多说了，太多了。借助reques和IO模块，就可以将网上的图片直接存入docx文档。

def write_docx(content,color):
    if color == 'red':
        rgbcolor = RGBColor(255, 0, 0)
    elif color == 'orange':
        rgbcolor = RGBColor(255, 97, 3)
    elif color == 'black':
        rgbcolor = RGBColor(0, 0, 0)
    para = document_class.add_paragraph()
    run = para.add_run(content)
    run.font.color.rgb = rgbcolor

这个函数是将文字写入docx的，接收2个参数，一个是内容，一个是颜色，最后三行是docx模块指定文字颜色的方法。

def getclass(element,color):
    try:
        element.find_element_by_class_name('dl_message_n bgeee fc_red').text
    except NoSuchElementException:
        pass
    else:
        msg_text = element.find_element_by_class_name('dl_message_n bgeee fc_red').text
        write_docx(msg_text,color)

这个函数就是读取课堂文字的，并调用上一个函数将文字写入文档。

def getchat_teacher(element):
    try:
        element.find_element_by_class_name('dl_message_n bgeee fc_666').text
    except NoSuchElementException:
        pass
    else:
        msg_text_stu = element.find_element_by_class_name('dl_message_n bgeee fc_666').text
        write_docx(msg_text_stu,'black')
    try:
        element.find_element_by_class_name('dl_ask_box  fc_red').text
    except NoSuchElementException:
        pass
    else:
        msg_text_teacher = element.find_element_by_class_name('dl_ask_box  fc_red').text
        write_docx(msg_text_teacher,'red')

获取老师与学生的对话。学生黑字，老师红字。

def getchat_assis(element):
    try:
        element.find_element_by_class_name('dl_message_n bgeee fc_666').text
    except NoSuchElementException:
        pass
    else:
        msg_text_stu = element.find_element_by_class_name('dl_message_n bgeee fc_666').text
        write_docx(msg_text_stu,'black')
    try:
        element.find_element_by_class_name('dl_ask_box  fc_red').text
    except NoSuchElementException:
        pass
    else:
        msg_text_teacher = element.find_element_by_class_name('dl_ask_box  fc_red').text
        write_docx(msg_text_teacher,'orange')

获取老师助理的对话，学生黑字，助理橙色。

def getmore():
    try:
        browser.find_element_by_link_text('点击查看更多')
    except NoSuchElementException:
        pass
    else:
        if browser.find_element_by_link_text('点击查看更多').get_attribute('style') == 'display:none':
            pass
        else:
            try:
                browser.find_element_by_link_text('点击查看更多').click()
            except NoSuchElementException:
                pass
            else:
                time.sleep(0.5)
                getmore()

这是一个很好玩的地方，这个网站不一次性显示全部内容（源代码也是），而是页面到头后需要手动点一下查看更多，点好几次之后才能全部显示，此时查看更多标签就消失了。
我的实现逻辑就是用try-except-else，配合一个骚气的小递归解决，当时写到这里脑子里一下子蹦出来的就是递归，就写递归了，实际while可以更简单直接的解决，就这样吧。。

def getchat(element):
    chat = element.find_element_by_class_name('dr_text_n bgeee ').text
    document_chat.add_paragraph(chat)

获取聊天记录。
以上函数都写好后，就是根据具体页面的逻辑写2个小爬虫了，一个爬取课堂记录，一个爬取聊天记录。

def class_docx():
    try:
        browser.find_elements_by_class_name("dl_message")
    except NoSuchElementException:
        pass
    else:
        msgs = browser.find_elements_by_class_name("dl_message")
        for msg in msgs:
            try:
                msg.find_element_by_class_name("ms_top_type ")
            except NoSuchElementException:
                pass
            else:
                msg_time = msg.find_element_by_class_name("ms_top_type ").text
                msg_type = msg.find_element_by_class_name("iconfont icon-yuandian").text

                if '直播观点-老师助理' in (msg_time + msg_type):
                    document_class.add_paragraph(msg_time + msg_type)
                    getclass(msg,'orange')
                    getpics(msg)
                elif '直播观点' in (msg_time + msg_type):
                    document_class.add_paragraph(msg_time + msg_type)
                    getclass(msg,'red')
                    getpics(msg)
                elif '互动回复-老师助理' in (msg_time + msg_type):
                    document_class.add_paragraph(msg_time + msg_type)
                    getchat_assis(msg)
                elif '互动回复' in (msg_time + msg_type):
                    document_class.add_paragraph(msg_time + msg_type)
                    getchat_teacher(msg)
                elif '系统消息' in (msg_time + msg_type):
                    pass
                else:
                    document_class.add_paragraph(msg_time + msg_type)
                    getclass(msg,'red')
                    getchat_teacher(msg)
                    getpics(msg)

获取课堂记录，并写入docx文档。

def chat_docx():
    try:
        browser.find_elements_by_class_name("dr_ms_n")
    except NoSuchElementException:
        pass
    else:
        msgs = browser.find_elements_by_class_name("dr_ms_n")
        for msg in msgs:
            msg_time = msg.find_element_by_class_name('dr_head').text
            msg_type = msg.find_element_by_class_name('user_rel').text
            document_chat.add_paragraph(msg_time + '' + msg_type)
            getchat(msg)

获取聊天记录，并写入docx文档。

#main
for d in range(int(d_start),int(d_end)+1):
    d = str(d).zfill(2)
    date = y + m + d
    js = " window.open('http://www.targetwebsite.com/history/')"
    browser.execute_script(js)
    time.sleep(6)
    browser.switch_to.window(browser.window_handles[1])
    print('----开始拷贝{date}的课程----'.format(date=date))
    document_class = Document()
    class_docx()
    document_class.save('C:\\Users\\yy\\Desktop\\{dir_name}\\{name}-0.课堂记录.docx'.format(dir_name=dir_name,name=(y + '.'+ m + '.'+ d + weekday(date)).strip()))
    print('----开始拷贝{date}的互动记录----'.format(date=date))
    getmore()
    time.sleep(2)
    document_chat = Document()
    chat_docx()
    document_chat.save('C:\\Users\\yy\\Desktop\\{dir_name}\\{name}-1.互动记录.docx'.format(dir_name=dir_name, name=(y + '.' + m + '.' + d + weekday(date)).strip()))
    print('----*successful finished*----')
    browser.close()
    browser.switch_to.window(browser.window_handles[0])
    time.sleep(2)

这个就是执行的代码了，值得说道的就是5-8行，因为如果每爬完一天的内容就关闭浏览器然后重新打开浏览器太慢了，所以这里我打开的是一个新标签页，爬完就关闭该标签页然后打开一个新的。5-8行就是标签页的操作，注意如果没有第8行，新建了一个标签页后，操作句柄还是在第一个标签页上。
最终执行就是这样子的了

对于一个懒人来说，真的是很方便啊（手动要哭脸），爬虫要继续深入下去，还得研究js，scrapy，数据库等，不过我的爬虫之旅到此就先暂告一个段落，毕竟学python的目的是自动化交易、量化交易的。接下来就还有python面向对象和网络编程这两大块，之后就可以进入量化交易的篇章了。

Python从0到100（三十九）：数据提取之正则（文末免费送书）是Dream呀 python mysql 开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
Python 舆论风向分析爬虫：全流程数据获取、清洗与情感剖析西攻城狮北 python 爬虫开发语言实战案例
引言在当今信息爆炸的时代，互联网上充斥着海量的用户言论和观点。了解舆论风向对于企业、政府机构以及研究者等具有重要的意义，可以帮助他们及时把握公众情绪、调整策略与决策。Python作为一种强大的编程语言，在数据爬取与分析方面具有得天独厚的优势，能够助力我们高效地实现舆情监测与深入剖析。一、环境搭建与目标确定1.环境搭建为了顺利完成爬虫与数据分析任务，首先需要确保你的开发环境已经安装了以下Python
Python爬虫requests(详细) dme. Python爬虫零基础入门爬虫 python
本文来学爬虫使用requests模块的常见操作。1.URL参数无论是在发送GET/POST请求时，网址URL都可能会携带参数，例如：http://www.5xclass.cn?age=19&name=dengres=requests.get(url="https://www.5xclass.cn?age=19&name=deng")res=requests.get(url="https://www
Python中的 redis keyspace 通知_python 操作redis psubscribe(‘__keyspace@0__ ‘) 2301_82243733 程序员 python 学习面试
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
Selenium使用指南程序员杰哥 selenium 测试工具 python 测试用例职场和发展程序人生功能测试
概述selenium是网页应用中最流行的自动化测试工具，可以用来做自动化测试或者浏览器爬虫等。官网地址为：相对于另外一款web自动化测试工具QTP来说有如下优点：免费开源轻量级，不同语言只需要一个体积很小的依赖包支持多种系统，包括Windows，Mac，Linux支持多种浏览器，包括Chrome，FireFox，IE，safari，opera等支持多语言，包括Java，C，python，c#等主流
基于Python的搜索引擎的设计与实现 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据 java python javascript kotlin golang 架构人工智能
搜索引擎,Python,爬虫,自然语言处理,信息检索,索引,算法,数据库1.背景介绍在信息爆炸的时代，海量数据无处不在，高效地获取所需信息变得至关重要。搜索引擎作为信息获取的桥梁，扮演着不可或缺的角色。传统的搜索引擎往往依赖于庞大的服务器集群和复杂的算法，对资源消耗较大，且难以满足个性化搜索需求。基于Python的搜索引擎设计，则凭借Python语言的易学易用、丰富的第三方库和强大的社区支持，为开
python进程数上限_python 多进程数量对爬虫程序的影响 weixin_39759995 python进程数上限
1.首先看一下python多进程的优点和缺点多进程优点：1.稳定性好：多进程的优点是稳定性好，一个子进程崩溃了，不会影响主进程以及其余进程。基于这个特性，常常会用多进程来实现守护服务器的功能。然而多线程不足之处在于，任何一个线程崩溃都可能造成整个进程的崩溃，因为它们共享了进程的内存资源池。2.能充分利用多核cpu：由于python设计之初，没预料到多核cpu能够得到现在的发展，只考虑到了单核cpu
python爬虫--安装XPath Helper S903784597 python 爬虫开发语言
给chrome浏览器安装xpath插件。-从网盘下载xpath的插件文件链接：https://pan.baidu.com/s/1B85d5cLDyAz1xUQqmL3uug?pwd=3306提取码：3306-在chrome中输入chrome://extensions/打开扩展程序。-将从百度网盘中下载的xpath.zip文件直接拖到浏览器的扩展程序页面中-得到chrome插件，将插件开关开启，并且
使用Python爬虫实时监控行业新闻案例海拥✘ python 爬虫开发语言
目录背景环境准备请求网页数据解析网页数据定时任务综合代码使用代理IP提升稳定性运行截图与完整代码总结在互联网时代，新闻的实时性和时效性变得尤为重要。很多行业、技术、商业等领域的新闻都可以为公司或者个人发展提供有价值的信息。如果你有一项需求是要实时监控某个行业的新闻，自动化抓取并定期输出这些新闻，Python爬虫可以帮你轻松实现这一目标。本文将通过一个案例，带你一步一步实现一个简单的Python爬虫
Python爬虫-猫眼电影的影院数据写python的鑫哥爬虫案例1000讲 python 爬虫猫眼电影电影院数据采集
前言本文是该专栏的第46篇，后面会持续分享python爬虫干货知识，记得关注。本文笔者以猫眼电影为例子，获取猫眼的影院相关数据。废话不多说，具体实现思路和详细逻辑，笔者将在正文结合完整代码进行详细介绍。接下来，跟着笔者直接往下看正文详细内容。（附带完整代码）正文地址：aHR0cHM6Ly93d3cubWFveWFuLmNvbS8=目标：获取猫眼电影的影院数据1.项目场景介绍老规矩，我们还是通过接码
Python从0到100（四）：Python中的运算符介绍(补充) 是Dream呀 python java 数据库
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
Python从0到100（三十五）：beautifulsoup的学习是Dream呀 Dream的茶话会 python beautifulsoup 学习
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
python分布式爬虫去重_Python分布式爬虫(三) - 爬虫基础知识 weixin_39997311 python分布式爬虫去重
0相关源码1技术选型爬虫能做什么1.1scrapyVSrequests+beautifulsoup做爬虫的时候，经常都会听到scrapyVSrequests+beautifulsoup的组合在本次分布式爬虫实现中只用scrapy而不用后者的原因是：requests和beautifulsoup都是库，scrapy是一个框架框架中可以应用requests等，可以集合很多第三方库基于twisted(异步
Scrapy分布式爬虫系统 ivwdcwso 开发运维 scrapy 分布式爬虫 python 开发
一、概述在这篇博文中,我们将介绍如何使用Docker来部署Scrapy分布式爬虫系统,包括Scrapyd、Logparser和Scrapyweb三个核心组件。这种部署方式适用于Scrapy项目和Scrapy-Redis分布式爬虫项目。需要安装的组件:Scrapyd-服务端,用于运行打包后的爬虫代码,所有爬虫机器都需要安装。Logparser-服务端,用于解析爬虫日志,配合Scrapyweb进行实时
使用Python抓取新闻媒体网站的最新头条与相关内容：深入的爬虫开发与数据分析实战 Python爬虫项目 2025年爬虫实战项目 python 爬虫数据分析数据挖掘人工智能开发语言
引言在互联网时代，新闻媒体网站是人们获取信息和了解世界的重要渠道。随着新闻的即时更新，获取最新头条并进行数据分析成为许多行业领域（如媒体、广告、舆情监测等）的重要需求。通过抓取新闻媒体网站的内容，我们不仅能获取各类新闻文章，还能为后续的数据分析、情感分析、舆情监控等提供基础数据。本篇博客将详细讲解如何使用Python编写一个爬虫，抓取新闻媒体网站的最新头条及其相关内容。我们将使用最新的技术栈，包括
Python爬虫实战：获取笔趣阁图书信息，并做数据分析 ylfhpy 爬虫 python 爬虫数据分析
注意：以下内容仅供技术研究，请遵守目标网站的robots.txt规定，控制请求频率避免对目标服务器造成过大压力！1.环境准备与反爬策略pythonimportrequestsfrombs4importBeautifulSoupimportpandasaspdimportreimporttimeimportrandomfromfake_useragentimportUserAgent#需安装：pip
如何利用Python爬虫获取淘宝分类详情：实战案例指南数据小爬虫@ python 爬虫开发语言
在电商领域，淘宝作为中国最大的电商平台之一，其分类详情数据对于市场分析、竞争策略制定以及电商运营优化具有极高的价值。通过Python爬虫技术，我们可以高效地获取这些数据，为电商从业者提供强大的数据支持。本文将详细介绍如何利用Python编写爬虫程序，快速获取淘宝分类详情数据。一、准备工作（一）环境搭建确保你的开发环境中已经安装了以下必要的库：requests：用于发送HTTP请求。Beautifu
Python 爬虫功能介绍 chengxuyuan1213_ python 爬虫网络爬虫
在当今互联网信息爆炸的时代，数据的获取与分析成为了各行各业不可或缺的一部分。Python，作为一种简洁、易读且功能强大的编程语言，凭借其丰富的库和框架，在数据抓取（即网络爬虫）领域展现了极大的优势。本文旨在介绍Python爬虫的基础功能，帮助初学者快速入门，理解爬虫的基本工作原理及常用技术。一、什么是网络爬虫网络爬虫（WebCrawler），又称网络蜘蛛（WebSpider）或网络机器人（WebR
Python爬虫+数据分析：京东商品评论数据接口代码逐梦人爬虫技能晋升路线 python 爬虫数据分析
一、引言在电商领域，商品评论数据蕴含着丰富的信息，如消费者的满意度、产品的优缺点等。京东作为国内知名的电商平台，其商品评论数据对于商家进行市场调研、改进产品，以及消费者了解商品真实情况都具有重要价值。通过获取京东商品评论数据接口，我们可以方便、高效地获取这些有价值的信息，为后续的数据分析和决策提供支持。二、接口概述需要说明的是，京东并没有公开免费的商品评论数据接口供开发者随意使用。如果要获取京东商
python爬虫多线程原理代码逐梦人爬虫技能晋升路线 python 爬虫开发语言
多线程爬虫原理与优势在Python爬虫中，多线程是一种提升爬取效率的有效技术。在传统的单线程爬虫里，每次只能处理一个请求，只有等当前请求完成（包括发送请求、等待响应、解析数据）之后，才能开始下一个请求。而多线程爬虫可以让多个请求同时进行，在等待某个请求响应的时间里，CPU可以去处理其他请求，充分利用了CPU时间，大大提高了爬取效率。多线程爬虫的实现步骤1.引入必要的库importrequestsi
Python爬虫+数据分析：淘宝商品评论页面数据代码逐梦人爬虫技能晋升路线 python 爬虫数据分析
一、引言在电商平台中，商品评论包含了大量消费者的反馈信息，这些信息对于商家了解产品优缺点、改进服务，以及消费者做出购买决策都具有重要价值。淘宝作为国内知名的电商平台，其商品评论页面的数据蕴含着丰富的信息。通过Python爬虫技术获取这些数据，并运用数据分析方法进行处理和解读，可以挖掘出有价值的商业洞察。然而，需要注意的是，淘宝有严格的反爬机制，在进行爬虫操作时要遵守相关法律法规和平台规则，避免过度
Python网络爬虫-WebSocket数据抓取程序小勇 faiss 爬虫 python 网络协议 websocket 开发语言
目录前言1、WebSocket请求的分析通常涉及以下几个方面：2、利用WebSocket爬取数据总结最后，创作不易！非常感谢大家的关注、点赞、评论啦！谢谢三连哦！好人好运连连，学习进步！工作顺利哦！博主介绍：✌专注于前后端、机器学习、人工智能应用领域开发的优质创作者、秉着互联网精神开源贡献精神，答疑解惑、坚持优质作品共享。本人是掘金/腾讯云/阿里云等平台优质作者、擅长前后端项目开发和毕业项目实战，
流行编程语言全解析：优势、应用与短板 a小胡哦 python java c++c语言 javascript swift r语言
Python：优势Python以其简洁、易读的语法闻名，新手能快速上手。丰富的库和框架，能极大地提高开发效率。适用领域数据科学与分析：处理和分析大规模数据集，进行数据可视化。典型示例：Google用Python进行数据分析，处理海量数据以支持各种业务决策。机器学习与人工智能：构建和训练模型。典型示例：OpenAI在很多人工智能项目中广泛使用Python，如GPT系列模型的研发。网络爬虫：轻松从网页
052_爬虫_爬虫相关概念（引用《尚硅谷Python爬虫教程（小）小白零基础速通》052章）一个有趣的昵称 python 爬虫开发语言
爬虫解释：通过程序，根据url（http://taobao.com）进行网页的爬取获取有用的信息实用程序模拟浏览器，去向服务发送请求，获取响应信息爬虫的核心爬取网页：爬取整个网页包含了网页中所的内容解析数据：将网页中得到的数据进行解析难点：爬虫和但爬虫之间的博弈爬虫的类型实例通用爬虫百度，360，Google，搜狗等搜索引擎功能访问网页-》抓取数据-》数据储存-》数据处理-》提供检索服务robot
尚硅谷爬虫note007 CSDNy666999 爬虫
一、urllib—异常1.urllib.error.HTTPError2.urllib.error.URLError#_*_coding:utf-8_*_#@Time:2025/2/1411:33#@Author:20250206-里奥#@File:demo26_异常#@Project:PythonProject10-14importurllib.requestimporturllib.error
【Python爬虫(15)】从0到1：Python爬虫实战攻克电商网站动态数据堡垒奔跑吧邓邓子 Python爬虫 python 爬虫开发语言电商网站动态数据
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、引言二、准备工作2.1环境搭建2.2目标电商网站分析三、攻克登
字节跳动后端或大数据基础知识面试题及参考答案（2万字长文）大模型大数据攻城狮大数据大厂面试数据结构算法 leetcode
目录Redis的数据类型Redis数据类型的底层数据结构三次握手、四次挥手Redis持久化机制购物车为什么用Redis存，是永久存储吗MySQL的InnoDB索引数据结构哪些SQL的关键字会让索引失效队列、栈、数组、链表有什么不同讲讲爬虫的构成爬虫抓到的数据不清洗吗？不去重吗？对爬虫的更多了解Linux进程间通信机制进程和线程的区别线程私有的数据讲一下堆排序，每次调整的时间复杂度？堆排序是稳定的吗
爬虫快速上手之正则表达式总结 Athena945 python 正则表达式正则表达式 python
目录一、正则表达式二、查找相关方法三、re.Match类的使用四、re.compile()方法的使用五、正则修饰符六、标点符号的特殊意义七、字母的特殊含义八、正则替换九、贪婪模式和非贪婪模式十、正则表达式小结一、正则表达式1、概念正则表达式是一个特殊的字符序列，通常被用来检索、替换那些符合某个模式（规则）的文本；在python中需要通过正则表达式对字符串进行匹配的时候，可以使用re模块实现全部的正
Python--正则表达式索然无味io Python安全开发 python 正则表达式开发语言 windows 网络安全安全 web安全
1.日志打印与终端颜色控制1.1使用loguru打印日志fromloguruimportloggerlogger.debug("调试信息")logger.info("普通信息")logger.warning("警告信息")logger.error("错误信息")logger.success("成功信息")1.2终端颜色控制（Colorama）Colorama库用于控制终端输出的颜色和样式。字体颜色
Go分布式爬虫笔记（五）_golang分布式爬虫架构 2401_87198107 golang 分布式爬虫
系统级别优化与架构设计：如何对服务进行拆分如何将服务链接在一起服务调用的关系以及调用频率各种问题：如何让服务随着负载的增加具有可扩展性？是否采用DDD的架构设计？如何进行分布式的协调？选择何种中间件、缓存数据库与存储数据库？使用何种通信方式？如何设计缓存与数据库的关系，才能避免缓存失效之后大量数据直接打到数据库导致的服务响应变慢甚至服务雪崩的问题呢？分布式系统中数据的一致性，如果业务能够接受读取到
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在

Python练习之小爬虫--从requests到selenium

(一)工具

(二)静态网页数据采集

(三)动态网页数据采集

你可能感兴趣的:(python--爬虫)