python--爬虫学习第3页

Python---爬虫学习1

importrequestsimporttimefrombs4importBeautifulSoupimportpandasaspddefget_film(link,headers):#定义一个get_film的函数，接受两个参数：link和headers。link是电影信息的URL，headers是一个字典，包含了发送HTTP请求时需要使用的HTTP头信息res=requests.get(lin

Wanyu677·2024-01-17 21:15

Python---爬虫学习（详细注释/优化）

frombs4importBeautifulSoupimportre#正则表表达式文字匹配importurllib.request,urllib.error#指定url，获取网页数据importxlwtfindlink=re.compile(r'ahref="(.*?)">')#电影链接findImageSrc=re.compile(r'(.*)')#标题findRating=re.compile

Wanyu677·2024-01-17 21:40

python 安居客爬虫_爬虫学习6：爬取安居客的VR房源信息

公司的VR产品在推广前夕，需要做一个较详细的市场分析报告，我们可以从下面几个步骤来深入探讨：1、需要展望整个VR的市场规模有多大，从而论证我们需要面对的市场分量，2、在这个大市场下面，我们面对的细分市场，如何划分，盘子能有多大等等3、产品自身分析和竞品分析，这个是认识自己和别人的部分，从而认识到自己的核心优势以及相比于其他的比较优劣势。4、新机会和风险，我们需要从重重竞争者中，开辟出最适合自己产品

weixin_39600823·2024-01-17 20:50

爬虫学习笔记（十八）—— 点触验证码：超级鹰、12306自动登录

一、打码平台点触验证码是一种常见的反爬手段。解决方案有两种：一种是直接解决，这需要深度学习机器学习等图像处理技术，以大量的数据训练识别模型，最终达到模型足矣识别图片中的文字提示和应该点击的区域之间的对应关系。这需要非常专业的设备，比如TPU运算，和专业的开发和维护人员。因此市面上有专业解决此类问题的OCR解决提供商。也就是第二种间接解决的方案，调用第三方接口。接下来将给大家介绍一款好用的第三方接口

别呀·2024-01-17 10:35

爬虫入门学习（二）——response对象

从上一节（爬虫学习(1)--requests模块的使用-CSDN博客）中我们可以知道requests.get()是Python的requests库中的一个方法，用于发送HTTPGET请求。

码银·2024-01-16 15:53

第一个Python程序_获取网页 HTML 信息[Python爬虫学习笔记]

使用Python内置的urllib库获取网页的html信息。注意，urllib库属于Python的标准库模块，无须单独安装，它是Python爬虫的常用模块。获取网页HTML信息1)获取响应对象向百度（http://www.baidu.com/）发起请求，获取百度首页的HTML信息，代码如下：#导包,发起请求使用urllib库的request请求模块importurllib.request#urlo

宇宙超粒终端控制中心·2024-01-16 06:29

Python--如何在bilibili中查找弹幕发送者

姓名：王可学号：19021210986转载自：https://blog.csdn.net/dlpu_fan/article/details/106387156【钳牛导读】众所周知，bilibili是没有办法直接查看弹幕的发送者的，这使得当我们看到一些nt弹幕的时候虽然生气，却无可奈何，但是B站是可以屏蔽某个用户发送的弹幕的，这说明数据接口里肯定有用户信息，由于最近在学爬虫，所以我想先找找弹幕接口，

IsWeird·2024-01-15 13:17

Python-- if...else

在Python中，if语句是用来进行条件判断的基本结构。它允许您根据一个或多个条件的真假来执行不同的代码块。Python的if语句的基本语法如下：ifcondition:#dosomethingelifanother_condition:#dosomethingelseelse:#dosomethingifnoneoftheconditionsaretrue这里的关键点包括：条件（Conditio

普通研究者·2024-01-14 15:17

Python--装饰器

在Python中，装饰器是一种特殊类型的函数，它们用于修改或增强其他函数或方法的行为。装饰器本质上是一个函数，它接受一个函数作为参数，并返回一个新的函数。使用装饰器可以在不修改原函数代码的前提下，给函数添加新的功能。这在编写可复用代码和遵循单一职责原则时非常有用。Python装饰器的基本语法是使用@符号，后跟装饰器函数的名称。下面是一个基本的Python装饰器示例：defmy_decorator(

普通研究者·2024-01-14 15:17

Python--闭包

在Python中，闭包是一种函数，它能够记住并访问其所在词法作用域（即定义该函数的作用域）中的变量，即使该函数在其词法作用域之外被调用。要形成闭包，需要满足以下几个条件：必须有一个内嵌函数：闭包涉及到至少两个函数：一个外部函数和一个定义在外部函数内部的函数。内部函数是闭包的主体。内部函数需要引用外部函数的变量：内部函数访问或修改了外部函数的局部变量。外部函数必须返回内部函数：外部函数返回内部函数，

普通研究者·2024-01-14 15:47

Python--循环语句

在Python中，循环语句用于重复执行一段代码多次。Python主要提供了两种类型的循环：for循环和while循环。1.for循环for循环用于遍历可迭代对象（如列表、元组、字典、字符串等）中的每个元素，并对每个元素执行一段代码。基本语法：forelementiniterable:#dosomethingwithelement示例：foriinrange(5):print(i)这将输出从0到4的

普通研究者·2024-01-14 15:40

爬虫学习5：如何从一个小说网站中爬出小说内容到本地

第一步：引入爬虫利器包首先，我们需要引入requests和BeautifulSoup包来让我们获取到数据，而在使用BeautifulSoup中，一般会提示需要在函数（）中添加features="html5lib"，所以我们也引入html5lib。引入库灰色的部分即在整个代码里没有被使用到的，至于为什么html5lib呈灰色，小白我也不太明白。第二步：我们先定义一个类这个习惯要掌握好，这是让我们有面

JLOVEDANZI·2024-01-14 00:17

python--杂识--5--大文件分片上传和断点续传

0思路(1)客户端实现边分片文件边发送。客户端使用生产者消费者模式，生产者用于读取指定大小的二进制文件分片，放入缓存队列中，消费者用于从缓存队列中读取文件分片并post发送到服务器；生产者任务与消费者任务异步进行，使用了协程实现。(2)服务端实现边接收文件分片边拼接文件分片。接收并保存文件分片到磁盘用子线程实现，拼接文件分片用子进程实现。需要使用info.ini文件配合实现以上功能，info.in

Chasing__Dreams·2024-01-13 22:01

爬虫爬取裁判文书网_爬取中国裁判文书网的初步尝试——爬虫学习笔记（3）...

今天在CSDN上看了不少帖子，发现裁判文书网的爬取难度很高，据说是由国内顶尖的瑞数信息提供的防护措施，在请求参数中加入了三个加密参数，什么DES3加密直接把我看懵了。对于初学者，我们只好另找一种笨办法——selenium。如果说requests是将我们伪装成浏览器发送请求，那么selenium就是将浏览器当做我们的提线木偶。相比requests，selenium既有优点也有缺点。优点在于selen

我投三分·2024-01-13 20:32

Python--界面UI控制，模拟键鼠操作的模块pyautogui（超详细用法）

一、简介PyAutoGUI是一个Python第三方库，需要pipinstall安装。它允许我们通过编程方式模拟鼠标和键盘的操作，窗口操作，以及界面的截图匹配。由于它是照搬人的操作，底层没有套牢在Windows系统，所以它可以跨平台。二、安装通过pip命令可以轻松安装PyAutoGUIpipinstallpyautogui-ihttps://pypi.tuna.tsinghua.edu.cn/sim

傻乎乎的胖鱼·2024-01-13 15:32

Python--正则表达式

正则表达式概述正则表达式是文本处理极为重要的技术，用它可以对字符串按照某种规则进行检索、替换。分类BRE基本正则表达式，grep、sed、vi等软件支持。ERE扩展正则表达式，egrep(grep-E)、sed-r等。PCRE几乎所有高级语言都是PCRE的变种。Pythoncong1.6开始使用SRE正则表达式引擎，可以认为是PCRE的子集，见模块re。基本语法元字符metacharacter代码

sanqi2469·2024-01-11 03:25

爬虫学习记录4-BeautifulSoup解析html语句

1.BeautifulSoup简单介绍：在这里引入一个可以解读html/xml文件的包，BeautifulSoup（引入的时候从bs4中导入，安装的时候按pipinstallbeautifulsoup来安装就可以了）frombs4importBeautifulSoup这个BeautifulSoup库中常用的解释器有如下图：html.parser(解析html文件)lxml，xmlhtml5lib解

二傻吧·2024-01-10 23:28

python_selenium&零基础爬虫学习案例_知网文献信息

案例最终效果说明：去做这个案例的话是因为看到那个博主的分享，最后通过努力，我基本实现了进行主题、关键词、更新时间的三个筛选条件去获取数据，并且遍历数据将其导出到一个CSV文件中，代码是很简单的，没有太多的逻辑去判断，但是作为一个小白来说，如果刚刚学完selenium的朋友们可以做这个案例，那这个案例的话我就是用selenium的基本知识去完成的。同时所用到的python的基本知识也是比较简单的。目

Hooray11·2024-01-10 06:48

python--面向对象

1.面向对象是什么？总的来说，“面向对象”可以分成“面向”和“对象”，‘面向对象‘’是对“面向过程“”编程的补充和完善。即是通过对象和对象之间的交互协作完成项目功能的开发。2.类和对象的区别？类：是类型的简称，数据类型的简称；是一堆具有共同属性和相似行为的对象的抽象是一个概念、一个称呼、一个类型。类型专门用来创建对象，对象：一种类型有具体数据的实体[实际存在的物体]；是某种类型下一个有具体特征数据

昀吖·2024-01-09 12:49

爬虫学习路径记录

第1步：视频理论学习看了阿里云大学的教学视频，课程名称《python爬虫实战》，链接:link(https://developer.aliyun.com/learning/course/555)之前听过这老师讲的hive课程，口齿清晰，思路明了，很喜欢，特意找他的课来看的。但是阿里云大学里的这个视频貌似是节选，只能了解个大概。听完之后的感觉：1.老师讲课还是循序渐进地，这个老师很善于引导，会把操作

two_snails·2024-01-08 02:18

Python--模块的介绍与导入

文章目录一模块介绍二模块的使用2.1import语句2.2from-import语句2.3为导入的模块起一个别名as2.4循环导入问题——尽量避免解决方法：（屎上雕花，要避免循环导入问题）三、模块的搜索路径与优先级3.1、模块导入的路径问题四、区分py文件的两种用途一模块介绍在Python中，一个py文件就是一个模块，文件名为xxx.py模块名则是xxx,导入模块可以引用模块中已经写好的功能。如果

本木夕丶Lu·2024-01-07 22:31

Python--学习记录

1.函数传递准备看看别的老师怎么写项目的,好家伙上来就是一堆的print和一堆的ifelse......,打开电脑还好这道题我会.将函数名作为参数直接进行遍历调用.func_dict={"0":[exit,"退出系统"],"1":[insert,"录入学生信息"],"2":[search,"查找学生信息"],"3":[delete,"删除学生信息"],"4":[modify,"修改学生信息"],"

进击的小白9527·2024-01-06 22:53

python--函数综合案例ATM

1.定义一个全局变量money用来记录银行卡余额定义一个全局变量name用来表示客户姓名包括主菜单函数、查询余额函数、取款函数、存款函数#定义全局变量namemoneyname=Nonemoney=50000#输入客户姓名name=input("请输入您的姓名：")#定义查询函数defquery(show_head):#show_head用来控制是否输出查询表头ifshow_head:print(

三月七꧁ ꧂·2024-01-06 02:47

Python--初识庐山真面目

基础知识变量只能自上而下，比如：y=2print(x+y)x=3#错误，Python只能自上而下读取变量--------------------------------------------------y=2x=3print(x+y#正确变量名的第一个字符不能是数字关键字不能当做变量名变量名可分为驼峰体和下划线驼峰体：首字母大写，例如：AgeOfMe=20下划线：全部小写用下划线分割，例

星星星_star·2024-01-05 21:55

抓包--爬虫学习必备基础

一、抓包概念：抓包其实就是中间人攻击,只是我们会主动信任像fiddler这样的代理软件.对于服务端,它伪装成客户端.对于客户端,它伪装成服务端.抓包软件Fiddler（国外软件）https://www.telerik.com/fiddler网盘下载链接：链接：https://pan.baidu.com/s/1OdDt1ForqA3B1HVnvExRnw提取码：6666Charleswireshar

程序员彭彭·2024-01-04 20:56

爬虫学习1：如何import requests

1、首先，需要安装python的时候勾选pip并下载requests包（地址：https://github.com/requests/requests）2、然后运行cmd，输入pipinstallrequests这里如果报错，说找不到pip的话，先去python的scripts文件下看看有没有pip.exe，如果有，那就去系统的高级设置中，添加环境变量到PATH路径中，这里需要添加python本身

JLOVEDANZI·2024-01-04 10:22

爬虫学习(1)--requests模块的使用

前言什么是爬虫爬虫是一种自动化工具，用于从互联网或其他计算机网络上获取数据。它可以模拟人的行为，自动访问网页，提取感兴趣的数据，并将其存储到本地计算机或数据库中。爬虫通常用于搜索引擎、数据分析、信息聚合等领域，也被许多企业用于市场调研、竞争分析、用户行为分析等。一些爬虫可能会被用于恶意用途，如扫描漏洞、盗取信息等，因此使用爬虫时应遵守相关法律法规和伦理规范。爬虫工作的流程图正文1.认识reques

码银·2023-12-31 13:21

Linux 安装Jupyter notebook 并开启远程访问

你可以在终端中运行以下命令来检查是否已安装：python--

lakernote·2023-12-30 15:11

python爬虫学习（1）

1、认识网页结构，分别是html(超文本标记语言)、css(层叠样式表)和JScript(活动脚本语言)。HTMLhtml是整个网页的结构，相当于整个网站的框架，带""都是属于html标签，并且标签是成对出现的。常见标签如下：...表示标记中间的元素是网页...表示用户可见的内容...表示框架...表示段落...表示列表...表示图片...表示标题...表示超链接2、以中国旅游网首页（http:/

乐乐宝贝来了2019·2023-12-28 16:18

爬虫学习-selenium工具使用

old-handsome·2023-12-28 13:53

pyhton爬虫学习

pyhton爬虫学习1.准备工作importbs4#网页解析，获取数据importurllib.request,urllib.error#制定URL，获取网页数据importxlwt#进行excel操作

Echo_Wish·2023-12-27 15:59

python--线程local

源码:tests/local.py#-.-coding:utf-8-.-importunittestimportthreadingclassTestLocal(unittest.TestCase):deftest_create_local_instance(self):data=threading.local()self.assertEqual(data.__dict__,{})deftest_a

极光火狐狸·2023-12-26 22:45

爬虫学习——（一）Request库请求网页

目录一、requests库常见方式请求网页1.GET请求基本实例添加请求头百度网页http请求实战抓取网页数据抓取二进制数据2.POST请求3.响应在使用之前，确保安装requests库，可以在任务栏cmd里使用pip3来安装：pip3installrequests一、requests库常见方式请求网页importrequestsr=requests.get('https://www.httpbi

59％·2023-12-23 09:32

玩转 Scrapy 框架 (一)：Scrapy 框架介绍及使用入门

注意：Scrapy框架几乎是Python爬虫学习和工作过程中必须掌握的框架，需要好好钻研和掌握。下面是Scr

Amo Xiang·2023-12-22 12:17

scrapy的crawlspider爬虫

scrapy的crawlspider爬虫学习目标：了解crawlspider的作用应用crawlspider爬虫创建的方法应用crawlspider中rules的使用1crawlspider是什么回顾之前的代码中

攒了一袋星辰·2023-12-22 06:30

scrapy_redis原理分析并实现断点续爬以及分布式爬虫

scrapy_redis原理分析并实现断点续爬以及分布式爬虫学习目标了解scrapy实现去重的原理了解scrapy中请求入队的条件掌握scrapy_redis基于url地址的增量式单机爬虫掌握scrapy_redis

攒了一袋星辰·2023-12-22 06:00

Python--猜拳小游戏

首先我们要明白，猜拳这个小游戏是怎么做的。简单点说就是要明白，玩家要怎么玩，电脑要怎么跟玩家玩这个游戏。猜拳小游戏很简单，就是石头剪刀布，石头对剪刀，石头胜。这个就是规则，那么我们就需要电脑帮我们出一个石头剪刀或者是布，而玩家同样需要输入是出石头剪刀还是布。那么首先第一阶段代码就是先让电脑能出石头剪刀或者是布importrandomprint(random.randint(1,3))#随机打印出一

夜思红尘·2023-12-22 04:55

Python--爬虫--XPath入门

目录一、XPath简介二、xpath函数三、步骤四、结果一、XPath简介全称：XMLPathLanguage；作用：解析数据（HTML,XML），提取节点与节点包含的内容；什么是节点？HTML为例：是一个根节点，，等是根节点的子节点，，等节点包含的节点是他们的子节点，实例如下。xpath_test这里是根节点body的子节点div这里是div的子节点p这里是根节点body的子节点a这里是div的

等黄昏等你来·2023-12-21 21:49

SQL错题集4

，%m是指date的月'%Y-%m’即为2004-012.查询在2025-10-15以后，同一个用户下单1个以上状态为购买成功的C++课程或Java课程或Python课程的user_idC或Java或Python

OvO_______·2023-12-21 05:36

爬虫学习（认识爬虫）

经过前面的文章的学习，相信大家已经跨过了python的门槛，我们可以运用python做一些有意思的事了。现在我们开始新模块----爬虫。学习爬虫要本着别学太好的态度去学习，不然就很容易从入门到入狱。如果大家爬虫时遇到了很麻烦的反爬机制，请大家学会摆烂，及时住手。因为反爬机制是为了保护敏感数据，这些数据如果乱用可能会触犯法律。所以务必！务必！务必！及时住手！学会放弃！当然，学习爬虫还是有很多用处的，

睇笑·2023-12-20 01:06

爬虫学习（bs4）

一、CSV文件操作csv文件→逗号分隔值文件1、reader的用法（1）打开需要读的csv文件（2）创建文件对象的reader获取文件内容，返回值一个生成器，生成其中的元素就是文件中每一行内容对应的列表fromcsvimportreader,DictReader#打开需要读的csv文件f=open('电影.csv',encoding='utf-8')#创建文件对象的reader获取文件内容，返回值

睇笑·2023-12-20 01:06

python--下划线的含义和用法

目录1\_\_name__2\_\_file__2.1延伸用法-返回脚本绝对路径1__name__一个python的文件有两种使用的方法，第一是直接作为脚本执行，第二是import到其他的python脚本中被调用（模块重用）执行。因此if__name__=='main':的作用就是控制这两种情况执行代码的过程，在if__name__=='main':下的代码只有在第一种情况下（即文件作为脚本直接执

一起来学深度学习鸭·2023-12-19 17:01

爬虫学习笔记（一）

importrequestsURL=’http：//www.douban.com‘data=requests.get（URL）print（data.text）说明：importrequests.#调入需要的库requestsURL：将变量网址URL赋值为网址地址data=requests.get（URL）#利用requests库的get方法，向此URL发起请求，并将服务器返回的内容存入变量data

蛋黄果·2023-12-19 13:55

python--单词识别可视化操作

目的：创建一个交互界面，而不是直接从控制台中输入数据，输入英文语句之后，在界面中展示出统计的结果，并将统计的结果保存在指定的文件中。代码展示：#coding:UTF-8importtkinterastk#打开文件root=tk.Tk()root.title('单词分析器')root.geometry('700x700')#设置标签label1=tk.Label(root,text='输入日期，以空

落尘ulu·2023-12-19 13:59

Python--爬取天气网站天气数据并进行数据分析

目的：从天气网站中爬取数据，生成excel表格，里面存储南昌市近十一年的天气情况，并对爬取产生的数据进行数据分析。第一步：编写代码进行数据爬取首先，导入requests模块，并调用函数requests.get(),从天气的网站上面获取该函数所需要的各种参数，然后对里面的参数进行相应的赋值其次，使用pandas.concat().to_excel函数，将爬取的结果保存到表格中，并将其命名后保存到和代

落尘ulu·2023-12-19 13:55

Python爬虫学习笔记 (9) [初级] 小练习爬取慕课网课程清单

更新日期:2021.03.28本节学习内容：练习使用bs4和xlwings-爬取慕课网免费课程清单并存为Excel文件。目录1.目标信息2.爬取步骤3.代码5.几个想法~~1.目标信息目标网站：https://www.imooc.com/目标信息：所有免费课程的名称，链接，方向，分类，讲师，难度，时长等。2020.03.28日慕课网免费课程清单有20个网页,每页有40个课程,点击课程的链接可进一步

Alice·2023-12-18 05:34

python爬虫学习-批量爬取图片

python爬虫学习-批量爬取图片爬虫步骤爬取前十页图片到本地根据页码获取网络源码使用xpath解析网页解析网页并下载图片主函数如下爬取的网站为站长素材（仅做学习使用）爬取的目标网站为https://sc.chinaz.com

开心就好啦啦啦·2023-12-17 11:58

Scrapy爬虫学习

Scrapy爬虫学习一1scrapy框架1.1scrapy是什么1.2安装scrapy2scrapy的使用2.1创建scrapy项目2.2创建爬虫文件2.3爬虫文件的介绍2.4运行爬虫文件3爬取当当网前十页数据

开心就好啦啦啦·2023-12-17 11:23

No.8爬虫学习——xpath基础知识

xpath解析：是最常用且最便捷高效的一种解析方式，通用性1、xpath解析原理（1）实例化一个etree的对象，且需要将被解析的页面源码数据加载到该对象中（2）通过调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获2、环境的安装：pipinstalllxml3、如何实例化一个etree对象:fromlxmlimportetree（1）将本地的html文档中的源码

look仔·2023-12-16 20:29

python--语句、索引切片、容器

上次讲到python运算符，链接如下：https://www.jianshu.com/p/a0dcd1c3c837习题答案2；True：True；True；3语句条件语句让程序根据条件选择性的执行语句。语法:if条件1:语句块1elif条件2:语句块2else:语句块3说明:elif子句可以有0个或多个。else子句可以有0个或1个，且只能放在if语句的最后。if语句的真值表达式if100:pri

Aboypy·2023-12-16 10:27

推荐频道

python--爬虫学习