E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
python--爬虫学习
爬虫学习
(1)--requests模块的使用
前言什么是爬虫爬虫是一种自动化工具,用于从互联网或其他计算机网络上获取数据。它可以模拟人的行为,自动访问网页,提取感兴趣的数据,并将其存储到本地计算机或数据库中。爬虫通常用于搜索引擎、数据分析、信息聚合等领域,也被许多企业用于市场调研、竞争分析、用户行为分析等。一些爬虫可能会被用于恶意用途,如扫描漏洞、盗取信息等,因此使用爬虫时应遵守相关法律法规和伦理规范。爬虫工作的流程图正文1.认识reques
码银
·
2023-12-31 13:21
爬虫入门
爬虫
python
Linux 安装Jupyter notebook 并开启远程访问
你可以在终端中运行以下命令来检查是否已安装:
python--
lakernote
·
2023-12-30 15:11
#
《安装部署》
linux
jupyter
chrome
python
爬虫学习
(1)
1、认识网页结构,分别是html(超文本标记语言)、css(层叠样式表)和JScript(活动脚本语言)。HTMLhtml是整个网页的结构,相当于整个网站的框架,带""都是属于html标签,并且标签是成对出现的。常见标签如下:...表示标记中间的元素是网页...表示用户可见的内容...表示框架...表示段落...表示列表...表示图片...表示标题...表示超链接2、以中国旅游网首页(http:/
乐乐宝贝来了2019
·
2023-12-28 16:18
爬虫学习
-selenium工具使用
文章目录前言selenium工具使用相关操作窗口跳转无头浏览器(后台运行)超级鹰(破解验证码)处理12306登陆验证总结前言本博客仅做学习笔记,如有侵权,联系后即刻更改科普:参考网址selenium工具使用自动化测试工具:selenium引入首先在pycharm里面下载安装相关模块pipinstallselenium它要启动你电脑上的浏览器,这就需要⼀个驱动程序来辅助Edge驱动安装导航Edge驱
old-handsome
·
2023-12-28 13:53
python爬虫
爬虫
学习
selenium
pyhton
爬虫学习
pyhton
爬虫学习
1.准备工作importbs4#网页解析,获取数据importurllib.request,urllib.error#制定URL,获取网页数据importxlwt#进行excel操作
Echo_Wish
·
2023-12-27 15:59
python爬虫及数据可视化
大数据
python
python--
线程local
源码:tests/local.py#-.-coding:utf-8-.-importunittestimportthreadingclassTestLocal(unittest.TestCase):deftest_create_local_instance(self):data=threading.local()self.assertEqual(data.__dict__,{})deftest_a
极光火狐狸
·
2023-12-26 22:45
爬虫学习
——(一)Request库请求网页
目录一、requests库常见方式请求网页1.GET请求基本实例添加请求头百度网页http请求实战抓取网页数据抓取二进制数据2.POST请求3.响应在使用之前,确保安装requests库,可以在任务栏cmd里使用pip3来安装:pip3installrequests一、requests库常见方式请求网页importrequestsr=requests.get('https://www.httpbi
59%
·
2023-12-23 09:32
爬虫
学习
python
玩转 Scrapy 框架 (一):Scrapy 框架介绍及使用入门
注意:Scrapy框架几乎是Python
爬虫学习
和工作过程中必须掌握的框架,需要好好钻研和掌握。下面是Scr
Amo Xiang
·
2023-12-22 12:17
Scrapy
框架的使用
scrapy
scrapy的crawlspider爬虫
scrapy的crawlspider
爬虫学习
目标:了解crawlspider的作用应用crawlspider爬虫创建的方法应用crawlspider中rules的使用1crawlspider是什么回顾之前的代码中
攒了一袋星辰
·
2023-12-22 06:30
Python爬虫
scrapy
爬虫
scrapy_redis原理分析并实现断点续爬以及分布式爬虫
scrapy_redis原理分析并实现断点续爬以及分布式
爬虫学习
目标了解scrapy实现去重的原理了解scrapy中请求入队的条件掌握scrapy_redis基于url地址的增量式单机爬虫掌握scrapy_redis
攒了一袋星辰
·
2023-12-22 06:00
Python爬虫
scrapy
redis
分布式
Python--
猜拳小游戏
首先我们要明白,猜拳这个小游戏是怎么做的。简单点说就是要明白,玩家要怎么玩,电脑要怎么跟玩家玩这个游戏。猜拳小游戏很简单,就是石头剪刀布,石头对剪刀,石头胜。这个就是规则,那么我们就需要电脑帮我们出一个石头剪刀或者是布,而玩家同样需要输入是出石头剪刀还是布。那么首先第一阶段代码就是先让电脑能出石头剪刀或者是布importrandomprint(random.randint(1,3))#随机打印出一
夜思红尘
·
2023-12-22 04:55
Python
python
开发语言
Python--
爬虫--XPath入门
目录一、XPath简介二、xpath函数三、步骤四、结果一、XPath简介全称:XMLPathLanguage;作用:解析数据(HTML,XML),提取节点与节点包含的内容;什么是节点?HTML为例:是一个根节点,,等是根节点的子节点,,等节点包含的节点是他们的子节点,实例如下。xpath_test这里是根节点body的子节点div这里是div的子节点p这里是根节点body的子节点a这里是div的
等黄昏等你来
·
2023-12-21 21:49
爬虫
Python
python
爬虫
网络爬虫
SQL错题集4
,%m是指date的月'%Y-%m’即为2004-012.查询在2025-10-15以后,同一个用户下单1个以上状态为购买成功的C++课程或Java课程或Python课程的user_idC或Java或
Python
OvO_______
·
2023-12-21 05:36
数据库
sql
mysql
爬虫学习
(认识爬虫)
经过前面的文章的学习,相信大家已经跨过了python的门槛,我们可以运用python做一些有意思的事了。现在我们开始新模块----爬虫。学习爬虫要本着别学太好的态度去学习,不然就很容易从入门到入狱。如果大家爬虫时遇到了很麻烦的反爬机制,请大家学会摆烂,及时住手。因为反爬机制是为了保护敏感数据,这些数据如果乱用可能会触犯法律。所以务必!务必!务必!及时住手!学会放弃!当然,学习爬虫还是有很多用处的,
睇笑
·
2023-12-20 01:06
爬虫
学习
python
爬虫
爬虫学习
(bs4)
一、CSV文件操作csv文件→逗号分隔值文件1、reader的用法(1)打开需要读的csv文件(2)创建文件对象的reader获取文件内容,返回值一个生成器,生成其中的元素就是文件中每一行内容对应的列表fromcsvimportreader,DictReader#打开需要读的csv文件f=open('电影.csv',encoding='utf-8')#创建文件对象的reader获取文件内容,返回值
睇笑
·
2023-12-20 01:06
爬虫
爬虫
学习
python
python--
下划线的含义和用法
目录1\_\_name__2\_\_file__2.1延伸用法-返回脚本绝对路径1__name__一个python的文件有两种使用的方法,第一是直接作为脚本执行,第二是import到其他的python脚本中被调用(模块重用)执行。因此if__name__=='main':的作用就是控制这两种情况执行代码的过程,在if__name__=='main':下的代码只有在第一种情况下(即文件作为脚本直接执
一起来学深度学习鸭
·
2023-12-19 17:01
python
python
开发语言
爬虫学习
笔记(一)
importrequestsURL=’http://www.douban.com‘data=requests.get(URL)print(data.text)说明:importrequests.#调入需要的库requestsURL:将变量网址URL赋值为网址地址data=requests.get(URL)#利用requests库的get方法,向此URL发起请求,并将服务器返回的内容存入变量data
蛋黄果
·
2023-12-19 13:55
python--
单词识别可视化操作
目的:创建一个交互界面,而不是直接从控制台中输入数据,输入英文语句之后,在界面中展示出统计的结果,并将统计的结果保存在指定的文件中。代码展示:#coding:UTF-8importtkinterastk#打开文件root=tk.Tk()root.title('单词分析器')root.geometry('700x700')#设置标签label1=tk.Label(root,text='输入日期,以空
落尘ulu
·
2023-12-19 13:59
python
开发语言
数据分析
Python--
爬取天气网站天气数据并进行数据分析
目的:从天气网站中爬取数据,生成excel表格,里面存储南昌市近十一年的天气情况,并对爬取产生的数据进行数据分析。第一步:编写代码进行数据爬取首先,导入requests模块,并调用函数requests.get(),从天气的网站上面获取该函数所需要的各种参数,然后对里面的参数进行相应的赋值其次,使用pandas.concat().to_excel函数,将爬取的结果保存到表格中,并将其命名后保存到和代
落尘ulu
·
2023-12-19 13:55
python
数据分析
matplotlib
numpy
Python
爬虫学习
笔记 (9) [初级] 小练习 爬取慕课网课程清单
更新日期:2021.03.28本节学习内容:练习使用bs4和xlwings-爬取慕课网免费课程清单并存为Excel文件。目录1.目标信息2.爬取步骤3.代码5.几个想法~~1.目标信息目标网站:https://www.imooc.com/目标信息:所有免费课程的名称,链接,方向,分类,讲师,难度,时长等。2020.03.28日慕课网免费课程清单有20个网页,每页有40个课程,点击课程的链接可进一步
Alice
·
2023-12-18 05:34
Python爬虫
python
爬虫
xlwings
python
爬虫学习
-批量爬取图片
python
爬虫学习
-批量爬取图片爬虫步骤爬取前十页图片到本地根据页码获取网络源码使用xpath解析网页解析网页并下载图片主函数如下爬取的网站为站长素材(仅做学习使用)爬取的目标网站为https://sc.chinaz.com
开心就好啦啦啦
·
2023-12-17 11:58
python
爬虫
Scrapy
爬虫学习
Scrapy
爬虫学习
一1scrapy框架1.1scrapy是什么1.2安装scrapy2scrapy的使用2.1创建scrapy项目2.2创建爬虫文件2.3爬虫文件的介绍2.4运行爬虫文件3爬取当当网前十页数据
开心就好啦啦啦
·
2023-12-17 11:23
scrapy
爬虫
python
No.8
爬虫学习
——xpath基础知识
xpath解析:是最常用且最便捷高效的一种解析方式,通用性1、xpath解析原理(1)实例化一个etree的对象,且需要将被解析的页面源码数据加载到该对象中(2)通过调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获2、环境的安装:pipinstalllxml3、如何实例化一个etree对象:fromlxmlimportetree(1)将本地的html文档中的源码
look仔
·
2023-12-16 20:29
网络爬虫
爬虫
python
数据挖掘
python--
语句、索引切片、容器
上次讲到python运算符,链接如下:https://www.jianshu.com/p/a0dcd1c3c837习题答案2;True:True;True;3语句条件语句让程序根据条件选择性的执行语句。语法:if条件1:语句块1elif条件2:语句块2else:语句块3说明:elif子句可以有0个或多个。else子句可以有0个或1个,且只能放在if语句的最后。if语句的真值表达式if100:pri
Aboypy
·
2023-12-16 10:27
Scrapy的crawlspider爬虫
scrapy的crawlspider
爬虫学习
目标:了解crawlspider的作用应用crawlspider爬虫创建的方法应用crawlspider中rules的使用1、crawlspider是什么回顾之前的代码中
一勺菠萝丶
·
2023-12-16 09:49
scrapy
爬虫
Python--
分类问题标签化
"""根据user_value给用户打标签,若是二分类问题,直接用np.where(condition,a,b)多分类问题,利用quantile()函数对不同的范围给一个级别指数,定义类别然后label"""Q2=data_grouped['user_value'].quantile(0.2)Q4=data_grouped['user_value'].quantile(0.4)Q6=data_gr
数据科学知识库
·
2023-12-15 18:48
Python
python
算法
Python--
统计学检验
1.导入相关库importnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltfromscipyimportstatsfromscipy.statsimportnormaltest,kstest,shapiro,anderson,levene,bartlett,f_onewayfromscipy.statsimportttest_1samp,t
数据科学知识库
·
2023-12-15 18:48
Python
python
Dean_Mo_2022年网络我的网络
爬虫学习
心得。
文章目录一、学习心得二、爬虫所用到的pip模块2.1Pandas2.2BeautifulSoup2.3NumPy2.4Requests2.5urlib2.6SQLAlchemy2.7PyMySQL2.8PyMongo2.9gerapy_auto_extractor2.10Pywin322.11Scrapy2.12Gerapy三、实验一爬虫流程—单个网站四、实验二爬虫流程—多个网站4.1Scrapy
Dean_Mo
·
2023-12-15 06:37
网络
爬虫
python
python--
蒙特卡罗方法计算圆周率
前几天学习了嵩天老师的一节挺有意思的课,讲的是通过蒙特卡罗方法来计算圆周率。蒙特卡罗方法在这里就不多描述了,有兴趣的朋友可以看一下。蒙特卡罗方法主要思想是:在一个正方形中按照r/2为半径画圆,那么圆的面积跟单位正方形面积之比就是圆周率的相关数据。代码如下:#-*-coding:utf-8-*-importrandomimporttimenum=1000*1000#撒点总数为numcount=0st
想学好python的人
·
2023-12-15 03:15
python学习笔记
python
爬虫学习
日记第九篇(爬取seebug)
目标:https://www.seebug.org/vuldb/vulnerabilities需求:爬取cve_id及影响组件单线程cookie是有时效的(过一段时间就不行了,大概半小时左右),但是并不需要登录(直接抓包拿到的请求头)importbase64importjsonimporturllibfromconcurrent.futuresimportThreadPoolExecutorimp
开心星人
·
2023-12-15 01:35
Python
爬虫
seebug
python--
自动化办公(Word)
python自动化办公之—Wordpython-docx库1、安装python-docx库pipinstallpython-docx2、基本语法1、打开文档document=Document()2、加入标题document.add_heading('总标题',0)document.add_heading('⼀级标题',1)document.add_heading('⼆级标题',2)3、添加文本pa
DB_UP
·
2023-12-04 10:58
python常用数据处理场景
python
自动化
word
python编写圆的面积面向对象_
Python--
面向对象编程(1)
面向对象编程--基础部分一.什么是面向对象的程序以及为什么要有面向对象面向过程的程序设计:核心是过程二字,过程指的是解决问题的步骤,即先干什么,再干什么....面向过程的设计就像是一种流水线,是一种机械式的思维方式优点是:复杂度的问题流程化,进而简单化(一个复杂的问题,分成一个个小的步骤去实现,实现小的步骤将会非常简单)缺点是:一套流水线或者流程就是用来解决一个问题,生产汽水的流水线无法生产汽车,
细米米猪
·
2023-12-04 09:33
尚硅谷
爬虫学习
urllib
Urllib如果我们把互联网比作一张大的蜘蛛网,那一台计算机上的数据便是蜘蛛网上的一个猎物,而爬虫程序就是一只小蜘蛛,沿着蜘蛛网抓取自己想要的数据一、反爬手段User‐Agent:UserAgent中文名为用户代理,简称UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。代理IP西次代理快代理什么是高匿名、匿名
aliwa.
·
2023-12-04 06:24
爬虫
爬虫
python
Python---练习:列表赋值---追加append尾部追加元素,追加的是一个元素整体
相关链接:
Python--
列表及其应用场景---增、删、改、查。
唯元素
·
2023-12-03 21:44
python
开发语言
pycharm
Python---格式化输出与%百分号----涉及转义符 \ 反斜杠的使用
相关链接
Python--
格式化输出中的转义符号----\t制表符(空格的)和\n(换行的)_唯元素的博客-CSDN博客Python---字符串(用单、双引号、三单/双引号定义。
唯元素
·
2023-12-03 21:14
python
开发语言
pycharm
爬虫学习
-基础(HTTP原理)
目录一、URL和URI二、HTTP和HTTPS(1)HTTP(2)HTTPS(3)HTTP与HTTPS区别(4)HTTPS对HTTP的改进:双问的身份认证三、TCP协议(1)TCP三次握手:(2)TCP四次挥手四、HTTP请求过程五、请求(1)请求方法(2)请求的网址(3)请求体六、响应(1)响应(2)响应头(3)响应体七、HTTP2.0(1)二进制分帧层(2)多路复用(3)流控制(4)服务端推送
吗喽也是命
·
2023-12-03 11:27
爬虫
学习
http
爬虫学习
(一)
文章目录文件目录结构打开文件操作爬取网页的理解尝试文件目录结构打开文件操作爬取网页的理解尝试这个放回值为请求正常
wniuniu_
·
2023-12-03 10:20
爬虫
学习
python--
字符串)
python基础–字符串字符串概念及特点包含那零个或者多个字符的有序不可变序列特点:有序性:添加顺序和显示顺序一致,添加字符的适合,会设置编号,编号是从0开始的,被称为索引、下标、角标【有索引、有切片】不可变性:在内存地址不变的情况下,字符串的内容不允许发生变化如果字符串内容发生变化,内存地址一定发生变化定义字符串1.使用引号【一对单引号,一对双引号,一对三引号[预编译文本保持内容的原样输出]】2
谪 语
·
2023-12-03 07:35
python
开发语言
Python--
使用布林线设计均值回归策略
在本教程中,我们将探讨均值回归的概念以及如何使用Python中的布林线设计交易策略。均值回归是一种流行的交易策略,它基于这样的假设:随着时间的推移,资产价格往往会恢复到历史平均水平。布林线(BollingerBands)由约翰·布林格(JohnBollinger)开发,是一种技术分析工具,可用于识别均值回归交易策略的潜在进入点和退出点。我们将从理解均值回归和布林带背后的理论开始,然后我们将深入研究
Omer_
·
2023-12-02 14:02
股票
kotlin
开发语言
android
爬虫学习
逆向爬虫(六)
多任务异步协程协程:更高效的利用CPUimporttimedeffunc():print("黎明")time.sleep(3)print("还是黎明")func()等待时机长sleep时CPU不再工作IO操作(费时不费力)->阻塞线程运行阻塞后移出主线程移动到下一个4个任务一个线程线程池多线程切换消耗资源,而此不耗event_loop轮巡python实现协程importasyncio#借助even
name_S56
·
2023-11-30 11:47
爬虫
学习
python--
自动生成并处理Excel文件中的成绩数据
题目:假设一个学期内所有课程允许多次考试,学生可以随时参加考试,系统自动将每次成绩添加到Excel文件中,包含姓名、课程、成绩三列。现期末开始统计所有学生每门课程的最高成绩。编写程序,模拟生成记录若干同学各课程多次成绩的Excel文件,统计所有学生每门课程的最高成绩,并将结果写入新的Excel文件。考察:1)扩展库openpyxl的安装与使用;2)扩展库openpyxl对Excel文件的操作方法,
~祝今在
·
2023-11-29 19:33
python
python
excel
数据分析
爬虫学习
异步爬虫(五)
多线程多进程协程进程运行中的程序线程被CPU调度的执行过程,操作系统运算调度的min单位在进程之中,进程中实际运作单位fromthreadingimportThread#创建任务deffunc(name):foriinrange(100):print(name,i)if__name__=='__main__':#创建线程t1=Thread(target=func,args=("一一一",))#Th
name_S56
·
2023-11-29 09:03
爬虫
学习
python
爬虫学习
数据解析 (3.5)
xpath解析Xpathxml文档中查找信息的语言“标签”–结点模块安装:pipinstalllxmlfromlxmlimportetree#er=etree.XML(xml)et.xpath("/book")#"/"表示根结点et.xpath("/book/name/text()")#et.xpath("/book//nick")#"//"表示所有et.xpath("/book/*/nick")
name_S56
·
2023-11-29 09:33
python爬虫
爬虫
学习
爬虫学习
requests进阶(四)
进阶概述我们在之前的爬虫中其实已经使用过headers.header为HTTP协议中的请求头.一般存放一些和请求内容无关的数据.有时也会存放一些安全验证信息.比如常见的User-Agent,token,cookie等.通过requests发送的请求,我们可以把请求头信息放在headers中.也可以单独进行存放,最终由requests自动帮我们拼接成完整的http请求头.本章内容:模拟浏览器登录->
name_S56
·
2023-11-29 09:33
python爬虫
学习
python
爬虫
爬虫学习
爬虫概述&入门(二)
爬虫合法如菜刀是一把双刃剑反爬机制反反爬机制robots.txt协议君子协议,规定那些数据不可爬取。搜索引擎第一个爬虫的开发模拟浏览器fromurllib.requestimporturlopen#url_liburl_openfromurllib.requestimporturlopenurl="http://www.baidu.com"#httpsresp=urlopen(url)#print
name_S56
·
2023-11-29 09:32
python爬虫
python
网络爬虫
爬虫学习
数据解析(三)
提取数据提供四种解析方式re解析(正则表达式,难写)bs4解析(效率低)xpath解析(简洁好用)pyquery解析(简单便捷)重点讲rexpath结果OK,就OK,方式无所谓正则表达式全新的表达式语言优点:速度快,效率高,准确性高,严谨缺点:新手上手难度有点儿高.在线正则表达式测试普通字符跟ctrl+F一样...元字符具有固定含义的特殊符号.除换行符的所有字符,(pythonre模块中是个坑?)
name_S56
·
2023-11-29 09:32
python爬虫
爬虫
学习
c#使用正则表达式获取TR中的多个TD_python
爬虫学习
笔记:XPath语法和使用示例
python爬虫:XPath语法和使用示例XPath(XMLPathLanguage)是一门在XML文档中查找信息的语言,可以用来在XML文档中对元素和属性进行遍历。选取节点XPath使用路径表达式来选取XML文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。常用路径表达式:实例在下面的表格中,列出一些路径表达式以及表达式的结果:
weixin_39845206
·
2023-11-28 07:59
python
获取
class下所有td
内容
xpath
第一个元素
爬虫学习
2:如何引入Beautiful Soup
我们第一步利用request包拉出了网页的源代码:下面我们需要引入一个BeautifulSoup来提取代码中我们想要的数据。首先跟安装requests一样,在cmd命令行里输入“pipinstallbeautiful4”,安装即可。然后在编辑器引入“frombs4importBeautifulSoup”,如果这个库没有被用,是呈灰色,并显示Unusedimportstatement,指的是这个库没
JLOVEDANZI
·
2023-11-27 22:17
送书——《Python 3网络爬虫开发实战》
这本书豆瓣评分9.0,是数万
爬虫学习
者的必读经典。一本好书往往可以另读者获益匪浅,良好的口碑更是对这本书品质的认定。
Python进阶者
·
2023-11-27 17:15
人工智能
python
编程语言
大数据
数据分析
python--
约瑟夫环问题
任务描述据说著名历史学家Josephus有过以下的故事:Josephus及他的朋友共41人围成一个圆圈,由第1个人开始报数,每数到3该人就必须出去,然后再由下一个人重新报数,直到圆圈上少于3人为止。Josephus将朋友与自己安排在第16个与第31个位置,成为最后剩下的人。
肥嘟嘟左卫门546
·
2023-11-27 05:10
python
开发语言
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他