E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
python--爬虫学习
Python
爬虫学习
(利用requests库查询12306官网车票信息)
文章目录分析流程接口信息获取站点中文对应的英文字母(1)查询车票信息(2)查询车票价格信息(3)实现运行分析流程12306上获取相关车票信息,输入的查询数据流向:用户进入官网时,前端向接口1发送GET请求得到站点中文对应英文字母信息用户在查询页面输入或选择出发地、目的地及相关参参数(包括出发日期、票的种类等),得到用户的出行信息利用步骤1得到的数据与用户出行的站点信息匹配,得到站点对应英文字母利用
公羽向阳
·
2020-07-30 20:31
Python-爬虫
Python3
爬虫学习
笔记 C14【验证码对抗系列 — 点触验证码】
Python3
爬虫学习
笔记第十四章——【验证码对抗系列—点触验证码】文章目录【14.1】关于点触验证码【14.2】点触验证码攻克思路【14.3】模拟登录12306—总体思路【14.4】主函数【14.5】
TRHX • 鲍勃
·
2020-07-30 19:46
#
爬虫基础
爬虫学习
笔记(点击加载内容的爬取)-001
今天再爬一个网站时遇到通过jsonp的形式回传后续内容的网站(如图):经过观察发现每点击一个这个按钮,浏览器就会发送两个get请求:而第一个参数里边返回的内容正好是我们要的东西,此时再看它的url:https://shankapi.ifeng.com/shanklist/_/getColumnInfo/_/default/6470973085922103296/1542800353000/20/1
呆小宇
·
2020-07-30 17:25
Python爬虫入门教程 74-100 Python分布式夯实,夯实,还是**夯实
写在前面对于分布式
爬虫学习
来说,或者对于技术学习来说,没有捷径,两条路可以走,第一自己反复练习,孰能生巧;第二看别人分享的代码反复学习别人的写法,直到自己做到。
梦想橡皮擦
·
2020-07-30 11:50
爬虫100例教程
Python--
多继承(Mixin类)
Python不同版本的类Python2.2之前类是没有共同的祖先的,之后,引入object类,它是所有类的共同祖先类object。Python2中为了兼容,分为古典类(旧式类)和新式类。Python3中全部都是新式类。新式类都是继承自object的,新式类可以使用super。#以下代码在Python2.x中运行#古典类(旧式类)classA:pass#新式类classB(object):passp
鹿夏
·
2020-07-30 08:46
初学Python之爬虫
爬虫学习
笔记什么是爬虫?
仙道的人字拖
·
2020-07-30 04:56
Python3.7网络
爬虫学习
----Spider运行错误问题解决 [write(self,data,async=False): SyntaxError]
在好不容易安装完Scrapy后尝试写一个简单的ScrapyProject,按书上的代码写完检查了很多遍保证没有错,可是在运行这个Spider的时候却出现里这个神奇的问题:2018-08-1918:20:15[scrapy.utils.log]INFO:Scrapy1.5.1started(bot:example)2018-08-1918:20:15[scrapy.utils.log]INFO:Ve
无调缪斯
·
2020-07-30 02:29
Python
Python
爬虫学习
笔记(BeautifulSoup4库:标签树的上、下、平行遍历,html格式化)
BeautifulSoup4:beautifulsoup库是解析、遍历、维护“标签树”的功能库。BeautifulSoup4的使用依赖于lxml库,安装Beautifulsoup4之前请先安装lxml库,安装参考requests库用法:frombs4importBeautifulSoupsoup=BeautifulSoup(‘data’,’html.parser’)#测试importrequest
二叉叔
·
2020-07-29 22:17
Python爬虫
爬虫学习
——批量在中国气象中心网站检索下载数据
批量在中国气象中心网站检索下载数据前几天嗓子不舒服之后就病了,不过现在好一点。最近师哥喊我通过国家气象中心网站帮他下载时间跨度比较长的气象数据,但是这个网站对不同的数据集检索有日期要求,也就是说有的数据集一次只能检索3个月的数据,如果你要下载十年的数据,就要检索四十次,而且由于它输入日期的方式比较麻烦,所以检索起来很费时间。所以现在教大家怎么通过python自动检索数据并添加到数据筐。本次代码主要
八千鸟羽
·
2020-07-29 21:08
小白的Python学习
python--
栈和队列
使用list实现栈,使用deque实现队列(使用list实现队列效率低)。1.使用list实现栈--先进后出classStack:'''使用列表实现栈'''def__init__(self,lis):self.lis=lisdefappend(self,args):self.lis.append(args)defpop(self,args=-1):returnself.lis.pop(args)#
mh_dream
·
2020-07-29 21:28
python
栈
队列
python
爬虫学习
:电商数据分析
六月北京|高性能计算之GPUCUDA培训6月22-24日三天密集式学习快速带你入门阅读全文>正文共769,11图,预计阅读时间6分钟。通常我们在使用爬虫的时候会爬取很多数据,而这些数据里边什么是有用的数据,什么是没用的数据这个是值得我们关注的,在这一篇文章里,我们将通过一个简单的爬虫,来去简单介绍下如何使用python来去做数据分析。爬虫部分在这一篇文章中我们会以淘宝为例,爬取淘宝的店铺和商家信息
LeadAI学院
·
2020-07-29 20:16
python3.7
爬虫学习
1 获取页面
importurllib.requestresponse=urllib.request.urlopen("http://placekitten.com/g/200/300")cat_jpg=response.read()withopen('cat_200_300.jpg','wb')asf:f.write(cat_jpg)获取一张猫图片importurllib.requestresponse=ur
l3142600073
·
2020-07-29 20:47
python
爬虫
python获取界面
爬虫学习
之路(一)
一、了解网页1、认识网页结构网页一般由三部分组成,分别是HTML(超文本标记语言)、CSS(层叠样式表)和JavaScript(活动脚本语言)。HTML是用来搭建整个网页的骨架。CSS是为了让整个页面更好看,包括我们看到的颜色,每个模块的大小、位置等都是由CSS来控制的。JavaScript是用来让整个网页“动起来”,这个动起来有两层意思,一层是网页的数据动态交互,还有一层是真正的动,比如我们都见
世界第一大菜鸡
·
2020-07-29 17:40
爬虫
Python--
通过索引excel表将文件进行文件夹分类的脚本+读取指定目录下所有文件名的脚本...
1.通过索引excel表将文件进行文件夹分类的脚本,此脚本由于将ip和id对应并生成对应id的文件夹将文件进行分类,也可以任意规定表格内容,通过vul_sc_ip.txt和xlsx文件进行索引。#-*-coding:utf8-*-importsysimportosimportpandasaspdimportshutilimportstatdeffind(path,ip):#opentheexcel
weixin_33694620
·
2020-07-29 12:11
python--
支持向量机应用小例
以下内容笔记出自‘跟着迪哥学python数据分析与机器学习实战’,外加个人整理添加,仅供个人复习使用。SVM的分类效果软间隔的作用,复杂算法容易造成过拟合,如何解决?核函数的作用,核函数的作用,可以实现非线性分类。importnumpyasnpimportmatplotlib.pyplotaspltimportpandasaspdimportwarningswarnings.filterwarni
小赋自留地
·
2020-07-29 11:47
机器学习
Python--
数字炸弹游戏
Python–数字炸弹游戏数字炸弹游戏规则:在一个数字范围内,有一个数字作为炸弹,谁猜中这个炸弹就被惩罚.比如范围是1~99,炸弹是60,然后猜了一个数字是30,30不是炸弹,那么现在猜数字的范围就缩小到30~100,又猜了一个数字80,80也不是炸弹,那么现在又缩小范围到30~80,每次猜不能猜边界上的值,直到你或电脑猜中这个炸弹,然后就会受到惩罚,游戏结束要求:你先输入一个数如果不是炸弹,然后
没有衬衫
·
2020-07-29 04:19
python
Python
爬虫学习
---------根据分类爬取豆瓣电影的电影信息
代码的入口:if__name__=='__main__':main()#!/usr/bin/python3#-*-coding:utf-8-*-#author:Sirius.Zhaoimportjsonfromurllib.parseimportquotefromurllib.requestimporturlopenfromurllib.requestimportRequestimportpymy
_a_0_
·
2020-07-29 04:42
python
python--
对比两个Excel不同
############################对比两个版本的Excel数据的异同###########################importxlrdimportxlwtimportosl_p=[]#定义两个全局list,分别存储原始和目的需要对比的数据l_t=[]defread_excel():wb_pri=xlrd.open_workbook('verp.xlsx')#打开原始文
老三是只猫
·
2020-07-29 03:53
python
python
爬虫学习
笔记(一)--- requests获取网页源代码(get请求 post请求区别)
python的requests库可以发起的http请求有如下几种:PUTDELETEHEADOPTIONSGETPOSTGET与POST是两种较常使用的请求,也是主要的获取网页源代码的方式。其对比如下:关于post请求的知识会在后面的文章当中提到,这里简单的写一段代码来说明一下requests的基本用法importrequestsurl="https://www.baidu.com"r=reque
江小枫
·
2020-07-28 23:18
python--
实现归并排序(分治策略)
分治算法总体思想:分—将要求解的较大规模的问题分割成k个更小规模的子问题。治—对这k个子问题分别求解。如果子问题的规模仍然不够小,则再划分为k个子问题,如此递归的进行下去,直到问题规模足够小,很容易求出其解为止。合—将求出的小规模的问题的解合并为一个更大规模的问题的解,自底向上逐步求出原来问题的解。由于分治的过程中会使用到递归的概念,这里再过多的说一下递归的概念:由分治法产生的子问题往往是原问题的
路人寅z
·
2020-07-28 22:58
python
月薪50K程序猿花一周时间整理出的Python
爬虫学习
路线,太详细了
想用Python做爬虫,而你却还不会Python的话,那么这些入门基础知识必不可少。很多小伙伴,特别是在学校的学生,接触到爬虫之后就感觉这个好厉害的样子,我要学。但是却完全不知道从何开始,很迷茫,学的也很杂,下面就跟着小编一起来看看想用python来做爬虫到底需要学习哪些知识吧!Python入门1、基本知识、数据类型、流程控制。人生苦短,快用Python在这里还是要推荐下我自己建的Python开发
金果6
·
2020-07-28 22:10
Python学习
Python爬虫
web开发
Python全栈
Python开发
人工智能
数据分析
利用Python爬取豆瓣影评
Python
爬虫学习
3利用Python爬取豆瓣影评一、查找短评存放的标签二、爬取影片短评具体代码利用Python爬取豆瓣影评一、查找短评存放的标签二、爬取影片短评具体代码#_*_coding:UTF-8
weixin_43602104
·
2020-07-28 22:43
python
爬虫学习
笔记-requests用法
python内置的urllib在某些高级应用时存在很多不方便的地方且功能似乎也没有想象的那么强大,于是更为强大第三方库requests库应运而生,有了它,cookies,代理,登陆操作都是简化很多。首先确认安装requests库:pipinstallrequests1.类比于urllib的urlopen()方法发送请求,requests对应的方法是get(),实例如下:r=requests.get
懒懒的书虫
·
2020-07-28 21:18
python爬虫
Python爬虫:最牛逼的 selenium爬取方式!
作为一个男人在最高光的时刻这是小编准备的python
爬虫学习
资料,加群:700341555即可免费获取!Python爬虫:最牛逼的selenium爬取方式!
@希啊
·
2020-07-28 21:53
python
python
程序员
python--
高级内容(文件,爬虫,xml解析)
文件的打开方式:open(name[,mode[buf]])name:文件路径mode:打开方式buf:缓冲buffering大小打开关闭文件:Python提供了必要的函数和方法进行默认情况下的文件基本操作。你可以用file对象做大部分的文件操作。open函数你可以先用Python内置的open()函数打开一个文件,创建一个file对象,并且可以利用不同模式下打开文件的属性来对文件进行编辑举例:f
一只安静的猫
·
2020-07-28 21:55
自学
Python--
常用模块之random模块
random模块:随机数随机小数:(0,1)random.random()随机整数:importrandomprint(random.randint(1,9))#大于等于1且小于9的整数print(random.randrange(1,9,2))#大于等于1且小于9的奇数随机返回一个或多个:importrandomprint(random.choice([1,2,3,4,5,6]))#随机返回一个
不见长安啊
·
2020-07-28 20:08
自学Python
自学
Python--
常用模块之os模块
os.makedirs('dirname1/dirname2')可生成多层递归目录os.removedirs('dirname1')若目录为空,则删除,并递归到上一级目录,如若也为空,则删除,依此类推os.mkdir('dirname')生成单级目录;相当于shell中mkdirdirnameos.rmdir('dirname')删除单级空目录,若目录不为空则无法删除,报错;相当于shell中rm
不见长安啊
·
2020-07-28 20:08
自学Python
python--
列表
image.pnginsert在指定索引位置添加数据image.pngappend在列表末尾添加数据image.pngextend把列表2追加到列表1中image.png列表[索引]=数据用来修改指定索引的数据image.pngdel列表[索引]删除指定索引的数据image.png列表.pop删除末尾的数据image.png列表.pop(索引)删除指定索引的数据image.png列表.clear清
冥千洛
·
2020-07-28 20:19
爬虫学习
日记(六)
早上fix12PD的bug之前写的爬虫最多只能显示10条数据,但是如果超过10条,显示在第二页的数据就拿不到分析了之前发送的请求,发现有个参数是row修改row到100再发送请求就可以显示基本所有的数据了以后写爬虫要注意row这个参数就是拿来分页的要尽量修改到最大下午fixBigs里面的WHLC的bug发现里面的逻辑跟SSM差不多把之前写的逻辑都放进去测试了一下本地是能跑通的放上去服务器就跑不通C
weixin_34390105
·
2020-07-28 19:59
Python--
基础练习
1.在Linux电脑上安装python,ipython,pycharm专业版本软件;2.在Windows电脑上安装python3版本,并配置环境变量,确保Dos环境下运行脚本;3.Linux下有多少种运行python的不同方法,并分析各自优缺点。并说说你最喜欢哪一种?共有方法三种:Python、Ipython、Vim*.py代码比较少喜欢第二种,比较方便;代码多了就选择第三种4.编写脚本,使用pr
weixin_34138056
·
2020-07-28 18:51
Python
爬虫学习
笔记——防豆瓣反爬虫
开始慢慢测试爬虫以后会发现IP老被封,原因应该就是单位时间里面访问次数过多,虽然最简单的方法就是降低访问频率,但是又不想降低访问频率怎么办呢?查了一下最简单的方法就是使用转轮代理IP,网上找了一些方法和免费的代理IP,尝试了一下,可以成功,其中IP代理我使用的是http://www.xicidaili.com/nn/获取Proxies的代码如下:1forpageinrange(1,5):2IPur
weixin_34107955
·
2020-07-28 18:25
Python
爬虫学习
(二)使用Selenium和PyQuery爬取网页
1.概述:使用Selenium模拟浏览器访问网页,利用PyQuery库解析获取到的网页,然后将获取到的信息保存到MongoDB数据库中,这里以淘宝为例,提取商品的信息。2.准备工作:安装MongoDB现在最新版是4.0,直接去官网下载,然后一直默认安装就可以用了。具体安装过程可以参考下面的两篇博客。https://blog.csdn.net/Dorma_Bin/article/details/80
HJ_彼岸
·
2020-07-28 14:17
python
爬虫工作环境配置
磨刀不误砍柴工,在正式
爬虫学习
前,需要事先配置工作环境,包括如下:python环境。
徐洲更hoptop
·
2020-07-28 14:04
爬虫学习
之路(二)
这次的爬虫程序,依然没有用框架。。目标是爬取房天下新房和二手房网页中的房屋信息,如地址、面积、单价、坐标等,鉴于新手房前端页面比较混乱(我发现的页面就有三种,相应的写了三套方案),我的代码写的也就比较混乱,所以接下来我只记录二手房的爬取过程及代码。房天下二手房的页面如下,上面是选择条件,下面是房源列表房源列表中最多只能显示100页,其他的会被舍弃,也就是说,如果要得到完整的数据,我们要确保房屋列表
猪老大唯一官方认证
·
2020-07-28 12:31
学习笔记
爬虫学习
(一)
爬虫学习
(一)1.1学习get与post请求1.2尝试用requests发送get请求1.3申请返回的状态码1.4请求头2.1正则表达式2.2豆瓣top250爬取实战3遇到的问题参考资料1.1学习get
strmat
·
2020-07-28 11:32
python爬虫
Python
爬虫学习
--3--爬取豆瓣Top250电影
爬取链接这个网页中每页有25条信息,共有10页首先我们要做的获取每一页的连接,由第一页https://movie.douban.com/top250//第一页https://movie.douban.com/top250?start=0&filter=//第一页https://movie.douban.com/top250?start=25&filter=//第二页······https://mo
_Always_
·
2020-07-28 11:15
后端
机器学习
Python--
数据处理分析一些方法总结
删除数据#行删除train=train.drop(train[(train['GrLivArea']>4000)].index)#列删除train.drop("Id",axis=1,inplace=True)连接数据#并重设索引,列相同all_data=pd.concat((train,test)).reset_index(drop=True)#当axis=1的时候,concat就是行对齐,然后将
zhxh0609
·
2020-07-28 10:35
机器学习
数据分析与挖掘
爬虫学习
入门:urllib库学习#从urllib中导入requestfromurllibimportrequest#如果因为是https需要ssl证书验证发生错误的,需要导入ssl库以及下面的代码importsslssl._create_default_https_context=ssl._create_default_https_contexturl=‘http://www.baidu.com’#使用u
sh805499910
·
2020-07-28 10:02
python爬虫学习
爬虫学习
笔记 - 多任务
多线程爬虫threadingt1=threading.Thread(targe=func,args=(,))t1.setDaemon(True)t1.start()#此时线程才会启动队列q.join()#阻塞主线程,让主线程等待队列任务结束之后在结束,队列任务在计数为0时技术q.task_done()和get()方法配合,队列计数-1q.put()队列计数+1多进程爬虫multiprocessin
python_QYF
·
2020-07-28 10:47
spider
Python
爬虫学习
教程:天猫商品数据爬虫
天猫商品数据爬虫使用教程下载chrome浏览器查看chrome浏览器的版本号,下载对应版本号的chromedriver驱动pip安装下列包pipinstallseleniumpipinstallpyquery登录微博,并通过微博绑定淘宝账号密码在main中填写chromedriver的绝对路径在main中填写微博账号密码#改成你的chromedriver的完整路径地址chromedriver_pa
Python新手学习之家
·
2020-07-28 10:00
python爬虫
python(模块和包的总结)
包括:内置模块,自定义模块,第三方模块;什么是模块(
python--
核心概念)1.每一个以扩展名.py结尾的pyth
qq_43194257
·
2020-07-28 09:08
Python--
实现插入排序(从小到大排序)
插入排序算法原理:从列表中第二个元素开始依次向前比较,从小到大排列,如果比较的数比被比较的数数值小,那么两个元素交换位置。算法实现过程:代码的实现list=[5,3,9,7,4]foriinrange(1,len(list)):forjinrange(i,0,-1):iflist[j]
wyza
·
2020-07-28 08:21
python
算法
Python
爬虫学习
记录——3.使用Requests爬取豆瓣短评
文章目录Requests库介绍Requests库安装Requests库的简单用法实战爬虫协议Requests库介绍Requests库官方的介绍有这么一句话:Requests,唯一的一个非转基因的PythonHTTP库,人类可以安全享用。这句话直接并霸气地宣示了Requests库是python最好的一个HTTP库。想要深入学习Requests库,可以参考官方文档:http://cn.python-r
赈川
·
2020-07-28 08:57
Python
Python--
阿里云服务器CentOS 配置流程(一)
系统配置设置密码:passwd查看磁盘:fdisk-l磁盘分区:fdisk/dev/vda1输入:n输入:p输入:1输入:回车2次输入:wq分区格式化:mkfs.ext3/dev/vda1转到根目录下:cd/新建web目录:mkdirweb写入新分区信息:echo‘/dev/xvdb1/webext3defaults00’>>/etc/fstab查看信息是否写入成功:cat/etc/fstab系统
liefyuan
·
2020-07-28 06:30
Linux
python
爬虫学习
笔记(三)—— 实战爬取豆瓣TOP250电影
基于之前两篇的基础知识后python
爬虫学习
笔记(一)——初识爬虫python
爬虫学习
笔记(二)——解析内容开始实战爬取豆瓣TOP250电影首先还是重新复习下爬虫的基本流程:发起请求获取响应内容解析内容保存数据
浮生若code
·
2020-07-28 05:55
笔记
python--
从入门到实践--chapter 15 16 17 生成数据/下载数据/web API
1.随机漫步random_walk.pyfromrandomimportchoiceclassRandomWalk():def__init__(self,num_points=5000):self.num_points=num_pointsself.x_value=[0]self.y_value=[0]deffill_walk(self):whilelen(self.x_value)1billio
Michael阿明
·
2020-07-28 05:00
Python
爬虫学习
,xpath练习
fromlxmlimportetreeimportrequestsimportosdirName='Girlslib'ifnotos.path.exists(dirName):os.mkdir(dirName)headers={'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)'
小妖怪_
·
2020-07-28 03:03
笔记
xpath
python
爬虫学习
,BeautifulSoup下载小说
importrequestsfrombs4importBeautifulSoupfp=open('./sanguo.txt','w',encoding='utf-8')headers={'user-agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/83.0.4103.61Saf
小妖怪_
·
2020-07-28 03:03
笔记
爬虫学习
,selenium2
fromseleniumimportwebdriverfromtimeimportsleepfromlxmlimportetreeurl='http://125.35.6.84:81/xk/'bro=webdriver.Chrome(executable_path='./chromedriver')bro.get(url)page_text_list=[]#每一页的页面源码数据sleep(2)#捕
小妖怪_
·
2020-07-28 03:03
笔记
爬虫学习
,肯德基餐厅信息查询
importrequests#url='http://www.kfc.com.cn/kfccda/storelist/index.aspx'url='http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'forpageinrange(1,9):data={'cname':'','pid':'','keyword':'北京','
小妖怪_
·
2020-07-28 03:03
笔记
上一页
23
24
25
26
27
28
29
30
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他