python--爬虫学习第19页

python--剑指offer--简单--58 - II. 左旋转字符串

代码classSolution:defreverseLeftWords(self,s:str,n:int)->str:returns[n:]+s[:n]代码classSolution:defreverseLeftWords(self,s:str,n:int)->str:res=[]foriinrange(n,len(s)):res.append(s[i])foriinrange(n):res.ap

Chasing__Dreams·2020-11-04 15:30

爬虫学习笔记，从基础到部署。

爬虫基础知识：笔记中出现的代码已经全部放到了github上https://github.com/liangxs0/python_spider_save.git1.http基本原理http:协议。在HTTP之上添加了安全协议的叫httpsssl域名：URL–>URI包含URL的。2.web页面的构成：html(骨架),CSS（皮肤）,js（肌肉）name、status、type、size、time3

猿胖子·2020-10-27 16:57

2020-10-23 python爬虫学习第二弹

selenium框架学习selenium中文文档1.什么是seleniumselenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。支持的浏览器包括IE（7,8,9,10,11），MozillaFirefox，Safari，GoogleChrome，Opera等。selenium是一套完整的web应用程序测试系统，包含了测试的录制（sel

鹿目圆·2020-10-27 11:11

python爬虫，短短25行代码批量下载豆瓣妹子图片

python爬虫学习教程，短短25行代码批量下载豆瓣妹子图片、非常简短，代码不是很多非常适合新手练习！代码展示：#!

翎子生。·2020-10-27 10:03

python--剑指offer--中等--48. 最长不含重复字符的子字符串

代码classSolution:deflengthOfLongestSubstring(self,s:str)->int:dic={}res=tmp=0forjinrange(len(s)):i=dic.get(s[j],-1)dic[s[j]]=jtmp=tmp+1iftmpint:dic,res,i={},0,-1forjinrange(len(s)):ifs[j]indic:i=max(di

Chasing__Dreams·2020-10-27 09:59

【爬虫学习五】 Python大型爬虫案例: 抓取某电商网站的商品数据（2）代码和效率优化

对爬虫学习四的代码和效率进行优化一代码优化：使用def自定义函数优化代码，提高代码可读性importrequestsimporttimeimportpymongodefconnect_mongo():#

黑桃️·2020-10-05 20:49

python自动保存百度网盘资源,一定要看

爬虫学习3:搭建自己的电影资源网保姆式教学观察请求以下面资源链接为例：https://pan.baidu.com/s/1tHSxZQu

罗小黑的黑·2020-09-24 14:00

Python 爬虫学习路线图

点击上方“编程派”，选择设为“设为星标”优质文章，第一时间送达！“阅读本文大概需要3分钟。”当今大数据的时代，网络爬虫已经成为了获取数据的一个重要手段。但要学习好爬虫并没有那么简单。首先知识点和方向实在是太多了，它关系到了计算机网络、编程基础、前端开发、后端开发、App开发与逆向、网络安全、数据库、运维、机器学习、数据分析等各个方向的内容，它像一张大网一样把现在一些主流的技术栈都连接在了一起。正因

codingpy·2020-09-24 11:00

【Python3 爬虫学习笔记】解析库的使用 2 —— 使用XPath 2

8.文本获取我们使用XPath中的text()方法获取节点中文本，接下来尝试获取前面li节点中的文本，相关代码如下：fromlxmlimportetreehtml=etree.parse('./test.html',etree.HTMLParser())result=html.xpath('//li[@class="item-0"]/test()')print(result)运行结果如下：['\r

htsait4113·2020-09-17 11:16

python--使用distance_transform_edt生成trimap(三值图)

python--使用distance_transform_edt生成trimapdistance_transform_edt介绍trimap生成distance_transform_edt介绍distance_transform_edt

松果体·2020-09-17 10:29

urllib库学习笔记(个人总结)

python爬虫学习笔记学习时间：大二第二学期(2020年上半年)上课总结笔记作者：YRH写的有些粗糙如需转载，请备注出处一.Urllib库学习Urllib库是一个python内置的http请求库，不需要安装

Jack-yuan·2020-09-17 07:13

python爬虫学习笔记分析Ajax爬取果壳网文章

有时在使用requests抓取页面会遇到得到的结果与在浏览器中看到的结果不一样，在浏览器检查元素中可以看到的正常的显示的网页数据，但是requests请求得到的结果却没有。这是因为requests请求得到的时原始的html文档，而浏览器中的界面确实经过JavaScript处理数据生成的结果，这些数据来源可能不同，有的时Ajax加载的，可能包含在html文档中，也有可能经过JavaScript渲染得

懒懒的书虫·2020-09-17 04:47

Python--使用opencv图片数据增强

在进行模型训练的时候会遇到数据量小的问题。针对一些小数据集可以进行离线数据增强，一定程度上能防止模型过拟合。下面是一些使用opencv库进行图片数据增强的方法。具体函数使用方法，调参啥的可以自查opencv函数手册，也可以百度具体方法。https://docs.opencv.org/1、翻转#翻转defflip(pic):img=[]h_pic=cv2.flip(pic,1)#水平翻转v_pic=

weixin_42385606·2020-09-17 04:45

【Python爬虫学习笔记12】Ajax数据爬取简介

有时候在我们设计利用requests抓取网页数据的时候，会发现所获得的结果可能与浏览器显示给我们的不一样：比如说有的信息我们通过浏览器可以显示，但一旦用requests却得不到想要的结果。这种现象是因为我们通过requests获得的都是HTML源文档，而浏览器中见到的页面数据都是经过JavaScript处理的，而这些处理的数据可能是通过Ajax加载、本身包含于HTML中或是经过JavaScript

weixin_34379433·2020-09-17 03:06

Python爬虫学习笔记7：动态渲染页面爬取

参考：Python3网络爬虫开发实战问题：Ajax是javascript动态渲染页面的一种情形，可以通过分析Ajax，然后借用requests和urllib来实现数据爬取。不过Javascript动态渲染的页面不止这一种。比如中国青年网(详见http://news.youth.cn/gn/),它的分页部分是由JavaScript生成的，并非原始HTML代码，这其中并不包含Ajax请求。比如ECha

weixin_30492601·2020-09-17 03:54

python3爬虫学习笔记之Ajax数据爬取（七）

有了以上章节的学习，相信一般静态网页的爬取已经是轻而易举的事情了，但是，在实际爬虫中，经常会遇到动态网页，在我们用requests抓取页面时，得到的结果和在浏览器中看到的不一样。Ajax数据爬取Ajax即一种异步加载数据的方式，原始的页面不会包含数据，原始页面加载完毕后，会向服务器请求接口获取数据，然后数据被处理再显示在页面上。现在的趋势是，原始HTML不包含任何数据，数据都是通过Ajax统一加载

不吃鱼的猫~·2020-09-17 03:38

Python3 爬虫学习笔记 C03 【Ajax 数据爬取】

Python3爬虫学习笔记第三章——【Ajax数据爬取】文章目录【3.1】Ajax简介【3.2】解析真实地址提取【3.1】Ajax简介Ajax—AsynchronousJavascriptAndXML（

TRHX • 鲍勃·2020-09-17 03:26

【Python3 爬虫学习笔记】Ajax数据爬取 1

有时候我们在用requests抓取页面的时候，得到的结果可能和在浏览器中看到的不一样：在浏览器中可以看到正常显示的页面数据，但是使用requests得到的结果并没有。这是因为requests获取的都是原始的HTML文档，而浏览器中的页面则是经过JavaScript处理数据后生成的结果，这些数据的来源有多种，可能是通过Ajax加载的，可能是包含在HTML文档中的，也可能是经过JavaScript和特

htsait4113·2020-09-17 03:10

爬虫学习-第十七篇

"""Version:0.1Author:freshbinDate:2019年8月29日"""print("=================================ajaxstart================================================")#http://www.w3school.com.cn/ajax_xmlhttprequest_send.a

freshbin000·2020-09-17 03:35

Python--批量重命名文件夹及文件夹下文件

我在图像处理时，遇到某些函数读路径不能有中文名，比如opencv。当然有其他更方便的解决方法。我这里直接重命名文件，也挺快的。#重命名defrename(path):class_dict={}i=0filelist=os.listdir(path)#该文件夹下所有的文件（包括文件夹）names=[]num=[]forfilesinfilelist:#遍历所有文件i=i+1Olddir=os.pat

weixin_42385606·2020-09-17 03:55

Python爬虫学习笔记6：Ajax数据爬取

学习参考：Python3网络爬虫开发实战问题：requests抓取的页面信息和浏览器中看到的不一样。原因：requests获取的都是原始的HTML文档，浏览器中的页面很多都是经过javascript数据处理后的结果，这些数据可能通过AJax加载的，也可能是通过其他特定算法计算得到的解决：对于通过Ajax加载的，叫异步加载，这种可以在web开发上做到前后端分离，降低服务器直接渲染页面带来的压力，如果

weixin_30555753·2020-09-17 03:49

python3爬虫学习笔记之分析Ajax爬取今日头条街拍美图（八）

通过以上第6章节的学习，我们应该学习到了Ajax请求页面的分析、提取等，该章节将通过一个实例来深入学习Ajax数据的爬取：抓取今日头条的街拍美图，抓取之后，将每组图片分文件夹下载到本地并保存下来。1.准备工作环境安装，requests，BeautifulSoup等。2.抓取分析在抓取之前，首先要分析抓取的逻辑，打开今日头条，并搜索框输入‘街拍’：打开开发者工具，切换到XHR过滤卡，可以看到有Aja

不吃鱼的猫~·2020-09-17 03:14

Python爬虫学习笔记（实例：爬取今日头条街拍页面文章中的图片）

importrequestsfromurllib.parseimporturlencodefromrequestsimportcodesimportosfromhashlibimportmd5frommultiprocessing.poolimportPoolimportreimportrandom#注意更换自己浏览器现实的headers和params!!defget_page(offset):h

二叉叔·2020-09-17 03:02

Python爬虫学习笔记8：APP的爬取

说明：本学习笔记主要参考：Python3网络爬虫开发实战一书常用的抓包软件有WireShark、Charles、Fildder、mitmproxy、AnyProxy等。原理：通过设置代理的方式将手机处于抓包软件的监听之下，获取APP运行的过程中发生的所有请求及响应，如果请求的URL及参数有规律，用程序模拟爬取即可。如果没有，可以利用mitmdump对接Python脚本直接处理Response，还可

weixin_30687051·2020-09-17 03:38

Scrapy 爬虫学习

scrapyshell"http://quotes.toscrape.com/page/1/" #windows系统必须使用双引号，否则报错ValueError:invalidhostname:'http>>>response.css('title') #返回一个名为List的对象SelectorList，表示包含Selector的XML/HTML元素的对象列表，允许用户运行进一步的查询来细分选择

nononotles·2020-09-16 23:39

爬虫学习记录（六）——selenium基本使用

爬虫学习记录（六）——selenium基本使用前言基本使用声明浏览器对象访问页面查找节点节点交互动作链获取节点信息获取属性获取文本值切换Frame延时等待隐式等待显式等待前进后退Cookies选项卡管理异常处理反屏蔽无头模式学习感悟

云溪龙·2020-09-16 13:09

爬虫学习记录（五）————ajax动态爬取

爬虫学习记录（五）————ajax动态爬取ajax爬取原理与解析原理发送请求解析内容渲染网页Ajax分析ajax爬取实例学习总结GitHub地址：https://github.com/yunlong-G

云溪龙·2020-09-16 13:08

爬虫学习记录（四）————利用pyquery，re爬取静态网站信息存储到mongodb中

爬虫学习记录（四）————利用pyquery，re爬取静态网站信息存储到mongodb中静态页面爬取引入需要的包定义获取html文件的基本函数定义获取所有详情页的url函数定义解析详细信息的函数将函数链接起来存储到

云溪龙·2020-09-16 13:08

windows 下利用Anaconda安装python及其第三方库

安装python--简易方法为什么安装Anaconda因为python的第三库的安装比较繁琐，其是第三方库较多且存在各种包的兼容问题，而Anaconda集成了python所需的第三方库，其将python

wgyjc·2020-09-16 10:36

零基础如何学爬虫技术

第一：Python爬虫学习系列教程（来源于某博主：http://cuiqingcai.com/1052.html）Python版本：2.7整体

xiaobei16·2020-09-15 21:50

Python--网页更新监控工具

Python--网页更新监控工具(2012-08-0417:29:05)转载▼标签：网页监控更新pythonit分类：程序人生写这个网页更新监控工具，是因为最近要不停查看某个学校网站，看是否有考研最新消息发布

证券指标·2020-09-15 21:40

Python--对文档中文字进行替换

我们经常需要将英文替换为中文#coding=utf-8importosfromdocximportDocument#放了一些docx文件old_file_path="/Users/xxx/yyy/docx/"#生成新文件后的存放地址new_file_path="/Users/xxx/yyy/new_docx/"##需要替换的内容replace_dict={"苹果":"apple","香蕉":"ba

古城路揸fit人·2020-09-15 14:30

python--正则表达式学习汇总

（感谢原作者的辛勤劳作~）本文正文大部分转载自http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html1.正则表达式基础1.1.概念介绍正则表达式是用于处理字符串的强大工具，它并不是Python的一部分。其他编程语言中也有正则表达式的概念，区别只在于不同的编程语言实现支持的语法数量不同。它拥有自己独特的语法以及一个独立的处理引擎，在提供

fly9006·2020-09-15 14:05

零基础如何学爬虫技术？

第一：Python爬虫学习系列教程（来源于某博主：http://cuiqingcai.com/1052.html）Python版本：2.7整体目录：一、爬虫入门1.Python爬虫入门一之综述2.Python

Eunicema·2020-09-15 10:36

Python--五大排序算法--动态讲解

请看原文：https://baijiahao.baidu.com/s?id=1621968833164415905&wfr=spider&for=pc冒泡排序冒泡排序通常是在CS入门课程中教的，因为它清楚地演示了排序是如何工作的，同时又简单易懂。冒泡排序步骤遍历列表并比较相邻的元素对。如果元素顺序错误，则交换它们。重复遍历列表未排序部分的元素，直到完成列表排序。因为冒泡排序重复地通过列表的未排序部

冷鞘·2020-09-15 08:49

爬虫学习——"股票数据定向爬虫"（技术路线requests-bs4-re）(来源于北理工Python网络爬虫与信息提取网络公开课)

股票数据定向爬虫来自北理工网络公开课——Python网络爬虫与信息提取课程链接http://open.163.com/movie/2019/5/I/O/MEEMCM1NP_MEF0L2JIO.html功能描述：目标：获取上交所和深交所所有股票的名称和交易信息输出：保存到文件中技术方案：requests-bs4-re候选网站：1、新浪股票：http://finance.sina.com.cn/sto

我就是这样的自己·2020-09-15 03:24

python--进阶四--多线程

在使用多线程之前，我们首页要理解什么是进程和线程。什么是进程？计算机程序只不过是磁盘中可执行的，二进制（或其它类型）的数据。它们只有在被读取到内存中，被操作系统调用的时候才开始它们的生命期。进程（有时被称为重量级进程）是程序的一次执行。每个进程都有自己的地址空间，内存，数据栈以及其它记录其运行轨迹的辅助数据。操作系统管理在其上运行的所有进程，并为这些进程公平地分配时间。什么是线程？线程（有时被称为

wtkuaile·2020-09-15 00:17

python--进阶二--图形界面

本节学习图形用户界面------------------------本节介绍如何创建python程序的图形用户界面（GUI），也就是那些带有按钮和文本框的窗口。这里介绍wxPython：下载地址：http://www.wxpython.org/download.php根据自己的操作系统下载相应版本。安装：安装过程非常简单，以win7系统为例，点击下载的exe文件，保持安装目录与本机的python目

wtkuaile·2020-09-15 00:17

python--打包成可执行文件

python是一个非常非常优秀的编程语言，它最大的特性就是跨平台。python程序几乎可以在所有常见的平台中进行使用，而且大部分无需修改任何代码！不过，python也有一点点小缺憾（这个是由于自身本质决定，不能叫缺憾，不过在这就这么称呼吧），那就是python程序的执行必须要有解释器的参与。那么python的程序如何在没有解释器的平台上使用呢？很简单，将python程序打包成exe可执行文件即可！

wtkuaile·2020-09-15 00:17

python爬虫学习笔记(一)

一、python下载安装及配置先在控制台输入python，若显示没有python定义，则python未安装或者环境变量未配置。1.下载地址：windows64位下载地址版本为python2.7.52.按照安装步骤安装python3.将python安装目录添加到环境变量path中二、IDE环境搭建--eclipse+pydev参考文章http://weixiaolu.iteye.com/blog/1

南史林·2020-09-14 18:16

Python--使用技巧（查看类结构）

对于我这样的初学者，大概没有比在编程中能够快速查找帮助文档更重要的事情了。在Python命令行的编程环境中，查找类结构可以通过以下命令importmathdir(math)['__doc__','__name__','__package__','acos','acosh','asin','asinh','atan','atan2','atanh','ceil','copysign','cos','

sunghosts·2020-09-14 15:32

Python爬虫学习之 Request

目录request安装简单示例各种请求方式测试get请求简单get请求带参数get解析json获取二进制内容保存二进制内容添加headerspost请求添加data表单数据和headers头信息响应状态码使用requests高级操作获取cookiescookie会话维持证书验证忽略证书，不使用证书使用证书代理设置简单代理设置有用户名和密码的代理设置socket类型代理使用超时设置认证设置异常处理r

凯撒网络研究院·2020-09-14 14:31

Python--抽象类

1什么是抽象类与java一样，python也有抽象类的概念但是同样需要借助模块实现，抽象类是一个特殊的类，它的特殊之处在于只能被继承，不能被实例化2为什么要有抽象类如果说类是从一堆对象中抽取相同的内容而来的，那么抽象类就是从一堆类中抽取相同的内容而来的，内容包括数据属性和函数属性。比如我们有香蕉的类，有苹果的类，有桃子的类，从这些类抽取相同的内容就是水果这个抽象的类，你吃水果时，要么是吃一个具体的

OscarMind·2020-09-14 13:29

Python--校园网开机登陆+断网检测+自动重连

因为实验室的校园网每次开机需要输入账户密码，而且很容易断网，一断网，则需要重连，写一个python脚本实现开机自动连接，检测断网自动重连。一、用到的库timerequestsre没有请自行安装二、设计思路1.在登陆界面输入用户名和密码并提交，抓取POST请求。主要参数是:用户名(userName)密码(userPwd)：被加密但是是一个简单的数据处理，直接在模拟post中使用加密过的字符串即可2.

Zach_z·2020-09-14 12:20

python--问题排查--AttributeError: ‘NoneType‘ object has no attribute “xx“

这个是python代码协作时的常见错误一般在错误这行，是个“空“对象none，不是你想象中的yy对象，当然没有xx属性了我们在编程时，尽量增加“异常处理“的实现，提前想一下是否会有各种异常值，处理比如代码：cc=bb.get('response_list').get('body').get('response')[0].get('body').get('admin_auth').get('sess

我不是庸医·2020-09-14 09:20

爬虫学习，隐藏代理

爬虫学习，隐藏代理1.修改User-Agent2.使用代理我们在做爬虫的过程中有时会遇到这样的情况：最初爬虫正常运行，正常抓取数据然而一杯茶的功夫可能就会出现错误，比如403Forbidden；出现这样的原因往往是网站采取了一些反爬虫的措施

sybs·2020-09-14 04:14

python--并发编程 07 进程池/线程池对比

思考：concurrent.futures有进程池ProcessPoolExecutor和线程池ThreadPoolExecutor，multiprocessing有进程池Pool，他们的运行效率如何？导入方法：fromconcurrent.futuresimportProcessPoolExecutor,ThreadPoolExecutorfrommultiprocessingimportPoo

一越王超·2020-09-14 04:31

下载好听轻音乐爬虫--爬虫学习

下载好听轻音乐爬虫，亲测有效，仅供学习~//Anhighlightedblockimportrequestsimportreimporttimesongid=[]songname=[]header={"User-Agent":"Mozilla/5.0(WindowsNT6.1;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/63.0.3239.132

python_Allen·2020-09-14 04:23

Python分享总结与下一步

下面，我们就对前面的文章做一些总结：Python基础从零开始学Python--数据类型及结构从零开始学Python--数值计算及正则表达式从零开始学Python【3】--控制流与自定义函数Python自定

Sim1480·2020-09-14 00:03

MOOC_北理_python爬虫学习_2（入门入门入门级实战）

网络爬虫规则对一般服务器，对爬虫限制有：来源审查。检查HTTP协议头，判断User-Agent进行限制。只响应浏览器和友好爬虫的访问。Robots协议。在网站根目录下的robots.txt文件中。建议，但非约束性。若访问量很小，不对服务器造成影响，和人类访问行为类似，可以不参考robots协议。如京东的robots协议：http://www.jd.com/robots.txt/代表根目录*代表所有

ExcitingYi·2020-09-14 00:01

推荐频道

python--爬虫学习

python--剑指offer--简单--58 - II. 左旋转字符串

爬虫学习笔记，从基础到部署。

2020-10-23 python爬虫学习第二弹

python爬虫，短短25行代码批量下载豆瓣妹子图片

python--剑指offer--中等--48. 最长不含重复字符的子字符串

【爬虫学习五】 Python大型爬虫案例: 抓取某电商网站的商品数据 （2）代码和效率优化

python自动保存百度网盘资源,一定要看

Python 爬虫学习路线图

【Python3 爬虫学习笔记】解析库的使用 2 —— 使用XPath 2

python--使用distance_transform_edt生成trimap(三值图)

urllib库学习笔记(个人总结)

python爬虫学习笔记分析Ajax爬取果壳网文章

Python--使用opencv图片数据增强

【Python爬虫学习笔记12】Ajax数据爬取简介

Python爬虫学习笔记7：动态渲染页面爬取

python3爬虫学习笔记之Ajax数据爬取（七）

Python3 爬虫学习笔记 C03 【Ajax 数据爬取】

【Python3 爬虫学习笔记】Ajax数据爬取 1

爬虫学习-第十七篇

Python--批量重命名文件夹及文件夹下文件

Python爬虫学习笔记6：Ajax数据爬取

python3爬虫学习笔记之分析Ajax爬取今日头条街拍美图（八）

Python爬虫学习笔记（实例：爬取今日头条街拍页面文章中的图片）

Python爬虫学习笔记8：APP的爬取

Scrapy 爬虫学习

爬虫学习记录（六）——selenium基本使用

爬虫学习记录（五）————ajax动态爬取

爬虫学习记录（四）————利用pyquery，re爬取静态网站信息存储到mongodb中

windows 下利用Anaconda安装python及其第三方库

零基础如何学爬虫技术

Python--网页更新监控工具

Python--对文档中文字进行替换

python--正则表达式学习汇总

零基础如何学爬虫技术？

Python--五大排序算法--动态讲解

爬虫学习——"股票数据定向爬虫"（技术路线requests-bs4-re）(来源于北理工Python网络爬虫与信息提取网络公开课)

python--进阶四--多线程

python--进阶二--图形界面

python--打包成可执行文件

python爬虫学习笔记(一)

Python--使用技巧（查看类结构）

Python爬虫学习之 Request

Python--抽象类

Python--校园网开机登陆+断网检测+自动重连

python--问题排查--AttributeError: ‘NoneType‘ object has no attribute “xx“

爬虫学习，隐藏代理

python--并发编程 07 进程池/线程池对比

下载好听轻音乐爬虫--爬虫学习

Python分享总结与下一步

MOOC_北理_python爬虫学习_2（入门入门入门级实战）

【爬虫学习五】 Python大型爬虫案例: 抓取某电商网站的商品数据（2）代码和效率优化