python--爬虫学习第21页

python--数据结构--并查集

#mf_setfromtypingimportList,SequenceclassTNode:def__init__(self,data,parent:int):self.data=dataself.parent=parentclassSeqList:#Sdef__init__(self,elem:List):self.elem=elemself.last=len(self.elem)-1clas

Chasing__Dreams·2020-09-10 09:09

Python爬虫学习（二）----requests模块基础

目录引入什么是requests？如何使用requests？环境安装使用流程第一个爬虫程序requests案例实战1.基于requests模块的get请求2.基于requests模块的post请求3.基于requests模块ajax的get请求4.基于requests模块ajax的post请求5.综合实战引入在python实现的网络爬虫中，用于网络请求发送的模块有两种，第一种为urllib模块，第二

番茄炒鸡蛋z·2020-09-09 16:37

爬虫学习笔记13-scrapy模拟登陆

1、之前用过的模拟登陆方法（1）request模块模拟登陆①直接携带cookies请求页面②找url地址，发送post（携带登陆用户账号和密码）请求存储cookie（2）selenium模拟登陆找到对应的input标签，输入文本点击登陆2、scrapy框架模拟登陆（1）直接携带cookies（需要先登录上GitHub）1）适用场景①cookie过期时间很长，常见于一些不规范的网站②能在cookie

陈弟弟·2020-09-06 15:29

python--数据结构--动态规划

1.定义：动态规划算法是通过拆分问题，定义问题状态和状态之间的关系，使得问题能够以递推的方式去解决。决策变量是随着状态变量变化而变化，因此决策是动态的。最终的全局最优解是规划出来的。使用动态规划需满足无后效性，即某阶段的状态一旦确定，则此后过程的演变不再受此前各种状态及决策的影响。对无后效性的解释具体看https://blog.csdn.net/Chasing__Dreams/article/de

Chasing__Dreams·2020-09-01 21:36

python3学习-初识爬虫

python3学习-初识爬虫学习了python100天内的知识，还是收获不小的，今天还是记录一下学习python的一些小知识首先需要了解什么是网络爬虫网络爬虫是一种互联网机器人，它通过爬取互联网上网站的内容来工作

win176489·2020-08-31 10:36

Scrapy爬虫

爬虫学习小记1.cnblogs新闻页的爬取关于整个学习过程，选用的是scrapy和selenium，其方便性很适用这个代码比较多的项目，为后期修改维护提供了便利。

lijingqi_hbut·2020-08-31 09:01

python--数据结构--KMP_字符串匹配

#kmp_str_match.pyfromarrayimportarrayfromcollectionsimportdequedefnext_pattern(pattern):"""计算模式串的next_数组next_数组下标：前缀的下一个位置next_数组元素：前缀的最长可匹配前缀的下一个位置主串：将模式串作为主串模式串：模式串本身算法思想：利用已计算出的next_数组中的元素计算剩余的next

Chasing__Dreams·2020-08-29 17:42

爬虫学习笔记_聚焦爬虫

1.概念：聚焦爬虫，是"面向特定主题需求"的一种网络爬虫程序，它与通用搜索引擎爬虫的区别在于：聚焦爬虫在实施网页抓取时会对内容进行处理筛选，尽量保证只抓取与需求相关的网页信息。

hhk24·2020-08-26 23:36

Python--写游戏pygame入门三（桌面保护）

1、简单的直线运动原理：通过改变移动物体的坐标，然后不停的刷新显示。缺点：不知道物体移动的帧率改进：通过增加定时，用pygame.game.clock()函数#!/usr/bin/envpython#-*-coding:utf-8-*-#定义背景图像和鼠标图像名称background_image_filename="background.jpg"sprite_image_filename="mou

蔡金平·2020-08-26 16:52

Python--逆滤波和维纳滤波对比

importmatplotlib.pyplotasgraphimportnumpyasnpfromnumpyimportfftimportmathimportcv2#仿真运动模糊defmotion_process(image_size,motion_angle):PSF=np.zeros(image_size)print(image_size)center_position=(image_size

GlassySky0816·2020-08-26 13:33

爬虫学习-4

selenium+BeautifulSoup爬取腾讯新闻基本步骤：导入库打开浏览器获取页面源代码解析内容#导入库importtimefrombs4importBeautifulSoupfromseleniumimportwebdriver#打开浏览器driver=webdriver.Chrome()driver.get('https://news.qq.com/')#加载更多内容foriinran

茶哩·2020-08-26 12:41

python--网络通信--网络调试助手（安装）

简介：网络调试助手是一款非常适用的TCP/UDP调试工具，网络调试助手可以设定TCPserver、TCPclient以及UDP，可以帮助测试软件程序运行时联网问题也可以利用其在windows和linux间实现通信安装过程下载对应版本对应版本下载提取码：xlir安装过程Windows直接解压既可以使用linux详细介绍一下如何安装打开终端输入sudodpkg-imNetAssist-release-

寅月十八·2020-08-26 11:32

Python--函数

函数是对程序逻辑进行结构化或过程化的一种编程方法。其实，说简单一点，就是我们将完成某项功能的运算封装在一个单独的结构内。这样，将代码隔离成易于管理的小块，在实现大的功能时，再调用这些小块即可。很明显，函数的使用使得代码的意图更加清晰，同时，也大大方便了程序调试的过程。当然，函数的知识并不像列表，字典这些数据类型那样系统，而是比较分散。所以，我在这篇博文中只是写一些需要注意的小点。算是自己的一个备忘

guoziqing506·2020-08-26 11:52

python--拼接文件路径

importosbase_dir=os.path.dirname(__file__)#获取当前文件目录path=os.path.join(base_dir,'123.txt')#获取文件拼接后的路径

吃肉的小馒头·2020-08-26 07:22

python--编码与解码之urlencode函数( encode() )、quote函数、parse_qs函数、decode()

parse模块--urlencode函数quote函数parse_qs函数decode一.编码1.urlencode函数(1).介绍(2).代码块(3).输出结果2.quote函数(1).介绍(2).代码块(3).输出结果二.解码1.parse_qs函数(1).介绍(2).代码块(3).输出结果2.decode()(1).介绍(2).代码块(3).输出结果一.编码1.urlencode函数(1).

pinuscembra·2020-08-26 07:32

python--排错记录---ValueError: invalid literal for int() with base 10

ValueError:invalidliteralforint()withbase10，出现的原因各不相同，我遇到的是这种int("")强制转换了一个空字符串，这个是不被允许的

我不是庸医·2020-08-25 09:50

爬虫学习笔记4-selenium

1、了解seleniumSelenium是一个Web的自动化测试工具，最初是为网站自动化测试而开发的，Selenium可以直接调用浏览器，它支持所有主流的浏览器（包括PhantomJS这些无界面的浏览器），可以接收指令，让浏览器自动加载页面，获取需要的数据，甚至页面截屏等。2、selenium的工作原理工作原理：代码——调用webdriver——操作浏览器利用浏览器原生的API，封装成一套更加面向

陈弟弟·2020-08-24 15:47

Python爬虫学习之（二）| urllib进阶篇

作者：xiaoyu微信公众号：Python数据科学知乎：Python数据分析师前情回顾，urllib的基本用法urllib库的基本组成利用最简单的urlopen方法爬取网页html利用Request方法构建headers模拟浏览器操作error的异常操作具体内容参见Python从零学爬虫。urllib库除了以上基础的用法外，还有很多高级的功能，可以更加灵活的适用在爬虫应用中，比如：使用HTTP的P

Python数据科学·2020-08-24 14:29

python--字典、列表的遍历技巧

1.在字典中进行遍历的时候可以采用item()方法将字典中的键值对同时遍历出来：示例如下：>>>knights={'gallahad':'thepure','robin':'thebrave'}>>>fork,vinknights.items():...print(k,v)...gallahadthepurerobinthebrave2.在列表中遍历时采用enumerate()方法将索引位置和对应

xiaoyehahaha·2020-08-24 11:51

爬虫学习历程小记

初次入手爬虫项目，需要对公司内部网站的数据进行采集。数据库Server端负责人有把下载的链接发给我们，只要输入这个URL，就可以下载一个包含数据的excel表格。但是，使用Python爬虫时，总是遇到405错误。梳理一下爬虫的学习历程。1.了解爬虫的相关知识下面系列的小文写得浅显易懂，可以用来扫盲。对于一般的爬虫，下面的技巧足够用。【爬虫系列相关文章】爬虫系列(一)网络爬虫简介爬虫系列(二)Chr

jgw2008·2020-08-24 08:32

PyCharm python--消去注释波浪线

在列表逗号后面加空格：["a","b","c","d"]语句结尾加注释：需要两个空格+#+一个空格注释内容单行注释：需要#+空格注释内容#否则输出剩余的次数并跳出本次循环函数之间空两行回车两次(去出波浪线)defaa(a,b):passdefcc():pass

早安_糖葫芦·2020-08-24 06:48

Python--买卖股票最佳时机

classSolution:defmaxProfit(self,prices:List[int])->int:"""基本思路：遇低看最低则买，遇高看最高则卖"""#返回的最大利润max_profit=0#买入的列表buyin=[]#买入的列表saleout=[]#循环初始值j=0iflen(prices)=len(prices)-1andprices[j]=prices[j+1]:j=j+1#卖出

菜鸟初养成·2020-08-24 06:46

python--实现定时任务

Python实现定时任务参考链接一、循环sleep这种方式最简单，在循环里面放入要执行的任务，然后sleep一段时间再执行fromdatetimeimportdatetimeimporttime#每n秒执行一次deftimer(n):whileTrue:print(datetime.now().strftime("%Y-%m-%d%H:%M:%S"))time.sleep(n)#5stimer(5

yblackd·2020-08-24 04:29

《python爬虫学习》之爬取b站的完结动画列表

前言继接口爬取和网页页面爬取两个练习后，闲着无聊我也四处去找一些合法网站练手，而这次想要爬取的网站是集鬼畜、二次元、学习等元素于一身的b站中的完结动画。网站地址：https://www.bilibili.com/v/anime/finish/#/废话不多说，开始我们的爬取。步骤1：进入开发者模式通过分析，可以知道我们要爬取的数据没有对应的接口文件，这就说明我们只能通过爬取网页的方法进行。经过分析，

九圣残炎·2020-08-24 02:11

python--修改证件照的大小

1、一般证件照的尺寸有小一寸、一寸、小二寸、二寸、五寸、六寸、七寸（横向）以及身份证照片的大小，用python获取各种尺寸的证件照2、根据查找的资料，每种尺寸对应的像素大小如下表：图片像素大小小一寸260x390一寸295x413小二寸390x567二寸413x6365寸840x12006寸960x14407寸1680x1200身份证大头照358x4413、图片裁剪一般而言，修改图片大小用open

jin__9981·2020-08-24 00:09

Python网络爬取的代码以及信息

该博客系Python网络爬虫学习的配套代码importrequestsartibody_url='http://news.sina.com.cn/o/2017-04-18/doc-ifyeimzx6745829

龙云尧·2020-08-23 23:13

爬虫学习笔记01(问题：Errno 10060)

1.扒取网页源码，以“http://www.baidu.com”为例代码如下：#*-*coding:utf-8*-*importurllib2response=urllib2.urlopen("http://www.baidu.com")printresponse.read()报错如下[Errno10060]：2.错误原因：在办公网下，执行该段代码则会报错，猜测是公司对于外网的访问策略限制导致。3

小潘dd兄·2020-08-23 22:28

python--调用系统命令

使用os.system()调用系统命令,程序中无法获得到输出和返回值>>>importos>>>os.system('ls-l/proc/cpuinfo')>>>os.system("ls-l/proc/cpuinfo")-r--r--r--1rootroot03月2916:53/proc/cpuinfo0使用os.popen()调用系统命令,程序中可以获得命令输出，但是不能得到执行的返回值>>>

lynn_kong·2020-08-23 17:26

python--应用场景--scapy

一、环境搭建安装：pipinstallscapy官方文档：https://scapy.readthedocs.io/en/latest/index.html二、应用举例ping#!/usr/bin/envpython#*-*coding:utf-8-*-fromscapy.allimport*#TCPSYNPingans,unans=sr(IP(dst="192.168.2.101-103")/T

chidouhu7991·2020-08-23 16:13

python--应用场景--pytest

一、环境搭建安装：pipinstall-Upytest官方参考文档：https://docs.pytest.org/en/latest/contents.html二、应用举例脚本1：test.py#!/usr/bin/envpython#*-*coding:utf-8-*-importpytestdefadd(a,b):returna+bdefminus(a,b):returna-b#测试add方

chidouhu7991·2020-08-23 16:12

python--应用场景--邮件发送

一、简单邮件发送参考文档：https://docs.python.org/3.5/library/smtplib.html#!/usr/bin/envpythonimportsmtplibfromemail.mime.textimportMIMETextclassSmtpClient(object):def__init__(self,server_host,email_me,email_passw

chidouhu7991·2020-08-23 16:12

python--应用场景--Robot Framework

一、环境搭建安装：pipinstallrobotframework官方文档：http://robotframework.org/robotframework/#standard-libraries二、应用举例python脚本：RobotFrameworkDemo.py#!/usr/bin/envpythonclassRobotFrameworkDemo(object):def__init__(se

chidouhu7991·2020-08-23 16:12

python--应用场景--selenium

一、搭建环境1.按装selenium库：pipinstallselenium2.根据当前chrome浏览器的版本下载支持的chromeDriver，下载链接二、应用举例Demo链接#!/usr/bin/envpython#-*-coding:utf-8-*-importtimefromseleniumimportwebdriver#根据指定的chromedriver,获取一个dirver对像dri

chidouhu7991·2020-08-23 16:12

python--基础知识点--赋值、浅拷贝、深拷贝

变量的赋值操作只是形成两个变量，实际还是指向同一个对象。浅拷贝Python拷贝一般都是浅拷贝。拷贝时，对象包含的子对象内容不拷贝。因此，源对象和拷贝对象会引用同一个子对象。深拷贝使用copy模块的deepcopy函数，递归拷贝对象中包含的子对象。源对象和拷贝对象所有的子对象也不同。importcopyclassMobilePhone(object):def__init__(self,cpu,scr

Chasing__Dreams·2020-08-23 09:57

【Python3.6爬虫学习记录】（十）爬取教务处成绩并保存到Excel文件中（哈工大）

前言：基本上每天都会产生一点小想法，在实现的过程中，一步步解决问题，并产生新的想法，就比如，这次是保存为Excel文件。这感觉很美妙！目录：一，安装并简单使用xlwt1.1安装xlwt1.2写入Excel代码1.3拓展二，登陆教务处爬取成绩2.1实现图解2.2代码及注释2.3相关问题三，More3.1关于教务处的遐想一，安装并简单使用xlwt1.1安装xlwt命令行输入pipinstallxlwt

子耶·2020-08-23 06:10

学习python--写的copyfile例子

importosimportshutilimportstringos.chdir('/home/yijunjun/boost_1_36_0/bin.v2')printos.getcwd()os.system("find/home/yijunjun/boost_1_36_0/bin.v2-name*1.36.0*>name.txt")file=open("name.txt")forlineinfil

易军军·2020-08-23 04:35

Python爬虫学习9-非登录爬取网站

以http://blog.jobbole.com/all-posts/页面为例1、提取列表页获取一个列表页首页获得页面文章列表，使用css选择器进行：article_list=response.css('#archive.floated-thumb.post-thumba::attr(href)').extract()Paste_Image.png在文件中引入Request库fromscrapy.

MingSha·2020-08-23 03:04

python--之np.delete

1.numpy.delete(arr,obj,axis=None)arr:输入向量obj:表明哪一个子向量应该被移除。可以为整数或一个int型的向量axis:表明删除哪个轴的子向量，若默认，则返回一个被拉平的向量a=np.array(np.arange(12).reshape(3,4))aOut[301]:array([[0,1,2,3],[4,5,6,7],[8,9,10,11]])np.del

zxyhhjs2017·2020-08-23 00:13

Python--自动添加标签

一、项目介绍利用Python，使用包括正则表达式给txt纯文本文件简单地添加HTML标记，得到html文件，让浏览器去显示它。二、功能及实现1.util：把一个文本分成很多文本块，文本块之间以一行空行分隔。一个文本块在后面会附上一种标签。这个文件里面有两个生成器，一个是负责在文本末尾生成一个空行（否则无法确定最后一个文本块到哪里结束），另一个是负责将文本块里面的所有行、段落合并，生成一个文本块字符

喷子莫bb·2020-08-22 22:54

Scrapy高级爬虫学习教程

Scrapy高级爬虫一、基于CrawlSpider全站数据爬取（阳光问政数据爬取）1、需求：爬取sun网站中的编号，新闻标题，新闻内容，标号。2、全站数据爬取的方式：(1)基于Spider的手动请求(2)基于CrawlSpider的使用3、项目实操二、分布式爬虫概念：我们需要搭建一个分布式机群，让其对一组资源进行联合爬取。作用：提升爬取数据的作用。如何实现分布式呢？安装一个`scrapy-redi

随遇而安886·2020-08-22 19:13

Python爬虫学习------爬取搭建在云服务上的静态网页

现在很多网站都采取了反爬防护，对于初学者来说很难找到合适的网站来练习，所以干脆用云服务器自己写个页面再来爬取相关的信息。这里我使用的是阿里云服务器，CentOS系统，phpstudy集成环境因为自己也是第一次使用云服务器，对Linux操作系统也很不熟悉，所以直接安装了phpstudy，将写好的网页放到phpstudy的www目录下即可运行。在本机输入云服务器的网址，出现以上页面则表明搭建成功PS：

用笔者·2020-08-22 15:46

python--两个队列实现一个栈

classTwoQueueOneStack(object): def__init__(self): self.queue1=[] self.queue2=[] defpush(self,item): #正常进队列1 self.queue1.append(item) defpop(self): #弹出时，把队列1中元素取出到只剩

白菜先森·2020-08-22 15:19

python--两个栈实现一个队列

classTwoStackOneQueue(object):def__init__(self):self.stack1=[]self.stack2=[]defpush(self,item):self.stack1.append(item)defpop(self):ifself.stack2:returnself.stack2.pop()else:ifself.stack1:whileself.st

白菜先森·2020-08-22 15:19

爬虫学习笔记（十八）模拟登录 2020.5.22

前言本节学习模拟登录cookies和session的区别：cookie数据存放在客户的浏览器上，session数据放在服务器上；cookie不是很安全，别人可以分析存放在本地的COOKIE并进行COOKIE欺骗，考虑到安全应当使用session；session会增加服务器的负载；1、post请求importrequestsdata={'name':'germey','age':'22'}r=req

思源湖的鱼·2020-08-22 14:50

【python爬虫学习】cookie模拟登陆

近期学校要求登陆一个网站学习，要计算在线时长，长时间不对这个页面进行操作的话就会停止计时。就想着能不能写个程序模拟登陆并进行一些操作。模拟登陆的话有很多方法，因为有验证码比较麻烦，所以我是自己先登陆一下，抓取cookie给程序用。首先F12，再登陆一下网站，选择Network，看到下图可以看到在RequestHeaders中有cookie字段，把它复制下来。下面开始写爬虫fromfake_user

zzllg·2020-08-22 14:21

PYTHON--一些函数

1.numpy.c_[]和np.r_[]可视为兄弟函数，两者的功能为np.r_[]添加行，np.c_[]添加列。a1=np.array([[1,2,3],[4,5,6]])b1=np.array([[0,0,0]])print(np.r_[a1,b1])#>>>[[123][456][000]]a1=np.array([[1,2],[3,4],[5,6]])b1=np.array([[0],[0]

Jia_11·2020-08-22 13:27

python--通过可变参数计算n个数的乘积

通过可变参数计算n个数的乘积：代码如下：list=[]defthe_input(count=eval(input("输入乘数的总个数:"))):foriinrange(count):N=eval(input("依次输入乘数:"))list.append(N)print("一共有",count,"个要相乘的数")print("把这些乘放在列表里面:",list)the_input()defget_m

周作业·2020-08-22 13:23

Python爬虫学习笔记之requests库实战（与嵩天老师课程同步）

总结：1.模拟浏览器访问一些被爬取的网站在收到get请求时会检查get头部信息，默认python会设为requests库，当网站检测到这个请求是一个爬虫的时候，就会拒绝此次响应。解决方法：我们可以使用requests.get()的可选参数headers，将我们的请求头部模拟成一个真实的浏览器。（由于很多浏览器请求头都是mozilla/5.0）所以我们就模拟这个。·构造一个字典kv={‘user-a

LitaVadaski·2020-08-22 12:10

Python爬虫学习--WIN10下定时获取CSDN个人的访问量并保存到文件中2018/01/19

sayWhat_sayHello·2020-08-22 10:55

Python爬虫学习--WIN10下定时获取CSDN个人的访问量并保存到文件中2018/04/30

sayWhat_sayHello·2020-08-22 10:24

推荐频道

python--爬虫学习

python--数据结构--并查集

Python爬虫学习（二）----requests模块基础

爬虫学习笔记13-scrapy模拟登陆

python--数据结构--动态规划

python3学习-初识爬虫

Scrapy爬虫

python--数据结构--KMP_字符串匹配

爬虫学习笔记_聚焦爬虫

Python--写游戏pygame入门三（桌面保护）

Python--逆滤波和维纳滤波对比

爬虫学习-4

python--网络通信--网络调试助手（安装）

Python--函数

python--拼接文件路径

python--编码与解码之urlencode函数( encode() )、quote函数、parse_qs函数、decode()

python--排错记录---ValueError: invalid literal for int() with base 10

爬虫学习笔记4-selenium

Python爬虫学习之（二）| urllib进阶篇

python--字典、列表的遍历技巧

爬虫学习历程小记

PyCharm python--消去注释波浪线

Python--买卖股票最佳时机

python--实现定时任务

《python爬虫学习》之爬取b站的完结动画列表

python--修改证件照的大小

Python网络爬取的代码以及信息

爬虫学习笔记01(问题：Errno 10060)

python--调用系统命令

python--应用场景--scapy

python--应用场景--pytest

python--应用场景--邮件发送

python--应用场景--Robot Framework

python--应用场景--selenium

python--基础知识点--赋值、浅拷贝、深拷贝

【Python3.6爬虫学习记录】（十）爬取教务处成绩并保存到Excel文件中（哈工大）

学习python--写的copyfile例子

Python爬虫学习9-非登录爬取网站

python--之np.delete

Python--自动添加标签

Scrapy高级爬虫学习教程

Python爬虫学习------爬取搭建在云服务上的静态网页

python--两个队列实现一个栈

python--两个栈实现一个队列

爬虫学习笔记（十八）模拟登录 2020.5.22

【python爬虫学习】cookie模拟登陆

PYTHON--一些函数

python--通过可变参数计算n个数的乘积

Python爬虫学习笔记之requests库实战（与嵩天老师课程同步）

Python爬虫学习--WIN10下定时获取CSDN个人的访问量并保存到文件中2018/01/19

Python爬虫学习--WIN10下定时获取CSDN个人的访问量并保存到文件中2018/04/30