E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
python--爬虫学习
python--
数据结构--并查集
#mf_setfromtypingimportList,SequenceclassTNode:def__init__(self,data,parent:int):self.data=dataself.parent=parentclassSeqList:#Sdef__init__(self,elem:List):self.elem=elemself.last=len(self.elem)-1clas
Chasing__Dreams
·
2020-09-10 09:09
#
数据结构--python
python
Python
爬虫学习
(二)----requests模块基础
目录引入什么是requests?如何使用requests?环境安装使用流程第一个爬虫程序requests案例实战1.基于requests模块的get请求2.基于requests模块的post请求3.基于requests模块ajax的get请求4.基于requests模块ajax的post请求5.综合实战引入在python实现的网络爬虫中,用于网络请求发送的模块有两种,第一种为urllib模块,第二
番茄炒鸡蛋z
·
2020-09-09 16:37
爬虫学习
爬虫
爬虫学习
笔记13-scrapy模拟登陆
1、之前用过的模拟登陆方法(1)request模块模拟登陆①直接携带cookies请求页面②找url地址,发送post(携带登陆用户账号和密码)请求存储cookie(2)selenium模拟登陆找到对应的input标签,输入文本点击登陆2、scrapy框架模拟登陆(1)直接携带cookies(需要先登录上GitHub)1)适用场景①cookie过期时间很长,常见于一些不规范的网站②能在cookie
陈弟弟
·
2020-09-06 15:29
爬虫学习
python
python--
数据结构--动态规划
1.定义:动态规划算法是通过拆分问题,定义问题状态和状态之间的关系,使得问题能够以递推的方式去解决。决策变量是随着状态变量变化而变化,因此决策是动态的。最终的全局最优解是规划出来的。使用动态规划需满足无后效性,即某阶段的状态一旦确定,则此后过程的演变不再受此前各种状态及决策的影响。对无后效性的解释具体看https://blog.csdn.net/Chasing__Dreams/article/de
Chasing__Dreams
·
2020-09-01 21:36
#
数据结构--python
python
python
算法
python3学习-初识爬虫
python3学习-初识
爬虫学习
了python100天内的知识,还是收获不小的,今天还是记录一下学习python的一些小知识首先需要了解什么是网络爬虫网络爬虫是一种互联网机器人,它通过爬取互联网上网站的内容来工作
win176489
·
2020-08-31 10:36
python
python
人工智能
Scrapy爬虫
爬虫学习
小记1.cnblogs新闻页的爬取关于整个学习过程,选用的是scrapy和selenium,其方便性很适用这个代码比较多的项目,为后期修改维护提供了便利。
lijingqi_hbut
·
2020-08-31 09:01
python--
数据结构--KMP_字符串匹配
#kmp_str_match.pyfromarrayimportarrayfromcollectionsimportdequedefnext_pattern(pattern):"""计算模式串的next_数组next_数组下标:前缀的下一个位置next_数组元素:前缀的最长可匹配前缀的下一个位置主串:将模式串作为主串模式串:模式串本身算法思想:利用已计算出的next_数组中的元素计算剩余的next
Chasing__Dreams
·
2020-08-29 17:42
python
#
数据结构--python
数据结构
python
KMP
爬虫学习
笔记_聚焦爬虫
1.概念:聚焦爬虫,是"面向特定主题需求"的一种网络爬虫程序,它与通用搜索引擎爬虫的区别在于:聚焦爬虫在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页信息。
hhk24
·
2020-08-26 23:36
Python--
写游戏pygame入门三(桌面保护)
1、简单的直线运动原理:通过改变移动物体的坐标,然后不停的刷新显示。缺点:不知道物体移动的帧率改进:通过增加定时,用pygame.game.clock()函数#!/usr/bin/envpython#-*-coding:utf-8-*-#定义背景图像和鼠标图像名称background_image_filename="background.jpg"sprite_image_filename="mou
蔡金平
·
2020-08-26 16:52
编程语言
Python--
逆滤波和维纳滤波对比
importmatplotlib.pyplotasgraphimportnumpyasnpfromnumpyimportfftimportmathimportcv2#仿真运动模糊defmotion_process(image_size,motion_angle):PSF=np.zeros(image_size)print(image_size)center_position=(image_size
GlassySky0816
·
2020-08-26 13:33
python初学
OpenCV
爬虫学习
-4
selenium+BeautifulSoup爬取腾讯新闻基本步骤:导入库打开浏览器获取页面源代码解析内容#导入库importtimefrombs4importBeautifulSoupfromseleniumimportwebdriver#打开浏览器driver=webdriver.Chrome()driver.get('https://news.qq.com/')#加载更多内容foriinran
茶哩
·
2020-08-26 12:41
python--
网络通信--网络调试助手(安装)
简介:网络调试助手是一款非常适用的TCP/UDP调试工具,网络调试助手可以设定TCPserver、TCPclient以及UDP,可以帮助测试软件程序运行时联网问题也可以利用其在windows和linux间实现通信安装过程下载对应版本对应版本下载提取码:xlir安装过程Windows直接解压既可以使用linux详细介绍一下如何安装打开终端输入sudodpkg-imNetAssist-release-
寅月十八
·
2020-08-26 11:32
python
Python--
函数
函数是对程序逻辑进行结构化或过程化的一种编程方法。其实,说简单一点,就是我们将完成某项功能的运算封装在一个单独的结构内。这样,将代码隔离成易于管理的小块,在实现大的功能时,再调用这些小块即可。很明显,函数的使用使得代码的意图更加清晰,同时,也大大方便了程序调试的过程。当然,函数的知识并不像列表,字典这些数据类型那样系统,而是比较分散。所以,我在这篇博文中只是写一些需要注意的小点。算是自己的一个备忘
guoziqing506
·
2020-08-26 11:52
Python
Python--基础
python--
拼接文件路径
importosbase_dir=os.path.dirname(__file__)#获取当前文件目录path=os.path.join(base_dir,'123.txt')#获取文件拼接后的路径
吃肉的小馒头
·
2020-08-26 07:22
python
python--
编码与解码之urlencode函数( encode() )、quote函数、parse_qs函数、decode()
parse模块--urlencode函数quote函数parse_qs函数decode一.编码1.urlencode函数(1).介绍(2).代码块(3).输出结果2.quote函数(1).介绍(2).代码块(3).输出结果二.解码1.parse_qs函数(1).介绍(2).代码块(3).输出结果2.decode()(1).介绍(2).代码块(3).输出结果一.编码1.urlencode函数(1).
pinuscembra
·
2020-08-26 07:32
日常笔记
python--
排错记录---ValueError: invalid literal for int() with base 10
ValueError:invalidliteralforint()withbase10,出现的原因各不相同,我遇到的是这种int("")强制转换了一个空字符串,这个是不被允许的
我不是庸医
·
2020-08-25 09:50
python
爬虫学习
笔记4-selenium
1、了解seleniumSelenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,Selenium可以直接调用浏览器,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器),可以接收指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏等。2、selenium的工作原理工作原理:代码——调用webdriver——操作浏览器利用浏览器原生的API,封装成一套更加面向
陈弟弟
·
2020-08-24 15:47
爬虫学习
python
selenium
Python
爬虫学习
之(二)| urllib进阶篇
作者:xiaoyu微信公众号:Python数据科学知乎:Python数据分析师前情回顾,urllib的基本用法urllib库的基本组成利用最简单的urlopen方法爬取网页html利用Request方法构建headers模拟浏览器操作error的异常操作具体内容参见Python从零学爬虫。urllib库除了以上基础的用法外,还有很多高级的功能,可以更加灵活的适用在爬虫应用中,比如:使用HTTP的P
Python数据科学
·
2020-08-24 14:29
python爬虫
urllib
python--
字典、列表的遍历技巧
1.在字典中进行遍历的时候可以采用item()方法将字典中的键值对同时遍历出来:示例如下:>>>knights={'gallahad':'thepure','robin':'thebrave'}>>>fork,vinknights.items():...print(k,v)...gallahadthepurerobinthebrave2.在列表中遍历时采用enumerate()方法将索引位置和对应
xiaoyehahaha
·
2020-08-24 11:51
自学ing
爬虫学习
历程小记
初次入手爬虫项目,需要对公司内部网站的数据进行采集。数据库Server端负责人有把下载的链接发给我们,只要输入这个URL,就可以下载一个包含数据的excel表格。但是,使用Python爬虫时,总是遇到405错误。梳理一下爬虫的学习历程。1.了解爬虫的相关知识下面系列的小文写得浅显易懂,可以用来扫盲。对于一般的爬虫,下面的技巧足够用。【爬虫系列相关文章】爬虫系列(一)网络爬虫简介爬虫系列(二)Chr
jgw2008
·
2020-08-24 08:32
爬虫
PyCharm
python--
消去注释波浪线
在列表逗号后面加空格:["a","b","c","d"]语句结尾加注释:需要两个空格+#+一个空格注释内容单行注释:需要#+空格注释内容#否则输出剩余的次数并跳出本次循环函数之间空两行回车两次(去出波浪线)defaa(a,b):passdefcc():pass
早安_糖葫芦
·
2020-08-24 06:48
python
Python--
买卖股票最佳时机
classSolution:defmaxProfit(self,prices:List[int])->int:"""基本思路:遇低看最低则买,遇高看最高则卖"""#返回的最大利润max_profit=0#买入的列表buyin=[]#买入的列表saleout=[]#循环初始值j=0iflen(prices)=len(prices)-1andprices[j]=prices[j+1]:j=j+1#卖出
菜鸟初养成
·
2020-08-24 06:46
Python
python--
实现定时任务
Python实现定时任务参考链接一、循环sleep这种方式最简单,在循环里面放入要执行的任务,然后sleep一段时间再执行fromdatetimeimportdatetimeimporttime#每n秒执行一次deftimer(n):whileTrue:print(datetime.now().strftime("%Y-%m-%d%H:%M:%S"))time.sleep(n)#5stimer(5
yblackd
·
2020-08-24 04:29
《python
爬虫学习
》之爬取b站的完结动画列表
前言继接口爬取和网页页面爬取两个练习后,闲着无聊我也四处去找一些合法网站练手,而这次想要爬取的网站是集鬼畜、二次元、学习等元素于一身的b站中的完结动画。网站地址:https://www.bilibili.com/v/anime/finish/#/废话不多说,开始我们的爬取。步骤1:进入开发者模式通过分析,可以知道我们要爬取的数据没有对应的接口文件,这就说明我们只能通过爬取网页的方法进行。经过分析,
九圣残炎
·
2020-08-24 02:11
python爬虫学习
python--
修改证件照的大小
1、一般证件照的尺寸有小一寸、一寸、小二寸、二寸、五寸、六寸、七寸(横向)以及身份证照片的大小,用python获取各种尺寸的证件照2、根据查找的资料,每种尺寸对应的像素大小如下表:图片像素大小小一寸260x390一寸295x413小二寸390x567二寸413x6365寸840x12006寸960x14407寸1680x1200身份证大头照358x4413、图片裁剪一般而言,修改图片大小用open
jin__9981
·
2020-08-24 00:09
python
Python网络爬取的代码以及信息
该博客系Python网络
爬虫学习
的配套代码importrequestsartibody_url='http://news.sina.com.cn/o/2017-04-18/doc-ifyeimzx6745829
龙云尧
·
2020-08-23 23:13
python学习
python
爬虫
爬虫学习
笔记01(问题:Errno 10060)
1.扒取网页源码,以“http://www.baidu.com”为例代码如下:#*-*coding:utf-8*-*importurllib2response=urllib2.urlopen("http://www.baidu.com")printresponse.read()报错如下[Errno10060]:2.错误原因:在办公网下,执行该段代码则会报错,猜测是公司对于外网的访问策略限制导致。3
小潘dd兄
·
2020-08-23 22:28
python爬虫
python--
调用系统命令
使用os.system()调用系统命令,程序中无法获得到输出和返回值>>>importos>>>os.system('ls-l/proc/cpuinfo')>>>os.system("ls-l/proc/cpuinfo")-r--r--r--1rootroot03月2916:53/proc/cpuinfo0使用os.popen()调用系统命令,程序中可以获得命令输出,但是不能得到执行的返回值>>>
lynn_kong
·
2020-08-23 17:26
Python
python--
应用场景--scapy
一、环境搭建安装:pipinstallscapy官方文档:https://scapy.readthedocs.io/en/latest/index.html二、应用举例ping#!/usr/bin/envpython#*-*coding:utf-8-*-fromscapy.allimport*#TCPSYNPingans,unans=sr(IP(dst="192.168.2.101-103")/T
chidouhu7991
·
2020-08-23 16:13
网络
python
python--
应用场景--pytest
一、环境搭建安装:pipinstall-Upytest官方参考文档:https://docs.pytest.org/en/latest/contents.html二、应用举例脚本1:test.py#!/usr/bin/envpython#*-*coding:utf-8-*-importpytestdefadd(a,b):returna+bdefminus(a,b):returna-b#测试add方
chidouhu7991
·
2020-08-23 16:12
测试
python
python--
应用场景--邮件发送
一、简单邮件发送参考文档:https://docs.python.org/3.5/library/smtplib.html#!/usr/bin/envpythonimportsmtplibfromemail.mime.textimportMIMETextclassSmtpClient(object):def__init__(self,server_host,email_me,email_passw
chidouhu7991
·
2020-08-23 16:12
python--
应用场景--Robot Framework
一、环境搭建安装:pipinstallrobotframework官方文档:http://robotframework.org/robotframework/#standard-libraries二、应用举例python脚本:RobotFrameworkDemo.py#!/usr/bin/envpythonclassRobotFrameworkDemo(object):def__init__(se
chidouhu7991
·
2020-08-23 16:12
python--
应用场景--selenium
一、搭建环境1.按装selenium库:pipinstallselenium2.根据当前chrome浏览器的版本下载支持的chromeDriver,下载链接二、应用举例Demo链接#!/usr/bin/envpython#-*-coding:utf-8-*-importtimefromseleniumimportwebdriver#根据指定的chromedriver,获取一个dirver对像dri
chidouhu7991
·
2020-08-23 16:12
python
爬虫
python--
基础知识点--赋值、浅拷贝、深拷贝
变量的赋值操作只是形成两个变量,实际还是指向同一个对象。浅拷贝Python拷贝一般都是浅拷贝。拷贝时,对象包含的子对象内容不拷贝。因此,源对象和拷贝对象会引用同一个子对象。深拷贝使用copy模块的deepcopy函数,递归拷贝对象中包含的子对象。源对象和拷贝对象所有的子对象也不同。importcopyclassMobilePhone(object):def__init__(self,cpu,scr
Chasing__Dreams
·
2020-08-23 09:57
python
#
基础知识点
【Python3.6
爬虫学习
记录】(十)爬取教务处成绩并保存到Excel文件中(哈工大)
前言:基本上每天都会产生一点小想法,在实现的过程中,一步步解决问题,并产生新的想法,就比如,这次是保存为Excel文件。这感觉很美妙!目录:一,安装并简单使用xlwt1.1安装xlwt1.2写入Excel代码1.3拓展二,登陆教务处爬取成绩2.1实现图解2.2代码及注释2.3相关问题三,More3.1关于教务处的遐想一,安装并简单使用xlwt1.1安装xlwt命令行输入pipinstallxlwt
子耶
·
2020-08-23 06:10
Python
学习
python--
写的copyfile例子
importosimportshutilimportstringos.chdir('/home/yijunjun/boost_1_36_0/bin.v2')printos.getcwd()os.system("find/home/yijunjun/boost_1_36_0/bin.v2-name*1.36.0*>name.txt")file=open("name.txt")forlineinfil
易军军
·
2020-08-23 04:35
python
Python
爬虫学习
9-非登录爬取网站
以http://blog.jobbole.com/all-posts/页面为例1、提取列表页获取一个列表页首页获得页面文章列表,使用css选择器进行:article_list=response.css('#archive.floated-thumb.post-thumba::attr(href)').extract()Paste_Image.png在文件中引入Request库fromscrapy.
MingSha
·
2020-08-23 03:04
python--
之np.delete
1.numpy.delete(arr,obj,axis=None)arr:输入向量obj:表明哪一个子向量应该被移除。可以为整数或一个int型的向量axis:表明删除哪个轴的子向量,若默认,则返回一个被拉平的向量a=np.array(np.arange(12).reshape(3,4))aOut[301]:array([[0,1,2,3],[4,5,6,7],[8,9,10,11]])np.del
zxyhhjs2017
·
2020-08-23 00:13
python学习笔记
Python--
自动添加标签
一、项目介绍利用Python,使用包括正则表达式给txt纯文本文件简单地添加HTML标记,得到html文件,让浏览器去显示它。二、功能及实现1.util:把一个文本分成很多文本块,文本块之间以一行空行分隔。一个文本块在后面会附上一种标签。这个文件里面有两个生成器,一个是负责在文本末尾生成一个空行(否则无法确定最后一个文本块到哪里结束),另一个是负责将文本块里面的所有行、段落合并,生成一个文本块字符
喷子莫bb
·
2020-08-22 22:54
Scrapy高级
爬虫学习
教程
Scrapy高级爬虫一、基于CrawlSpider全站数据爬取(阳光问政数据爬取)1、需求:爬取sun网站中的编号,新闻标题,新闻内容,标号。2、全站数据爬取的方式:(1)基于Spider的手动请求(2)基于CrawlSpider的使用3、项目实操二、分布式爬虫概念:我们需要搭建一个分布式机群,让其对一组资源进行联合爬取。作用:提升爬取数据的作用。如何实现分布式呢?安装一个`scrapy-redi
随遇而安886
·
2020-08-22 19:13
分布式
redis
python
Python
爬虫学习
------爬取搭建在云服务上的静态网页
现在很多网站都采取了反爬防护,对于初学者来说很难找到合适的网站来练习,所以干脆用云服务器自己写个页面再来爬取相关的信息。这里我使用的是阿里云服务器,CentOS系统,phpstudy集成环境因为自己也是第一次使用云服务器,对Linux操作系统也很不熟悉,所以直接安装了phpstudy,将写好的网页放到phpstudy的www目录下即可运行。在本机输入云服务器的网址,出现以上页面则表明搭建成功PS:
用笔者
·
2020-08-22 15:46
Python学习
python--
两个队列实现一个栈
classTwoQueueOneStack(object): def__init__(self): self.queue1=[] self.queue2=[] defpush(self,item): #正常进队列1 self.queue1.append(item) defpop(self): #弹出时,把队列1中元素取出到只剩
白菜先森
·
2020-08-22 15:19
面试题
python
python--
两个栈实现一个队列
classTwoStackOneQueue(object):def__init__(self):self.stack1=[]self.stack2=[]defpush(self,item):self.stack1.append(item)defpop(self):ifself.stack2:returnself.stack2.pop()else:ifself.stack1:whileself.st
白菜先森
·
2020-08-22 15:19
面试题
python
爬虫学习
笔记(十八)模拟登录 2020.5.22
前言本节学习模拟登录cookies和session的区别:cookie数据存放在客户的浏览器上,session数据放在服务器上;cookie不是很安全,别人可以分析存放在本地的COOKIE并进行COOKIE欺骗,考虑到安全应当使用session;session会增加服务器的负载;1、post请求importrequestsdata={'name':'germey','age':'22'}r=req
思源湖的鱼
·
2020-08-22 14:50
crawler
【python
爬虫学习
】cookie模拟登陆
近期学校要求登陆一个网站学习,要计算在线时长,长时间不对这个页面进行操作的话就会停止计时。就想着能不能写个程序模拟登陆并进行一些操作。模拟登陆的话有很多方法,因为有验证码比较麻烦,所以我是自己先登陆一下,抓取cookie给程序用。首先F12,再登陆一下网站,选择Network,看到下图可以看到在RequestHeaders中有cookie字段,把它复制下来。下面开始写爬虫fromfake_user
zzllg
·
2020-08-22 14:21
爬虫
PYTHON--
一些函数
1.numpy.c_[]和np.r_[]可视为兄弟函数,两者的功能为np.r_[]添加行,np.c_[]添加列。a1=np.array([[1,2,3],[4,5,6]])b1=np.array([[0,0,0]])print(np.r_[a1,b1])#>>>[[123][456][000]]a1=np.array([[1,2],[3,4],[5,6]])b1=np.array([[0],[0]
Jia_11
·
2020-08-22 13:27
python
python--
通过可变参数计算n个数的乘积
通过可变参数计算n个数的乘积:代码如下:list=[]defthe_input(count=eval(input("输入乘数的总个数:"))):foriinrange(count):N=eval(input("依次输入乘数:"))list.append(N)print("一共有",count,"个要相乘的数")print("把这些乘放在列表里面:",list)the_input()defget_m
周作业
·
2020-08-22 13:23
Python
Python
爬虫学习
笔记之requests库实战(与嵩天老师课程同步)
总结:1.模拟浏览器访问一些被爬取的网站在收到get请求时会检查get头部信息,默认python会设为requests库,当网站检测到这个请求是一个爬虫的时候,就会拒绝此次响应。解决方法:我们可以使用requests.get()的可选参数headers,将我们的请求头部模拟成一个真实的浏览器。(由于很多浏览器请求头都是mozilla/5.0)所以我们就模拟这个。·构造一个字典kv={‘user-a
LitaVadaski
·
2020-08-22 12:10
python
crawler
Python
爬虫学习
--WIN10下定时获取CSDN个人的访问量并保存到文件中2018/01/19
实现首先应该先了解怎么获取相关信息:Python
爬虫学习
–获取CSDN个人的访问量:http://blog.cs
sayWhat_sayHello
·
2020-08-22 10:55
Python学习
Python
爬虫学习
--WIN10下定时获取CSDN个人的访问量并保存到文件中2018/04/30
CSDN的源码又更新了,现在的最新版本的代码如下:importrequests,timefrombs4importBeautifulSoupres=requests.get('http://blog.csdn.net/sayWhat_sayHello?ref=toolbar')res.encoding='utf-8'soup=BeautifulSoup(res.text,"html.parser"
sayWhat_sayHello
·
2020-08-22 10:24
Python学习
上一页
17
18
19
20
21
22
23
24
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他