python--爬虫学习第22页

python--爬虫学习

Python学习笔记-第十五天

_尔东陈_·2020-08-20 21:52

python--基础

ptython1+1人能读懂的代码000101110翻译后的cpu运行python解释1+10100001运行2+20010001运行python3进入python3交互式解释器python进入python2的交互式解释器ctrl+d退出ipython3支持linux命令python3不支持linux命令linux别名TypeError:mustbestr,notint字符串和整数不能相加Synt

Tellme丶·2020-08-20 18:44

计算机视觉python--基于BOW的图像检索

文章目录1BOW的模型简介1.1BagofWords1.2BagofFeature1.3BagofFeature算法过程1.3.1提取图像特征1.3.2训练字典1.3.3图片直方图表示1.3.4训练分类器2图像检索2.1特征提取2.2创建数据库建立图像索引2.3图像索引测试2.4实验小结1BOW的模型简介BagofFeature是一种图像特征提取方法，它借鉴了文本分类的思路（BagofWords）

qq_41934490·2020-08-20 07:38

python--图像分割GraphCut

分割的原则就是使划分后的子图在内部保持相似度最大，而子图之间的相似度保持最小。以一个两类的分割为例，把G=(V,E)分成两个子集A,B,另：A\cupB=V，A\capB=\phi，CUT(A,B)=\Sigma_{\mu\inA，v\inB}w(\mu,v),其中w(\mu,v),是权重(weight),最小割就是让上式的值最小的分割。GraphCut该方法把图像分割问题与图的最小割（mincu

qq_39295665·2020-08-20 07:27

python--基于RANSAC的图像全景拼接

qq_39295665·2020-08-20 05:21

python--输入一组无序的数，排序

N=int(raw_input('inputthenumberN='))number=[]while(N):m=int(raw_input('input..\n'))number.append(m)N-=1printnumberforiinrange(0,len(number),1):forjinrange(0,i,1):ifnumber[i]

weixin_30845171·2020-08-20 01:01

Python--网络爬虫单线程与多线程的比较

一直在尝试将下载数据的速度提高，于是利用了Python里面多线程的技术（当然是简单的map方法），想不到速度快了一倍！普通单线程网络爬虫图片下载（耗时：19.525s）#-*—coding:utf8-*-importrequestsimportreimporttimeimportsysreload(sys)sys.setdefaultencoding("utf-8")hea={'User-Age

liefyuan·2020-08-20 00:55

python--继承父类

先看一段代码:classA(object):def__init__(self,name):self.name=namedeffoo(self):returnself.nameclassB(A):'''B继承A类'''def__init__(self,name,id):A.__init__(self,name)self.id=self.iddeffoo1(self):returnself.idA._

qianmosolo·2020-08-20 00:58

python爬虫学习笔记（一）

爬虫的工作步骤：获取数据。根据网址，向服务器发起请求，获取服务器返回数据。解析数据。把服务器返回的数据解析成我们能读懂的格式。提取数据。从数据中提取我们需要的数据。储存数据。把有用的数据保存起来，便于以后使用和分析。初识Requests库爬虫获取数据，使用requests库。需要先安装requests库。pipinstallrequestsrequests库可以帮我们下载网页源代码、文本、图片，音

xiaozhiliao666·2020-08-19 22:39

零基础入门python--第一课我和Python的第一次亲密接触

一、python是什么类型的语言？Python是脚本语言脚本语言(Scriptinglanguage)是电脑编程语言，因此也能让开发者藉以编写出让电脑听命行事的程序。以简单的方式快速完成某些复杂的事情通常是创造脚本语言的重要原则，基于这项原则，使得脚本语言通常比C语言、C++语言或Java之类的系统编程语言要简单容易。也让脚本语言另有一些属于脚本语言的特性：（1）语法和结构通常比较简单（2）学习和

LXC在路上·2020-08-19 22:12

Python爬虫学习第0关_2019-11-28

Python学习笔记_2019-11-28爬虫学习第0关1.requests.get()2.对象的常用属性举例1:图片等多媒体文件的下载举例2:文本下载举例3:数据响应状态码^①^举例4:数据编码类型输出结果

weixin_44147675·2020-08-19 22:18

Python爬虫学习-Day3

文章目录一、BeautifulSoup使用1、简介2、四大种类对象1）Tag2）NavigableString3）BeautifulSoup4）Comment3、遍历文档树1）直接子节点2）所有子孙节点3）节点内容4、搜索文档树1）name参数2）text参数5、CSS选择器1）通过对标签名查找2）通过类名查找3）通过id名查找4）获取内容二、丁香园评论爬取一、BeautifulSoup使用1、简

Frank.F.Wu·2020-08-19 21:58

Python爬虫学习-Day1

一、爬虫简介及网页知识今天开始学习爬虫，用一周的时间强化学习，坚持下来就是胜利。随着技术的不断发展，大数据的时代已经到来，数据的获取途径有两条，买数据或者利用工具爬取数据。根据使用场景，爬虫分为通用爬虫和聚焦爬虫两种。通用爬虫是搜索引擎抓取系统的重要组成部分，例如谷歌、百度、雅虎等，主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。聚焦爬虫，是面向特定主题需求的一种网络爬虫，与通

Frank.F.Wu·2020-08-19 21:26

python--异常处理

程序员终生与bug斗争，为了铲除bug，怎能不懂异常处理的基本技巧？python提供了异常处理的一个方法try1.常见的程序错误有：ValueError传入无效的参数TypeError对类型无效的操作IndentationError缩进错误SyntaxErrorPython语法错误KeyError映射中没有这个键IndexError序列中没有此索引(index)ImportError导入模块/对象

weixin_30475039·2020-08-19 20:59

python--输入方式

引言：今天遇到一题，需要输入下列格式：我在想python好像没有类似C语言那样格式化输入的方法呀，然后去网上找了还真没有，但是还是有其他的收获的。主体：python一共有三种输入方式，但是那是从前了，现在也不支持python2了。现在python3支持两种输入方式input（把之前python2的raw_input吞了），默认返回字符串类型，但是不会再末尾加上换行符sys.stdin.readli

Deapou·2020-08-19 19:04

python--循环语句

引言：今天在刷面试题的时候，我丫竟然连基础的循环语句都忘记了（这能忍？？？），面对的问题是这样的：我就想利用一个循环然后一个一个用isupper判断，然后我竟然写出了下面的代码（我用的是python。。。）这丫要不是我还没膨胀到改写python，我特么就以为是这个pycharm错了。。。。。。现在就总结一哈，python的循环语句主体：python提供了以下几种类型的循环：而且还用下面几种语句来控

Deapou·2020-08-19 19:03

2、python爬虫学习项目之第三方代理IP的使用

在做爬虫的过程中，如果你爬取的频率过快，不符合人的操作模式。有些网站的反爬虫机制通过监测到你的IP异常，访问频率过高。就会对你进行封IP处理。目前已有比较多的第三方平台专门进行代理IP的服务，我们调用其API接口就可以随机获取到平台给定的IP。这里推荐几个比较常用的代理平台：阿布云：https://www.abuyun.com/讯代理：http://www.xdaili.cn/web芝麻HTTP：

初学者84010·2020-08-19 19:34

Python爬虫学习中遇到的问题

请教一个问题，爬虫链接是一个下载地址，在浏览器中进入之后会自动弹回点击下载地址的页面，下载的是一个表格，但是在写的爬虫中，当我访问这个下载链接时，会出现报错：urllib2.URLError:，主机未回应，请问这该怎么做才能把表格下载下来？相关链接：1.http://www.moe.gov.cn/srcsite/A03/moe_634/201706/t20170614_306900.html2.h

轻倾子衿·2020-08-19 19:20

python3.x爬虫学习：股票数据定向爬虫笔记

importrequestsfrombs4importBeautifulSoupimporttracebackimportredefgetHTMLtext(url,code="utf-8"):try:r=requests.get(url)r.raise_for_status()r.encoding=codeprint("test")returnr.textexcept:return""defget

路ren甲·2020-08-19 18:37

爬虫学习笔记day05

1.json模块1.javascript中的对象和数组对象：{'key':'value'}数组：[x1,x2,x3]2.作用json格式字符串和python数据类型之间的转换3.常用的一些方法1.json.loads():json格式-->Python数据类型jsonpython对象字典数组列表2.json.dumps():python数据类型-->jsonpythonjson字典对象列表数组元组

走遍星空的CG·2020-08-19 18:44

爬虫学习之抓取今日头条街拍美图

一，进入今日头条主页，搜索街拍，进入搜索到的页面后分析网页代码可以看到头条采用的并不是常见的html代码，而是使用的Ajax通过后台请求获取页面。不论什么代码，只要获得我们想要的就行了。通过Preservelog获得网页的收发代码，在Doc部分可以看到我们想要的，也就是选项的网页地址。找到选项地址了，就能编写爬取代码了defget_page_data(offset,KEYWORD):data={'

没有刺的仙人掌·2020-08-19 18:38

爬虫学习-异常捕获

西域孤狼·2020-08-19 18:27

学习Python的第四天

爬虫学习#-*-coding:utf-8-*-#@Time:2019/7/3111:28#@Author:EricLee#@Email:[email protected]#@File:spider_dangdang.py

SunShine_skay·2020-08-19 18:40

python爬虫学习（八）正则表达式批量爬取妹子图片

正则那块弄了蛮久，一点点去试#-*-coding:utf-8-*-importrequestsimportreimportosif__name__=='__main__':#创建一个文件夹，保存所有图片ifnotos.path.exists('./MMLibs'):os.mkdir('./MMLibs')headers={'User-Agent':'Mozilla/5.0(WindowsNT10.

haimian_baba·2020-08-19 17:31

Python--字符串

字符串类型在Python中是十分重要的类型，他一般用引号中间添加字符的形式表达，不同于其他语言的是，Python中双引号（”“）与单引号（’‘）是不予区分的。都可以用来表示字符串创建、赋值和访问1.两种创建方式(1)直接赋值s="abcdef"(2)通过str()函数str()函数的作用，相当于是通过传入的参数，生成一个string型的对象，这个传入的参数可能是整型，浮点型，也能是列表，元组，字典

guoziqing506·2020-08-19 17:25

Python--获取当前日期和时间(含中文格式)

获取当天日期调用locale函数调用time函数defget_current_date(is_chinese=False):importtimeimportlocaleifnotis_chinese:returntime.strftime('%Y-%m-%d')elifis_chinese:locale.setlocale(locale.LC_CTYPE,'chinese')returntime.

大龄儿童程序猿·2020-08-19 17:45

python--爬虫基本操作一

目录一、认识爬虫二、获取数据：模块requests三、数据解析与提取：模块BeautifulSoup一、认识爬虫浏览器的工作原理：爬虫的工作原理：爬虫工作4个步骤：第0步：获取数据。爬虫程序会根据我们提供的网址，向服务器发起请求，然后返回数据。第1步：解析数据。爬虫程序会把服务器返回的数据解析成我们能读懂的格式。第2步：提取数据。爬虫程序再从中提取出我们需要的数据。第3步：储存数据。爬虫程序把这些

dannier5·2020-08-19 17:32

Python--异常处理机制

一、什么是异常？Error（错误）是系统中的错误，程序员是不能改变的和处理的，如系统崩溃，内存空间不足，方法调用栈溢等。遇到这样的错误，建议让程序终止。Exception（异常）表示程序可以处理的异常，可以捕获且可能恢复。遇到这类异常，应该尽可能处理异常，使程序恢复运行，而不应该随意终止异常。常见的异常：AttributeError、IOError、ImportError、IndexError、S

CodingAndCoCoding·2020-08-19 16:16

爬虫中的那些编码问题

前言近日一直在爬虫学习的路上摸打滚爬，问题接踵而来，就在今天遇见了编码的问题，苦不堪言，苦苦需求“真相”，有所心得，分享一下，寻求同辈之人，聊以自慰。

STARSG0d·2020-08-19 16:12

爬虫学习

爬虫知识学习笔记文章目录一、爬虫的分类二、爬虫的准备工作三、http协议四、requests模块1、使用步骤2、requestsget方法response对象例子1：获取百度产品页面例子2：获取新浪新闻页面分页如何实现？例子3：爬取贴吧中前十页的内容保存到本地3.requestspost请求例子4：破解百度翻译，做到可以查询任意单词效果五、数据的分类1、分类（1）结构化数据：能用关系型数据库描述的

卖山楂啦prss·2020-08-19 15:32

爬虫学习：实现对彼岸图4k图片的下载

在学习python爬虫一段时间后，进行第一个项目的实践。本文使用的库为：requests库time库xpath库os库,目的：实现对彼岸图4k图片的下载源码：importrequestsimporttimefromlxmlimportetreeimportosheaders={'User-Agent':'Mozilla/5.0(WindowsNT6.1;Win64;x64)AppleWebKit/

Pang文·2020-08-19 15:25

Python-- lxml用法

目录lxml库（lxml安装可查看上一篇文章）Element类1、节点操作2、属性操作3、文本操作4、文件解析与输出5、ElementPath6、案例（尤其最后的一篇代码）lxml库（lxml安装可查看上一篇文章）python的HTML/XML的解析器官方文档：http://lxml.de/index.html功能：解析HTML文件读取etree和XPath的配合使用围绕三个问题:问题1：有一个X

ydw_ydw·2020-08-19 06:25

python--函数

###########函数#############函数的定义def关键字,依次写出函数名、括号、括号中的参数和冒号:在缩进块中编写函数体,函数的返回值用return语句返回。name为该函数的参数def函数名(name):pass(函数体)return返回值定义一个什么事也不做的空函数,可以用pass语句;pass可以用来作为占位符,还没想好怎么写函数的代码,就可以先放一个pass,让代码能运行

咖啡或浮云·2020-08-19 05:39

2018年一月第四周复盘和总结

一次愤怒情绪的积极面对，了解了自身愤怒的本质读到一本好书《教育的目的》重新理解《高效能人士七个习惯》进击卓越的产品经理关于需求管理有了新的认识，接触到了一个不一样产品课程BAD机器学习刻意练习实践陷入停滞爬虫学习刻意练习实践陷入停滞知识框架优化缓慢原创分享进度缓慢关于交互技能几乎都忘了

爱琴海小飞侠·2020-08-19 05:50

python--电影评论文本情感分类

为了记录kaggle学习心得。参考了大神文章。1.http://www.cnblogs.com/lijingpeng/p/5787549.html2.python机器学习及实战fromsklearn.datasetsimportfetch_20newsgroupsX,y=news.data,news.target查看X的长度，以及X[0]的长度print(len(X),len(X[0]),len(

weixin_40822389·2020-08-19 05:30

python--关于configParser读取配置文件，options会变成小写的解决办法，类的重写???

关于configParser读取配置文件，options会变成小写的解决办法：解决方案：第一种解决法案是改源码，直接将defoptionxform()函数中‘.lower()’去掉：defoptionxform(self,optionstr):returnoptionstr此种解决方案的不足之处是只能在本机生效，换台机器就会出问题。第二种解决方案是自己写一个MyConfigParser，继承自Co

甜橙W·2020-08-19 05:57

爬虫学习：解析库的使用

解析库的使用1.使用XPath1.1XPath概览1.2XPath常用规则1.3实例引入1.4所有节点1.5子节点1.6父节点1.7属性匹配1.8文本获取1.9属性获取1.10属性多值匹配1.11多属性匹配1.12按序选择1.13节点轴选择2.使用BeautifulSoup2.1解析器2.2基本用法2.3节点选择器2.4方法选择器2.5CSS选择器3.使用pyquery3.1初始化3.2基本CSS

Raymone_·2020-08-19 04:36

python--判断文件后缀名

python模块2020.02.20–判断文件后缀名defFile_suffix():File_path=input('请输入文件：')File_suffix=input('请输入后缀名（例：txt）：')File_rfind=File_path.rfind('.')#rfine从右侧查找f=File_path[File_rfind+1:]iff==File_suffix:print('文件符合，

不忘初心_不惧将来·2020-08-19 02:02

JAVA爬虫学习之单线程httpclient

JAVA爬虫学习之单线程httpclient一爬虫介绍本系列教程目标,使用java爬取小说网站的小说,并输出txt文档感想爬虫是什么爬虫介绍爬虫就是获取网页的内容,机器获取.本系列教程目标,使用java

codeissodifficulty·2020-08-19 00:16

Python--学习笔记

文章目录Python包管理工具--PIP安装使用模块/包glob模块scipy模块scipy.ndimage.zoomscipy.sparse.csr_matrixscipy.sparse.csc_matrixnumpy模块np.flipnp.argmaxnp.maxnp.ndarrary.stridesnp.lib.stride_tricks.as_stridednp.ravelnp.flatt

studyeboy·2020-08-18 16:04

Python-list属性集合

python-->list属性集合list=[1,2,3,4,5,6,7,8]index：索引，检索list.index(8)----->>7append:末尾添加元素list.append(9)—>>

OsbaliYmd·2020-08-18 11:34

Python爬虫学习（2）- Ajax的Get、Post方法实战

1、Get方法爬取豆瓣……#Authors:xiaobei##AJAX适用于1.滑动刷新的页面2.分页刷新的页面importurllib.requestimporturllib.parseurl='https://movie.douban.com/j/search_subjects?'tag=input('请输入要查询的电影类型:')pagenum=eval(input('请输入要查询电影的页数:

拆掉思维的墙·2020-08-18 06:47

基于python的最长公共前缀的实现

力扣python--最长公共前缀1.要求2.思想及代码思路，同时遍历每个字符串。如果第一次就不同，就没有公共的前缀。如果字符串中字母相同则放入结果字符串中，不同就结束。

dayday学习·2020-08-18 05:11

Datewhale爬虫学习活动打卡——Task1简单爬虫的实现

文章目录爬虫的原理HTML和DOMrequest和get单页面爬虫多页面爬虫BeautifulSoup实战：爬豆瓣TOP250电影爬虫的原理HTML和DOM众所周知，我们在互联网上可以通过URL来定位互联网上的资源，我们常见的网页就是互联网上资源的一种。而网页一个网页的页面通常是由HTML、CSS和javascript构成的。HTML是一种标签式语言，各种各样的标签组成了网页上的各个元素。如图所示

temrookie·2020-08-18 02:43

Datewhale爬虫学习活动打卡——Task0环境安装

文章目录前言优化访问github的速度安装Anaconda安装ChromeDriver前言受疫情影响，教培行业颓靡，上班也没以前那么忙了。半年前主要学的是java，最近半年主要使用的是c++和python，由于还没上手过什么python项目，于是参加了这个活动练练手。可以用github和CSDN打卡，懒得用github了，遂打开了好久没有打开的markdown编辑器，翻了下之前学编程认识的小伙伴们

temrookie·2020-08-18 02:12

python--“chardet”安装方式

库说明：用于Python2和3的通用编码检测器，使用chardet检测编码非常容易，chardet支持检测中文、日文、韩文等多种语言。下载地址：官网：https://pypi.org/project/chardet/安装方式：方式一源码按照：第一步：下载压缩文件，例如：'chardet-3.0.4.tar.gz'；第二步：解压文件到python安装位置下的‘site-packages’目录下，例如

CS_Hoyun·2020-08-18 02:25

网络爬虫学习理解笔记（二）——浏览器的伪装

1.基础知识1.1urllib基础urlretrieve()函数：下载网页到本地urllib.request.urlretrieve('网址','下载到本地的位置')info()函数：获取页面信息getcode():获取当前页面状态信息geturl():获取当前访问的网页的url以上三个函数的使用格式：f=urllib.request.urlopen('http://www.baidu.com')

qq_42216752·2020-08-18 01:38

关于爬虫学习的一些小小记录（四）——爬取数据存入数据库

关于爬虫学习的一些小小记录（四）——爬取数据存入数据库创建数据库pymysql模块具体操作预知后事如何前面我们已经讲了怎么访问网页，并且从网页源码中提取数据。

Bcdfxg·2020-08-18 01:00

python--在图片上画矩形框（目标检测）

matplotlib库Rectangle（（左上角x，左上角y），宽，高）importmatplotlib.pyplotaspltfig=plt.figure()ax=fig.add_subplot(1,1,1)rect=plt.Rectangle((top_left_x,top_left_y),width,height,fill=False,edgecolor='red',linewidth=1

GX_Liu·2020-08-17 16:16

Python爬虫学习笔记（实例：Selenium+cookies实现自动登录百度首页）

实现效果：利用selenium添加cookies信息登录百度首页，如果账号没有登录，则首次手动登录账号后去cookies信息写入文件，待浏览器60秒后自动关闭，工程目录下生成cookies.pkl文件，之后再登录百度首页账号自动登录完毕#!coding=utf-8importtimefromseleniumimportwebdriverimportpickleclassBaiduSpider(ob

二叉叔·2020-08-17 06:43

上一页 18 19 20 21 22 23 24 25 下一页

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他

推荐频道