weixin_39520595

python多线程爬虫爬取多个网页_Python 多线程抓取网页

最近，一直在做网络爬虫相关的东西。看了一下开源C++写的larbin爬虫，仔细阅读了里面的设计思想和一些关键技术的实现。

1、larbin的URL去重用的很高效的bloom filter算法；

2、DNS处理，使用的adns异步的开源组件；

3、对于url队列的处理，则是用部分缓存到内存，部分写入文件的策略。

4、larbin对文件的相关操作做了很多工作

5、在larbin里有连接池，通过创建套接字，向目标站点发送HTTP协议中GET方法，获取内容，再解析header之类的东西

6、大量描述字，通过poll方法进行I/O复用，很高效

7、larbin可配置性很强

8、作者所使用的大量数据结构都是自己从最底层写起的，基本没用STL之类的东西

......

还有很多，以后有时间在好好写篇文章，总结下。

这两天，用python写了个多线程下载页面的程序，对于I/O密集的应用而言，多线程显然是个很好的解决方案。刚刚写过的线程池，也正好可以利用上了。其实用python爬取页面非常简单，有个urllib2的模块，使用起来很方便，基本两三行代码就可以搞定。虽然使用第三方模块，可以很方便的解决问题，但是对个人的技术积累而言没有什么好处，因为关键的算法都是别人实现的，而不是你自己实现的，很多细节的东西，你根本就无法了解。我们做技术的，不能一味的只是用别人写好的模块或是api，要自己动手实现，才能让自己学习得更多。

我决定从socket写起，也是去封装GET协议，解析header，而且还可以把DNS的解析过程单独处理，例如DNS缓存一下，所以这样自己写的话，可控性更强，更有利于扩展。对于timeout的处理，我用的全局的5秒钟的超时处理，对于重定位(301or302)的处理是，最多重定位3次，因为之前测试过程中，发现很多站点的重定位又定位到自己，这样就无限循环了，所以设置了上限。具体原理，比较简单，直接看代码就好了。

自己写完之后，与urllib2进行了下性能对比，自己写的效率还是比较高的，而且urllib2的错误率稍高一些，不知道为什么。网上有人说urllib2在多线程背景下有些小问题，具体我也不是特别清楚。

先贴代码：

fetchPage.py 使用Http协议的Get方法，进行页面下载，并存储为文件

'''

Created on 2012-3-13

Get Page using GET method

Default using HTTP Protocol , http port 80

@author: xiaojay

'''

import socket

import statistics

import datetime

import threading

socket.setdefaulttimeout(statistics.timeout)

class Error404(Exception):

'''Can not find the page.'''

pass

class ErrorOther(Exception):

'''Some other exception'''

def __init__(self,code):

#print 'Code :',code

pass

class ErrorTryTooManyTimes(Exception):

'''try too many times'''

pass

def downPage(hostname ,filename , trytimes=0):

try :

#To avoid too many tries .Try times can not be more than max_try_times

if trytimes >= statistics.max_try_times :

raise ErrorTryTooManyTimes

except ErrorTryTooManyTimes :

return statistics.RESULTTRYTOOMANY,hostname+filename

try:

s = socket.socket(socket.AF_INET,socket.SOCK_STREAM)

#DNS cache

if statistics.DNSCache.has_key(hostname):

addr = statistics.DNSCache[hostname]

else:

addr = socket.gethostbyname(hostname)

statistics.DNSCache[hostname] = addr

#connect to http server ,default port 80

s.connect((addr,80))

msg = 'GET '+filename+' HTTP/1.0\r\n'

msg += 'Host: '+hostname+'\r\n'

msg += 'User-Agent:xiaojay\r\n\r\n'

code = ''

f = None

s.sendall(msg)

first = True

while True:

msg = s.recv(40960)

if not len(msg):

if f!=None:

f.flush()

f.close()

break

# Head information must be in the first recv buffer

if first:

first = False

headpos = msg.index("\r\n\r\n")

code,other = dealwithHead(msg[:headpos])

if code=='200':

#statistics.fetched_url += 1

f = open('pages/'+str(abs(hash(hostname+filename))),'w')

f.writelines(msg[headpos+4:])

elif code=='301' or code=='302':

#if code is 301 or 302 , try down again using redirect location

if other.startswith("http") :

hname, fname = parse(other)

downPage(hname,fname,trytimes+1)#try again

else :

downPage(hostname,other,trytimes+1)

elif code=='404':

raise Error404

else :

raise ErrorOther(code)

else:

if f!=None :f.writelines(msg)

s.shutdown(socket.SHUT_RDWR)

s.close()

return statistics.RESULTFETCHED,hostname+filename

except Error404 :

return statistics.RESULTCANNOTFIND,hostname+filename

except ErrorOther:

return statistics.RESULTOTHER,hostname+filename

except socket.timeout:

return statistics.RESULTTIMEOUT,hostname+filename

except Exception, e:

return statistics.RESULTOTHER,hostname+filename

def dealwithHead(head):

'''deal with HTTP HEAD'''

lines = head.splitlines()

fstline = lines[0]

code =fstline.split()[1]

if code == '404' : return (code,None)

if code == '200' : return (code,None)

if code == '301' or code == '302' :

for line in lines[1:]:

p = line.index(':')

key = line[:p]

if key=='Location' :

return (code,line[p+2:])

return (code,None)

def parse(url):

'''Parse a url to hostname+filename'''

try:

u = url.strip().strip('\n').strip('\r').strip('\t')

if u.startswith('http://') :

u = u[7:]

elif u.startswith('https://'):

u = u[8:]

if u.find(':80')>0 :

p = u.index(':80')

p2 = p + 3

else:

if u.find('/')>0:

p = u.index('/')

p2 = p

else:

p = len(u)

p2 = -1

hostname = u[:p]

if p2>0 :

filename = u[p2:]

else : filename = '/'

return hostname, filename

except Exception ,e:

print "Parse wrong : " , url

print e

def PrintDNSCache():

'''print DNS dict'''

n = 1

for hostname in statistics.DNSCache.keys():

print n,'\t',hostname, '\t',statistics.DNSCache[hostname]

n+=1

def dealwithResult(res,url):

'''Deal with the result of downPage'''

statistics.total_url+=1

if res==statistics.RESULTFETCHED :

statistics.fetched_url+=1

print statistics.total_url , '\t fetched :', url

if res==statistics.RESULTCANNOTFIND :

statistics.failed_url+=1

print "Error 404 at : ", url

if res==statistics.RESULTOTHER :

statistics.other_url +=1

print "Error Undefined at : ", url

if res==statistics.RESULTTIMEOUT :

statistics.timeout_url +=1

print "Timeout ",url

if res==statistics.RESULTTRYTOOMANY:

statistics.trytoomany_url+=1

print e ,"Try too many times at", url

if __name__=='__main__':

print 'Get Page using GET method'

下面，我将利用上一篇的线程池作为辅助，实现多线程下的并行爬取，并用上面自己写的下载页面的方法和urllib2进行一下性能对比。

'''

Created on 2012-3-16

@author: xiaojay

'''

import fetchPage

import threadpool

import datetime

import statistics

import urllib2

'''one thread'''

def usingOneThread(limit):

urlset = open("input.txt","r")

start = datetime.datetime.now()

for u in urlset:

if limit <= 0 : break

limit-=1

hostname , filename = parse(u)

res= fetchPage.downPage(hostname,filename,0)

fetchPage.dealwithResult(res)

end = datetime.datetime.now()

print "Start at :\t" , start

print "End at :\t" , end

print "Total Cost :\t" , end - start

print 'Total fetched :', statistics.fetched_url

'''threadpoll and GET method'''

def callbackfunc(request,result):

fetchPage.dealwithResult(result[0],result[1])

def usingThreadpool(limit,num_thread):

urlset = open("input.txt","r")

start = datetime.datetime.now()

main = threadpool.ThreadPool(num_thread)

for url in urlset :

try :

hostname , filename = fetchPage.parse(url)

req = threadpool.WorkRequest(fetchPage.downPage,args=[hostname,filename],kwds={},callback=callbackfunc)

main.putRequest(req)

except Exception:

print Exception.message

while True:

try:

main.poll()

if statistics.total_url >= limit : break

except threadpool.NoResultsPending:

print "no pending results"

break

except Exception ,e:

print e

end = datetime.datetime.now()

print "Start at :\t" , start

print "End at :\t" , end

print "Total Cost :\t" , end - start

print 'Total url :',statistics.total_url

print 'Total fetched :', statistics.fetched_url

print 'Lost url :', statistics.total_url - statistics.fetched_url

print 'Error 404 :' ,statistics.failed_url

print 'Error timeout :',statistics.timeout_url

print 'Error Try too many times ' ,statistics.trytoomany_url

print 'Error Other faults ',statistics.other_url

main.stop()

'''threadpool and urllib2 '''

def downPageUsingUrlib2(url):

try:

req = urllib2.Request(url)

fd = urllib2.urlopen(req)

f = open("pages3/"+str(abs(hash(url))),'w')

f.write(fd.read())

f.flush()

f.close()

return url ,'success'

except Exception:

return url , None

def writeFile(request,result):

statistics.total_url += 1

if result[1]!=None :

statistics.fetched_url += 1

print statistics.total_url,'\tfetched :', result[0],

else:

statistics.failed_url += 1

print statistics.total_url,'\tLost :',result[0],

def usingThreadpoolUrllib2(limit,num_thread):

urlset = open("input.txt","r")

start = datetime.datetime.now()

main = threadpool.ThreadPool(num_thread)

for url in urlset :

try :

req = threadpool.WorkRequest(downPageUsingUrlib2,args=[url],kwds={},callback=writeFile)

main.putRequest(req)

except Exception ,e:

print e

while True:

try:

main.poll()

if statistics.total_url >= limit : break

except threadpool.NoResultsPending:

print "no pending results"

break

except Exception ,e:

print e

end = datetime.datetime.now()

print "Start at :\t" , start

print "End at :\t" , end

print "Total Cost :\t" , end - start

print 'Total url :',statistics.total_url

print 'Total fetched :', statistics.fetched_url

print 'Lost url :', statistics.total_url - statistics.fetched_url

main.stop()

if __name__ =='__main__':

'''too slow'''

#usingOneThread(100)

'''use Get method'''

#usingThreadpool(3000,50)

'''use urllib2'''

usingThreadpoolUrllib2(3000,50)

实验分析：

实验数据：larbin抓取下来的3000条url，经过Mercator队列模型(我用c++实现的，以后有机会发个blog)处理后的url集合，具有随机和代表性。使用50个线程的线程池。

实验环境：ubuntu10.04，网络较好，python2.6

存储：小文件，每个页面，一个文件进行存储

PS：由于学校上网是按流量收费的，做网络爬虫，灰常费流量啊！！！过几天，可能会做个大规模url下载的实验，用个几十万的url试试。

实验结果：

使用urllib2 ，usingThreadpoolUrllib2(3000,50)

Start at : 2012-03-16 22:18:20.956054

End at : 2012-03-16 22:22:15.203018

Total Cost : 0:03:54.246964

Total url : 3001

Total fetched : 2442

Lost url : 559

下载页面的物理存储大小：84088kb

使用自己的getPageUsingGet ，usingThreadpool(3000,50)

Start at : 2012-03-16 22:23:40.206730

End at : 2012-03-16 22:26:26.843563

Total Cost : 0:02:46.636833

Total url : 3002

Total fetched : 2484

Lost url : 518

Error 404 : 94

Error timeout : 312

Error Try too many times 0

Error Other faults 112

下载页面的物理存储大小：87168kb

小结：自己写的下载页面程序，效率还是很不错的，而且丢失的页面也较少。但其实自己考虑一下，还是有很多地方可以优化的，比如文件过于分散，过多的小文件创建和释放定会产生不小的性能开销，而且程序里用的是hash命名，也会产生很多的计算，如果有好的策略，其实这些开销都是可以省略的。另外DNS，也可以不使用python自带的DNS解析，因为默认的DNS解析都是同步的操作，而DNS解析一般比较耗时，可以采取多线程的异步的方式进行，再加以适当的DNS缓存很大程度上可以提高效率。不仅如此，在实际的页面抓取过程中，会有大量的url ，不可能一次性把它们存入内存，而应该按照一定的策略或是算法进行合理的分配。总之，采集页面要做的东西以及可以优化的东西，还有很多很多。

python 爬取某乎某选全部内容路笑笑
在发布了python爬取知乎盐选文章内容后，没想到居然这么快就要更新新的内容了。在下午思考第一篇python爬取知乎盐选文章内容的时候，其实就把自动爬取目录内的其他内容的方法想出来了，但是本来没想这么快更新的，哈哈。不过思来想去还是发出来吧，毕竟要不哪天就忘了。fromDecryptLoginimportloginfrombs4importBeautifulSoupimportreimportba
Ubuntu-Server 设置多个ip和多个ipv6 笔记250320 kfepiza #Linux CentOS Ubuntu 等 #控制台命令行 Shell脚本 sh cmd 等网络通讯传输协议物联 ubuntu tcp/ip 笔记
Ubuntu-Server设置多个ip和多个ipv6在UbuntuServer上为同一网卡配置多个IPv4和IPv6地址，Ubuntu-server-16用的是/etc/network/interfaces配置的networkingUbuntu-server-17.10及更新版本默认用的是systemd-networkd+Netplan,用Netplan来管理systemd-networkd对于U
探秘知乎数据抓取神器 —— zhihu-spider 丁慧湘Gwynne
探秘知乎数据抓取神器——zhihu-spider项目地址:https://gitcode.com/gh_mirrors/zh/zhihu-spider在知识的海洋中畅游，每一份数据都可能成为智慧的火花。今天，我们来一起探索一个专为知乎设计的数据爬虫工具——zhihu-spider，它是由计算机科学研究生MorganZhang精心打造的开源宝藏。项目介绍zhihu-spider，正如其名，是一个针对
Python 爬虫实战：从知乎盐选专栏，爬取优质内容付费数据西攻城狮北 python 爬虫开发语言实战案例知乎
目录一、前言二、准备篇2.1确定目标2.2工具与库2.3法律与道德声明三、实战篇3.1分析知乎盐选专栏页面3.2模拟登录3.3获取文章列表3.4爬取更多文章数据3.5数据存储四、分析篇4.1数据清洗4.2热门文章分析4.3收藏数分析4.4评论数分析五、总结与展望六、注意事项一、前言知乎盐选专栏作为知乎平台上的优质内容付费板块，汇聚了众多创作者的高质量文章。了解这些文章的付费数据，如点赞数、收藏数、
编程内容简述！恶霸不委屈开发语言青少年编程汇编 java python
编程是指通过计算机语言来开发软件、程序和应用的过程，通常通过编写一系列的指令，来让计算机完成特定的任务。编程可以涉及多个领域和技术，以下是一些主要的编程内容：1.编程语言编程语言是程序员与计算机进行沟通的桥梁，不同的编程语言适用于不同的任务。常见的编程语言有：Python：简单易学，适用于数据分析、人工智能、网页开发等。JavaScript：网页开发中不可或缺的语言，用于动态网页和前端开发。Jav
C++ 地图 + 配对组合！3 分钟吃透 map 和 pair 的黄金搭档 Reese_Cool STL 数据结构与算法 c++算法开发语言 stl
文章目录pair一、基本概念二、pair的声明与初始化三、成员访问与修改四、常用操作1.比较运算2.交换值3.tie函数（解包pair）五、pair的应用场景六、pair与结构体/类的对比七、pair与tuple的对比八、代码示例1.返回多个值2.存储键值对九、总结map一、基本概念二、map的声明与初始化三、常用操作四、map的应用场景五、注意事项在C++编程里，map和pair是标准库中十分实
ARPG 游戏战斗系统设计详解小宝哥Code Unity引擎游戏
ARPG游戏战斗系统设计详解ARPG（ActionRole-PlayingGame，动作角色扮演游戏）的战斗系统需要兼顾操作性、打击感、技能组合、AI交互等多个方面。本指南将详细解析ARPG战斗系统的核心要素、设计思路与优化方案，适用于Unity、UE4及自研引擎开发。1.ARPG战斗系统的核心要素1.1战斗核心机制即时战斗（Real-TimeCombat）：无回合制，玩家实时控制角色进行攻击、闪
Vue3前端开发：组件化设计与状态管理 caihuayuan4 面试题汇总与解析 spring sql java 大数据课程设计
Vue3前端开发：组件化设计与状态管理一、Vue3组件化设计组件基本概念与特点是一款流行的JavaScript框架，它支持组件化设计，这意味着我们可以将页面分解成多个独立的组件，每个组件负责一部分功能，通过组件的嵌套和复用，可以快速构建复杂的用户界面。组件化设计具有以下特点：组件示例组件选项在上面的代码示例中，我们通过Vue.component方法注册了一个名为my-component的组件，这是
AJAX（Asynchronous JavaScript and XML）详解与应用风亦辰739 javascript ajax xml
一、什么是AJAX？AJAX（AsynchronousJavaScriptandXML，异步JavaScript和XML）是一种用于创建异步Web应用程序的技术。它可以在不重新加载整个网页的情况下，与服务器进行数据交换，从而提供更好的用户体验。1.1AJAX的核心特点异步通信：数据请求不会阻塞页面，提升用户体验。减少服务器负担：只获取需要的数据，减少流量。提升用户体验：网页响应速度更快，减少页面刷
python爬虫Redis数据库 Æther_9 Python爬虫零基础入门数据库 python 爬虫
Redis数据库Redis简介Redis是完全开源免费的，遵守BSD协议，是一个高性能的key-value数据库。Redis与其他key-value缓存产品有以下三个特点：Redis支持数据的持久化，可以将内存中的数据保存在磁盘中，重启的时候可以再次加载进行使用。Redis不仅仅支持简单的key-value类型的数据，同时还提供list，set，zset，hash等数据结构的存储。redis：半持
SSE进阶详解 GISer_Jinger 面试前端 javascript
嗯，用户的问题涉及到SSE在处理富媒体文件、早期聊天应用选择SSE的原因，以及如何控制流式渲染频率。我需要根据提供的搜索结果来解答这些问题。首先，关于SSE传输富媒体文件的问题。根据搜索结果，SSE是基于文本的，比如网页2提到数据格式是文本或JSON。但用户问的是如何处理图片、视频等二进制数据。可能需要用Base64编码，这在网页5和6中提到了二进制数据的处理，但SSE本身不支持，所以需要转换。另
站在巨人的肩膀！字节跳动的这份高并发架构设计的太牛了，不愧是一线大厂（附完整版PDF）跟着我学Java Java 程序员面试 pdf 数据库 java 架构职场和发展
前言我们知道，高并发代表着大流量，高并发系统设计的魅力就在于我们能够凭借自己的聪明才智设计巧妙的方案，从而抵抗巨大流量的冲击，带给用户更好的使用体验。这些方案好似能操纵流量，让流量更加平稳得被系统中的服务和组件处理。来做个简单的比喻吧。从古至今，长江和黄河流域水患不断，远古时期，大禹曾拓宽河道，清除淤沙让流水更加顺畅；都江堰作为史上最成功的的治水案例之一，用引流将岷江之水分流到多个支流中，以分担水
Trunk：Rust WASM 应用的终极打包工具徐天铭Paxton
Trunk：RustWASM应用的终极打包工具trunkBuild,bundle&shipyourRustWASMapplicationtotheweb.项目地址:https://gitcode.com/gh_mirrors/tr/trunk项目介绍Trunk是一款专为Rust语言设计的WASM网页应用打包工具。它能够帮助开发者轻松构建、打包并发布Rust编写的WASM应用到Web平台。Trunk
高德地图API详解芯作者 DD：日记云计算人工智能机器学习
高德地图API是一款基于Web的服务，为开发者提供了丰富的地理数据服务和功能。以下是对高德地图API的详细介绍：一、主要功能地图显示：支持全球范围各地的地图显示，包括街道、建筑物、自然地理等，用户可以将高德地图以图片形式嵌入自己的网页或应用中。地理/逆地理编码：提供结构化地址与经纬度之间的相互转化的能力。地理编码是将具体的地址转换为经纬度坐标的过程，逆地理编码则是通过经纬度获取地址信息。路线规划：
模式搜索+扩散模型：FlowMo重构图像Token化的技术革命芯作者 DD：日记重构
图像Token化作为现代生成式AI系统的核心技术，长期面临对抗性训练不稳定、潜在空间冗余等挑战。斯坦福大学李飞飞与吴佳俊团队提出的FlowMo（FlowtowardsModes）创新性地融合模式搜索与扩散模型，在多个关键维度突破传统方法局限，为图像压缩与重建开辟新路径。本文将深度解析其技术突破、实现原理及行业影响。一、传统图像Token化的困境与FlowMo的破局之道1.1传统方法的三大桎梏传统T
JavaScript反爬技术解析与应对不做超级小白 web逆向知识碎片 web前端 javascript 开发语言 ecmascript
JavaScript反爬技术解析与应对前言在当今Web爬虫与数据抓取的生态环境中，网站运营方日益关注数据安全与隐私保护，因此逐步采用多种反爬技术来限制非授权访问。本文从JavaScript角度出发，深入剖析主流反爬策略的技术原理，并探讨相应的绕过方案，以期为研究者和开发者提供系统性的理解与实践指导。1.JavaScript反爬技术概述1.1右键禁用与开发者工具防护部分网站采用JavaScript拦
macOS Sequoia 15.0 小洋学长经验分享
macOSSequoia推出了一系列新功能，可助你在Mac上提高生产力和创造力。通过最新连续互通功能iPhone镜像，你可以在Mac上访问整个iPhone。轻松平铺窗口快速打造理想工作空间，还可查看通过演讲者前置演示时即将共享的内容。经过重大更新的Safari浏览器带来了干扰控制，可让你在浏览网页的同时轻松完成各种任务。macOSSequoia还为“信息”带来了文字效果和表情符号点回，为“计算器”
Scrapy 入门教程 zru_9602 爬虫 scrapy
Scrapy入门教程Scrapy是一个用于爬取网站数据的Python框架，功能强大且易于扩展。本文将介绍Scrapy的基本概念、安装方法、使用示例，并展示如何编写一个基本的爬虫。1.什么是Scrapy？Scrapy是一个开源的、用于爬取网站数据的框架，主要特点包括：高效、异步的爬取机制强大的XPath和CSS选择器解析能力内置中间件，支持代理、去重等功能易于扩展，适用于各种爬虫需求2.安装Scra
多个单片机之间的SPI主从通讯菜长江单片机嵌入式硬件
工程文件链接:链接：https://pan.baidu.com/s/1RXp9lw2ZqyglQSwKnw7Siw?pwd=6666提取码：6666工程里面有很多例子都是看B站视频手打的(这次代码只用到了YJSPI文件夹下面的.C和.H文件其余可以忽略),只是验证通讯和配置一,概述1.因为工作是从事PCBA测试软件开发的(上位机),之前做过的很多项目都是一个单片机完成所有功能，做了有段时间了无非就
Python strip() 方法详解：用途、应用场景及示例解析（中英双语）阿正的梦工坊 Python python 开发语言
Pythonstrip()方法详解：用途、应用场景及示例解析在Python处理字符串时，经常会遇到字符串前后存在多余的空格或特殊字符的问题。strip()方法就是Python提供的一个强大工具，专门用于去除字符串两端的指定字符。本文将详细介绍strip()的用法、适用场景，并通过多个示例解析其应用。1.strip()方法简介strip()方法用于去除字符串两端的指定字符（默认为空格和换行符）。它的
Midscene.js自然语言驱动的网页自动化全指南 Hello.Reader 前端技术人工智能 javascript 自动化开发语言
一、概述网页自动化在数据抓取、UI测试和业务流程优化中发挥着重要作用。然而，传统工具如Selenium和Puppeteer要求用户具备编程技能，编写复杂的选择器和脚本维护成本高昂。Midscene.js通过自然语言接口革新了这一领域，用户只需描述任务（如“点击登录按钮”或“提取产品价格”），AI即可自动执行，大幅降低技术门槛。Midscene.js由web-infra-dev团队开发，开源于Git
VSCode python 遇到的问题：vscode can't open file '': [Errno 2] No such file or dire... weixin_33984032 python 开发工具 json
代码很简单，就两行：importpandasaspdimportnetCDF4asncdataset=nc.Dataset('20150101.nc')环境：在VSCode中左下角把原环境的Python3.6.532-bit切换为Anaconda中的Python3.6.564-bit('base':conda)过程中有两种错误：（忘记截图了，都是历史记录中的google网页搜索栏找到的搜索记录）1
如何用 Python 实现树结构不辉放弃 python 开发语言
一、树结构基础认知1.1树的四大特征层级关系：父子节点的从属关系唯一根节点：访问起点无循环：从根到叶的路径不形成环N叉分支：每个节点可有多个子节点1.2核心组件解析classTreeNode:def__init__(self,data):self.data=data#节点存储的数据self.children=[]#子节点容器（多叉树特性）defadd_child(self,node):self.c
Python 用户账户(让用户拥有自己的数据) 钢铁男儿 Python 从入门到精通 python 数据库 sqlite
Web应用程序的核心是让任何用户都能够注册账户并能够使用它，不管用户身处何方。在本章中，你将创建一些表单，让用户能够添加主题和条目，以及编辑既有的条目。你还将学习Django如何防范对基于表单的网页发起的常见攻击，这让你无需花太多时间考虑确保应用程序安全的问题。然后，我们将实现一个用户身份验证系统。你将创建一个注册页面，供用户创建账户，并让有些页面只能供已登录的用户访问。接下来，我们将修改一些视图
Python 用户账户(让用户能够输入数据) 钢铁男儿 Python 从入门到精通 python 数据库 sqlite
Web应用程序的核心是让任何用户都能够注册账户并能够使用它，不管用户身处何方。在本章中，你将创建一些表单，让用户能够添加主题和条目，以及编辑既有的条目。你还将学习Django如何防范对基于表单的网页发起的常见攻击，这让你无需花太多时间考虑确保应用程序安全的问题。然后，我们将实现一个用户身份验证系统。你将创建一个注册页面，供用户创建账户，并让有些页面只能供已登录的用户访问。接下来，我们将修改一些视图
[前端面试场景题]虚拟列表 GISer_Jinger 前端面试
嗯，用户问的是“前端虚拟列表详解”，我需要详细回答这个问题。首先，我得先理解虚拟列表的概念和用途。根据搜索结果，虚拟列表主要用于优化长列表的渲染性能，特别是在处理大量数据时。用户可能想知道它的核心原理、实现方法以及实际应用场景。看网页1提到虚拟列表的定义和关键点，只渲染视口内的数据项，减少DOM节点。网页2和网页4都给出了具体的Vue和原生JS实现案例，比如动态计算起始和结束索引，使用transf
Python多进程Logging ftpeak Python python linux 开发语言 logging
多个进程的logging向同一个.log文件写入是一套Python程序被多次启动时（多进程启动）无法回避的问题。一个进程的程序正在向.log文件写入的同时，另一个进行启动的程序也需要向同一个.log文件写入，会产生异常吗？答案是：会的！直接写入存在的问题如果多个进程直接使用Python的logging模块向同一个文件写入日志，可能会出现日志内容混乱、数据丢失等问题。这是因为多个进程同时访问和修改文
matlab两矩阵相似性,两个矩阵同时相似对角化MATLAB程序.docx weixin_39870664 matlab两矩阵相似性
两个矩阵同时相似对角化MATLAB程序摘要：使用Matlab语言设计出实现两个复矩阵同时相似对角化的计算机程序。关键词：同时相似对角化；Matlab；程序矩阵对角化是重要的数学方法，但因其计算过程繁琐，人们往往望之生畏，尤其是多个矩阵同时对角化问题，因此本文设计出判断及计算两个复矩阵能否同时相似对角化的Matlab程序，用此能够方便地解决两个复矩阵同时相似对角化问题。1.理论基础定义［1］：设A、
Pyhton安装PyQT6 三口一个桃 python pyqt
Windows系统使用CMD命令安装，对于系统中有多个版本python的，在安装pyqt6/pyqt5时需要针对每个python版本单独安装。安装准备过程：①Win+R打开CMD命令行窗口②输入命令：python--version查看当前python版本是否是自己需要安装pyqt6/5的的版本，若是则执行第③步，若不是则执行下述操作：打开电脑环境变量设置(自行百度)--点击系统变量中的Path项-
《代码拯救世界》可问可问春风重生之我来csdn写小说网络计算机小说网络安全
《代码拯救世界》第一章：神秘的黑客组织“全球多个银行系统遭受黑客攻击，资金被大量转移，损失高达数十亿美元……”新闻播报员的声音在办公室里回荡，小陈的手心已经捏出了汗。作为一名网络安全工程师，他知道这次攻击的严重性远超普通黑客行为。“老李，你看这个。”小陈把一份报告递给同事，“攻击手法非常专业，利用了多个零日漏洞（未被公开的漏洞），而且目标明确，显然是早有预谋。”老李推了推眼镜，眉头紧锁：“这不像普
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &

python多线程爬虫 爬取多个网页_Python 多线程抓取网页

你可能感兴趣的:(python多线程爬虫,爬取多个网页)

python多线程爬虫爬取多个网页_Python 多线程抓取网页