Python 多线程抓取网页牛人　use raw socket implement http request great

Python 多线程抓取网页

   最近，一直在做网络爬虫相关的东西。看了一下开源C++写的larbin爬虫，仔细阅读了里面的设计思想和一些关键技术的实现。

1、larbin的URL去重用的很高效的bloom filter算法；
2、DNS处理，使用的adns异步的开源组件；
3、对于url队列的处理，则是用部分缓存到内存，部分写入文件的策略。
4、larbin对文件的相关操作做了很多工作
5、在larbin里有连接池，通过创建套接字，向目标站点发送HTTP协议中GET方法，获取内容，再解析header之类的东西
6、大量描述字，通过poll方法进行I/O复用，很高效
7、larbin可配置性很强
8、作者所使用的大量数据结构都是自己从最底层写起的，基本没用STL之类的东西
......
还有很多，以后有时间在好好写篇文章，总结下。

   这两天，用python写了个多线程下载页面的程序，对于I/O密集的应用而言，多线程显然是个很好的解决方案。刚刚写过的线程池，也正好可以利用上了。其实用python爬取页面非常简单，有个urllib2的模块，使用起来很方便，基本两三行代码就可以搞定。虽然使用第三方模块，可以很方便的解决问题，但是对个人的技术积累而言没有什么好处，因为关键的算法都是别人实现的，而不是你自己实现的，很多细节的东西，你根本就无法了解。我们做技术的，不能一味的只是用别人写好的模块或是api，要自己动手实现，才能让自己学习得更多。

我决定从socket写起，也是去封装GET协议，解析header，而且还可以把DNS的解析过程单独处理，例如DNS缓存一下，所以这样自己写的话，可控性更强，更有利于扩展。对于timeout的处理，我用的全局的5秒钟的超时处理，对于重定位（301or302）的处理是，最多重定位3次，因为之前测试过程中，发现很多站点的重定位又定位到自己，这样就无限循环了，所以设置了上限。具体原理，比较简单，直接看代码就好了。

   自己写完之后，与urllib2进行了下性能对比，自己写的效率还是比较高的，而且urllib2的错误率稍高一些，不知道为什么。网上有人说urllib2在多线程背景下有些小问题，具体我也不是特别清楚。

先贴代码：

fetchPage.py 使用Http协议的Get方法，进行页面下载，并存储为文件

?

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

81

82

83

84

85

86

87

88

89

90

91

92

93

94

95

96

97

98

99

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

'''

Created on 2012-3-13

Get Page using GET method

Default using HTTP Protocol , http port 80

@author: xiaojay

'''

import socket

import statistics

import datetime

import threading

socket.setdefaulttimeout(statistics.timeout)

class Error404(Exception):

     '''Can not find the page.'''

     pass

class ErrorOther(Exception):

     '''Some other exception'''

     def __init__( self ,code):

         #print 'Code :',code

         pass

class ErrorTryTooManyTimes(Exception):

     '''try too many times'''

     pass

def downPage(hostname ,filename , trytimes = 0 ):

     try :

         #To avoid too many tries .Try times can not be more than max_try_times

         if trytimes > = statistics.max_try_times :

             raise ErrorTryTooManyTimes

     except ErrorTryTooManyTimes :

         return statistics.RESULTTRYTOOMANY,hostname + filename

     try :

         s = socket.socket(socket.AF_INET,socket.SOCK_STREAM)

         #DNS cache

         if statistics.DNSCache.has_key(hostname):

             addr = statistics.DNSCache[hostname]

         else :

             addr = socket.gethostbyname(hostname)

             statistics.DNSCache[hostname] = addr

         #connect to http server ,default port 80

         s.connect((addr, 80 ))

         msg = 'GET ' + filename + ' HTTP/1.0\r\n'

         msg + = 'Host: ' + hostname + '\r\n'

         msg + = 'User-Agent:xiaojay\r\n\r\n'

         code = ''

         f = None

         s.sendall(msg)

         first = True

         while True :

             msg = s.recv( 40960 )

             if not len (msg):

                 if f! = None :

                     f.flush()

                     f.close()

                 break

             # Head information must be in the first recv buffer

             if first:

                 first = False

                 headpos = msg.index( "\r\n\r\n" )

                 code,other = dealwithHead(msg[:headpos])

                 if code = = '200' :

                     #statistics.fetched_url += 1

                     f = open ( 'pages/' + str ( abs ( hash (hostname + filename))), 'w' )

                     f.writelines(msg[headpos + 4 :])

                 elif code = = '301' or code = = '302' :

                     #if code is 301 or 302 , try down again using redirect location

                     if other.startswith( "http" ) :

                         hname, fname = parse(other)

                         downPage(hname,fname,trytimes + 1 ) #try again

                     else :

                         downPage(hostname,other,trytimes + 1 )

                 elif code = = '404' :

                     raise Error404

                 else :

                     raise ErrorOther(code)

             else :

                 if f! = None :f.writelines(msg)

         s.shutdown(socket.SHUT_RDWR)

         s.close()

         return statistics.RESULTFETCHED,hostname + filename

     except Error404 :

         return statistics.RESULTCANNOTFIND,hostname + filename

     except ErrorOther:

         return statistics.RESULTOTHER,hostname + filename

     except socket.timeout:

         return statistics.RESULTTIMEOUT,hostname + filename

     except Exception, e:

         return statistics.RESULTOTHER,hostname + filename

def dealwithHead(head):

     '''deal with HTTP HEAD'''

     lines = head.splitlines()

     fstline = lines[ 0 ]

     code = fstline.split()[ 1 ]

     if code = = '404' : return (code, None )

     if code = = '200' : return (code, None )

     if code = = '301' or code = = '302' :

         for line in lines[ 1 :]:

             p = line.index( ':' )

             key = line[:p]

             if key = = 'Location' :

                 return (code,line[p + 2 :])

     return (code, None )



def parse(url):

     '''Parse a url to hostname+filename'''

     try :

         u = url.strip().strip( '\n' ).strip( '\r' ).strip( '\t' )

         if u.startswith( 'http://' ) :

             u = u[ 7 :]

         elif u.startswith( 'https://' ):

             u = u[ 8 :]

         if u.find( ':80' )> 0 :

             p = u.index( ':80' )

             p2 = p + 3

         else :

             if u.find( '/' )> 0 :

                 p = u.index( '/' )

                 p2 = p

             else :

                 p = len (u)

                 p2 = - 1

         hostname = u[:p]

         if p2> 0 :

             filename = u[p2:]

         else : filename = '/'

         return hostname, filename

     except Exception ,e:

         print "Parse wrong : " , url

         print e

def PrintDNSCache():

     '''print DNS dict'''

     n = 1

     for hostname in statistics.DNSCache.keys():

         print n, '\t' ,hostname, '\t' ,statistics.DNSCache[hostname]

         n + = 1

def dealwithResult(res,url):

     '''Deal with the result of downPage'''

     statistics.total_url + = 1

     if res = = statistics.RESULTFETCHED :

         statistics.fetched_url + = 1

         print statistics.total_url , '\t fetched :' , url

     if res = = statistics.RESULTCANNOTFIND :

         statistics.failed_url + = 1

         print "Error 404 at : " , url

     if res = = statistics.RESULTOTHER :

         statistics.other_url + = 1

         print "Error Undefined at : " , url

     if res = = statistics.RESULTTIMEOUT :

         statistics.timeout_url + = 1

         print "Timeout " ,url

     if res = = statistics.RESULTTRYTOOMANY:

         statistics.trytoomany_url + = 1

         print e , "Try too many times at" , url

if __name__ = = '__main__' :

     print 'Get Page using GET method'

下面，我将利用上一篇的线程池作为辅助，实现多线程下的并行爬取，并用上面自己写的下载页面的方法和urllib2进行一下性能对比。

?

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

81

82

83

84

85

86

87

88

89

90

91

92

93

94

95

96

97

98

99

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

'''

Created on 2012-3-16

@author: xiaojay

'''

import fetchPage

import threadpool

import datetime

import statistics

import urllib2

'''one thread'''

def usingOneThread(limit):

     urlset = open ( "input.txt" , "r" )

     start = datetime.datetime.now()

     for u in urlset:

         if limit < = 0 : break

         limit - = 1

         hostname , filename = parse(u)

         res = fetchPage.downPage(hostname,filename, 0 )

         fetchPage.dealwithResult(res)

     end = datetime.datetime.now()

     print "Start at :\t" , start

     print "End at :\t" , end

     print "Total Cost :\t" , end - start

     print 'Total fetched :' , statistics.fetched_url



'''threadpoll and GET method'''

def callbackfunc(request,result):

     fetchPage.dealwithResult(result[ 0 ],result[ 1 ])

def usingThreadpool(limit,num_thread):

     urlset = open ( "input.txt" , "r" )

     start = datetime.datetime.now()

     main = threadpool.ThreadPool(num_thread)

     for url in urlset :

         try :

             hostname , filename = fetchPage.parse(url)

             req = threadpool.WorkRequest(fetchPage.downPage,args = [hostname,filename],kwds = {},callback = callbackfunc)

             main.putRequest(req)

         except Exception:

             print Exception.message

     while True :

         try :

             main.poll()

             if statistics.total_url > = limit : break

         except threadpool.NoResultsPending:

             print "no pending results"

             break

         except Exception ,e:

             print e

     end = datetime.datetime.now()

     print "Start at :\t" , start

     print "End at :\t" , end

     print "Total Cost :\t" , end - start

     print 'Total url :' ,statistics.total_url

     print 'Total fetched :' , statistics.fetched_url

     print 'Lost url :' , statistics.total_url - statistics.fetched_url

     print 'Error 404 :' ,statistics.failed_url

     print 'Error timeout :' ,statistics.timeout_url

     print 'Error Try too many times ' ,statistics.trytoomany_url

     print 'Error Other faults ' ,statistics.other_url

     main.stop()

'''threadpool and urllib2 '''

def downPageUsingUrlib2(url):

     try :

         req = urllib2.Request(url)

         fd = urllib2.urlopen(req)

         f = open ( "pages3/" + str ( abs ( hash (url))), 'w' )

         f.write(fd.read())

         f.flush()

         f.close()

         return url , 'success'

     except Exception:

         return url , None



def writeFile(request,result):

     statistics.total_url + = 1

     if result[ 1 ]! = None :

         statistics.fetched_url + = 1

         print statistics.total_url, '\tfetched :' , result[ 0 ],

     else :

         statistics.failed_url + = 1

         print statistics.total_url, '\tLost :' ,result[ 0 ],

def usingThreadpoolUrllib2(limit,num_thread):

     urlset = open ( "input.txt" , "r" )

     start = datetime.datetime.now()

     main = threadpool.ThreadPool(num_thread)



     for url in urlset :

         try :

             req = threadpool.WorkRequest(downPageUsingUrlib2,args = [url],kwds = {},callback = writeFile)

             main.putRequest(req)

         except Exception ,e:

             print e



     while True :

         try :

             main.poll()

             if statistics.total_url > = limit : break

         except threadpool.NoResultsPending:

             print "no pending results"

             break

         except Exception ,e:

             print e

     end = datetime.datetime.now()

     print "Start at :\t" , start

     print "End at :\t" , end

     print "Total Cost :\t" , end - start

     print 'Total url :' ,statistics.total_url

     print 'Total fetched :' , statistics.fetched_url

     print 'Lost url :' , statistics.total_url - statistics.fetched_url

     main.stop()

if __name__ = = '__main__' :

     '''too slow'''

     #usingOneThread(100)

     '''use Get method'''

     #usingThreadpool(3000,50)

     '''use urllib2'''

     usingThreadpoolUrllib2( 3000 , 50 )

实验分析：

实验数据：larbin抓取下来的3000条url，经过Mercator队列模型（我用c++实现的，以后有机会发个blog）处理后的url集合，具有随机和代表性。使用50个线程的线程池。
实验环境：ubuntu10.04，网络较好，python2.6
存储：小文件，每个页面，一个文件进行存储
PS：由于学校上网是按流量收费的，做网络爬虫，灰常费流量啊！！！过几天，可能会做个大规模url下载的实验，用个几十万的url试试。

实验结果：

使用urllib2 ，usingThreadpoolUrllib2(3000,50)

Start at :    2012-03-16 22:18:20.956054
End at :    2012-03-16 22:22:15.203018
Total Cost :    0:03:54.246964
Total url : 3001
Total fetched : 2442
Lost url : 559
下载页面的物理存储大小：84088kb

使用自己的getPageUsingGet ，usingThreadpool(3000,50)

Start at :    2012-03-16 22:23:40.206730
End at :    2012-03-16 22:26:26.843563
Total Cost :    0:02:46.636833
Total url : 3002
Total fetched : 2484
Lost url : 518
Error 404 : 94
Error timeout : 312
Error Try too many times 0
Error Other faults 112
下载页面的物理存储大小：87168kb

小结： 自己写的下载页面程序，效率还是很不错的，而且丢失的页面也较少。但其实自己考虑一下，还是有很多地方可以优化的，比如文件过于分散，过多的小文件创建和释放定会产生不小的性能开销，而且程序里用的是hash命名，也会产生很多的计算，如果有好的策略，其实这些开销都是可以省略的。另外DNS，也可以不使用python自带的DNS解析，因为默认的DNS解析都是同步的操作，而DNS解析一般比较耗时，可以采取多线程的异步的方式进行，再加以适当的DNS缓存很大程度上可以提高效率。不仅如此，在实际的页面抓取过程中，会有大量的url ，不可能一次性把它们存入内存，而应该按照一定的策略或是算法进行合理的分配。总之，采集页面要做的东西以及可以优化的东西，还有很多很多。

附件下载：程序代码（水平有限，仅供参考）

python注册nacos服务 MTonj Python python 开发语言
根据nacosopenapiOpenAPI指南主要是实现以下接口：创建服务注册实例注销实例删除服务发送实例心跳实现demo如下：一个web服务1http_server1.py#coding:utf-8importsocketfrommultiprocessingimportProcessdefhandle_client(client_socket):"""处理客户端请求"""request_dat
EL表达式与JSTL标签库详解秦老师Q JavaWeb基础 java
前言本章主要学习EL表达式与JSTL标签库，用于简化JSP数据操作。收录JavaWeb基础系列，该系列主要学习JavaWeb开发原生框架、Servlet、JSP、request请求对象、response响应对象、Session会话对象、Filter过滤器、EL表达式、JSTL标签库、三层开发模型等知识点，欢迎童鞋们互相交流。觉得不错可以三连订阅喔。目标一、EL表达式1.概念2.语法3.示例4.EL
Python学习day14 BBS功能和聊天室 weixin_30725467 json 数据库前端 ViewUI
Createdon2017年5月15日@author:louts第1课作业讲解及装饰器使用28minutesdefcheck(func):defrec(request,*args,**kargs):returnfunc(request,*args,**kargs)returnrec@checkdefindex(request,):printrequest第2课自定义装饰器扩展使用18minutes
Python爬虫爬取1万首音乐代码 EasySoft易软 python
importrequestsbase_url=“http://music.163.com/song/media/outer/url?id=”start_id=200000end_id=210000formusic_idinrange(start_id,end_id+1):song_url=base_url+str(music_id)response=requests.get(song_url,st
drogon跨域问题和全局异常处理 zh7314 c++
2024年6月20日12:21:11在main.cc里加入/***全局异常处理*/drogon::app().setExceptionHandler([](conststd::exception&e,constdrogon::HttpRequestPtr&req,std::function&&callback){LOG_DEBUGdrogon::HttpResponsePtr{if(req->me
Go实战全家桶之三十六： go动态创建结构体 leijmdas go go实战全家桶 golang 开发语言后端
开源：water/gowebfunc(self*PagedbRequest)CreateDbTableStru(meta*metadata.MetadataTable)reflect.Value{varmetaColService=service.NewMetadataFactroy()dbFields:=[]reflect.StructField{}for_,col:=rangemeta.Col
利用Python爬虫获取阿里巴巴商品详情：代码示例与实践指南小爬虫程序猿 API python 爬虫开发语言
在电商数据分析和市场研究中，获取商品详情是至关重要的一步。虽然阿里巴巴开放平台提供了官方API来获取商品信息，但在某些情况下，使用爬虫技术来抓取数据也是一种有效的手段。本文将介绍如何利用Python爬虫获取阿里巴巴商品详情，并提供详细的代码示例。一、准备工作（一）环境搭建确保你的Python环境已经安装了以下必要的库：requests：用于发送HTTP请求。BeautifulSoup：用于解析HT
Apache 如何设置 Upgrade-Insecure-Requests 报头？ apache
Upgrade-Insecure-Requests是一个指令，可以通过配置Apache服务器设置在网站的HTTP头中。它指示浏览器将所有不安全的HTTP请求升级为安全的HTTPS。这对于保护您的站点及其用户免受中间人攻击特别有用。Step1:开启Headers模块Apache需要headers模块来修改HTTP报头，包括设置Upgrade-Insecure-Requests指令。开启headers
jsp有哪些内置对象？作用分别是什么？富哥92 面试
1.HttpServletRequet类的Request对象：代表请求对象，主要用于接受客户端通过HTTP协议连接传输服务器端的数据。2.HttpSevletResponse类的Response对象：代表响应对象，主要用于向客户端发送数据。3.JspWriter类的out对象：主要用于向客户端输出数据，out的基类是jspWriter4.HttpSession类的session对象：主要用来分别保
实时监控社区帖子删除的Python系统构建永不放弃yes
本文还有配套的精品资源，点击获取简介：本系统采用Python开发，专注于实时监测网络平台上的帖子删除情况。Python语言以其简洁和丰富的第三方库支持，如requests、BeautifulSoup、Selenium，构成了系统的核心。系统通过定时任务执行监测，实现帖子信息的记录和比较，并提供异常处理及日志记录功能。用户界面和合规性考虑也是系统设计的一部分。1.Python编程语言在删贴监测系统中
使用tkinter Entry Button 实现简易的GUI界面只是想找点乐子 tkinter
#-*-coding:utf-8-*-importtkinterastkimportrequestsimportrewindow=tk.Tk()window.title('获取破解码')window.geometry('500x300')var=tk.StringVar()#lb=tk.Label(window,textvariable=var,bg='white',fg='black',font
史上最全！Python爬虫requests库(附案例) 疯狂的超级玛丽 Python Python学习 Python入门 python 爬虫开发语言学习 Python基础 python自学
1.requests库简介如果你正在学习Python并且找不到方向的话可以试试我这一份学习方法+籽料呀！点击领取（不要米米）Requests是一个为人类设计的简单而优雅的HTTP库。requests库是一个原生的HTTP库，比urllib3库更为容易使用。requests库发送原生的HTTP1.1请求，无需手动为URL添加查询串，也不需要对POST数据进行表单编码。相对于urllib3库，requ
vscode 极简Linux下 cmake c++开发环境丘狸尾 vscode linux c++
安装这三插件vscode安装插件clangd后报错无法自动下载服务端Failedtoinstallclangdlanguageserver:FetchError:requesttohttps://api.github.com/repos/clangd/clangd/releases/latestfailed,reason:Failedtoestablishasocketconnectiontopr
HCI_Inquiry 打个工而已 Android Bluetooth java python html
目录Android11发起搜索流程BluedroidHCI_Inquiry处理搜索结果处理Android11发起搜索流程BluedroidHCI_Inquiry处理搜索结果处理参考资料：Inquiryisusedtodetectandcollectnearbydevices。Inquiry用于发现搜集附近的蓝牙设备大概意思就是:1.主动发现设备的会sendinquiryrequest2.待被发现的
关于 python 的 http 客户端的默认请求头测试 —— requests、httpx、curl_cffi python
开始测试首先测试requests测试代码importrequests#发起HTTPGET请求url="http://xxx.xxx.xxx.xxx:8086"response=requests.get(url)#打印结果print("ResponseContent(bytes):",response.content)print("ResponseText(str):",response.text)
【0394】Postgres内核（checkpoint）执行一个 checkpoint ④ 内核之道 #▲进阶篇 CHECKPOINT 执行checkpoint
文章目录1.获取requestflags1.1发出警告1.2获取XLOGinsertlocation2.开始执行一个checkpoint1.获取requestflags以原子操作的方式获取请求标志，以明确我们应当执行何种类型的checkpoint，并增加启动计数器，以表明我们已开始新的检查点。由于CheckpointerShmem中的ckpt_flags为0，所以或运算之后，flags值未改变（f
bizhan爬虫，反爬虫机制严重 yzx991013 爬虫
importosimportreimportrequestsimportjsonimportsubprocessfromlxmlimportetreefromtimeimportsleep#请求头信息header={"referer":"https://www.bilibili.com","user-agent":"Mozilla/5.0(WindowsNT10.0;Win64;x64)Apple
selenium处理点选验证码---图灵小小白学Py selenium python 测试工具
#-*-coding:utf-8-*-importtime,os,base64,json,requests#pipinstallpillowfromPILimportImagefromseleniumimportwebdriver#读取ini文件当中的数据fromconfigparserimportConfigParserfromselenium.webdriver.common.byimport
Python 网络爬虫进阶：动态网页爬取与反爬机制应对 m0_74824534 python 爬虫开发语言
在上一篇文章中，我们学习了如何使用Python构建一个基本的网络爬虫。然而，在实际应用中，许多网站使用动态内容加载或实现反爬机制来阻止未经授权的抓取。因此，本篇文章将深入探讨以下进阶主题：如何处理动态加载的网页内容应对常见的反爬机制爬虫性能优化通过具体实例，我们将探讨更复杂的网络爬虫开发技巧。一、动态网页爬取现代网页通常通过JavaScript加载动态内容。直接使用requests获取的HTML可
Python+Requests接口分层自动化测试框架丁鱼教育 Python 自动化测试 requests python
阅读本小节，需要读者具备如下前提条件：1.掌握一种编程语言基础，如java、python等。2.掌握一种单元测试框架，如java语言的testng框架、python的unittest框架。3.掌握目前主流的UI测试框架，移动端APP测试框架Appium，或者掌握Web端测试框架Selenium。4.如果是Appium框架，还需要掌握如何定位控件元素，原生页面可使用安卓SDK自带的uiautomat
Python爬虫入门教程：超级简单的Python爬虫教程梦子mengy7762 爬虫 python 数据分析 python 爬虫 html pycharm visualstudio
这是一篇详细介绍[Python]爬虫入门的教程，从实战出发，适合初学者。读者只需在阅读过程紧跟文章思路，理清相应的实现代码，30分钟即可学会编写简单的Python爬虫。这篇Python爬虫教程主要讲解以下5部分内容：了解网页；使用requests库抓取网站数据；使用BeautifulSoup解析网页；清洗和组织数据；爬虫攻防战；了解网页以中国旅游网首页为例，抓取中国旅游网首页首条信息（标题和链接）
requestAnimationFrame 前端javascript
requestAnimationFrame，字面含义请求动画帧，其用法跟setTimeout差不多，与setTimeout相比，最大的优点就是由浏览器来决定执行的时间用法：window.requestAnimationFrame(function(){})注：当我看到博主十万条数据加载到页面结合回调函数使用的时候，所以防止以后忘记，特此记录这是从博主那学习的新方法：https://juejin.c
python 爬虫学习 lally. python 爬虫学习
目录requst库访问HTML语言常用HTML标签结构性标签文本格式化标签超链接与图像列表标签HTML练习BeautifulSoup处理数据requst库访问fromrequestsimport*response=get("https://19j.tv/")print(response)若访问成功，状态码为200，访问失败，则查询状态码，http和https的状态码是一样的http状态码可以采取伪
使用python+pytest+requests完成自动化接口测试（包括html报告的生成和日志记录以及层级的封装（包括调用Json文件））小明学编程｀ python自动化测试 pytest 自动化接口测试接口测试html报告生成 requests
一、API的选择我们进行接口测试需要API文档和系统，我们选择JSONPlaceholder免费API，因为它是一个非常适合进行接口测试、API测试和学习的工具。它免费、易于使用、无需认证，能够快速帮助开发者模拟常见的接口操作（增、删、改、查）。尤其对于我你们学习接口测试的初学开发者来说，它是一个理想的选择。注意：这个API网站当我们发送请求时他不会真的实现我们的请求，他只会会虚拟实现我们的请求，
JPA使用原生SQL实现分页查询、排序 weixin_45834569 sql hibernate 数据库
1.使用PageRequest.of静态方法创建一个PageRequest对象或者Pageable接口；PageablepageRequest=PageRequest.of();2.传入分页和排序的参数；intpage=10;intsize=5;PageRequestpageRequest=PageRequest.of(page,size,Sort.by("account"));3.使用@Quer
深入浅出: XML HttpRequest 入门指南
XMLHttpRequest（XHR）技术是构建动态、响应式网站的关键。这项技术使得网页能在不重新加载整个页面的情况下与服务器进行数据交互，极大地优化了用户的交互体验。定义XMLHttpRequestXMLHttpRequest是一种浏览器与服务器进行数据交换的API。尽管它的名字包含“XML”，XHR实际上支持多种数据格式，如JSON、HTML和纯文本等。初期，它主要用于处理XML格式数据，但随
jpa知识点 The_Best_Hacker Jpa 分页
1.分页publicstaticPageRequestof(intpage,intsize,Directiondirection,String...properties){returnof(page,size,Sort.by(direction,properties));}官方API说明:since2.0,useof(...)instead,2.0版本后,使用of(...)方法代替PageRequ
《Python实现简易DDoS压力测试脚本：原理、代码与使用警示》乐茵安全 python_study chrome 前端 python 网络安全
DDoS测试脚本声明：本文所涉及代码仅供学习使用，任何人利用此造成的一切后果与本人无关源码import requestsimport threading# 目标URLtarget_url = "http://47.121.xxx.xxx/"# 发送请求的函数def send_request(): while True: try: response = re
使用Flask框架实现前后端交互，直接打开html页面无法显示后端传入的数据问题Access to XMLHttpRequest at ‘http://127.0.0.1:5000/***‘ from 小刘同学 flask python 后端
出现CORS（跨源资源共享）问题是因为前端页面和Flask后端不在同一个源（即不同的端口或域名）。为了解决这个问题，可以在Flask中设置CORS头。你可以使用flask-cors这个库来简化配置。安装flask-cors首先，安装flask-cors：pipinstallflask-cors更新Flask应用然后，在你的Flask应用中引入并配置CORS：fromflaskimportFlask
[Java] 三种Java接收参数的方式的详细说明
Java应用接收到请求，获取请求参数。按形式分类，纯粹的独立的情况，就三类1、query传参形如GETapi/notice?id=1232、requestBody传参形如POSTapi/notice+requestBody3、路径变量传参形如GETapi/notice/{id}(注意:可以有组合使用的情况出现)1、query传参@GetMapping+@RequestParam接收参数假如后端接收
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分

Python 多线程抓取网页 牛人 use raw socket implement http request great

Python 多线程抓取网页

你可能感兴趣的:(request)

Python 多线程抓取网页牛人　use raw socket implement http request great