志学Python

爬虫 (七) 必须掌握的基础概念 (四)

点击上方蓝字关注我们

欢迎关注我的公众号，志学Python

服务端 HTTP HTTP 响应

HTTP响应也由四个部分组成，分别是： 状态行、消息报头、空行、响应正文

HTTP/1.1 200 OK
Server: Tengine
Connection: keep-alive
Date: Wed, 30 Nov 2016 07:58:21 GMT
Cache-Control: no-cache
Content-Type: text/html;charset=UTF-8
Keep-Alive: timeout=20
Vary: Accept-Encoding
Pragma: no-cache
X-NWS-LOG-UUID: bd27210a-24e5-4740-8f6c-25dbafa9c395
Content-Length: 180945

 
   常用的响应报头(了解) 
   理论上所有的响应头信息都应该是回应请求头的。但是服务端为了效率，安全，还有其他方面的考虑，会添加相对应的响应头信息，从上图可以看到： 
   1. Cache-Control：must-revalidate, no-cache, private。 
   这个值告诉客户端，服务端不希望客户端缓存资源，在下次请求资源时，必须要从新请求服务器，不能从缓存副本中获取资源。 
    
    Cache-Control是响应头中很重要的信息，当客户端请求头中包含Cache-Control:max-age=0请求，明确表示不会缓存服务器资源时,Cache-Control作为作为回应信息，通常会返回no-cache，意思就是说，"那就不缓存呗"。 
    当客户端在请求头中没有包含Cache-Control时，服务端往往会定,不同的资源不同的缓存策略，比如说oschina在缓存图片资源的策略就是Cache-Control：max-age=86400,这个意思是，从当前时间开始，在86400秒的时间内，客户端可以直接从缓存副本中读取资源，而不需要向服务器请求。 
    
   2. Connection：keep-alive 
   这个字段作为回应客户端的Connection：keep-alive，告诉客户端服务器的tcp连接也是一个长连接，客户端可以继续使用这个tcp连接发送http请求。 
   3. Content-Encoding:gzip 
   告诉客户端，服务端发送的资源是采用gzip编码的，客户端看到这个信息后，应该采用gzip对资源进行解码。 
   4. Content-Type：text/html;charset=UTF-8 
   告诉客户端，资源文件的类型，还有字符编码，客户端通过utf-8对资源进行解码，然后对资源进行html解析。通常我们会看到有些网站是乱码的，往往就是服务器端没有返回正确的编码。 
   5. Date：Sun, 21 Sep 2016 06:18:21 GMT 
   这个是服务端发送资源时的服务器时间，GMT是格林尼治所在地的标准时间。http协议中发送的时间都是GMT的，这主要是解决在互联网上，不同时区在相互请求资源的时候，时间混乱问题。 
   6. Expires:Sun, 1 Jan 2000 01:00:00 GMT 
   这个响应头也是跟缓存有关的，告诉客户端在这个时间前，可以直接访问缓存副本，很显然这个值会存在问题，因为客户端和服务器的时间不一定会都是相同的，如果时间不同就会导致问题。所以这个响应头是没有Cache-Control：max-age=*这个响应头准确的，因为max-age=date中的date是个相对时间，不仅更好理解，也更准确。 
   7. Pragma:no-cache 
   这个含义与Cache-Control等同。 
   8.Server：Tengine/1.4.6 
   这个是服务器和相对应的版本，只是告诉客户端服务器的信息。 
   9. Transfer-Encoding：chunked 
   这个响应头告诉客户端，服务器发送的资源的方式是分块发送的。一般分块发送的资源都是服务器动态生成的，在发送时还不知道发送资源的大小，所以采用分块发送，每一块都是独立的，独立的块都能标示自己的长度，最后一块是0长度的，当客户端读到这个0长度的块时，就可以确定资源已经传输完了。 
   10. Vary: Accept-Encoding 
   告诉缓存服务器，缓存压缩文件和非压缩文件两个版本，现在这个字段用处并不大，因为现在的浏览器都是支持压缩的。 
   响应状态码 
   响应状态代码有三位数字组成，第一个数字定义了响应的类别，且有五种可能取值。 
   常见状态码： 
    
    100~199：表示服务器成功接收部分请求，要求客户端继续提交其余请求才能完成整个处理过程。 
    200~299：表示服务器成功接收请求并已完成整个处理过程。常用200（OK 请求成功）。 
    300~399：为完成请求，客户需进一步细化请求。例如：请求的资源已经移动一个新地址、常用302（所请求的页面已经临时转移至新的url）、307和304（使用缓存资源）。 
    400~499：客户端的请求有错误，常用404（服务器无法找到被请求的页面）、403（服务器拒绝访问，权限不够）。 
    500~599：服务器端出现错误，常用500（请求未完成。服务器遇到不可预知的情况）。 
    
   Cookie 和 Session： 
   服务器和客户端的交互仅限于请求/响应过程，结束之后便断开，在下一次请求时，服务器会认为新的客户端。 
   为了维护他们之间的链接，让服务器知道这是前一个用户发送的请求，必须在一个地方保存客户端的信息。 
   Cookie：通过在 客户端 记录的信息确定用户的身份。 
   Session：通过在 服务器端 记录的信息确定用户的身份。 
     
   Fiddler界面 
   设置好后，本机HTTP通信都会经过127.0.0.1:8888代理，也就会被Fiddler拦截到。 
    
   请求 (Request) 部分详解 
    
     
     Headers —— 显示客户端发送到服务器的 HTTP 请求的 header，显示为一个分级视图，包含了 Web 客户端信息、Cookie、传输状态等。 
     Textview —— 显示 POST 请求的 body 部分为文本。 
     WebForms —— 显示请求的 GET 参数 和 POST body 内容。 
     HexView —— 用十六进制数据显示请求。 
     Auth —— 显示响应 header 中的 Proxy-Authorization(代理身份验证) 和 Authorization(授权) 信息. 
     Raw —— 将整个请求显示为纯文本。 
     JSON - 显示JSON格式文件。 
     XML —— 如果请求的 body 是 XML 格式，就是用分级的 XML 树来显示它。 
     
    
   响应 (Response) 部分详解 
    
     
     Transformer —— 显示响应的编码信息。 
     Headers —— 用分级视图显示响应的 header。 
     TextView —— 使用文本显示相应的 body。 
     ImageVies —— 如果请求是图片资源，显示响应的图片。 
     HexView —— 用十六进制数据显示响应。 
     WebView —— 响应在 Web 浏览器中的预览效果。 
     Auth —— 显示响应 header 中的 Proxy-Authorization(代理身份验证) 和 Authorization(授权) 信息。 
     Caching —— 显示此请求的缓存信息。 
     Privacy —— 显示此请求的私密 (P3P) 信息。 
     Raw —— 将整个响应显示为纯文本。 
     JSON - 显示JSON格式文件。 
     XML —— 如果响应的 body 是 XML 格式，就是用分级的 XML 树来显示它 。 
     
    
   02 
   HTTP 和 HTTPS 的 get 和 post 方法 
   rllib.parse.urlencode() 
   # IPython 中的测试结果
In [1]: import urllib.parse

In [2]: word = {"wd" : "传智播客"}

# 通过urllib.parse.urlencode()方法，将字典键值对按URL编码转换，从而能被web服务器接受。
In [3]: urllib..parse.urlencode(word)
Out[3]: "wd=%E4%BC%A0%E6%99%BA%E6%92%AD%E5%AE%A2"

# 通过urllib.parse.unquote()方法，把 URL编码字符串，转换回原先字符串。
In [4]: print (urllib.parse.unquote("wd=%E4%BC%A0%E6%99%BA%E6%92%AD%E5%AE%A2"))
wd=传智播客
 
   一般HTTP请求提交数据，需要编码成 URL编码格式，然后做为url的一部分，或者作为参数传到Request对象中。 
   Get方式 
   GET请求一般用于我们向服务器获取数据，比如说，我们用百度搜索传智播客：https://www.baidu.com/s?wd=传智播客 
   浏览器的url会跳转成如图所示: 
   https://www.baidu.com/s?wd=%E4%BC%A0%E6%99%BA%E6%92%AD%E5%AE%A2 
   在其中我们可以看到在请求部分里，http://www.baidu.com/s? 之后出现一个长长的字符串，其中就包含我们要查询的关键词传智播客，于是我们可以尝试用默认的Get方式来发送请求。 
   # urllib_get.py

import urllib.parse      #负责url编码处理
import urllib.request

url = "http://www.baidu.com/s"
word = {"wd":"传智播客"}
word = urllib.parse.urlencode(word) #转换成url编码格式（字符串）
newurl = url + "?" + word    # url首个分隔符就是 ?

headers={ "User-Agent": " 
   Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36 
   "}
request = urllib.request.Request(newurl, headers=headers)
response = urllib.request.urlopen(request)

print (response.read()) 
   批量爬取贴吧页面数据 
   首先我们创建一个python文件, tiebaSpider.py，我们要完成的是，输入一个百度贴吧的地址，比如： 
   百度贴吧LOL吧第一页：http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=0 
   第二页： http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=50 
   第三页： http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=100 
   发现规律了吧，贴吧中每个页面不同之处，就是url最后的pn的值，其余的都是一样的，我们可以抓住这个规律。 
   #!/usr/bin/env python
# -*- coding:utf-8 -*-

import urllib.request
import urllib.parse

def loadPage(url, filename):
    """
        作用：根据url发送请求，获取服务器响应文件
        url: 需要爬取的url地址
        filename : 处理的文件名
    """
    print ("正在下载 " + filename)
    headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36"}

    request = urllib.request.Request(url, headers = headers)
    return urllib.request.urlopen(request).read()

def writePage(html, filename):
    """
        作用：将html内容写入到本地
        html：服务器相应文件内容
    """
    print ("正在保存 " + filename)
    # 文件写入
    with open(filename, "wb+") as f:
        f.write(html)
    print ("-" * 30)

def tiebaSpider(url, beginPage, endPage):
    """
        作用：贴吧爬虫调度器，负责组合处理每个页面的url
        url : 贴吧url的前部分
        beginPage : 起始页
        endPage : 结束页
    """
    for page in range(beginPage, endPage + 1):
        pn = (page - 1) * 50
        filename = "第" + str(page) + "页.html"
        fullurl = url + "&pn=" + str(pn)
        #print fullurl
        html = loadPage(fullurl, filename)
        #print html
        writePage(html, filename)
        print ('谢谢使用')

if __name__ == "__main__":
    kw = input("请输入需要爬取的贴吧名:")
    beginPage = int(input("请输入起始页："))
    endPage = int(input("请输入结束页："))

    url = "http://tieba.baidu.com/f?"
    key = urllib.parse.urlencode({"kw": kw})
    fullurl = url + key
    tiebaSpider(fullurl, beginPage, endPage)
 
    
    其实很多网站都是这样的，同类网站下的html页面编号，分别对应网址后的网页序号，只要发现规律就可以批量爬取页面了。 
    
 
    
    
   POST方式： 
   上面我们说了Request请求对象的里有data参数，它就是用在POST里的，我们要传送的数据就是这个参数data，data是一个字典，里面要匹配键值对。 
   有道词典翻译网站： 
   输入测试数据，再通过使用Fiddler观察，其中有一条是POST请求，而向服务器发送的请求数据并不是在url里，那么我们可以试着模拟这个POST请求。 
   于是，我们可以尝试用POST方式发送请求。 
   #!/usr/bin/env python
# -*- coding:utf-8 -*-

import urllib.request
import urllib.parse

# 通过抓包的方式获取的url，并不是浏览器上显示的url
url = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=null"

# 完整的headers
headers = {
        "Accept" : "application/json, text/javascript, */*; q=0.01",
        "X-Requested-With" : "XMLHttpRequest",
        "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36",
        "Content-Type" : "application/x-www-form-urlencoded; charset=UTF-8",
    }

# 用户接口输入

# 发送到web服务器的表单数据
formdata = {
"type" : "AUTO",
"i" : "我爱你",
"doctype" : "json",
"xmlVersion" : "1.6",
"keyfrom" : "fanyi.web",
"ue" : "UTF-8",
"typoResult" : "true"
}

# 经过urlencode转码
data = urllib.parse.urlencode(formdata).encode('utf-8')

# 如果Request()方法里的data参数有值，那么这个请求就是POST
# 如果没有，就是Get
#request = urllib.request.Request(url, data = data, headers = headers)
response = urllib.request.urlopen(url,data)

html = response.read().decode('utf-8')

print(html)
#print (urllib.request.urlopen(req).read())
 
   发送POST请求时，需要特别注意headers的一些属性：
 
    
    Content-Length: 144：是指发送的表单数据长度为144，也就是字符个数是144个。 
    X-Requested-With: XMLHttpRequest ：表示Ajax异步请求。 
    Content-Type: application/x-www-form-urlencoded ：表示浏览器提交 Web 表单时使用，表单数据会按照 name1=value1&name2=value2 键值对形式进行编码。 
    
   获取AJAX加载的内容 
   有些网页内容使用AJAX加载，只要记得，AJAX一般返回的是JSON,直接对AJAX地址进行post或get，就返回JSON数据了。 
   "作为一名爬虫工程师，你最需要关注的，是数据的来源" 
   import urllib
import urllib2

# demo1

url = "https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action"

headers={"User-Agent": "Mozilla...."}

# 变动的是这两个参数，从start开始往后显示limit个
formdata = {
    'start':'0',
    'limit':'10'
}
data = urllib.urlencode(formdata)

request = urllib2.Request(url, data = data, headers = headers)
response = urllib2.urlopen(request)

print response.read()


# demo2

url = "https://movie.douban.com/j/chart/top_list?"
headers={"User-Agent": "Mozilla...."}

# 处理所有参数
formdata = {
    'type':'11',
    'interval_id':'100:90',
    'action':'',
    'start':'0',
    'limit':'10'
}
data = urllib.urlencode(formdata)

request = urllib2.Request(url, data = data, headers = headers)
response = urllib2.urlopen(request)

print response.read()
 
   问题：为什么有时候POST也能在URL内看到数据？ 
    
     
     GET方式是直接以链接形式访问，链接中包含了所有的参数， 
     服务器端用Request.QueryString获取变量的值。 
     如果包含了密码的话是一种不安全的选择，不过你可以直观地看到自己提交了什么内容。 
     POST则不会在网址上显示所有的参数，服务器端用Request.Form获取提交的数据， 
     在Form提交的时候。但是HTML代码里如果不指定 method 属性，则默认为GET请求， 
     Form中提交的数据将会附加在url之后，以?分开与url分开。 
     表单数据可以作为 URL 字段（method="get"）或者 
     HTTP POST （method="post"）的方式来发送。 
     比如在下面的HTML代码中，表单数据将因为 （method="get"） 而附加到 URL 上： 
     
    
   
    First name: 
    Last name: 
    

 
   利用cookie模拟登陆  
   #!/usr/bin/env python
# -*- coding:utf-8 -*-

import urllib.request

url = "http://www.renren.com/410043129/profile"

headers = {
    "Host" : "www.renren.com",
    "Connection" : "keep-alive",
    #"Upgrade-Insecure-Requests" : "1",
    "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36",
    "Accept" : "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
    "Referer" : "http://www.renren.com/SysHome.do",
    #"Accept-Encoding" : "gzip, deflate, sdch",#加上会得到压缩文件
    "Cookie" : "anonymid=ixrna3fysufnwv; _r01_=1; depovince=GW; jebe_key=f6fb270b-d06d-42e6-8b53-e67c3156aa7e%7Cc13c37f53bca9e1e7132d4b58ce00fa3%7C1484060607478%7C1%7C1484400895379; jebe_key=f6fb270b-d06d-42e6-8b53-e67c3156aa7e%7Cc13c37f53bca9e1e7132d4b58ce00fa3%7C1484060607478%7C1%7C1484400890914; JSESSIONID=abcX8s_OqSGsYeRg5vHMv; jebecookies=0c5f9b0d-03d8-4e6a-b7a9-3845d04a9870|||||; ick_login=8a429d6c-78b4-4e79-8fd5-33323cd9e2bc; _de=BF09EE3A28DED52E6B65F6A4705D973F1383380866D39FF5; p=0cedb18d0982741d12ffc9a0d93670e09; ap=327550029; first_login_flag=1; ln_uact=mr_mao_hacker@163.com; ln_hurl=http://hdn.xnimg.cn/photos/hdn521/20140529/1055/h_main_9A3Z_e0c300019f6a195a.jpg; t=56c0c522b5b068fdee708aeb1056ee819; societyguester=56c0c522b5b068fdee708aeb1056ee819; id=327550029; xnsid=5ea75bd6; loginfrom=syshome",
    "Accept-Language" : "zh-CN,zh;q=0.8,en;q=0.6",
}

request = urllib.request.Request(url, headers = headers)

response = urllib.request.urlopen(request)

print(response.read())
 
   处理HTTPS请求 SSL证书验证 
   现在随处可见 https 开头的网站，urllib2可以为 HTTPS 请求验证SSL证书，就像web浏览器一样，如果网站的SSL证书是经过CA认证的，则能够正常访问，如：https://www.baidu.com/等... 
   如果SSL证书验证不通过，或者操作系统不信任服务器的安全证书，比如浏览器在访问12306网站如：https://www.12306.cn/mormhweb/的时候，会警告用户证书不受信任。（据说 12306 网站证书是自己做的，没有通过CA认证） 
   #!/usr/bin/env python
# -*- coding:utf-8 -*-

import urllib.request
import ssl

# 忽略SSL安全认证
context = ssl._create_unverified_context()

url = "https://www.12306.cn/mormhweb/"
#url = "https://www.baidu.com/"

headers = {
    "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"
    }
request = urllib.request.Request(url, headers = headers)

# 添加到context参数里
response = urllib.request.urlopen(request, context = context)

print (response.read())
 
   关于CA
 
   CA(Certificate Authority)是数字证书认证中心的简称，是指发放、管理、废除数字证书的受信任的第三方机构，如北京数字认证股份有限公司、上海市数字证书认证中心有限公司等... 
   CA的作用是检查证书持有者身份的合法性，并签发证书，以防证书被伪造或篡改，以及对证书和密钥进行管理。 
   现实生活中可以用身份证来证明身份， 那么在网络世界里，数字证书就是身份证。和现实生活不同的是，并不是每个上网的用户都有数字证书的，往往只有当一个人需要证明自己的身份的时候才需要用到数字证书。 
   普通用户一般是不需要，因为网站并不关心是谁访问了网站，现在的网站只关心流量。但是反过来，网站就需要证明自己的身份了。 
   比如说现在钓鱼网站很多的，比如你想访问的是www.baidu.com，但其实你访问的是www.daibu.com”，所以在提交自己的隐私信息之前需要验证一下网站的身份，要求网站出示数字证书。 
   一般正常的网站都会主动出示自己的数字证书，来确保客户端和网站服务器之间的通信数据是加密安全的。 
   02 
   关注我

程序员缓解工作压力的小窍门（上中下三策）小康师兄杂七杂八工作劳累压力程序员放松
文章目录一、前文二、下策三、中策四、上策程序员的工作性质常常伴随着高度的精神集中和持续的创新压力。为了保持高效和创新，同时维护个人健康和工作热情，你会采用什么方法来缓解工作压力呢？快来和分享一下你的经验吧~一、前文首先，与其说是工作压力，不如说是工作劳累。如何缓解工作劳累的小窍门更为恰当。工作压力是有，但是不多。不管是多有挑战性的工作，只要我敢接，我就有信心。压力有，但是不多。更多的是动力。PS：
如何让ChatGPT生成Midjourney提示词 AI观星台人工智能 stable diffusion midjourney
关注文章下方公众号，即可免费获取AIGC最新学习资料导读：最近AI绘画非常的火，今天我们看ChatGPT如何生成Midjourney提示词，让AI教AI做事。本文字数：900，阅读时长大约：3分钟正如Midjourney的官方网站报道的那样，提供工作提示（Prompt）是一项碰运气的业务。从单个表情符号或单词都可以生成图像，但自然地结果可能并不完全符合用户的预期。一般来说，提示越长、越详细，结果就
ElasticSearch中的JVM性能调优 java领域 spring spring boot java 后端 mysql
ElasticSearch6.3.2中的JVM性能调优前一段时间被人问了个问题：在使用ES的过程中有没有做过什么JVM调优措施？在我搭建ES集群过程中，参照important-settings官方文档来的，并没有对JVM参数做过多的调整。但谈到JVM配置参数，少不了操作系统层面上的一些配置参数，比如pagecache和文件描述符的个数：(/etc/security/limits.conf)。另外E
驾培行业转战无人机飞手执照培训的优缺点分析及技术详解无人机技术圈无人机技术无人机
驾培行业转战无人机飞手执照培训的优缺点分析及技术详解如下：优点1.行业经验丰富：驾培行业拥有丰富的教学和运营经验，能够迅速适应无人机飞手培训的市场需求。熟悉学员招收、管理和市场推广等环节，有助于快速开展无人机飞手培训业务。2.场地与设施优势：驾培场地通常较为宽敞，且部分场地可改造为无人机飞行训练场地，节省场地租赁成本。可利用现有设施进行无人机组装、调试和维修等实操培训。3.人力资源利用：驾培行业的
RTK负载（4K可见光+高分热成像+超广角+激光测距）四光AI智能识别跟踪吊舱技术详解无人机技术圈无人机技术人工智能
无人机+光电吊舱的RTK负载（4K可见光+高分热成像+超广角+激光测距）AI智能识别跟踪吊舱技术是一种高度集成和先进的无人机观测系统。系统结合了无人机的飞行能力和光电吊舱的多功能传感器，通过集成RTK（实时动态差分定位）技术、4K可见光摄像头、高分热成像仪、超广角镜头和激光测距仪，以及AI智能识别跟踪算法，实现了对地面目标的精准观测、识别、跟踪和测量。以下是该技术的主要特点和功能详解：1.4K可见
无人机+光电吊舱：2K 30倍混合变焦光电吊舱技术详解无人机技术圈无人机技术无人机
随着无人机技术的不断发展，光电吊舱作为无人机的重要组成部分，也在不断地进行技术升级和改进。其中，2K30倍混合变焦光电吊舱技术是一种先进的技术，具有高度的应用价值和市场前景。一、光电吊舱的基本概念光电吊舱是一种安装在无人机下方的光电传感器设备，用于获取目标区域的图像和视频信息。它通常由多个传感器组成，包括可见光摄像机、红外热像仪、激光测距仪等，以实现对目标区域的全方位、多角度观测。二、2K30倍混
【最全基础知识1】机器视觉系统硬件组成之工业相机篇 51camera 工业相机工业相机机器视觉机器视觉硬件工业照相机 1024程序员节
工业相机是一种非常重要的机器视觉器件，它能够将被采集的图像信息通过电路转换成电信号，再通过模数转换器（ADC）将其转化为数字信号，最后以标准的视频信号输出。工业相机在机器视觉领域得到了广泛应用，包括质量控制、工业检测、医疗诊断、安全监控以及交通管理等诸多领域。目录机器视觉是通过光学装置和非接触传感器自动地接收和处理一个真实物体的图像，以获得所需信息或用于控制机器人运动的装置。简单来说，机器视觉是用
双光吊舱应用行业！！云卓SKYDROID 无人机云卓科技知识高科技双光吊舱
1.军事领域侦察与监视：双光吊舱能够全天候、全气候地提供高清图像数据，支持军事侦察和监视任务。通过可见光相机和红外热成像仪的结合，吊舱可以在白天和夜晚、晴天和恶劣天气条件下，为无人机等空中平台提供清晰的战场图像，帮助指挥人员做出准确的决策。目标识别与跟踪：吊舱内置的目标识别算法能够实现对远距离目标的追踪、摄像和监控，特别是在夜间或恶劣天气条件下，红外热成像技术能够发挥重要作用。远程打击：无人机搭载
vscode ESP32配置 WIP56 vscode ide 编辑器
一、自定义文件组件使用xxxx.cxxxx.h1:控制端工程目录创建组件文件夹》idf.py-Ccomponentscreate-componentUser_led2:定义组件如果引用指定外部依赖库，当前文件的cmakelists.txt添加REQUIRESdriveridf_component_register(SRCS"uesr_led.c"INCLUDE_DIRS"include""."#)
提示-bash: telnet: command not found的解决方法廖俊才 Linux CentOS
Linuxcentos运行telnet命令，出现下面的错误提示：[root@localhost~]#telnet127.0.0.1-bash:telnet:commandnotfound解决方法:安装telnet服务centos、ubuntu安装telnet命令的方法.yumlisttelnet*列出telnet相关的安装包yuminstalltelnet-server安装telnet服务yumi
初识redux 未命名小孩前端知识 react js typescript
Redux是一个用于管理JavaScript应用程序状态的可预测状态容器核心概念1.单一数据源整个应用的状态被存储在一个单一的对象树（store）中，这个对象树位于唯一的store里。创建store：conststore=createStore(reducer)2.状态是只读的唯一改变状态的方法是触发一个action，action是一个描述状态变化的纯对象。这保证了所有的状态变化都是可追踪的。一个
stm32电机驱动模块想要成为糕手。 stm32 单片机嵌入式硬件
电机驱动模块是智能车等电子设备中用于驱动电机运转的重要部件，它能将微控制器输出的控制信号转换为足够的功率和电流来驱动电机。以下为你详细介绍电机驱动模块的相关信息：常见类型1.L298N电机驱动模块特点高电压、大电流驱动能力：能够驱动高达46V的电机，持续输出电流可达2A，瞬间峰值电流能达到3A，适用于驱动各种中小型直流电机。双通道控制：可以同时控制两个直流电机的正反转和调速，也能用于驱动一个步进电
题解 | #数组中出现次数超过一半的数字#哈希最简单的解法 2301_79125642 java
前端要转测试大佬们，我是软件工程专业的，毕业后又培训了半年前端，现在公司要我转软件测试，初中级都可以，学着麻烦吗？大概得多长时间？转转java凉面一个数组基本有序应该采用哪种排序方法为什么要有线程池，线程太多会怎么样？？阻塞队列与普通队列的区别是？递归与非递归区别是什么？各自的优缺点？递归如何转为非递归题解|#数组中出现次数超过一半的数字#哈希最简单的解法classSolution{public:
stm32超声波模块想要成为糕手。 stm32 单片机嵌入式硬件
HC-SR04超声波测距模块资料1.HC-SR04简介HC-SR04是一种常见的超声波测距传感器，它通过超声波反射测量物体的距离，广泛应用于机器人避障、液位测量、物联网设备等领域。2.HC-SR04主要参数工作电压：5VDC工作电流：15mA测量范围：2cm-400cm测距精度：±3mm工作频率：40kHz探测角度：停止计数器计数8.通过计数器的值计算得出超声波测量距离距离公式：高电平持续时间·声
实现能源高效利用、优化能源结构、降低碳排放的智慧能源开源了 AI服务老曹能源开源人工智能大数据自动化云计算
简介AI视频监控平台,是一款功能强大且简单易用的实时算法视频监控系统。愿景在最底层打通各大芯片厂商相互间的壁垒，省去繁琐重复的适配流程，实现芯片、算法、应用的全流程组合，减少企业级应用约95%的开发成本，用户仅需在界面上简单操作，即可实现全视频的接入及布控。基础项目搭建地址参考：yihecode-server:本项目基于ai场景而开发，提供算法模型管理、摄像头管理、告警管理、数据统计等功能。系统根
如果 main 里面引入 axios ，然后引入 router ，而 router 里面也引入 axios，会不会重复清风细雨_林木木技术点 javascript 前端开发语言
技术点备忘如果main里面引入axios，然后引入router，而router里面也引入axios，会不会重复不会重复的。虽然你在main中引入了axios，并且在router中也引入了axios，但引入的axios是同一个模块。JavaScript的模块系统是基于单例模式的，意思是每个模块只会被加载一次，之后的引用都会指向同一个实例。具体来说：当你在main.js中引入axios，它会在模块加载
【JVM系列】谈一谈JVM调优 goyeer（工蚁） #JVM JAVA jvm
文章目录一、JVM调优概述二、JVM调优目标三、JVM定位瓶颈四、JVM内存调优1.调整堆内存大小2.调整新生代与老年代比例3.元空间（Metaspace）调优五、垃圾回收(GC)调优**1.选择合适的GC算法****2.优化GC参数**3.启用GC日志六、线程与锁优化七、调优后的验证八、注意事项一、JVM调优概述JVM调优是优化Java应用程序性能的关键环节，目的是通过调整JVM参数、优化垃圾回
数据结构--双向链表，双向循环链表 \＆会飞的鱼_ 数据结构链表
双向链表的头插，尾插，头删，尾删头文件：（head.h）#include#includetypedefchardatatype;typedefstructnode{datatypedata;structnode*next;structnode*prev;}*Doublelink;DoublelinkCreate_node();Doublelinkinsert(Doublelinkhead,data
Python：基于Scapy的深度包分析与网络攻击防御方案 Lethehong Python在手 bug溜走！码农的快乐你不懂～python scapy syn dns
嗨，我是Lethehong！立志在坚不欲说，成功在久不在速欢迎关注：点赞⬆️留言收藏欢迎使用：小智初学计算机网页AI感谢这位博主提出的问题，如果在以后的文章中，大家有其他相关的问题，也可以积极的在评论区评论出来，博主我会的，我会积极的收纳问题，并及时的做出回应！目录1.环境准备2.基础流量捕获3.深度协议解析4.异常流量检测逻辑4.1SYNFlood检测4.2DNS放大攻击检测5.高级分析技术5.
PHP 数据库操作：以 MySQL 为例来恩1003 PHP 从入门到精通数据库 php mysql
PHP学习资料PHP学习资料PHP学习资料在PHP应用开发中，与数据库进行交互是一项核心任务。MySQL作为一种广泛使用的关系型数据库管理系统，和PHP搭配默契，为开发者提供了强大的数据存储和管理能力。接下来，我们将详细讲解如何使用PHP进行MySQL数据库的连接、查询、插入、更新、删除等操作，以及数据库事务处理。一、数据库连接在PHP中，使用mysqli扩展（面向对象风格）或mysql扩展（过程
基于Java的自助多张图片合成拼接实战夜郎king java Java多图片合成 Java图片合成实战
目录前言一、图片合成需求描述二、图片合成设计与实现1、编程语言2、基础数据准备3、图片合成流程4、图片合成实现三、总结前言在当今数字化时代，图像处理技术在各个领域都发挥着至关重要的作用。从社交媒体到电子商务，从在线教育到虚拟现实，图像的展示和处理方式直接影响着用户体验和信息传递的效率。而图片合成拼接技术作为图像处理中的一个重要分支，其应用范围广泛，需求也日益增长。在实际开发中，图片合成拼接的需求多
DeepSeek对AI领域的变革性影响分析报告芝士AI吃鱼人工智能 DeepSeek OpenAI
一、引言近年来，人工智能（AI）技术加速演进，而中国开源大模型DeepSeek的崛起，标志着全球AI竞争进入新阶段。其凭借低成本、高性能、开源生态三大核心优势，迅速成为行业焦点。本报告从技术、产业、投资、就业及未来趋势等维度，全面解析DeepSeek对AI领域的深远影响，为集团战略布局提供参考。二、技术突破：算法效率与成本革命架构创新：MOE与MLA技术优化DeepSeek采用混合专家系统（MoE
DeepSeek对AI发展的范式革新与推动：研究报告芝士AI吃鱼 DeepSeek AI OpenAI LLM
DeepSeek对AI发展的范式革新与推动：研究报告一、技术范式的突破：从“算力堆砌”到“极致工程化”DeepSeek的成功标志着AI发展从依赖大规模算力投入向算法优化与工程效率的转变。其核心技术突破包括：低算力消耗的模型训练通过蒸馏训练策略、动态模型剪枝和稀疏训练，DeepSeek将训练成本降至OpenAI同类模型的1/10，同时保持性能可比甚至超越。例如，其训练成本仅558万美元，而OpenA
schtasks 定时关机 /ST 早于当前的时间，任务可能无法运行。 lilv66
在当天/st时间早于当前时间会报错，需加上日期/sd2010/01/02定时关机在命令行提示符下输入schtasks/create/tn"关机"/tr"shutdown-s-f"/sconce/sd2021/05/12/st00:30其中/tn任务名/tr运行的程序或者命令/sc计划类型once只运行一次；daily每天运行/sd计划执行日期，格式yyyy/mm/dd/st计划执行时间，格式hh:
使用opencv实现深度学习的图片与视频的超分辨率人工智能研究所人工智能之计算机视觉 opencv 深度学习视频超分辨率图片超分辨率
图片超分辨率什么是视频与图片的超分辨率，总结一下便是给一张分辨率比较低的图片，进行超分辨率的处理后，生成比较清晰的高分辨率的图片，上图图片完美解释了超分辨率的过程，由于不同的算法不同，处理的结果也不相同，本期我们介绍一下如何进行图片的超分辨率的处理。·EDSR模型图像超分辨率EDSR：EnhancedDeepResidualNetworksforSingleImageSuper-Resolutio
Python之json模块的序列化和反序列化如梦@_@ python基础
序列化：可以理解为压缩反序列化：可以理解为解压Python中序列化和反序列化其实就是一个正反两个过程。序列化就是将Python对象转化为json格式，因为Python对象只有Python语言能够识别，如果想把数据发给Java代码写的程序，那么就识别不了，所以就有一个中间的格式：json，Java中也是一样，就是将Java的数据类型转换成json格式。反序列化就是，Python接收数据的应该是Pyt
java使用递归获取geojson（json）数据迷茫的小猿 java java json
需要导入的包：org.json-chargebee-1.0.jarpackageparse;importjava.io.BufferedReader;importjava.io.BufferedWriter;importjava.io.FileReader;importjava.io.FileWriter;importjava.io.IOException;importjava.util.Arra
【NTN 卫星通信】聊聊低轨卫星通信一只好奇的猫2 NTN卫星通信 5G
NTN，非对地网络一般指卫星通信系统，最近两年开始比较热门的一个通讯系统。包括国外和国内都在推进研发中。国外的包括马斯克的StarLink、美国另外一个公司的OneWeb等都在推动低轨卫星网络的发展。国内最近2年也在研发中，一些大型的卫星通信研究所，大型的通信设备供应商等都在加紧研发，估计2-3年后会开始商用。NTN的几个大的形态1、从卫星轨道的高度看，可以分为高轨卫星，地球同步卫星和低轨卫星，高
深入解析HTTP与HTTPS：定义、架构、原理、应用场景及实战指南 CloudJourney http https 架构
前言在互联网技术飞速发展的今天，HTTP（HypertextTransferProtocol）和HTTPS（HypertextTransferProtocolSecure）已经成为Web通信的基础协议。无论是浏览网页、提交表单，还是进行数据交互，HTTP和HTTPS都扮演着至关重要的角色。本篇博文将深入解析HTTP和HTTPS的定义、架构、原理、应用场景、常见命令体系及实战场景，帮助读者全面了解并
python3安装mysql连接_Python3使用PyMySQL连接MySQL weixin_39814925
前提介绍：【功能实现】：1.登录本地MySQLServer创建数据库和表，Python3使用PyMySQL连接本地MySQL服务器，实现对数据库的表进行简单Insert操作。【软件配置】：1.MySQL服务器：MySQL8.0.202.Pymsql版本：Pymsql0.9.33.Python版本：Python34.NavicatforMySQL版本:Navicat115.PyCharm版本:PyC
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f

爬虫 (七) 必须掌握的基础概念 (四)

常用的响应报头(了解)

1. Cache-Control：must-revalidate, no-cache, private。

2. Connection：keep-alive

3. Content-Encoding:gzip

4. Content-Type：text/html;charset=UTF-8

5. Date：Sun, 21 Sep 2016 06:18:21 GMT

6. Expires:Sun, 1 Jan 2000 01:00:00 GMT

7. Pragma:no-cache

8.Server：Tengine/1.4.6

9. Transfer-Encoding：chunked

10. Vary: Accept-Encoding

响应状态码

常见状态码：

Cookie 和 Session：

Fiddler界面

请求 (Request) 部分详解

响应 (Response) 部分详解

rllib.parse.urlencode()

一般HTTP请求提交数据，需要编码成 URL编码格式，然后做为url的一部分，或者作为参数传到Request对象中。

Get方式

批量爬取贴吧页面数据

POST方式：

有道词典翻译网站：

发送POST请求时，需要特别注意headers的一些属性：

获取AJAX加载的内容

问题：为什么有时候POST也能在URL内看到数据？

利用cookie模拟登陆

处理HTTPS请求 SSL证书验证

关于CA

你可能感兴趣的:(爬虫 (七) 必须掌握的基础概念 (四))