七里香还是稻香

python反反爬虫系列一（文本混淆）

声明：仅供技术交流，请勿用于非法用途，如有其它非法用途造成损失，和本博客无关

1，图片伪装反爬虫

图片伪装：即你在浏览器上看到的文字或者数字，其实是一张图片，那么在网页源代码里面是找不到你想要的文字的，这种混淆方式并不会影响用户阅读，但是可以让爬虫程序无法获得“所见”的文字内容。这就是图片伪装反爬虫。

那么攻破的思路是：找不到文字，那么就拿图片呗，识别图片里面的文字或者数字即可。

网上很多人用的是光学字符识别技术（PyTesseract 库）来识别图中的文字，但光学字符识别技术也有一定的缺陷，在面对扭曲文字、生僻字和有复杂干扰信息的图片时，它就无法发挥作用了。而且要安装的东西还挺多（主要是不想装）

所以我使用的是百度的文字识别API，通用文字识别日调用量就有50000次，而且我发现识别率也是很高的。

下面以广西人才网为例子

第一步、分析页面

可以看到联系电话是一张图片，但是正常第一次看到页面都不觉得它是一张图片吧。查看网页源代码看到了图片的下载链接，那么只要拿到这张图片然后把它识别出来就行了。

第二步、编写代码

from parsel import Selector
import time
import requests
import base64
import urllib
import os

# 调用百度API获取联系电话号码
def ocr_get_phone(ak,sk,img_path):
    host = f'https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id={ak}&client_secret={sk}'
    response = requests.get(host)
    access_token=response.json()['access_token'] #获取access_token
    api_url='https://aip.baidubce.com/rest/2.0/ocr/v1/general_basic' + '?access_token=' + access_token #通用文字识别
    headers={'Content-Type':'application/x-www-form-urlencoded'}
    f=open(img_path,'rb')
    img=base64.b64encode(f.read())
    f.close()
    data={'image':img}
    response=requests.post(api_url,data=data,headers=headers)
    result=response.json()['words_result'][0]['words']
    os.remove(img_path)
    return result
#获取信息
def get_data(ak,sk):
    url='https://www.gxrc.com/jobDetail/aac3654c1149499b950a1d70fb13e285'
    headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}
    r=requests.get(url,headers=headers)
    response=Selector(r.text)
    p_list=response.xpath('//*[text()="联系方式"]/following-sibling::div[1]/p')
    info=['联系人','联系电话','电子邮箱','联系地址']
    massage=[]
    for p in p_list:
        temp=p.xpath('./label/text()').get()
        if temp is not None:
            massage.append(temp)
        else:
            img_url=urllib.parse.urljoin(url,p.xpath('.//img/@src').get())
            img_path=str(time.time())+'.jpg'
            urllib.request.urlretrieve(img_url,img_path)
            phone=ocr_get_phone(ak,sk,img_path)
            massage.append(phone)
    return dict(zip(info,massage))

if __name__ == '__main__':
    ak='XXX' #百度API创建应用即可拿到
    sk='XXX' #百度API创建应用即可拿到
    data=get_data(ak,sk)
    for key,value in data.items():
        print(key+'：'+value,end='\n')

可以看到输出如下：

联系人：黄小姐
联系电话：0771-3925354
电子邮箱：[email protected]
联系地址：南宁市高新区新苑路17号华成都市广场华城大厦A座1505-1510

通过比对，发现完全正确！

2，css偏移反爬虫

css偏移，即通过修改css样式，打乱文字的排版使得网页源代码中的信息与在浏览器上看到的信息不一致，从而达到反爬虫的效果。

下面以去哪儿网为例子

第一步、分析页面

通过分析、对比，发现了其隐藏的规律：显示在网页上的数字只有标签，然后其通过下面的标签来更改标签上的数字；第一个标签的style属性已经说明了其宽度即图中的style="width:48px;left:-48px"，平均一个数字的宽度标签也已说明即图中的style="width: 16px;"，而下面的标签上的数字是通过其设定的style属性来错位更改标签上的数字。

听起来好像有那么一点绕，不过没关系，下面通过一张图来补充说明一下

第二步、编写代码

ps：爬这个还是有点难度的其实，因为它不只这一个css偏移，还有一些其他的，比如说：

如果你直接用requests发请求获取源代码，返回的却不是页面的信息，而是有一大部分的js代码；

然后呢，用selenium来打开网页会发现打开之后找不到航班信息，这个其实是检测到selenium；

存在心跳机制

限于本人当前的知识能力范畴，我选择了selenium来爬，具体破解请看代码及注释

from selenium import webdriver from selenium.webdriver.common.action_chains import ActionChains from selenium.webdriver.common.keys import Keys from parsel import Selector import time from pandas import DataFrame import requests def get_df(start_city,arrive_city): options=webdriver.ChromeOptions() options.add_experimental_option("excludeSwitches", ["enable-automation"]) #消除正在受自动化测试的警告 options.add_experimental_option('useAutomationExtension', False) #消除正在受自动化测试的警告 script = ''' Object.defineProperty(navigator, 'webdriver', { get: () => undefined }) ''' driver=webdriver.Chrome(options=options) driver.maximize_window() # 执行script语句破解selenium的反爬虫 driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {"source": script}) #将windows.navigator.webdriver设置为undefined url='https://flight.qunar.com/site/oneway_list.htm?' params={ 'searchDepartureAirport': start_city, 'searchArrivalAirport': arrive_city, 'searchDepartureTime': time.strftime('%Y-%m-%d',time.gmtime(time.time())), #获取当前日期时间 'searchArrivalTime': time.strftime('%Y-%m-%d',time.gmtime(time.time()+(86400*5))) #加多五天 } r=requests.get(url,params=params) driver.get(r.url) #为了拿到加了参数的url链接 time.sleep(2) driver.refresh() #刷新是确保页面正常 time.sleep(2) names=[] # 航班名称 citys=[] # 城市-城市 dep_times=[] # 起飞时间 arr_times=[] # 到达时间 prices=[] # 价格 while True: response=Selector(driver.page_source) div_list=response.xpath('//div[@class="b-airfly"]') for div in div_list: name=div.xpath('.//div[@class="air"]/span/text()').get() dep_time=div.xpath('.//div[@class="sep-lf"]/h2/text()').get() arr_time=div.xpath('.//div[@class="sep-rt"]/h2/text()').get() rels=div.xpath('.//em[@class="rel"]') # 下面是处理价格的css反爬，逻辑跟上面图片说明的差不多 for rel in rels: nums=rel.xpath('.//text()').getall() total=int(re.findall('left:-(\d+)px',rel.xpath('./b[1]/@style').get())[0]) average=int(re.findall('width: (\d+)px',rel.xpath('.//i[1]/@style').get())[0]) result=nums[:total//average] pxs=[int(re.findall('left:-(\d+)px',i)[0])//average for i in rel.xpath('.//b/@style').getall()[1:]] for key,value in dict(zip(pxs,nums[total//average:])).items(): result[-key]=value price=''.join(result) names.append(name) dep_times.append(dep_time) arr_times.append(arr_time) prices.append(price) citys.append(f'{start_city}-{arrive_city}') next_page=driver.find_elements_by_xpath('//a[text()="下一页"]') if next_page != []: ActionChains(driver).send_keys(Keys.END).perform() next_page[0].click() time.sleep(2) else: break # driver.quit() # 将爬取的数据放在Dataframe中，方便后续保存 columns=['航空公司','地点','起飞时间','着陆时间','价格'] df=DataFrame([names,citys,dep_times,arr_times,prices]).T df.columns=columns return df if __name__ == '__main__': df=get_df(start_city='北京',arrive_city='上海')

输出df如下：

对比如下：

可以发现，完全正确！

3，自定义字体反爬虫

自定义字体反爬虫，即目标站点自己定义的一中字体，通常以woff、svg、ttf、eot格式的文件嵌套在网页端上，通过特定的编码与字体一一映射。用户不需下载该自定义字体，字体就能在页面上显示出来，这种混淆方式也不会影响用户阅读，只是在网页源代码中出现乱码的情况，进而达到反爬虫的效果。

下面以大众点评为例子

第一步、分析页面

不单单是商店的基本信息的字体这样，包括菜名、用户评论等等，都是这样的情况。单独复制一个字符运行看看：

其实，这就是一个特殊的字体编码，浏览器根据这个编码从自定义字体中找到与之匹配的真正的字体，然后渲染在页面上的。

所以我们的目标是找到这个自定义字体的文件，找出字体的映射关系，然后就可以解析出网页源代码中的特殊字体。

这中字体通常是在一个css的文件当中，打开浏览器的检查，在Network下的CSS中可以找到这个css请求，没有的话，刷新页面就加载出来了

可以看到num、address、shopdesc这样的关键字，这不就是对应特殊字符的class属性吗？ok，找到自定义字体，复制链接在浏览器中打开，就能直接下载字体，直接下载后面的woff文件即可。

那么，下载下来怎么打开这个文件呢，这里推荐FontLab VI，百度一下就能找到资源，30天试用期，不过好像有破解版的。

安装之后，打开下载的字体文件，可以看到：

可以看到，这些字体上面对应着一个编码，其实这正是网页上的特殊字符，刚刚运行的那个\ue765就是unie765所对应的字体，即数字8

拿到字体之后，接下来就是找到与真正字体一一对应的特殊编码了，那么怎么用python来操作呢，这里用到了一个第三方库fontTools，直接pip install fontTools即可，它可以读取并操作woff文件。但是对这个库不怎么熟悉，这里只用到了它的转xml的函数，最后用标准库xml来操作即可。

在此之前，需要先把文件里面的所有字按顺序记录下来，并保存在一个列表中。可是，一看有603个字，这得敲到猴年马月呀。所以，我这里使用一种比较简单的做法：也是用百度的文字识别API，这次要用高精度版点击跳转，亲测识别率99%，准确率99%

首先你的FontLab VI要设置一下，将编码、和多余的边框给去掉，不然会干扰到识别

第二步、编写代码

手动截图保存，共截取6张图片，用以下代码去识别字体：

import requests import base64 def ocr_get_fonts(ak,sk,img_paths): fonts=['',' '] # 前两个空的字体先定义好 host = f'https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id={ak}&client_secret={sk}' response = requests.get(host) access_token=response.json()['access_token'] api_url='https://aip.baidubce.com/rest/2.0/ocr/v1/accurate_basic' + '?access_token=' + access_token headers={'Content-Type':'application/x-www-form-urlencoded'} for j,img_path in enumerate(img_paths): f=open(img_path,'rb') img=base64.b64encode(f.read()) f.close() data={'image':img} response=requests.post(api_url,data=data,headers=headers) result=response.json() words='' for eachone in result['words_result']: words+=eachone['words'] for i in words: fonts.append(i) print(f'第{j+1}张识别了{len(words)}个字') #为了查看哪一张出现了识别错误，然后对照修正 return fonts if __name__ == '__main__': ak='XXX' #百度API创建应用即可拿到 sk='XXX' #百度API创建应用即可拿到 img_paths=list(map(lambda x:'./fonts_jpg/'+x,os.listdir('./fonts_jpg')))#我这里截的图放在了./fonts_jpg目录下 fonts=ocr_get_fonts(ak,sk,img_paths) #拿到所有识别的字体

运行输出如下：

第1张识别了109个字第2张识别了112个字第3张识别了112个字第4张识别了112个字第5张识别了112个字第6张识别了43个字

明显看出第一张图识别少了一个字，然后通过比对，发现缺了个“一”字，然后对得到的字体再做处理，如下：

for i,num in enumerate(fonts): if num == '容': # 意思是找到“容”字，然后在其前面加上个“一”字 index1=i fonts.insert(index1,'一')

那么，现在拿到了所有字体，接下来就是找到对应字体的笔画轮廓图，因为我发现：

字体的编码不同woff文件是不一样的，不能与字体相对应

字体的轮廓图不同文件也是一样的，因此拿这个来当键值就行

那么，怎么拿到字体的轮廓图呢，那就用到xml了，具体处理如下：

try: import xml.etree.cElementTree as et #速度更快 except: import xml.etree.ElementTree as et root = et.parse('num.xml') names=root.findall('./GlyphOrder/GlyphID') #按顺序拿到所有编码 xyons=[] # 存储轮廓数据即x、y、on的值 for name in names: bihua=[] temp=name.attrib['name'] pts=root.findall(f'./glyf/TTGlyph[@name="{temp}"]/contour/pt') for pt in pts: bihua.append(pt.attrib) xyons.append(bihua)

拿到字体和字体的轮廓数据之后呢，要保存起来，方便下次直接使用，不用重新截图识别字体。

def save_font(fonts,xyons): data=dict(zip(fonts,xyons)) # 注意这里，字体作为key，轮廓作为value，因为轮廓是列表不能当键值 json_str = json.dumps(data, indent=4,ensure_ascii=False) with open('fonts.json', 'w', encoding='utf-8') as f: f.write(json_str)

那么，接下来就是重头戏爬取数据了，但是呢，可以发现的是有些字需要去比对编码获取真正的字体，而有些又不用。所以我的思路是：
在一个xpath语句下，拿到：

此语句下的所有class属性值

class属性值对应的text值

此语句下的所有的text值

然后有class值节点的text值去对应class值的文件中找到其对应的text值的轮廓数据，再比对我们保存的字体数据，找到真正的字体返回来，最后拼接所有text值，得到一句完整的和浏览器上看到的话。具体请看代码及代码注释。

try: import xml.etree.cElementTree as et #速度更快 except: import xml.etree.ElementTree as et import requests from parsel import Selector from fontTools.ttLib import TTFont import urllib import os import re class Perfect(): ''' 这个类的主要功能是先加载字体文件，通过传入进来的xpath语句进行解析，返回得到的真正字体的字符串列表。即：所有处理对应轮廓数据与字体的全部逻辑，调用其xpath函数即可 ''' def __init__(self): self.fonts,self.xyons=self.load_font def check_down_font(self,path='./fonts_file/'): if not os.path.exists(path): os.makedirs(path) url='http://www.dianping.com/shop/112223644' headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'} r=requests.get(url,headers=headers) response=Selector(r.text) fonts_link='http:'+response.xpath('//link[contains(@href,"svgtextcss")]/@href').get() r=requests.get(fonts_link,headers=headers) now_filenames=[i + '.woff' for i in re.findall('@font-face{font-family: "PingFangSC-Regular-(\w+)"',r.text)] now_font_urls=['https:' + i for i in re.findall('format\("embedded-opentype"\),url\("(.*?)"\)',r.text)] if not os.path.exists('check.json'): json_str = json.dumps(dict(zip(now_filenames,now_font_urls)), indent=4,ensure_ascii=False) with open('check.json', 'w', encoding='utf-8') as f: f.write(json_str) with open('check.json','r',encoding='utf-8') as f: check_json=json.load(f) filenames=list(check_json.keys()) font_urls=list(check_json.values()) if (filenames==now_filenames) and (font_urls==now_font_urls): print('字体没有被修改，不需要重新下载！') if not os.path.exists(path + 'num.xml'): num = TTFont(path + 'num.woff') num.saveXML(path + 'num.xml') if not os.path.exists(path + 'shopdesc.xml'): shopdesc = TTFont(path + 'shopdesc.woff') shopdesc.saveXML(path + 'shopdesc.xml') if not os.path.exists(path + 'review.xml'): review = TTFont(path + 'review.woff') review.saveXML(path + 'review.xml') if not os.path.exists(path + 'address.xml'): address = TTFont(path + 'address.woff') address.saveXML(path + 'address.xml') if not os.path.exists(path + 'dishname.xml'): dishname = TTFont(path + 'dishname.woff') dishname.saveXML(path + 'dishname.xml') if not os.path.exists(path + 'hours.xml'): hours = TTFont(path + 'hours.woff') hours.saveXML(path + 'hours.xml') else: print('字体已变更，正在下载最新字体！') json_str = json.dumps(dict(zip(now_filenames,now_font_urls)), indent=4,ensure_ascii=False) with open('check.json', 'w', encoding='utf-8') as f: f.write(json_str) for filename,font_url in zip(now_filenames,now_font_urls): urllib.request.urlretrieve(font_url,path+filename) time.sleep(2) num = TTFont(path + 'num.woff') num.saveXML(path + 'num.xml') shopdesc = TTFont(path + 'shopdesc.woff') shopdesc.saveXML(path + 'shopdesc.xml') review = TTFont(path + 'review.woff') review.saveXML(path + 'review.xml') address = TTFont(path + 'address.woff') address.saveXML(path + 'address.xml') dishname = TTFont(path + 'dishname.woff') dishname.saveXML(path + 'dishname.xml') hours = TTFont(path + 'hours.woff') hours.saveXML(path + 'hours.xml') @property def load_font(self): with open('fonts.json','r',encoding='utf-8') as f: data=json.load(f) xyons=list(data.values()) fonts=list(data.keys()) return fonts,xyons def get_word(self,i,class_name,path='./fonts_file/'): uni_text=ascii(i).replace('\\u','uni').replace("'",'').replace("'",'') #将字符编码转为字符串 # 根据传进来的class属性值打开对应xml文件 root = et.parse(path + f'{class_name}.xml') bihua=[] # 根据特殊编码找到对应字体轮廓数据 pts=root.findall(f'./glyf/TTGlyph[@name="{uni_text}"]/contour/pt') for pt in pts: bihua.append(pt.attrib) # 再根据得到的轮廓数据比对找到真正的字 for j,true_text in zip(self.xyons,self.fonts): if j == bihua: break return true_text def get_data(self,class_names,uni_texts,total_texts): result=[] k=0 # 充当当前xpath语句下的所有的text值的游标 i=0 # 充当当前xpath语句下的所有的有class属性值的text值的游标 while True: if uni_texts[i] == total_texts[k]: result.append(self.get_word(uni_texts[i],class_names[i])) if i<len(uni_texts)-1: i+=1 if len(result) != len(total_texts): k+=1 else: break else: result.append(total_texts[k]) if len(result) == len(total_texts): break else: k+=1 return ''.join(result) def process_total_texts(self,total_texts): output=[] for i in total_texts: temp=i.strip() # 若含有空格字符则去掉 if '\xa0' in temp: temp=temp.replace('\xa0','') if '\xa0' in temp: temp=temp.replace('\xa0','') if temp != '': output.append(temp) return output def xpath(self,ress): # 传进来的ress是一个elements列表 output=[] for res in ress: class_names=res.xpath('.//*[(@class="num") or (@class="shopdesc") or (@class="review") or (@class="address") or (@class="dishname") or (@class="hours")]/@class').getall() uni_texts=res.xpath('.//*[(@class="num") or (@class="shopdesc") or (@class="review") or (@class="address") or (@class="dishname") or (@class="hours")]/text()').getall() total_texts=res.xpath('.//text()').getall() total_texts=self.process_total_texts(total_texts) data=self.get_data(class_names,uni_texts,total_texts) output.append(data) return output if __name__ == '__main__': url='http://www.dianping.com/shop/112223644' headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'} r=requests.get(url,headers=headers) response=Selector(r.text) perfect=Perfect() perfect.check_down_font() shop_name=response.xpath('//h1/text()').get() shop_info=perfect.xpath(response.xpath('//div[@class="brief-info"]'))[0] shop_address=perfect.xpath(response.xpath('//span[@id="address"]'))[0] shop_phone=perfect.xpath(response.xpath('//p[@class="expand-info tel"]'))[0] shop_open=perfect.xpath(response.xpath('//p[@class="info info-indent"]'))[0] user_names=response.xpath('//a[@class="name"]/text()').getall() user_comments=perfect.xpath(response.xpath('//p[@class="desc"]')) comments=dict(zip(user_names,user_comments)) item={'商店名称':shop_name,'商店信息':shop_info,'商店地址':shop_address,'商店电话':shop_phone,'营业时间':shop_open,'用户评论':comments} item

输出如下：

通过比对浏览器上的信息，完全一致！

参考链接
https://www.ituring.com.cn/book/tupubarticle/28992

写在最后

因为这本《python3反爬虫原理与绕过实战》书，让我知道了以前没有遇到过的反爬虫策略，以及反反爬虫策略。然而发现自己好像在爬虫这方面其实还有很多的不足的，很多知识点是需要进一步学习与攻克的，因为爬虫涉及到前端、后端等等很多发面的知识，故这条路还很长呀，要慢慢来才行哦。前路漫漫，不过未来可期！加油吧！

后面有时间我会继续出反爬虫系列的，敬请期待~

大数据生态的Apache RocketMQ5.0 Apache RocketMQ java 开发语言
本文作者：李伟-ApacheRocketMQCommitter，RocketMQPython客户端项目Owner，ApacheDorisContributor，腾讯云消息队列资深开发工程师，著有《RocketMQ分布式消息中间件(核心原理与最佳实践)》。一、RocketMqueue101RocketMQ拥有诸多出色的特性：比如多副本机制，RocketMQ支持存储层的多副本Dledger，它是基于R
python+playwright自动化测试(八)：iframe切换、多窗口切换觅远自动化测试 python 爬虫开发语言 python 自动化
目录浏览器上下文context对象常用操作设置默认导航时间iframe切换窗口切换浏览器上下文context对象常用操作context.pages:获取context所有page对象context.new_page():生成一个新的page对象context.add_cookies()：将cookie添加到此浏览器上下文所在的所有页面中。context.clear_cookies()：清除cont
python+playwright自动化测试(七)：同步与异步觅远自动化测试 python python 开发语言自动化
目录同步(Sync)模式异步(Async)模式同步(Sync)模式在同步模式下，代码按照传统的线性模式从上到下的顺序执行，每个操作都会阻塞直到完成后才去执行下面的代码。同步时导入fromplaywright.sync_apiimportsync_playwright，使用withsync_playwright()创建上下文操作对象。fromplaywright.sync_apiimportsync
PEP 8：Python 编程的编码风格指南软件架构师笔记 python python java mysql
PEP8：Python编程的编码风格指南引言编码风格是一种重要的规范，它不仅可以提高代码的可读性和可维护性，还能够促进团队合作。对于Python这门语言而言，PEP8（PythonEnhancementProposal8）就是一份权威的编码风格指南。本文将详细介绍PEP8的定义、作用以及为什么它是必要的。什么是PEP8？PEP8是由Python社区制定的一份关于Python代码编写风格的指南。PE
python的with语句 lipicoder python 开发语言
在Python2.5版本之后，出现了一个with的语句写法：withopen('openfile',encoding="utf-8")as_file:read_data=_file.read()在Python官方文档，这样描述:Thewithstatementisusedtowraptheexecutionofablockwithmethodsdefinedbyacontextmanager(se
python with的用法 weixin_33935777 python
原文链接With语句是什么?有一些任务，可能事先需要设置，事后做清理工作。对于这种场景，Python的with语句提供了一种非常方便的处理方式。一个很好的例子是文件处理，你需要获取一个文件句柄，从文件中读取数据，然后关闭文件句柄。如果不用with语句，代码如下：file=open("/tmp/foo.txt")data=file.read()file.close()这里有两个问题:一是可能忘记关闭
java爬虫jsoup_Java爬虫框架Jsoup学习记录 weixin_33638349
Jsoup的作用当你想获得某网页的内容，可以使用此框架做个爬虫程序，爬某图片网站的图片(先获得图片地址，之后再借助其他工具下载图片)或者是小说网站的小说内容我使用Jsoup写出的一款小说下载器，小说下载器Jsoup导入1.使用gradle导入compile'org.jsoup:jsoup:1.11.1'2.第三方包导入Jsoup使用1.获得Document本地html文件或者使用javaIO流，则
深入理解 Python 之 with 语句 Phoenixtree_DongZhao 随笔 python python
浅谈Python的with语句深入理解Python王生辉,李骅宸发布:2011-12-02引言with语句是从Python2.5开始引入的一种与异常处理相关的功能（2.5版本中要通过fromfutureimportwith_statement导入后才可以使用），从2.6版本开始缺省可用（参考What’snewinPython2.6?中with语句相关部分介绍）。with语句适用于对资源进行访问的场
Python with语句 Stephen102 Python python
8##With语句是什么？Python’swithstatementprovidesaveryconvenientwayofdealingwiththesituationwhereyouhavetodoasetupandteardowntomakesomethinghappen.Averygoodexampleforthisisthesituationwhereyouwanttogainahand
Python中的 with语句奶糖芯 python python 开发语言后端
Python中的with语句在开发中有一些任务，有可能是需要事情进行设置，然后在事后又需要进行清理工作；对于这种场景，with语句就提供了很方便的处理方式；最常见就是对于文件的操作；不使用with语句这样写①有可能忘记关闭文件句柄，②读取文件出现异常处理也没有进行任何的处理；file=open("a.txt")data=file.read()file.close()改为有处理版本（这样代码看起来有
Python框架区别是什么？比较常用的框架有哪些？其实还好啦 python 编程语言
前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。众所周知，Python开发框架大大减少了开发者不必要的重复劳动，提高了项目开发效率的同时，还使得创建的程序更加稳定。目前比较主流的Python框架都有哪些呢？一般大家用的比较多的是Django、Flask、Scrapy、Diesel、Cubes、Pulsar和Tornado。那
python：随机产生n个数小洁癖Jieie python pytho
列表中有随机产生的10个数importrandomL=[random.randint(0,10)for_inrange(10)]random.randint(0,n)表示随机数的范围为：0到nfor_inrange(n)表示产生n随机数
python爬虫之bs4解析和xpath解析 A.way30 python 爬虫开发语言 xpath
bs4解析原理:1.实例化一个BeautifulSoup对象，并且将页面源码数据加载到该对象中2.通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取如何实例化BeautifulSoup对象:frombs4importBeautifulSoupBeautifulSoup(参数一,参数二)参数一为文件描述符，参数二为解析器，一般为’lxml’一对象的实例化:1.将本地的h
Java简单爬虫 jsoup工具包 ax阿楠 java 爬虫开发语言前端
首先导入一个爬虫的工具包:jsoup-1.13.1.jar//测试爬虫的网址(爬取王者荣耀英雄的网址)staticStringurl="https://pvp.qq.com/web201605/herolist.shtml";//文件存放的地址staticStringpath="D://爬虫测试/";publicstaticvoidgetImgs(Stringurl){//加载对应网址上的Html
探索OpenAI Python SDK: 智能编程新里程周澄诗Flourishing
探索OpenAIPythonSDK:智能编程新里程openai-pythonTheofficialPythonlibraryfortheOpenAIAPI项目地址:https://gitcode.com/gh_mirrors/op/openai-python如果你对人工智能和自然语言处理有浓厚的兴趣，那么这个项目将为你开启新的探索之门——。这是一个由OpenAI开发的Python库，用于与他们的A
深入分析Python装饰器（很干！建议先收藏静下心来理解！） DEV.IN. 摸一遍Python的脊椎开发语言 Python
Python的装饰器是一种功能强大且灵活的特性，允许开发者通过修改函数或方法的行为而不改变它们的代码。装饰器本质上是一个函数，它接受一个函数作为参数，并返回一个新的函数。装饰器广泛应用于日志记录、访问控制、性能监测等场景，深入理解它对于写出高效、简洁的代码非常重要。1.装饰器的基本概念在Python中，函数是“第一类对象”（first-classobjects），这意味着它们可以作为参数传递给另一
Upgini: 智能数据搜索与丰富化引擎 - 提升机器学习和人工智能模型准确性的利器 2401_87189860 人工智能机器学习
Upgini:智能数据搜索与丰富化引擎在当今数据驱动的世界中,机器学习和人工智能模型的准确性至关重要。然而,提高模型准确性往往是一项艰巨的任务,需要大量的特征工程和数据处理工作。幸运的是,Upgini这一创新的Python库为数据科学家和机器学习工程师提供了一个强大的解决方案。Upgini的核心功能Upgini是一个智能数据搜索和丰富化引擎,专为机器学习和AI设计。它的主要功能包括:自动特征发现与
python web开发框架对比,python的web框架有哪些 2401_84503581 人工智能
大家好，小编为大家解答pythonweb框架主要的三大基本框架的问题。很多人还不知道pythonweb开发框架对比，现在让我们一起来看看吧！本篇文章给大家谈谈pythonweb开发框架有哪些，以及pythonweb前端开发框架，希望对各位有所帮助，不要忘了收藏本站喔。1.Django框架官网：https://github.com/django/django.git优点：是一个高层次PythonWe
Python网页爬虫爬取豆瓣Top250电影数据——Xpath数据解析_爬虫电影(1) 2401_84009626 程序员 python 爬虫开发语言
2.3.2通过xpath方法按层级查找数据定位好之后，我们就可以用etree对象的xpath方法解析xpath表达式，查找到相应的数据。定位到电影的标题所在标签，右键复制它的xpath：//\*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[1]/a/span[1]中文标题就在a标签下的第1个span标签中span[1]，然后我们通过/text
Python网页爬虫爬取豆瓣Top250电影数据——Xpath数据解析_爬虫电影 2401_84009698 程序员 python 爬虫开发语言
#获取中文电影标题title_cn=data.xpath('//\*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[1]/a/span[1]/text()')而在a标签下的第二个span标签中包含的文本内容是电影的英文标题，所以我们只需要将span[1]改成span[2]就可以获取到电影的英文标题。#获取英文电影标题title_en=data.
利用 Python 编程随机生成 n 个 1~9 之间的整数，然后统计生成的各个随机整数的个数。 hnjzsyjyj Python程序设计 Python 列表
【题目描述】利用Python编程随机生成n个1~9之间的整数，然后统计生成的各个随机整数的个数。【算法分析】●输入的n必须≥10，这是因为代码中数组cnt[]的下标会到9。若n小于10，将不会有下标9，就会产生IndexError。●利用“桶排序”中“桶”的思想进行统计。【算法代码】fromrandomimport*n=eval(input("Enteranintegerwhich≥10:"))c
java爬虫工具Jsoup学习 Future_yzx java 爬虫学习
目录前言一、基本使用二、爬取豆瓣电影的案例三、Jsoup能做什么？四、Jsoup相关概念五、Jsoup获取文档六、定位选择元素七、获取数据八、具体案例前言JSoup是一个用于处理HTML的Java库，它提供了一个非常方便类似于使用DOM，CSS和jquery的方法的API来提取和操作数据。一、基本使用org.jsoupjsoup1.13.1二、爬取豆瓣电影的案例publicclassDouBan{
《机器学习实战》——在python中使用Matplotlib注解绘制树形图哆啦AA梦 python 机器学习 python 机器学习
#encoding=utf-8#使用文本注解绘制树形图importmatplotlib.pyplotaspltdecisionNode=dict(boxstyle="sawtooth",fc="0.8")leafNode=dict(boxstyle="round4",fc="0.8")arrow_args=dict(arrowstyle="<-")#上面三行代码定义文本框和箭头格式#定义决策树决策
python执行linux外部程序_Python3.5使用subprocess.run调用外部程序 weixin_39902184
Python3.5的subprocess模块新增了run()函数，大部分调用子进程的场景都推荐使用run()函数，一些高级的用法则可以直接调用Popen接口。run()函数run函数常用参数如下：run(args,*,stdin=None,input=None,stdout=None,stderr=None,shell=False,cwd=None,timeout=None,check=False
python中append函数什么意思_在python中append()函数的作用是什么魔都财观
在python中append()函数的作用是什么发布时间：2020-07-1014:07:51来源：亿速云阅读：103作者：清晨这篇文章将为大家详细讲解有关在python中append()函数的作用是什么，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。python中的append()方法用于在列表末尾添加新的对象。append()方法语法：list.append(
Python数据可视化 Pyecharts 制作 Sankey 桑基图 Mr数据杨 Python 数据可视化 python 数据可视化 pyecharts 数据分析
桑基图作为一种强大的数据可视化工具，常用于展现不同节点之间的流动关系及其数量分布。其通过直观的连线展示，帮助用户理解复杂系统中各个部分的连接和交互。Python的pyecharts库提供了Sankey类，支持用户灵活创建各种桑基图，不仅能够展示流动数据，还能根据节点层级及连线样式进行高度定制，使得桑基图在信息传达和视觉表现上更具表现力。文章目录Sankey：桑基图Demo总结Sankey：桑基图桑
Python 实现车牌识别菜狗小测试 Python技术专栏 python 计算机视觉 opencv
一、车牌识别的基本原理车牌识别主要包括以下几个步骤：图像采集：通过摄像头或其他图像采集设备获取包含车牌的图像。图像预处理：对采集到的图像进行灰度化、滤波、增强等操作，以提高图像的质量和清晰度，便于后续的处理。车牌定位：从预处理后的图像中找出车牌的位置。这可以通过一些特征提取和机器学习算法来实现，例如基于颜色特征、边缘特征等方法来定位车牌区域。字符分割：将定位到的车牌区域中的字符分割开，以便对每个字
python实现dbscan 怎么就重名了算法 python 开发语言
python实现dbscan原理DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise)是一个比较有代表性的基于密度的聚类算法。它将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在噪声的空间数据库中发现任意形状的聚类。DBSCAN中的几个定义：Ε邻域：给定对象半径为Ε内的区域称为该对象的Ε邻域；核心对象：如
动物判别系统python实现 L C H python 人工智能算法矩阵线性代数
动物判别系统由于明天的实验时间较为紧张，所以本人提前完成实验，将代码呈现如下（有些许参考）：由于明天的实验时间较为紧张，所以本人提前完成实验，将代码呈现如下（有些许参考）：#判断有无重复元素defjudge_repeat(value,list=[]):foriinrange(0,len(list)):if(list[i]==value):return1else:if(i!=len(list)-1)
Python实现图像（边缘）锐化：梯度锐化、Roberts 算子、Laplace算子、Sobel算子的详细方法闲人编程 python python 计算机视觉人工智能 Sobel Laplace Roberts 锐化
目录Python实现图像（边缘）锐化：梯度锐化、Roberts算子、Laplace算子、Sobel算子的详细方法引言一、图像锐化的基本原理1.1什么是图像锐化？1.2边缘检测的基本概念二、常用的图像锐化算法2.1梯度锐化2.1.1实现步骤2.2Roberts算子2.2.1实现步骤2.3Laplace算子2.3.1实现步骤2.4Sobel算子2.4.1实现步骤三、Python实现图像锐化3.1导入必
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h

python反反爬虫系列一（文本混淆）

python反反爬虫系列一（文本混淆）

目录

1，图片伪装反爬虫

第一步、分析页面

第二步、编写代码

2，css偏移反爬虫

第一步、分析页面

第二步、编写代码

3，自定义字体反爬虫

第一步、分析页面

第二步、编写代码

写在最后

你可能感兴趣的:(Python反反爬虫)