shunzi2016

python 爬虫--利用百度图片处理OCR识图API进行验证码识别，并通过python、requests进行网站信息爬取（二）实战

上一篇提到了调用的基础代码，写的很low啊，大家要是有啥优化指示可以直接评论啊谢谢。下面将进行爬虫的实战部分了。

重点声明：本文涉及到基站信息查询网站，这里提示只是学习和参考使用，勿进行商业的暴力用途，如有问责，请自行负责。

一、待爬取网站调研

1、基本信息

2、我们想要实现的基本目的

3、关于基本目的实现的简单说明

二、代码实现部分

1、一些基础参数的设置

2、程序主体的设计

3、完整代码

4、爬取处理结果

一、待爬取网站调研

1、基本信息

python 爬虫--利用百度图片处理OCR识图API进行验证码识别，并通过python、requests进行网站信息爬取（二）实战_第1张图片

www.shunzi666.cn

上图中为基站定位查询的首页：http://www.minigps.org/cellsearch.html

直奔主题，输入参数mcc、mnc、lac、cid、VeriCode等四个参数，查询就可以通过Google地图了解相关基站的定位信息

python 爬虫--利用百度图片处理OCR识图API进行验证码识别，并通过python、requests进行网站信息爬取（二）实战_第2张图片

www.shunzi666.cn

2、我们想要实现的基本目的

自动访问网站
自动填充数据
自动获得验证码
自动发起post请求
自动解析返回的定位信息入数据库或写在文件上
循环以上的步骤

3、关于基本目的实现的简单说明

关于2步骤：如果只查询国内的基站定位信息，那么mcc、mnc值基本固定不变，如果想爬取其他国家的可以点击右侧mcc list等进行了解，这里只针对中国国内的。

关于3步骤：验证码只适用当前的一次查询，即时刷新，我们可以通过两种方式来处理。

一种为机器学习：我们写一个程序专门爬取验证码，并将验证码信息标记在验证的图片名称上，对图片进行灰度、二值处理等，进行训练。这个我做过简单的实验，效果不是很好，毕竟参数和测试数据不太好弄，只能暂时放弃。如果有大神做好了，还请不练赐教。

一种为OCR识图：我使用了python的一些OCR识图库，但是没有达到我预期的效果，也暂时放弃。最后通过调用百度的aipocr来进行识图，虽然这个概率也是很低，不过算是能够满足目前需求。综合对比，百度OCR表现还是最好的，其他厂商的没时间试验了。

关于4步骤：LAC和CID是可变参数，也是这几个参数里面的核心参数。据了解，这两个的参数范围大概是1~100000之间。目前找不到这两个参数之间的匹配设置规律，所以只能通过随机穷举的匹配方式来进行了。

关于post链接的获取方式：

一种为通过F12开发者工具进行观察获取

python 爬虫--利用百度图片处理OCR识图API进行验证码识别，并通过python、requests进行网站信息爬取（二）实战_第3张图片

www.shunzi666.cn

一种为网页源文件的解析：

首先我们在页面右击查看网页源代码,找到对应的form表单，或者参数设置位置，以及点击请求位置

python 爬虫--利用百度图片处理OCR识图API进行验证码识别，并通过python、requests进行网站信息爬取（二）实战_第4张图片

www.shunzi666.cn

首先通过上图，我们可以获得验证码的调用 action：./validatecodeservlet.do。紧接着对应一个js方法reloadImag(）跟进发现还需配置随机数参数。

其次找到post请求的action

这里并没有提供js方法以及submit。但是我们可以通过id='sub'反向查询关于这个button的点击事件，我们可以通过进一步分析下图中的js点击监听事件来得到我们想要的信息。具体的js内容可以自行分析。

关于5步骤：通过观察返回的json数据来来解析出我们想要的数据。

二、代码实现部分

1、一些基础参数的设置

将需要的一些常量都收集起来统一管理是一个好习惯，由于我都写在一个.py中，所以我选择将其统一写在文件的开头位置。我已经将说明注释在了每个变量的上面部分。

2、程序主体的设计

分为三大部分：

头部参数配置
逻辑代码实现
主方法调用

方法说明：

只要通过main方法一步一步的跟方法，走一遍基本上就了解了，写的很low，很直白，分分钟就能搞明白呦。里面的注释写的还算详细吧，需要的大概都写了。

征求意见：

所有的主控逻辑都在一个类里面实现了，方法的位置，方法调用的流程，以及变量名称等还需要进一步优化。我个人认为这显然不是一个好的设计。不过也将就着能用吧。如果感兴趣可以提供建议，谢谢！

3、完整代码

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time    : 2019/6/11 11:09
# @Author  : Hanxiaoshun@天谕传说
# @Site    : www.shunzi666.cn
# @File    : SpiderStationInfo.py
# @Software: PyCharm

import json
import re
import time
import random
import requests
import os
from aip import AipOcr
# pip install baidu-aip
from io import BytesIO
from PIL import Image

""" 你的 APPID AK SK """
APP_ID = 'xxxxxx'
API_KEY = 'xxxxxxxxxxxxx'
SECRET_KEY = 'xxxxxxxxxxxxxxxxxxxxxxxxxxxx'
client = AipOcr(APP_ID, API_KEY, SECRET_KEY)

# requests 的简单设置
requests.adapters.DEFAULT_RETRIES = 5
s = requests.session()
s.keep_alive = False

# 设置lac  与 cid 集合准备在内存中进行组合去重用
lac_cid_array = []

# 验证码图片目录，如果不存在则创建之在当前目录下
CAPT_PATH = "./capt/"
if not os.path.exists(CAPT_PATH):
    os.mkdir(CAPT_PATH)

# 带爬取网站的首页
base_url = "http://www.minigps.org/cellsearch.html"
# 准备使用请求头
base_header = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36'
main_header = {'User-Agent': base_header}
# 获取验证码的请求链接
verify_URL = "http://www.minigps.net/validatecodeservlet.do"
# 请求数据的post链接
post_URL = "http://www.minigps.net/map/google/location"

# 设置一些比较稳定的请求头信息，这个爬虫设置是非常重要的，
# 一些简单的反爬虫基本上会过滤请求头，如果是requests等爬虫工具的默认请求头，则很容易被禁
# 这样可以做到非常简单的伪装，以下是我简单搜集的请求头分享出来
main_user_agent = [
    'Mozilla/5.0 (Windows NT 6.3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',
    'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE',
    'Mozilla/5.0 (Windows NT 10.0; …) Gecko/20100101 Firefox/61.0',
    'Mozilla/5.0 (Windows NT 10.0; …) Gecko/20100101 Firefox/63.0',
    'Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko',
    'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36',
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.33 Safari/537.36',
    'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0',
    'Mozilla/5.0 (Windows NT 6.3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',
    'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE']

# 设置一些比较稳定的IP代理
main_proxies = ['https://106.56.102.22:8070',
                'http://61.135.217.7:80',
                'http://118.190.95.35:9001',
                'https://211.159.171.58:80',
                'https://106.56.102.228:8070']

# 已经成功解析过的就不在爬取，以下为将成功解析过的注入到内存以备比对
lacs = []
with open("lac_success.lac", "r", encoding="utf-8") as foo:
    for line in foo.readlines():
        lacs.append(line)


class SpiderStationInfo(object):
    """
    使用request爬虫，以及百度api识图，获取http://www.minigps.net网站的基站信息
    """

    def __init__(self):
        """
        初始化参数信息
        """
        self.cookies = requests.cookies.RequestsCookieJar()
        self.img_path = ""
        self.portUrl = ""
        self.verifyCode = 0
        self.payloadData = {}

    def goGet(self):
        """
        获取get请求内容并更新cookie信息
        :return:
        """
        response = requests.request('GET', verify_URL, cookies=self.cookies, verify=False)
        cookie_array = response.cookies
        header_array = response.headers
        # print(dict(cookie_array))
        # print(dict(header_array))
        self.cookies.update(response.cookies)  # 保存cookie

    def goPost(self, url, method, post_data):
        """
        获取post请求信息并更新cookie信息
        :param url:
        :param method:
        :param post_data:
        :return:
        """
        response = requests.request(method, url
                                    , data=post_data
                                    , headers=main_header
                                    , cookies=self.cookies
                                    , verify=False)  # 传递cookie

        self.cookies.update(response.cookies)  # 保存cookie

    def get_verify_code(self):
        """ 在线获取并解析验证码 """
        time.sleep(3)
        print("正在解析验证码。。。。。")
        verify_code = client.basicGeneralUrl(verify_URL + '?x=' + str(random.random()))  # 调用远程OCR并获得结果
        if verify_code == 0:
            """如果没有验证码字符数量，则解析失败"""
            return 0
        else:
            if len(verify_code) == 4:
                """如果得到的验证码字符数量不为4，则解析失败"""
                return verify_code
            else:
                return 0

    def getPayloadData(self, lac_cid):
        """
        构建请求参数体信息
        我们默认验证码识别失败，进行第二次查询，这样可以实现验证码试错轮询
        :param lac_cid:
        :return:
        """
        # verifyCode = self.getVerifyCode()
        if self.verifyCode != 0:
            print(f"解析验证码成功。。。。。{self.verifyCode}")
            self.payloadData = {
                "cell_towers": [
                    {"age": 0,
                     "cell_id": str(lac_cid['cid']),
                     "location_area_code": str(lac_cid['lac']),
                     "mobile_country_code": "460",
                     "mobile_network_code": "0",
                     "signal_strength": -65
                     }
                ],
                "host": "maps.google.com",
                "verifycode": str(self.verifyCode),
                "version": "1.1.0"}
        else:
            print(f"正在重新解析验证码。。。。。{self.verifyCode}")
            time.sleep(2)
            """ 下载图片 (重新下载图片进行解析)"""
            self.capt_download()
            """ 读取图片内容 """
            self.img_code_localutils()

    def goto_search_single(self, lac_cid):
        """
        开启流程作业
        :param lac_cid:
        :return:
        """
        try:
            if self.verifyCode == 0:
                print("verifyCode fail。。。")
                # 验证码识别错误直接放弃此次请求
                return 0, "verifyCode fail。。。"
            else:
                self.payloadData = {
                    "cell_towers": [
                        {"age": 0,
                         "cell_id": str(lac_cid['cid']),
                         "location_area_code": str(lac_cid['lac']),
                         "mobile_country_code": "460",
                         "mobile_network_code": "0",
                         "signal_strength": -65
                         }
                    ],
                    "host": "maps.google.com",
                    "verifycode": str(self.verifyCode),
                    "version": "1.1.0"}
                # 代理信息暂时可以不用，如果需要的话将其替换成自己的，并在接下了参数中填充即可
                proxy = "183.12.50.118:8080"
                proxies = {
                    "http": proxy,
                    "https": proxy,
                }
                # r = requests.post(post_URL, data=json.dumps(payloadData), headers=payloadHeader)
                # 将json字典压缩成requests请求头所能识别的格式
                dumpJsonData = json.dumps(self.payloadData)
                print(f"dumpJsonData = {dumpJsonData}")
                # main_header = {'User-Agent': str(random.choice(main_user_agent))}
                # 设置请求头信息代用
                main_header = {
                    'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36",
                    'Origin': "http://www.minigps.org",
                    'Accept': 'application/json, text/javascript, */*; q=0.01',
                    'Host': 'www.minigps.net',
                    'Connection': 'keep-alive',
                    "Content-Type": "application/json; charset=UTF-8",
                    "Accept-Encoding": "gzip, deflate"
                }
                kwargs = {'main_header': main_header,
                          'main_cookie': None,
                          'main_timeout': 25,
                          }
                # current_session = requests.session()
                # response = requests.request("Post",
                #                             self.portUrl,
                #                             data=dumpJsonData,
                #                             headers=main_header,
                #                             cookies=self.cookies,
                #                             timeout=25,
                #                             allow_redirects=True)

                # 最终请求的完整构造
                response = requests.post(
                    self.portUrl,
                    data=dumpJsonData,
                    headers=main_header,
                    cookies=self.cookies,
                    proxies=None,
                    timeout=25,
                    allow_redirects=True,
                    verify=False
                )
                # proxies = proxies,
                # response = requests.post(post_URL, data=dumpJsonData, headers=payloadHeader, timeout=timeOut, proxies=proxies, allow_redirects=True)
                # 下面这种直接填充json参数的方式也OK
                # res = requests.post(post_URL, json=payloadData, headers=header)

                # print(f"responseTime::{datetime.datetime.now()},"
                #       f"statusCode::{response.status_code},"
                #       f"text::{response.text}")

                # json.dumps(response.json, sort_keys=True, indent=2)  # 格式化缩进两格
                # jsonValue = json.dumps(response.json)  # 格式化缩进两格
                # print(jsonValue)

                # 保存返回的请求的json数据,并过滤掉基本的错误返回结果
                if '基站信息不存在' not in response.text:
                    if "verify code error." not in response.text:
                        if response.status_code == 200:
                            with open("lac_response.res", "a", encoding="UTF-8") as foo:
                                foo.write(str(response.text) + "\n")
                            # 返回成功状态及数据
                            return 1, response.text
                        else:
                            return 0, "err"
                    else:
                        return 2, "err"
                else:
                    return 0, "err"
        except Exception as e:
            print(str(e))
            # 打印并返回错误信息及状态
            return 0, "err"
            # raise e

    def single_goto(self, lac_cid_dict):
        """
        根据单条请求返回的参数和数据进行判断和解析写入结果文件：lac_success_random.lac
        :param lac_cid_dict:
        :return:
        """
        try:
            print(f"lac_cid:::{lac_cid_dict}")
            code, response_text = self.goto_search_single(lac_cid_dict)
            if code == 1:
                '''返回1,表示验证码识别正常，post请求参数正常,返回数据正常，等待进一步进行解析'''
                if response_text.__len__() > 0:
                    json_object = json.loads(response_text)  # 将字符串解析成json对象
                    street = json_object['location']['address']['street']
                    latitude = str(json_object['location']['latitude'])
                    longitude = str(json_object['location']['longitude'])
                    if str(street).__len__() > 0:
                        with open("lac_success_random.lac", "a", encoding="UTF-8") as foo:
                            foo.write(str(lac_cid_dict['lac']) +
                                      "\t" + str(
                                lac_cid_dict['cid']) + "\t" + street + "\t" + latitude + "\t" + longitude + "\t"
                                      + "\t" + str(time.strftime('%Y-%m-%d %H:%M:%S',
                                                                 time.localtime(time.time()))) + "\n"
                                      )
                        return 1
                    else:
                        with open("LAC_00_fail_ramdom.lac", "a", encoding="UTF-8") as foo:
                            foo.write(str(lac_cid_dict) + "\n")
                            return 0
            else:
                with open("lac_fail_random.lac", "a", encoding="UTF-8") as foo:
                    foo.write(str(lac_cid_dict) + "\t" + str(lac_cid_dict['cid']) + "\n")
                return 0
        except Exception as e:
            # raise e
            print(str(e))

    def capt_fetch(self, ):
        """
        从网站获取验证码，将验证码转为Image对象

        :require requests: import requests
        :require time: import time
        :require BytesIO: from io import BytesIO
        :require Image: from PIL import Image

        :param:
        :return capt: 一个Image对象
        """
        # 从网站获取验证码
        # main_header = {'User-Agent': str(random.choice(main_user_agent))}
        # kwargs = {'main_header': main_header,
        #           'main_cookie': None,
        #           'main_timeout': 10,
        #           }
        # current_session = requests.session()
        # response = current_session.get(verify_URL,
        #                                headers=kwargs['main_header'],
        #                                cookies=kwargs['main_cookie'],
        #                                timeout=kwargs['main_timeout'])
        # headers = main_header,
        response = requests.request('GET', url=verify_URL, cookies=self.cookies)
        self.cookies.update(response.cookies)  # 保存更新cookie
        # capt_raw = requests.get(verify_URL)
        # 将二进制的验证码图片写入IO流
        f = BytesIO(response.content)
        # 将验证码转换为Image对象
        capt = Image.open(f)
        return capt

    def capt_download(self):
        """
        将Image类型的验证码对象保存到本地
        :require Image: from PIL import Image
        :require os: import os
        :require capt_fetch(): 从nbsc网站获取验证码
        :require CAPT_PATH: 验证码保存路径n6m
        :param:
        :return:
        """
        try:
            # 开启图片下载程序
            capt = self.capt_fetch()
            # capt.show()
            # text = input("请输入验证码中的字符：")
            # 时间戳形式命名图片的一部分
            suffix = str(int(time.time() * 1e3))
            # 满足请求验证码的随机数请求参数信息
            time.sleep(random.random() * 5)
            # img_path = CAPT_PATH + text + "_" + suffix + ".jpg"
            img_path = CAPT_PATH + "_" + suffix + ".jpg"
            # 保存图片
            capt.save(img_path)
            # 返回验证码路径
            self.img_path = img_path
        except Exception as e:
            print(str(e))
            # 如果下载和保存出现问题将返回错误代码
            self.img_path = 0

    def get_file_content(self, filePath):
        """ 注入图片到内存 """
        with open(filePath, 'rb') as fp:
            return fp.read()

    def img_code_localutils(self):
        """ 读取图片内容 """
        try:
            if self.img_path != 0:
                image = self.get_file_content(self.img_path)
                result = client.basicGeneral(image)
                if "words_result" in result:
                    words = result['words_result']
                    if words.__len__() > 0:
                        word = words[0]
                        value = word['words'].strip().replace(' ', '')
                        value = value.lower()
                        if value.__len__() == 4:
                            """如果验证码的长度不是4，排除掉"""
                            pattern = re.compile(r'[0-9a-zA-Z]', re.I)
                            none_flag = False
                            for x in str(value):
                                """如果验证码里面有除了数字和英文之外的另外文字，排除掉"""
                                if pattern.match(x) is None:
                                    none_flag = True
                            if none_flag:
                                print(f"verifyCode——another code：：{value}")
                                self.verifyCode = 0
                            else:
                                """  请求成功，并且返回4个字符"""
                                print(f"verifyCode——ok：：{value}")
                                img_path_new = self.img_path.replace("capt/_", "capt/" + value + "_")
                                os.rename(self.img_path, img_path_new)
                                # img_path_new = CAPT_PATH + value + "_" + suffix + ".jpg"
                                self.verifyCode = value
                        else:
                            print(f"verifyCode——fail：：{value}")
                            self.verifyCode = 0
                    else:
                        print(f"verifyCode—words—fail：：{words}")
                        self.verifyCode = 0
                else:
                    self.verifyCode = 0
            else:
                self.verifyCode = 0
        except Exception as ocr_e:
            print(f"Exception as :{str(ocr_e)}")

    def start(self, lacRamdom=9779, cidRamdom=3721):
        # """ 下载图片 """
        self.capt_download()
        # """ 读取图片内容 """
        self.img_code_localutils()
        # 设置post请求链接
        self.portUrl = post_URL
        # 完成验证码识别的工作，开启单条测试的程序
        return self.single_goto({"lac": lacRamdom, "cid": cidRamdom})

    def process(self, i, lacRamdom, cidRamdom):
        """
        解析返回数据结果的参数组合并录入参数组合状态文件中
        :param i: 测试记录数量
        :param lacRamdom:
        :param cidRamdom:
        :return:
        """
        lac_cid_dict = {"lac": lacRamdom, "cid": cidRamdom}
        if ru.start(lacRamdom=lacRamdom, cidRamdom=cidRamdom) == 1:
            lac_cid_array.append(lac_cid_dict)
            print(f"查询第 {i} 条随机数据成功。。。，{lacRamdom}，{cidRamdom}")
            with open("lac_suc_params.lac", "a", encoding="UTF-8") as foo:
                foo.write(str(lacRamdom)
                          + "\t" + str(time.strftime('%Y-%m-%d %H:%M:%S',
                                                     time.localtime(time.time()))) + "\n")
        else:
            print(f"查询第 {i} 条随机数据失败---，{lacRamdom}，{cidRamdom}")
            with open("lac_fail_params.lac", "a", encoding="UTF-8") as fox:
                fox.write(
                    str(lacRamdom) + "\t"
                    + str(cidRamdom) + "\t"
                    + str(time.strftime('%Y-%m-%d %H:%M:%S',
                                        time.localtime(time.time()))) + "\n")

    def entrance(self):
        """
        设置两个基本参数：
            lac 1~32000进行每股两秒钟循环递增穷举
            cid 取10万以内的随机数
        开启验证码识别以及构建请求头参数和返回结果处理的方法
            self.process(j, lac_random, cid_random)
            每次请求之间间隔2秒，来减少被识别的概率
        记录每每个组合的状态
            这个状态可能将受到验证码识别的概率干扰，效率下降很大
        :return:
        """
        try:
            fail_num = 0
            success_num = 0
            with open("final_result.txt", "a", encoding="utf-8") as fr:
                fr.write("10000条 start " + "\t" + str(time.strftime('%Y-%m-%d %H:%M:%S',
                                                                    time.localtime(time.time()))) + "\n")
            for j in range(1, 32000):
                time.sleep(2)
                # lac_random = int(random.random() * 31000)
                lac_random = j
                cid_random = int(random.random() * 100000)
                lac_cid_dict = {"lac": lac_random, "cid": cid_random}
                if str(lac_random) in lacs:
                    print(f"第 {j} 条已经被解析过，LAC：：{lac_random}")
                else:
                    if lac_cid_dict not in lac_cid_array:
                        self.process(j, lac_random, cid_random)
            with open("final_result.txt", "a", encoding="utf-8") as fr:
                fr.write("成功：：" + str(success_num)
                         + "\t" + "失败：：" + str(fail_num)
                         + "\t" + str(time.strftime('%Y-%m-%d %H:%M:%S'
                                                    , time.localtime(time.time()))) + "\n")
            # print(lac_cid_array)

        except Exception as e:
            # raise e
            print(str(e))


if __name__ == '__main__':
    """ 
    实例化工具类
    循环调用 10个轮回，如果全部调用成功，将尝试请求一共10*32000次
    每32000次之间等待60 * 30秒
    """
    ru = SpiderStationInfo()
    try:
        for n in range(10):
            ru.entrance()
            #
            time.sleep(60 * 30)
    except Exception as e:
        # raise e
        print(str(e))

4、爬取处理结果

python 爬虫--利用百度图片处理OCR识图API进行验证码识别，并通过python、requests进行网站信息爬取（二）实战_第8张图片

www.shunzi666.cn

【Origin+Python】使用External Python批量出图代码参考2 kkkkkkkkk_1201 绘图 python 开发语言
目录前情提要进阶代码1批量绘制曲线图2曲线图设置3批量绘制相同设置的曲线图去除水印前情提要基础教程见链接:【Origin+Python】使用ExternalPython批量出图代码参考这里主要介绍一些进阶代码以及使用盗版origin要如何去除水印的方法！#############################################################进阶代码########
Python面向对象编程：精雕细琢对象的“名片”——重写 `__str__()` 和 `__repr__()` 方法清水白石008 Python题库 python python 开发语言
Python面向对象编程：精雕细琢对象的“名片”——重写__str__()和__repr__()方法在Python中，当我们使用print()函数打印一个对象，或者在交互式解释器中直接输入对象并回车时，Python会尝试将该对象转换为字符串进行显示。这个转换过程涉及到两个特殊方法：__str__()和__repr__()。正确地重写这两个方法，可以让我们更好地控制对象的字符串表示形式，提高代码的可
origin软件有python好用吗_Origin 2021大大改进了与Python的交互 weixin_39922534
经常收到同学咨询如何在Origin中管理下载Python包的问题，可以翻看上期专栏Origin2021对使用Python编程进行了重大改进。这些改进主要包括：新的originpro程序包，可使用Python语言轻松访问Origin对象和数据Python代码编辑器IDE现支持自动补完和调试功能可通过脚本或图形用户界面来安装和管理Python包设置列值，拟合函数和文本对象中使用Python函数从Lab
origin和python有什么不同_python爬虫之git的使用（origin说明） weixin_39878760
1、首先我们回忆两个命令#gitremoteaddorigin远程仓库链接#gitpush-uoriginmaster我们一起看看这个命令，git是git的一级命令，push就是下载，-u应该使用用账户验证maser就是分支的名字(前面我们说过)，那么这个origin是个什么鬼？大家看看下面的这个5毛钱图，就能发现，其实origin就是远程仓库的名称。如果不相信在看看我的配置文件#vi.git/c
tensorflow对应的python版本_tensorflow + python + keras 版本对应关系 weixin_39912303
TensorFlow2.2tensorflow-2.2TensorFlow2.2.0+Keras2.3.1onPython3.7.TensorFlow2.1tensorflow-2.1TensorFlow2.1.0+Keras2.3.1onPython3.6.TensorFlow2.0tensorflow-2.0TensorFlow2.0.0+Keras2.3.1onPython3.6.Tenso
python中shutil.copyfile的用法_python shutil.copy()用法 weixin_39678103
shutil.copyfile(src,dst)：复制文件内容（不包含元数据）从src到dst。DST必须是完整的目标文件名;如果src和dst是同一文件，就会引发错误shutil.Error。dst必须是可写的，否则将引发异常IOError。如果dst已经存在，它会被替换。特殊文件，例如字符或块设备和管道不能使用此功能，因为copyfile会打开并阅读文件。src和dst的是字符串形式的路径名。
【Mac】Python相关知识经验水银嘻嘻 Python macos python 开发语言
一、给Python3安装第三方库mac下给Python3安装第三方库pillow，处理图片【安装方式】：终端中输入命令：python3-mpipinstallpillow按回车，等待pillow下载安装NOTE:其他模块同理，如pytesseract二、Python版本升级1.终端执行命令：brewinstallpython32.安装Python3版本成功后，系统默认的仍旧是之前的版本，注意不要去
Python shutil.copy 函数 song_cai_csdn python
shutil.copy(source-path,dest-path)source-path中包含目录，对导致IOError:[Errno13]Permissiondenied异常
（三）python网络爬虫（理论+实战）——爬虫与反爬虫阳光宅男xxb 30天学会python网络爬虫 python 大数据爬虫
系列文章目录（1）python网络爬虫—快速入门（理论+实战）（一）（2）python网络爬虫—快速入门（理论+实战）（二）序言本人从事爬虫相关工作已8年以上，从一个小白到能够熟练使用爬虫，中间也走了些弯路，希望以自身的学习经历，让大家能够轻而易举的，快速的，掌握爬虫的相关知识并熟练的使用它，避免浪费更多的无用时间，甚至走
（详细整理！！！！）Tensorflow与Keras、Python版本对应关系！！！今天不想Debug tensorflow keras 人工智能
小伙伴们大家好，不知道大家有没有被tensorflow框架困扰过今天我就给大家整理一下tensorflow和keras、python版本的对应关系大家这些都可以在官网找到，下面我把官网的连接给大家放在这里：在Windows环境中从源代码构建|TensorFlow(google.cn)但是为了方便大家，我给大家列在下面啦！！！下面这个是我给大家总结的（也是为我自己整理的，嘿嘿~~~）（然后后面我也把
华为OD机试E卷 --分苹果 --24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript python js c语言
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码c++算法源码题目描述A、B两个人把苹果分为两堆，A希望按照他的计算规则等分苹果，他的计算规则是按照二进制加法计算，并且不计算进位12+5=9(1100+0101=9)，B的计算规则是十进制加法，包括正常进位，B希望在满足A的情况下获取苹果重量最多。输入苹果的数量和每个苹果重量，输出满足A的情况下
Package ‘importlib-metadata‘ requires a different Python: 3.6.10 not in ‘＞=3.7‘ zy_whynot python python 开发语言后端
报错ERROR:Package'importlib-metadata'requiresadifferentPython:3.6.10notin'>=3.7'WARNING:Youareusingpipversion20.0.2;however,version21.3.1isavailable.Youshouldconsiderupgradingviathe'/usr/local/bin/pytho
Python设计模式 - 工厂方法模式 mofei12138 设计模式 python python 设计模式工厂方法模式
定义工厂方法模式是一种创建型设计模式，它定义一个创建对象的接口，让其子类来处理对象的创建，而不是直接实例化对象。结构抽象工厂（Factory）：声明工厂方法，返回一个产品对象。具体工厂类都必须实现该方法。具体工厂（ConcreteFactory）：实现工厂方法以创建具体的产品对象。抽象产品（Product）：定义产品对象的接口。具体产品（ConcreteProduct）：实现产品接口的具体产品对象
正则表达式的艺术：轻松驾驭 Python 的 re 库傻啦嘿哟 mysql 数据库 java
目录一、正则表达式的基本概念二、Python的re库简介三、正则表达式的元字符四、正则表达式的贪婪与非贪婪模式五、实战案例六、总结正则表达式（RegularExpression）是文本处理中不可或缺的工具，它强大而灵活，能够帮助我们高效地匹配、查找、替换复杂的文本模式。Python的re库为我们提供了便捷的正则表达式操作接口。本文将带你领略正则表达式的艺术，通过简洁明了的代码和案例，轻松驾驭Pyt
python广告点击率预测_常见计算广告点击率预估算法总结 weixin_39850143 python广告点击率预测
欢迎大家前往腾讯云技术社区，获取更多腾讯海量技术实践干货哦~作者：导语：本文讨论了CTR预估模型，包括工业界使用比较广的比较经典模型和学术界最新的结合DeepLearning的一些工作。前言谈到CTR，都多多少少有些了解，尤其在互联网广告这块，简而言之，就是给某个网络服务使用者推送一个广告，该广告被点击的概率，这个问题难度简单到街边算命随口告诉你今天适不适合娶亲、适不适合搬迁一样，也可以复杂到拿到
python 菜单调用_Python Tkinter Menu菜单（窗口菜单和右键菜单）使用详解 weixin_39997311 python 菜单调用
Tkinter为菜单提供了Menu类，该类既可代表菜单条，也可代表菜单，还可代表上下文菜单（右键菜单）。简单来说，Menu类就可以搞定所有菜单相关内容。程序可调用Menu的构造方法来创建菜单，在创建菜单之后可通过如下方法添加菜单项：add_command()：添加菜单项。add_checkbutton()：添加复选框菜单项。add_radiobutton()：添加单选钮菜单项。add_separa
游戏引擎架构第二版中文pdf_Allen Kashiwa的游戏开发信息 weixin_39811166 游戏引擎架构第二版中文pdf
0本文首发于我的github和我的博客，欢迎大家与我交流。1基础知识与通用技能1.1语言相关1.1.1C/C++C++Primer1.1.2C#C#编程指南CLRviaC#（第4版）1.1.3LuaProgramminginLua1.1.4Python廖雪峰的Python教程1.2语言无关1.2.1算法算法图解DataStructureVisualizations算法可视化visualgoIntr
python菜单栏_(7)python tkinter-菜单栏 weixin_39625172 python菜单栏
importtkinterimporttkinter.messageboxdefbut():tkinter.Toplevel()root=tkinter.Tk()#root.title('GUI')#标题root.geometry('800x600')#窗体大小root.resizable(False,False)#固定窗体f=tkinter.Menu(root)#创建根菜单root['menu'
python的中文翻译-再聊聊Python中文社区的翻译 weixin_37988176
在写《学习Python，怎能不懂点PEP呢？》的时候，我已经发现国内的Python翻译环境不容乐观。这个结论可能不对，毕竟这几年Python大热，或许有不少优秀的翻译项目，只是我还不知道而已。不管如何，接着上一篇关于“Python学习资料汉化”的话题，今天，我们再聊聊Python中文社区的翻译话题。Python部落的翻译社很巧合的是，Python部落（公众号：Python程序员）刚刚低调地上线了“
【Python】 -- 趣味代码 - 圣诞树电科_银尘 Python趣味编程 python 开发语言
文章目录文章目录01圣诞树动图设计框架02圣诞树程序代码01圣诞树动图设计框架下面是对代码主要部分的详细解释：导入库：代码开始部分导入了turtle库，并给它起了别名t，同时导入了random库并给它起了别名r，以及time库。设置画布：使用screensize设置画布背景为黑色，title设置窗口标题为"圣诞快乐"，setup设置画布大小为800x800像素。设置画笔：pencolor设置画笔颜
如何解决Package ‘zipp’ requires a different Python: 3.5.2 not in '>=3.6 @_sunny_@ pip python tensorflow
如何解决Package‘zipp’requiresadifferentPython:3.5.2notin'>=3.6我出现这个问题是在我的服务器上，安装TensorFlow包的时候。原因就是Python的版本较低，Zipp的版本较高解决办法输入pip3list查看包的版本，然后将zipp包先卸载pip3uninstallzipp然后下载指定版本的Zipp包pip3installzipp==1.0.
python 爬虫4 - re模块（正则表达式） Shin zhong python 爬虫正则表达式 python
一、正则表达式1.概念正则表达式（RegularExpression，简称Regex）是一种用于匹配字符串的模式。它可以用来搜索、替换、验证文本中的特定模式。Python中的re模块提供了对正则表达式的支持。2.语法正则表达式的语法相对复杂，但理解其核心概念后，可以用非常简洁的方式来表达字符串匹配规则符号解释.匹配任意单个字符（除换行符）。^匹配字符串的开头。$匹配字符串的结尾。*匹配前面的字符0
python提出HTML中的连接和文本。 laocooon523857886 Python 前端服务器 linux
49LanguagesSimpleEnglishBahasaIndonesiaBahasaMelayuCataleskyDanskDeutschEestiEspaolEsperantoEuskaraFranaisGalegoHrvatskiItalianoLietuviMagyarNederlandsNorskbokmlNorsknynorskPolskiPortugusRomnSlovenina
第二十二：Python接口自动化-token登录平头哥-测试 python 自动化
一.简介1.为验证用户登录情况以及减轻服务器的压力，减少频繁的查询数据库，使服务器更加健壮2.有些登录不是用cookie来验证的，是用token参数来判断是否登录3.token传参有两种3.1.一种是放在请求头里，本质跟cookie是一样3.2.一种是在url请求参数里，这种更直观二.抓包登录返回token1.登录接口，就是没有cookies的登录接口。但是登录接口，登录成功后有返回tok
Python Tkinter Menu ccczqh python
PythonTkinterMenu本人想开发一个简易的搜图GUI，基于此，选择用Tkinter模块开发。需要开发出菜单栏1fromTkinterimport*234root=Tk()5root.title("搜图助手")6root.geometry("500x500+600+200")7help=tkMessageBox.showinfo("欢迎","欢迎使用搜图助手！\nByJohnson")8
python详细安装教程3.9.0,python详细安装教程3.8.5 M3666789 人工智能
本篇文章给大家谈谈python详细安装教程3.9.0，以及python详细安装教程3.8.5，希望对各位有所帮助，不要忘了收藏本站喔。有些Python软件包是系统自带的，如sys，这些包在安装Python时已自动安装。但有些包是需要自行下载安装的，如PIL用python画小猫简单。这些第三方的软件有的以源代码的形式提供，有的以安装包的形式提供。安装第三方Python包的方法有很多种。本节将介绍一些
Python tkinter Menu菜单组件详解白客小李666 意志让我在编程领域上取得的胜利 python 开发语言
好久没有更新了，今天我来领大家熟悉一下Menu组件1.认识、了解Menu什么是Menumenu组件是tkinter中的菜单组件，通过该组件，开发者可以为窗口设计菜单和工具栏等。（ttk还提供了treeview树形菜单，python遍历目录的两种方法_python遍历目录-CSDN博客，这篇博客提到过）Menu的好处有人会问，为什么要用Menu呢？如果我们要模拟右键菜单可以看到，菜单中有很多按钮。可
Python 使用 openpyxl 读取表格她不喜欢喝咖啡 #Python 3 第三方库 openpyxl python windows 开发语言
当前环境：Win10x64+MSoffice2016+Python3.7+openpyxl=3.0.91表格内容(Sheet1和Sheet2)2读取表格数据示例fromopenpyxlimportload_workbookworkbook=load_workbook(filename=r'图书.xlsx')#sheetnames获取工作簿的所有工作表，返回列表类型print(type(workbo
python处理excel的具体操作若木胡 tools python
安装相关库openpyxl库：用于读取和写入Excel文件（.xlsx/.xlsm）。可以使用pipinstallopenpyxl命令进行安装。pandas库：提供了高效的数据结构和数据分析工具，它对openpyxl进行了封装，使操作Excel文件更加方便。安装命令是pipinstallpandas。使用openpyxl读取Excel文件打开工作簿：首先要导入openpyxl库，然后使用load_
NVIDIA-TensorRT-Python推理呆呆珝推理框架 python 人工智能开发语言
1,前言NVIDIATensorRT进行模型推理的Python实现。TensorRT是一个高性能的深度学习推理优化器和运行时，它能够为深度学习模型提供低延迟和高吞吐量的推理能力。(由于官方文档的使用还是比较简单，也可能自己很菜，参考了别人的文档和自己摸索，写出来这个可以使用的API)2.Python-API推理step1：导入基本库(环境自行配置)#导入TensorRT库importtensorr
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio

python 爬虫--利用百度图片处理OCR识图API进行验证码识别，并通过python、requests进行网站信息爬取（二）实战

一、待爬取网站调研

1、基本信息

2、我们想要实现的基本目的

3、关于基本目的实现的简单说明

二、代码实现部分

1、一些基础参数的设置

2、程序主体的设计

3、完整代码

4、爬取处理结果

你可能感兴趣的:(python,python爬虫)