吃猫的鱼python

放飞自我-scrapy框架进阶无限制爬取数据（6300字详解）

文章适合于所有的相关人士进行学习
各位看官看完了之后不要立刻转身呀
期待三连关注小小博主加收藏
小小博主回关快会给你意想不到的惊喜呀

文章目录

- scrapy怎么做到无限制爬取
- - - ⚠️爬取过程可能会遇到的问题
    - 解决问题
    - - 下载器中间键介绍
      - process_request(self,request,spider)
        
        process_response(self,request,response,spider)
      - 代理介绍
- 实战-实践是检验真理的唯一标准
- - - 网站分析
    - 爬取内容
    - - css介绍
      - 代码
      - liepin的demo
        
        中间件
        
        models的demo

scrapy怎么做到无限制爬取

⚠️爬取过程可能会遇到的问题

在我们爬虫的过程当中，很有可能会遇到由于你爬的太快了，导致被网站识别出来你在做爬虫。然后就不允许让你继续爬取了。或者是你这个ip地址访问目标网址次数太多，导致的被网站直接封禁。比如会出现give up url。。。这种错误，那么我们如果遇到这种问题怎么解决的呢，这就是我们所说的网站限制问题。
就比如这种，洗澡的时候就会给你脱发警告！！！

解决问题

遇到问题我们就解决问题，上有政策，下有对策呗。兵来将挡水来土掩。这里我们就要介绍一下下载器中间件。

下载器中间键介绍

下载器中间件是引擎和下载器之间通信的中间件。在这个中间件中我们可以设置代理、更换请求头等来达到反反爬虫的目的。要写下载器中间件，可以在下载器中实现两个方法。一个是process_request(self,request,spider)，这个方法是在请求发送之前会执行，还有一个process_response(self,request,response,spider)，这个方法是数据下载到引擎之前执行。

总而言之吧，我们可以在下载器中间件中设置代理、更换请求头。从而达到避免被网站发现的目的。

process_request(self,request,spider)

这个方法是下载器在发送请求之前会执行的。一般可以在这个里面设置随机代理ip等。

参数： request：发送请求的request对象。
spider：发送请求的spider对象。

返回值：

返回None：如果返回None，Scrapy将继续处理该request，执行其他中间件中的相应方法，直到合适的下载器处理函数被调用。
返回Response对象：Scrapy将不会调用任何其他的process_request方法，将直接返回这个response对象。已经激活的中间件的process_response()方法则会在每个response返回时被调用。
返回Request对象：不再使用之前的request对象去下载数据，而是根据现在返回的request对象返回数据。
如果这个方法中抛出了异常，则会调用process_exception方法。

process_response(self,request,response,spider)

这个是下载器下载的数据到引擎中间会执行的方法。

参数： request：request对象。 response：被处理的response对象。
spider：spider对象。

返回值：
返回Response对象：会将这个新的response对象传给其他中间件，最终传给爬虫。
返回Request对象：下载器链被切断，返回的request会重新被下载器调度下载。
如果抛出一个异常，那么调用request的errback方法，如果没有指定这个方法，那么会抛出一个异常。

上方返回值具体参照图解来看。

代理介绍

之前我们做IP更换的时候，一般都是用快代理或者其他代理软件的免费代理，来去做。那么这样就会有什么样的缺点呢，就是不够稳定，而且可能发现的差错也较多。那么我们可以去购买一些代理来满足自己的爬虫需求。我自己用的就是芝麻代理。在其中的获取api就可以看到这样一个界面：

然后我们只要按照自己的需求来获取ip就ok了。我们这里选择上方图中的然后生成链接就ok了。就获取到了自己的独享ip。
然后我们进入目标网站liepin网，搜索python然后准备爬取相关信息。

实战-实践是检验真理的唯一标准

网站分析

我们还是通过rule规则来查找页面，首先我们定义详情url规则。
按照之前的方式检查就看到了。
要是之前遇到这种肯定是要骂街了，这是什么呀？

但是经过一段时间的学习我们发现这也是非常简单，我们简单分析一下，前面的内容一致，www…，然后就是一串数字，然后就是以.shtml，然后跟着一大串字母，那就简单多了一串数字我们对应\d+，一大串乱七八糟字母就对应.*。完美解决！！！
然后就是翻页的操作，当我们检查翻页的时候，发现了一点就是tm的网吧蛋，竟然是这种拼接型。

在源码中搜索page也找不到相关内容，到了这一刻我是崩溃的，但是妈妈告诉我，什么事都不要轻言放弃，于是我想了想，我直接手动翻页不好吗，不按照rule规则。

        for i in range(1,50):
            next_url=connect_url % i
            request = scrapy.Request(next_url)
            yield request

解决！
但是这里有一个小细节就是什么呢？就是我们在爬取的过程中有的时候为了避免爬虫乱爬，我们在rule规则中添加参数。
restrict收紧；约束。就是说把它约束在一个范围内，只能在这个范围进行爬取。

restrict_xpaths=["//div[@class='left-list-box']//a"]

爬取内容

爬取内容呢，我们想爬取标题，工资，介绍。。。。。这里不多介绍。爬取规则我们使用css。

css介绍

css就是和xpath一样的功能，我们这节课就用css。
我们以标题为例

这里我们可以看到属于div class=name-box下的span中的内容。
css

.name-box span::text

class为name-box的标签下面的span标签中的text。完事！！

代码

其中settings、items、pipelines、这里就不过多介绍了

liepin的demo

import scrapy
from scrapy.spiders.crawl import CrawlSpider,Rule
from scrapy.linkextractors import LinkExtractor
from ..items import LpwItem

class LiepinSpider(CrawlSpider):
    name = 'liepin'
    allowed_domains = ['www.lin.com']#具体自己去添加
    start_urls = ['https://wn.com/zhaopin/?key=python¤tPage=0']#具体自己去添加
    rules = (
        Rule(LinkExtractor(allow=r'https://www..com/job/\d+\.shtml.*',restrict_xpaths=["//div[@class='left-list-box']//a"]),callback='parse_job',follow=False)
    )

    def parse_job(self, response):
        title=response.css(".name-box span::text").get()
        salary=response.css(".name-box span::text").getall()[2]
        years=response.css(".job-properties span::text").getall()[1]
        edu=response.css(".job-properties span::text").getall()[2]
        desc_list=response.css(".paragraph dd::text").get()
        desc="".join(desc_list).strip()
        item=LpwItem(title=title,salary=salary,years=years,edu=edu,desc=desc)
        yield item
        connect_url = "https://www.l.com/zhaopin/?key=python¤tPage=%s"
        for i in range(1,50):
            next_url=connect_url % i
            request = scrapy.Request(next_url)
            yield request

这里大家可以对照网页中的信息去试一下如何使用css去爬取数据。

中间件

import requests
from .models import ProxyModel
import threading
import time
class IPDownloaderMiddleware:
    def __init__(self):
        super(IPDownloaderMiddleware, self).__init__()
        self.current_proxy=None#目前没有代理
        self.update_proxy_url='http://webapi.acangku.com/getip?num=1&type=2&pro=&city=0&yys=0&port=11&time=1&ts=1&ys=0&cs=0&lb=1&sb=0&pb=45&mr=1®ions='
        #这里是我们从芝麻网站中提取到的ip
        self.headers={
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.60 Safari/537.36'
        }#请求头
        self.update_proxy()#这个函数看下方，获取到了代理
        self.lock = threading.Lock()#设置锁
        # 创建一个多线程：专门用来管理代理的
        # 管理方式：只要这个代理的时间超过了1分钟，或者是这个代理被拉黑了，那么在多线程中就要更换代理了
        th = threading.Thread(target=self.update_proxy_in_thread)
        th.start()
    def process_request(self, request, spider):
        #更换代理，是在请求之前更换，也就是在这个函数进行更换
        request.meta['proxy'] = self.current_proxy.proxy_url

    def process_response(self, request, response, spider):
        #在响应中，通过判断状态码，来判断是否需要更新ip
        if response.status != 200:
            # 标记某个标记位，要更新代理了
            self.lock.acquire()
            self.current_proxy.is_blacked = True
            self.lock.release()
            # 如果这个请求没有被正确的响应到，那么应该重新返回，等待下一次重新请求获取
            return request#重新请求更换代理啦
        # 如果是正常的响应，那么一定要记得返回response，否则在爬虫中获取不到
        return response
    def update_proxy(self):
        resp = requests.get(self.update_proxy_url, headers=self.headers)#请求代理网站
        proxy_model = ProxyModel(resp.json())
        self.current_proxy = proxy_model
        print("更新了新的代理：%s"%self.current_proxy.proxy_url)#提取到具体的ip地址，函数如下方models 这里我们就是提取到了标准格式


    def update_proxy_in_thread(self):
        # 管理方式：只要这个代理的时间超过了1分钟，或者是这个代理被拉黑了，那么在多线程中就要更换代理了
        count = 0
        while True:
            time.sleep(10)
            if count >= 6 or self.current_proxy.is_blacked:
                self.update_proxy()
                count = 0
            else:
                count += 1
                print("count+1=%d"%count)

models的demo

class ProxyModel(object):
    def __init__(self,proxy_dict):
        proxy=proxy_dict['data'][0]#提取到ip的地址端口号和过期时间
        self.proxy_url="https://"+proxy['ip']+':'+str(proxy['port'])#进行拼接
        expire_time_str=proxy['expire_time']
        self.expire_time=datetime.datetime.strptime(expire_time_str,'%Y-%m-%d %H:%M:%S')#过期时间的转化
        self.is_blacked = False#定义目前没有过期

    @property
    def is_expiring(self):#判断ip是否过期
        now=datetime.datetime.now()
        if (self.expire_time-now)<=timedelta(seconds=5):
            return True
        else:
            return False

这里就完成了IP的更换（满足一定的条件下）
好啦！今天我们就结束了！

你可能感兴趣的:(中间件,爬虫,python,scrapy,ip)

如何解决AttributeError: ‘NoneType‘ object has no attribute问题
如何解决AttributeError:‘NoneType’objecthasnoattribute问题问题背景与概述在Python项目开发和调试过程中，经常会碰到这样一个异常信息：AttributeError:'NoneType'objecthasnoattribute'foo'这意味着你尝试访问或调用某个对象的属性／方法foo，但此时对象本身是None，从而触发了AttributeError。本
day---python变量的概念小白进阶中 python
变量的概念python是面向对象的，解释型和弱类型。变量：里面盛放的值随时可以发生变化，声明变量实际上是给内存要空间。给你赋什么值就是什么类型*字母数字下划线不能用下划线开头。多个变量需要打印时候用–逗号value表示一个值，sep=“”表示之间用空格分隔，可以自己改成别的。end=“\n”就是转义字符，默认是\n在字符串里面有\n就可以换行。默认的追加。name='小白'age=18gender
电商新风口：实时视频直播模型MirageLSD震撼发布！| AI日报未来世界2099 AI日报人工智能大模型 MirageLSD
应用1、OpenAI重磅推出ChatGPTAgent！智能体时代正式开启，浏览器将被AI接管2、00后天才团队震撼发布！全球首个A股金融博弈智能体应用横空出世3、KimiPlayground震撼上线：AI助手进化成"全能工具王"，开发者狂欢开启4、MistralAI聊天机器人LeChat大升级：语音交互+深度研究+图像编辑三连击5、Slack掀起AI办公革命：聊天自动总结、术语秒懂、工作流一键自动
Python自动化神器：Faker库生成逼真测试数据的10种高级技巧
Python自动化神器：Faker库生成逼真测试数据的10种高级技巧fromfakerimportFakerimportpandasaspdimportjsonfromdatetimeimportdatetime#创建一个Faker实例fake=Faker('zh_CN')#使用中文本地化#生成基本个人信息defgenerate_user():return{"name":fake.name(),"
Python day18 赵英英俊 Python训练 python
@浙大疏锦行pythonday18.内容：昨天学习了聚类算法的一些基本内容，今天继续学习相关知识分析簇的特征和相关含义（使用可视化来进行分析，也可以使用ai）代码：shap.initjs()#初始化SHAP解释器explainer=shap.TreeExplainer(model)shap_values=explainer.shap_values(x1)#这个计算耗时shap_values.sha
【完全掌握】PyPDF2/PyPDF4深度指南：Python轻松实现PDF读取与操作的15个高级技巧莫比乌斯@卷技术技巧 #文档处理扩展 python pdf 服务器
【完全掌握】PyPDF2/PyPDF4深度指南：Python轻松实现PDF读取与操作的15个高级技巧1.PDF库基础了解1.1PyPDF2与PyPDF4的关系与选择PyPDF2是一个历史悠久的PythonPDF处理库，而PyPDF4是其改进和维护的分支版本：#安装PyPDF2pipinstallPyPDF2#或安装PyPDF4（推荐）pipinstallPyPDF4PyPDF4相比PyPDF2有以
【华为OD机试真题 2025C卷】161、机器人可活动的最大网格点数目 | 机试真题+思路参考+代码解析（C++、Java、Py、C语言、JS） KFickle 最新华为OD机试(C++Java Py C JS)+OJ 华为od 机器人 c++华为OD机试真题 java 机器人可活动的最大网格点数目 c语言
文章目录一、题目题目描述输入输出样例1二、代码与思路参考C++代码Java代码Python代码C语言代码JS代码订阅本专栏后即可解锁在线OJ刷题权限个人博客首页：KFickle专栏介绍：最新的华为OD机试真题，使用C++，Java，Python，C语言，JS五种语言进行解答，每个题目都包含解题思路，五种语言的解法，每日持续更新中，订阅后支持开通在线OJ测试刷题！！！一次订阅永久享受更新，有代码问题
实现Zabbix跨域监控 weixin_33967071 运维数据库
环境介绍：通过公司机房的zabbix服务器监控阿里云上购买的云服务器。1、通过路由器将公司机房的zabbix服务器端口10051映射到外网。2、选择一台有公网IP的阿里云服务器部署zabbixproxy。#zabbixproxy配置文件如下ProxyMode=0Server=159.27.126.135Hostname=39.18.23.2LogFile=/tmp/zabbix_proxy.log
vue实现超出字数中间用省略号显示
显示效果：传统节日里的氛围......传统节日里的氛围原理：利用vue中的过滤器filterhtml代码：{{hashName|ellipsis}}js代码：filters:{ellipsis(value){letlen=value.length;if(!value)return''if(value.length>20){returnvalue.substring(0,8)+'......'+va
windows下jar包配置为开机自启动
在jar包目录新建一个start.bat文件，然后写入启动命令java-jarX.jar2.仍然在此目录，新建start.vbs文件，然后写入一下命令，命令最后一个0是隐藏窗口运行createobject("wscript.shell").run"D:\start.bat",03.创建run.vbs的快捷方式，移动到开机自启动目录下：C:\ProgramData\Microsoft\Windows
第三方库xlrd,读取excel中的数据听MM的话
1、安装第三方库=============》xlrdpipinstallxlrd2、代码如下，封装成类的形式，方便调用，提高复用性importxlrdfromxlrdimportxldate_as_tuple'''xlrd中单元格的数据类型数字一律按浮点型输出，日期输出成一串小数，布尔型输出0或1，所以我们必须在程序中做判断处理转换成我们想要的数据类型0empty,1string,2number,
零基础Python入门（1）——手把手安装PyCharm并打印Hello World 名字都被谁用了 Python入门 python pycharm 开发语言
一、Python开发环境全攻略1.1Python的"身份证"——版本选择指南Python目前主流版本分为2.x和3.x两大分支，官方已于2020年正式停止对Python2的维护。对于新手，我们强烈建议选择Python3.10及以上版本。这个版本区间既保留了经典语法特性，又支持最新语法糖（如模式匹配），同时具备良好的第三方库兼容性。版本号小知识：3.10.6中的3表示大版本10代表功能版本6是维护版
消息队列的秘密第四章：门派之争空中湖消息队列的秘密消息队列 java kafka rabbitmq rocketmq
第四章：门派之争技术峰会完成了在天猫和京东的实战任务后，林消息回到了消息队列派总部。队列老祖告诉他，数据江湖即将举行一年一度的"消息中间件技术峰会"，各大消息队列门派的代表将齐聚一堂，交流技术心得，展示最新成果。"这是一个难得的学习机会，"队列老祖对林消息说，“你已经掌握了消息队列的基本理论和实战应用，现在是时候了解不同消息队列技术之间的差异和各自的优势了。”林消息对此充满期待，“弟子一定认真学习
用ESP8266和MicroPython打造WiFi智能遥控小车：从入门到实战
项目概述：WiFi控制的创新体验在物联网技术飞速发展的今天，传统遥控小车早已无法满足创客们的探索欲望。本文将介绍一个基于ESP8266和MicroPython的WiFi遥控小车项目，通过两个ESP8266模块实现无线通信，让你摆脱传统遥控器的束缚，体验物联网控制的乐趣。核心功能亮点WiFi无线控制：无需传统射频模块，通过WiFi网络实现远程操控双ESP8266架构：一个作为车载接收端，一个作为手持
PyCharm高效入门指南：快速提升Python开发效率 famenzhiling python pycharm ide
1.引言PyCharm简介：JetBrains开发的Python集成开发环境（IDE），适用于专业开发者和初学者。为什么选择PyCharm：高效代码编辑、智能工具集成和强大的调试功能。目标读者：Python新手或有其他IDE经验但想快速上手PyCharm的用户。2.安装与初始配置下载与安装：访问JetBrains官网下载PyCharmCommunity（免费版）或Professional（付费版）
Postman + Newman + Jenkins 接口自动化测试 Thomas Kant 自动化测试 postman newman jenkins allure
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】Postman
Python 装饰器使用详解
文章目录0.引言1.什么是装饰器？2.装饰器的基本语法3.装饰器的工作原理4.常见装饰器应用场景4.1.日志记录4.2.权限校验4.3.缓存5.多重装饰器的执行顺序6.装饰器的高级用法6.1.带参数的装饰器6.2.使用`functools.wraps`6.3.类装饰器7.图示说明7.1.单一装饰器的执行流程2.多重装饰器的执行流程3.带参数装饰器的执行流程总结8参考资料0.引言Python装饰器(
豆包教你如何用Python向女生表白 51reboot
一年一度的考试大会又拉开了帷幕其中的一个重头戏就是python了不知道正处于手机前的你为python又掉了多少头发呢but！！！python绝不只是你脱发的工具善于使用你将收获多多比如你知道如何利用python向女生表白吗如果不知道少年，你可要当心啦考试很危险的呢后记：某年月日，某许愿池推文：震惊！某旦python考试题新鲜出炉，考题震惊十几亿中国人！原因竟是。。。待豆包点开推文：一看考试题，嘿哈
python ffmpeg pipe_如何使用python从ffmpeg输出管道？ weixin_39611725 python ffmpeg pipe
我正在尝试将FFmpeg的输出用管道输送到Python中。我正在从一个视频采集卡读取图像，我成功地使用dshow从命令行将其读入输出文件。我正在尝试从卡抓取图像到我的OpenCv代码，以便能够进一步处理数据。不幸的是，当我通过管道输出图像时，我只得到视频的显示，如链接所示：link:s000.tinyupload.com/?file_id=15940665795196022618.我使用的代码如下
python ffmpeg pipe,管道的ffmpeg的输入和输出在python 呼呼啦啦就瘸了 python ffmpeg pipe
I'musingffmpegtocreateavideo,fromalistofbase64encodedimagesthatIpipeintoffmpeg.Outputtingtoafile(usingtheattachedcodebelow)worksperfectly,butwhatIwouldliketoachieveistogettheoutputtoaPythonvariableins
Linux+Python实战课堂：笔记、练习与应用
本文还有配套的精品资源，点击获取简介：本压缩包提供全面的Linux学习资源和Python编程练习，旨在帮助初学者和IT从业者深入理解Linux系统及其技能，并通过Python编程练习巩固相关技能。涵盖Linux基础概念、文件系统、命令行操作、文本编辑器使用、用户和组管理、软件管理、进程监控、网络配置以及系统性能监控等多个方面。同时，包含Python基础语法、函数与模块、面向对象编程、文件操作、异常
C# 设计模式概述 Krik_S c#设计模式开发语言
一、7种常用的面向对象设计原则1.单一职责原则（SRP）：一个对象应该只包含单一的职责，并且该职责被完全封装在一个类中2.开闭原则（OCP）：软件实体应当对扩展开放，对修改关闭3.里氏代换原则（LSP）：所有引用基类的地方必须透明的使用其子类的对象4.依赖倒转原则（DIP）：高层模块不应该依赖低层模块，他们都应该依赖抽象。抽象不应该依赖于细节，细节应该依赖于抽象5.接口隔离原则（ISP）：客户端不
路由器类型与接口详解 wespten 网络协议栈网络设备 5G 物联网网络工具开发网络智能路由器
一、路由器简介路由器是构成IP网络的核心，其最基本的作用就是连接不同类型的网络，智能选择最佳的信息传送线路。除此以外，路由器还具有访问控制功能。路由器也可以算作是一台专用计算机，可以听懂并翻译各种网络协议，就像一个会讲各种语言的人一样。1、路由器功能路由和转发：可以决定数据包从来源端到目的端所经过的路由路径（host到host之间的最佳传输路径），这个过程称为路由。将路由器输入端的数据包移送至适当
C# 开发与 Allen-Bradley PLC 的 EtherNet/IP 通讯接口威哥说编程 c#tcp/ip 开发语言
一、背景与动机Allen-Bradley是RockwellAutomation的核心自动化品牌，其PLC（ProgrammableLogicController）广泛应用于工业自动化领域。Allen-Bradley控制器支持通过EtherNet/IP（IndustrialProtocol）进行通信，这是一种基于工业以太网的开放协议。在工业信息化过程中，越来越多的系统需要将SCADA、MES或自定义
路由器SDH POS接口
SDHPOS可看作“用SDH光纤专线给路由器当超级宽带网线”。1️⃣拆名字SDH 同步数字体系（SynchronousDigitalHierarchy），运营商的骨干光传输标准，颗粒STM-1/4/16/64…（155M/622M/2.5G/10G）。POS PacketoverSDH/PacketoverSONET，把纯IP数据包直接塞进SDH帧里跑，不经过ATM或帧中继。2️⃣物理形态路由器上
Python脚本批量修复文件时间戳，根据文件名或拍摄日期 3D_DLW 储存服务器 python 图片整理修改时间批处理脚本拍摄时间
实现以下功能更正文件的修改时间批量修改指定文件夹中的特定后缀的文件根据文件名中的日期修改（优先）根据jpg文件属性中的拍摄日期修改根据mp4文件属性中的创建媒体日期修改模拟运行（DryRun）模式依赖若需要基于jpg文件属性中的拍摄日期修改，需要python的piexif包pipinstallpiexif若需要基于mp4文件属性中的创建媒体日期修改，需要ffmpegsudoaptinstallff
TCP的socket编程
TCP客户端逻辑voidUsage(conststd::string&process){std::cout4字节IP2.网络序列intn=connect(sockfd,CONV(&server),sizeof(server));//自动进行bindif(n0){charbuffer[1024];ssize_tm=read(sockfd,buffer,sizeof(buffer)-1);if(m>0
Nodejs中process有哪些常用方法？
在Node.js中，process是一个全局对象，提供了与当前Node.js进程互动的接口。它包含了一系列的方法和属性，可以帮助你获取系统信息，处理命令行参数，以及控制进程的行为等。以下是一些process对象的常用方法：process.argv：这不是一个方法，而是一个包含命令行参数的数组。第一个元素是’node’，第二个元素是正在执行的JavaScript文件的路径，接下来的元素则是任何其他命
RT路由器 serial 口ppp multilink 绑定接口配置 yooillk 网络建设与运维网络运维
配置MutlilinkPPP捆绑，编号为1interfacemultilink1ipadd192.168.100.1255.255.255.0pppmultilinkmultilink-group1interfaceserial1/0noipaddencapsulationppp&
深入Python闭包内存泄漏：从原理到实战修复指南清水白石008 Python题库 python python 开发语言
深入Python闭包内存泄漏：从原理到实战修复指南引言：闭包与内存管理的双重挑战在Python编程中，闭包（Closure）作为函数式编程的重要特性，被广泛应用于装饰器、回调函数等场景。然而，当闭包与类实例结合使用时，若处理不当极易引发内存泄漏问题。本文将通过一个典型案例，深入剖析闭包导致内存泄漏的机理，并演示从检测到修复的完整流程，最终提炼出防御性编程的最佳实践。一、内存泄漏闭包案例实录1.1典
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他