萧风博宇

一、爬虫入门知识

成功的秘诀，在永不改变既定的目的。 [ —卢梭 ]

特别声明：这个系列的爬虫相关知识总结，是根据小象学院（分布式爬虫课程）梳理而来。一方面作为自己学习过程的笔记，另一方面给想入门的同学提供参考。

本篇分为以下几部分：

环境搭建
HTTP协议
宽度与深度抓取
不重复抓取策略
网站结构分析
代码示例

环境搭建

该部分比较简单（略）。
网上已经有很多教程了，可以手动安装，用pip安装各种依赖包，也可以安装类似于Anaconda 的集成环境。需要指出的是该系列课程是基于python2的。

Http协议

层协议

物理层：电气连接
数据链路层：交换机、STP、帧中继
网络层：路由器、IP协议
传输层：TCP/UDP协议
会话层：建立通信连接、网络拨号
表示层：每次连接只处理一个请求
应用层：HTTP/FTP

Keep−alive: http是一个请求<->响应模式的典型范例。即客户端向服务器发送一个请求信息，服务器来响应这个信息。在老版本的http中，每个请求都将被创建一个新的连接，在此基础上发送接收请求，其优点是简单、易于理解与实现。但效率很低。; keep-alive功能使得客户端到服务器端的连接持续有效，当出现对服务器的后继请求时，可避免建立重新连接。
默认情况下，http1.1中的所有连接都被保持，除非在请求头或响应头中指明关闭：Connection:Close

Http请求方法

宽度与深度抓取

网页抓取原理

首先从根节点开始抓取，分析根节点超链接放入队列（要求无重复），依次访问队列中的链接，根据策略不同可分为广度优先与深度优先。

深度优先策略

从A到D依次抓取，然后回到C，横向抓取到G，再回到B再横向抓取。

广度优先策略

抓取策略选择

重要的网页往往距离种子站点比较近
万维网的深度并没有很深，一个网页有很多路径可以到达
宽度优先有利于多爬虫并行合作抓取
深度限制与宽度优先相结合

不重复抓取策略

记录抓取历史的方法

将访问过的URL保存到数据库（效率太低）
用HashSet将访问过的URL保存起来。只需接近O(1)的代价就可以查到一个URL是否被访问过了（消耗内存）
URL经过MD5或SHA-1等单向哈希后再保存到HashSet或数据库
Bit-Map方法。建立一个BitSet，将每个URL经过一个哈希函数映射到某一位

实际操作中需要：
评估网站的网页数量(如site:www.taobao.com)
选择合适的HASH算法和空间阈值，降低碰撞几率
选择合适的存储结构和算法

可遵循的原则：

多数情况下不需要压缩，尤其网页数量少的情况
网页量大的情况下，使用Bloom Filter压缩
重点是计算碰撞概率，并根据碰撞概率来确定存储空间的阈值
分布式系统，将散列映射到多台主机的内存

网站结构分析

网站对爬虫的限制
利用sitemap分析网站结构和估算目标网页的规模
直接对目标网页.html进行抓取

代码示例

该示例抓取马蜂窝网站上的各个城市游记数据(该网站结构清晰，比较典型)。

初始声明

import urllib2
import httplib
import re
from pybloomfilter import BloomFilter
import os
request_headers = {
    'host': "www.mafengwo.cn",
    'connection': "keep-alive",
    'cache-control': "no-cache",
    'upgrade-insecure-requests': "1",
    'user-agent': "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.95 Safari/537.36",
    'accept': "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
    'accept-language': "zh-CN,en-US;q=0.8,en;q=0.6"
}
#定义保存游记的目录
dirname = 'mafengwo_city_notes/'
#城市代码
city_code = []

确定如何记录已抓取的网页

这里采用pybloomfilter

download_bf = BloomFilter(1024*1024*16,0.01)
#实际大小需具体分析预估所抓取网页数量

如何下载页面游记

打开www.mafengwo.com会发现所有的游记都是http://www.mafengwo.cn/yj/i/1-0-j.html的格式i是城市代码j是页面序号。因此抓取的思路就是先遍历城市代码，在每个城市下遍历游记页码，在该页码下抓取游记，游记页面格式为www.mafengwo.cn/i/后面跟7位数字。如http://www.mafengwo.cn/i/6536459.html
下载页面游记代码如下：

def download_city_notes(citycode):
#页面最大值设为999，应该没那么多页，但应大于最大页码，下面会有退出条件
    for i in range(1,999):
        url = "http://www.mafengwo.cn/yj/%s/1-0-%d.html" % (citycode,i)
        #判断是否已经抓取，如果是开始下一页
        if url in download_bf:
            continue
            pass
        print 'start open url %s' % (url)
        #即将抓取的放进download_bf
        download_bf.add(url)
        #发起请求
        req_yj = urllib2.Request(url,headers= request_headers)
        #接收响应
        response_yj = urllib2.urlopen(req_yj)
        #读取内容
        htmlcontent_yj = response_yj.read()
        #按游记格式匹配出html
        city_notes_url = re.findall('href="/i/\d{7}.html',htmlcontent_yj)
        # 这里就要判断该页面下游记是否抓完，抓完就返回，进入下一个城市
        if len(city_notes_url)  == 0:
            return
        #下面开始处理每篇游记，因为city_notes_url是一个页面下的所有游记
        for city_note_url in city_notes_url:
            try:
        #游记url
                notes_url = 'http://www.mafengwo.cn%s'%(city_note_url[6:])
        #为避免重复抓取，依然要判断是否已抓
                if notes_url in download_bf:
                    continue
                    pass
                print 'download %s'%(notes_url)
                req_note = urllib2.Request(notes_url,headers=request_headers)
                response_note = urllib2.urlopen(req_note)

                htmlcontent_note = response_note.read()
                #定义游记名
                filename = city_note_url[7:].replace('/','_')
                #打开文件，写入
                fo = open("%s%s"%(dirname,filename), 'wb+')
                fo.write(htmlcontent_note)
                #及时关闭
                fo.close()
                download_bf.add(notes_url)
            except Exception,Arguments:
                print Arguments
                continue

获取城市代码并迭代抓取

因为拿到城市代码，就可以遍历该城市下的游记了，执行入口在此：

if __name__ == '__main__':
#判断目录是否存在，不存在则创建
    if not os.path.exists(dirname):
        os.makedirs(dirname)
        pass
    try:
 #获取城市代码，在目的地页面下，格式为“www.mafengwo.cn/mdd/”
        req = urllib2.Request("http://www.mafengwo.cn/mdd/",headers=request_headers)
        response = urllib2.urlopen(req)
        htmlcontent = response.read()
 #城市主页
        city_home_pages = re.findall('/travel-scenic-spot/mafengwo/\d{5}.html',htmlcontent)
        for city in city_home_pages:
 #截取城市代码
            city_code.append(city[29:34])
 #开始下载该城市下的游记了
            download_city_notes(city[29:34])

    except urllib2.HTTPError,Arguments:
        print Arguments
    except httplib.BadStatusLine:
        print 'BadStatusLine'
    except Exception,Arguments:
        print Arguments

完整代码

嗯下面给出完整代码：

#-*- coding: utf-8 -*-
'''
Created on 31.3, 2017
pachong

Input:      url

Output:     data

@author: xl
'''
import urllib2
import httplib
import re
from pybloomfilter import BloomFilter
import os
from lxml import html
#print  'ww'
request_headers = {
    'host': "www.mafengwo.cn",
    'connection': "keep-alive",
    'cache-control': "no-cache",
    'upgrade-insecure-requests': "1",
    'user-agent': "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.95 Safari/537.36",
    'accept': "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
    'accept-language': "zh-CN,en-US;q=0.8,en;q=0.6"
}
dirname = 'mafengwo_city_notes/'
city_code = []
#download_bf =[]
#defin  bloomfilter
download_bf = BloomFilter(1024*1024*16,0.01)
def download_city_notes(citycode):
    for i in range(1,999):
        url = "http://www.mafengwo.cn/yj/%s/1-0-%d.html" % (citycode,i)
        #if already get
        if url in download_bf:
            continue
            pass
        print 'start open url %s' % (url)
        download_bf.add(url)
        req_yj = urllib2.Request(url,headers= request_headers)
        #print 111
        response_yj = urllib2.urlopen(req_yj)
        #print 222
        htmlcontent_yj = response_yj.read()

        city_notes_url = re.findall('href="/i/\d{7}.html',htmlcontent_yj)
        # if notes is end
        if len(city_notes_url)  == 0:
            return
        for city_note_url in city_notes_url:
            try:
                notes_url = 'http://www.mafengwo.cn%s'%(city_note_url[6:])
                if notes_url in download_bf:
                    continue
                    pass
                print 'download %s'%(notes_url)
                req_note = urllib2.Request(notes_url,headers=request_headers)
                response_note = urllib2.urlopen(req_note)

                htmlcontent_note = response_note.read()
                '''
                print htmlcontent_note
                htmlcontent_note_t = html.parse(htmlcontent_note)
                title = htmlcontent_note_t.find('.//title').text
                '''
                filename = city_note_url[7:].replace('/','_')
                #filename = title
                #save html
                fo = open("%s%s"%(dirname,filename), 'wb+')
                fo.write(htmlcontent_note)
                fo.close()
                download_bf.add(notes_url)
            except Exception,Arguments:
                print Arguments
                continue
                pass
            pass
        pass
    pass





if __name__ == '__main__':
    if not os.path.exists(dirname):
        os.makedirs(dirname)
        pass
    try:
        #get city code
        req = urllib2.Request("http://www.mafengwo.cn/mdd/",headers=request_headers)
        response = urllib2.urlopen(req)
        htmlcontent = response.read()
        # get city homepage
        city_home_pages = re.findall('/travel-scenic-spot/mafengwo/\d{5}.html',htmlcontent)
        for city in city_home_pages:
            city_code.append(city[29:34])
            download_city_notes(city[29:34])
            pass
        print k
    except urllib2.HTTPError,Arguments:
        print Arguments
    except httplib.BadStatusLine:
        print 'BadStatusLine'
    except Exception,Arguments:
        print Arguments

运行结果

你可能感兴趣的:(爬虫,http协议,分布式,py2-爬虫)

零基础小白如何系统学习Spring Boot Victoria Zhu 学习 spring boot 后端
零基础小白如何系统学习SpringBoot一、学习前的准备1.必备基础知识✅Java基础：掌握Java8+的核心语法（类/对象/集合/异常处理）✅Maven/Gradle：理解依赖管理工具的基本使用（pom.xml配置）✅HTTP协议：了解RESTfulAPI设计理念（GET/POST/PUT/DELETE）环境要求公式环境要求公式环境要求公式推荐配置：JDK≥11,IDE=IntelliJIDE
Python广东广州二手房源爬虫数据可视化分析大屏全屏系统开题报告 2401_84688466 程序员信息可视化 python 爬虫
如果需要联系我，可以在CSDN网站查询黄菊华老师在文章末尾可以获取联系方式Python****广东广州二手房源爬虫数据可视化分析大屏全屏系统开题报告XXXX大学**/学校/**学院毕业论文（设计）开题报告书学生姓名所属学院学号专业班级论文（设计）题目Python广东广州二手房源爬虫数据可视化分析大屏全屏系统设计与实现指导教师姓名（职称）开题日期选题依据：1.研究背景与意义；2.国内外研究（应用与发
Python江苏南京二手房源爬虫数据可视化分析大屏全屏系统开题报告 2401_84562041 程序员信息可视化 python 爬虫
Python****江苏南京二手房源爬虫数据可视化分析大屏全屏系统开题报告XXXX大学**/学校/**学院毕业论文（设计）开题报告书学生姓名所属学院学号专业班级论文（设计）题目Python江苏南京二手房源爬虫数据可视化分析大屏全屏系统设计与实现指导教师姓名（职称）开题日期选题依据：1.研究背景与意义；2.国内外研究（应用与发展）现状。1**：研究背景与意义**Python江苏南京二手房源爬虫数据可
Python湖南长沙二手房源爬虫数据可视化分析大屏全屏系统开题报告黄菊华老师大数据库可视化二手房源数据可视化系统
博主介绍：《Vue.js入门与商城开发实战》《微信小程序商城开发》图书作者，CSDN博客专家，在线教育专家，CSDN钻石讲师；专注大学生毕业设计教育和辅导。所有项目都配有从入门到精通的基础知识视频课程，免费项目配有对应开发文档、开题报告、任务书、PPT、论文模版等项目都录了发布和功能操作演示视频；项目的界面和功能都可以定制，包安装运行！！！在文章末尾可以获取联系方式Python湖南长沙二手房源爬虫
分布式光伏监控系统设计能源数字化创业者分布式能源管理
一、产品简介快控光伏运维云平台软件是针对工商业分布式光伏电站设计研发的一款集控管理系统。他通过智能网关采集现场逆变器、气象站、综合测控装置等各类设备的运行数据和状态，实现对光伏电站的24小时实时在线监控诊断，有效的保障了电站的安全运行。同时系统拉通线上线下运维，可极大的提高电站的运维的效率和质量。该平台软件主要有以下几大功能：1、实时在线监控，实时故障监测，第一时间通知电站运维人员及时消除隐患，确
分布式光伏电站经济性指标优化分析罗思付之技术屋网络通信安全及科学技术专栏分布式
摘要结合工程经验，分析了工商业分布式光伏电站平准发电成本（LevelizedCostofEnergy，LCOE）、资本金内部收益率（InternalRateofReturn，IRR）的主要影响因素，其中平准发电成本主要受静态投资影响，资本金内部收益率主要受消纳比影响。针对上述影响因素，进一步讨论了LCOE、IRR指标优化方法与在工程项目中可选用的举措。最后，结合实际项目背景，在站址条件、组件瓦单价
HarmonyNext实战：基于ArkTS的跨设备3D游戏开发 harmonyos-next
HarmonyNext实战：基于ArkTS的跨设备3D游戏开发引言随着移动设备和智能终端的普及，3D游戏开发已成为开发者关注的热点领域。HarmonyNext作为新一代操作系统，提供了强大的分布式能力和高效的图形渲染支持，结合ArkTS语言的灵活性和性能优势，为开发跨设备3D游戏提供了全新的可能性。本文将详细讲解如何基于HarmonyNext和ArkTS开发一款跨设备的3D游戏，涵盖从项目搭建到核
HarmonyNext实战：基于ArkTS的高性能区块链应用开发 harmonyos-next
HarmonyNext实战：基于ArkTS的高性能区块链应用开发引言区块链技术作为一种去中心化、安全可信的分布式账本技术，正在各个领域得到广泛应用。本文将深入探讨如何利用ArkTS语言在HarmonyNext平台上开发一个高性能的区块链应用，涵盖从区块链基础概念到智能合约开发的完整流程。我们将通过一个实际的案例——去中心化投票系统，来展示如何在HarmonyNext上实现区块链技术的落地应用。1.
从前端视角理解消息队列：核心问题与实战指南秋水为渡前端
消息队列（MessageQueue）是现代分布式系统的核心组件之一，它在前后端协作、系统解耦、流量削峰等场景中发挥着重要作用。本文从前端开发者视角出发，解析消息队列的关键问题，并结合实际场景给出解决方案。一、为什么要使用消息队列？1.前端常见场景异步任务处理：用户行为日志上报、实时通知推送流量削峰：应对秒杀活动、大文件上传等瞬时高并发场景系统解耦：前端与后端服务、第三方服务之间的松耦合通信2.前端
鸿蒙与持续集成荔枝寄 harmonyos ci/cd 华为
鸿蒙操作系统（HarmonyOS）是华为公司开发的一款面向未来的分布式操作系统，它能够为各种设备提供统一的操作平台。为了确保鸿蒙应用的高质量和高效开发，持续集成（ContinuousIntegration,CI）实践显得尤为重要。持续集成是一种软件开发实践，即团队成员频繁地将代码集成到共享仓库中，每次集成都通过自动化的构建（包括编译、发布、自动化测试）来验证，从而尽早发现集成错误。鸿蒙与持续集成的
HarmonyOS Next系统架构与核心技术解析披光人 harmonyos 系统架构 wpf
HarmonyOSNext作为华为最新一代的分布式操作系统，旨在为全场景设备提供统一的软件平台。它不仅支持传统的智能手机、平板电脑，还扩展到智能家居、可穿戴设备、车载系统等多种终端。HarmonyOSNext的核心目标是实现“一次开发，多端部署”，通过分布式技术和高效的系统架构，为用户提供更流畅、更智能的使用体验。本文将从系统架构、核心技术、实际应用场景等方面，详细解析HarmonyOSNext的
Python 爬虫实战：艺术品市场趋势分析与交易平台数据抓取西攻城狮北 python 爬虫开发语言
一、引言在当今数字化时代，艺术品市场正经历着前所未有的变革。随着互联网技术的飞速发展，越来越多的艺术品交易转移到了线上平台，这为我们提供了海量的数据资源。通过Python爬虫技术，我们可以抓取艺术品交易平台上的数据，进而分析艺术品市场的趋势，为投资者、收藏家以及艺术爱好者提供有价值的参考。本文将带领读者深入探索Python爬虫在艺术品市场的应用。从爬虫的基本原理到实际代码实现，再到数据的清洗、分析
海量数据查询加速：Presto、Trino、Apache Arrow 晴天彩虹雨 apache 大数据 hive 数据仓库
1.引言在大数据分析场景下，查询速度往往是影响业务决策效率的关键因素。随着数据量的增长，传统的行存储数据库难以满足低延迟的查询需求，因此，基于列式存储、向量化计算等技术的查询引擎应运而生。本篇文章将深入探讨Presto、Trino、ApacheArrow三种主流的查询优化工具，剖析其核心机制，并通过案例分析展示它们在实际业务中的应用。2.Presto：分布式SQL查询引擎2.1Presto介绍Pr
英伟达系列显卡大解析B100、H200、L40S、A100 2301_78234743 java
家里有了变故。。。快手数分秋招一面面经我发现算法岗也不很难进啊(深度学习)算法想转数开…Java零基础校招学习路线突击版（吐血整理）等的花都谢了的华子最后给开了22k，武汉，应该是14a。不过在这几个月里我坚定了搞几年快钱回家和np朋友因骂了hr，boos被封了哈哈哈在央企想被开除需要做什么？2024小米分布式存储研发急招华为2012被毁意向我发现算法岗也不很难进啊(深度学习)在央企想被开除需要做
简单的网页链接爬虫笑颜218 爬虫 python 简单
fromurllib.requestimporturlopenfromurllib.parseimporturljoinfromhtml.parserimportHTMLParser#自定义HTML解析器classLinkParser(HTMLParser):def__init__(self,base_url):super().__init__()self.base_url=base_url#基础
分子动力学仿真软件：ESPResSo_（14）.优化与性能提升 kkchenjj 分子动力学2 模拟仿真仿真模拟分子动力学
优化与性能提升在分子动力学仿真中，性能优化是一个至关重要的环节。高效的仿真可以显著减少计算时间，提高研究效率。本节将详细介绍如何在ESPResSo中进行性能优化，包括并行计算、算法优化、内存管理等方面的内容。并行计算并行计算是提高分子动力学仿真性能的有效手段。ESPResSo支持多种并行计算模式，包括多线程（OpenMP）和分布式计算（MPI）。合理利用这些并行计算模式可以显著提升仿真速度。Ope
Redisson 分布式锁全面解析：锁类型(可重入锁、公平锁、联锁、红锁、读写锁)和锁常见方法解读千层冷面 Redis 分布式
Redisson分布式锁全面解析一、Redisson分布式锁原理Redisson分布式锁基于Redis实现，核心机制如下：Lua脚本保证原子性使用Lua脚本在Redis中执行锁的获取和释放操作，确保多个Redis命令的原子性。可重入锁设计同一线程可重复获取锁，通过计数器记录重入次数，避免死锁。看门狗（Watchdog）自动续期后台线程定期检查锁状态，若锁仍被持有且未完成业务逻辑，则自动延长锁的过期
鸿蒙的 Stage 模型淼学派对 harmonyos 华为
鸿蒙的Stage模型在鸿蒙Next开发中，Stage模型是应用开发的核心架构之一，它为开发者提供了一种高效、灵活的方式来构建分布式应用。本文将详细介绍鸿蒙Stage模型的基本概念、应用配置文件的使用、UIAbility组件的介绍以及如何通过Stage模型开发复杂应用。一、Stage模型的基本概念（一）什么是Stage模型？Stage模型是鸿蒙HarmonyOSAPI9开始新增的应用模型，是目前主推
Go语言分布式ID生成策略优选：UUID、Snowflake、XID、ObjectID、Krand性能对比评测 zhuyasen golang 分布式
在高并发应用场景下，如订单系统、分布式数据库主键、消息队列等，分布式ID的生成至关重要。本文将基于Go语言，对多种分布式ID生成方案进行基准测试（Benchmark），并分析其性能及适用场景，帮助开发者选择最优方案。常见分布式ID生成方案在Go语言生态中，常见的分布式ID生成方案包括：XID（github.com/rs/xid）：基于MongoDBObjectID改进的方案，时间排序、唯一性强、无
R+VIC模型融合实践技术应用及未来气候变化模型预测科研的力量水文地质土壤水文模型 VIC模型
在气候变化问题日益严重的今天，水文模型在防洪规划，未来预测等方面发挥着不可替代的重要作用。目前，无论是工程实践或是科学研究中都存在很多著名的水文模型如SWAT/HSPF/HEC-HMS等。虽然，这些软件有各自的优点；但是，由于适用的尺度主要的是中小流域，所以在预测气候变化对水文过程影响等方面都有所不足。VIC模型是一个大尺度的半分布式水文模型，其设计之初就是为了模拟大流域的水文过程；它能够计算陆地
使用Python编写Web应用程序的框架 - Celery YOUFDJ python 前端开发语言 Python
使用Python编写Web应用程序的框架-CeleryCelery是一个功能强大的Python库，用于编写具有异步任务处理和分布式消息传递功能的Web应用程序。它是一个开源项目，广泛应用于许多大型的网络应用和分布式系统中。本文将介绍Celery框架的基本概念和使用方法，并提供相应的源代码示例来帮助您更好地理解和使用Celery。Celery的安装要开始使用Celery，您需要首先安装它。您可以使用
使用Redis实现分布式锁的技术详解智能编织者 redis 分布式数据库
使用Redis实现分布式锁的技术详解一、引言二、分布式锁的基本概念三、Redis实现分布式锁的原理1.SETNX命令2.SET命令的扩展参数3.Lua脚本保证原子性四、Redis实现分布式锁的步骤1.引入Redis依赖2.加锁实现3.释放锁实现4.设置锁过期时间五、代码演示1.引入依赖2.加锁与释放锁的工具类3.使用示例六、注意事项与优化1.死锁问题2.锁竞争与重试机制一、引言在分布式系统中，多个
Python-Celery-基础用法总结-安装-配置-启动插件开发 Python python web
文章目录1.安装Celery2.配置Celery3.启动Worker4.调用任务5.任务装饰器选项6.任务状态7.定期任务8.高级特性9.监控和管理Celery是一个基于分布式消息传递的异步任务队列。它专注于实时操作，但也支持调度。Celery可以与Django,Flask,Pyramid等Web框架集成，但也可以独立使用。1.安装Celery首先需要安装Celery和一个消息代理（如Rabbit
分布式系统中分布式ID生成方案的技术详解好龙7575 分布式
分布式系统中分布式ID生成方案的技术详解一、分布式系统唯一ID的特点二、分布式系统唯一ID的实现方案1.UUID2.数据库生成ID3.Redis生成ID4.Snowflake雪花算法5.美团Leaf三、总结在复杂的分布式系统中，数据被分散存储在不同的节点上，每个节点都有自己独立的数据库。为了保证数据的唯一性和一致性，我们需要为每个数据项生成一个全局唯一的主键ID。本文将详细解析几种常用的分布式ID
分布式系统中分布式ID生成方案的技术详解扣得A艾分布式
分布式系统中分布式ID生成方案的技术详解在复杂的分布式系统中，数据被分散存储在不同的节点上，每个节点都有自己独立的数据库。为了保证数据的唯一性和一致性，我们需要为每个数据项生成一个全局唯一的主键ID。本文将详细解析几种常用的分布式ID生成方案，包括它们的工作原理、优缺点以及适用场景。一、分布式系统唯一ID的特点全局唯一性：不能出现重复的ID号，这是最基本的要求。趋势递增：在MySQLInnoDB引
C#实现动态验证码生成器：安全防护与实际应用场景 WangMing_X C#实现各种功能工具集 c#安全开发语言验证码图片
一、核心应用场景用户登录/注册验证：防止恶意程序批量注册表单提交防护：确保关键操作由真人执行API接口限流：抵御自动化脚本攻击敏感操作验证：如支付、信息修改等关键步骤数据防爬机制：保护网站内容不被爬虫抓取二、技术实现方案1.基础架构设计//验证码服务架构+------------------------+|验证码生成模块|←随机字符|(CaptchaGenerator)|+------------
《Python实战进阶》No23: 使用 Selenium 自动化浏览器操作带娃的IT创业者 Python实战进阶 python selenium 自动化
No23:使用Selenium自动化浏览器操作摘要Selenium是自动化浏览器操作的“瑞士军刀”，可模拟人类行为操作网页，适用于爬虫、测试、重复任务自动化等场景。本集通过代码驱动实战，从安装配置到复杂交互，带你掌握Selenium的核心技能，并结合电商网站登录、商品下单等真实场景，解决动态加载、反爬等实际问题。核心概念与代码实战1.环境配置与WebDriver基础安装命令：pipinstalls
使用Redis实现分布式锁的技术详解 my1121716951 redis 分布式数据库
使用Redis实现分布式锁的技术详解一、引言二、分布式锁的基本概念三、Redis实现分布式锁的原理1.SETNX命令2.SET命令的扩展参数3.Lua脚本保证原子性四、Redis实现分布式锁的步骤1.引入Redis依赖2.加锁实现3.释放锁实现4.设置锁过期时间五、代码演示1.引入依赖2.加锁与释放锁的工具类3.使用示例六、注意事项与优化1.死锁问题2.锁竞争与重试机制一、引言在分布式系统中，多个
使用Redis实现分布式锁的技术详解 QQ828929QQ redis 分布式数据库
使用Redis实现分布式锁的技术详解一、引言二、分布式锁的基本概念三、Redis实现分布式锁的原理1.SETNX命令2.SET命令的扩展参数3.Lua脚本保证原子性四、Redis实现分布式锁的步骤1.引入Redis依赖2.加锁实现3.释放锁实现4.设置锁过期时间五、代码演示1.引入依赖2.加锁与释放锁的工具类3.使用示例六、注意事项与优化1.死锁问题2.锁竞争与重试机制一、引言在分布式系统中，多个
【Git】本地版本控制 T0uken git 大数据
Git是一个分布式版本控制系统，用于跟踪文件的更改，通常用于源代码管理。它的设计目的是为了协同工作和版本管理，让多个开发人员能够高效地合作开发和维护代码。Git环境配置在官网可以找到对应下载：Git-Downloads(git-scm.com)。安装选项均默认即可也可以在Windows命令行输入：wingetinstall--idGit.Git-e--sourcewinget对于Ubuntu来说，
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他