魔箭胖胖

一个初学者的爬虫总结

1. 爬虫流程

准备url列表
发起请求、获得响应
提取数据，提取url放入url列表
保存数据

聚焦爬虫的流程

注意：提取的数据以url对应的响应为准，浏览器element只能作为参考

2. requests的使用

pip install requests

2.1 基本使用

resp = request.get(url,headers,params)
resp = request.post(url,data,headers)
# 原始数据，bytes类型
resp.content
resp.content.decode()
# 根据响应信息进行有规律的推测网页的编码
resp.text
resp.encoding="utf-8"

2.2 保持会话

session类

session = requests.sesssion() # Session()
session.get()
session.post()
# 每次请求后，会读取响应头的set——cookies，并在下次请求时自动携带

Cookie字符串
从浏览器的请求头中复制一份Cookie

headers = {
    Cookie:"xxxx"
}
requests.get(url,headers=headers)

cookies参数
参数类型：dict

cookies_dict = {}
requests.get(url, headers=headers, cookies=cookies_dict)

2.3 设置UA，设置代理

headers = {
    "User-Agent":"xxx"
}
requests.get(url, headers=headers)

proxies = {
    "http":"http://192.168.1.1:80",
    "http":"http://192.168.1.1:80"
}
requests.get(url, headers=headers, proxies=proxies)

3. xpath提取数据

pip install lxml

3.1 xpath语法

//a[@class='next'] 通过属性值定位标签
//a[text()='下一页'] 通过文本定位标签
//a[contains(@class,'next')] 定位class属性包含next的所有a标签
//a[not(@class or @name)] 定位所有不包含class属性和name属性的a标签

/div//text() 提取div下面的所有文本
/a/@href  提取属性值
/a/text() 提取文本值

/div/a div下面的a标签，a是div的子结点
/div//a  div下面所有的a标签，a是div的后代结点

/a/follow-sibling::*[2] 获取a标签下面的所有兄弟结点的第二个
/a/follow-sibling::ul[1] 获取a标签下面所有ul的兄弟结点的第一个

3.2 lxml模块的使用

from lxml import etree
el = etree.HTML(str or bytes) # 参数可以是str或者bytes类型网页源代码
el.xpath("//a[@class='next']") # 返回是元素类型为element对象的列表
# element 具有xpath方法
el.xpath("//a/@href") # 返回元素类型为str的列表

4. scray框架

4.1 scrapy框架流程

调用start_requests()方法，将start_urls中所有的url构造成request对象，并放入调度器
引擎从调度器的请求队列中取出一个request，通过下载器中间件process_request()方法，交给下载器
下载器发起请求，获得响应，通过下载器中间件process_response()方法，到达引擎，再通过爬虫中间件的process_response()交给爬虫
爬虫提取数据
3.1 提取出来的是数据，通过引擎交给管道
3.2 提取出来的是url，构造请求，通过爬虫中间件的process_request()方法，交给调度器
管道进行数据清洗、数据保存

4.2 scrapy的基本使用

scrapy startproject myspider
cd myspider
scrapy genspider (-t crawl) jd jd.com

yield scrapy.Request(url,callback,meta,dont_filter) # url不会补全
# callback 将来url响应的处理函数
# dont_filter 默认false，过滤请求，重复的请求会被过滤

yield reponse.follow(url,....) # url会自动补全

def parse(self,repsonse):
    item = response.meta['item']
    response.xpath("").extract()
    response.xpath("").extract_first()

4.3 管道

开启管道
在settting中，添加管道的路径

ITEM_PIPELINES = {
   'suning.pipelines.SuningPipeline': 300, # 设置管道获取数据的优先级，数字越低，优先级越高
}

方法

process_item(item,spdier)
    if spider.name = "itcast" # spider当前传递item的爬虫对象
        item...
    return item # 如果下一个管道需要数据，必须返回item

open_spdier(spider) # 每个爬虫开启的时候会执行一次
    # 数据库的连接初始化

close_spdier(spider) # 每个爬虫关闭的时候执行一次
    # 数据库的关闭

4.4 中间件

开启中间件

# SPIDER_MIDDLEWARES = {
#    'suning.middlewares.SuningSpiderMiddleware': 543,
# }

DOWNLOADER_MIDDLEWARES = {
    'suning.middlewares.SeleniumMiddleware': 544,
}

中间件的两个方法

process_request(request,spider):
    return None # 1. 继续请求，
    return Request # 2. 请求不再继续，而是放入调度器
    return Response # 3. 请求不再下载，交给爬虫提取数据

process_response(request,response,spdier):
    return Request # 1. 请求放入调度器
    return Response # 2. 继续经过其他中间件的process_response,或者到达引擎，后续交给爬虫处理

中间件的功能
设置UA

process_request(request,spider):
    request.headers['User-Agent'] = random('UA')

设置代理

process_request(request,spider):
    request.meta['proxy'] = 'http://192.168.1.1:80'

设置cookies（主要是为了反反爬）

process_request(request,spider):
    request.cookies = cookies# 可以从cookies池随机取出一个

scrpay集成selenium

open_spdier(spider):
    if spider.name = "itcast":
        spider.driver = webdirver.Chrome()

close_spider(spider)；
    if spider.name = "itcast":
        spider.driver.quit()

process_request(request,spdier)；
    if spider.name = "itcast":
        spdier.dirver.get(request.url)
        return TextResponse(body=spdier.dirver.page_source,request=request,encoding="utf-8",url=spider.dirver.current_url)

4.5 post请求

scrapy.FormRequest(url,callback,formdata)
scrapy.FormRequest.from_response(response,fromdata,callback)

scrapy中默认开启的cookies传递，即本地请求获得的cookies，会在下次请求自动携带

# Disable cookies (enabled by default)
# COOKIES_ENABLED = False

5. scrapy_redis

scrapy_redis 是scrapy框架的一个扩展组件，实现了两个功能：

增量式爬虫
分布式爬虫

实质：就是将请求队列和指纹集合进行了持久化存储

在seeeting.py中继续配置

# 指定了去重的类
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 制定了调度器的类
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 调度器的内容是否持久化
SCHEDULER_PERSIST = True
REDIS_URL = "redis://127.0.0.1:6379"

5.1 如何去重

1.请求生成指纹

fp = hashlib.sha1()
fp.update(to_bytes(request.method))
fp.update(to_bytes(canonicalize_url(request.url)))
fp.update(request.body or b'')
return fp.hexdigest()

利用hashlib的sha1，对request的请求体、请求url、请求方法进行加密，返回一个40位长度的16进制的字符串，称为指纹

进队

def enqueue_request(self, request):
    if not request.dont_filter and self.df.request_seen(request):
        self.df.log(request, self.spider)
        return False
    self.queue.push(request)
    return True

如果请求需要过滤，并且当前请求的指纹已经在指纹集合中存在了，就不能进入队列了
如果不需要过滤，直接进入队列
如果请求需要过滤，并且请求的指纹是一个新的指纹，进入队列

5.2 实现分布式爬虫

类需要继承自 RedisSpider、RedisCrawlSpider
redis_key:表示，在redis数据库中存储start_urls的键的名称

6. 数据去重

中间件去重

process_response(request,response,spider):
    #set可以是内存set集合，也可以是redis的set
    ret = set.add(md5(response.body))
    if ret == 0:
        return request
    else
        return response

建立复合索引

# 复合索引，加速和去重
stu.ensure_index([("hometown", 1), ("age", 1)], unique=True)
# 根据数据的特征，在mongodb中 对指定字段建立复合索引，所有字段值相同时就无法二次插入了

布隆过滤器

详情请查看

6. 验证码如何搞定？

常见验证码，可以利用云打码平台去处理
利用selemiun破解极验滑动验证码
1. 加载页面，获取滑块对象
2. 获取两个图片（1张是带缺口的图片，1张隐藏的完整的图片）
  - 由于原始图片进行了处理，每一张原图都被拆成52张无序的图片，我们需要找个所有的图片，以及在原图的对应位置，然后将52张图片进行合并
  - 如何合并？创建一个空格图片，将52张图片下载下来，按照指定原图位置填充到空白图片中就可以得到完成的原图
3. 对比两张图片的像素，找到缺口的左上角位置，这里设定，像素差异值（RGB）大于50，认为满足要求，缺口左上角位置的x 即鼠标需要移动的距离
4. 这里不能直接控制鼠标匀速移动，因为这样会被极验平台识别是机器操作，所以模拟人的行为先加速后减速，最后到达位置后，随机算出一个偏移量，再挪动一下，因为拖动的距离不能十分精准，否则也容易被识别是机器操作
  - 如何实现先加速后减速？加速度先正后负

详情请参考

微博宫格验证码
1. 这种验证码一般是频繁登陆后或者账号存在异常时才会显示
2. 首先通过分析，这个宫格只有4个，最多的连接方式位24种，可以先把这24中图片全部下载到本地，根据灰色箭头的指向顺序分别命名这24张图片
3. 利用selenium进行登陆时，如果弹出验证，可以把本次验证的图片下载到本地，和本地的24张图片进行匹配，设定只要99%的像素差值小于20的，认为两张图片匹配上了
4. 获取匹配到的图片的文件名，即滑动的顺序确定
5. 通过xpath找到4个按钮的element，根据滑动顺序，依次完成4个按钮的滑动即可
详情请参考

7. cookie池的维护

7.1 为啥使用cookies？

爬虫中为了获取登陆后页面的数据，必须携带对应的cookies，网站有时候也会根据账号的频繁请求断定当前是一个爬虫程序在请求，可能会进行限制，为了实现反反爬，需要构建cookies池，每次请求都携带不同cookies

7.2 如何实现？

存储形式：存储在redis中，“spider_name:username–password":cookie
需要专门创建一个py文件，包含四个方法：
- initcookies() 初始化所有账号的cookies，将所有账号对用进行登陆获取cookies并保存在redis中
- update_cookie(spider_name,username,password) # 重新获取账号对应的cookies，并存入redis中
- remove_cookie(spider_name,usrname,password) # 从redis中删除改账号对应的cookie
- get_cookie(username,password) # 尝试登陆该账号获取cookies

在scrapy的下载器中间件(RetryMiddleware）继承自的process_request()随机选择一个cookie，进行设置，并在request的meta中保存该cookies对应的账号

def process_request(self,request,spider):
    # 获取redis中所有的键（假设redis中只保存了cookies）
    redisKeys = self.rconn.keys()
    elem = random.choice(redisKeys)
    request.cookies = cookie
    # 在请求中记录当前cookies对应的账号和密码
    request.meta["accountText"] = elem.split(":")[-1]

在中间件的process_response()中获取响应，如果响应状态码是301、302等，说明发生页面重定向，那么当前的这个cookies肯定失效了，需要更新或者删除cookies

def process_response(self,request,response,spider):
    if response.status in [300, 301, 302, 303]:
        # 获取重定向的url
        redirect_url = response.headers["location"]
        if url == "login_url":# 如果是登陆页面，说明当前cookies失效了，需要更新
            username,passworod = request.meta['accountText'].split("--")
            update_cookie(spider_name,username,password)
        elif url=="验证页面":# 说明账号被封了
            username,passworod = request.meta['accountText'].split("--")
            remove_cookie(spider_name,username,password)
        
        # RetryMiddleware中的尝试重新发起请求
        reason = response_status_message(response.status)
        return self._retry(request, reason, spider) or response  # 重试

8. 爬虫数据的存储

一般是mysql和mongodb

爬取的数据通常都是非结构化数据，这在关系模型的存储和查询上面都有很大的局限性。但爬回来的数据汇总处理后需要在网页上展示，此时可能需要和django项目对接，可以把爬虫数据组织成结构化数据，此时存储在mysql更好一些
根据数据量，200w到2000w的数据量相对来说不是很大，二者都可以。但是基本上数据库达到千万级别都会有查询性能的问题，MYSQL单表在超过千万级以上性能表现不佳，所以如果数据持续增长的话，可以考虑用mongodb。毕竟mongodb分片集群搭建起来比mysql集群简单多了，而且处理起来更灵活

9. 常见的反爬虫和应对方法？

通过Headers反爬虫：

很多网站都会对请求Headers的User-Agent进行检测，还有一部分网站会对Referer进行检测（一些资源网站的防盗链就是检测Referer）。这个容易解决，之前收集了一大堆的User-Agent，如果用的scrapy框架，就在爬虫中间件中对reqeust请求添加一个随机的User-Agent，如果是requests库，在请求方法中传入一个包含 User-Agent的headers字典即可

验证码，爬虫爬久了通常网站的处理策略就是让你输入验证码验证是否机器人，此时有三种解决方法
详情请查看6. 验证码如何搞定？
用户行为检测有很多的网站会通过同一个用户单位时间内操作频次来判断是否机器人，比如像新浪微博等网站。这种情况下我们就需要先测试单用户抓取阈值，然后在阈值前切换账号其他用户，如此循环即可。当然，新浪微博反爬手段不止是账号，还包括单ip操作频次等。所以可以使用代理池每次请求更换不同的代理 ip，也可以考虑维护了一个cooies池，在每次请求时随机选择一个cookies。
ajax请求参数被js加密
使用selenium + phantomJS，调用浏览器内核，并利用phantomJS执行js来模拟人为操作以及触发页面中的 js脚本。从填写表单到点击按钮再到滚动页面，全部都可以模拟，不考虑具体的请求和响应过程，只是完完整整的把人浏览页面获取数据的过程模拟一遍。
分布式爬虫，分布式能在一定程度上起到反爬虫的作用，当然相对于反爬虫分布式大的作用还是能做到高效大量的抓取
注意配合移动端、web端以及桌面版其中web端包括m站即手机站和pc站，往往是pc站的模拟抓取难度大于手机站，所以在m站和pc站的资源相同的情况下优先考虑抓取m站。同时如果无法在web端抓取，不可忽略在app以及桌面版的也可以抓取到目标数据资源。

python类变量初始化_python中用函数初始化类变量 | 学步园 weixin_39573512 python类变量初始化
今天在写python的时候遇到一个问题:定义了一个list类型的类变量,但是这个list需要在初始化的时候给它加很多的url进去.这样的话我们就需要用倒函数了.结果自己刚开始这样写的:classTianyaSpider(CrawlSpider):definit_start():url_l=u'http://search.tianya.cn/s?tn=sty&rn=10&pn='url_r=u'&s
open-spider开源爬虫工具：抖音数据采集_抖音直播爬虫采集 2401_83817769 程序员爬虫
静态内容抓取是指从网页中直接提取信息的过程。这通常涉及到以下几个步骤：使用requests库发送HTTP请求，获取网页的原始数据。例如，你可以使用requests.get(url)来获取抖音首页的HTML内容。利用BeautifulSoup库对获取到的HTML进行解析。BeautifulSoup提供了丰富的方法来处理和提取HTML文档中的数据。例如，你可以使用find()或find_all()方法
【ttf压缩】网页开发中引入字体文件过大，加载缓慢的解决办法【字蛛】【web Font】 Luckstar_wei 技术 css html 字体 ttf压缩中文字体压缩
yueyemoyanweb中文字体演示与工具使用请前往主页：http://font-spider.org/需要安装node.js输入以下命令：npminstallfont-spider-g运行安装成功之后就开始压缩了我的目录是这样的我的css文件开头是这样的这里要确保ttf文件一定要有，其他的不管在你的html中也引用了相应的css文件接下来就是最后一步了生成新的字体库nodejs命令行输入fon
Python爬虫实战 weixin_34007879 爬虫 json java
引言网络爬虫是抓取互联网信息的利器，成熟的开源爬虫框架主要集中于两种语言Java和Python。主流的开源爬虫框架包括：1.分布式爬虫框架：Nutch2.Java单机爬虫框架：Crawler4j,WebMagic,WebCollector、Heritrix3.python单机爬虫框架：scrapy、pyspiderNutch是专为搜索引擎设计的的分布式开源框架，上手难度高，开发复杂，基本无法满足快
k8s｜组件基本概念 yygr 容器化 kubernetes docker 容器
https://baijiahao.baidu.com/s?id=1713521946056902545&wfr=spider&for=pc一.什么是kubernetes？kubernetes是一个可移植的，可扩展的开源平台，是Google开源的容器集群管理系统（谷歌内部:Borg)，用于管理容器化的工作负载和服务，可促进声明式配置和自动化。二.为什么使用kubernetes？k8s在Docker
easyspider weixin_30793643 python
#-*-coding:utf-8-*-"""CreatedonFriAug1815:58:132017@author:JClian"""importreimportbs4importurllib.requestfrombs4importBeautifulSoupimporturllib.parseimportsyssearch_item=input("Enterwhatyouwant(Enter'
21.7K Star力荐！跨平台的开源免费可视化爬虫，让数据采集不再是难题！科技Ins 实用工具爬虫
朋友们！你是否曾梦想着轻松地从网上抓取数据，却苦于编程技能的门槛？现在，有了EasySpider，这一切都变得触手可及！这不仅仅是一个工具，它是一个革命性的网络爬虫神器，让你能够像专业人士一样，无需编写一行代码，就能轻松设计和执行爬虫任务。无论是动态内容还是复杂页面，EasySpider都能帮你搞定。而且，它完全免费，开源，跨平台，还有活跃的社区支持。准备好了吗？让我们一探究竟，看看EasySpi
python分布式集群ray_GitHub - Leesire-Python/jd_spider: 两只蠢萌京东的分布式爬虫. weixin_39781930 python分布式集群ray
使用scrapy,scrapy-redis,graphite实现的京东分布式爬虫，以mongodb实现底层存储。分布式实现，解决带宽和性能的瓶颈，提高爬取的效率。实现scrapy-redis对进行url的去重以及调度，利用redis的高效和易于扩展能够轻松实现高效率下载：当redis存储或者访问速度遇到瓶颈时，可以通过增大redis集群数和爬虫集群数量改善版本支持现在支持Py2和Py3,但是需要注
NL2SQL技术方案系列(2)：全系列技术选型完整版：从通用技术选型(向量、图数据库)、大模型选择、Prompt工程、前沿技术方案展示汀、人工智能 LLM工业级落地实践 prompt 人工智能自然语言处理大模型 LLM NL2SQL Text2SQL
NL2SQL技术方案系列(2)：全系列技术选型完整版：从通用技术选型(向量、图数据库)、大模型选择、Prompt工程、前沿技术方案展示NL2SQL基础系列(1)：业界顶尖排行榜、权威测评数据集及LLM大模型（SpidervsBIRD）全面对比优劣分析[Text2SQL、Text2DSL]NL2SQL基础系列(2)：主流大模型与微调方法精选集，Text2SQL经典算法技术回顾七年发展脉络梳理NL2S
spiderkeeper 部署&操作 VictorChi
前言最近发现了一个spdierkeeper的库,这个库的主要用途是在于.配合这scrpyd管理你的爬虫,支持一键式部署,定时采集任务,启动,暂停等一系列的操作.简单来说将scrapyd的api进行封装,最大限度减少你跟命令行交互次数.不得说这个是很棒的事情.https://github.com/DormyMo/SpiderKeeperSpiderKeeper的github连接环境配置由于scrap
NL2SQL技术方案系列(4)：金融领域NL2SQL技术方案以及行业案例实战讲解2 汀、人工智能 LLM工业级落地实践人工智能 LLM 自然语言处理 NL2SQL 大模型应用 Text2SQL AI大模型
NL2SQL技术方案系列(4)：金融领域NL2SQL技术方案以及行业案例实战讲解2NL2SQL基础系列(1)：业界顶尖排行榜、权威测评数据集及LLM大模型（SpidervsBIRD）全面对比优劣分析[Text2SQL、Text2DSL]NL2SQL基础系列(2)：主流大模型与微调方法精选集，Text2SQL经典算法技术回顾七年发展脉络梳理NL2SQL进阶系列(1)：DB-GPT-Hub、SQLco
NL2SQL进阶系列(4)：ConvAI、DIN-SQL、C3-浙大、DAIL-SQL-阿里等16个业界开源应用实践详解[Text2SQL] 汀、人工智能 LLM工业级落地实践人工智能自然语言处理大模型 LLM NL2SQL Text2SQL NLP
NL2SQL进阶系列(4)：ConvAI、DIN-SQL等16个业界开源应用实践详解[Text2SQL]NL2SQL基础系列(1)：业界顶尖排行榜、权威测评数据集及LLM大模型（SpidervsBIRD）全面对比优劣分析[Text2SQL、Text2DSL]NL2SQL基础系列(2)：主流大模型与微调方法精选集，Text2SQL经典算法技术回顾七年发展脉络梳理NL2SQL进阶系列(1)：DB-GP
NL2SQL实践系列(2)：2024最新模型实战效果(Chat2DB-GLM、书生·浦语2、InternLM2-SQL等)以及工业级案例教学汀、人工智能 LLM工业级落地实践人工智能 LLM 自然语言处理 NL2SQL 大模型应用 Text2NLP chat2DB
NL2SQL实践系列(2)：更多模型使用以及工业级案例NL2SQL基础系列(1)：业界顶尖排行榜、权威测评数据集及LLM大模型（SpidervsBIRD）全面对比优劣分析[Text2SQL、Text2DSL]NL2SQL基础系列(2)：主流大模型与微调方法精选集，Text2SQL经典算法技术回顾七年发展脉络梳理NL2SQL进阶系列(1)：DB-GPT-Hub、SQLcoder、Text2SQL开源
科研绘图系列：R语言径向柱状图（Radial Bar Chart）生信学习者2 R语言可视化 r语言数据可视化
介绍径向柱状图（RadialBarChart），又称为雷达图或蜘蛛网图（SpiderChart），是一种在极坐标系中绘制的柱状图。这种图表的特点是将数据点沿着一个或多个从中心向外延伸的轴来展示，这些轴通常围绕着一个中心点均匀分布。特点：极坐标系统：数据点不是在直角坐标系中展示，而是在极坐标系中，围绕一个中心点。多维度数据展示：可以同时展示多个变量的数据，每个变量对应一个轴。视觉集中：所有数据点都围
scrapy中pipeline获取settings参数的方法极客探索者 Python python 爬虫网络爬虫
1、在scrapy的pipeline中，获取settings参数，可使用如下方式：defopen_spider(self,spider):settings=spider.settingsweb_dir_dict=settings.get('WEB_DIR_DICT',{})也可以采用如下方式：fromscrapy.utils.projectimportget_project_settings###
【选型】数据库 Mysql MariaDB 存储引擎选择我是Superman丶数据库架构心得数据库 mysql mariadb
【选型】数据库MysqlMariaDB存储引擎选择MariaDB新增十多个存储引擎，比较有特色的有：（1）Aria：适用于快速读取快速写入场景，替代为人诟病的MyISAM，支持事务，支持崩溃恢复；（2）TokuDB：适用于大数据量写入场景，支持事务，支持高压缩比，减少存储空间；（3）Spider：适用于水平分片场景，支持数据分片，将数据分布在多个服务器上；（5）DynamicComumns：支持动
NL2SQL进阶系列(5)：论文解读业界前沿方案（DIN-SQL、C3-SQL、DAIL-SQL、SQL-PaLM）、新一代数据集BIRD-SQL解读汀、人工智能 LLM工业级落地实践 copilot 人工智能 NL2SQL LLM 自然语言处理 NL2DSL Text2SQL
NL2SQL进阶系列(5)：论文解读业界前沿方案（DIN-SQL、C3-SQL、DAIL-SQL）、新一代数据集BIRD-SQL解读NL2SQL基础系列(1)：业界顶尖排行榜、权威测评数据集及LLM大模型（SpidervsBIRD）全面对比优劣分析[Text2SQL、Text2DSL]NL2SQL基础系列(2)：主流大模型与微调方法精选集，Text2SQL经典算法技术回顾七年发展脉络梳理NL2SQ
Vuex状态管理 EO_eaf6
参考：https://baijiahao.baidu.com/s?id=1618794879569468435&wfr=spider&for=pc简单入门加实例：转自：https://www.jianshu.com/p/ff2adb84c7f2针对于vue之间各个组件的传值复杂问题使用vuex来管理状态值，值一旦被修改，所有引用的地方会自动更新index文件创建Vuex.Store实例保存到变量s
Scrapy入门学习晚睡早起₍˄·͈༝·͈˄*₎◞ ̑̑ Python scrapy 学习 python 开发语言笔记
文章目录Scrapy一.Scrapy简介二.Scrapy的安装1.进入项目所在目录2.安装软件包Scrapy3.验证是否安装成功三.Scrapy的基础使用1.创建项目2.在tutorial/spiders目录下创建保存爬虫代码的项目文件3.运行爬虫4.利用css选择器+ScrapyShell提取数据例如:Scrapy一.Scrapy简介Scrapy是一个用于抓取网站和提取结构化数据的应用程序框架，
寻参算法之蜘蛛猴优化算法 Network_Engineer 机器学习启发式算法算法深度学习人工智能机器学习
蜘蛛猴优化算法（SpiderMonkeyOptimization,SMO）来历蜘蛛猴优化算法（SpiderMonkeyOptimization,SMO）是受蜘蛛猴觅食行为启发的一种群体智能优化算法。该算法通过模拟蜘蛛猴在森林中觅食的行为，解决复杂的优化问题。自然界中的原型在自然界中，蜘蛛猴在觅食时会通过跳跃和移动寻找食物。蜘蛛猴群体通过信息共享和合作行为，能够高效地找到食物源。SMO通过模拟这一行
scrapy 爬取当当网-图书排行榜-多条件爬取韩小禹
自学爬虫框架scrapy，爬取当当网-图书排行榜练手目标：爬取当当网-图书畅销榜中的图书数据，要求各种条件的数据都要有。dangdang.pngspider#-*-coding:utf-8-*-importscrapyfromdd_book.itemsimportDdBookItemfromseleniumimportwebdriverfromselenium.common.exceptionsi
Python爬虫项目（附源码）70个Python爬虫练手实例！硬核Python 职业与发展 python 编程 python 爬虫开发语言
文章目录Python爬虫项目70例（一）：入门级Python爬虫项目70例（二）：pyspiderPython爬虫项目70例（三）：scrapyPython爬虫项目70例（四）：手机抓取相关Python爬虫项目70例（五）：爬虫进阶部分Python爬虫项目70例（六）：验证码识别技术Python爬虫项目70例（七）：反爬虫技术读者福利1、Python所有方向的学习路线2、Python课程视频3、精
分布式scrapy_redis源码总结，及其架构 Python之战
分布式scrapy的组件源码介绍完了，大致总结一下，相关组件目录如下：《RedisSpider的调度队列实现过程及其源码》《scrapy中scrapy_redis分布式内置pipeline源码及其工作原理》《scrapy分布式调度源码及其实现过程》《scrapy分布式Spider源码分析及实现过程》《scrapy分布式去重组件源码及其实现过程》《scrapy_redis中序列化源码及其在程序设计中
python 使用selenium等爬虫技术爬取某华网叶宇燚 Python python selenium 爬虫
本程序可以根据时间要求获取某华网上不同模块的新闻内容，时间要求包括设置截止日期，以及时间间隔，比如说获取距离2023-04-20一天以内的新闻。主要使用了selenium有关的爬虫技术，具体实现如下：目录目录一、SpiderXinhua类的基础属性二、日期获取与格式转换的函数timeinhref三、得到可用的网页链接need_hrefget四、单模块新闻获取xinhua_onemokuai_url
python从小白到大师-第一章Python应用（五）应用领域与常见包-爬虫安城安基本语言教程 python 爬虫开发语言后端服务器网络
目录一.爬虫1.1urllib1.2requests1.3scrapy1.4pySpider总结一.爬虫1.1urlliburllib是Python标准库中的一个模块，它提供了一组用于处理URL（统一资源定位符）的函数和类。通过urllib，我们可以方便地进行URL的解析、访问和处理。该模块主要包括以下几个子模块：urllib.request：用于发送HTTP请求和获取远程数据的模块。urllib
初识Spider GHope
SpiderSpider网络爬虫（webcrawler），以前经常称之为网络蜘蛛（spider），是按照一定的规则自动浏览万维网并获取信息的机器人程序（或脚本），曾经被广泛的应用于互联网搜索引擎。使用过互联网和浏览器的人都知道，网页中除了供用户阅读的文字信息之外，还包含一些超链接。网络爬虫系统正是通过网页中的超链接信息不断获得网络上的其它页面。正因如此，网络数据采集的过程就像一个爬虫或者蜘蛛在网络
爬虫学习笔记-scrapy爬取电影天堂(双层网址嵌套) DevCodeMemo 爬虫学习笔记
1.终端运行scrapystartprojectmovie,创建项目2.接口查找3.终端cd到spiders,cdscrapy_carhome/scrapy_movie/spiders,运行scrapygenspidermvhttps://dy2018.com/4.打开mv,编写代码,爬取电影名和网址5.用爬取的网址请求,使用meta属性传递name,callback调用自定义的parse_sec
爬虫学习笔记-scrapy爬取当当网 DevCodeMemo 爬虫学习笔记
1.终端运行scrapystartprojectscrapy_dangdang,创建项目2.接口查找3.cd100个案例/Scrapy/scrapy_dangdang/scrapy_dangdang/spiders到文件夹下,创建爬虫程序4.items定义ScrapyDangdangItem的数据结构(要爬取的数据)src,name,price5.爬取src,name,price数据导入items
网易云音乐爬取小实战大码农丿爬虫 python
fromseleniumimportwebdriver#驱动浏览器fromselenium.webdriver.common.byimportBy#选择器importtime,os,refromrequests_htmlimportHTMLSession#和requests模块的使用差不太多#构建请求对象session=HTMLSession()classSpider():os_path=os.g
基于python的分布式爬虫框架_基于scrapy-redis的通用分布式爬虫框架 summer_ccs
spiderman基于scrapy-redis的通用分布式爬虫框架目录demo采集效果爬虫元数据cluster模式standalone模式kafka实时采集监控功能自动建表自动生成爬虫代码，只需编写少量代码即可完成分布式爬虫自动存储元数据，分析统计和补爬都很方便适合多站点开发，每个爬虫独立定制，互不影响调用方便，可以根据传参自定义采集的页数以及启用的爬虫数量扩展简易，可以根据需要选择采集模式，单机
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S