scrapy-redis分布式爬虫的搭建过程(理论篇)

1. 背景

Scrapy 是一个通用的爬虫框架，但是不支持分布式，Scrapy-redis是为了更方便地实现Scrapy分布式爬取，而提供了一些以redis为基础的组件(仅有组件)。

2. 环境

系统：win7
scrapy-redis
redis 3.0.5
python 3.6.1

3. 原理

3.1. 对比一下scrapy 和 Scrapy-redis 的架构图。

scrapy架构图：

scrapy-redis 架构图：

多了一个redis组件，主要影响两个地方：第一个是调度器。第二个是数据的处理。 3.2. Scrapy-Redis分布式策略。

作为一个分布式爬虫，是需要有一个Master端（核心服务器）的，在Master端，会搭建一个Redis数据库，用来存储start_urls、request、items。Master的职责是负责url指纹判重，Request的分配，以及数据的存储（一般在Master端会安装一个mongodb用来存储redis中的items）。出了Master之外，还有一个角色就是slaver（爬虫程序执行端），它主要负责执行爬虫程序爬取数据，并将爬取过程中新的Request提交到Master的redis数据库中。

如上图，假设我们有四台电脑：A， B， C， D ，其中任意一台电脑都可以作为 Master端或 Slaver端。整个流程是：

首先Slaver端从Master端拿任务（Request、url）进行数据抓取，Slaver抓取数据的同时，产生新任务的Request便提交给 Master 处理；
Master端只有一个Redis数据库，负责将未处理的Request去重和任务分配，将处理后的Request加入待爬队列，并且存储爬取的数据。

Scrapy-Redis默认使用的就是这种策略，我们实现起来很简单，因为任务调度等工作Scrapy-Redis都已经帮我们做好了，我们只需要继承RedisSpider、指定redis_key就行了。

缺点是，Scrapy-Redis调度的任务是Request对象，里面信息量比较大（不仅包含url，还有callback函数、headers等信息），可能导致的结果就是会降低爬虫速度、而且会占用Redis大量的存储空间，所以如果要保证效率，那么就需要一定硬件水平。

4. 运行流程

第一步：在slaver端的爬虫中，指定好 redis_key，并指定好redis数据库的地址，比如：

class MySpider(RedisSpider):
  """Spider that reads urls from redis queue (myspider:start_urls)."""
  name = 'amazon'
  redis_key = 'amazonCategory:start_

# 指定redis数据库的连接参数
'REDIS_HOST': '172.16.1.99',
'REDIS_PORT': 6379,

第二步：启动slaver端的爬虫，爬虫进入等待状态，等待 redis 中出现 redis_key ，Log如下：

2017-12-12 15:54:18 [scrapy.utils.log] INFO: Scrapy 1.4.0 started (bot: scrapybot)
2017-12-12 15:54:18 [scrapy.utils.log] INFO: Overridden settings: {'SPIDER_LOADER_WARN_ONLY': True}
2017-12-12 15:54:18 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.logstats.LogStats']
2017-12-12 15:54:18 [myspider_redis] INFO: Reading start URLs from redis key 'myspider:start_urls' (batch size: 110, encoding: utf-8
2017-12-12 15:54:18 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
 'redisClawerSlaver.middlewares.ProxiesMiddleware',
 'redisClawerSlaver.middlewares.HeadersMiddleware',
 'scrapy.downloadermiddlewares.retry.RetryMiddleware',
 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
 'scrapy.downloadermiddlewares.stats.DownloaderStats']
2017-12-12 15:54:18 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
 'scrapy.spidermiddlewares.referer.RefererMiddleware',
 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
 'scrapy.spidermiddlewares.depth.DepthMiddleware']
2017-12-12 15:54:18 [scrapy.middleware] INFO: Enabled item pipelines:
['redisClawerSlaver.pipelines.ExamplePipeline',
 'scrapy_redis.pipelines.RedisPipeline']
2017-12-12 15:54:18 [scrapy.core.engine] INFO: Spider opened
2017-12-12 15:54:18 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2017-12-12 15:55:18 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2017-12-12 15:56:18 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)

第三步：启动脚本，往redis数据库中填入redis_key（start_urls）

#!/usr/bin/env python
# -*- coding:utf-8 -*-

import redis

# 将start_url 存储到redis中的redis_key中，让爬虫去爬取
redis_Host = "172.16.1.99"
redis_key = 'amazonCategory:start_urls'

# 创建redis数据库连接
rediscli = redis.Redis(host = redis_Host, port = 6379, db = "0")

# 先将redis中的requests全部清空
flushdbRes = rediscli.flushdb()
print(f"flushdbRes = {flushdbRes}")
rediscli.lpush(redis_key, https://www.baidu.com)

第四步：slaver端的爬虫开始爬取数据。Log如下：

2017-12-12 15:56:18 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
parse url = https://www.baidu.com, status = 200, meta = {'download_timeout': 25.0, 'proxy': 'http://proxy.abuyun.com:9020', 'download_slot': 'www.baidu.com', 'download_latency': 0.2569999694824219, 'depth': 7}
parse url = https://www.baidu.com, status = 200, meta = {'download_timeout': 25.0, 'proxy': 'http://proxy.abuyun.com:9020', 'download_slot': 'www.baidu.com', 'download_latency': 0.8840000629425049, 'depth': 8}
2017-12-12 15:57:18 [scrapy.extensions.logstats] INFO: Crawled 2 pages (at 2 pages/min), scraped 1 items (at 1 items/min)

第五步：启动脚本，将redis中的items，转储到mongodb中。

这部分代码，请参照：scrapy-redis分布式爬虫的搭建过程（代码篇）

5. 环境安装以及代码编写

5.1. scrapy-redis环境安装

pip install scrapy-redis

代码位置：后面可以进行修改定制。

5.2. scrapy-redis分布式爬虫编写

第一步，下载官网的示例代码，地址：https://github.com/rmax/scrapy-redis （需要安装过git）

git clone https://github.com/rmax/scrapy-redis.git

官网提供了两种示例代码，分别继承自 Spider + redis 和 CrawlSpider + redis

第二步，根据官网提供的示例代码进行修改。

到此这篇关于scrapy-redis分布式爬虫的搭建过程(理论篇)的文章就介绍到这了,更多相关scrapy redis分布式爬虫搭建内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

你可能感兴趣的:(scrapy-redis分布式爬虫的搭建过程(理论篇))

1.1 python中定义变量与数据类型乏眸 python
一、定义变量1.定义变量语法：变量名=值2.使用变量3.看变量的特点#定义变量：存储数据TOMmy_name='TOM'print(my_name)#定义变量：存储数据SerendipityschoolName='Serendipity'print(schoolName)二、数据类型数值：int（整型），float（浮点型）布尔型：true（真），false（假）str（字符串），list（列表）
uniapp开发小程序时，css设置的背景图无法显示？小跳不会Coding uniapp 前端
uniapp开发小程序时，css设置的背景图无法显示问题：（如何解决）第一种方式：将图片转为base64格式。使用站长工具，base64图片在线转换工具(https://tool.chinaz.com/tools/imgtobase)第二种方式：</view
SQL注入与防御-第四章-7：带外通信+自动利用工具在安全厂商修设备 SQL注入与防御 sql 网络安全 web安全
SQL注入利用——带外通信（OOB）一、核心概念：什么是带外通信？在SQL注入中，带外通信（OOB,OutOfBand）指：突破“请求与响应在同一信道（如HTTP）”的限制，通过其他独立信道（如邮件、DNS、文件系统、网络连接）传输数据。解决“无法通过正常响应获取结果”的问题（如盲注场景、响应被过滤时）。二、带外通信的适用场景当遇到以下情况时，OOB是关键突破点：盲注无法高效获取数据：时间盲注、布
SQL注入与防御-第四章-5：权限提升在安全厂商修设备 SQL注入与防御 sql 网络安全 web安全
SQL注入利用——权限提升全解析（按数据库分类拆解）一、核心背景与目标在SQL注入攻击中，权限提升是突破“普通用户限制”的关键步骤。攻击者通过利用数据库漏洞、配置缺陷或内置功能，将普通用户权限提升至管理员（如SQLServer的sysadmin、Oracle的DBA），从而：访问所有数据库、表、敏感数据（如密码、配置）。执行高危操作（如修改数据、创建后门、远程命令执行）。二、SQLServer权限
SQL注入与防御-第四章-6：窃取哈希口令在安全厂商修设备 SQL注入与防御 sql 网络安全 web安全
SQL注入利用——窃取哈希口令一、核心逻辑：哈希口令的价值与窃取路径数据库中，用户口令通常以哈希形式存储（防明文泄露）。攻击者通过SQL注入窃取哈希后，可：暴力破解：用工具（如JohntheRipper）枚举原始口令。横向渗透：利用“用户reused口令”（同一口令用于多系统）入侵其他设备。不同数据库的哈希存储位置、算法差异极大，需针对性分析。二、SQLServer：哈希存储与窃取（分版本）（一）
SQL注入与防御—第二章-2：确认SQL注入与自动化工具介绍在安全厂商修设备 SQL注入与防御 sql 网络安全 web安全
SQL注入发现-确认SQL注入一、核心逻辑：精准验证注入点确认SQL注入，是在发现疑似注入的基础上，通过构造特定payload，精准验证输入点是否可控、能否影响SQL执行逻辑，核心是“构造测试语句→观察响应差异→判定注入存在”。二、确认注入的关键方法（一）区分数字与字符串注入1.原理数据库对数字、字符串的解析规则不同（数字无需单引号，字符串需单引号包裹）。通过构造含单引号、数字运算的payload
SQL注入与防御-第三章：复查代码中的SQL注入
复查代码中的SQL注入一、核心逻辑通过静态/动态代码分析，识别代码中直接拼接用户输入、未验证过滤的危险编码行为，定位“将用户可控数据传入SQL执行函数”的风险点，从代码源头预防SQL注入。核心是识别“用户输入→危险函数→SQL执行”的未净化链路，结合多场景适配，切断注入风险。二、关键步骤与方法（一）代码分析方法1.静态代码分析原理：不执行代码，直接审计源码，查找“用户输入拼接SQL”的危险逻辑。重
Python基础——变量和数据类型全端工程师 python基础 python 开发语言
Python基础——变量和数据类型前言一、什么是变量1.1为什么需要变量1.2变量的基本概念1.3变量的命名规则二、数据类型2.1什么是数据类型2.2使用`type()`函数2.3使用不同的数据类型三、类型转换3.1类型转换的基本概念3.2类型转换函数(显示类型转换)3.3隐式类型转换3.4类型转换的注意事项四、变量的使用五、总结前言今天我们开始学习Python编程的基础——变量和数据类型。这些概
多线程和JUC
进程进程就是正在运行的程序，是系统进行资源分配和调用的独立单位。每一个进程都有他自己的内存空间和系统资源多进程意义在于计算机可以执行多个任务，提高cpu使用率我们在一边玩游戏，一边听音乐的时候，是cpu在做着程序间的高效切换让我们觉得是同时进行的注意：很多多线程是模拟出来的，真正的多线程是指有多个cpu，即多核，如服务器。如果是模拟出来的多线程，即在一个cpu的情况下，在同一时间点，cpu只能执行
Compython：在线Python代码托管与实时执行平台古斯塔夫歼星炮
本文还有配套的精品资源，点击获取简介：Compython是一个在线平台，允许用户在浏览器中托管、分享并运行Python代码，适合编程初学者、教育者和开发者快速测试。该服务提供了Web交互式编程环境，并支持Markdown和版本控制。同时，为了安全起见，采用了沙箱环境以及对上传代码的审查。此外，用户可以结合HTML和Python创建交互式网页应用，平台提供JupyterNotebook风格的界面。服
LangChain4j如何自定义文档转换器实现数据清洗？古斯塔夫歼星炮
LangChain4j提供了3种RAG（Retrieval-AugmentedGeneration，检索增强生成）实现，我们通常在原生或高级的RAG实现中，要对数据进行清洗，也就是将外接知识库中的原数据进行噪音去除，留下有价值的信息。例如在带有HTML标签的文本中，HTML标签就是噪音，他对于搜索结果是没有任何帮助，甚至会影响查询结果的，因此我们就需要将HTML标签进行清除。那问题来了，怎么进行数
python定义向量内积_Python 设计一个向量类，实现数据的输入、输出、向量的加法、减法、点积、夹角等计算... weixin_39927623 python定义向量内积
Python设计一个向量类，实现数据的输入、输出、向量的加法、减法、点积、夹角等计算练习题2018.10.25importmathclassVectors:def__init__(self):self.x1=0self.x2=0self.y1=0self.y2=0self.x=self.x2-self.x1self.y=self.y2-self.y1defadd(self):self.x1=int
python win32con_python win32com.client weixin_39604598 python win32con
#创建#wordw=win32com.client.Dispatch("Word.Application")w=win32com.client.DispatchEx("Word.Application")#使用启动独立的进程#excelxlApp=win32com.client.Dispatch("Excel.Application")#后台运行,不显示,不警告w.Visible=0;w.Disp
纯零基础小白设计的PyCharm + Django 5入门学习大纲001 韩公子的Linux大集市 Python3数据分析 pycharm django 学习
文章目录阶段1：预备知识（1-2天）阶段2：Django初体验（3-5天）阶段3：动手做网页（核心2周）阶段4：实战小项目（1周）阶段5：部署与进阶（可选）避坑指南（小白必看！）学习资源推荐以下是为纯零基础小白设计的PyCharm+Django5入门学习大纲，分阶段渐进式学习，含关键实操点：阶段1：预备知识（1-2天）Python基础速成变量、数据类型、条件语句（if）、循环（for/while）
mysql 内积_Python如何计算两行数据内积
Python计算两行数据内积的方法：首先使用【mat()】方法；然后将每组数据分别放到方法里转换为矩阵；再使两矩阵相乘；最后进行转换即可。>>>a=mat([[1],[2],[3]]);>>>b=mat([[0],[2],[3]]);>>>amatrix([[1],[2],[3]])>>>bmatrix([[0],[2],[3]])>>>a.T*bmatrix([[13]])上面为两个列向量的内积
React应用中的受保护路由与Flux架构息相吹受保护路由重定向机制 Flux架构单向数据流 Backbone模型
背景简介React.js因其组件化和声明式的编程范式受到了前端开发者的广泛喜爱。然而，对于大型应用来说，仅仅依赖React.js是不够的，特别是在状态管理和数据流方面。本文将结合书籍内容，探讨如何在React应用中实现受保护路由和如何采用Flux架构简化应用的状态管理。受保护路由的实现与重定向机制在React应用中，受保护路由是一种常见的需求，它确保未经授权的用户无法访问需要认证的页面。例如，如果
mobaxterm终端sqlplus乱码问题解决胡斌附体数据库 sqlplus 字符集设置乱码
背景。使用mobaxterm终端连接linux。在查询数据库表注释时发现**？**中文乱码。影响对表的分析。完成以下三个编码设置再打开sqlplus查询含中文的数据就正常了总结。需要查看sqlplus的编码是什么SELECTparameter,valueFROMnls_database_parametersWHEREparameterIN('NLS_CHARACTERSET','NLS_NCHAR
React和Redux技术结合打造单页应用 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2015年，Facebook推出React项目，打破了开发界的界限，鼓励组件化开发，促进了前端工程师和前端社区的创新。同年，Redux出现，将状态管理工具集成到前端，赋予了前端更强大的能力。ReactRedux是一个结合了React和Redux的全栈框架，可以帮助开发者快速构建具有复杂交互和动态UI特性的web应用。在本文中，我将详细介绍ReactRedux的基
CentOS7之Dify部署 weifacai docker
CentOS安装时IP4设置成手动，DNS设置为8.8.8.8,8.8.4.4宝塔安装地址：宝塔面板下载，免费全能的服务器运维软件1.CentOS安装DockerDockerCE支持64位版本CentOS7，并且要求内核版本不低于3.10，CentOS7满足最低内核的要求，所以我们在CentOS7安装Docker。1.1.卸载（可选）如果之前安装过旧版本的Docker，可以使用下面命令卸载：yum
SurveyForge：AI自动撰写综述论文的革命性工具，助力科研效率跃升花生糖@ AIGC学习资料库人工智能 AI论文 AI助手
在学术研究领域，综述论文（SurveyPaper）的撰写是一项耗时且复杂的任务，通常需要数周甚至数月的文献调研与内容整合。如今，上海人工智能实验室、复旦大学与上海交通大学联合开源的SurveyForge，通过创新的AI技术，将这一过程压缩至10分钟内，且生成质量接近人工水平，成为科研人员的得力助手。项目简介SurveyForge是一款基于大语言模型（LLM）的自动综述论文生成工具，专为计算机科学领
flux介绍 tqs_12345 java 架构 react.js
Flux是一种前端应用开发架构，由Facebook的一群工程师提出，主要用于管理数据流。Flux的核心思想是利用单向数据流和逻辑单向流来解决MVC架构中状态混乱、数据流管理混乱的问题。Flux应用由三个主要部分组成：Dispatcher、Store和View。Dispatcher是应用的调度中心，负责接收并分发Action。Store负责存储应用状态，同时响应事件并更新数据。View则负责订阅来自
python 求向量间内积和外积
#内积可以描述向量间的投影关系，大小为|a||b|cos⟨a,b⟩：python向量内积求向量长度：importnumpyasnpa=np.asarray([1,1,1])print(np.sqrt(a.dot(a
【多线程】线程的引入，创建线程的方式，设置线程名字、获取名字，线程优先级priority，加入休眠的方法，，后台线程，礼让线程，Join，中断线程，某电影院，共有100张票线程流程图，3售票窗口，心盲i1 Java基础多线程 java
多线程1.线程的引入进程：正在运行的程序，是系统进行资源分配和调用的独立单位。每一个进程都有它自己的内存空间和资源。线程：是进程的单个顺序控制流，或者说就是一个单独执行的路径一个进程如果只有一条执行路径，称之为单线程一个进程如果有多条执行路径，称之为多线程线程是包含在进程中。举例：扫雷，360杀毒软件，百度网盘了解三个关键词：1、串行，指的是一个程序中所有的任务都是按照先后顺序执行的，在前一个任务
地面电力巡检机器人系统设计（支持资料参考_相关定制）
摘要随着时代的发展，电力基础设施建设逐‎‏渐成为‎‏经济发‎‏展的重‎‏要一环‎‏。目前‎‏，巡检‎‏作业方‎‏式仍旧‎‏是以人‎‏工巡视‎‏为主，‎‏这样就‎‏会使得‎‏检修时‎‏间滞后‎‏，导致‎‏输电线‎‏路运行‎‏效率低‎‏下。机器人对释放劳动力和提高人们生活水平有着不可替代的地位,已经成为各国科技发展的重要战略。机器人可以为我们做一些我们人类做不到的事情也可以帮助我们去一些危险地区探索或
Dify搭建私有知识库指南挑战者666888 AI模型应用实战人工智能自然语言处理机器学习
系列文章目录CentOS系统高效部署Dify全攻略文章目录系列文章目录Dify搭建私有知识库指南一、引言二、环境准备与基础配置（含Linux命令）1.硬件要求2.软件依赖安装（Linux命令）3.安装Dify（Docker-compose部署）4.初始化设置三、数据接入与知识库构建（含实战案例）1.数据源接入示例2.数据预处理3.向量化存储配置实战案例：企业产品手册知识库四、检索与增强功能实现1.
MySQL · 特性分析 ·MySQL 5.7新特性系列挑战者666888 mysql mysql adb 后端
文章目录1.背景2.我们先大致看下InnoDB的undo在不同的版本上的一些演进:3.MySQL5.7的版本上3.1接下来我们详细看下5.7的InnoDBundo的管理：3.1.1undo表空间创建3.1.2rollbacksegment的分配如下：3.1.3InnoDBundo的空间管理简图如下：undo空间管理1.rsegslot2.rsegheader3.undosegmentheaderu
国内中小制造业“内卷”困局六大问题：盟接之桥的六大建议盟接之桥制造人工智能大数据服务器运维数据可视化
近年来，中国制造业正面临前所未有的“内卷”压力。企业不仅要应对不断压缩的利润空间，还需在复杂的供应链、生产流程和客户需求之间艰难平衡。本文基于多位制造业老板的实际反馈，梳理当前行业的主要痛点，并结合“盟接之桥”的专业建议，提出切实可行的破局路径。一、当前制造业面临的六大核心问题账期压力加剧现金流紧张大客户普遍要求3个月账期，甚至6个月银行承兑汇票结算。导致企业资金链长期处于高压状态，尤其对中小型企
vue中的mixin传参（混入）的用法牧杉-惊蛰 vue.js 前端 javascript
项目场景：提示：这里简述项目相关背景：在项目开发的过程中总会遇到一些需要复用的事件和逻辑，我们可以将其单独的抽离出来，放到一个js文件中，在需要的地方进行引入，比如通过mixin混入实现。用于实现把多个组件共用的配置提取成一个混入对象今天在做uniapp是遇到一个问题，uniapp在做微信小程序的时候背景图class中的background-image不生效，需要在标签中使用style，且路径需要
npm(或pnpm)时报：证书过期 certificate has expired问题牧杉-惊蛰 npm 前端 node.js
项目场景：提示：这里简述项目相关背景：首先安装pnpmnpminstall-gpnpm//检查安装成功的版本pnpm-v在拉芋道管理系统，安装依赖pnpmi时报证书过期更改了镜像也一样解决方案：提示：这里填写该问题的具体解决方案：1：有时候更改镜像是可以的npmconfigsetregistryhttp://registry.cnpmjs.orgnpmconfigsetregistryhttp:/
SQLRecoverableException: 关闭的连接尝试解决办法一朵梨花压海棠go java 前端服务器
错误效果：[11:31:31][ERROR]-com.alibaba.druid.util.JdbcUtils.close(JdbcUtils.java:109)-closestatementerrorjava.sql.SQLRecoverableException:关闭的连接atoracle.jdbc.driver.PhysicalConnection.needLine(PhysicalConn
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他