TIO程序志

2023scrapy教程，超详细（附案例）

Scrapy教程

文章目录

Scrapy教程
- 1. 基础
- 2. 安装
- - Windows 安装方式
- 3. 创建项目
- 4. 各个文件的作用
- - 1. Spiders
  - 详细使用：
  - 2. items.py
  - 3. middlewares.py
  - 4. pipelines.py
  - 5. settings.py
  - 6. scrapy.cfg
- 5. 项目实现（爬取4399网页的游戏信息）

1. 基础

Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。
Scheduler(调度器): 它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。
Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理，
Spider（爬虫）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器).
Item Pipeline(管道)：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方。
Downloader Middlewares（下载中间件）：你可以当作是一个可以自定义扩展下载功能的组件。
Spider Middlewares（Spider中间件）：你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件（比如进入Spider的Responses;和从Spider出去的Requests）

2. 安装

Windows 安装方式

升级 pip 版本：

pip install --upgrade pip

通过 pip 安装 Scrapy 框架:

pip install Scrapy

3. 创建项目

在开始爬取之前，必须创建一个新的Scrapy项目。进入自定义的项目目录中，运行下列命令：

scrapy startproject mySpider

其中， mySpider 为项目名称，可以看到将会创建一个 mySpider 文件夹，目录结构大致如下：

下面来简单介绍一下各个主要文件的作用：

这些文件分别是:

scrapy.cfg: 项目的配置文件。
mySpider/: 项目的Python模块，将会从这里引用代码。
mySpider/items.py: 项目的目标文件。
mySpider/pipelines.py: 项目的管道文件。
mySpider/settings.py: 项目的设置文件。
mySpider/spiders/: 存储爬虫代码目录。

4. 各个文件的作用

1. Spiders

Scrapy的Spider文件是爬虫程序的核心部分，它定义了如何从网站中提取数据。Spider文件通常是一个Python类，通过继承Scrapy的Spider类来定义。下面我们将详细讲解Scrapy的Spider文件。

Spider文件的基本结构一个基本的Scrapy Spider文件包含以下几个部分：

import scrapy

class MySpider(scrapy.Spider):
    name = "myspider"
    allowed_domains = ["example.com"]
    start_urls = ["http://www.example.com"]

    def parse(self, response):
        pass

在这个示例中，我们首先导入了Scrapy库。然后，定义了一个名为MySpider的Spider类，继承自Scrapy的Spider类。接着，设置了Spider类的一些属性，包括name（爬虫程序的名称）、allowed_domains（指定爬虫程序所能访问的域名）、start_urls（指定爬虫程序的起始URL）。这些属性都是可选的，可以根据需要设置或省略。最后，定义了一个名为parse()的方法，这是Spider程序中用于处理响应数据的核心方法。

Spider文件的属性在Spider类中，可以定义许多属性来控制爬虫程序的行为。下面我们将介绍一些常用的属性。
- name：爬虫程序的唯一名称，用于识别Spider类。如果未指定名称，则Scrapy将使用类名的小写形式作为默认名称。
- allowed_domains：一个Python列表，指定Spider类所能访问的域名。在爬取数据时，Spider程序只会访问这些域名下的页面。如果未指定allowed_domains属性，则Spider程序可以访问任何域名下的页面。
- start_urls：一个Python列表，指定Spider程序的起始URL。Spider程序会按照列表顺序依次访问这些URL，并将响应传递给parse()方法进行处理。
- custom_settings：一个Python字典，指定Spider程序的自定义设置。可以在这个字典中设置诸如下载延迟、User-Agent等属性，以及自定义的中间件和管道（Pipeline）等配置。
- download_delay：爬虫程序在访问每一个页面之间的下载延迟（单位为秒）。可以用来控制爬虫程序的速度，避免对目标网站造成过大的负载。
- start_requests()：一个Python方法，用于生成初始请求。如果未定义这个方法，则Scrapy会默认使用start_urls属性生成初始请求。
Spider文件的方法在Spider类中可以定义多个方法来实现不同的功能，例如提取页面内容、跟踪链接、保存数据到数据库等。下面我们将介绍一些常用的方法。 - parse()：这是Spider程序中最重要的方法，用于处理响应数据。在parse()方法中，可以使用各种选择器（如CSS选择器、XPath选择器）来提取页面中的内容，并将提取的数据存储到数据项（Item）中。 - parse_start_url()：这是与parse()方法类似的方法，在爬虫程序开始访问每个起始URL时被调用。可以用来处理起始页面的信息，并将提取的数据存储到数据项中。 - parse_item()：这是一个可选的方法，在从页面中提取数据后对数据进行处理的方法。通常用于对提取出的数据进行清洗、格式化或去重等操作。 - closed()：当Spider程序结束运行时，这个方法将被调用。通常用于进行一些清理工作，例如关闭数据库连接或保存爬取状态等。
Spider文件的使用在定义好Spider类之后，可以使用Scrapy的命令行工具来启动Spider程序。打开命令行终端，进入项目的根目录，执行以下命令：

scrapy crawl <spider_name>

其中，是Spider类的名称，可以在Spider文件中的name属性中找到。执行上述命令后，Scrapy将自动加载Spider类，并开始爬取指定的网站。在爬取过程中，Scrapy会将从网站中提取出的数据存储到数据项中，然后将数据项发送给管道进行处理。如果需要将数据保存到数据库或文件中，可以在管道中添加相应的处理逻辑。

创建爬虫代码的实现

在当前目录下输入命令，将在mySpider/spider目录下创建一个名为itcast的爬虫，并指定爬取域的范围：

scrapy genspider 爬虫名 "爬取域的范围，例：4399.com"

scrapy genspider game "4399.com"

详细使用：

定义Spider类

在Scrapy中，每个爬虫都必须是一个Spider类的实例。在Spider类中，可以定义一些属性和方法，包括爬虫名称、起始URL、回调函数等。

定义start_requests()方法

start_requests()方法用于生成初始请求，通常用于指定要爬取的起始URL和请求头部信息。如果未定义start_requests()方法，则Scrapy会默认使用默认的start_urls属性作为起始URL列表。下面是一个start_requests()方法的示例代码：

def start_requests(self):
    urls = [
        'http://www.example.com/page1.html',
        'http://www.example.com/page2.html',
        'http://www.example.com/page3.html',
    ]
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
    }
    for url in urls:
        yield scrapy.Request(url=url, headers=headers, callback=self.parse)

定义parse()方法

parse()方法是Scrapy爬虫中最重要的方法之一。它会接收response对象作为参数，并对获取到的HTML文档进行解析和处理。在这个方法中，可以使用XPath或CSS选择器等工具对文档进行解析，并提取出需要的数据。
XPath选择器 XPath是一种基于XML的查询语言，也可以用于HTML文档的查询。XPath选择器使用XPath表达式来查询匹配的节点，每个节点有多个属性，例如标签名、属性名和文本内容等。 XPath表达式的示例： - 选择节点：
```
//div     # 选择所有div标签节点
```
- 选择属性：
```
//div[@class="example"]     # 选择class属性值为example的div标签节点
```
- 选择文本：
```
//div/text()     # 选择div标签节点的文本内容
```
XPath选择器的常见方法： - xpath(expression) 该方法从当前响应的HTML文档中，选取与XPath表达式相匹配的所有节点。
```
response.xpath('//title/text()').get()
```
- extract() 该方法将匹配的节点的文本内容返回为一个字符串。
```
response.xpath('//title/text()').extract()
```
css选择器
1. 类选择器使用类选择器可以选取所有具有指定类名的元素。例如，选取所有class属性为example的div标签：
```
response.css('div.example')
```
1. ID选择器 ID选择器可以选取具有指定id属性值的元素。例如，选取id属性为main的div标签：
```
response.css('div#main')
```
1. 子元素选择器子元素选择器可以选取指定元素的直接子元素。例如，选取body标签下的所有div标签：
```
response.css('body > div')
```
1. 后代元素选择器后代元素选择器可以选取指定元素下的所有后代元素。例如，选取body标签下的所有div标签：
```
response.css('body div')
```
1. 相邻兄弟选择器相邻兄弟选择器可以选取指定元素后面的紧邻着的兄弟元素。例如，选取class属性为example的div标签后面的一个p标签：
```
response.css('div.example + p')
```
1. 通用兄弟选择器通用兄弟选择器可以选取指定元素后面的所有兄弟元素。例如，选取class属性为example的div标签后面的所有p标签：
```
response.css('div.example ~ p')
```
1. 伪类选择器伪类选择器可以选取元素的特定状态。例如，选取所有第一行的表格单元格：
```
response.css('td:first-child')
```
以上是Scrapy CSS选择器的一些基本示例，可以根据需要进一步结合不同类型的选择器和属性来进行更具体的元素选取。
注意：
1. Scrapy框架提供了一个Response对象，其中包含请求URL的HTML响应。Response对象提供了直接选择和提取HTML元素的方法，即response.css()和response.xpath()，因此不需要显式地创建一个Selector对象。这样可以使代码更加简洁和易于阅读。同时，使用response.css()和response.xpath()方法可以直接使用Scrapy的内置选择器，而无需导入Selector对象。因此，直接使用response.css()和response.xpath()方法是更好的做法。
2. 使用 getall() 方法获得元素的文本是Scrapy中推荐的做法。它返回一个包含所有匹配到元素的文本的列表，而不仅仅是第一个匹配到的元素的文本。相比之下， extract() 方法只返回第一个匹配到的元素的文本。使用 getall() 方法可以更轻松地处理多个匹配，而无需使用循环或列表解析。此外，从性能角度来看，使用 getall() 方法可以更快地提取多个元素的文本，因为它只需要执行一次搜索操作，而不是多次搜索。因此，使用 getall() 方法获得元素的文本是更好的做法。
定义其他辅助方法

除了start_requests()和parse()方法之外，还可以在Spider文件中定义其他辅助方法。这些方法可以用于将提取出的数据存储到数据库或文件中，或者实现其他一些爬虫功能。
定义Spider的一些属性

在Scrapy的Spider文件中，还可以定义一些属性，比如name、allowed_domains、start_urls等。这些属性可以用于控制爬虫的行为，比如限制爬取的域名范围、设置起始URL等。

2. items.py

Scrapy的items.py文件定义了在Spider中要提取的数据类型和字段。当Spider解析网页时，它会从中提取数据并将其存储到Item实例中。在items.py文件中，可以定义一个或多个类来表示不同类型的数据，如电影、书籍或新闻。这些类通常是基于Python字典构建的，其中键代表数据字段，值代表字段的值。 Scrapy中的Item类是Python字典的子类，它可以处理不同类型的数据。通过定义一个类来表示一个Item，可以为数据指定字段名称和数据类型，并定义一个默认值。

例如，以下是一个简单的Item类定义：

import scrapy

class MyItem(scrapy.Item):
    name = scrapy.Field()
    age = scrapy.Field(serializer=int)
    address = scrapy.Field()

这个类有三个字段：name、age和address。name和address是由默认值None创建的字符串字段，而age是一个整数字段（由serializer=int参数指定）。在Spider中，可以创建一个MyItem类的实例，并将提取的数据存储在字段中，然后将此实例传回给Scrapy引擎进行处理。例如：

import scrapy
from myproject.items import MyItem

class MySpider(scrapy.Spider):
    name = "myspider"
    # ...

    def parse(self, response):
        item = MyItem()
        item["name"] = "John Smith"
        item["age"] = "30"
        item["address"] = "123 Main St."
        return item

在此示例中，MySpider类中的parse()方法使用MyItem类的实例来存储提取的数据。通过将字段名称和字段值赋给item字典，可以将数据添加到Item实例中。总之，items.py文件是将提取的数据保存到Item实例中的地方。定义Item类可以指定数据类型和字段名称，并将其传递给Spider以存储提取的数据。

注意：提取到item的数据可以在管道（Pipeline）将提取的数据进行处理。管道是一组Python类，它们分别处理从Spider中提取的Item实例。在管道中，可以执行各种操作，例如数据清理、验证、转换和持久化。每个管道类都定义一个process_item()方法，该方法接收Item实例并返回Item实例或Raise DropItem异常。

3. middlewares.py

Scrapy中的middlewares.py是用来处理请求和响应的过程的模块，它可以在不同的阶段对请求和响应进行处理和修改，方便开发者进行定制化的处理流程。

Scrapy中的middlewares可以分为下载中间件和爬虫中间件：

下载中间件：主要用于处理请求和响应，如设置代理、处理cookie和设置请求头等操作。
1. UserAgentMiddleware：随机设置User-Agent，模拟不同的浏览器和设备访问网站。
2. ProxyMiddleware：设置代理IP，用于避免IP被封禁的情况。
3. RetryMiddleware：在请求失败时自动重试请求。
4. HttpErrorMiddleware：用于处理请求出现HTTP错误的情况，可以设置处理不同类型的HTTP错误的方式。
5. CookiesMiddleware：用于自动管理cookies，在爬取需要登录的网站时特别有用。
爬虫中间件：主要用于处理爬虫逻辑，对爬取的数据进行处理和过滤，如数据清洗和去重等操作。
1. UserAgentMiddleware：随机设置User-Agent，模拟不同的浏览器和设备访问网站。
2. ProxyMiddleware：设置代理IP，用于避免IP被封禁的情况。
3. RetryMiddleware：在请求失败时自动重试请求。
4. HttpErrorMiddleware：用于处理请求出现HTTP错误的情况，可以设置处理不同类型的HTTP错误的方式。
5. CookiesMiddleware：用于自动管理cookies，在爬取需要登录的网站时特别有用。

具体来说，middlewares.py中定义了一些中间件类，每个类都包含了一些方法用于对请求和响应进行处理和修改。其中一些常用的方法包括：

process_request(request, spider)：处理请求，可以修改请求的URL、请求头、代理、Cookie等。
process_response(request, response, spider)：处理响应，可以修改响应的内容、状态码等。
process_exception(request, exception, spider)：处理异常，可以对请求发生异常时进行处理，如重新发送请求或记录日志等。
spider_opened(spider)：爬虫打开时的处理，可以在爬虫启动时进行初始化操作。
spider_closed(spider)：爬虫关闭时的处理，可以在爬虫结束时进行清理操作。

通过在middlewares.py中定义自己的中间件类，并在settings.py中进行配置，可以方便地在Scrapy中添加自定义的请求处理流程。

设置User-agent

class RandomUserAgentMiddleWare:
    def __init__(self):
        self.user_agent_list = [
            "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36",
            "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36 Edg/113.0.1774.50"]
      
    def process_request(self, request, spider):
        request.headers['User-Agent'] = random.choice(self.user_agent_list)

设置代理

class ProxyMiddleWare:
    def __init__(self):
        self.proxies = {
            "http": "http://127.0.0.1:1080",
            "https": "https://58.240.110.171:8888"
        }

    def process_request(self, request, spider):
        request.meta['proxy'] = random.choice(list(self.proxies.keys()))

4. pipelines.py

Scrapy的pipelines.py是用于数据处理和数据存储的模块，被用于对爬虫爬取到的数据进行处理和存储。

在Scrapy中，爬虫爬取到的数据是通过Item对象传递到pipelines中进行处理和存储的。pipelines中可以定义多个管道，每个管道对传入的Item对象进行处理，处理完后再传递给下一个管道进行下一步处理。

Scrapy中常用的pipelines包括：

数据清洗pipeline：用于对数据进行清洗和去重，如去除HTML代码、去除重复的数据等。
数据存储pipeline：用于将爬虫获取到的数据存储到数据库中或写入文件中，支持多种存储方式，如MySQL、MongoDB等。
数据转换pipeline：用于将数据进行转换，如将Item对象转换为json格式，或将数据进行格式化等。

使用Scrapy的pipelines，可以将数据处理和存储分离开来，方便进行代码解耦和灵活性的提升。同时，可以通过设置管道的优先级来决定各个管道的执行顺序，从而实现更加灵活的数据处理和存储需求。

在pipelines.py文件中，可以通过定义一些处理函数来实现数据的处理和存储，同时也可以在setting.py文件中进行管道的设置和优先级的调整。

以下是一个使用管道处理从Spider中提取的MyItem实例的示例：

from myproject.items import MyItem

class MyPipeline:
    def process_item(self, item, spider):
        # 对item进行处理
        item['age'] = int(item['age'])
        item['address'] = item['address'].strip()
        
        # 存储item到数据库或文件中
        # 这里省略具体实现
        return item

在此示例中，MyPipeline类是一个简单的管道类，它将MyItem实例中的数据处理后存储到数据库或文件中。process_item()方法接收item和spider作为参数。在该方法中，可以按照需要对item进行处理，例如将age字段转换为整数并删除address字段的空格。最后，将处理后的item返回，以便它可以传递给下一个管道或Spider的回调函数。要使用管道，请在配置文件中启用它们。管道的启用顺序也很重要，因为它们按顺序处理Item实例。可以在配置文件中通过ITEM_PIPELINES设置来指定管道及其顺序。例如：

ITEM_PIPELINES = {
    'myproject.pipelines.MyPipeline': 300,
    # 其他管道类及其顺序
}

在此示例中，MyPipeline类被指定为第一个处理管道，并使用300作为其顺序。顺序从低到高，数字越小的管道首先被处理。配置文件中的其他管道类可以根据需要添加。

5. settings.py

Scrapy的setting.py文件包含了许多参数设置，以下是所有参数的详细说明:

ROBOTSTXT_OBEY (bool): 是否遵循网站的robots.txt文件中的规则，如果为True，则遵循；如果为False，则不遵循。
LOG_LEVEL (str): 日志等级，设置输出的日志等级，可以设置为DEBUG, INFO, WARNING, ERROR, CRITICAL。
DOWNLOAD_DELAY (float): 爬取延迟时间，设置下载延迟的时间，以秒为单位。
USER_AGENT (str): 用户代理，用于模拟网页访问时的浏览器类型。
DEFAULT_REQUEST_HEADERS (dict): 默认请求头，设置默认的请求头，可以设置一些常用的请求头信息。
COOKIES_ENABLED (bool): 是否启用Cookies，如果为True，则携带Cookies进行访问；如果为False，则不携带Cookies进行访问。
ITEM_PIPELINES (dict): Item管道，设置Item的处理管道，可以设置多个管道进行处理。
CONCURRENT_REQUESTS (int): 并发请求数，设置同时发起的请求的数量，建议设置在16-32之间。
CONCURRENT_REQUESTS_PER_DOMAIN (int): 每个域名的并发请求数，设置每个域名同时发起的请求的数量，建议设置在8-16之间。
CONCURRENT_REQUESTS_PER_IP (int): 每个IP地址的并发请求数，设置每个IP地址同时发起的请求的数量，建议设置在0（不限制）-8之间。
DOWNLOAD_TIMEOUT (int): 下载超时时间，设置下载超时的时间，以秒为单位。
RETRY_TIMES (int): 重试次数，设置请求失败时的重试次数。
RETRY_HTTP_CODES (list): 重试的HTTP状态码，设置请求失败时需要重试的HTTP状态码。
HTTP_PROXY (str): HTTP代理，设置HTTP代理服务器的地址。
EDIRECT_ENABLED (bool): 是否启用重定向，如果为True，则允许请求发生重定向。
REDIRECT_MAX_TIMES (int): 最大重定向次数，设置请求最大的重定向次数。
DNSCACHE_ENABLED (bool): 是否启用DNS缓存，如果为True，则启用DNS缓存。
DNSCACHE_SIZE (int): DNS缓存大小，设置DNS缓存的最大数量。
DNSCACHE_EXPIRATION (int): DNS缓存过期时间，设置DNS缓存的过期时间，以秒为单位。
COOKIES_DEBUG (bool): 是否启用Cookies调试模式，如果为True，则启用Cookies调试模式。
DOWNLOADER_MIDDLEWARES (dict): 下载器中间件，用于修改请求和处理响应。
SPIDER_MIDDLEWARES (dict): 爬虫中间件，用于修改爬虫请求和处理响应。
EXTENSIONS (dict): 扩展组件，用于添加自定义的扩展组件。
FEED_FORMAT (str): 输出文件格式，设置输出文件的格式，如JSON、CSV等。
FEED_URI (str): 输出文件路径，设置输出文件的保存路径。
FEED_EXPORT_ENCODING (str): 输出文件编码，设置输出文件的编码，默认为utf-8。
FEED_EXPORT_FIELDS (list): 输出文件字段，设置输出文件需要包含的字段。
FEED_STORAGES (dict): 输出文件存储方式，可以设置为本地存储、S3存储等。
JOBDIR (str): 保存爬虫状态，设置保存爬虫状态的路径。
**FILES_STORE：**为我们要保存文件的目录路径
**IMAGES_STORE：**为图片保存的目录路径

使用Scrapy的Settings对象导入配置：我们也可以在Scrapy的Spider类中使用Settings对象来导入配置参数，例如：

from scrapy import Spider
from scrapy.utils.project import get_project_settings

class MySpider(Spider):
    name = 'myspider'

    def __init__(self, *args, **kwargs):
        super(MySpider, self).__init__(*args, **kwargs)
        self.settings = get_project_settings()

    def start_requests(self):
        # 获取参数
        download_delay = self.settings.get('DOWNLOAD_DELAY')
        # 其他逻辑

这样就可以获取到DOWNLOAD_DELAY配置参数的值。

6. scrapy.cfg

# Automatically created by: scrapy startproject
#
# For more information about the [deploy] section see:
# https://scrapyd.readthedocs.io/en/latest/deploy.html

[settings]
default = demo.settings

[deploy]
#url = http://localhost:6800/
project = demo

5. 项目实现（爬取4399网页的游戏信息）

创建项目
```
scrapy startproject mySpider
```

创建一个spider

 scrapy genspider game 4399.com

编写game.py文件

爬取网页上小游戏的

name ：游戏名称

type ：分类

time ：

image ：存储要下载的图片的URL

import scrapy
from scrapy import  Request


class GameSpider(scrapy.Spider):
    name = "game"
    allowed_domains = ["4399.com"]
    start_urls = ["https://www.4399.com/flash"]

    def url_next(self):
        urls = []
        for i in range(2, 11):
            url = f"https://www.4399.com/flash/new_{i}.htm"
            urls.append(url)
        return urls

    def parse(self, response):
        txts = response.xpath('//*[@id="skinbody"]/div[@class="bre oh"]/ul/li')
        for _ in txts:
            name = _.xpath('a/b/text()').get()
            type = _.xpath('em[1]/a/text()').get()
            time = _.xpath('em/text()').get()
            image = _.xpath('a/img/@lz_src').get()
            yield {
                'name': name,
                'time': time,
                'type': type,
                'image': image
            }
        urls = self.url_next()
        for url in urls:
            yield Request(url, callback=self.parse)

处理下载请求

处理下载请求的工作由Images Pipeline完成。

这是一个Scrapy中的Image Pipeline，用于处理爬虫下载的图片。它继承自Scrapy中的ImagesPipeline类，重写了其中的几个方法。

其中的file_path方法定义了图片文件的保存路径，根据item中的name和type属性生成一个文件名。

item_completed方法在每个图片下载完成后执行，可以在这里对下载的图片进行一些额外的处理，比如打印下载信息、将图片路径保存到item中等。

get_media_requests方法定义了需要下载的图片的请求，这里将item中的image属性作为图片的URL，生成一个Request对象，进行下载。

class ImagePipeline(ImagesPipeline):
    def file_path(self, request, response=None, info=None, *, item=None):
        name = item['name']
        type = item['type']
        file_name = f'{type}/{name}.jpg'
        return file_name

    def item_completed(self, results, item, info):
        # image_paths = [x['path'] for ok, x in results if ok]
        # if image_paths:
        #     item['image_paths'] = image_paths
        for ok, result in results:
            if ok:
                path = result['path']
                print(f'Downloaded image saved in {path}')
        return item

    def get_media_requests(self, item, info):
        image_paths = "https:" + item['image']

        yield scrapy.Request(image_paths)

setting的设置

ITEM_PIPELINES = {
    # key是管道的路径
    # value是管道的优先级，越小越高
    # "demo.pipelines.DemoPipeline": 300,
    # "demo.pipelines.newPipeline": 200,
    'mySpider.pipelines.ImagePipeline': 299
}

IMAGES_STORE = './images' # 图片保存路径

运行项目
```
scrapy crawl game
```

你可能感兴趣的:(python,开发语言)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
Ubuntu基础（Python虚拟环境和Vue） aaiier ubuntu python linux
Python虚拟环境sudoaptinstallpython3python3-venv进入项目目录cdXXX创建虚拟环境python3-mvenvvenv激活虚拟环境sourcevenv/bin/activate退出虚拟环境deactivateVue安装Node.js和npm#安装Node.js和npm（Ubuntu默认仓库可能版本较旧，适合入门）sudoaptinstallnodejsnpm#验
苦练Python第9天：if-else分支九剑 python后端前端人工智能
苦练Python第9天：if-else分支九剑前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众号：倔强青铜三。欢迎点赞、收藏、关注，一键三连！！！欢迎来到100天Python挑战第9天！今天我们不练循环，改磨“分支剑法”——ifelse三式：单分支、双分支、多分支，以及嵌套和三元运算符，全部实战演练，让
苦练Python第8天：while 循环之妙用 python后端前端人工智能
苦练Python第8天：while循环之妙用原文链接：https://dev.to/therahul_gupta/day-9100-while-loops-with-real-world-examples-528f作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众
苦练Python第5天：字符串从入门到格式化 python后端人工智能前端
苦练Python第5天：字符串从入门到格式化原文链接：https://dev.to/therahul_gupta/day-5100-working-with-strings-basics-to-formatting-2kkn作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin