小小程序员i549

Python爬虫之Scrapy框架通用爬虫CrawlSpider

介绍CrawlSpider

CrawlSpider其实是Spider的一个子类，除了继承到Spider的特性和功能外，还派生除了其自己独有的更加强大的特性和功能。

比如如果你想爬取知乎或者是简书全站的话，CrawlSpider这个强大的武器就可以爬上用场了，说CrawlSpider是为全站爬取而生也不为过。

其中最显著的功能就是”LinkExtractors链接提取器“。Spider是所有爬虫的基类，其设计原则只是为了爬取start_url列表中网页，而从爬取到的网页中提取出的url进行继续的爬取工作使用CrawlSpider更合适。

CrawlSpider源码分析

源码解析

class CrawlSpider(Spider):
  rules = ()
  def __init__(self, *a, **kw):
    super(CrawlSpider, self).__init__(*a, **kw)
    self._compile_rules()

  # 首先调用parse()来处理start_urls中返回的response对象
  # parse()则将这些response对象传递给了_parse_response()函数处理，并设置回调函数为parse_start_url()
  # 设置了跟进标志位True
  # parse将返回item和跟进了的Request对象  
  def parse(self, response):
    return self._parse_response(response, self.parse_start_url, cb_kwargs={}, follow=True)

  # 处理start_url中返回的response，需要重写
  def parse_start_url(self, response):
    return []

  def process_results(self, response, results):
    return results

  # 从response中抽取符合任一用户定义'规则'的链接，并构造成Resquest对象返回
  def _requests_to_follow(self, response):
    if not isinstance(response, HtmlResponse):
      return
    seen = set()
    # 抽取之内的所有链接，只要通过任意一个'规则'，即表示合法
    for n, rule in enumerate(self._rules):
      links = [l for l in rule.link_extractor.extract_links(response) if l not in seen]
      # 使用用户指定的process_links处理每个连接
      if links and rule.process_links:
        links = rule.process_links(links)
      # 将链接加入seen集合，为每个链接生成Request对象，并设置回调函数为_repsonse_downloaded()
      for link in links:
        seen.add(link)
        # 构造Request对象，并将Rule规则中定义的回调函数作为这个Request对象的回调函数
        r = Request(url=link.url, callback=self._response_downloaded)
        r.meta.update(rule=n, link_text=link.text)
        # 对每个Request调用process_request()函数。该函数默认为indentify，即不做任何处理，直接返回该Request.
        yield rule.process_request(r)

  # 处理通过rule提取出的连接，并返回item以及request
  def _response_downloaded(self, response):
    rule = self._rules[response.meta['rule']]
    return self._parse_response(response, rule.callback, rule.cb_kwargs, rule.follow)

  # 解析response对象，会用callback解析处理他，并返回request或Item对象
  def _parse_response(self, response, callback, cb_kwargs, follow=True):
    # 首先判断是否设置了回调函数。（该回调函数可能是rule中的解析函数，也可能是 parse_start_url函数）
    # 如果设置了回调函数（parse_start_url()），那么首先用parse_start_url()处理response对象，
    # 然后再交给process_results处理。返回cb_res的一个列表
    if callback:
      #如果是parse调用的，则会解析成Request对象
      #如果是rule callback，则会解析成Item
      cb_res = callback(response, **cb_kwargs) or ()
      cb_res = self.process_results(response, cb_res)
      for requests_or_item in iterate_spider_output(cb_res):
        yield requests_or_item

    # 如果需要跟进，那么使用定义的Rule规则提取并返回这些Request对象
    if follow and self._follow_links:
      #返回每个Request对象
      for request_or_item in self._requests_to_follow(response):
        yield request_or_item

  def _compile_rules(self):
    def get_method(method):
      if callable(method):
        return method
      elif isinstance(method, basestring):
        return getattr(self, method, None)

    self._rules = [copy.copy(r) for r in self.rules]
    for rule in self._rules:
      rule.callback = get_method(rule.callback)
      rule.process_links = get_method(rule.process_links)
      rule.process_request = get_method(rule.process_request)

  def set_crawler(self, crawler):
    super(CrawlSpider, self).set_crawler(crawler)
    self._follow_links = crawler.settings.getbool('CRAWLSPIDER_FOLLOW_LINKS', True)

CrawlSpider爬虫文件字段介绍

CrawlSpider除了继承Spider类的属性：name、allow_domains之外，还提供了一个新的属性：rules。它是包含一个或多个Rule对象的集合。每个Rule对爬取网站的动作定义了特定规则。如果多个Rule匹配了相同的链接，则根据他们在本属性中被定义的顺序，第一个会被使用。

CrawlSpider也提供了一个可复写的方法：

parse_start_url(response)

当start_url的请求返回时，该方法被调用。该方法分析最初的返回值并必须返回一个Item对象或一个Request对象或者一个可迭代的包含二者的对象。

注意：当编写爬虫规则时，请避免使用parse 作为回调函数。由于CrawlSpider使用parse 方法来实现其逻辑，如果您覆盖了parse 方法，CrawlSpider将会运行失败。

另外，CrawlSpider还派生了其自己独有的更加强大的特性和功能，最显著的功能就是”LinkExtractors链接提取器“。

LinkExtractor

class scrapy.linkextractors.LinkExtractor

LinkExtractor是从网页（scrapy.http.Response）中抽取会被follow的链接的对象。目的很简单: 提取链接｡每个LinkExtractor有唯一的公共方法是 extract_links()，它接收一个 Response 对象，并返回一个 scrapy.link.Link 对象

即Link Extractors要实例化一次，并且 extract_links 方法会根据不同的 response 调用多次提取链接｡

源码如下：

class scrapy.linkextractors.LinkExtractor(
  allow = (),  # 满足括号中“正则表达式”的值会被提取，如果为空，则全部匹配。
  deny = (),   # 与这个正则表达式(或正则表达式列表)不匹配的URL一定不提取。
  allow_domains = (), # 会被提取的链接的domains。
  deny_domains = (),  # 一定不会被提取链接的domains。
  deny_extensions = None,
  restrict_xpaths = (), # 使用xpath表达式，和allow共同作用过滤链接
  tags = ('a','area'),
  attrs = ('href'),
  canonicalize = True,
  unique = True,
  process_value = None
)

作用：提取response中符合规则的链接。

参考链接：https://scrapy-chs.readthedocs.io/zh_CN/latest/topics/link-extractors.html

Rule类

LinkExtractor是用来提取的类，但是提取的规则需要通过Rule类实现。Rule类的定义如下：

class scrapy.contrib.spiders.Rule(link_extractor,callback=None,cb_kwargs=None,
                    follow=None,process_links=None,process_request=None)

参数如下：

link_extractor：是一个Link Extractor对象。其定义了如何从爬取到的页面提取链接。

callback：是一个callable或string（该Spider中同名的函数将会被调用）。从link_extractor中每获取到链接时将会调用该函数。该回调函数接收一个response作为其第一个参数，并返回一个包含Item以及Request对象(或者这两者的子类)的列表。

cb_kwargs：包含传递给回调函数的参数（keyword argument）的字典。

follow：是一个boolean值，指定了根据该规则从response提取的链接是否需要跟进。如果callback为None，follow默认设置True，否则默认False。

process_links：是一个callable或string（该Spider中同名的函数将会被调用）。从link_extrator中获取到链接列表时将会调用该函数。该方法主要是用来过滤。

process_request：是一个callable或string（该spider中同名的函数都将会被调用）。该规则提取到的每个request时都会调用该函数。该函数必须返回一个request或者None。用来过滤request。

参考链接：https://scrapy-chs.readthedocs.io/zh_CN/latest/topics/spiders.html#topics-spiders-ref

通用爬虫案例

CrawlSpider整体的爬取流程：

1. 爬虫文件首先根据url,获取该url的网页内容

2. 链接提取器会根据提取规则，对步骤1网页内容中的链接进行提取

3. 规则解析器会根据指定的解析规则，将链接提取器中提取到的链接按照指定的规则进行解析

5. 将3中解析的数据封装到item中，最后提交给管道进行持久化存储

创建CrawlSpider爬虫项目

1. 创建scrapy工程：scrapy startproject projectName

2. 创建爬虫文件(切换到创建的项目下执行)：scrapy genspider -t crawl spiderName www.xxx.com

--此指令对比以前的指令多了 "-t crawl"，表示创建的爬虫文件是基于CrawlSpider这个类的，而不再是Spider这个基类。

3. 启动爬虫文件(基于步骤二的路径执行)：scrapy crawl crawlDemo

案例(爬取小说案例)

1. 测试小说是否可用

本案例是17k小说网小说爬取，打开首页---->选择：分类---->选择：已完本、只看免费，如下图：

链接：https://www.17k.com/all/book/2_0_0_0_3_0_1_0_1.html

按照上面的步骤我们依次：

scrapy startproject seventeen_k

scrapy genspider -t crawl novel www.17k.com

Pycharm 打开项目

查看novel.py

class NovelSpider(CrawlSpider):
    name = 'novel'
    allowed_domains = ['www.17k.com']
    start_urls = ['https://www.17k.com/all/book/2_0_0_0_3_0_1_0_1.html']

    rules = (
        Rule(allow = LinkExtractor(allow=r'//www.17k.com/book/\d+.html', restrict_xpaths=('//td[@class="td3"]')), 
             callback='parse_book',follow=True, process_links="process_booklink"),
    )

    def process_booklink(self, links):
        for index, link in enumerate(links):
            # 限制一本书
            if index == 0:
                print("限制一本书：",  link.url)
                yield link
            else:
                return

    def parse_book(self, response):
        item = {
        return item

首先测试一下是否可以爬取到内容，注意rules给出的规则：

Rule(allow = LinkExtractor(allow=r'//www.17k.com/book/\d+.html', restrict_xpaths=('//td[@class="td3"]')), callback='parse_book',follow=True, process_links="process_booklink")

在allow中指定了提取链接的正则表达式，相当于findall(r'正则内容',response.text)，在LinkExtractor中添加了参数restrict_xpaths是为了与正则表达式搭配使用，更快的定位链接。

callback='parse_item'是指定回调函数

process_links用于处理LinkExtractor匹配到的链接的回调函数

然后，配置settings.py里的必要配置后运行，即可发现指定页面第一本小说URL获取正常：

执行：scrapy crawl novel ，运行结果：

2. 解析小说的详细信息

上图链接对应小说的详情页：https://www.17k.com/book/3352644.html

通过解析书籍的URL的获取到的响应，获取以下数据：

catagory（分类）,book_name,status,book_nums,description,c_time,book_url,chapter_url

改写parse_book函数内容如下：

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class NovelSpider(CrawlSpider):
    name = 'novel'
    allowed_domains = ['www.17k.com']
    start_urls = ['https://www.17k.com/all/book/2_0_0_0_3_0_1_0_1.html']

    rules = (
        Rule(LinkExtractor(allow=r'//www.17k.com/book/\d+.html', restrict_xpaths=('//td[@class="td3"]')), callback='parse_book',
             follow=True, process_links="process_booklink"),
    )

    def process_booklink(self, links):
        for index, link in enumerate(links):
            # 限制一本书
            if index == 0:
                print("限制一本书：",  link.url)
                yield link
            else:
                return

    def parse_book(self, response):
        item ={}
        print("解析book_url")
        # 字数：
        book_nums = response.xpath('//div[@class="BookData"]/p[2]/em/text()').extract()[0]
        # 书名：
        book_name = response.xpath('//div[@class="Info "]/h1/a/text()').extract()[0]
        # 分类
        category = response.xpath('//dl[@id="bookInfo"]/dd/div[2]/table//tr[1]/td[2]/a/text()').extract()[0]
        # 概述
        description = "".join(response.xpath('//p[@class="intro"]/a/text()').extract())
        # 小说链接
        book_url = response.url
        # 小说章节
        chapter_url = response.xpath('//dt[@class="read"]/a/@href').extract()[0]
        print(book_nums,  book_url,book_name,category,description,chapter_url)
        return item

打印结果：

3. 解析章节信息

通过解析书籍的URL获取的响应里解析得到每个小说章节列表页的URL，并发送请求获得响应，得到对应小说的章节列表页，获取以下数据：id , title(章节名称) content(内容),ordernum(序号),c_time,chapter_url(章节url),catalog_url(目录url)

在novel.py的rules中添加：

...

   rules = (
          Rule(LinkExtractor(allow=r'//www.17k.com/book/\d+.html', restrict_xpaths=('//td[@class="td3"]')),
               callback='parse_book',
               follow=True, process_links="process_booklink"),

          # 匹配章节目录的url
          Rule(LinkExtractor(allow=r'/list/\d+.html',
                             restrict_xpaths=('//dt[@class="read"]')), callback='parse_chapter', follow=True,
               process_links="process_chapterlink"),
      )
 
     def process_chapterlink(self, links):
        for index, link in enumerate(links):
            # 限制一本书
            if index == 0:
                print("章节：", link.url)
                yield link
            else:
                return
...

通过上图可以发现从上一个链接的response中，匹配第二个rule可以提取到章节的链接，继续编写解析章节详情的回调函数parse_chapter，代码如下：

# 前面代码省略
......
    def parse_chapter(self, response):
        print("解析章节目录", response.url)  # response.url就是数据的来源的url
        # 注意：章节和章节的url要一一对应
        a_tags = response.xpath('//dl[@class="Volume"]/dd/a')
        chapter_list = []
        for index, a in enumerate(a_tags):
            title = a.xpath("./span/text()").extract()[0].strip()
            chapter_url = a.xpath("./@href").extract()[0]
            ordernum = index + 1
            c_time = datetime.datetime.now()
            chapter_url_refer = response.url
            chapter_list.append([title, ordernum, c_time, chapter_url, chapter_url_refer])
        print('章节目录：', chapter_list)

重新运行测试，发现数据获取正常！

4. 获取章节详情

通过解析对应小说的章节列表页获取到每一章节的URL，发送请求获得响应，得到对应章节的章节内容，同样添加章节的rule和回调函数.完整代码如下：

import datetime

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class NovelSpider(CrawlSpider):
    name = 'novel'
    allowed_domains = ['www.17k.com']
    start_urls = ['https://www.17k.com/all/book/2_0_0_0_3_0_1_0_1.html']

    rules = (
        Rule(LinkExtractor(allow=r'//www.17k.com/book/\d+.html', restrict_xpaths=('//td[@class="td3"]')),
             callback='parse_book',
             follow=True, process_links="process_booklink"),

        # 匹配章节目录的url
        Rule(LinkExtractor(allow=r'/list/\d+.html',
                           restrict_xpaths=('//dt[@class="read"]')), callback='parse_chapter', follow=True,
             process_links="process_chapterlink"),
        # 解析章节详情
        Rule(LinkExtractor(allow=r'/chapter/(\d+)/(\d+).html',
                           restrict_xpaths=('//dl[@class="Volume"]/dd')), callback='get_content',
             follow=False, process_links="process_chapterDetail"),

    )

    def process_booklink(self, links):
        for index, link in enumerate(links):
            # 限制一本书
            if index == 0:
                print("限制一本书：", link.url)

                yield link
            else:
                return

    def process_chapterlink(self, links):
        for index, link in enumerate(links):
            # 限制一本书
            if index == 0:
                print("章节：", link.url)
                yield link
            else:
                return

    def process_chapterDetail(self, links):
        for index, link in enumerate(links):
            # 限制一本书
            if index == 0:
                print("章节详情：", link.url)
                yield link
            else:
                return

    def parse_book(self, response):

        print("解析book_url")
        # 字数：
        book_nums = response.xpath('//div[@class="BookData"]/p[2]/em/text()').extract()[0]
        # 书名：
        book_name = response.xpath('//div[@class="Info "]/h1/a/text()').extract()[0]
        # 分类
        category = response.xpath('//dl[@id="bookInfo"]/dd/div[2]/table//tr[1]/td[2]/a/text()').extract()[0]
        # 概述
        description = "".join(response.xpath('//p[@class="intro"]/a/text()').extract())
        # 小说链接
        book_url = response.url
        # 小说章节
        chapter_url = response.xpath('//dt[@class="read"]/a/@href').extract()[0]
        print(book_nums, book_url, book_name, category, description, chapter_url)

    def parse_chapter(self, response):
        print("解析章节目录", response.url)  # response.url就是数据的来源的url
        # 注意：章节和章节的url要一一对应
        a_tags = response.xpath('//dl[@class="Volume"]/dd/a')
        chapter_list = []
        for index, a in enumerate(a_tags):
            title = a.xpath("./span/text()").extract()[0].strip()
            chapter_url = a.xpath("./@href").extract()[0]
            ordernum = index + 1
            c_time = datetime.datetime.now()
            chapter_url_refer = response.url
            chapter_list.append([title, ordernum, c_time, chapter_url, chapter_url_refer])
        print('章节目录：', chapter_list)

    def get_content(self, response):
        content = "".join(response.xpath('//div[@class="readAreaBox content"]/div[@class="p"]/p/text()').extract())
        print(content)

同样发现数据是正常的，如下图：

5. 进行数据的持久化，写入Mysql数据库

a. 定义结构化字段（items.py文件的编写）：

class Seventeen_kItem(scrapy.Item):
    '''匹配每个书籍URL并解析获取一些信息创建的字段'''
    # define the fields for your item here like:
    # name = scrapy.Field()
    category = scrapy.Field()
    book_name = scrapy.Field()
    book_nums = scrapy.Field()
    description = scrapy.Field()
    book_url = scrapy.Field()
    chapter_url = scrapy.Field()


class ChapterItem(scrapy.Item):
    '''从每个小说章节列表页解析当前小说章节列表一些信息所创建的字段'''
    # define the fields for your item here like:
    # name = scrapy.Field()
    chapter_list = scrapy.Field()


class ContentItem(scrapy.Item):
    '''从小说具体章节里解析当前小说的当前章节的具体内容所创建的字段'''
    # define the fields for your item here like:
    # name = scrapy.Field()
    content = scrapy.Field()
    chapter_detail_url = scrapy.Field()

b. 编写novel.py

import datetime

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule

from sevencat.items import Seventeen_kItem, ChapterItem, ContentItem


class NovelSpider(CrawlSpider):
    name = 'novel'
    allowed_domains = ['www.17k.com']
    start_urls = ['https://www.17k.com/all/book/2_0_0_0_3_0_1_0_1.html']

    rules = (
        Rule(LinkExtractor(allow=r'//www.17k.com/book/\d+.html', restrict_xpaths=('//td[@class="td3"]')),
             callback='parse_book',
             follow=True, process_links="process_booklink"),

        # 匹配章节目录的url
        Rule(LinkExtractor(allow=r'/list/\d+.html',
                           restrict_xpaths=('//dt[@class="read"]')), callback='parse_chapter', follow=True,
             process_links="process_chapterlink"),
        # 解析章节详情
        Rule(LinkExtractor(allow=r'/chapter/(\d+)/(\d+).html',
                           restrict_xpaths=('//dl[@class="Volume"]/dd')), callback='get_content',
             follow=False, process_links="process_chapterDetail"),

    )

    def process_booklink(self, links):
        for index, link in enumerate(links):
            # 限制一本书
            if index == 0:
                print("限制一本书：", link.url)

                yield link
            else:
                return

    def process_chapterlink(self, links):
        for index, link in enumerate(links):
            # 限制一本书
            if index == 0:
                print("章节：", link.url)
                yield link
            else:
                return

    def process_chapterDetail(self, links):
        for index, link in enumerate(links):
            # 限制一本书
            if index == 0:
                print("章节详情：", link.url)
                yield link
            else:
                return

    def parse_book(self, response):

        print("解析book_url")
        # 字数：
        book_nums = response.xpath('//div[@class="BookData"]/p[2]/em/text()').extract()[0]
        # 书名：
        book_name = response.xpath('//div[@class="Info "]/h1/a/text()').extract()[0]
        # 分类
        category = response.xpath('//dl[@id="bookInfo"]/dd/div[2]/table//tr[1]/td[2]/a/text()').extract()[0]
        # 概述
        description = "".join(response.xpath('//p[@class="intro"]/a/text()').extract())
        # # 小说链接
        book_url = response.url
        # 小说章节
        chapter_url = response.xpath('//dt[@class="read"]/a/@href').extract()[0]
        # print(book_nums, book_url, book_name, category, description, chapter_url)
        item = Seventeen_kItem()
        item['book_nums'] = book_nums
        item['book_name'] = book_name

        item['category'] = category
        item['description'] = description

        item['book_url'] = book_url
        item['chapter_url'] = chapter_url
        yield item

    def parse_chapter(self, response):
        print("解析章节目录", response.url)  # response.url就是数据的来源的url
        # 注意：章节和章节的url要一一对应
        a_tags = response.xpath('//dl[@class="Volume"]/dd/a')
        chapter_list = []
        for index, a in enumerate(a_tags):
            title = a.xpath("./span/text()").extract()[0].strip()
            chapter_url = a.xpath("./@href").extract()[0]
            ordernum = index + 1
            c_time = datetime.datetime.now()
            chapter_url_refer = response.url
            chapter_list.append([title, ordernum, c_time, chapter_url, chapter_url_refer])
        # print('章节目录：', chapter_list)
        item = ChapterItem()
        item["chapter_list"] = chapter_list
        yield item
    def get_content(self, response):
        content = "".join(response.xpath('//div[@class="readAreaBox content"]/div[@class="p"]/p/text()').extract())
        chapter_detail_url = response.url
        # print(content)
        item = ContentItem()
        item["content"] = content
        item["chapter_detail_url"] = chapter_detail_url
        yield item

c. 编写管道文件：

import pymysql
import logging
from .items import Seventeen_kItem, ChapterItem, ContentItem

logger = logging.getLogger(__name__)  # 生成以当前文件名命名的logger对象。 用日志记录报错。


class Seventeen_kPipeline(object):
    def open_spider(self, spider):
        # 连接数据库
        data_config = spider.settings["DATABASE_CONFIG"]
        if data_config["type"] == "mysql":
            self.conn = pymysql.connect(**data_config["config"])
            self.cursor = self.conn.cursor()

    def process_item(self, item, spider):
        # 写入数据库
        if isinstance(item, Seventeen_kItem):
            # 写入书籍信息
            sql = "select id from novel where book_name=%s and author=%s"
            self.cursor.execute(sql, (item["book_name"], ["author"]))
            if not self.cursor.fetchone():  # .fetchone()获取上一个查询结果集。在python中如果没有则为None
                try:
                    # 如果没有获得一个id，小说不存在才进行写入操作
                    sql = "insert into novel(category,book_name,book_nums,description,book_url,chapter_url)" \
                          "values(%s,%s,%s,%s,%s,%s)"
                    self.cursor.execute(sql, (
                        item["category"],
                        item["book_name"],
                        item["book_nums"],
                        item["description"],
                        item["book_url"],
                        item["catalog_url"],
                    ))
                    self.conn.commit()
                except Exception as e:  # 捕获异常并日志显示
                    self.conn.rollback()
                    logger.warning("小说信息错误!url=%s %s") % (item["book_url"], e)
            return item
        elif isinstance(item, ChapterItem):
            # 写入章节信息
            try:
                sql = "insert into chapter (title,ordernum,c_time,chapter_url,chapter_url_refer)" \
                      "values(%s,%s,%s,%s,%s)"
                # 注意：此处item的形式是！  item["chapter_list"]====[(title,ordernum,c_time,chapter_url,chapter_url_refer)]
                chapter_list = item["chapter_list"]
                self.cursor.executemany(sql,
                                        chapter_list)  # .executemany()的作用：一次操作，写入多个元组的数据。形如：.executemany(sql,[(),()])
                self.conn.commit()
            except Exception as e:
                self.conn.rollback()
                logger.warning("章节信息错误!%s" % e)
            return item
        elif isinstance(item, ContentItem):
            try:
                sql = "update chapter set content=%s where chapter_url=%s"
                content = item["content"]
                chapter_detail_url = item["chapter_detail_url"]
                self.cursor.execute(sql, (content, chapter_detail_url))
                self.conn.commit()
            except Exception as e:
                self.conn.rollback()
                logger.warning("章节内容错误!url=%s %s") % (item["chapter_url"], e)
            return item

    def close_spider(self, spider):
        # 关闭数据库
        self.cursor.close()
        self.conn.close()

其中涉及到settings.py的配置：

DATABASE_CONFIG={
    "type":"mysql",
    "config":{
        "host":"localhost",
        "port":3306,
        "user":"root",
        "password":"root",
        "db":"noveldb",
        "charset":"utf8"
    }
}

数据库的表分别为：

novel表字段有：

id（自动增长的）
category 
book_name 
book_nums 
descriptionbook_url 
chapter_url

chapter表字段有：

id
title
ordernum
c_time
chapter_url
chapter_url_refer
conent

ok抓紧时间测试一下吧！相信你会收获很多！不要忘记分享，点赞哦！

你可能感兴趣的:(python,爬虫)

深度优先搜索和广度优先搜索详细解析和区别潇杨爱吃粉深度优先宽度优先算法数据结构
一、深度优先搜索（DFS）1.核心思想像探险家走迷宫，遇到岔路就选一条路走到头，无路可走时返回上一个岔路口换另一条路。2.实现方式数据结构：栈（Stack，先进后出）或递归（隐式栈）遍历顺序：纵向深入，优先访问最深层的节点3.图解示例假设有以下树结构：A/\BC/\/DEFDFS遍历顺序（从根节点A出发）：A→B→D→E→C→F4.代码实现（Python）defdfs(graph,start):s
DeepSeek 模型未来怎么走？技术创新、行业落地全解析！网罗开发 AI 大模型人工智能人工智能职场和发展
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
Python-modbustcp通信-plc读写张凯的工作室 python python
Python-modbustcp通信-plc读写1，功能码说明读取：%m对应READ_COILS线圈寄存器数值0和1%mw存单字节%mf浮点数%md双字节对应READ_HOLDING_REGISTERS保持寄存器写入单个写入线圈寄存器WRITE_SINGLE_COIL%m单个写入保持寄存器WRITE_SINGLE_REGISTER写入多个保持寄存器WRITE_MULTIPLE_REGISTERS写
PyCharm v2024.3.5 强大的Python IDE工具支持M、Intel芯片 2401_89264762 python ide pycharm
PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具，比如调试、语法高亮、Project管理、代码跳转、智能提示、自动完成、单元测试、版本控制。此外，该IDE提供了一些高级功能，以用于支持Django框架下的专业Web开发。应用介绍PyCharm是由JetBrains打造的一款PythonIDE，VS2010的重构插件Resharper就是出自
免费界面库 python_一个非常简单好用的Python图形界面库(PysimpleGUI) 不妧免费界面库 python
前一阵，我在为朋友编写一个源代码监控程序的时候，发现了一个Python领域非常简单好用的图形界面库。说起图形界面库，你可能会想到TkInter、PyQt、PyGUI等流行的图形界面库，我也曾经尝试使用，一个很直观的感受就是，这太难用了。就去网上搜搜，看看有没有一些demo，拿来改改，结果很少有，当时我就放弃了这些图形库的学习，转而使用了vue+flask的形式以浏览器网页作为程序界面，因为我会这个
Python 网络爬虫：从入门到实践一ge科研小菜菜编程语言 Python python
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注网络爬虫是一种自动化的程序，用于从互联网上抓取数据。Python以其强大的库和简单的语法，是开发网络爬虫的绝佳选择。本文将详细介绍Python网络爬虫的基本原理、开发工具、常用框架以及实践案例。一、网络爬虫的基本原理网络爬虫的工作流程通常包括以下步骤：发送请求：向目标网站发送HTTP请求，获取网页内容。解析内容：提取需要的数据，可以是HTML标签
PySimpleGUI 4.60.5 孔帆贝
PySimpleGUI4.60.5【下载地址】PySimpleGUI4.60.5**PySimpleGUI**是一款专为简化PythonGUI（图形用户界面）编程而生的库。该库设计宗旨在于通过提供简洁、易懂的API接口，使开发者能够以更快的速度和更少的代码量创建出美观实用的应用程序。对于无论是GUI编程新手还是寻求快速开发工具的老手来说，PySimpleGUI都是一个极具吸引力的选择。其通过封装了
《今日AI-人工智能-编程日报》-源自2025年3月19日小亦编辑部每日AI-人工智能-编程日报人工智能
1.豆包AI编程功能迎来三项重磅升级豆包平台今日宣布其AI编程功能迎来三项重要升级，包括：HTML实时预览：支持用户在编写HTML代码时实时查看网页效果，显著提升前端开发效率，尤其适用于小游戏和网页制作。Python代码直接运行与一键修复：用户可直接运行Python代码，并在出错时一键修复，极大降低了编程门槛，提升了开发效率。生成完整项目：新增生成完整项目的功能，帮助用户快速创建应用程序，缩短开发
python PySimpleGUI 使用 Seeklike python
#PySimpleGUI库快速简单构建一个gui窗口#PySimpleGUI是一个用于简化GUI编程的Python包，它封装了多种底层GUI框架（如tkinter、Qt、WxPython等），提供了简单易用的API。#PySimpleGUI包含了大量的控件（也称为小部件或组件），这些控件可以帮助你快速构建用户界面#导包importPySimpleGUIassgimportcv2importkeyb
2024年最全Python二级考试试题汇总（史上最全） 2401_84584831 程序员 python 开发语言算法
C‘1,2,3,4,5,’D1,2,3,4,5,正确答案：D以下程序的输出结果是：a=30b=1ifa>=10:a=20elifa>=20:a=30elifa>=30:b=aelse:b=0print(‘a={},b={}’.format(a,b))Aa=30,b=1Ba=30,b=30Ca=20,b=20Da=20,b=1正确答案：D以下程序的输出结果是：s=‘’try:foriinrange(
如何通过Python实现自动化任务：从入门到实践小弟有话说1.0 python 自动化开发语言
在当今快节奏的数字化时代，自动化技术正逐渐成为提高工作效率的利器。无论是处理重复性任务，还是管理复杂的工作流程，自动化都能为我们节省大量时间和精力。本文将以Python为例，带你从零开始学习如何实现自动化任务，并通过一个实际案例展示其强大功能。一、为什么选择Python实现自动化？Python作为一种简单易学、功能强大的编程语言，已经成为自动化领域的首选工具。以下是Python在自动化中的几大优势
2024年Python最新Python二级考试试题汇总（史上最全）_计算机二级python真题 2301_82243979 程序员 python 开发语言前端
表达式1001==0x3e7的结果是：AfalseBFalseCtrueDTrue正确答案：B以下选项，不是Python保留字的选项是：AdelBpassCnotDstring正确答案：D表达式eval(‘500/10’)的结果是：A‘500/10’B500/10C50D50.0正确答案：D表达式type(eval(‘45’))的结果是：ABCNoneD正确答案：D表达式divmod(20,3)的
Python点名器代码及打包教程羽落惊鸿TQ python 开发语言
接下来再写一个功能性齐全稍微复杂一点的Python点名器程序，在原简易版的基础上增加历史记录功能、支持多种名单格式（CSV/Excel）、增加点名统计功能，并详细说明了将该程序打包成exe可执行文件的方法，以下是源代码，仅供学习参考：importtkinterastkfromtkinterimportttk, messagebox, filedialogimportrandomimportcsvi
基于python+django的旅游信息网站-旅游景点门票管理系统源码+运行步骤冷琴1996 Python系统设计 python django 旅游
该系统是基于python+django开发的旅游景点门票管理系统。是给师弟做的课程作业。大家学习过程中，遇到问题可以在github咨询作者。学习过程问题可以留言哦演示地址前台地址：http://travel.gitapp.cn后台地址：http://travel.gitapp.cn/admin后台管理帐号：用户名：admin123密码：admin123源码地址https://github.com/
50个常见的python毕业设计/课程设计（源码+文档）冷琴1996 Python系统设计 python 课程设计开发语言
计算机课程设计/毕业设计指南，为计算机相关专业毕业生提供源码、数据库安装、远程调试等相关服务，提供功能讲解视频。下面是50个基于python/django/vue的毕业设计/课程设计。1.网上商城系统这是一个基于python+vue开发的商城网站，平台采用B/S结构，后端采用主流的Python语言进行开发，前端采用主流的Vue.js进行开发。整个平台包括前台和后台两个部分。前台功能包括：首页、商品
分享Python7个爬虫小案例（附源码）人工智能-猫猫爬虫 python 开发语言
在这篇文章中，我们将分享7个Python爬虫的小案例，帮助大家更好地学习和了解Python爬虫的基础知识。以下是每个案例的简介和源代码：1.爬取豆瓣电影Top250这个案例使用BeautifulSoup库爬取豆瓣电影Top250的电影名称、评分和评价人数等信息，并将这些信息保存到CSV文件中。importrequestsfrombs4importBeautifulSoupimportcsv#请求U
后端框架模块化 GIS程序媛—椰子后端
后端框架的模块化设计旨在简化开发流程、提高可维护性，并通过分层解耦降低复杂性。以下是常见的后端模块及其在不同语言（Node.js、Java、Python）中的实现方式：目录1.路由（Routing）2.中间件（Middleware）3.数据库与ORM（models）4.迁移（Migration）5.服务层（ServiceLayer）6.配置管理（Configuration）7.依赖注入（DI）8.
Pyhton 基础 368. python python 开发语言
初识PythonPython是一种解释型语言Python使用缩进对齐组织代码执行，所以没有缩进的代码，都会在载入时自动执行数据类型：整形int无限大浮点型float小数复数complex由实数和虚数组成Python中有6个标准的数据类型：Number(数字)String(字符串)List(列表)Tuple(元组)Sets(集合)Dictionart(字典)其中不可变得数据：Number(数字)St
基于python+django+mysql的小区物业管理系统源码+运行步骤冷琴1996 Python系统设计 python 开发语言
该系统是基于python+django开发的小区物业管理系统。适用场景：大学生、课程作业、毕业设计。学习过程中，如遇问题可以在github给作者留言。主要功能有：业主管理、报修管理、停车管理、资产管理、小区管理、用户管理、日志管理、系统信息。源码学习技术。演示地址http://wuye.gitapp.cn/admin后台管理帐号：用户名：admin123密码：admin123源码地址https:/
用Python修改Word文档字体
在数字化办公场景中，Word文档作为主流文件格式承载着大量商务文书与学术资料。传统手动调整字体格式的操作模式存在显著局限性：当面对批量文档处理、动态内容生成或企业级模板维护时，逐一手工修改不仅效率低下，更难以保障格式规范的统一性。通过Python实现文档字体的程序化控制，能够有效构建自动化处理流程，在确保排版精准度的同时，显著提升文档批量化操作能力。本文将介绍如何使用Python修改Word文档段
python中strip的使用 ICER瞌睡虫
今天聊聊python去除字符串空格的函数：strip（）和replace（）1.strip():函数功能描述：Pythonstrip()方法用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列。注意：该方法只能删除开头或是结尾的字符，不能删除中间部分的字符。格式：str.strip([char])。其中，str为待处理的字符，char指定去除的源字符串首尾的字符。返回结果：去除空格时候的新
基于python+django的家教预约网站-家教信息管理系统源码+运行步骤冷琴1996 Python系统设计 python django 开发语言
该系统是基于python+django开发的家教预约网站。是给师妹做的课程作业。大家在学习过程中，遇到问题可以在github给作者留言。共同学习进步哦效果演示前台地址：http://jiajiao.gitapp.cn后台地址：http://jiajiao.gitapp.cn/admin后台管理帐号：用户名：admin123密码：admin123源码地址https://github.com/geee
python strip函数用法_Python字符串函数strip()原理及用法详解 weixin_39944233 python strip函数用法
strip:用于移除字符串头尾指定的字符（默认为空格）或字符序列。注意：该方法只能删除开头或是结尾的字符，不能删除中间部分的字符。语法：str.strip([chars])str="*****thisis**string**example....wow!!!*****"print(str.strip('*'))#指定字符串*输出结果：thisis**string**example....wow!!
python中strip_python中的strip是什么意思 weixin_39613744 python中strip
Python中strip()方法用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列。注意：该方法只能删除开头或是结尾的字符，不能删除中间部分的字符。它的函数原型：string.strip(s[,chars])，它返回的是字符串的副本，并删除前导和后缀字符。（意思就是你想去掉字符串里面的哪些字符，那么你就把这些字符当参数传入。此函数只会删除头和尾的字符，中间的不会删除。）如果strip()
python爬虫系列实例-python爬虫实例，一小时上手爬取淘宝评论(附代码) weixin_37988176
前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。1明确目的通过访问天猫的网站，先搜索对应的商品，然后爬取它的评论数据。可以作为设计前期的市场调研的数据，帮助很大。2爬取评论并储存（首先要进行登录，获取cookie）搜索你想收集的信息的评价，然后点开对应的产品图片。找到对应的评价的位置。找到对应的位置之后就可以进行数据的爬取了
python基于Django的旅游景点数据分析及可视化的设计与实现 7blk7 qq2295116502 python django 数据分析
目录项目介绍技术栈具体实现截图Scrapy爬虫框架关键技术和使用的工具环境等的说明解决的思路开发流程爬虫核心代码展示系统设计论文书写大纲详细视频演示源码获取项目介绍大数据分析是现下比较热门的词汇，通过分析之后可以得到更多深入且有价值的信息。现实的科技手段中，越来越多的应用都会涉及到大数据随着大数据时代的到来，数据挖掘、分析与应用成为多个行业的关键,本课题首先介绍了网络爬虫的基本概念以及技术实现方法
python strip()函数牛也唱歌
strip函数原型声明：s为字符串，rm为要删除的字符序列.只能删除开头或是结尾的字符或是字符串。不能删除中间的字符或是字符串。s.strip(rm)删除s字符串中开头、结尾处，位于rm删除序列的字符s.lstrip(rm)删除s字符串中开头处，位于rm删除序列的字符s.rstrip(rm)删除s字符串中结尾处，位于rm删除序列的字符注意：1.当rm为空时，默认删除空白符（包括'\n','\r',
用python执行js代码：PyExecJS库详解数据知道 2025年爬虫和逆向教程 python javascript 爬虫数据采集 nodejs
更多内容请见：爬虫和逆向教程-专栏介绍和目录文章目录1.介绍和安装1.1PyExecJS介绍1.2安装JavaScript运行时1.3安装PyExecJS2.PyExecJS的基本使用2.1执行简单的JavaScript代码2.2使用外部JavaScript文件2.3先编译、后调用2.4传递参数和获取返回值3.PyExecJS的高级功能3.1指定JavaScript运行时3.2处理异步JavaSc
Python中strip()函数详细讲解甯公子_ Python入门程序 python 开发语言算法
strip()是Python中字符串（str）对象的一个内置方法，用于去除字符串开头和结尾的空白字符（包括空格、换行符、制表符等）。它不会修改字符串中间的空白字符。语法str.strip([chars])str：需要处理的字符串。chars（可选）：指定要去除的字符集合。如果未指定，默认去除空白字符（包括空格、换行符\n、制表符\t等）。返回值返回一个新的字符串，去除了开头和结尾的指定字符。常见用
利用Python爬虫获取淘宝商品评论：实战案例分析数据小爬虫@ API python 爬虫开发语言
在数字化时代，数据的价值日益凸显，尤其是对于电商平台而言，商品评论作为用户反馈的重要载体，蕴含着丰富的信息。本文将详细介绍如何利用Python爬虫技术获取淘宝商品评论，包括代码示例和关键步骤解析。淘宝商品评论的重要性淘宝商品评论不仅对消费者购买决策有着重要影响，而且对于商家来说，也是了解市场需求、改进产品和服务的重要途径。因此，获取并分析淘宝商品评论数据，对于电商运营和市场分析具有重要意义。Pyt
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。