weixin_30475039

一文搞定scrapy爬取众多知名技术博客文章保存到本地数据库，包含：cnblog、csdn、51cto、itpub、jobbole、oschina等...

本文旨在通过爬取一系列博客网站技术文章的实践，介绍一下scrapy这个python语言中强大的整站爬虫框架的使用。各位童鞋可不要用来干坏事哦，这些技术博客平台也是为了让我们大家更方便的交流、学习、提高的，大家千万要珍惜哦(-_-)。

本文目录：

0、开发环境
1、目标介绍
2、爬取目标
- 2.1、csdn博客
  - 2.1.1 如何判断是否为Ajax方式异步获取的？
  - 2.1.2 爬虫实现
    - 2.1.2.1 修改spider接口实现
    - 2.1.2.2 修改items.py文件
    - 2.1.2.3 修改pipeline.py文件
    - 2.1.2.4 修改settings.py文件
    - 2.1.2.5 修改dbhelper.py文件
  - 2.1.3 启动爬虫
  - 2.1.4 源码下载
- 2.2、cnblog博客园
  - 2.2.1、页面分析
  - 2.2.2、爬虫实现
    - 2.2.2.1、创建项目
    - 2.2.2.2、spider实现
    - 2.2.2.3、items实现
    - 2.2.2.4、pipeline、settings、dbhelper的实现
  - 2.2.3、启动爬虫
  - 2.2.4、源码下载
- 2.3、51cto博客
  - 2.3.1 页面分析
  - 2.3.2、启动爬虫
  - 2.3.3、源码下载
- 2.4、jobbole伯乐在线
  - 2.4.1 页面分析
  - 2.4.2、启动爬虫
  - 2.4.3、源码下载
- 2.5、itpub博客（待续）
  - 2.5.1、页面分析
  - 2.5.2、启动爬虫
  - 2.5.3、源码下载
- 2.6、oschina开源中国博客
  - 2.6.1、页面分析
  - 2.6.2、爬虫实现
  - 2.6.3、启动爬虫
  - 2.6.4、源码下载
3、参考资料

0、开发环境

本文环境：
Win7 64位
Python 版本：3.6.5
pip 版本：18.1
scrapy 版本：1.5
pymysql 版本：0.9.2
Visual Code 版本: 1.28.2
Mysql 5.7 （不会安装的自行百度，这里就不岔话题了）

至于初始化Visual Code（后续文中统一简称：vscode）的Python编程环境，请参考博文：Python3从零开始爬取今日头条的新闻【一、开发环境搭建】
建议通过Anaconda3 来搭建python开发环境，省心。

【注】：文中源码有关XPath解析页面内容提取文章元素的解读，本文不再啰嗦重复了，可以参考前面的博文：
Python3从零开始爬取今日头条的新闻【一、开发环境搭建】
Python3从零开始爬取今日头条的新闻【二、首页热点新闻抓取】（2.1.3节有介绍XPath使用）

1、目标介绍

今天的目标网站主要分为两类：

一类是页面通过Ajax异步请求的方式获取翻页文章列表

比如强大的csdn博客、oschina开源中国就是属于第一类通过Ajax异步加载的方式获取更多内容的
另一类是直接通过界面的上一页、下一页、跳转到第几页的方式直接加载下一页的文章列表

比如cnblog博客园、51cto、iteye、itpub、jobbole伯乐在线等几个是直接通过页面导航翻页的。

下面让我们来一个一个分析、实现爬取技术文章保存到本地。

2、爬取目标

2.1、csdn博客

2.1.1 如何判断是否为Ajax方式异步获取的？

有很多种方式，比如，我们打开火狐浏览器（其它浏览器也一样），按F12打开浏览器的调试模式，选中【网络】，点击【XHR】来过滤异步请求，

然后输入csdn的网址：https://www.csdn.net/，我们看到列表有很多异步的请求，别慌，我们找一下很容易发现其中一个返回json格式的传输数据大小28KB的是我们的目标，点开这个请求发现右边返回的确实是文章列表：

我们通过关键字articles过滤一下这个请求，再往下滑动发现又发了同样的请求，不过参数不一样:

分析下这几个网址：
https://www.csdn.net/api/articles?type=more&category=home&shown_offset=1541633731306080
https://www.csdn.net/api/articles?type=more&category=home&shown_offset=1541579172175664
https://www.csdn.net/api/articles?type=more&category=home&shown_offset=1541572185652051

发现其中不一样的就是最后一个shown_offset参数值，这个看起来像时间戳，但是是什么时间戳呢？当前系统时间？上次返回数据的最后一个时间戳？让我们看下响应里面的数据：
分析了下可以知道，第二个请求的这个时间戳，正是第一个请求返回数据的最后一个里面的这个值，我们再分析后面几个请求发现都是符合这个规律的，OK了，那接下来就是写爬虫去获取数据了。

2.1.2 爬虫实现

打开vscode终端定位到工程目录，例如d:/tmp/csdnnews
输入：
scrapy startproject csdnnews
提示成功后，进入到csdnnews目录
cd csdnnews
然后输入以下命令创建爬虫：
scrapy genspider csdnspider www.csdn.net
其中csdnspider 是爬虫类的名字，www.csdn.net 是我们要爬虫允许的域名地址
此时目录如下(db目录是后面加的数据库操作工具类的文件夹)

这里面我们要改几个地方来实现我们的功能。

2.1.2.1 修改spider接口实现

主要修改的内容有：
url：开始爬虫的首页
allow_domians：允许爬虫的网站域名
def parse(self, response):这里处理爬虫返回的网页内容，抓取数据
第一次的url中要拼接一个16位的时间戳，类中提供了方法，后续的这个offset都是根据上一次返回的数据最后一个里面的offset来赋值即可。
这个spider类的主要内容如下：

class tbmmSpider(Spider):
    # url = "https://www.csdn.net/api/articles?type=more&category=home&shown_offset="
    url = 'https://www.csdn.net/api/articles?type=more&category=newarticles&shown_offset='
    name = "csdnspider"
    allow_domians = ["www.csdn.net"]
    
    def get_time_stamp16(self):
        # 生成16时间戳   eg:1540281250399895    -ln
        datetime_now = datetime.datetime.now()
       
        # 10位，时间点相当于从1.1开始的当年时间编号
        date_stamp = str(int(time.mktime(datetime_now.timetuple())))

        # 6位，微秒
        data_microsecond = str("%06d"%datetime_now.microsecond)

        date_stamp = date_stamp+data_microsecond
        return int(date_stamp)

    def start_requests(self):
        curl = self.url + str(self.get_time_stamp16())
        yield Request(curl, headers=self.headers)    

    def parse(self, response):
        datas = json.dumps(response.text, ensure_ascii= False, indent=4, separators=(',', ': '))
       
        json_data = json.loads(datas)
        json_data = json_data.replace('null', '\"\"').replace(u'None', u'\"\"').replace(u'false', 'False').replace(u'true', 'True')
       
        dict = eval(json_data)
        articles = dict['articles']
        
        if articles and len (articles) > 0:
            for article in articles:
                item = CsdnnewsItem()
                item['avatar'] = article['avatar']
                item['title'] = article['title']
                item['category'] = article['category']
                item['category_id'] = article['category_id']
                item['channel'] = article['channel']
                item['show_datetime'] = article['created_at']
                item['cur_id'] = article['id']
                item['user_name'] = article['user_name']
                item['nickname'] = article['nickname']
                item['user_url'] = article['user_url']
                item['showtime'] = article['shown_time']
                item['source_from'] = 'csdn'
                item['summary'] = article['summary']
                item['tag'] = article['tag']
                item['type'] = article['type']
                item['detail_url'] = article['url']
                item['views_count'] = article['views']
                item['comments_count'] = article['comments']
                shown_offset = article['shown_offset']
                yield item
        
            #如果datas存在数据则对下一页进行采集
            time.sleep(0.5)
            next_url = self.url + str(shown_offset)
            yield Request(next_url, headers=self.headers)

2.1.2.2 修改items.py文件

声明接收抓取内容的item类属性
内容如下：


class CsdnnewsItem(scrapy.Item):
    # define the fields for your item here like:
    
    # 头像
    avatar = scrapy.Field()

    # 标题
    title = scrapy.Field()

    # 分类文本
    category = scrapy.Field()

    # 分类id
    category_id = scrapy.Field()

    # 渠道
    channel = scrapy.Field()

    # 创建时间
    created_time = scrapy.Field()

    # 当前id
    cur_id = scrapy.Field()

    # 用户名
    user_name = scrapy.Field()

    # 作者昵称
    nickname = scrapy.Field()

    # 用户详情url
    user_url = scrapy.Field()

    # 展示时间
    showtime = scrapy.Field()

    # 展示时间，比如2018年8月、19小时前、2天前
    show_datetime = scrapy.Field()
    
    # 来源
    source_from = scrapy.Field()
    
    # 摘要
    summary = scrapy.Field()

    # 标签（多个标签以|分割）
    tag = scrapy.Field()

    # 类型（blog、news、article）
    type = scrapy.Field()

    # 详情url
    detail_url = scrapy.Field()

    # 阅读数量
    views_count = scrapy.Field()

    # 评论数量
    comments_count = scrapy.Field()

2.1.2.3 修改pipeline.py文件

实现保存数据到mysql数据库

class CsdnnewsPipeline(object):
    def __init__(self):
        self.db = DBHelper()


    def process_item(self, item, spider):
        self.db.insert(item)

        return item

    def close_spider(self, spider):

2.1.2.4 修改settings.py文件

声明pymysql数据库连接信息等


BOT_NAME = 'csdnnews'

SPIDER_MODULES = ['csdnnews.spiders']
NEWSPIDER_MODULE = 'csdnnews.spiders'

#mysql-连接配置
MYSQL_HOST = '127.0.0.1'
MYSQL_DBNAME = 'voanews'
MYSQL_USER = 'news'
MYSQL_PASSWD ='123456'
MYSQL_PORT = 3306

# 下面这个要打开，否则无法通过pipe管道存储到数据库
ITEM_PIPELINES = {
    'csdnnews.pipelines.CsdnnewsPipeline': 300,
}

2.1.2.5 修改dbhelper.py文件

实现保存到数据库

# -*- coding: utf-8 -*-
import pymysql
from twisted.enterprise import adbapi
from scrapy.utils.project import get_project_settings  #导入seetings配置

class DBHelper():

    def __init__(self):
        settings = get_project_settings()  #获取settings配置，设置需要的信息

        dbparams = dict(
            host=settings['MYSQL_HOST'],  #读取settings中的配置
            db=settings['MYSQL_DBNAME'],
            user=settings['MYSQL_USER'],
            passwd=settings['MYSQL_PASSWD'],
            charset='utf8',  #编码要加上，否则可能出现中文乱码问题
            cursorclass=pymysql.cursors.DictCursor,
            use_unicode=False,
        )
        #**表示将字典扩展为关键字参数,相当于host=xxx,db=yyy....
        dbpool = adbapi.ConnectionPool('pymysql', **dbparams)
        self.__dbpool = dbpool

    def connect(self):
        return self.__dbpool

    #插入数据
    def insert(self, item):
        #这里定义要插入的字段
       
        sql = "insert into news(avatar, title, category, category_id, channel,show_datetime,\
         cur_id, user_name, nickname, user_url, showtime, source_from, summary, tag, type, detail_url, views_count, comments_count)\
          values(%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s)"
        #调用插入的方法
        query = self.__dbpool.runInteraction(self._conditional_insert, sql, item)
        #调用异常处理方法
        query.addErrback(self._handle_error)
        return item

    #写入数据库中
    def _conditional_insert(self, canshu, sql, item):
        
        #取出要存入的数据，这里item就是爬虫代码爬下来存入items内的数据
        params = (item['avatar'], item['title'], item['category'], item['category_id'], item['channel'], 
        item['show_datetime'], item['cur_id'], item['user_name'], item['nickname'], item['user_url'], 
        item['showtime'], item['source_from'], item['summary'], item['tag'], item['type'], item['detail_url'], item['views_count'], item['comments_count'])
        canshu.execute(sql, params)

    #错误处理方法
    def _handle_error(self, failue):
        print('--------------database operation exception!!-----------------')
        print(failue)

    def __del__(self):
        try:
            self.__dbpool.close()
        except Exception as ex:
            print(ex)

2.1.3 启动爬虫

在启动前，先初始化mysql的表结构，源码中db目录有个init.sql文件，执行后会创建一个存储爬取内容的表结构，同时要把setting中配置的用户名，在mysql中创建相应的用户以及授权给刚才新建的表。不清楚的可以评论回复，这里不岔话题了。
我们在刚才的spider目录的同级路径，输入以下命令即可启动爬虫：

scrapy crawl csdnspider

2.1.4 源码下载

本节结束，爬取csdn博文的源码下载：点我去下载完整源码

2.2、cnblog博客园

2.2.1、页面分析

我们打开博客园的java分类，地址是：https://www.cnblogs.com/cate/java/
可以看到这个网站跟前面的csdn不一样的是，这个的文章列表内容是直接在源码里面的，这种是最容易爬取的，我们在页面右键查看源码内容如下：

刚好对应了页面的前两篇文章：

下面让我们来看下页面的文章列表布局：

所有的文章都是在一个id值为post_list的div里面，每一个文章布局都是包裹在一个class属性值为post_item的div布局里面。

我们再看下底部的翻页跳转导航内容：

翻页导航布局是在一个class属性值为pager的div里面，每一个a标签表示一页导航地址。

找到页面的规律后，接下来让我们编写爬虫实现文章的提取。

2.2.2、爬虫实现

2.2.2.1、创建项目

打开vscode终端定位到工程目录，例如d:/tmp/cnblog
输入：
scrapy startproject cnblog
提示成功后，进入到cnblog目录
cd cnblog
然后输入以下命令创建爬虫：
scrapy genspider -t crawl cnblogspider www.cnblogs.com
其中cnblogspider 是爬虫类的名字，www.cnblogs.com 是我们要爬虫允许的域名地址
此时目录如下(db目录是后面加的数据库操作工具类的文件夹)。

这里跟前面一节实现爬取csdn博文的爬虫不一样的是，在创建爬虫的时候，加了参数-t crawl，就是以crawl模板来创建一个继承自CrawlSpider的spider。

2.2.2.2、spider实现

spider的内容如下：
其中start_urls 是代表要爬取的首页列表，这里选择了java、python、linux等分类；
parse_item是我们处理数据的回调，这里解析页面提取文章各元素；
rules是告诉爬虫应该如何提取翻页导航，这里是以xpath方式定位翻页导航元素，根据2.2.2.1节里面的页面分析很容易理解。


class CnblogspiderSpider(CrawlSpider):
    name = 'cnblogspider'
    allowed_domains = ['www.cnblogs.com']
    start_urls = [
        'https://www.cnblogs.com/cate/java/',
        'https://www.cnblogs.com/cate/python/',
        'https://www.cnblogs.com/cate/job/',
        'https://www.cnblogs.com/cate/algorithm/',
        'https://www.cnblogs.com/cate/linux/',
        'https://www.cnblogs.com/cate/mysql/',
        'https://www.cnblogs.com/cate/cpp/',
        'https://www.cnblogs.com/cate/go/'
        ]

    rules = (
        Rule(LinkExtractor(restrict_xpaths=('//div[@id="pager_bottom"]/div[@id="paging_block"]/div[@class="pager"]/a', )),  callback='parse_item', follow=True),
    )

    
    def parse_item(self, response):
        for article in response.xpath('//div[@id="post_list"]/div[@class="post_item"]'):
            item = CnblogItem()
            try:
                
                item['title'] = article.xpath('./div[@class="post_item_body"]/h3/a[@class="titlelnk"]/text()').extract_first()
                item['summary'] = article.xpath('./div[@class="post_item_body"]/p[@class="post_item_summary"]/text()').extract_first()
                item['detail_url'] = article.xpath('./div[@class="post_item_body"]/h3/a[@class="titlelnk"]/@href').extract_first()
                item['logo_url'] = article.xpath('./div[@class="post_item_body"]/p[@class="post_item_summary"]/a/img/@src').extract_first()
                
                item['source_from'] = '博客园'
                item['show_datetime'] = article.xpath('./div[@class="post_item_body"]/p/div[@class="post_item_foot"]/text()').extract_first()
                item['user_name'] = article.xpath('./div[@class="post_item_body"]/p/div[@class="post_item_foot"]/a/text()').extract_first()
                item['nickname'] = article.xpath('./div[@class="post_item_body"]/p/div[@class="post_item_foot"]/a/text()').extract_first()
                item['user_url'] = article.xpath('./div[@class="post_item_body"]/p[@class="post_item_summary"]/a/@href').extract_first()
                item['cur_id'] = ''

                item['views_count'] =  article.xpath('./div[@class="post_item_body"]/div[@class="post_item_foot"]/span[@class="article_view"]/a/text()').extract_first()
                item['views_count'] = re.findall("\((\d*?)\)", item['views_count'])[0]
                item['comments_count'] =  article.xpath('./div[@class="post_item_body"]/div[@class="post_item_foot"]/span[@class="article_comment"]/a/text()').extract_first()
                item['comments_count'] = re.findall("\((\d*?)\)", item['comments_count'])[0]
                print(item['views_count'])
                print(item['comments_count'])
            except Exception as ex:
                print(ex)
           
            yield item

2.2.2.3、items实现

跟前面2.1节爬取csdn的一样，定义了一样的元素，只不过不同的博客文章，所能提取的字段不一样，只是这里定义的一部分而已。这里就不重复贴代码了。

2.2.2.4、pipeline、settings、dbhelper的实现

这几个都跟2.1节爬取csdn的差不多，只是在dblhelper里面存储的字段不一样而已，具体直接看源码吧。

2.2.3、启动爬虫

如果已经按照2.1爬取csdn的章节里面初始化过mysql数据库了，这一步可以省略。

在启动前，先初始化mysql的表结构，源码中db目录有个init.sql文件，执行后会创建一个存储爬取内容的表结构，同时要把setting中配置的用户名，在mysql中创建相应的用户以及授权给刚才新建的表。不清楚的可以评论回复，这里不岔话题了。

我们在刚才的spider目录的同级路径，输入以下命令即可启动爬虫：

scrapy crawl cnblogspider

2.2.4、源码下载

本节结束，爬取cnblog博客园文章的源码下载：点我去下载完整源码

2.3、51cto博客

2.3.1 页面分析

我们打开技术类的推荐分类：http://blog.51cto.com/artcommend，在页面右键查看源码，可以发现文章列表标题在源码中，这种跟前面2.2节的博客园网站的爬取一样的。

2.3.2、启动爬虫

如果已经按照2.1爬取csdn的章节里面初始化过mysql数据库了，这一步可以省略。

在启动前，先初始化mysql的表结构，源码中db目录有个init.sql文件，执行后会创建一个存储爬取内容的表结构，同时要把setting中配置的用户名，在mysql中创建相应的用户以及授权给刚才新建的表。不清楚的可以评论回复，这里不岔话题了。

我们在刚才的spider目录的同级路径，输入以下命令即可启动爬虫：

scrapy crawl ctospider

2.3.3、源码下载

本节结束，爬取51CTO博客文章的源码下载：点我去下载完整源码

2.4、jobbole伯乐在线

2.4.1 页面分析

我们打开伯乐在线的全部文章页面：http://blog.jobbole.com/all-posts/
可以看到底部有分页导航，是不是很爽…克制一点，以学习为目的，不要耍流氓哈，不要干坏事。

创建工程、创建爬虫、编写spider等就不重复了，跟前面的一样一样的，直接看源码会更直接。

2.4.2、启动爬虫

如果已经按照2.1爬取csdn的章节里面初始化过mysql数据库了，这一步可以省略。

在启动前，先初始化mysql的表结构，源码中db目录有个init.sql文件，执行后会创建一个存储爬取内容的表结构，同时要把setting中配置的用户名，在mysql中创建相应的用户以及授权给刚才新建的表。不清楚的可以评论回复，这里不岔话题了。

我们在刚才的spider目录的同级路径，输入以下命令即可启动爬虫：

scrapy crawl jobbolespider

2.4.3、源码下载

本节结束，爬取伯乐在线博客文章的源码下载：点我去下载完整源码

2.5、itpub博客（待续）

2.5.1、页面分析

我们打开itpub的linux专题：http://blog.itpub.net/linux/

我们右键查看源码，可以看到文章内容就在源码中，只不过这个网站的翻页导航不是跟前面的一样有直接的第1页、第2页、下一页的形式，而是在底部有个“点击加载更多”的布局，其实也是一个a标签，跟其它的分页导航没有本质的区别。

创建工程、创建爬虫、编写spider等就不重复了，跟前面的一样一样的，直接看源码会更直接。

2.5.2、启动爬虫

如果已经按照2.1爬取csdn的章节里面初始化过mysql数据库了，这一步可以省略。

在启动前，先初始化mysql的表结构，源码中db目录有个init.sql文件，执行后会创建一个存储爬取内容的表结构，同时要把setting中配置的用户名，在mysql中创建相应的用户以及授权给刚才新建的表。不清楚的可以评论回复，这里不岔话题了。

我们在刚才的spider目录的同级路径，输入以下命令即可启动爬虫：

scrapy crawl itpubspider

2.5.3、源码下载

本节结束，爬取ITPUB博客文章的源码下载：点我去下载完整源码

2.6、oschina开源中国博客

2.6.1、页面分析

开源中国的博客就比较有意思，他的翻页比较隐藏，但是还是可以分析得到的。我们打开编程语言的首页，并且按F12打开调试模式查看Ajax过滤异步请求：

可以看到这里是有异步请求获取内容的，并且从过滤的Ajax请求的内容一看便知，在当前分类（比如截图中的编程语言分类是classification=428609）定了的前提下，p=2就是表示获取第二页的数据了，type=ajax表示以异步的方式返回文章列表。

再让我们看下源码，在当前页面右键查看源码，如下图：可以看到它的内容在源码里面的：

但是它页面上又看不到上一页、下一页、或者第1页，第2页之类的分页导航的布局。从下图可以看到，其实是有的，只不过它的布局元素都设置了显示属性为隐藏的：style="display: none"，所以我们看不到。
这样我们就知道在crawl爬虫中如何获取爬虫所需下一页的布局元素了。

那还有个问题：oschina开源中国这个网站的博客页面，跟前面的几个可以通过页面翻页导航自动爬取同系列的博客页面不一样的是，这里没有告诉我们它的最后一页是多少，如何判断呢？
我们这里采取一个策略：如果当前这次请求，没有返回任何博客文章内容了，就认为到最后一页了。

2.6.2、爬虫实现

ok，前面分析过页面结构、翻页导航定位、判断最后一页的策略了，这里就具体实现爬虫模块。

这里我们把爬虫访问的首页定为p=1，链接就是前面2.6.1分析的Ajax异步请求里面的内容，只是把p=2改为p=1就是访问第一页了。
下一页的定位规则也很容易理解，通过XPath定位到2.6.1分析的那个隐藏的翻页的a标签即可。

start_urls = ['https://www.oschina.net/blog/widgets/_blog_index_recommend_list?classification=0&type=ajax&p=1']

rules = (
    Rule(LinkExtractor(restrict_xpaths=('//p[@class="pagination"]/a[contains(@class, "pagination__next")]', )),  callback='parse_item', follow=True),
)

解析文字列表的方法如下：这个直接看代码就行了，主要是根据XPath提取我们需要的字段，如果对XPath不熟悉，可以参考我的另一篇文章有详细介绍使用示例：
Python3从零开始爬取今日头条的新闻【二、首页热点新闻抓取】
的2.1.3节有介绍。

def parse_item(self, response):
    for article in response.xpath('//div/div[contains(@class, "blog-item")]'):
        item = OschinaItem()
        try:
            
            item['title'] = article.xpath('./div[@class="content"]/a[@class="header"]/@title').extract_first()
            item['summary'] = article.xpath('./div[@class="content"]/div[@class="description"]/p/text()').extract_first()
            item['detail_url'] = article.xpath('./div[@class="content"]/a[@class="header"]/@href').extract_first()
            item['source_from'] = '开源中国'
            item['show_datetime'] = article.xpath('./div[@class="content"]/div[@class="extra"]/div/div[2]/text()').extract_first()
            item['user_name'] = article.xpath('./div[@class="content"]/div[@class="extra"]/div/div[1]/a/text()').extract_first()
            item['nickname'] = article.xpath('./div[@class="content"]/div[@class="extra"]/div/div[1]/a/text()').extract_first()
            item['user_url'] = article.xpath('./div[@class="content"]/div[@class="extra"]/div/div[1]/a/@href').extract_first()
            item['cur_id'] = article.xpath('./@data-id').extract_first()

            item['views_count'] = article.xpath('./div[@class="content"]/div[@class="extra"]/div/div[3]/text()').extract_first()
            view_count_str = str(item['views_count'])

            # 因为页面上的浏览数，这个网站返回的是2k，100之类的，要统一转为整型存储到数据库
            if view_count_str.find('K') > -1:
                view_count_str = view_count_str.lstrip().rstrip()   
                item['views_count'] = int(float(view_count_str.replace('K',''))*1000.0)
            if view_count_str.find('w') > -1:
                item['views_count'] = str(float(view_count_str.replace('w',''))*10000.0)
            
            item['comments_count'] = article.xpath('./div[@class="content"]/div[@class="extra"]/div/div[4]/a/text()').extract_first()
            
        except Exception as ex:
            print(ex)
       
        yield item

OK，主要的就上面这个代码，其它的跟前面章节的都大同小异，直接看源码即可。

2.6.3、启动爬虫

如果已经按照2.1爬取csdn的章节里面初始化过mysql数据库了，这一步可以省略。

在启动前，先初始化mysql的表结构，源码中db目录有个init.sql文件，执行后会创建一个存储爬取内容的表结构，同时要把setting中配置的用户名，在mysql中创建相应的用户以及授权给刚才新建的表。不清楚的可以评论回复，这里不岔话题了。

我们在spider目录的同级路径，输入以下命令即可启动爬虫：

scrapy crawl oschinaspider

2.6.4、源码下载

本节结束，爬取OSChina开源中国博客文章的源码下载：点我去下载完整源码

全部内容完毕，这里只是总结下自己最近学习scrapy爬虫的几个实践，通过这几个实践，一般的类似需求应该都可以搞定，当然这里没有涉及到反爬虫厉害的站点的处理，比如浏览器header伪装、ip代理、爬虫时间间隔等，后续有机会再实践下。

本文内容如有错误，恳请斧正，如有更好的技术，欢迎指点一二，谢谢。

3、参考资料

[1]: XPath语法参考
[2]: 廖雪峰老师的Python3 在线学习手册
[3]: Python3官方文档
[4]: 菜鸟学堂-Python3在线学习
[5]: scrapy官方文档
[6]: scrapy中文网

转载于:https://www.cnblogs.com/xiaocy66/p/10589254.html

你可能感兴趣的:(一文搞定scrapy爬取众多知名技术博客文章保存到本地数据库，包含：cnblog、csdn、51cto、itpub、jobbole、oschina等...)

【批量图片区域识别改名】有没有可以自动批量识别jpg图片上的区域文字，并直接提取文字命名的软件么? 没有我们教你基于WPF和腾讯api的方案做一个如沐春风菜鸡收割机图片OCR识别扫描PDF提取内容 PDF明细提取表格工具实现PDF明细转Excel PDF数据导出Excel 批量PDF内容提取工具批量图片识别区域内容改名批量图片识别多个区域内容导表格
应用场景描述在很多实际工作场景中，我们可能会遇到大量的图片文件，这些图片中包含特定区域的文字信息，比如发票图片上的发票号码、合同图片上的合同编号等。手动识别并为图片命名效率极低且容易出错。使用自动批量识别JPG图片上的区域文字，并直接提取文字为图片命名的软件，可以大大提高工作效率，减少人工操作带来的错误。实现方案：基于WPF和腾讯云OCRAPI步骤1：准备工作注册腾讯云账号：访问腾讯云官网（腾讯云
【每日一题 | 2025】3.3 ~ 3.9 Guiat 每日一题每日一题
个人主页：Guiat归属专栏：每日一题文章目录1.【3.3】10387[蓝桥杯2024省A]训练士兵2.【3.4】P8601[蓝桥杯2013省A]剪格子3.【3.5】P9241[蓝桥杯2023省B]飞机降落4.【3.6】P10578[蓝桥杯2024国A]旋转九宫格5.【3.7】P8642[蓝桥杯2016国AC]路径之谜6.【3.8】P8694[蓝桥杯2019国AC]估计人数7.【3.9】数字接龙正
AbMole| 纳米药物递送系统IL@H-PP在乳腺癌和脑转移光热疗法 AbMole AbMole 生物化学生物试剂科研生物实验
近年来，光热疗法（PTT）作为一种非侵入性的癌症治疗手段，因其独特的优势而受到广泛关注。来自四川大学华西药学院药物靶向与药物递送系统重点实验室的范童,胡海丽,徐燕燕等多名研究人员发表了题为《HollowcoppersulfidenanoparticlescarryingISRIBforthesensitizedphotothermaltherapyofbreastcancerandbrainmet
C# &Unity 唐老狮 No.8 模拟面试题咩咩-哈基米版 C#&&Unity 面试题与算法合集 c#unity 开发语言
本文章不作任何商业用途仅作学习与交流安利唐老狮与其他老师合作的网站,内有大量免费资源和优质付费资源,我入门就是看唐老师的课程打好坚实的基础非常非常重要:全部-游习堂-唐老狮创立的游戏开发在线学习平台-PoweredByEduSoho如果你发现了文章内特殊的字体格式,那是AI补充的知识,我发现原网站下面有答案,我将会把答案以不同样式穿插在回答之中目录C#1.如果我们想为Unity中的Transfor
Linux 提权藤原千花的败北权限提升网络安全 linux 运维网络安全
文章目录前言1.内核漏洞提权脏牛（CVE-2016-5195）2.不安全的系统配置项2.1SUID/SGID提权2.2sudo提权2.3定时任务提权2.4capabilities提权3.第三方软件提权TomcatmanagerNginx本地提权（CVE-2016-1247）Redis未授权4.参考前言Linux提权总结1.内核漏洞提权内核管理着组件（如系统上的内存）和应用程序之间的通信。这个关键作
XML文件解析跪在镜子前喊帅其他 java
文章目录前言1、XML解析1.1、SAX1.2、DOM1.3、XPath前言xml文档里包含的是xml的元素，指的是从开始标签直到结束标签的部分，元素里可以包含其他元素，元素也可以拥有其他属性，比如：yang251212students，student，name，age，stuNo等这些都叫元素标签也可以叫元素节点和元素对象。id是某个元素的节点的属性，叫属性节点和属性对象。yang，25，121
java面试题框架篇老汤姆. 面试 java spring boot 开发语言
文章目录1.Spring框架1.1Spring两大核心：IOC与AOPIOCDIAOP切面=切入点表达式+通知方法关于JDK代理和CGlib代理总结(高程/架构)!!!AOP常用注解1.2BeanFactory(懒加载初始bean)和ApplicationContext(立即初始bean)有什么区别1.3Spring框架用到了哪些设计模式1.4spring框架的优缺点1.5Spring常用注解2.
R+VIC 模型融合实践技术应用及未来气候变化模型预测 weixin_贾水文模型集合水文水资源防洪评价风险评估滑坡泥石流数学建模经验分享
目前，无论是工程实践或是科学研究中都存在很多著名的水文模型如SWAT/HSPF/HEC-HMS等。虽然，这些软件有各自的优点；但是，由于适用的尺度主要的是中小流域，所以在预测气候变化对水文过程影响等方面都有所不足。VIC模型是一个大尺度的半分布式水文模型，其设计之初就是为了模拟大流域的水文过程；它能够计算陆地－大气的能量通量，考虑土壤性质和土地利用的影响，自带有简化的湖泊/湿地模块，也能够将植被状
docker运行容器命令 redis 指定端口 big maom~~ docker redis eureka 容器运维
我整理的一些关于【Docker】的项目学习资料（附讲解～～）和大家一起分享、学习一下：https://edu.51cto.com/surl=QsXoR2使用Docker运行Redis容器并指定端口的详细指南本文旨在帮助初学者理解如何使用Docker来运行Redis容器，并指定端口。Docker是一个开源平台，允许开发者将应用和其依赖打包成一个标准的单元——容器。通过使用Docker，开发者可以确保
ollama教程——使用Ollama与LangChain实现Function Calling(函数调用)的详细教程（二）【附完整源码】 walkskyer ollama入门教程 langchain ollama LLM
ollama入门系列教程简介与目录相关文章:Ollama教程——入门：开启本地大型语言模型开发之旅Ollama教程——模型：如何将模型高效导入到Ollama框架Ollama教程——兼容OpenAIAPI：高效利用兼容OpenAI的API进行AI项目开发Ollama教程——使用LangChain：Ollama与LangChain的强强联合Ollama教程——生成内容API：利用Ollama的原生AP
【Hugging Face】transformers 库中 model 的常用方法和属性彬彬侠 Hugging Face model 模型的属性和方法 transformers Hugging Face python
HuggingFacetransformers库中model的常用方法和属性在transformers库中，model代表预训练的Transformer模型，可用于文本分类、问答、文本生成等任务。不同任务的model可能会有不同的方法和属性，但它们共享许多常见功能。1.model的常见属性在加载AutoModel或AutoModelForXXX后，可以使用以下属性：fromtransformers
【Hugging Face】transformers 库中 model.generate() 方法：自回归模型的文本生成方法彬彬侠 Hugging Face model.generate transformers Hugging Face 文本生成自回归模型 GPT LLAMA
HuggingFacemodel.generate方法model.generate是transformers库中的文本生成（TextGeneration）方法，适用于自回归模型（如GPT-2、T5、BART、LLAMA），用于生成文本、摘要、翻译、问答等。1.适用于哪些模型？generate适用于基于Transformer生成文本的模型，例如：GPT-2(AutoModelForCausalLM)
centos7升级curl到最新版包含离线安装方法 llody_55 vim
当前版本[root@consul~]#curl-Vcurl7.29.0(x86_64-redhat-linux-gnu)libcurl/7.29.0NSS/3.53.1zlib/1.2.7libidn/1.28libssh2/1.8.0Protocols:dictfileftpftpsgopherhttphttpsimapimapsldapldapspop3pop3srtspscpsftpsmtp
B2B线上订货系统|数商云：重塑供应链生态，驱动企业高效增长数商云网络 B2B系统数字化电商平台重构大数据人工智能架构微服务 java spring
引言随着信息技术的飞速发展，传统的订货方式已经难以满足现代企业的需求。B2B线上订货系统应运而生，以其便捷、高效、低成本等优势，逐渐成为企业供应链管理的重要工具。数商云作为B2B电商解决方案的领军企业，凭借其深厚的技术积累和丰富的行业经验，为众多企业打造了高效、定制化的B2B线上订货系统。本文将深入探讨数商云B2B线上订货系统的特点、优势、核心功能以及成功案例，旨在为企业提供一个全面、深入的了解，
Qt的QGraphics View的使用水瓶丫头站住 Qt qt 信息可视化开发语言
QGraphicsView框架是Qt中用于管理和渲染大量2D图形对象的强大工具，适合构建绘图软件、游戏编辑器、数据可视化等场景。以下是关键使用步骤和示例：1.核心组件QGraphicsScene：场景容器，管理所有图形项（Item）的层级、坐标和事件。QGraphicsView：视图组件，用于显示场景内容，支持缩放、旋转、滚动等操作。QGraphicsItem：所有图形项的基类（如矩形、椭圆、自定
蓝桥杯冲击省一必刷题单(一) 小咖拉眯蓝桥杯蓝桥杯 java 算法数据结构
此题单为算法基础精选题单，包含蓝桥杯常考考点以及各种经典算法，可以帮助你打牢基础，查漏补缺。本题单目标是冲击蓝桥杯省一国一，团体程序天梯赛个人国三、XCPC区域赛铜/银奖前言本次题单重点关注日期问题，进制转换问题，排序问题，其中日期问题和进制转换问题，几乎是必考题，几乎每年蓝桥杯都能看到，大家需要重点掌握。日期问题：蓝桥杯热门考点，基本每年省赛必考。进制转换问题：与日期一样蓝桥杯热门考点，基本每年
Garfish 源码解析 —— 一个微应用是如何被挂载的 moonrailgun 前端工程化 javascript 前端前端框架
背景Garfish是字节跳动webinfra团队推出的一款微前端框架包含构建微前端系统时所需要的基本能力，任意前端框架均可使用。接入简单，可轻松将多个前端应用组合成内聚的单个产品因为当前对Garfish的解读极少，而微前端又是现代前端领域相当重要的一环，因此写下本文，同时也是对学习源码的一个总结本文基于garfish#0d4cc0c82269bce8422b0e9105b7fe88c2efe42a
Spring 多实例注入 m0_74825172 面试学习路线阿里巴巴 spring java 后端
文章目录1.Spring多实例注入的应用场景2.Spring多实例注入的使用2.1通过ApplicationContext获取多实例2.2配置@Scope的proxyMode属性获取多实例1.Spring多实例注入的应用场景Spring容器中保存的bean默认是单例的，通常来说这样做可以降低bean对象创建的频率，在某些访问量大的场景下可以节省对象创建消耗的时间，提高响应性能。但在一些其他场景，比
Vue3 基础教程：从入门到实践 (保姆级教学) 前段技术人学习前端 vue.js vue
一、Vue3简介Vue.js是一款用于构建用户界面的JavaScript框架，而Vue3作为其最新的主要版本，带来了诸多令人瞩目的改进与新特性，使其在前端开发领域备受青睐。（一）Vue3的优势性能提升：Vue3重写了虚拟DOM算法，显著提高了挂载、更新和渲染的速度。在处理大型列表或频繁数据更新的场景时，Vue3的表现更为出色，能够为用户带来更流畅的交互体验。例如，一个包含大量商品信息的电商产品列表
HarmonyNext实战案例：基于ArkTS的实时多人协作白板应用开发 harmonyos-next
HarmonyNext实战案例：基于ArkTS的实时多人协作白板应用开发引言在HarmonyNext生态系统中，实时多人协作是其核心特性之一。通过实时多人协作，开发者可以构建高效、互动的应用场景，例如实时白板、协同编辑等。本文将深入探讨如何使用ArkTS12+语法开发一个实时多人协作白板应用，涵盖从基础概念到高级技巧的全面讲解。通过本案例，您将学习到如何利用HarmonyNext的实时通信特性，结
Linux egrep 命令使用详解 linux
简介egrep（扩展GREP）命令是grep的一个变体，支持扩展正则表达式。它在功能上等同于grep-E。基础语法egrep[OPTIONS]PATTERN[FILE...]或grep-E[OPTIONS]PATTERN[FILE...]示例用法在文件中查找包含“error”的所有行egrep"error"logfile.txt大小写不敏感搜索egrep-i"error"logfile.txt使用
javaweb内置对象request,response,out,session,Application等菜鸟小T java http struts
JSP内置对象是一些不用声明，也不用像一般的java代码一样需要用new去获取实例的对象，这些对象可以直接在JSP页面的脚本部分使用。一、request对象：1.response和request对象是JSP的内置对象中比较重要的两个，这两个对象提供了对服务器和浏览器通信方法的控制，在JSP中，内置对象request封装了用户提交的信息，即使用HTTP协议处理客户请求时，表单提交的数据就存放在req
Linux基础——操作系统（OS）、操作系统内核（Kernel）和Shell D3Zane Linux基础 linux
文章目录前言一、操作系统（OS）和操作系统内核（Kernel）1.操作系统架构2.内核在操作系统中的具体位置二、了解Shell1.Shell是什么？2.Shell的类型3.Shell的功能？4.Shell的工作原理？5.Shell示例三、Linux命令的执行的过程（原理）总结前言首先，先向Linux创始人LinusTorvalds以及Linux的整个开源社区致敬，没有Linus的Linux内核，没
做了6年的Java，mysql去重查询方法 m0_57768082 程序员 java 经验分享面试
前言：求职季在即，技巧千万条，硬实力才是关键，听说今年疫情大环境不好，更要好好准备才行。MySQL是Java程序员面向高级的必备技能，很多朋友在面试时经常在这里折戟沉沙，饮恨不已。熟练掌握MySQL知识，在实践中具有很强的操作性，尤其是在互联网行业，不仅要写好代码、实现功能，而且还要在高并发的情况下能够正常运转。这篇文章总结了许多关于MySQL方面的知识总结，以及面试多家总结出来的常问面试题，希望
使用Java对接StockTV印度股票数据源API实战指南 java爬虫
关键词：JavaAPI开发、SpringBoot、WebSocket、ApacheHttpClient一、项目概述本指南将使用Java实现StockTV金融数据API的完整对接方案，包含以下核心模块：✅RESTAPI客户端：支持同步/异步调用✅WebSocket实时订阅：基于SpringWebSocket✅企业级特性：连接池管理、熔断降级✅生产就绪：完整的异常处理和监控二、环境准备1.技术栈要求J
SpringBoot + vue 管理系统 m0_51274464 面试学习路线阿里巴巴 spring boot vue.js 后端
SpringBoot+vue管理系统文章目录SpringBoot+vue管理系统1、成品效果展示2、项目准备3、项目开发3.1、部门管理3.1.1、前端核心代码3.1.2、后端代码实现3.2、员工管理3.2.1、前端核心代码3.2.2、后端代码实现3.3、班级管理3.3.1、前端核心代码3.3.2、后端代码实现3.4、学生管理3.4.1、前端核心代码3.4.2、后端代码实现3.5、数据统计3.5.
VSCode 插件开发实战（十六）：详解插件生命周期乐闻x VsCode 使用手册 vscode ide 编辑器
前言VSCode它不仅功能强大，而且可以通过插件进行扩展，以满足不同开发者的需求。那么，VSCode自定义插件的生命周期是如何运行的呢？今天我们就用通俗易懂的方式来讲解一下。什么是VSCode插件？VSCode插件是用来扩展编辑器功能的小程序。通过这些插件，我们可以添加新的语言支持、代码片段、调试支持等。VSCode插件通常是用JavaScript或TypeScript编写的，并打包成VSIX文件
警惕AI神话破灭：深度解析大模型缺陷与禁用场景指南领码科技 AI应用 IT职场大模型缺陷 AI工具风险伦理挑战应用场景限制可信AI
摘要当前AI大模型虽展现强大能力，但其本质缺陷可能引发系统性风险。本文从认知鸿沟、数据困境、伦理雷区、技术瓶颈四大维度剖析大模型局限性，揭示医疗诊断、法律决策等8类禁用场景，提出可信AI建设框架与用户防护策略。通过理论分析与实操案例结合，为规避AI工具风险提供系统性解决方案。关键词：大模型缺陷、AI工具风险、伦理挑战、应用场景限制、可信AI一、认知鸿沟：无法企及的人类智慧1.1创造性思维的致命短板
BERT（Bidirectional Encoder Representations from Transformers）的序列分类模型，简单学习记录努力努力再努力呐 BERT bert 分类学习
一、代码#本地离线模型使用fromtransformersimportAutoModelForCausalLM,AutoTokenizer,pipeline,BertForSequenceClassification,BertTokenizer#设置具体包含config.json的目录，只支持绝对路径model_dir=r"models\bert-base-chinese"#model_dir=r
基于STM32+物联网设计的浇花神器（华为云IoT）鱼弦单片机系统合集 stm32 物联网华为云
鱼弦：公众号【红尘灯塔】，CSDN博客专家、内容合伙人、新星导师、全栈领域优质创作者、51CTO(Top红人+专家博主)、github开源爱好者（go-zero源码二次开发、游戏后端架构https://github.com/Peakchen）基于STM32+物联网设计的浇花神器（华为云IoT）介绍基于STM32+物联网的浇花神器利用传感器采集土壤湿度数据，通过华为云物联网平台将数据发送到云端，并根
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不