VisionaryX

day073 项目_IT橘子爬虫

今天，做了一个爬虫的新项目——IT桔子(www.itjuzi.com/company)的信息爬取.

IT桔子是关注IT互联网行业的结构化的公司数据库和商业信息提供商

IT桔子致力于通过信息和数据的生产、聚合、挖掘、加工、处理，帮助目标用户和客户节约时间和金钱、提高效率，以辅助其各类商业行为，包括风险投资、收购、竞争情报、细分行业信息、国外公司产品信息数据服务等。

所以IT桔子网站的信息是很有商业价值的，是有爬取需求的。当然，也是有一定爬取难度的，网站对一般正常客户（非会员），都进行了限制访问处理，一般的反反爬措施是都要上的，如user-agent,host,cookies等对request对象请求头的设置，随机ip代理等；页面的html代码是动态HTML的，所以直接爬取拿不到数据，需要考虑使用selinium模拟Chrome浏览器，等待渲染完之后再提取数据；而且，不同的详情页面的HTML代码还有不同的代码格式，需要在测试的过程中不断地增强爬虫代码的健壮性等等。

步骤

明确目标数据，详情页的：(items.py)

a.公司简介:company_name ;company_slogan; company_link; company_tags

b.公司基本信息:company_info; company_full_name; create_time; company_size; company_status

c.融资情况:invest_list (列表结构，每一个元素是一个字典，存放一次融资记录)

d.团队信息:team_list (列表结构，每一个元素是一个字典，存放一个负责人信息)

e.产品信息:product_list(列表结构，每一个元素是一个字典，存放一个产品的信息)
分析网站的爬取思路：

a.信息都在详情页，只需要更改url尾缀数字即可；
b.因为有的是静态页面有的是动态页面，所以要使用，selenium工具模拟chrome浏览器访问；
c.登录后才可以请求完整信息，要模拟登陆/携带cookies信息访问
d.html页面结构不一致，增加判断语句，增强爬虫代码的健壮性
e.遇到其他问题，根据具体情况分析，解决问题
选择框架，scrapy;选择模块，spider/crawl_spider都可以
爬取一页数据（itjuzi.py）
解析数据(itjuzi.py)
存储数据，测试爬取结果的正确性(pipelines.py, settings.py)
开启循环，正式爬取

spider模块爬取

items.py


import scrapy


class JuziItem(scrapy.Item):
    # 1.公司简介
    company_name = scrapy.Field()
    company_slogan = scrapy.Field()
    company_link = scrapy.Field()
    company_tags = scrapy.Field()

    # 2.公司基本信息
    company_info = scrapy.Field()
    company_full_name = scrapy.Field()
    create_time = scrapy.Field()
    company_size = scrapy.Field()
    company_status = scrapy.Field()

    # 3. 融资
    invest_list = scrapy.Field()
    # 4. 团队信息
    team_list = scrapy.Field()
    # 5. 产品信息
    product_list = scrapy.Field()

    url_link = scrapy.Field()

    # 数据源
    data_source = scrapy.Field()
    data_time = scrapy.Field()

itjuzi.py

# -*- coding: utf-8 -*-
import scrapy
from bs4 import BeautifulSoup
from ITJuzi.items import JuziItem


class JuziSpider(scrapy.Spider):
    name = 'itjuzi'
    allowed_domains = ['itjuzi.com']

    base_url = 'https://www.itjuzi.com/company/'
    offset = 1
    start_urls = [base_url + str(offset)]

    headers = {
        "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",
        "Accept-Encoding": "gzip, deflate, br",
        "Accept-Language": "zh-CN,zh;q=0.9",
        "Cache-Control": "max-age=0",
        "Connection": "keep-alive",
        "Cookie": "gr_user_id=8b2a0647-ed6e-4da9-bd79-0927840738ba; _ga=GA1.2.1065816449.1520818726; MEIQIA_EXTRA_TRACK_ID=11oNlg9W4BPRdVJbbc5Mg9covSB; _gid=GA1.2.1051909062.1524629235; acw_tc=AQAAADMxgTrydgkAxrxRZa/yV6lXP/Tv; Hm_lvt_1c587ad486cdb6b962e94fc2002edf89=1524629235,1524637618,1524702648; gr_session_id_eee5a46c52000d401f969f4535bdaa78=5ac2fdfd-b747-46e3-84a3-573d49e8f0f0_true; identity=1019197976%40qq.com; remember_code=N8cv8vX9xK; unique_token=498323; acw_sc__=5ae1302fee977bcf1d5f28b7fe96b94d7b5de97c; session=e12ae81c38e8383dcaeaaff9ded967758bc5a01c; Hm_lpvt_1c587ad486cdb6b962e94fc2002edf89=1524707391",
        "Host": "www.itjuzi.com",
        "If-Modified-Since": "Thu, 26 Apr 2018 01:49:47 GMT",
        "Upgrade-Insecure-Requests": "1",
        "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.117 Safari/537.36",

    }

    # 设置cookie登录的验证
    def start_requests(self):
        for url in self.start_urls:
            yield scrapy.Request(url=url, callback=self.parse, headers=self.headers)

    def parse(self, response):

        # 解析数据
        soup = BeautifulSoup(response.body, 'lxml')
        item = JuziItem()
        item['url_link'] = response.url
        # 1.公司简介
        # cpy1 = soup.find(attrs={'class':"infoheadrow-v2"})
        cpy1 = soup.find(class_='infoheadrow-v2')
        if cpy1:
            item['company_name'] = cpy1.select('.seo-important-title')[0].get('data-name')
            item['company_slogan'] = cpy1.select('.seo-slogan')[0].get_text()
            item['company_link'] = cpy1.select('.link-line a')[-1].get_text().strip()
            tag_list = cpy1.select('.tag-list a')
            tag_str = ""
            for tag in tag_list:
                tag_str += tag.get_text().strip() + " "

            item['company_tags'] = tag_str

        # 2.公司基本信息
        cpy2 = soup.find(class_='block-inc-info')
        if cpy2:
            item['company_info'] = cpy2.select('.block div')[-1].get_text().strip()
            item['company_full_name'] = cpy2.select('.des-more h2')[0].get_text().strip()
            item['create_time'] = cpy2.select('.des-more h3')[0].get_text().strip()
            item['company_size'] = cpy2.select('.des-more h3')[1].get_text().strip()
            item['company_status'] = cpy2.select('.pull-right')[0].get_text().strip()

        # 3. 融资
        cpy3 = soup.find(attrs={'id': "invest-portfolio"})
        if cpy3:
            tr_list = cpy3.select('tr')
            inv_list = []
            for tr in tr_list:
                if len(tr.select('td')) > 2:
                    tr_dict = {}
                    tr_dict['time'] = tr.select('td')[0].get_text().strip()
                    tr_dict['round'] = tr.select('td')[1].get_text().strip()
                    tr_dict['money'] = tr.select('td')[2].get_text().strip()
                    tr_dict['name'] = tr.select('td')[3].get_text().strip()
                    inv_list.append(tr_dict)
            item['invest_list'] = inv_list

        # 4. 团队信息
        cpy4 = soup.select('.team-list')[0]
        if cpy4:
            tea_list = cpy4.select('li')
            team_temp_list = []
            for tr in tea_list:
                tr_dict = {}
                tr_dict['name'] = tr.select('.per-name')[0].get_text().strip()
                tr_dict['position'] = tr.select('.per-position')[0].get_text().strip()
                tr_dict['info'] = tr.select('.per-des')[0].get_text().strip()

                team_temp_list.append(tr_dict)
            item['team_list'] = team_temp_list

        # 5. 产品信息
        cpy5 = soup.select('.product-list')[0]
        if cpy5:
            li_list = cpy5.select('li')
            pro_temp_list = []
            for tr in li_list:
                tr_dict = {}
                tr_dict['name'] = tr.select('.product-name')[0].get_text().strip()
                tr_dict['info'] = tr.select('.product-des')[0].get_text().strip()
                pro_temp_list.append(tr_dict)
            item['product_list'] = pro_temp_list

        # 将解析完毕的数据 交给 --引擎 --管道
        yield item

        self.offset += 1
        url = self.base_url + str(self.offset)
        yield scrapy.Request(url=url, callback=self.parse)

注意，此处储存数据到redis，使用的是scrapy-redis的内置管道

pipelines.py


from datetime import datetime

class JuziPipeline(object):
    def process_item(self, item, spider):
        item['data_source'] = spider.name
        item['data_time'] = datetime.utcnow()
        return item

middlewares.py


class ChromeMiddleware(object):
    def process_request(self, request, spider):
        driver = webdriver.Chrome()
        driver.get(request.url)

        time.sleep(5)

        data = driver.page_source

        driver.quit()

        # 拦截系统的下载

        return scrapy.http.HtmlResponse(url=request.url, body=data.encode('utf-8'), encoding='utf-8', request=request)

settings.py

BOT_NAME = 'ITJuzi'

SPIDER_MODULES = ['ITJuzi.spiders']
NEWSPIDER_MODULE = 'ITJuzi.spiders'

# 1.设置 分布式的 去重组件
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 2.设置 分布式的 调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"

# 3.允许爬虫中途停止 中断
SCHEDULER_PERSIST = True


ITEM_PIPELINES = {
    'ITJuzi.pipelines.JuziPipeline': 300,
    'scrapy_redis.pipelines.RedisPipeline': 400

}

# 4.设置 redis 数据库的端口号 和IP
REDIS_HOST = '127.0.0.1'
REDIS_PORT = 6379

crawl_spider 模块爬取

# -*- coding: utf-8 -*-
import scrapy
from bs4 import BeautifulSoup
from ITJuzi.items import JuziItem
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor


class JuziSpider(CrawlSpider):
    name = 'juzi_crawl'
    allowed_domains = ['itjuzi.com']

    start_urls = [
        # 1.国内创业
        'https://www.itjuzi.com/company',
        # 2.国内上市
        'https://www.itjuzi.com/company/listed',
        # 3.国外创业
        'https://www.itjuzi.com/company/foreign',
        # 4.国外上市
        'https://www.itjuzi.com/foreign/listed'
    ]

    # 解析的规则
    rules = (

        # 1.国内创业--列表页 没有callback函数;默认就是follow=True
        Rule(LinkExtractor(allow='company\?page=')),
        # 2.国内上市 --列表页
        Rule(LinkExtractor(allow='company/listed\?page=')),
        # 3.国外创业 --列表页
        Rule(LinkExtractor(allow='company/foreign\?page=')),
        # 4.国外上市 --列表页
        Rule(LinkExtractor(allow='company/foreign/listed\?page=')),

        # 5详情页
        Rule(LinkExtractor(allow='company/\d+'), callback="parse_detail", follow=False),

    )

    headers = {
        "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",
        "Accept-Encoding": "gzip, deflate, br",
        "Accept-Language": "zh-CN,zh;q=0.9",
        "Cache-Control": "max-age=0",
        "Connection": "keep-alive",
        "Cookie": "gr_user_id=8b2a0647-ed6e-4da9-bd79-0927840738ba; _ga=GA1.2.1065816449.1520818726; MEIQIA_EXTRA_TRACK_ID=11oNlg9W4BPRdVJbbc5Mg9covSB; _gid=GA1.2.1051909062.1524629235; acw_tc=AQAAADMxgTrydgkAxrxRZa/yV6lXP/Tv; Hm_lvt_1c587ad486cdb6b962e94fc2002edf89=1524629235,1524637618,1524702648; gr_session_id_eee5a46c52000d401f969f4535bdaa78=5ac2fdfd-b747-46e3-84a3-573d49e8f0f0_true; identity=1019197976%40qq.com; remember_code=N8cv8vX9xK; unique_token=498323; acw_sc__=5ae1302fee977bcf1d5f28b7fe96b94d7b5de97c; session=e12ae81c38e8383dcaeaaff9ded967758bc5a01c; Hm_lpvt_1c587ad486cdb6b962e94fc2002edf89=1524707391",
        "Host": "www.itjuzi.com",
        "If-Modified-Since": "Thu, 26 Apr 2018 01:49:47 GMT",
        "Upgrade-Insecure-Requests": "1",
        "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.117 Safari/537.36",

    }

    # 设置cookie登录的验证
    def start_requests(self):
        for url in self.start_urls:
            yield scrapy.Request(url=url, callback=self.parse, headers=self.headers)

    def parse_detail(self, response):

        # 解析数据
        soup = BeautifulSoup(response.body, 'lxml')
        item = JuziItem()
        item['url_link'] = response.url
        # 1.公司简介
        # cpy1 = soup.find(attrs={'class':"infoheadrow-v2"})
        cpy1 = soup.find(class_='infoheadrow-v2')
        if cpy1:
            item['company_name'] = cpy1.select('.seo-important-title')[0].get('data-name')
            item['company_slogan'] = cpy1.select('.seo-slogan')[0].get_text()
            item['company_link'] = cpy1.select('.link-line a')[-1].get_text().strip()
            tag_list = cpy1.select('.tag-list a')
            tag_str = ""
            for tag in tag_list:
                tag_str += tag.get_text().strip() + " "

            item['company_tags'] = tag_str

        # 2.公司基本信息
        cpy2 = soup.find(class_='block-inc-info')
        if cpy2:
            item['company_info'] = cpy2.select('.block div')[-1].get_text().strip()
            item['company_full_name'] = cpy2.select('.des-more h2')[0].get_text().strip()
            item['create_time'] = cpy2.select('.des-more h3')[0].get_text().strip()
            item['company_size'] = cpy2.select('.des-more h3')[1].get_text().strip()
            item['company_status'] = cpy2.select('.pull-right')[0].get_text().strip()

        # 3. 融资
        cpy3 = soup.find(attrs={'id': "invest-portfolio"})
        if cpy3:
            tr_list = cpy3.select('tr')
            inv_list = []
            for tr in tr_list:
                if len(tr.select('td')) > 2:
                    tr_dict = {}
                    tr_dict['time'] = tr.select('td')[0].get_text().strip()
                    tr_dict['round'] = tr.select('td')[1].get_text().strip()
                    tr_dict['money'] = tr.select('td')[2].get_text().strip()
                    tr_dict['name'] = tr.select('td')[3].get_text().strip()
                    inv_list.append(tr_dict)
            item['invest_list'] = inv_list

        # 4. 团队信息
        cpy4 = soup.select('.team-list')[0]
        if cpy4:
            tea_list = cpy4.select('li')
            team_temp_list = []
            for tr in tea_list:
                tr_dict = {}
                tr_dict['name'] = tr.select('.per-name')[0].get_text().strip()
                tr_dict['position'] = tr.select('.per-position')[0].get_text().strip()
                tr_dict['info'] = tr.select('.per-des')[0].get_text().strip()

                team_temp_list.append(tr_dict)
            item['team_list'] = team_temp_list

        # 5. 产品信息
        cpy5 = soup.select('.product-list')[0]
        if cpy5:
            li_list = cpy5.select('li')
            pro_temp_list = []
            for tr in li_list:
                tr_dict = {}
                tr_dict['name'] = tr.select('.product-name')[0].get_text().strip()
                tr_dict['info'] = tr.select('.product-des')[0].get_text().strip()
                pro_temp_list.append(tr_dict)
            item['product_list'] = pro_temp_list

        # 将解析完毕的数据 交给 --引擎 --管道
        yield item

其他模块跟 spider模块一致

scrapy-redis分布式爬取

使用的spider模块
步骤
- 1. 导入分布式模块：redisSpider
- 1. 修改 JuziSpider类的继承关系，需要继承redisSpider
- 1. 设置redis_key
- 1. settings.py中启用分布式过滤器：DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
- 1. settings.py中启用分布式调度器：SCHEDULER = "scrapy_redis.scheduler.Scheduler"
- 1. settings.py设置断点续爬：SCHEDULER = "scrapy_redis.scheduler.Scheduler"
- 1. settings.py中启用redis管道（内置的，不需要自定义）：'scrapy_redis.pipelines.RedisPipeline': 400,

itjuzi_redis.py

...
from scrapy_redis.spiders import RedisSpider

class JuziSpider(RedisSpider):
    name = 'juzi_redis'
    allowed_domains = ['itjuzi.com']

    redis_key = 'juzikey'

...

settings.py

...

#1. 启用 分布式 过滤器
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

# 2.启用 分布式 调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"

# 3.启用 分布式 如果爬虫中断1000个 ,下次从中断的位置10001开始下载
SCHEDULER_PERSIST = True
# 4. redis的管道
'scrapy_redis.pipelines.RedisPipeline': 400,

#设置redis host port
REDIS_HOST = '192.168.90.169'
REDIS_PORT = 6379
...

额外补充:

分布式爬虫当使用scrapy-redis时，redis因为是存储在内存中的，这样，读写速度会很快，但是，当需要爬取的数据过多时，不能都存储在redis中，需要将爬下来的数据另作处理。比如存储到mongoDB或者MySQL中：

将redis中的数据存储到mongoDB中

启动mongoDB:sudo mongod
执行下面的程序：

# process_aqi_mongodb.py

# -*- coding: utf-8 -*-

import json
import redis
import pymongo

def main():

    # 指定Redis数据库信息
    rediscli = redis.Redis(host='192.168.88.94', port=6379, db=0)
    # 指定MongoDB数据库信息
    mongocli = pymongo.MongoClient(host='127.0.0.1', port=27017)

    # 创建数据库名
    db = mongocli['aqi']
    # 创建表名
    sheet = db['aqi_data']

    while True:
        # FIFO模式为 blpop，LIFO模式为 brpop，获取键值
        source, data = rediscli.blpop(["aqi:items"])

        item = json.loads(data)
        sheet.insert(item)

        try:
            print u"Processing: %(name)s <%(link)s>" % item
        except KeyError:
            print u"Error procesing: %r" % item

if __name__ == '__main__':
    main()

将redis中的数据存储奥MySQL中

启动数据库：mysql-server start(平台不同，命令不同)
登录到root用户：mysql -uroot -p
创建数据库，如 aqi:create database aqi;
切换到指定数据库：use aqi
创建表aqi_data以及所有字段的列名和数据类型
执行下面的程序：


#process_aqi_mysql.py

# -*- coding: utf-8 -*-

import json
import redis
import MySQLdb

def main():
    # 指定redis数据库信息
    rediscli = redis.StrictRedis(host='192.168.88.94', port = 6379, db = 0)
    # 指定mysql数据库
    mysqlcli = MySQLdb.connect(host='127.0.0.1', user='root', passwd='xxxxxxx', db = 'aqi', port=3306, use_unicode=True)

    while True:
        # FIFO模式为 blpop，LIFO模式为 brpop，获取键值
        source, data = rediscli.blpop(["aqi:items"])
        item = json.loads(data)

        try:
            # 使用cursor()方法获取操作游标
            cur = mysqlcli.cursor()
            # 使用execute方法执行SQL INSERT语句
            cur.execute("INSERT INTO aqi_data (city, date, aqi, level, pm2_5, pm10, so2, co, no2, o3, rank, spider, crawled) VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s)", [item['city'], item['date'], item['aqi'], item['level'], item['pm2_5'], item['pm10'], item['so2'], item['co'], item['no2'], item['o3'], item['rank'], item['spider'], item['crawled']])
            # 提交sql事务
            mysqlcli.commit()
            #关闭本次操作
            cur.close()
        except MySQLdb.Error,e:
            print "Mysql Error %d: %s" % (e.args[0], e.args[1])

if __name__ == '__main__':
    main()

2020-07-20【阅读营·习惯力】1-1 开营 s萤火虫之光
【✨大师姐自荐✨】当崔律讲到“看到如此复杂的规则玩法时，你是如何想的？”时候，你有被戳中吗？看看我在这个过程中的心路历程，你是否也有同款呢？欢迎留言碰撞呦【精时力学习日志】本训练营：阅读营·习惯力今日主题：1-1开营学习日期：2020年7月20日1、[我学]今天在课程中的收获：本营的三本书籍：《如何想到又做到》、《坚持，一种可以养成的习惯》《习惯的力量》1.1习惯是什么？《习惯的力量》告诉我们，所
机械学习—零基础学习日志（概率论总笔记5）学长小陈来帮你学习笔记概率论算法深度学习机器学习
引言——“黑天鹅”要获得95%以上置信度的统计结果，需要被统计的对象出现上千次，但是如果整个样本只有几千字，被统计的对象能出现几次就不错了。这样得到的数据可能和真实的概率相差很远。怎么避免“黑天鹅”？古德-图灵折扣估计法在词语统计中，有点词语虽然是出现0次，但是实际的出现概率并不是永远不可能的零。那需要把一些概率转移给到这些词语。古德的做法实际上就是把出现1次的单词的总量，给了出现0次的，出现2次
2020-02-24【高效在家办公】2.1在家办公着装 s萤火虫之光
【精时力学习日志】•本期专栏：高效在家办公/学习的21节课•本节主题：2.1在家办公着装•学习日期：2020年2月24日1.[知识]我在课程中的收获：1.1温故（1）小伙伴提到，有崔律在前面领路，感觉心里很踏实，确实有同感，或许这就是榜样的力量。我的思考：崔律做精时力伙伴的领路人，那我可以做谁的领路人呢？可以是家人的，比如孩子、老公，也可以是天津精时力小伙伴的，所以精时力学院天津站，要搞起来~（2
HCIA学习日志-eNSP学习小记不渡云山 eNSP HCIA 学习
eNSP配置一、配置视图配置视图大概可以分四类（不是）：用户视图、系统视图、接口视图、路由视图用户视图：:#用户视图系统视图：:system-view/sys#用户视图进系统视图[Huawei]:#系统视图接口视图：:system-view/sys#用户视图进系统视图[Huawei]:interface/intEthernet0/0/1#系统视图进接口视图[Huawei-Ethernet0/0/1
天妈内驱力训练营二阶段俏丫头悄悄
亲子日志4.10日田青昨天晚上，妹妹8点就睡了，9点我们都躺在床上，我在写学习日志，没有到读书的点，儿子翻来覆去的，想要把妹妹弄醒陪他疯一会，我阻止他，建议睡不着做点什么吧！读书？不想。玩具，看了看也不想玩儿，最后我拿了周末要做的练习册（自己买的）建议把很有把握的题划掉，只做还不是很熟练的，这个立马来了兴趣（这是一个育儿课的方法），12个题的一套期中测试题，划了前十个，我看了以后问了两题，确实都会
Day80：2019-07-11【100天崔律阅读营·Day80-12.4日志迷猴桃sally
【100天崔律阅读营·Day80-12.4日志】这是2019年7月11日“100天崔律阅读营”之“整理术对比阅读：《怦然心动》+《断舍离》”2.4整理家人的物品的学习日志。1.我今日的收获：《断舍离》『不要轻易扔掉他人物品』不同的人对于同一件事物的看法会不同，因此，有些东西我们看做无用的、垃圾，有些人则可能会认为是无价之宝，所以，不要轻易扔掉别人的物品，我们要尽量克制这点。『不要归责他人』当出现问
2020-05-16 一节木頭
【精时力学习日志·预习版】本训练营：阅读营·清单力学习日期：2020年5月16日预习主题：3.1礼物清单1.[预习]我的阅读理解：送礼要送到人的心坎里去，让人不论是因为什么场合收礼，都能收得很开心很满意，送对礼物是一种特别的体验，除了收女人会非常开心，那送礼的人也可以表达关心。送礼也是可以有清单可循的：①送礼物要尽早开始挑选做到未雨绸缪，提前预留出两个月左右的时间进行选购礼物。预留时间来挑选礼物，
8-3[白天]摒弃随时在线孔雀勇士
【精时力学习日志】本训练营：100天精时力训练营（2020年版）今日主题：8-3[白天]摒弃随时在线学习日期：2020年11月11日1、[进步]今天在课程中的我学+我思+我行：——暖场——①【我学】莹瑜说培养孩子一次只做一件事，grace分享在通勤录上用来思考，可能会带来更大的收获，优美感悟到通过一次只做一件事，浮躁的心终于渐渐平静了。【我思】今天在家一直践行一次，只做一件事情，听课认真听课，写日
三篇学习日志（立志、勤学、自省）涛声依旧纽约客
（一）今日再读《示弟立志说》，颇有感慨。夫学，莫先于立志。夫志，气之帅也，人之命也，水之源也。君子之学，无时无处而不以立志为事。志不立则气昏。读每一句，都戳着心，我思忖着即使过了知天命之年，仍需要志向的鞭策。那么个人的志向是什么？绝非浪得虚名或一己私利，那需要实实在在的明理明道，有圣人圣贤的志向。“人心惟危，道心惟微，惟精惟一，允执厥中”。圣贤千言万语，阳明先生进一步强调“明天理、灭人欲。”我个人
【精时力学习日志-日清单】海南冰青
【精时力学习日志】本训练营：日清单今日主题：1-3重复任务学习日期：2020年4月1日1.[知识]我在课程中的收获：【学习方式】含有两大部分温故-新知每天重复这两大部分内容，今天温故昨天的新知，结合自己昨天对新知部分内容的实践，自己对刚学的知识点有了进一步的思考，同时结合今天温故部分看优秀小伙伴的日志，再重温昨天的内容，可以复盘自己哪部分做的好，哪一部分做的不好，有哪一些可以改进的地方，小伙伴的做
学习日志6 Simon#0209 学习
关于量子强化学习：论文Variational_Quantum_Circuits_for_Deep_Reinforcement_Learning：变分量子电路在深度强化学习中的应用论文主要内容：将经典深度强化学习算法（如经验重放和目标网络）重塑为变分量子电路的表示摘要当前最先进的机器学习方法基于经典冯·诺伊曼计算架构，并在许多工业和学术领域得到广泛应用。随着量子计算的发展，研究人员和技术巨头们试图为
STM32学习日志 2020/10/29 曾经有个曾学习历程 stm32
STM32学习日志2020/10/29写在前面part1part2学习目标：学习内容：学习时间：学习产出：技术文档：第一课学习其他学习思路今日复盘写在前面博主今年大二，电赛降至，自己的电子设计领域知识极其匮乏，又甚是想去参加电赛，同时记录下自己学习经历，方便自我回顾和帮后来者踩坑。part1第一次正经写博客，想到哪写到哪，希望各位不要见怪。写作动机：除了记录学习经历之外，另外一个就是自我督促。我一
学习日志31 Simon#0209 学习量子计算
本源量子计算平台体验frompyqpandaimport*importnumpyasnp#通过QCloud()创建量子云虚拟机QCM=QCloud()#通过传入当前用户的token来初始化QCM.init_qvm("304102010030130607299538cd7ed/33683")qlist=QCM.qAlloc_many(6)clist=QCM.cAlloc_many(6)measure
学习日志26 Simon#0209 学习
#coding:utf-8#In[1]:importgymimportcollectionsimportrandomimporttorchimporttorch.nn.functionalasFimportnumpyasnpimportmatplotlib.pyplotaspltfromtqdmimporttqdmimportpennylaneasqmlfromtorch.utils.tensor
Django学习日志三：模型层 Z天南之城Z python 后端 django入门 django 学习 python
Django学习日志三：模型层1日志一我们学习了Django的配置，详见：Django学习日志一Django的配置日志二我们学习了创建第一个django项目，详见：Django学习日志二——创建第一个django项目下面我们来学习模型层的使用：五、模型层模型层用于和数据交互。可以通过模型和关系型数据库实现持久化的操作。在Django开发中主要以MySQL作为首选数据库，同时使用非关系型数据库Mon
Python学习日志（1）—— IDE Strawberry96 python 学习 ide python
IDE，集成开发环境，帮助我们进行高效的开发。Python开发——IDE应用场景选择：适合本地开发：VSCode：适合初学者，轻量级PyCharm：适合有经验的程序员，多人合作，重量级适合远程开发：Jupter：适合数学科学家，AI开发VSCode和PyCharm的安装比较简单。Jupter是第一次听说，在进行AI的开发或者是图片处理之类的，可以在远程开发。安装Jupter//3.12是对应的py
学习日志-2.2 大脑的“可塑性”-20210126 幻雪美美哒
【精时力学习日志】本训练营：每天一点大脑课今日主题：2-2大脑的可塑性学习日期：2021年1月26日1、[脑力]我在课程里的收获：1.1温故1.1.1积极情绪【我学】@石宇说精时力的学习让自己的生活、认知、思维都有了很大的改变，有些遗憾没有早些接触崔律的课。崔律说：如果这个遗憾是相见恨晚，今后就更加努力来弥补相见恨晚，这就是积极的情绪。如果一直纠结“为什么没有早点参加崔律的课”，有点自责，有消极的
20200224高效在家办公/学习迷猴桃sally
【精时力学习日志】•本期专栏：高效在家办公/学习的21节课•本节主题：2.1在家办公着装•学习日期：2020年2月24日1.[知识]我在课程中的收获：【温故】从小伙伴们本周的复盘中，看到到家都在慢慢的恢复之前的作息和状态，这可能就是早课的作用，崔律的魅力吧~~「制定目标」确实目标的制定会比较难，需要花费很多的时间来完成，但其实也不用太纠结，尽自己最大的力来做就好，因为我们每天都在进步呀，每天的一小
学习日志-拦路石思维1·错误的财富观-20210324 幻雪美美哒
【精时力学习日志】本训练营：《财务自由之路1》公益营今日主题：拦路石思维1·错误的财富观学习日期：2021年3月24日1、[收获]我学+我思+正反栗子+我行：1.1概述【我学】（1）在三节公益课的开头，崔律用问题引导大家产生好奇心，让大家想要知道为什么。问题：你想变得更富有吗？为什么你看了很多财商书，听了很多财商课，依旧是原来的你呢？答案：方法、行动、思维……这三节公益课主要讲思维。（2）书籍介绍
学习日志-早起营3.3 睡前远离电子产品-20200426 幻雪美美哒
【精时力学习日志】本训练营：早起营（4月版）今日主题：3-3睡前远离电子产品学习日期：2020年4月26日（学优版）1.[知识]我在课程中的收获：1.1温故（1）@小蔓猪（伊琳）：将重复事项变成固定事项的流程化，减少精力的耗费。形成记忆的习惯后，流程化就很棒了。【我的思考】早起后的重复事项已经做到了流程化，但是睡前准备还没有完全做到流程化。我觉得这两者最大的区别是，起床时间固定，但睡前准备开始时间
学习日志以及个人总结（12） XUZHUOIXX 学习算法 linux
二维数组做函数的形参形式上://形参--数组形式，行数voidprintArray(inta[3][4],introw);实际上：voidprintArray(int(*a)[4],introw);//编译器的最终解释实参:printArray(a,row);//数组名行数inta[3][4]---inta[][4]int[4]a[]；输入设备---CPU---输出设备|V存储器总线--0101总
学习日志以及个人总结（14） XUZHUOIXX 学习
getsputsstrlenstrcmp/strcnmpstrcat/strncatstrcmp/strncmpstrlenintStr_len(char*s){char*i=s;while(*s!='\0'){++s;}returns-i;}strcmpintStr_cmp(char*s1,char*s2){intret=0;while(*s1==*s2){++s1;++s2;if(*s1==0
第3.2讲学习日志孔雀勇士
【向成功人士学精时力课·第3.2讲学习日志】这是2019年3月19日“崔律精时力之成功人士精时力”系列课第3.2讲（晨间六部曲）的学习日志。1.我在本讲中的收获：回顾1.1五月小伙伴思考崔律课程设计、逻辑因果关系，让自己站在课程设计的更高的视角看待课程，可以把经验应用于自己的课程设计中。（之前一直想过要做这件事，学习崔律的讲解方法、课程设计，都没有做。今天把这个当作A2，每天思考、学习一个崔律讲解
学习日志-3.3 嗅觉：榴梿是香的还是臭的？-20210203 幻雪美美哒
【精时力学习日志】本训练营：每天一点大脑课今日主题：3-3嗅觉：榴梿是香的还是臭的？学习日期：2021年2月3日1、[脑力]我在课程里的收获：1.1温故【我学】（1）“我要有意识地去察觉……”：这个是表决心的说法。这种决心通常24小时之后就忘记了。（2）大脑课和精时力的其他课程不太一样，更偏向科普性质，操作步骤不那么清晰。大脑课主要是告诉大家理论性或可能应用的内容，和大家不一定息息相关。但是，这并
学习日志 ss毅
1.线性表的排序中的冒泡排序法，快速排序法，简单插入排序法和简单选择排序法在最坏情况下都是需要进行n(n-1)/2次比较。希尔排序是n的r次方(1
学习日志-第6课服务的行为-20200421 幻雪美美哒
【精时力学习日志·勇士版】本训练营：阅读营·预热周本周书籍：《赞赏的5种语言》学习日期：2020年4月21日（复习：服务的行为）1.[复盘]我在课程中的收获：1.1温故（1）复盘怎么写？崔律有妙招。听课或复盘时，留意哪些点崔律讲到了，而自己没有想到。然后去思考为什么自己没看到或者没想到，是因为阅读不扎实，还是没注意一些小词汇？经过这样的查漏补缺，日积月累，100天下来一定会有很大的进步。（2）@四
2021-08-28【精时力学习日志】 echo_41cd
【精时力学习日志】本训练营：第3期梦想营(2021年)今日主题：2-6本周复盘&答疑课学习日期：2021年8月28日1、[收获1]本周我在梦想学习方面的收获：1.1知识点：1.1.1本营的重要前提（预防异议）：-吸引力法则是梦想实现的途径之一。-即使不为了心想事成，也能转变思维。改变情绪，提升心力。-假如吸引力法则是真的，学习，验证。先听话去验证，先不要批判，不会学到新东西，学习新东西就是为了颠覆
学习日志-早起营2.4 日间小睡-20200421 幻雪美美哒
【精时力学习日志】本训练营：早起营（4月版）今日主题：2-4日间小睡学习日期：2020年4月21日（学优版）1.[知识]我在课程中的收获：1.1温故（1）@武小茉：①将规划、执行、调整、改进用工具做起来，以解决落地与执行的问题。②提到早起时的亮点：起床没有心理上的不适应了。【我的意识】看到武小茉的这句话，我突然间发现自己也是同样的情况，最开始一提到早起，不管是6:30起床，还是6:00、5:30起
学习日志-13.4 目标与计划-20190718 幻雪美美哒
【100天崔律阅读营·Day87-13.4日志】这是2019年7月18日“100天崔律阅读营”之“趣味30岁主题·《30岁，请痴迷于梦想》13.4目标与计划”的学习日志。1.我今日的收获：【价值观】价值观没有对错，是排序，是先后顺序和重要程度的排序。比如，如果你的工作给你一个升职的机会，但是会让你更忙碌，天天出差，周末也可能要出差。你接受吗？如果你认为事业比家庭更重要，也许你会接受这份工作。如果你
学习日志-2.3 专注才能改变大脑-20210127 幻雪美美哒
【精时力学习日志】本训练营：每天一点大脑课今日主题：2-3专注才能改变大脑学习日期：2021年1月27日1、[脑力]我在课程里的收获：【我学】（1）学习能改变大脑、影响大脑。实验：在梅策尼希等人证明大脑终身可塑后，一位行为心理学家简尼斯加入梅策尼希的团队，建议这个团队教动物学习，然后观察学习如何影响神经元和地图。研究发现，当动物有动机要学习时，大脑会弹性地对学习的需求做出反应。研究还发现，大脑地图
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一

day073 项目_IT橘子爬虫

步骤

spider模块爬取

crawl_spider 模块爬取

scrapy-redis分布式爬取

额外补充:

将redis中的数据存储到mongoDB中

将redis中的数据存储奥MySQL中

你可能感兴趣的:(学习日志)