老巴郎

笔记整理——Python爬虫（四）：数据持久化存储

数据持久化存储

数据持久化存储 - csv文件

作用
使用流程
示例1：创建 test.csv 文件，在文件中写入数据
示例2：上一节的示例代码：猫眼电影，将爬取的数据存入本地 maoyan.csv 文件 - 使用writerow()方法实现

数据持久化存储 - MySQL数据库

示例3：将电影信息存入MySQL数据库（尽量使用executemany方法）

数据持久化存储 - MongoDB数据库

示例4：猫眼电影top100数据写入mongo
示例5：电影天堂二级页面抓取

requests模块

安装
requests.get()
示例6：百度图片爬取

数据持久化存储

数据持久化存储 - csv文件

作用

将爬取的数据存放到本地的csv文件中

使用流程

1、导入模块
2、打开csv文件
3、初始化写入对象
4、写入数据(参数为列表)
import csv 

with open('film.csv','w') as f:
    writer = csv.writer(f)
    writer.writerow([])

示例1：创建 test.csv 文件，在文件中写入数据

# 单行写入（writerow([]))
import csv
with open('test.csv','w',newline='') as f:
	writer = csv.writer(f)
	writer.writerow(['步惊云','36'])
	writer.writerow(['超哥哥','25'])

# 多行写入(writerows([(),(),()]
import csv
with open('test.csv','w',newline='') as f:
	writer = csv.writer(f)
	writer.writerows([('聂风','36'),('秦霜','25'),('孔慈','30')])

示例2：上一节的示例代码：猫眼电影，将爬取的数据存入本地 maoyan.csv 文件 - 使用writerow()方法实现

import re
import csv
from urllib import request
from time import time,sleep
from random import randint
class MaoYanTop100Spider(object):
    '''
        面向对象编程

    '''
    def __init__(self):
        self.__url = 'https://maoyan.com/board/4?offset={}'
        # 计数变量
        self.__i = 0

    @property
    def url(self):
        return self.__url

    @property
    def i(self):
        return self.__i


    #私有实例方法：获取对应html内容
    def __get_html(self,url):
        headers = { 'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'}
        req = request.Request(url=url,headers=headers)
        resp = request.urlopen(req)
        #返回获取的html内容
        html = resp.read().decode('utf-8')
        self.__parse_html(html)

    #私有实例方法：对获取的页面进行解析
    def __parse_html(self,html):
        re_bds = '.*?title="(.*?)".*?class="star">(.*?)
.*?releasetime">(.*?)'
        p = re.compile(re_bds, re.S)
        finall_list = p.findall(html)
        self.__save_html(finall_list)

    #私有实例方法：将解析得到的内容保存字典
    def __save_html(self,finall_list):
        L = []
        with open('maoyan.csv', 'a') as f:
            writer = csv.writer(f)
            for film in finall_list:
                t = (
                    film[0].strip(),
                    film[1].strip(),
                    film[2].strip()[5:15]
                )
                L.append(t)
            writer.writerows(L)

    #公共接口
    def display(self):
        print('程序开始执行，即将爬取top100榜单信息并写入csv文件，每10条将间隔三到五秒继续...')
        for i in range(0,91,10):
            url = self.__url.format(i)
            self.__get_html(url)
            sleep(randint(3,5))
        print('数据写入结束！')
        print('爬取数量：%d' % self.__i)

def test():
    start = time()
    MaoYanTop100Spider().display()
    end = time()
    print('执行时间为：%.2f' % (end - start))
    print('即将从本地csv文件中读取数据，请稍候...')
    with open('maoyan.csv','r') as f:
        reader = csv.reader(f)
        for row in reader:
            print(row)
    print('本地csv文件读取结束，程序结束！')

if __name__ == '__main__':
    test()

========================================================================

程序运行结果：

anwc@anwc:~/文档/文档、代码杂七八$ python3 demo_spider_maoyan.py
程序开始执行，即将爬取top100榜单信息并写入csv文件，每10条将间隔三到五秒继续...
数据写入结束！
爬取数量：0
执行时间为：39.20
即将从本地csv文件中读取数据，请稍候...
['活着', '主演：葛优,巩俐,牛犇', '1994-05-17']
['钢琴家', '主演：艾德里安·布洛迪,艾米莉娅·福克斯,米哈乌·热布罗夫斯基', '2002-05-24']
['勇敢的心', '主演：梅尔·吉布森,苏菲·玛索,帕特里克·麦高汉', '1995-05-18']
['阿飞正传', '主演：张国荣,张曼玉,刘德华', '2018-06-25']
['射雕英雄传之东成西就', '主演：张国荣,梁朝伟,张学友', '1993-02-05']
['爱·回家', '主演：俞承豪,金艺芬,童孝熙', '2002-04-05']
['初恋这件小事', '主演：马里奥·毛瑞尔,平采娜·乐维瑟派布恩,阿查拉那·阿瑞亚卫考', '2012-06-05']
['泰坦尼克号', '主演：莱昂纳多·迪卡普里奥,凯特·温丝莱特,比利·赞恩', '1998-04-03']
['迁徙的鸟', '主演：雅克·贝汉,Philippe Labro', '2001-12-12']
['蝙蝠侠：黑暗骑士', '主演：克里斯蒂安·贝尔,希斯·莱杰,阿伦·伊克哈特', '2008-07-14']
['恐怖直播', '主演：河正宇,李璟荣,李大卫', '2013-07-31']
['我爱你', '主演：宋在浩,李顺才,尹秀晶', '2011-02-17']
['大闹天宫', '主演：邱岳峰,毕克,富润生', '1965-12-31']
['剪刀手爱德华', '主演：约翰尼·德普,薇诺娜·瑞德,黛安娜·威斯特', '1990-12-06']
['甜蜜蜜', '主演：黎明,张曼玉,杜可风', '2015-02-13']
['闻香识女人', '主演：阿尔·帕西诺,克里斯·奥唐纳,加布里埃尔·安瓦尔', '1992-12-23']
['英雄本色', '主演：狄龙,张国荣,周润发', '2017-11-17']
['三傻大闹宝莱坞', '主演：阿米尔·汗,黄渤,卡琳娜·卡普', '2011-12-08']
['黑客帝国3：矩阵革命', '主演：基努·里维斯,雨果·维文,凯瑞-安·莫斯', '2003-11-05']
['触不可及', '主演：弗朗索瓦·克鲁塞,奥玛·希,安娜·勒尼', '2011-11-02']
['忠犬八公物语', '主演：仲代达矢,春川真澄,井川比佐志', '1987-08-01']
['辩护人', '主演：宋康昊,郭度沅,吴达洙', '2013-12-18']
['喜剧之王', '主演：周星驰,莫文蔚,张柏芝', '1999-02-13']
['黄金三镖客', '主演：克林特·伊斯特伍德,李·范·克里夫,埃里·瓦拉赫 Eli Wallach', '1966-12-23']
['这个杀手不太冷', '主演：让·雷诺,加里·奥德曼,娜塔莉·波特曼', '1994-09-14']
['借东西的小人阿莉埃蒂', '主演：志田未来,神木隆之介,大竹忍', '2010-07-17']
['大话西游之月光宝盒', '主演：周星驰,莫文蔚,吴孟达', '2014-10-24']
['一一', '主演：吴念真,金燕玲,李凯莉', '2000-05-15']
['窃听风暴', '主演：乌尔里希·穆埃,塞巴斯蒂安·科赫,马蒂娜·格德克', '2006-03-23']
['楚门的世界', '主演：金·凯瑞,劳拉·琳妮,诺亚·艾默里奇', '1998(罗马尼亚)']
['飞屋环游记', '主演：爱德华·阿斯纳,乔丹·长井,鲍勃·彼德森', '2009-08-04']
['哈尔的移动城堡', '主演：倍赏千惠子,木村拓哉,美轮明宏', '2004-09-05']
['上帝之城', '主演：亚历桑德雷·罗德里格斯,艾莉丝·布拉加,莱安德鲁·菲尔米诺', '2002(俄罗斯)']
['美丽心灵', '主演：罗素·克洛,詹妮弗·康纳利,艾德·哈里斯', '2001-12-13']
['肖申克的救赎', '主演：蒂姆·罗宾斯,摩根·弗里曼,鲍勃·冈顿', '1994-09-10']
['美丽人生', '主演：罗伯托·贝尼尼,尼可莱塔·布拉斯基,乔治·坎塔里尼', '2020-01-03']
['倩女幽魂', '主演：张国荣,王祖贤,午马', '2011-04-30']
['搏击俱乐部', '主演：爱德华·哈里森·诺顿,布拉德·皮特,海伦娜·伯翰·卡特', '1999-09-10']
['春光乍泄', '主演：张国荣,梁朝伟,张震', '1997-05-17']
['海上钢琴师', '主演：蒂姆·罗斯,比尔·努恩,克兰伦斯·威廉姆斯三世', '2019-11-15']
['新龙门客栈', '主演：张曼玉,梁家辉,甄子丹', '2012-02-24']
['驯龙高手', '主演：杰伊·巴鲁切尔,杰拉德·巴特勒,亚美莉卡·费雷拉', '2010-05-14']
['教父2', '主演：阿尔·帕西诺,罗伯特·德尼罗,黛安·基顿', '1974-12-12']
['美国往事', '主演：罗伯特·德尼罗,詹姆斯·伍兹,伊丽莎白·麦戈文', '2015-04-23']
['魂断蓝桥', '主演：费雯·丽,罗伯特·泰勒,露塞尔·沃特森', '1940-05-17']
['狮子王', '主演：马修·布罗德里克,尼基塔·卡兰姆,詹姆斯·厄尔·琼斯', '1995-07-15']
['疯狂原始人', '主演：尼古拉斯·凯奇,艾玛·斯通,瑞安·雷诺兹', '2013-04-20']
['唐伯虎点秋香', '主演：周星驰,巩俐,郑佩佩', '1993-07-01']
['速度与激情5', '主演：范·迪塞尔,保罗·沃克,道恩·强森', '2011-05-12']
['V字仇杀队', '主演：娜塔莉·波特曼,雨果·维文,斯蒂芬·瑞', '2005-12-11']
['龙猫', '主演：秦岚,糸井重里,岛本须美', '2018-12-14']
['本杰明·巴顿奇事', '主演：布拉德·皮特,凯特·布兰切特,塔拉吉·P·汉森', '2008-12-25']
['指环王2：双塔奇兵', '主演：伊莱贾·伍德,伊恩·麦克莱恩,丽芙·泰勒', '2003-04-25']
['指环王1：护戒使者', '主演：伊莱贾·伍德,伊恩·麦克莱恩,丽芙·泰勒', '2002-04-04']
['时空恋旅人', '主演：瑞秋·麦克亚当斯,多姆纳尔·格里森,比尔·奈伊', '2013-09-04']
['末代皇帝', '主演：尊龙,陈冲,彼得·奥图尔', '1987-10-23']
['天空之城', '主演：寺田农,鹫尾真知子,龟山助清', '1992-05-01']
['风之谷', '主演：岛本须美,永井一郎,坂本千夏', '1992-05']
['幽灵公主', '主演：松田洋治,石田百合子,田中裕子', '1998-05-01']
['蝙蝠侠：黑暗骑士崛起', '主演：克里斯蒂安·贝尔,迈克尔·凯恩,加里·奥德曼', '2012-08-27']
['十二怒汉', '主演：亨利·方达,李·科布,马丁·鲍尔萨姆', '1957-04-13']
['素媛', '主演：李来,薛耿求,严志媛', '2013-10-02']
['大话西游之大圣娶亲', '主演：周星驰,朱茵,莫文蔚', '2014-10-24']
['教父', '主演：马龙·白兰度,阿尔·帕西诺,詹姆斯·肯恩', '2015-04-18']
['海洋', '主演：雅克·贝汉,姜文,兰斯洛特·佩林', '2011-08-12']
['黑客帝国', '主演：基努·里维斯,凯瑞-安·莫斯,劳伦斯·菲什伯恩', '2000-01-14']
['鬼子来了', '主演：姜文,姜宏波,陈强', '2000-05-13']
['哈利·波特与死亡圣器（下）', '主演：丹尼尔·雷德克里夫,鲁伯特·格林特,艾玛·沃特森', '2011-08-04']
['辛德勒的名单', '主演：连姆·尼森,拉尔夫·费因斯,本·金斯利', '1993-11-30']
['指环王3：王者无敌', '主演：伊莱贾·伍德,伊恩·麦克莱恩,丽芙·泰勒', '2004-03-15']
['7号房的礼物', '主演：柳承龙,郑镇荣,朴信惠', '2013-01-23']
['盗梦空间', '主演：莱昂纳多·迪卡普里奥,渡边谦,约瑟夫·高登-莱维特', '2010-09-01']
['加勒比海盗', '主演：约翰尼·德普,凯拉·奈特莉,奥兰多·布鲁姆', '2003-11-21']
['当幸福来敲门', '主演：威尔·史密斯,贾登·史密斯,坦迪·牛顿', '2008-01-17']
['穿条纹睡衣的男孩', '主演：阿沙·巴特菲尔德,维拉·法梅加,大卫·休里斯', '2008-08-28']
['音乐之声', '主演：朱莉·安德鲁斯,克里斯托弗·普卢默,埃琳诺·帕克', '1965-03-02']
['无间道', '主演：刘德华,梁朝伟,黄秋生', '2003-09-05']
['致命魔术', '主演：休·杰克曼,克里斯蒂安·贝尔,迈克尔·凯恩', '2006-10-17']
['小鞋子', '主演：默罕默德·阿米尔·纳吉,Kamal Mirkarimi,Behzad Rafi', '1997(伊朗)']
['萤火之森', '主演：内山昂辉,佐仓绫音,后藤弘树', '2011-09-17']
['少年派的奇幻漂流', '主演：苏拉·沙玛,伊尔凡·可汗,塔布', '2012-11-22']
['断背山', '主演：希斯·莱杰,杰克·吉伦哈尔,米歇尔·威廉姆斯', '2005-09-02']
['罗马假日', '主演：格利高里·派克,奥黛丽·赫本,埃迪·艾伯特', '1953-08-20']
['夜访吸血鬼', '主演：汤姆·克鲁斯,布拉德·皮特,克尔斯滕·邓斯特', '1994-11-11']
['天堂电影院', '主演：菲利浦·诺瓦雷,赛尔乔·卡斯特利托,蒂兹亚娜·罗达托', '1988-11-17']
['怦然心动', '主演：玛德琳·卡罗尔,卡兰·麦克奥利菲,艾丹·奎因', '2010-07-26']
['乱世佳人', '主演：费雯·丽,克拉克·盖博,奥利维娅·德哈维兰', '1939-12-15']
['完美的世界', '主演：凯文·科斯特纳,克林特·伊斯特伍德,T·J·劳瑟', '1993-11-24']
['霸王别姬', '主演：张国荣,张丰毅,巩俐', '1993-07-26']
['七武士', '主演：三船敏郎,志村乔,千秋实', '1954-04-26']
['忠犬八公的故事', '主演：Forest,理查·基尔,琼·艾伦', '2009-06-13']
['海豚湾', '主演：里克·奥巴瑞,路易·西霍尤斯,哈迪·琼斯', '2009-07-31']
['拯救大兵瑞恩', '主演：汤姆·汉克斯,马特·达蒙,汤姆·塞兹摩尔', '1998-11-13']
['机器人总动员', '主演：本·贝尔特,艾丽莎·奈特,杰夫·格尔林', '2008-06-27']
['神偷奶爸', '主演：史蒂夫·卡瑞尔,杰森·席格尔,拉塞尔·布兰德', '2010-06-20']
['放牛班的春天', '主演：热拉尔·朱尼奥,让-巴蒂斯特·莫尼耶,玛丽·布奈尔', '2004-10-16']
['熔炉', '主演：孔刘,郑有美,金智英', '2011-09-22']
['阿凡达', '主演：萨姆·沃辛顿,佐伊·索尔达娜,米歇尔·罗德里格兹', '2010-01-04']
['千与千寻', '主演：柊瑠美,周冬雨,入野自由', '2019-06-21']
['无敌破坏王', '主演：约翰·C·赖利,萨拉·西尔弗曼,简·林奇', '2012-11-06']
本地csv文件读取结束，程序结束！

数据持久化存储 - MySQL数据库

1、在数据库中建库建表

# 连接到mysql数据库
mysql -h127.0.0.1 -uroot -p123456
# 建库建表
create database maoyandb charset utf8;
use maoyandb;
create table filmtab(
name varchar(100),
star varchar(300),
time varchar(50)
)charset=utf8;

2、回顾pymysql基本使用

一般方法：

import pymysql

# 创建2个对象
db = pymysql.connect('localhost','root','123456','maoyandb',charset='utf8')
cursor = db.cursor()

# 执行SQL命令并提交到数据库执行
# execute()方法第二个参数为列表传参补位
ins = 'insert into filmtab values(%s,%s,%s)'
cursor.execute(ins,['霸王别姬','张国荣','1993'])
db.commit()

# 关闭
cursor.close()
db.close()

来试试高效的executemany()方法？

import pymysql

# 创建2个对象
db = pymysql.connect('192.168.153.137','tiger','123456','maoyandb',charset='utf8')
cursor = db.cursor()

# 抓取的数据
film_list = [('月光宝盒','周星驰','1994'),('大圣娶亲','周星驰','1994')]

# 执行SQL命令并提交到数据库执行
# execute()方法第二个参数为列表传参补位
cursor.executemany('insert into filmtab values(%s,%s,%s)',film_list)
db.commit()

# 关闭
cursor.close()
db.close()

示例3：将电影信息存入MySQL数据库（尽量使用executemany方法）

import re
import pymysql
from urllib import request
from time import time,sleep
from random import randint
class MaoYanTop100Spider(object):
    '''
        面向对象编程

    '''
    def __init__(self):
        self.__url = 'https://maoyan.com/board/4?offset={}'
        # 计数变量
        self.__i = 0
        self.db = pymysql.connect(
            'localhost', 'root', '123456', 'maoyandb',
            charset='utf8'
        )
        self.cursor = self.db.cursor()
    @property
    def url(self):
        return self.__url

    @property
    def i(self):
        return self.__i


    #私有实例方法：获取对应html内容
    def __get_html(self,url):
        headers = { 'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'}
        req = request.Request(url=url,headers=headers)
        resp = request.urlopen(req)
        #返回获取的html内容
        html = resp.read().decode('utf-8')
        self.__parse_html(html)

    #私有实例方法：对获取的页面进行解析
    def __parse_html(self,html):
        re_bds = '.*?title="(.*?)".*?class="star">(.*?)
.*?releasetime">(.*?)'
        p = re.compile(re_bds, re.S)
        finall_list = p.findall(html)
        self.__save_html(finall_list)

    #私有实例方法：将解析得到的内容保存字典
    def __save_html(self,finall_list):
        ins = 'insert into filmtab values(%s,%s,%s)'
        for film in finall_list:
            L = [
                film[0], film[1].strip(), film[2].strip()[5:15]
            ]
            self.cursor.execute(ins, L)
            self.db.commit()

    #公共接口
    def display(self):
        print('程序开始执行，即将爬取top100榜单信息并存入数据库，每10条将间隔三到五秒继续...')
        for i in range(0,91,10):
            url = self.__url.format(i)
            self.__get_html(url)
            sleep(randint(3,5))
        print('数据写入结束！')
        print('爬取数量：%d' % self.__i)
        self.cursor.close()
        self.db.close()

def test():
    start = time()
    MaoYanTop100Spider().display()
    end = time()
    print('执行时间为：%.2f' % (end - start))

if __name__ == '__main__':
    test()

executemany方法：

from urllib import request
import re
import time
import random
from fake_useragent import UserAgent
import pymysql

class MaoyanSpider(object):
    def __init__(self):
        self.url = 'https://maoyan.com/board/4?offset={}'
        # 计数变量
        self.i = 0
        # 定义数据库连接
        self.db = pymysql.connect(
            'localhost', 'root', '123456', 'maoyandb',
            charset='utf8'
        )
        self.cursor = self.db.cursor()
        # 定义列表,用来存放所有电影的元组
        self.all_list = []

    def get_html(self,url):
        headers = { 'User-Agent':UserAgent().random }
        req = request.Request(url=url,headers=headers)
        resp = request.urlopen(req)
        html = resp.read().decode('utf-8')
        # 直接调用解析函数
        self.parse_html(html)

    def parse_html(self,html):
        re_bds = '.*?title="(.*?)".*?class="star">(.*?)
.*?releasetime">(.*?)'
        p = re.compile(re_bds,re.S)
        # film_list: [('','',''),()]
        film_list = p.findall(html)
        # 直接调用保存函数
        self.save_html(film_list)

    def save_html(self,film_list):
        for film in film_list:
            self.all_list.append(
                (film[0],film[1].strip(),film[2][5:15])
            )

    def run(self):
        for offset in range(0,91,10):
            url = self.url.format(offset)
            self.get_html(url)
            # 休眠
            time.sleep(random.uniform(0,1))
        ins = 'insert into filmtab values(%s,%s,%s)'
        self.cursor.executemany(ins,self.all_list)
        self.db.commit()
        self.cursor.close()
        self.db.close()

if __name__ == '__main__':
    start = time.time()
    spider = MaoyanSpider()
    spider.run()
    end = time.time()
    print('执行时间:%.2f' % (end-start))

数据持久化存储 - MongoDB数据库

pymongo操作mongodb数据库

import pymongo

# 1.数据库连接对象
conn=pymongo.MongoClient('localhost',27017)
# 2.库对象
db = conn['库名']
# 3.集合对象
myset = db['集合名']
# 4.插入数据
myset.insert_one({字典})

mongodb常用命令

mongo
>show dbs
>use 库名
>show collections
>db.集合名.find().pretty()
>db.集合名.count()
>db.dropDatabase()

示例4：猫眼电影top100数据写入mongo

from urllib import request
import re
import time
import random
from fake_useragent import UserAgent
import pymongo

class MaoyanSpider(object):
    def __init__(self):
        self.url = 'https://maoyan.com/board/4?offset={}'
        # 计数变量
        self.i = 0
        # 创建3个对象
        self.conn = pymongo.MongoClient(
            'localhost',27017
        )
        self.db = self.conn['maoyandb']
        self.myset = self.db['maoyanset']

    def get_html(self,url):
        # 使用随机User-Agent导致部分URL地址无法获取数据
        headers = { 'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1' }
        req = request.Request(url=url,headers=headers)
        resp = request.urlopen(req)
        html = resp.read().decode('utf-8')
        # 直接调用解析函数
        self.parse_html(html)

    def parse_html(self,html):
        re_bds = '.*?title="(.*?)".*?class="star">(.*?)
.*?releasetime">(.*?)'
        p = re.compile(re_bds,re.S)
        # film_list: [('','',''),()]
        film_list = p.findall(html)
        # 直接调用保存函数
        self.save_html(film_list)

    def save_html(self,film_list):
        for film in film_list:
            item = {}
            item['name'] = film[0].strip()
            item['star'] = film[1].strip()
            item['time'] = film[2].strip()[5:15]
            print(item)
            self.i += 1
            # 把数据存入mongodb数据库
            self.myset.insert_one(item)

    def run(self):
        for offset in range(0,31,10):
            url = self.url.format(offset)
            print(url)
            self.get_html(url)
            # 休眠
            time.sleep(random.uniform(0,1))
        print('数量:',self.i)

if __name__ == '__main__':
    start = time.time()
    spider = MaoyanSpider()
    spider.run()
    end = time.time()
    print('执行时间:%.2f' % (end-start))

示例5：电影天堂二级页面抓取

需求：把电影天堂数据存入MySQL数据库 - 增量爬取
地址:电影天堂 - 2019年新片精品 - 更多
目标:电影名称、下载链接
分析：
*********一级页面需抓取***********
        1、电影详情页链接
        
*********二级页面需抓取***********
        1、电影名称
  			2、电影下载链接
实现步骤:
1、确定响应内容中是否存在所需抓取数据**
2、找URL规律**
    第1页 ：https://www.dytt8.net/html/gndy/dyzz/list_23_1.html
    第2页 ：https://www.dytt8.net/html/gndy/dyzz/list_23_2.html
    ...
    第n页 ：https://www.dytt8.net/html/gndy/dyzz/list_23_n.html
3、写正则表达式
	1、一级页面正则表达式
   		<table width="100%".*?<td width="5%".*?<a href="(.*?)".*?ulink">.*?</table>
	2、二级页面正则表达式
   		<div class="title_all"><h1><font color=#07519a>(.*?)

.*?========================================================================

代码实现：

1.建库建表
create database filmskydb charset utf8;
use filmskydb;
create table request_finger(
finger char(32)
)charset=utf8;
create table filmtab(
name varchar(200),
download varchar(500)
)charset=utf8;

2.编码实现

from urllib import request
import re
import time
import random
from fake_useragent import UserAgent
import pymysql
from hashlib import md5
import sys

class FilmSkySpider(object):
    def __init__(self):
        self.url = 'https://www.dytt8.net/html/gndy/dyzz/list_23_{}.html'
        self.db = pymysql.connect(
            'localhost','root','123456','filmskydb',
            charset='utf8'
        )
        self.cursor = self.db.cursor()

    # 功能函数1: 获取html函数
    def get_html(self,url):
        headers = { 'User-Agent':UserAgent().random }
        req = request.Request(url=url,headers=headers)
        resp = request.urlopen(req)
        html = resp.read().decode('gb18030','ignore')

        return html

    # 功能函数2: 解析函数
    def parse_func(self,re_bds,html):
        p = re.compile(re_bds,re.S)
        r_list = p.findall(html)

        return r_list

    # 解析提取所需数据
    def parse_html(self,one_url):
        one_html = self.get_html(one_url)
        re_bds = '.*?
'
        href_list = self.parse_func(re_bds,one_html)
        # href_list: ['/html/xxxx','/html/xxxx','']
        for href in href_list:
            link = 'https://www.dytt8.net' + href
            s = md5()
            s.update(link.encode())
            finger = s.hexdigest()
            ############################
            if not self.is_go_on(finger):
                # 向详情页发请求,提取 名字和下载链接
                self.parse_two_page(link)
                # 抓取1个电影之后,随机休眠
                time.sleep(random.randint(1,2))
                # 抓取完成后把finger存入到指纹表中
                ins = 'insert into request_finger values(%s)'
                self.cursor.execute(ins,[finger])
                self.db.commit()
            else:
                # 一旦抓取完成,直接退出进程
                sys.exit('完成')


    # 判断finger在指纹表中是否存在
    def is_go_on(self,finger):
        sel = 'select finger from request_finger where ' \
              'finger=%s'
        result = self.cursor.execute(sel,[finger])
        if result:
            return True

    # 解析二级页面函数
    def parse_two_page(self,link):
        two_html = self.get_html(link)
        re_bds = '(.*?)
.*?= self.parse_func(re_bds,two_html)
        # r_list: [('电影名称','下载链接')]
        item = {}
        if r_list:
            item['name'] = r_list[0][0].strip()
            item['download'] = r_list[0][1].strip()
            print(item)
            ins = 'insert into filmtab values(%s,%s)'
            L = [ item['name'],item['download'] ]
            self.cursor.execute(ins,L)
            self.db.commit()

    def run(self):
        for i in range(1,205):
            one_url = self.url.format(i)
            self.parse_html(one_url)

if __name__ == '__main__':
    spider = FilmSkySpider()
    spider.run()

requests模块

安装

Linux

sudo pip3 install requests

Windows

# 方法一
   进入cmd命令行 ：python -m pip install requests
# 方法二
   右键管理员进入cmd命令行 ：pip install requests

requests.get()

作用

# 向网站发起请求,并获取响应对象
res = requests.get(url,headers=headers)

参数

1、url ：需要抓取的URL地址
2、headers : 请求头
3、timeout : 超时时间，超过时间会抛出异常

响应对象(res)属性

1、encoding ：响应字符编码
   res.encoding = 'utf-8'
2、text ：字符串
3、content ：字节流
4、status_code ：HTTP响应码
5、url ：实际数据的URL地址

非结构化数据保存

with open('xxx.jpg','wb') as f:
	f.write(res.content)

示例6：百度图片爬取

需求：保存任意想搜索的明星的图片到本地

编码实现：

import requests
from urllib import parse
import time
import random
import re
import os

class BaiduImage(object):
    def __init__(self):
        self.url = 'https://image.baidu.com/search/index?tn=baiduimage&word={}'
        self.headers = { 'User-Agent': 'Mozilla/5.0 '}

    def get_image(self,url,word):
        html = requests.get(url=url,headers=self.headers).text
        p = re.compile('"thumbURL":"(.*?)"',re.S)
        link_list = p.findall(html)
        print(link_list)
        # link_list: ['xxx.jpg','xxx.jpg']
        self.save_image(link_list,word)

    # 保存图片到指定路径
    def save_image(self,link_list,word):
        directory = '/home/tarena/images/{}/'.format(word)
        if not os.path.exists(directory):
            os.makedirs(directory)

        for link in link_list:
            html = requests.get(url=link,headers=self.headers).content
            filename = directory + link[-30:]
            with open(filename,'wb') as f:
                f.write(html)
            print(filename,'下载成功')

    def run(self):
        word = input('你想要谁的照片？请输入:')
        params = parse.quote(word)
        url = self.url.format(params)
        self.get_image(url,word)

if __name__ == '__main__':
    spider = BaiduImage()
    spider.run()

你可能感兴趣的:(教程)

第四天旅游线路预览——从换乘中心到喀纳斯湖陟彼高冈yu 基于Google earth studio 的旅游规划和预览旅游
第四天：从贾登峪到喀纳斯风景区入口，晚上住宿贾登峪；换乘中心有4路车，喀纳斯①号车，去喀纳斯湖，路程时长约5分钟；将上面的的行程安排进行动态展示，具体步骤见”Googleearthstudio进行动态轨迹显示制作过程“、“Googleearthstudio入门教程”和“Googleearthstudio进阶教程“相关内容，得到行程如下所示：Day4-2-480p
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
linux中sdl的使用教程,sdl使用入门 Melissa Corvinus linux中sdl的使用教程
本文通过一个简单示例讲解SDL的基本使用流程。示例中展示一个窗口，窗口里面有个随机颜色快随机移动。当我们鼠标点击关闭按钮时间窗口关闭。基本步骤如下：1.初始化SDL并创建一个窗口。SDL_Init()初始化SDL_CreateWindow()创建窗口2.纹理渲染存储RGB和存储纹理的区别：比如一个从左到右由红色渐变到蓝色的矩形，用存储RGB的话就需要把矩形中每个点的具体颜色值存储下来；而纹理只是一
PHP环境搭建详细教程好看资源平台前端 php
PHP是一个流行的服务器端脚本语言，广泛用于Web开发。为了使PHP能够在本地或服务器上运行，我们需要搭建一个合适的PHP环境。本教程将结合最新资料，介绍在不同操作系统上搭建PHP开发环境的多种方法，包括Windows、macOS和Linux系统的安装步骤，以及本地和Docker环境的配置。1.PHP环境搭建概述PHP环境的搭建主要分为以下几类：集成开发环境：例如XAMPP、WAMP、MAMP，这
使用 FinalShell 进行远程连接（ssh 远程连接 Linux 服务器）编程经验分享开发工具服务器 ssh linux
目录前言基本使用教程新建远程连接连接主机自定义命令路由追踪前言后端开发，必然需要和服务器打交道，部署应用，排查问题，查看运行日志等等。一般服务器都是集中部署在机房中，也有一些直接是云服务器，总而言之，程序员不可能直接和服务器直接操作，一般都是通过ssh连接来登录服务器。刚接触远程连接时，使用的是XSHELL来远程连接服务器，连接上就能够操作远程服务器了，但是仅用XSHELL并没有上传下载文件的功能
第六集如何安装CentOS7.0，3分钟学会centos7安装教程 date分享
从光盘引导系统按回车键继续进入引导程序安装界面，选择语言这里选择简体中文版点击继续选择桌面安装下面给系统分区选择磁盘，点击完成选择基本分区，点击加号swap分区,大小填内存的两倍在选择根分区，使用所有可用的磁盘空间选择文件系统ext4点击完成，点击开始安装设置root密码，点击完成设置普通用户和密码，点击完成整个过程持续八分钟左右根据个人配置不同，时间长短不同好，现在点击重启系统进入重启状态点击本
C++菜鸟教程 - 从入门到精通第二节 DreamByte c++
一.上节课的补充(数据类型)1.前言继上节课,我们主要讲解了输入,输出和运算符,我们现在来补充一下数据类型的知识上节课遗漏了这个知识点,非常的抱歉顺便说一下,博主要上高中了,更新会慢,2-4周更新一次对了,正好赶上中秋节,小编跟大家说一句:中秋节快乐!2.int类型上节课,我们其实只用了int类型int类型,是整数类型,它们存贮的是整数,不能存小数(浮点数)定义变量的方式很简单inta;//定义一
福袋生活邀请码在哪里填写，福袋生活app邀请码使用教程小小编007
很多人下载福袋生活后，注册使用时需要填写邀请码。因为福袋生活是注册邀请制，所以首次使用填写邀请码才可以正常登录使用。福袋生活是广州市福袋生活信息科技有限公司旗下一家多元化社交电商导购平台，以APP为载体，社群为媒介，汇集衣食住行、吃喝玩乐生活服务板块，使用福袋生活可以领到淘宝，拼多多等电商平台的商品优惠券和返利，还可以兼职去分享赚钱。我为什么从福袋生活转到果冻宝盒呢？当然是因为福袋生活返利更高，注
2023-08-20 圆梦菌
魔力宝贝最详细新手教程，新手该如何完美开局，建议收藏转发2023-08-2010:34《魔力宝贝》手游体力是什么?魔力宝贝体力恢复机制是每10分钟回复1点；体力作用：挑战关卡需消耗体力体力获取方式1、好友每天可以赠送15次，也就是15点体力2、系统每天中午12点以及下午6点赠送25体3、在商城使用神石购买《魔力宝贝》手游战斗力如何提升?1、宠物强化宠物通过融合进阶后可以大幅度提升战力，最高级的宠物
ESP32-C3入门教程网络篇⑩——基于esp_https_ota和MQTT实现开机主动升级和被动触发升级的OTA功能小康师兄 ESP32-C3入门教程 https 服务器 esp32 OTA MQTT
文章目录一、前言二、软件流程三、部分源码四、运行演示一、前言本文基于VSCodeIDE进行编程、编译、下载、运行等操作基础入门章节请查阅：ESP32-C3入门教程基础篇①——基于VSCode构建HelloWorld教程目录大纲请查阅：ESP32-C3入门教程——导读ESP32-C3入门教程网络篇⑨——基于esp_https_ota实现史上最简单的ESP32OTA远程固件升级功能二、软件流程
2023最详细的Python安装教程（Windows版本）程序员林哥 Python python windows 开发语言
python安装是学习pyhon第一步，很多刚入门小白不清楚如何安装python，今天我来带大家完成python安装与配置，跟着我一步步来，很简单，你肯定能完成。第一部分：python安装（一）准备工作1、下载和安装python(认准官方网站)当然你不想去下载的话也可以分享给你，还有入门学习教程，点击下方卡片跳转进群领取（二）开始安装对于Windows操作系统，可以下载“executableins
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
计算机毕业设计PHP仓储综合管理系统（源码+程序+VUE+lw+部署） java毕设程序源码王哥 php 课程设计 vue.js
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流项目运行环境配置：phpStudy+Vscode+Mysql5.7+HBuilderX+Navicat11+Vue+Express。项目技术：原生PHP++Vue等等组成，B/S模式+Vscode管理+前后端分离等等。环境需要1.运行环境：最好是小皮phpstudy最新版，我们在这个版本上开发的。其他版本理论上也可以。2.开发
阿里云服务器4核8G配置购买及价格类文章汇总（10篇）阿里云最新优惠和活动汇总
阿里云服务器4核8G配置如何购买？价格是多少？4核8G配置的阿里云服务器可以通过云服务器产品页购买也可以通过阿里云活动去下单购买，一般通过活动购买的用户比较多，但是不同实例规格的阿里云服务器价格不一样，带宽不同价格也不一样，本文为大家汇总了10篇关于阿里云服务器4核8G配置购买教程文章和价格类文章，分为购买类文章和价格类文章，以供大家参考如何购买阿里云服务器4核8G配置和最新优惠价格是多少。阿里云
绝招曝光！3小时高效利用ChatGPT写出精彩论文 kkai人工智能 chatgpt 人工智能 ai 学习媒体
在这份指南中，我将深入解析如何利用ChatGPT4.0的高级功能，指导整个学术研究和写作过程。从初步探索研究主题，到撰写结构严谨的学术论文，我将一步步展示如何在每个环节中有效运用ChatGPT。如果您还未使用PLUS版本，可以参考相关教程。**初步探索与主题的确定**起初，我处于庞大的知识领域中，寻找一个可深入研究的领域。ChatGPT如同灯塔，通过深入分析最新研究趋势和领域热点，帮助我在广阔的学
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
Go语言基础总结 Alice_小哪吒 Go学习笔记 golang 开发语言后端
一、Go语言结构包声明引入包函数变量语句&表达式注释下面简单给出hello.go文件。packagesrc/*定义包名*/import"fmt"/*引入包*/funchello(){/*函数*/fmt.Println("Hello,World!")/*语句&表达式*/fmt.Println("菜鸟教程：runoob.com")}二、Go语言基础语法Go程序可以由多个标记构成。可以是关键字、标识符、
mysql学习教程，从入门到精通，TOP 和MySQL LIMIT 子句（15）知识分享小能手大数据数据库 MySQL mysql 学习 oracle 数据库开发语言 adb 大数据
1、TOP和MySQLLIMIT子句内容在SQL中，不同的数据库系统对于限制查询结果的数量有不同的实现方式。TOP关键字主要用于SQLServer和Access数据库中，而LIMIT子句则主要用于MySQL、PostgreSQL（通过LIMIT/OFFSET语法）、SQLite等数据库中。下面将分别详细介绍这两个功能的语法、语句以及案例。1.1、TOP子句（SQLServer和Access）1.1
【Golang】实现 Excel 文件下载功能 RumIV Golang golang excel 开发语言
在当今的网络应用开发中，提供数据导出功能是一项常见的需求。Excel作为一种广泛使用的电子表格格式，通常是数据导出的首选格式之一。在本教程中，我们将学习如何使用Go语言和GinWeb框架来创建一个Excel文件，并允许用户通过HTTP请求下载该文件。准备工作在开始之前，请确保您的开发环境中已经安装了Go语言和相关的开发工具。此外，您还需要安装GinWeb框架和excelize包，这两个包都将用于我
sublime个人设置 bawangtianzun sublime text 编辑器
如何拥有jiangly蒋老师同款编译器(sublimec++配置竞赛向）_哔哩哔哩_bilibiliSublimeText4的安装教程（新手竞赛向）-知乎(zhihu.com)创建文件自动保存为c++打开SublimeText软件。转到"Tools"（工具）>"Developer"（开发者）>"NewPlugin"（新建插件）。在打开的新文件中，粘贴以下代码：importsublimeimport
python画图|同时输出二维和三维图西猫雷婶 python 开发语言
前面已经学习了如何输出二维图和三维图，部分文章详见下述链接：python画图|极坐标下的3Dsurface-CSDN博客python画图|垂线标记系列_如何用pyplot画垂直x轴的线-CSDN博客有时候也需要同时输出二位和三维图，因此有必要学习一下。【1】官网教程首先我们打开官网教程，链接如下。https://matplotlib.org/stable/gallery/mplot3d/mixed
果冻宝盒官方app邀请码有哪些一览(附邀请码填写指南)省钱又开心！小小编007
果冻宝盒是一款备受瞩目的社交电商软件，其独特的邀请机制和丰富的奖励制度吸引了大量用户。在使用果冻宝盒的过程中，填写正确的邀请码是获取奖励的重要步骤之一。本文将为您详细介绍果冻宝盒官方app的邀请码有哪些，以及如何正确填写邀请码，帮助您更好地参与果冻宝盒的社交电商生态。果冻宝盒直升金牌总裁（最高返利）注册教程：1各大应用市场搜索【果冻宝盒】并下载安装2注册果冻宝盒，根据提示填写邀请码：2233773
如何给QQ邮箱自动发邮件？无惧「小爱」下线！代码全公开，两步搞定 AI码上来 AI实战微信人工智能 python
前两天，搞了个微信AI小助理-小爱(AI)，爸妈玩的不亦乐乎。零风险！零费用！我把AI接入微信群，爸妈玩嗨了，附教程（下）最近一直在迭代中，挖掘小爱的无限潜力:链接丢给它，精华吐出来！微信AI小助理太强了，附完整提示词拥有一个能倾听你心声的「微信AI小助理」，是一种什么体验？小爱打工，你躺平！让「微信AI小助理」接管你的文件处理，一个字：爽！我把多模态大模型接入了「小爱」，痛快来一场「表情包斗图」
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
Kubernetes Ingress 控制器（Nginx）安装与使用教程农优影
KubernetesIngress控制器（Nginx）安装与使用教程kubernetes-ingressNGINXandNGINXPlusIngressControllersforKubernetes项目地址:https://gitcode.com/gh_mirrors/ku/kubernetes-ingress1.项目目录结构及介绍在nginxinc/kubernetes-ingress仓库中，
Playwright 自动化验证码教程吉小雨 python库自动化数据库运维 python
Playwright自动化点击验证码教程在自动化测试中，Playwright是一个流行的浏览器自动化工具，支持多种浏览器的高效操作。验证码（如图片验证码、滑动验证码等）是网页中常见的反自动化机制，常常需要特别处理。我们将介绍如何使用Playwright自动化点击验证码，并提供几种常见验证码的处理方案。官方文档链接：Playwright官方文档一、Playwright环境搭建1.1安装Playwri
C# 开发教程-入门基础天马3798 教程系列整理 c#开发语言
1.C#简介、环境，程序结构2.C#基本语法，变量，控制局域，数据类型，类型转换3.C#数组、循环，Linq4.C#类，封装，方法5.C#枚举、字符串6.C#面相对象，继承，封装，多态7.C#特性、属性、反射、索引器8.C#委托，事件，集合，泛型9.C#匿名方法10.C#多线程更多：JQuery开发教程入门基础Vue开发基础入门教程Vue开发高级学习教程
Python编写简单登录系统的完整指南 qq_35430208 python python 开发语言 Python编写简单登录系统登录系统
在现代应用中，用户认证和登录系统是一个非常重要的功能。通过登录系统，应用能够识别用户的身份，并为其提供相应的权限和服务。本文将介绍如何使用Python编写一个简单的登录系统，包括用户注册、登录验证、密码加密等功能。通过这一教程，将学习如何构建一个基本的用户登录系统，并理解其中的关键技术。系统需求分析一个基本的登录系统应该具备以下功能：用户注册：新用户可以创建账号，系统会将用户名和密码存储起来。登录
剪纸与折纸 a晟睿
暑期第47天秋高气爽，温度适宜，一天宅在家里真幸福。睿睿做完作业，看动画片，给她规定好看多长时间，虽然到时间会耍赖多看一会，基本上还是能守信用关掉。下午的时间，我找出彩纸，对睿睿说咱们剪纸吧，睿睿马上找来小剪刀，我找来剪纸的书，睿睿铺好她的瑜伽垫，我俩就面对面席地而坐，各忙各的了。睿睿的小手很灵活，照着图纸一会就叠好剪出来了，自己觉得不过瘾，又拿来我的手机，搜了一个折纸教程，一步一步跟着折起来。剪
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f

笔记整理——Python爬虫（四）：数据持久化存储

笔记整理——Python爬虫（四）：数据持久化存储

数据持久化存储

数据持久化存储 - csv文件

作用

使用流程

示例1：创建 test.csv 文件，在文件中写入数据

示例2：上一节的示例代码：猫眼电影，将爬取的数据存入本地 maoyan.csv 文件 - 使用writerow()方法实现

数据持久化存储 - MySQL数据库

示例3：将电影信息存入MySQL数据库（尽量使用executemany方法）

数据持久化存储 - MongoDB数据库

示例4：猫眼电影top100数据写入mongo

示例5：电影天堂二级页面抓取

(.*?)

requests模块

安装

requests.get()

示例6：百度图片爬取

你可能感兴趣的:(教程)