Qdd不甜

python爬虫（进阶）

一、MongoDB

1.mongodb介绍

（1）什么是mongodb

（2）SQL和NO-SQL的主要区别

（3）MongoDB作为非关系型数据库相较于关系型数据库的优点：

（3）mongodb安装

2.mongodb的使用

（1）简单使用

（2）mongodb的增删改查

（3）mongodb的聚合操作

（4）mongodb-索引

3. mongodb的权限管理

（1）mongodb的权限管理方案

（2）mongodb-超级管理员账号

（3）mongodb-普通用户

（4）查看创建的用户与删除用户

4. mongodb与python的交互

（1）mongodb和python的交互模块

（2）使用pymongo

二、scrapy-爬虫框架

1.学前应知：

（1） scrap的概念和流程：

（2） scrapy的三个内置对象：

（3）scrapy中的模块的具体作用：

（4）安装与项目开发流程介绍：

2. 项目流程（重点！！！）

（1）创建项目：以pycharm为例

（2）创建爬虫

（3）完善爬取

（4）保存数据

（5）爬虫运行：

（6）数据建模：

（7）翻页请求的思路：

3. 请求对象：

（1）构造requests对象，并发送请求

（2）scrapy.Requests的更多的参数

4. scrapy模拟登录

（1）回顾之前的模拟登陆的方法

（2）scrapy携带cookies直接获取需要登陆后的页面

（3）案例--网易招聘爬虫：

5. scrapy.Requests发送post请求：

6. scrapy管道的使用：

（1）pipeline中常用的方法：

（2）管道文件的修改：

（3）开启管道：

7.另外一种爬虫类--crawlspider

（1）创建crawlspider 爬虫

8. scrapy中间件的使用：

（1）scrapy中间件的分类和使用：

（2）下载中间件的使用方法：

（3）定义实现随机User-Agent的下载中间件---豆瓣实例

（4）代理ip的使用：

（5）动态加载selenium：

前言：

爬虫（基础）：python爬虫（基础）_qwerdftgu的博客-CSDN博客

一、MongoDB

官方文档：https://docs.mongodb.com/

1.mongodb介绍

（1）什么是mongodb

mongodb是一个功能最丰富的NoSQL非关系数据库。由C++语言编写。

mongodb本身提供S端存储数据，即server;也提供C端操作处理〈如查询等）数据，即client。

（2）SQL和NO-SQL的主要区别

据库>集合>文档

数据的无关联性：

SQL中如果需要增加外部关联的话，规范化做法是在原表中增加一个外键，关联外部数据表。

NoSQL则可以把外部数据直接放到原数据集中，以提高查询效率。缺点也比较明显，对关联数据做更新时会比较麻烦。

SQL中在一个表中的每条数据的字段是固定的。而NoSQL中的一个集合(表)中的每条文档(数据)的key(字段)可以是互不相同的。

（3）MongoDB作为非关系型数据库相较于关系型数据库的优点：

易扩展:NoSQL数据库种类繁多，但是一个共同的特点都是去掉关系数据库的关系型特性。数据之间无关系,这样就非常容易扩展

大数据量，高性能:NoSQL数据库都具有非常高的读写性能,尤其在大数据量下表现优秀。这得益于它的非关系性，数据库的结构简单

灵活的数据模型:NoSQL无需事先为要存储的数据建立字段，随时可以存储自定义的数据格式。而在关系数据库中，增删字段是一件非常麻烦的事情。如果是非常大数据量的表，增加字段简直就是一个梦

（3）mongodb安装

安装：如何在 Ubuntu 上安装 MongoDB - wefeng - 博客园

2.mongodb的使用

（1）简单使用

1. 服务端的启动：

默认端口号：27017

默认配置文件的位置：/etc/mongodb.conf

默认日志的位置：/var/log/mongodb/mongodb.log

两种方式启动：
本地测试方式的启动（只具有本地数据的增删改查的功能）
验证数据库能否正常运行
生成方式启动（具有完整的全部功能）
部署启动

2. mongodb数据库的命令：

查看当前的数据库:db(没有切换数据库的情况下默认使用test数据库)。查看所有的数据库:how dbs /show databases

切换数据库:use db_name
db_name为show dbs后返回的数据库名

删除当前的数据库:db.dropDatabase()

3. mongodb集合的命令：
无需手动创建集合:向不存在的集合中第一次添加数据时，集合会自动被创建出来

手动创建集合:
db.createCollection(name,options)
db.createCollection("stu"")
db.createCollection("sub", { capped : true,size : 10})
参数capped:默认值为false表示不设置上限，值为true表示设置上限
参数size︰集合所占用的字节数。当capped值为true时，需要指定此参数，表示上限大小，当文档达到上限时，会将之前的数据覆盖,单位为字节

查看集合:show collections

蒯除集合:db.集合名称.drop0

检查集合是否设定上限: db.集合名.isCapped0
测试代码：
show dbsuse test
show collections
db
db.stu.insert(i " name ' :"郭靖','age ':22})
show dbs
show collections
db.stu.find()
db.stu.drop()
show collections
db.dropDatabase()
show dbs
exit
4. mongodb中常见的数据类型：

常见类型：
Object ID: 文档ID/数据的ID，数据的主键（默认为索引）
String: 字符串，最常用,必须是有效的UTF-8
Boolean: 存储一个布尔值，true或false（小写）
Integer: 整数可以是32位或64位，这取决于服务器
Double: 浮点数
Arrays: 数组/列表
Object: mongodb中的一条数据/文档,即文档嵌套文档
Null: 存储null值
Timestamp: 时间戳，表示从1970-1-1到现在的总秒数
Date:存储当前日期或时间的UNIX时间格式

注意点：

每个文档都有一个属性，为_id，保证每个文档的唯一性,mongodb默认使用_id作为主键
可以手动设置_id的值，如果没有提供，那么MongoDB为每个文档提供了一个独特的_id，类型为objectlD

objectID是一个12字节的十六进制数,每个字节两位，一共是24位的字符串:
。前4个字节为当前时间戳
。接下来3个字节的机器ID
。接下来的2个字节中MongoDB的服务进程id。最后3个字节是简单的增量值

（2）mongodb的增删改查

1. mongodb插入数据：

命令:db.集合名称.insert(document)

                db.stu.insert((name : ' gj ', gender:1))
                db.stu.insert({_id:"201701e1"，name :" gj' , gender:1})

插文档时，如果不指定_id参数，MongoDB会为文档自动分配一个唯一的Objectld

2.mongodb的保存

命令:db.集合名称.save(document)

                db.stu.save({_id: '20170101', name : ' gj', gender:2})
                db.stu.save({name : 'gi‘ , gender:2})
                db.stu.find()

如果文档的_id已经存在则修改，如果_id不存在则添加（插入）

3.mongodb的查询

3.1 简单查询

方法find():查询
        db.集合名称.find({条件文档})

方法findOne():查询，只返回第一个
db.集合名称.find0ne({条件文档})

方法pretty0:将结果格式化;不能和findOne()一起使用! 美化！！！！
  db.集合名称.find({条件文档}).pretty()

3.2 比较运算符

等于:默认是等于判断，没有运算符。

小于: $lt (less than)

小于等于:$lte(less than equal)。

大于: $gt(greater than)

大于等于: $gte

不等于: $ne

查询年龄大于18的所有学生
        db.stu.find({age:{$gte: 18}})

3.3 逻辑运算符：逻辑运算符主要指与、或逻辑.

and:在json中写多个条件即可

        查询年龄大于或等于18，并且性别为true的学生
db.stu.find({age :{$gte:18},gender:true})

or:使用$or，值为数组，数组中每个元素为json

        查询年龄大于18，或性别为false的学生
db.stu.find({$or:[iage:{$gt:18}}, {gender:false)]})
        查询年龄大于18或性别为男生，并且姓名是郭靖
db.stu.find({$or:[{age:{$gte:18}},{gender:true}], name : 'gj'})

3.4 范围运算符

使用$in , $nin判断数据是否在某个数组内

         查询年龄为18、28的学生
                db.stu.find({age:{$in: [18,28]}})

3.5 使用正则表达式

使用$regex编写正则表达式
查询name以'黄'开头的数据
db.stu.find({name:{$regex:"^黄"}})

3.6 自定义查询：

mongodb shell 是一个js的执行环境使用$where 写一个函数，返回满足条件的数据

查询年龄大于30的学生
db.stu.find( {
$where:function() {
                return this.age>30;}
})

3.7 skip和limit（查询结果的操作）

方法limit():用于读取指定数量的文档

db.集合名称.find( ).limit(NUMBER)
查询2条学生信息
                        db.stu.find().limit(2)

方法skip0:用于跳过指定数量的文档

db.集合名称.find( ).skip(NUMBER)
                        db.stu.find().skip(2)

同时使用-------> 可以实现翻页操作

                db.stu.find().limit(4).skip(0) # 四条数据
                db.stu.find().skip(4).limit(4) # 接着四条数据

3.8 投影
      在查询到的返回结果中，只选择必要的字段
        命令: db.集合名称.find({}, {字段名称:1,---})
        参数为字段与值，值为1表示显示，值为0不显特别注意∶

对于_id列默认是显示的,如果不显示需要明确设置为0

对于其他不显示的字段不能设置为0

        db. stu.find({}, {_id :0, name: 1, gender: 1})

3.9 排序
        方法sort()，用于对查询结果按照指定的字段进行排序

命令: db.集合名称.find().sort({字段:1,...})

        参数1为升序排列，参数-1为降序排列
        根据性别降序，再根据年龄升序（复合排序）
                db.stu.find().sort({gender : -1, age:1})

3.10 统计个数（和去重）

方法count)用于统计结果集中文档条数

命令: db.集合名称.find({条件}).count()

命令: db.集合名称.count({条件})

        db.stu.find({gender:true}).count()
        db. stu.count({age:{$gt:20}, gender:true})

命令： db.集合名称.distinct(字段，{查询条件})
db.stu.distinct("hometown") # 对整个数据去重
db.stu.distinct("hometown", {age:18}) # 对查询结果去重！！()

4. mongodb的更新

db.集合名称.update({query}, {update}, {multi: boolean})

参数query:查询条件

参数update:更新操作符

参数multi:可选，默认是false，表示只更新找到的第一条数据，值为true表示把满足条件的数据全部更新

        db.stu.update({name : 'hr'}, {name: 'mnc'}) # 全文档进行覆盖更新
此时该条数据只有一个内容即：{name: "mnc"}, 还有id
        db.stu.update({name : 'hr' }, {$set:{name: 'hys'}) # 指定键值更新操作
        db.stu.update({}, {$set:{gender:0}}, {multi: true})     # 该数据库中的数据全部更新
db.stu.update({name: "qdd"}, {$set: {age: 18}, {upsert: true}} # 找到则该，没有就插入
注意: "multi update only works with $ operators"

multi参数必须和$set一起使用！！

5. mongodb的删除

db.集合名称.remove({query}, {justOne: boolean})
        -参数query:可选，删除的文档的条件
        -参数justone:可选,如果设为true或1，则只删除一条，默认false，表示删除全部

小结

mongo shell中的增：
db.集合名.insert({数据})
db.集合名.save({包含_id的完整数据})#根据指定的_id进行保存，存在则更新，不存在则插入

mongo shell中的删：
db.集合名.remove({条件}, {justOne: true/false})

mongo shell中的改:
db.集合名.update({条件}, {$set:{完整数据/部分字段}}, {multi: true/false})

mongo shell中的查:
db.集合名.find({条件}, {字段投影})

（3）mongodb的聚合操作

1. mongodb的聚合是什么

聚合(aggregate)是基于数据处理的聚合管道，每个文档通过一个由多个阶段(stage)组成的管道，可以对每个阶段的管道进行分组、过滤等功能，然后经过一系列的处理，输出相应的结果。
语法: db.集合名称.aggregate({管道:{表达式}})

2. mongodb的常用管道和表达式

2.1 常用的管道命令

在mongodb中，文档处理完毕后，通过管道进行下一次处理常用管道命令如下

$group: 将集合中的文档分组,可用于统计结果（！！！！！！！最重要）

$match: 过滤数据,只输出符合条件的文档

$project: 修改输入文档的结构，如重命名、增加、删除字段、创建计算结果

$sort: 将输入文档排序后输出

$linit: 限制聚合管道返回的文档数

$skip: 跳过指定数量的文档,并返回余下的文档

2.2 常用表达式

表达式:处理输文档并输出语法:表达式:"$列名·常用表达式:

$sun : 计算总和, $sum:1表示以一倍计数(可以用于数据计数)

$avg : 计算平均值

$min : 获取最小值

$max︰获取最大值

$push : 在结果文档中插入值到一个数组中

3 管道命令之 $group !!!!!!!!!!!!!!!!!!!!非常重要

3.1 按照某个字段进行分组

$group是所有聚合命令中用的最多的一个命令，用来将集合中的文档分组，可用于统计结果使用示例如下
db.stu.aggregate(
    {$group: 
        {                      # $gender表示取含有gender字段的数据
            _id:"$gender",     # 这个_id表示的不是分组之前的键，而是分组结果中的键   
            counter:{$sum: 1}
        }
    }
)
其中注意点;

db.db_name. aggregate 是语法，所有的管道命令都需要写在其中

_id表示分组的依据，按照哪个字段进行分组，需要使用$gender表示选择这个字段进行分组

$sum:1 表示把每条数据作为1进行统计，统计的是该分组下面数据的条数

3.2 group by null
当我们需要统计整个文档的时候，$group的另一种用途就是把整个文档分为一组进行统计使用实例如下:
db. stu.aEgregate(
    {$group:
        {
            _id:null,
            counter:{$sum: l}    # counter不是固定的，是你自己可以随便取得
        }
    }
)
其中注意点; 一条数据又称为文档

_id: null 表示不指定分组的字段，即统计整个文档，此时获取的 counter表示整个文档的个数

3.3 数据透视
正常情况在统计的不同性别的数据的时候，需要知道所有的name，需要逐条观察，如果通过某种方式把所有的name放到一起,那么此时就可以理解为数据透视
使用示例如下;
.统计不同性别的学生
db.stu.aggregate(
   {$group:
        {
            id:null,
            name:{$push:"$name"}      # push 放
        }
    }
)
使用$$ROOT可以将整个文档放入数组中
db.stu.aggregate(
    {$group:
        {
            _id:null,
            name:{$push: "$$ROOT"}
        }
    }
)
4. 其它管道命令

4.1 $match

$match用于进行数据的过滤，是在能够在聚合操作中使用的命令，和 find 区别在于 smatch操作可以把结果交给下一个管道处理，而find不行
使用示例如下:

查询年龄大于20的学生
 db.stu.aggregate(
        {$match:{age:{$gt:20}}
        ）
查询年龄大于20的男女学生的人数
db.stu.aggregate(
    {$match:{age:{$gt:20}),
    {$group:{_id:"$gender", counter:{$sum:1}}}
    )
4.2 $projiect ----->类似投影

$project用于修改文档的输入输出结构，例如重命名，增加，删除字段
使用示例如下:

查询学生的年龄、姓名，仅输出年龄姓名
db.stu.aggregate(
    {$project: {_id: 0, name:1, age:1}}
    )
查询男女生人生，输出人数
db.stu.aggregate(
    {$project: {_id:"$gender", counter:{$sum:1}}},
    {$project: {_id:0, counter:1}
)
4.3 $limit和$skip

$limit限制返回数据的条数

$skip跳过指定的文档数,并返回剩下的文档数

同时使用时先使用skip在使用limit

使用示例如下:

查询2条学生信息
db.stu.aggregate(
    {$limit:2}
)
查询从第三条开始的学生信息
db.stu.aggregate(
    {$skip:3}
)
统计男女生人数，按照人数升序，返回第二条数据
db.stu.aggregate(
    {$group:{_id: "$gender", counter:{$sum:1}}},
    {$sort:{counter: -1}},
    {$skip:1},
    {$limit:1}
)
    

（4）mongodb-索引

1. 创建mongodb索引的作用：

加快查询数据

进行数据去重

2. 创建简单的索引方法

语法：db.集合名.ensureIndex({属性: 1}}，1表示升序， -1表示降序

3. 创建索引前后查询速度对比：

插入数据：
for(i=0; i<100000; i++){
    db.stu.insert(        
        {name: 'text' + i, num:i}
    )
}
创建索引前：
db.stu.find({name:'text10000'}).explian('exectionStats')  # 显示查询操作的详细信息
创建索引：
db.stu.ensureIndex({name:1})
创建索引后：
db.stu.find({name:'test10000'}).explain('exectionStats')
前后速度对比：

4. 索引的查看

默认情况下_id是集合的索引查看方式： db.集合名.getIndexes()

5. 删除索引

db.集合名.dropIndex({索引名称:1})

db.集合名.dropIndex()

6. 创建唯一索引

在默认情况下mongdb的索引域的值是可以相同的，创建唯一索引之后，数据库会在插入数据的时候检查创建索引域的值是否存在，如果存在则不会插入该条数据，但是创建索引仅仅能够提高查询速度,同时降低数据库的插入速度。

6.1 添加唯一索引的语法：

db.集合名.ensureIndex({'字段名': 1}, {'unique': true)

利用唯一索引去重：根据唯一索引指定的值，如果相同，则无法插入该数据

7 建立复合索引

在进行数据去重的时候，可能用一个域来保证数据的唯一性，这个时候可以考虑建立复合索引来实现。例如︰抓全贴吧信息，如果把帖子的名字作为唯一索引对数据进行去重是不可取的，因为可能有很多帖子名字相同
建立复合索引的语法:

db.collection_name.ensureIndex({字段1:1, 字段2:1})

8. 建立索引注意点：

根据需要选择是否需要建立唯一索引

索引字段是升序还是降序在单个索引的情况下不影响查询效率，但是带复合索引的条件下会有影响

数据量巨大并且数据库的读出操作非常频繁的时候才需要创建索引，如果写入操作非常频繁，创建索引会影响写入速度

例如:在进行查询的时候如果字段1需要升序的方式排序输出，字段2需要降序的方式排序输出，那么此时复合索引的建立需要把字段1设置为1，字段2设置为-1

3. mongodb的权限管理

刚安装完毕的mondodb默认不使用权限认证方式启动，与MySQL不同，mongodb在安装的时候并没有设置权限，然而公网运行系统需要设置权限以保证数据安全，所以我们要学习mongodb的权限管理

（1）mongodb的权限管理方案

MongoDB是没有默认管理员账号，所以要先添加管理员账号，并且mongodb服务器需要在运行的时候开启验证模式

用户只能在用户所在数据库登录(创建用户的数据库)，包括管理员账号。
管理员可以管理所有数据库，但是不能直接管理其他数据库，要先认证后才可以。

（2）mongodb-超级管理员账号

1. 创建超级用户

进入mongo shell

sudo mongodb

使用admin数据库（超级管理员账号必须创建在该数据库上）

use admin

创建超级用户

db.createUser({"user": "python", "pwd": "xxxx", "roles": ["root"]})

创建成功后会显示如下信息：

Successfully added user: { "user": "python", "roles" : ["root"] }

2. 以权限认证的方式启动mongodb数据库

sudo mongod --auth

此时再使用数据库各命令的时候会报权限错误，需要认证才能执行相应操作

（3）mongodb-普通用户

1. 在使用的数据库上创建普通用户

选择数据库

use test1

创建用户：
# 创建普通用户user1,该用户在test1上的权限是只读
db.createUser("user" :"user1","pwd" : "pwd1", roles:["read"])

# 创建普通用户user1,该用户在test1上的权限是读写
db.createUser("user" : "user1", "pwd" : "pwd1"，roles : ["readWrite"])
2. 在admin用户数据库上创建普通用户

use admin

db.createUser("user" :"user2","pwd" : "pwd2", roles:[{"role": "read", "db": "dbname1"}, {"role": "readWrite", "db": "dbname2"}])

在admin上创建python1用户，python1用户的权限有两个，一个再dbname1上的只读，另一个是在dbname2上的读写

（4）查看创建的用户与删除用户

1. 查看用户

show users

2. 删除用户：前提是在超级用户状态下

db.dropUser("python")

4. mongodb与python的交互

（1）mongodb和python的交互模块

pymongo 安装方式 pip install pymongo

（2）使用pymongo

1. 无需权限认证的方式创建连接对象以及集合操作对象
from pymongo import MongoClient

# 创建数据库链接对象
client = MongoClient('192.168.50.129', 27017)   # 如果是本地连接host，port参数可以省略

# 选择一个数据库
collection = client['python_data']

# 选择一个集合
collection = collection['python_col']
2. 需要权限认证的方式创建连接对象以及集合操作对象
from pymongo import MongoClient
from urllib.parse import quote_plus

user = 'python'
password = '123456'
host = '192.168.50.129'
port = 27017
url = "mongodb://%s:%s@%s"%(quote_plus(user),
                            quote_plus(password),
                            host)

# quote_plus函数，对url进行编码
# url = mongodb://python_data:[email protected]
client = MongoClient(url, port=port)

collection = client.db.python_data.python_col


#  ----------------------------------另外一种


client = MongoClient('192.168.50.129', 27017)

db = client['admin']

db.authenticate('用户', '密码')  # 账号密码

col = client['python_data']['python_col']  # 前一个为数据库，后一个为集合
3. insert()添加数据

insert可以批量的插入数据列表，也可以插入一台哦数据

3.1 添加一条数据
返回插入数据的id
ret = collection.insert({"name": "test10000", "age": 21})
print(ret)
3.2 添加多条数据
返回Object对象构成的列表
item_list = [{"name": "test1001{}".format(i)} for i in range(10)]

rets = collection.insert(item_list)
print(rets)
for ret in rets:
    print(ret)
4. find_one()查找一条数据
接收一个字典形式的条件，返回字典形式的整条数据如果条件为空，则返回第一条
ret = collection.find_one({"name" : "test10011"})
print(ret)     #包含mongodb的ObjectId对象的字典
_ = ret.pop('_id') #清除mongodb的objectd对象的k , v
print(ret)
5. find()查看全部数据

返回所有满足条件的结果，如果条件为空，则返回全部结果是一个Cursor游标对象，是一个可迭代对象，可以类似读文件的指针，但是只能够进行一次读取
rets = collection.find({"name": "test10005"})

for ret in rets:
    print(ret)
for ret in rets:      #此时rets中没有
    print(ret)
6. updata()更新数据（全文档覆盖或指定键值，更新一条或多条）

语法: collection.update({条件}, {"$set":{指定的kv或完整的一条数据}}, multi=False/True,upsert=False/True

multi参数:默认为False,表示更新一条; multi=True则更新多条; multi参数必须和$set一起使用

upsert参数:默认为False; upsert=True则先查询是否存在,存在则更新;不存在就插入

$set表示指定字段进行更新

6.1 更新一条数据;全文档覆盖;存在就更新,不存在就插入
data = ( "msg":"这是一条完整的数据1" , "name":'哈哈'}
collection.update({"haha" : "heihei"}，{"$set": data}，upsert=True)
6.2 更新多条数据;全文档覆盖;存在就更新,不存在就插入
data = { "msg" : "这是一条完整的数据2" , "name" :'哈哈'}   #该完整数据是先查询后获取的collection.update({}, {'$set':data}, multi=True, upsert=True)
6.3 更新一条数据;指定键值;存在就更新，不存在就插入
data = {"msg":"指定只更新msg___1"}
collection.update({},{"$set" :data}, upsert=True)
6.4更新多条数据;指定键值;存在就更新，不存在就插入入
data = {"msg":"指定只更新msg_2"}
collection.update({}, {"$set" :data}, multi=True,upsert=True)
7. delete_one()删除一条数据

collection.delete_one({ "name" : "test10001"})

7.1 delete_many()删除全部数据

collection.delete_many({"name": "test10810"})

8 pymongo模块其他api

查看pymongo官方文档或源代码 http://api.mongodb.com/python/current/

二、scrapy-爬虫框架

scrapy官方文档：

中文版：Scrapy 2.5 documentation — Scrapy 2.5.0 文档 (osgeo.cn)
源文档：Scrapy 2.5 documentation — Scrapy 2.5.0 documentation

1.学前应知：

（1） scrap的概念和流程：

1. 概念：

Scrapy是一个python编写的开源网络爬虫框架，它是一个被设计用于爬取网络数据，提取结构性数据的框架-----> 少量的代码就能够快速的抓取

2. 工作流程

其流程描述如下：

爬虫中起始的url构造成request对象-->爬虫中间件-->引擎-->调度器

调度器把request-->引擎-->下载中间件--->下载器

下载器发送请求，获取response响应---->下载中间件---->引擎--->爬虫中间件--->爬虫

爬虫提取url地址，组装成request对象---->爬虫中间件--->引擎--->调度器，重复步骤2

爬虫提取数据--->引擎--->管道处理和保存数据

（2） scrapy的三个内置对象：

requests请求对象：由url、method、post_data、headers等构成
response响应对象：由url、body、status、headers等构成
item数据对象：本质是一个字典

（3）scrapy中的模块的具体作用：

爬虫中间件和下载中间件只是运行逻辑的位置不同，作用是重复的:如替换UA等

（4）安装与项目开发流程介绍：

1. 安装：

pip/pip3 install scrapy

2. 开发流程：

1. 创建项目：

scrapy startproject mySpider

2. 生成一个爬虫：

scrapy genspider itcast itcast.cn

3. 提取数据：

根据网站结构在spider中实现数据采集相关内容

4. 保存数据：

使用pipeline进行后续处理和保存

2. 项目流程（重点！！！）

（1）创建项目：以pycharm为例

创建scrapy项目的命令：在pycharm底部的终端中输入该命令

scrapy startproject <项目名字> ---->eg: scrapy startprojet myspider

创建成功有：

（2）创建爬虫

通过命令创建出爬虫文件，爬虫文件为主要的代码作业文件，通常一个网站的爬取动作都会在爬虫文件中进行编写。
命令：---->在项目路径下执行：、

scrapy genspider <爬虫的名字> <允许爬取的域名>

爬虫的名字：作为爬虫运行时的参数

允许爬取的域名: 为对于爬虫设置的爬取范围，设置之后用于过滤要爬取的url，如果爬取的url与允许的域不通则被过滤掉。

eg：

cd myspider # 要转到项目目录下才行

scrapy genspider w3school www.w3school.com.cn

结果如下：

运行爬虫：

scrapy crawl w3school -->终端上

（3）完善爬取

1. 爬取传智播客的老师

import scrapy


class ItcastSpider(scrapy.Spider):
    name = 'itcast'
    # 2.检查域名
    allowed_domains = ['itcast.cn']
    # 1.通常需要更改一下初始url
    start_urls = ['http://www.itcast.cn/channel/teacher.shtml#ajavaee']

    # 3.在parse方法中实现爬取逻辑
    def parse(self, response):
        # 获取所有教师节点
        node_list = response.xpath('/html/body/div[14]/div/div[2]/div/div[2]/div[1]/ul/li/div')

        # 遍历所有教师节点
        for node in node_list:
            temp = {}

            # xpath方法返回的是列表， extract()用于从选择器对象中提取数据
            temp['name'] = node.xpath('./h3/text()').extract_first()
            temp['title'] = node.xpath('./h4/text()')[0].extract()
            temp['data'] = node.xpath('./p/text()')[0].extract()

            print(temp)
            # xpath的结果为列表，我们需要第一个值，我倾向于用extract_first()，为啥嘞：
            # 因为如果列表为空，那么用这个方法可以避免报错！！
            yield temp
            # 这里不用return，虽然可以创建一个空列表放数据，但是一旦return后，函数就终止了，
            # 如果我们还有操作，这就得不偿失！！
        pass
注意：

scrapy.Spider爬虫类中必须有名为parse的解析

如果网站结构层次比较复杂，也可以自定义其他解析函数

在解析函数中提取的url地址如果要发送请求，则必须属于allowed_domains范围内，但是start_urls中的url地址不受这个限制，在后续将学习如何在解析函数中构造发送请求

启动爬虫的时候注意启动的位置，是在项目路径下启动

parse()函数中使用yield返回数据，注意︰解析函数中的yield能够传递的对象只能是: Baseltem,Request, dict, None

2. 定位元素以及提取数据、属性值的方法

解析并获取scrapy爬虫中的数据:利用xpath规则字符串进行定位和提取

response.xpath方法的返回结果是一个类似list的类型，其中包含的是selector对象，操作和列表一样但是有一些额外的方法
额外方法extract():返回一个包有字符串的列表
额外方法extract_first()︰返回列表中的第一个字符串，列表为空没有返回None

3. response响应对象的常用属性！！！！！！！

response.url: 当前响应的url地址
response.request.url: 当前响应对应的请求的url地址
response.headers: 响应头
response.requests.headers: 当前响应的请求头
response.body: 响应体,也就是html代码，byte类型
response.status: 响应状态码

（4）保存数据

利用管道pipeline来处理（保存）数据

1. 在pipeline.py文件中定义对数据的操作

        1.定义一个管道类
        2.重写管道类的process_item方法
        3. process_item方法处理完item之后必须返回给引擎
import json

class MyspiderPipeline():
    #爬虫文件中提取数据的方法每yield一次item，就会运行一次
    #该方法为固定名称函数
    def process_item(self, item, spider):
        print(item)
        return item
2. 在setting.py配置启用管道----->在65行左右！！
ITEM_PIPELINES = {
   'myspider.pipelines.MyspiderPipeline': 300,
}
配置项中键为使用的管道类，管道类使用.进行分割，第一个为项目目录，第二个为文件，第三个为定义的管道类。
配置项中值为管道（可以有多个管道）的使用顺序，设置的数值约小越优先执行，该值一般设置为1000以内。

（5）爬虫运行：

我们运行爬虫项目，都是在终端中进行的：注意要在项目目录下进行！！！！

scrapy crawl itcast --nolog # 加上--nolog就会剔除掉日志信息，但是不会报错误信息

（6）数据建模：

通常在itens.py中进行数据建模

1. 为什么建模：

定义item即提前规划好哪些字段需要抓，防止手误，因为定义好之后，在运行过程中，系统会自动检查

配合注释一起可以清晰的知道要抓取哪些字段，没有定义的字段不能抓取，在目标字段少的时候可以使用字典代替

使用scrapy的一些特定组件需要ltem做支持，如scrapy的ImagesPipeline管道类，百度搜索了解更多

2. 如何使用建模：

就运行该文件！！！！

这就是检错！！！！！会提示你，字段写错了

注意：

在进行建模后，item是对象，对象，对象！！！！！

3. 如何使用建模：

模板类定义以后需要在爬虫中导入并且实例化，之后的使用方法和使用字典相同job.py:
# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html


# useful for handling different item types with a single interface
import json

from itemadapter import ItemAdapter

from myspider.items import MyspiderItem   # 导入Item，注意路径！！！
# 在导入之前，要将第一个myspider设置为source root！！！

class MyspiderPipeline:
    def __init__(self):
        self.file = open('itast.json', 'w')

    def process_item(self, item, spider):

        # 将itcast对象强转为dict！！！！
        item = dict(item)

        # 将字典数据序列化, ensure_ascii=False-->中文
        json_data = json.dumps(item, ensure_ascii=False) + '\n'

        # 将数据写入文件
        self.file.write(json_data)

        # 默认使用完管道后将数据返回给引擎！
        return item

    def __del__(self):
        self.file.close()   # 记得要关闭文件！！！！！
注意;

from myspider.items import Myepiderltem这一行代码中注意item的正确导入路径，忽略pycharm标记的错误

python中的导入路径要诀: 从哪里开始运行，就从哪里开始导入

4. 开发流程总结

创建项目
scrapy startproject 项目名

明确目标
在items.py文件中进行建模

创建爬虫
3.1创建爬虫： scrapy genspider 爬虫名允许的域
3.2完成爬虫：
修改start_urls
检查修改allowed_domains
编写解析方法

保存数锯
在pipelines.py文件中定义对数据处理的管
在settings.py文件中注册启用管道

（7）翻页请求的思路：

要提取如下图的所有页面上的数据该怎么办

回顾requests模块是如何实现翻页请求的：

找到下一页的URL地址
调用requests.get(url)

scrapy 实现翻页的思路：

找到下一页的url地址
构造url地址的请求对象，并传递给引擎

3. 请求对象：

（1）构造requests对象，并发送请求

确定url
构造请求，scrapy.Request(url, callback)
callback: 指定解析函数名称，表示该请求返回的响应使用哪一个函数进行解析
把请求交给引擎：
yield scrapy.Requsets(url, callback)

（2）scrapy.Requests的更多的参数

scrapy.Requests(url[, callback, mdthod='GET', headers, body, cookies, meta, dont_filter=False])

参数解释：

中括号里的参数为可选参数
callback: 表示当前的url的响应交给哪个函数去处理
meta: 实现数据在不同的解析函数中传递，meta默认带有部分数据，比如下载延迟，请求深度等（用于解析方法之间的数据传递，常用在一条数据分散在多个不同结构的页面中的情况）
dont_filter: 默认为False，会过滤请求的url地址，即请求过的url地址不会继续被请求，对需要重复请求的url地址可以把它设置为Ture，比如贴吧的翻页请求，页面的数据总是在变化;start_urls中的地址会被反复请求，否则程序不会启动
method: 指定POST或GET请求
headers: 接收—个字典,其中不包括cookies
cookies:接收一个字典,专门故置cookies
body: 接收json字符串，为POST的数据，发送payload_post请求时使用

补：meta参数的使用
meta的作用: meta可以实现数据在不同的解析函数中的传递

在爬虫文件的parse方法中，提取详情页增加之前callback指定的parse_detail函数:

def parse(self,response):
    ...
    yield scrapy.Request(detail_url，callback=self.parse_detail,meta=("item" :item})
    ...

def parse_detail(self, response) :
    #获取之前传入的item
    item = response.meta["item"]

import scrapy
from wanyi.items import WanyiItem
import re


class JobSpider(scrapy.Spider):
    name = 'job'
    allowed_domains = ['163.com']
    start_urls = ['https://hr.163.com/position/list.do']

    # cookis参数的使用，重写start_requests函数，这个函数在scrapy.Spider中
    def start_requests(self):
        url = self.start_urls[0]

        temp = '_ntes_nnid=1abfbc77f799fbae9d902316cb752b4c,1615031424593; _ntes_nuid=1abfbc77f799fbae9d902316cb752b4c; HR163=13fb983d6110c01684acb73a808b3af70c018ae2; NTEShrSI=08713F9EF4A912F8DC491B54678DDE9E.hzabj-new-rms3.server.163.org-8011; mp_versions_hubble_jsSDK=DATracker.globals.1.6.12.9; userName=; accountType='

        cookies = {data.split('=')[0]: data.split('=')[-1] for data in temp.split('; ')}
        # print('--------------', cookies)
        yield scrapy.Request(
            url=url,
            callback=self.parse,
            cookies=cookies
        )

    # 在parse中实现爬取逻辑
    def parse(self, response):
        # 获取所有职业节点
        node_list = response.xpath('//*[@class="position-tb"]/tbody/tr')

        # with open('wanyi.html', 'wb') as f:
        #     f.write(response.body)

        # 遍历所有职业节点，这里要间隔着运行，display：none属性的tr是详细内容
        for node in node_list[0::2]:

            item = WanyiItem()

            item['title'] = node.xpath('./td[1]/a/text()').extract_first()
            item['department'] = node.xpath('./td[2]/text()').extract_first()
            item['category'] = node.xpath('./td[3]/text()').extract_first()
            item['type'] = node.xpath('./td[4]/text()').extract_first()
            item['address'] = node.xpath('./td[5]/text()').extract_first()
            item['num'] = node.xpath('./td[6]/text()').extract_first().strip()
            item['time'] = node.xpath('./td[7]/text()').extract_first()
            item['link'] = 'https://hr.163.com/' + node.xpath('./td[1]/a/@href').extract_first()

            # 构建详情页请求
            yield scrapy.Request(
                url=item['link'],
                callback=self.parse_datail,
                meta={'item': item}
            )

        # 翻页
        # href="?currentPage=254"(有下一页时) ； javascript:void(0)（终止时）
        # 其实在这里，我们只需要更改curentPage的值就是对应多少页的url
        pre_url = response.xpath('/html/body/div[2]/div[2]/div[2]/div/a[9]/@href').extract_first()

        # 判断是否终止：
        if pre_url != 'javascript:void(0)':
            next_url = response.urljoin(pre_url)

            # 返回引擎：
            yield scrapy.Request(
                url=next_url,
                callback=self.parse
            )


    def parse_datail(self, response):
        item = response.meta['item']

        # 这里用正则表达式剔除所有非中文的字符！！！！
        describe = str(response.xpath('/html/body/div[2]/div[2]/div[1]/div/div/'
                                          'div[2]/div[1]/div').extract())
        require = str(response.xpath('/html/body/div[2]/div[2]/div[1]/div/div/'
                                         'div[2]/div[2]/div').extract())

        describe = re.sub('''[A-Za-z\<\>\[\]\=\-\'\"]''', '', describe).strip()
        require = re.sub('''[A-Za-z\<\>\[\]\=\-\'\"]''', '', require).strip()

        # 这里该补充的值补充完整！然后返回给引擎！
        item['describe'] = describe
        item['require'] = require
        yield item

特别注意:

meta参数是一个字典
meta字典中有一个固定的键proxy ，表示代理ip，关于代理ip的使用将在scrapy的下载中间件的学习中进行介绍

4. scrapy模拟登录

（1）回顾之前的模拟登陆的方法

1.1 requests模块是如何实现模拟登陆的?

直接携带cookies请求页面
找url地址，发送post请求存储cookie

1.2 selenium是如何模拟登陆的?

找到对应的input标签，输入文本点击登陆

1.3 scrapy的模拟登陆

直接携带cookies
找url地址，发送post请求存储cookie

（2）scrapy携带cookies直接获取需要登陆后的页面

应用场景：

cookie过期时间很长，常见于一些不规范的网站
能在cookie过期之前把所有的数据拿到
配合其他程序使用，比如其使用selenium把登陆之后的cookie获取到保存到本地，scrapy发送请求之前先读取本地cookie

实现:重构scrapy的starte_rquests方法：

scrapy中start_url是通过start_requests来进行处理的，其实现代码如下

# cookis参数的使用，重写start_requests函数，这个函数在scrapy.Spider中
    def start_requests(self):
        url = self.start_urls[0]

        temp = '_ntes_nnid=1abfbc77f799fbae9d902316cb752b4c,1615031424593; _ntes_nuid=1abfbc77f799fbae9d902316cb752b4c; HR163=13fb983d6110c01684acb73a808b3af70c018ae2; NTEShrSI=08713F9EF4A912F8DC491B54678DDE9E.hzabj-new-rms3.server.163.org-8011; mp_versions_hubble_jsSDK=DATracker.globals.1.6.12.9; userName=; accountType='

        cookies = {data.split('=')[0]: data.split('=')[-1] for data in temp.split('; ')}
        # print('--------------', cookies)
        yield scrapy.Request(
            url=url,
            callback=self.parse,
            cookies=cookies
        )

注意:

scrapy中cookie不能够放在headers中，在构造请求的时候有专门的cookies参数，能够接受字典形式的coookle
在setting中设置ROBOTS协议、USER_AGENT

（3）案例--网易招聘爬虫：

地址：https://hr.163.com/position/list.do

方法

5. scrapy.Requests发送post请求：

可以通过scrapy.Request()指定method、body参数来发送post请求;但是通常使用scrapy.FormRequest()来发送post请求

1. 发送post请求

注意:scrapy.FormRequest0)能够发送表单和ajax请求，
参考阅读: https://www.jb51.net/article/146769.htm

2. 思路分析

找到post的url地址:点击登录按钮进行抓包，然后定位url地址为https://github.com/session
找到请求体的规律:分析post请求的请求体，其中包含的参数均在前一次的响应中
否登录成功:通过请求个人主页，观察是否包含用户名

3. 代码实现如下:

import scrapy


class Git1Spider(scrapy.Spider):
    name = 'git1'
    allowed_domains = ['github.com']
    start_urls = ['http://github.com/login']

    def parse(self, response):
        # 从登录页面中解析出post表单数据,
        token = response.xpath('//*[@id="login"]/div[4]/form/input[1]/@value').extract_first()
        timestamp = response.xpath('//*[@id="login"]/div[4]/form/div/input[10]/@value') .extract_first()
        timestamp_secret = response.xpath('//*[@id="login"]/div[4]/form/div/input[11]/@value').extract_first()

        post_data = {
            'commit': 'Sign in',
            'authenticity_token': token,
            'login': 用户名,
            'password': 密码,
            'trusted_device': '',
            'webauthn-support': 'supported',
            'webauthn-iuvpaa-support': 'unsupported',
            'return_to': 'https://github.com/login',
            'allow_signup': '',
            'client_id': '',
            'integration': '',
            'required_field_be94': '',
            'timestamp': timestamp,
            'timestamp_secret': timestamp_secret
        }
        print(post_data)

        # 针对登录url发生post请求
        yield scrapy.FormRequest(
            url='https://github.com/session',
            callback=self.after_login,
            formdata=post_data
        )

    # 我们虽然post提交成功了，但是它并不会直接将GitHub登录后的页面发给我们，所以我们还要发送一个get请求
    def after_login(self, response):
        yield scrapy.Request(
            url='https://github.com/exile-morganna',
            callback=self.check
        )

    # 此时我们才登录完成，我们打印一下title验证是否登录成功！！！
    def check(self, response):
        # 正确输出应该是exile-morganna
        print(response.xpath('/html/head/title/text()').extract_first())

6. scrapy管道的使用：

（1）pipeline中常用的方法：

process_item(self, item,spide,:
管道类中必须有的函数。
实现对item数据的处理。
必须return item
open_spider(self,spider):在爬虫开启的时候仅执行一次
close_spider(self, spider):在爬虫关闭的时候仅执行一次

（2）管道文件的修改：

完善wanyi爬虫，代码如下：

这里是在wanyi项目基础上再创建一个job_simple爬虫

代码：

job.py:

import scrapy
from wanyi.items import WanyiItem
import re


class JobSpider(scrapy.Spider):
    name = 'job'
    allowed_domains = ['163.com']
    start_urls = ['https://hr.163.com/position/list.do']

    # cookis参数的使用，重写start_requests函数，这个函数在scrapy.Spider中
    def start_requests(self):
        url = self.start_urls[0]

        temp = '_ntes_nnid=1abfbc77f799fbae9d902316cb752b4c,1615031424593; _ntes_nuid=1abfbc77f799fbae9d902316cb752b4c; HR163=13fb983d6110c01684acb73a808b3af70c018ae2; NTEShrSI=08713F9EF4A912F8DC491B54678DDE9E.hzabj-new-rms3.server.163.org-8011; mp_versions_hubble_jsSDK=DATracker.globals.1.6.12.9; userName=; accountType='

        cookies = {data.split('=')[0]: data.split('=')[-1] for data in temp.split('; ')}
        # print('--------------', cookies)
        yield scrapy.Request(
            url=url,
            callback=self.parse,
            cookies=cookies
        )

    # 在parse中实现爬取逻辑
    def parse(self, response):
        # 获取所有职业节点
        node_list = response.xpath('//*[@class="position-tb"]/tbody/tr')

        # with open('wanyi.html', 'wb') as f:
        #     f.write(response.body)

        # 遍历所有职业节点，这里要间隔着运行，display：none属性的tr是详细内容
        for node in node_list[0::2]:

            item = WanyiItem()

            item['title'] = node.xpath('./td[1]/a/text()').extract_first()
            item['department'] = node.xpath('./td[2]/text()').extract_first()
            item['category'] = node.xpath('./td[3]/text()').extract_first()
            item['type'] = node.xpath('./td[4]/text()').extract_first()
            item['address'] = node.xpath('./td[5]/text()').extract_first()
            item['num'] = node.xpath('./td[6]/text()').extract_first().strip()
            item['time'] = node.xpath('./td[7]/text()').extract_first()
            item['link'] = 'https://hr.163.com/' + node.xpath('./td[1]/a/@href').extract_first()

            # 构建详情页请求
            yield scrapy.Request(
                url=item['link'],
                callback=self.parse_datail,
                meta={'item': item}
            )

        # 翻页
        # href="?currentPage=254"(有下一页时) ； javascript:void(0)（终止时）
        # 其实在这里，我们只需要更改curentPage的值就是对应多少页的url
        pre_url = response.xpath('/html/body/div[2]/div[2]/div[2]/div/a[9]/@href').extract_first()

        # 判断是否终止：
        if pre_url != 'javascript:void(0)':
            next_url = response.urljoin(pre_url)

            # 返回引擎：
            yield scrapy.Request(
                url=next_url,
                callback=self.parse
            )


    def parse_datail(self, response):
        item = response.meta['item']

        # 这里用正则表达式剔除所有非中文的字符！！！！
        describe = str(response.xpath('/html/body/div[2]/div[2]/div[1]/div/div/'
                                          'div[2]/div[1]/div').extract())
        require = str(response.xpath('/html/body/div[2]/div[2]/div[1]/div/div/'
                                         'div[2]/div[2]/div').extract())

        describe = re.sub('''[A-Za-z\<\>\[\]\=\-\'\"]''', '', describe).strip()
        require = re.sub('''[A-Za-z\<\>\[\]\=\-\'\"]''', '', require).strip()

        # 这里该补充的值补充完整！然后返回给引擎！
        item['describe'] = describe
        item['require'] = require
        yield item

job_simple.py:

就是对上面的改一下，不在进行职位信息详情的补充！！

import scrapy
from wanyi.items import WanyiSimpleItem

class JobSimpleSpider(scrapy.Spider):
    name = 'job_simple'
    allowed_domains = ['163.com']
    start_urls = ['https://hr.163.com/position/list.do']

    # cookis参数的使用，重写start_requests函数，这个函数在scrapy.Spider中
    def start_requests(self):
        url = self.start_urls[0]

        temp = '_ntes_nnid=1abfbc77f799fbae9d902316cb752b4c,1615031424593; _ntes_nuid=1abfbc77f799fbae9d902316cb752b4c; HR163=13fb983d6110c01684acb73a808b3af70c018ae2; NTEShrSI=08713F9EF4A912F8DC491B54678DDE9E.hzabj-new-rms3.server.163.org-8011; mp_versions_hubble_jsSDK=DATracker.globals.1.6.12.9; userName=; accountType='

        cookies = {data.split('=')[0]: data.split('=')[-1] for data in temp.split('; ')}
        # print('--------------', cookies)
        yield scrapy.Request(
            url=url,
            callback=self.parse,
            cookies=cookies
        )

    # 在parse中实现爬取逻辑
    def parse(self, response):
        # 获取所有职业节点
        node_list = response.xpath('//*[@class="position-tb"]/tbody/tr')

        # with open('wanyi.html', 'wb') as f:
        #     f.write(response.body)

        # 遍历所有职业节点，这里要间隔着运行，display：none属性的tr是详细内容
        for node in node_list[0::2]:
            item = WanyiSimpleItem()

            item['title'] = node.xpath('./td[1]/a/text()').extract_first()
            item['department'] = node.xpath('./td[2]/text()').extract_first()
            item['category'] = node.xpath('./td[3]/text()').extract_first()
            item['type'] = node.xpath('./td[4]/text()').extract_first()
            item['address'] = node.xpath('./td[5]/text()').extract_first()
            item['num'] = node.xpath('./td[6]/text()').extract_first().strip()
            item['time'] = node.xpath('./td[7]/text()').extract_first()
            item['link'] = 'https://hr.163.com/' + node.xpath('./td[1]/a/@href').extract_first()


        # 翻页
        # href="?currentPage=254"(有下一页时) ； javascript:void(0)（终止时）
        # 其实在这里，我们只需要更改curentPage的值就是对应多少页的url
        pre_url = response.xpath('/html/body/div[2]/div[2]/div[2]/div/a[9]/@href').extract_first()

        # 判断是否终止：
        if pre_url != 'javascript:void(0)':
            next_url = response.urljoin(pre_url)

            # 返回引擎：
            yield scrapy.Request(
                url=next_url,
                callback=self.parse
            )

pipeline.py:

这里的两个管道WanyiSimplePipeline和WanyiPipeline：都进行了是否是对应爬虫的判断，这样避免数据进入到非对应管道中造成数据混乱！！

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html


# useful for handling different item types with a single interface

from pymongo import MongoClient
import json

# 要启用管道，要先去setting里面将65行的注释去掉
class WanyiPipeline(object):
    # 启用管道时，说明此时的引擎返回的item是包含完整一条数据的

    def open_spider(self, spider):
        if spider.name == 'job':
            self.file = open('网易求职详细.json', 'a')

    def process_item(self, item, spider):
        if spider.name == 'job':
            # 要将item转化为dict
            item = dict(item)

            # 将Python的字典结构导出到json使用json.dumps() ，将json读成Python的字典结构，使用json.loads(), ensure_ascii=False显示中文的数据
            json_data = json.dumps(item, ensure_ascii=False) + '\n'
            self.file.write(json_data)

        return item

    def close_spider(self, spider):
        if spider.name == 'job':
            self.file.close()


class WanyiSimplePipeline(object):
    # 启用管道时，说明此时的引擎返回的item是包含完整一条数据的

    def open_spider(self, spider):
        if spider.name == 'job_simple':
            self.file = open('网易求职_simple.json', 'a')

    def process_item(self, item, spider):
        if spider.name == 'job_simple':
            # 要将item转化为dict
            item = dict(item)

            # 将Python的字典结构导出到json使用json.dumps() ，将json读成Python的字典结构，使用json.loads(), ensure_ascii=False显示中文的数据
            json_data = json.dumps(item, ensure_ascii=False) + '\n'
            self.file.write(json_data)

        return item

    def close_spider(self, spider):
        if spider.name == 'job_simple':
            self.file.close()

# 这里没有对爬虫进行判断，意味着将两爬虫的数据都写入到该数据库中
class MongoPipeline(object):
    def open_spider(self, spider):
        # 创建数据库连接对象
        self.client = MongoClient('192.168.50.129', 27017)

        # 选择一个数据库
        self.db = self.client['python_data']

        # 选择一个集合
        self.col = self.db['python_wanyi']

    # 将数据写入数据库
    def process_item(self, item, spider):
        # 注意将数据转化为dict
        data = dict(item)
        self.col.insert(data)
        return item

    def close_spider(self, spider):
        self.client.close()

setting.py:

就改了这几处！！

（3）开启管道：

在settings.py设置开启pipeline

ITEM_PIPELINES = {
   'wanyi.pipelines.WanyiPipeline': 300,
   'wanyi.pipelines.WanyiSimplePipeline': 301,
   'wanyi.pipelines.MongoPipeline': 302,
}
# 权重值越小。越优先执行!

别忘了开启mongodb数据库sudo service mongodb start并在mongodb数据库中查看mongo思考:在settings中能够开启多个管道，为什么需要开启多个?

不同的pipeline可以处理不同爬虫的数据，通过spider.name属性来区分
不同的pipeline能够对一个或多个爬虫进行不同的数据处理的操作，比如一个进行数据清洗，一个进行数据的保存
同一个管道类也可以处理不同爬虫的数据，通过spider.name属性来区分

（4）pipeline使用注意点

使用之前需要在settings中开启
pipeline在setting中键表示位置(即pipeline在项目中的位置可以自定义)，值表示距离引擎的远近，越近数据会越先经过: 权重值小的优先执行
有多个pipeline的时候，process_item的方法必须return item，否则后一个pipeline取到的数据为None值
pipeline中process_item的方法必须有，否则item没有办法接受和处理
process_item方法接受item和spider，其中spider表示当前传递item过来的spider
open_spider(spider): 能够在爬虫开启的时候执行一次
close_spider(spider)：能够在爬虫关闭的时候执行一次
上述俩个方法经常用于爬虫和数据库的交互，在爬虫开启的时候建立和数据库的连接，在爬虫关闭的时候断开和数据库的连接

小结：

管道能够实现数据的清洗和保存，能够定义多个管道实现不同的功能，其中有个三个方法 *process_item(self, item,spider):实现对item数据的处理
*open_spider(sellf, spider):在爬虫开启的时候仅执行一次
*close_spider(self, spider):在爬虫关闭的时候仅执行一次
*start_urls中的url地址是交给start_request处理的，如有必要，可以重写start_request函数 *直接携带cookie登陆:cookie只能传递给cookies参数接收
*scrapy.Request0发送post请求

7.另外一种爬虫类--crawlspider

继承自 Spider 爬虫类，自动根据提取链接并且发送给引擎

它的应用面更窄，但是性能却更好！！

（1）创建crawlspider 爬虫

scrapy genspider -t crawl name domians
和创建一般爬虫类似，加了 -t crawl

代码：

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class ItcastSpider(CrawlSpider):
    name = 'itcast'
    allowed_domains = ['itcast.com']
    start_urls = ['http://itcast.com/']

    # 链接提取规则
    rules = (
        # LinkExtractor用于设置链接提取规则，一般使用allow参数，接收正则表达式
        # follow参数决定是否在链接提取器提取的链接对应的响应中继续应用链接提取器提取链接（套娃）
        # 使用Rule类生成链接提取规则对象
        Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True),
    )

    def parse_item(self, response):
        item = {}
        #item['domain_id'] = response.xpath('//input[@id="sid"]/@value').get()
        #item['name'] = response.xpath('//div[@id="name"]').get()
        #item['description'] = response.xpath('//div[@id="description"]').get()
        return item

注意：

cralspider经常应用于数据在一个页面上进行采集的情况，如果数据在多个页面上采集，这个时候通常使用spider

8. scrapy中间件的使用：

（1）scrapy中间件的分类和使用：

1.1 scrapy中间件的分类

根据scrapy运行流程中所在位置不同分为:

下载中间件

爬虫中间件

1.2 scrapy中间的作用: 预处理request和response对象

对header以及cookie进行更换和处理

使用代理ip等

队请求进行定制化操作，

但在scrapy默认的情况下两种中间件都在middllewares.py一个文件中

爬虫中间件使用方法和下载中间件相同，且功能重复，通常使用下载中间件，爬虫中间件基本不用

（2）下载中间件的使用方法：

1. 在middleware.py中定义中间件类：

2. 在Downloader Middlewares类中重写处理请求或响应的方法：

process_request(self, request, spider):---通常写的更多

当每个request通过下载中间件时，该方法被调用。

返回None值: 没有return也是返回None，该request对象传递给下载器，或通过引擎传递给其他权重低的process_request方法

返回Response对象: 不再请求，把response返回给引擎

返回Request对象︰把request对象通过引擎交给调度器，此时将不通过其他权重低的process_request方法

process _response(self, request, response, spider) :

当下载器完成http请求，传递响应给引擎的时候调用

返回Resposne：通过引擎交给爬虫处理或交给权重更低的其他下载中间件的process_response方法

返回Request对象：通过引擎交给调取器继续请求，此时将不通过其他权重低的process_request方法

3. 在settings.py中配置开启中间件，权重值越小越优先执行（同管道的注册使用）

（3）定义实现随机User-Agent的下载中间件---豆瓣实例

1. 在middlewares.py中完善代码：

如下：
import random
from Douban.setting import USER_AGENT_LIST


# 定义一个中间类
class RandomUserAgent:
    def process_requset(self, request, spider):
        
        ua = random.choice(USER_AGENT_LIST)
        request.headers['User=-Agent'] = ua
2. 在setting.py中设置User-Agent列表并开启自定义的下载中间件，设置方法同管道设置类似

（4）代理ip的使用：

1. 思路分析：

代理添加的位置:request.meta中增加 proxy 字段
获取一个代理ip，赋值给request.meta['proxy']
*代理池中随机选择代理ip
*代理ip的webapi发送请求获取一个代理ip

2. 具体实现

在middlewares.py中添加类：

import random
from Douban.setting import USER_AGENT_LIST
from Douban.setting import PROXY_LIST
import base64

# 定义一个中间类
class RandomUserAgent:
    def process_requset(self, request, spider):

        ua = random.choice(USER_AGENT_LIST)
        request.headers['User=-Agent'] = ua

class RandomProxy:
    def process_request(self, request, spider):
        proxy = random.choice(PROXY_LIST)

        # 验证是否需要账号密码（独享ip）
        if 'user_passwd' in proxy:
            # 对账号密码进行编码
            b64_up = base64.b64erjode(proxy['user_passwd'].encode())
            # 设置认证
            request.headers['Proxy-Authorization'] = 'Basic ' + b64_up.decode() # 注意Basic后有一个空格
            # 设置代理
            request.meta['proxy'] = proxy['ip_port']
        else:  # 共享ip
            # 设置代理：
            request.meta['proxy'] = proxy['ip_port']

在setting.py中设置：

（5）动态加载selenium：

1. 什么时候需要用到动态加载：

当我们需要的数据在elements中的，但是我们的response里面并没有改数据时，说明该数据是浏览器得到response后渲染生成的，此时我们就需要下载中间件

2. 代码：一般都是固定的：

import time
from selenium import webdriver
from scrapy.http import HtmlResponse
from scrapy import signals

class SeleniumMiddleware:
    def process_request(self, request, spider):
        url = request.url

        if 'davdata' in url:     # 这里是判断get那条url时，需要对response的数据进行渲染！！
            driver = webdriver.Chrome()

            driver.get(url)

            # 为了防止渲染为完成就进行数据的提取，让程序睡眠一下：
            time.sleep(3)   # 具体数值看网速！

            data = driver.page_source  # 得到渲染后的源码！！

            # 创建响应对象
            res = HtmlResponse(url=url, body=data, encoding='utf-8', request=request)

            # 这里返回只能是三种数据None、request、response
            # 所以不能用yield，yield返回的是生成器
            return res

注意：

我们写的中间件属于那种中间件，是下载中间件还是爬虫中间件！！！
写完中间件后要去setting.py中启用！！！

你可能感兴趣的:(mongodb,爬虫,python)

Flink启动任务 swg321321 flink 大数据
Flink以本地运行作为解读例如：第一章Python机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Flink前言StreamExecutionEnvironmentLocalExecutorMiniClusterStreamGraph二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发
17.1Go语言操作MongoDB chxii go语言 #go 基础 golang mongodb 开发语言
驱动安装gogetgo.mongodb.org/mongo-driver/mongo基础连接示例packagemainimport("context""fmt""log""time""go.mongodb.org/mongo-driver/mongo""go.mongodb.org/mongo-driver/mongo/options")funcmain(){//设置客户端选项clientOpti
python中Flask模块的使用 weixin_30315905 python json
1.简介在服务器上运行Flask接口，就能使用requests模块获取该接口的值。先运行接口文件，再运行requests文件，即可获取值。2.示例2.1一个简单的flask接口1importjson2fromflaskimportFlask,request34#python类型5data={6'name':'John',7'age':18,8'location':'nanjing'910}1112
计算机专业毕业设计题目推荐（新颖选题）本科计算机人工智能专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计人工智能毕业设计毕设题目毕业设计题目 ai AI编程
文章目录前言最新毕设选题（建议收藏起来）本科计算机人工智能专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能
python中的静态方法绛洞花主敏明 python
问题：pycharm中建立新的方法，出现如下的警告：在python中建立类一般使用如下的方法：classDog(object):defrun(self):print("running")run方法是类中的普通方法声明和创建静态方法，在方法上加上staticmethod注明一下classDog(object):@staticmethoddefrun(self):print("running")如下的
一文弄懂Python 变量初始化与内存管理宇寒风暖 python编程 python 开发语言笔记学习
在Python中，变量的初始化并不一定会开辟新的内存空间。Python的内存管理机制非常灵活，它会根据变量的值、类型以及Python的内部优化策略来决定是否复用已有的内存空间。1.变量初始化的基本概念在Python中，变量是对象的引用。当你初始化一个变量时，Python会执行以下操作：创建一个对象（如果该对象不存在）。将变量名绑定到该对象。例如：a=10b="hello"a是一个整数对象的引用。b
python静态方法_Python静态方法 cunchi4221 python java 深度学习设计模式 javascript ViewUI
python静态方法Python静态方法(Pythonstaticmethod)Inthisquickpost,wewilllearnhowtocreateanduseaPythonstaticmethod.Wewillalsohavealookatwhatadvantagesanddisadvantagesstaticmethodsofferascomparedtotheinstancemeth
python中的类方法，静态方法，对象方法 a174817529
原文地址：http://blog.chinaunix.net/uid-26602509-id-3087296.htmlclassA:count=100def__init__(self,instancedata):self.instancedata=instancedata@staticmethod#静态方法不能访问类参数和实例参数defsm():print"sm"@classmethod#类方法不
Python 静态方法和类方法 a540366413 Python python
静态方法我们知道在其他语言中静态方法一般使用static修饰，静态方法的主要特点是不需要new出对象，直接通过类名就可以访问，也可以通过对象访问。需要使用staticmethod装饰器装饰方法举例：classA:@staticmethoddefstaticfunc():print("A")A.staticfunc()#A类方法类方法和静态方法类似，也可以直接通过类名访问，不过要使用classmet
Python静态方法 Frank_Yee python
在Python中，静态方法是一种不会自动接收类（cls）或实例（self）作为第一个参数的方法。它可以通过类直接调用，而不需要类的实例。静态方法通常用于实现与当前类的对象状态无关的功能，或者提供一些通用的工具函数。一、使用场景1.工具函数：当方法不需要访问对象属性或类属性时，可以将其定义为静态方法。2.常量类：有时候，你可能需要一个类仅仅作为一个容器，用来存储常量。3.工厂方法：在某些情况下，你可
【机器学习】建模流程 CH3_CH2_CHO 什么？！是机器学习！！机器学习人工智能线性回归逻辑回归
1、数据获取1.1来源数据获取是机器学习建模的第一步，常见的数据来源包括数据库、API、网络爬虫等。数据库是企业内部常见的数据存储方式，例如：MySQL、Oracle等关系型数据库，以及MongoDB等非关系型数据库，它们能够存储大量的结构化和非结构化数据API（应用程序编程接口）提供了从外部获取数据的便捷方式，例如：社交媒体平台的API可以获取用户发布的内容和互动信息网络爬虫则适用于从网页中提取
day11 学习笔记豆豆学习笔记 python
文章目录前言一、类方法二、静态方法三、构造方法四、魔术方法前言通过今天的学习，我掌握了更多Python中有关面向对象编程思想中方法的概念与操作，包括类方法，静态方法，构造方法，魔术方法一、类方法类方法是属于类的行为，一般使用类而非对象进行调用类方法需要使用@classmethod装饰器定义类方法至少有一个形参用于绑定类，约定为cls类和该类的实例都可以调用类方法，但一般不用实例进行调用类方法不能访
Python 正则表达式小结1 大收藏家 Python 正则表达式 python
[声明]：本文参考了白夜黑雨老师的网页讲解。如有侵权，请与我联系！！！Python正则表达式小结11.正则表达式验证2.特殊元字符及含义3匹配某种字符类型4.正则表达式举例大收藏家说1.正则表达式验证提供两个网站用于正则表达式的验证，可以敲入文本与正则表达式。通过该网站，验证正则表达式的正确性。非常好用！英文网站中文网站2.特殊元字符及含义元字符含义.表示要匹配除了换行符之外的任何单个字符*星号-
python离线语音转文本_使用Python将语音转换为文本的方法 weixin_39760619 python离线语音转文本
使用Python将语音转换为文本的方法,语音,转换为,文本,您的,麦克风使用Python将语音转换为文本的方法易采站长站，站长之家为您整理了使用Python将语音转换为文本的方法的相关内容。语音识别是计算机软件识别口语中的单词和短语，并将其转换为可读文本的能力。那么如何在Python中将语音转换为文本？如何使用SpeechRecognition库在Python中将语音转换为文本？我们不需要从头开始
Open-Sora - 为所有人实现高效的视频制作大众化小众AI AI开源音视频人工智能 AI编程
GitHub：https://github.com/hpcaitech/Open-Sora更多AI开源软件：发现分享好用的AI工具、AI开源软件、AI模型、AI变现-小众AI这是一款开源的SOTA（State-of-the-Art）视频生成模型，仅用20万美元（224张GPU）就能训练出商业级11B参数的视频生成大模型。它采用Python语言和PyTorch深度学习框架开发，具有生成速度快、资源消
8、Python 字符串处理与正则表达式实战指南 wolf犭良 python python 正则表达式
Python字符串处理与正则表达式实战指南文章概述本文深入探讨Python字符串处理核心方法与正则表达式实战技巧，涵盖字符串编码转换、分割替换、正则表达式语法精髓，并通过日志解析、数据清洗等真实场景案例展示高阶应用。最后提供10道阶梯式练习题（附完整答案代码），助你从基础到进阶全面掌握文本处理技能。一、字符串处理核心三剑客1.1编码转换（encode/decode）text="中文文本"utf8_
deepseek api参数详解孽小倩大语言模型 python java 前端人工智能 deepseek
deepseek的参数与openai保持兼容，所以openai能用的参数deepseek都可以使用，以下是常用的参数介绍。在使用Deepseek/OpenAI的PythonAPI时，最常用的API端点是chat/completions，用于调用deepseek生成文本对话内容。以下是openai.ChatCompletion.create()方法的主要参数及其作用：1.model作用：指定使用的模
算法基础——蓝桥杯（python实现，实际上大多数用c++更明白易懂）（第一部分，共12个小题） New_Teen 算法蓝桥杯 python
1.成绩统计问题描述:编写一个程序，建立一个字典，每个字典包含姓名、学号、英语成绩、数学成绩和C++成绩，并通过字典操作平均分最高的学生和平均分最低的学生并且输出。输入格式：输入n+1行，第一行输入一个正整数n，表示学生数量；接下来的n行每行输入5个数据，分别表示姓名、学号、英语成绩、数学成绩和C++成绩。注意成绩有可能会有小数。输出格式：输出两行，第一行输出平均成绩最高的学生姓名。第二行输出平均
Python（正则表达式）羡江007 Python进阶 python 正则表达式开发语言
re模块#在Python中需要通过正则表达式对字符串进行匹配的时候，可以使用一个re模块'''re模块三步走#第一步：导入re模块importre#第二步：使用match方法进行匹配操作result=re.match(pattern正则表达式,string要匹配的字符串,flags=0)#第三步：如果数据匹配成功，使用group方法来提取数据result.group()re.match(patte
Ubuntu20.04安装并配置Pycharm2020.2.5 搬砖的打工人!!! ubuntu pycharm python
一.下载pycharm社区版1.下载地址：PyCharm:thePythonIDEfordatascienceandwebdevelopmentThePythonIDEfordatascienceandwebdevelopmentwithintelligentcodecompletion,on-the-flyerrorchecking,quick-fixes,andmuchmore.https:/
使用python中you-get库实现下载网抑云瞎老弟 python python 音视频爬虫
WYY音乐下载前言代码实现使用说明前言前几天，我做了b站视频的下载，有好兄弟表示，只下载视频，不能够让人满足，我还希望能够下载网易云的音乐。上一次在我发布的b站视频下载中，使用了you-get库作为下载方式，但是实际上，这个库也可以下载网易云音乐，因此，我们只需要参考我们上次的b站视频下载，简单的进行一下修改，就可以完成音乐的下载了。为了能够更加方便的批量下载音乐，这里采用了“按艺术家“的下载方式
Python用Pyqt5制作音乐播放器 Aix959 python 开发语言
具体效果如下需要实现的功能主要的几个有：1、搜索结果更新至当前音乐的列表，这样播放下一首是搜素结果的下一首2、自动播放3、滚动音乐文本4、音乐进度条5、根据实际情况生成音乐列表。我这里的是下面的情况，音乐文件的格式是歌名_歌手.mp3所以根据需求修改find_mp3_files方法，我这里返回的是[{"path":音乐文件路径,"music":歌名,"singer":歌手},{"path":音乐文
使用vscode远程连接linux运行项目报错解决方案大数据lsy 笔记 vscode linux python
报错：subprocess.CalledProcessError:Command'['/xxx/anaconda3/envs/graphinvent/bin/python','./graphinvent/main.py','--job-dir','/xxx/GraphINVENT/output_gdb13_1K/example/job_0/']'returnednon-zeroexitstatus
代码管理工具——SVN weixin_33728708 git 开发工具 python
2019独角兽企业重金招聘Python工程师标准>>>SVN版本控制的作用：记录若干文件内容变化，以便将来查阅特定版本修订情况。版本管理工具发展简史，cvs-->svn-->Git（参考：http://luckypoem14.github.io/test/2012/04/24/scm-history/）。svn全称subversion，是一个开源版本控制系统（C/S架构），始于2000年；git（
jieba库词频统计_jieba分词器（应用及字典的补充）及文档高频词提取实战袁圆园建建 jieba库词频统计
jieba分词器是Python中最好的中文分词组件，本文讲解一下jieba分词器及其应用。1、jieba分词器的分词模式jieba分词器提供了三种常用的分词模式1、精确模式：将句子按照最精确的方法进行切分，适合用于进行文本分析；2、全模式：将句子当中所有可以成词的词语都扫描出来，分词速度很快但容易产生歧义；3、搜索引擎模式：在精确模式分词的基础上，将长的句子再次进行切分，提高召回率，适用于搜索引擎
【LeetCode 热题 100】3. 无重复字符的最长子串 | python 【中等】一只小白跳起来 leetcode java 算法开发语言
美美超过管解题目：3.无重复字符的最长子串给定一个字符串s，请你找出其中不含有重复字符的最长的长度。示例1:输入:s="abcabcbb"输出:3解释:因为无重复字符的最长子串是"abc"，所以其长度为3。注意：考虑空字符串问题有重复之后要在重复的那个后面新建序列，减少时间，故需要列表储存（标准做法里用的集合捏）标准做法：把重复的set.remove（），a指针步进，没有重复的话，b指针一直步进怎
并发爬虫实战：多线程高效抓取王者荣耀全英雄皮肤 YiFoEr_Liu 爬虫案例实操爬虫部署 python 爬虫 python 大数据
一、场景与挑战在网络爬虫开发中，我们常常面临以下挑战：需要处理成百上千个页面的数据抓取目标服务器存在反爬机制和请求频率限制单线程模式下载效率低下，难以充分利用带宽本文以王者荣耀英雄皮肤下载为例（日访问量超过1亿的热门游戏），演示如何通过Python并发编程实现高效数据抓取。二、技术选型分析2.1为什么选择并发线程？I/O密集型场景：网络请求占比90%以上GIL限制：Python线程适合I/O密集型
使用提示词进行信息抽取的实用方法 scaFHIO windows python
在大规模语言模型（LLM）中进行信息抽取时，我们不一定需要工具调用功能。通过精心设计的提示词（prompt）可以指导模型输出特定格式的信息，然后对其进行解析以生成结构化数据。这种方法依赖于创建良好的提示词，并将LLM的输出解析为所需的Python对象。技术背景介绍大规模语言模型可以根据提示词生成特定格式的文本。例如，我们可以要求模型以JSON格式输出所需的信息。在信息抽取的场景中，设计良好的提示词
深入解析Python测试框架pytest 一休哥助手 python python pytest 开发语言
目录引言pytest简介安装与配置安装pytest配置pytest基础用法编写测试用例运行测试用例测试结果报告
怎么进入python 的venv文件夹_python虚拟环境模块venv使用及示例 weixin_39796140 怎么进入python 的venv文件夹
相信只要学习python的同学对于虚拟环境这个概念肯定不会太陌生，虚拟环境指的是一个个单独隔离的python开发环境。各个虚拟环境之间互不干扰，都有自己独立的开发包。就像是在电脑上装了很多个虚拟机，每个虚拟机里面你随便折腾，不会影响到物理机，也不会影响到其他虚拟机。既然这么有用，那么Python里面用来创建虚拟环境的模块virtualenv是怎么使用的呢？我们一起来看一下。virtualenv基本
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地