Joyceyang_999

Scrapy豆瓣爬虫爬取用户以及用户关注关系

文章目录

明确任务
1.新建mysql数据库以及数据表

1.1 创建数据库
1.2 创建用户信息表users
1.3 创建用户关注表user_follows

笔记一： mysql中utf8与utf8mb4字符编码
笔记二：mysql中的排序规则

2.PyCharm搭建Scrapy爬虫项目

2.1 创建一个Scrapy工程

笔记三：scrapy基本命令

创建项目
运行项目
开始爬虫
控制台暂停和终止爬虫

笔记四：scrapy工程目录结构解析
笔记五：scrapy框架的组成
笔记六：scrapy爬取过程理解

2.2 实现爬取用户关注列表并用文件存储个人关注的用户的主页地址

2.2.1 python模拟登录豆瓣
2.2.2 编写database.py
2.2.3 爬取用户主页地址并保存到文件中
笔记七：两种html标签解析方式（BeautifulSoup、Xpath）的比较
笔记八：python中BeautifulSoup的使用

示例
几种解析器比较

笔记九：python中Xpath的使用

Xpath表达式
函数xpath()的返回值

笔记十：python中拼接字符串

方法一：采用占位符%s
方法二：+连接

笔记十一：python中的文件的常用操作

文件的读写模式含义
将字符串按行存入文本
从文本中按行读出字符串
判断文件夹是否存在
判断文件是否存在

2.3 实现scrapy框架爬取用户个人主页并存放在mysql数据库中

2.3.1 编写items.py
2.3.2 编写user_info_spider.py

1）Scrapy框架中实现豆瓣登录请求
2）按用户主页地址爬取用户信息

2.3.3 修改user_info_spider.py
笔记十二：python包中类的使用
笔记十三：调试方法

方法一：print()
方法二：logger.info()

笔记十四：python中正则表达式的使用

2.4 实现保存用户信息到数据库

2.4.1 编写pipeline.py文件

1）获得用户
2）插入用户
3）更新用户
4）完整代码

笔记十五：pymysql对数据库的查插删改

建立数据库连接
查询
插入
删除
修改

2.5 实现保存用户关注关系到数据库

2.5.1 编写items.py
2.5.2 编写save_user_follow.py

2.6 后期优化

2.6.1 部分账户被冻结

参考项目：基于 Python3 的豆瓣电影/豆瓣读书 Scarpy 爬虫，实现封面下载+元数据抓取+评论入库+IP 代理池

明确任务

1.建立user数据表以及user_follow数据表
2.将豆瓣一个用户所关注用户的豆瓣id、头像url爬取到user数据库，并将对应的关注关系存至user_follow数据库

1.新建mysql数据库以及数据表

1.1 创建数据库

CREATE DATABASE db_douban;

1.2 创建用户信息表users

CREATE TABLE users(
	id int(10) unsigned NOT NULL AUTO_INCREMENT,
	douban_id int(10) unsigned NOT NULL DEFAULT '0',
	nickname varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci NOT NULL DEFAULT '',
	head_thumb varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci NOT NULL DEFAULT '',
	created_at timestamp NOT NULL DEFAULT '0000-00-00 00:00:00',
	update_at timestamp NOT NULL DEFAULT '0000-00-00 00:00:00',	
	PRIMARY KEY(id)
)ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci;

1.3 创建用户关注表user_follows

CREATE TABLE user_follows(
	user_id int(10) unsigned NOT NULL,
	user_follow_id int(10) unsigned NOT NULL,
	FOREIGN KEY(user_id) REFERENCES users(id),
	FOREIGN KEY(user_follow_id) REFERENCES users(id),
	PRIMARY KEY(user_id,user_follow_id)
)ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci;

笔记一： mysql中utf8与utf8mb4字符编码

utf8mb4比utf8多一个字节用于存放emoji表情编码,仅在mysql 5.5.3 版本以后的才支持。使用时请使用utf8mb4。 mysql字符集 utf8 和utf8mb4 的区别

笔记二：mysql中的排序规则

utf8mb4_general_ci 和utf8mb4_unicode_ci均为排序规则。utf8mb4_unicode_ci比较准确，utf8mb4_general_ci速度比较快。通常使用utf8mb4_general_ci的准确性足够。

在创建数据库时指定字段的COLLATE属性可以指定排序规则，告知mysql如何对该列进行排序和比较。MYSQL中的COLLATE是什么？

2.PyCharm搭建Scrapy爬虫项目

2.1 创建一个Scrapy工程

具体步骤

在当前工作空间路径输入scrapy startproject MyDouBan并运行

可以看到该工程已经建立在本地路径之中

打开该工程可以看到之前所生成的文件结构

该工程已创建完成。

笔记三：scrapy基本命令

官方文档：Scrapy 1.8 documentation

创建项目

scrapy startproject MyDouBan

运行项目

scrapy runspider test.py

开始爬虫

scrapy crawl book_subject

控制台暂停和终止爬虫

暂停：一次ctrl+c
终止：连续按两次ctrl+c

笔记四：scrapy工程目录结构解析

spiders文件夹：用于放自己编写的爬虫文件

items.py：存放自定义实体，用于存储爬取的数据

middlewares.py：中间件（待理解！）

pipelines.py：对spiders中爬虫的返回的数据的处理，可以让写入到数据库，也可以让写入到文件

settings.py：爬虫过程的核心配置文件

scrapy.cfg：配置文件

笔记五：scrapy框架的组成

引擎(Scrapy)
用来处理整个系统的数据流处理, 触发事务(框架核心)

调度器(Scheduler)
用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址

下载器(Downloader)
用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy下载器是建立在twisted这个高效的异步模型上的)

爬虫(Spiders)
爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面

项目管道(Pipeline)
负责处理爬虫从网页中抽取的实体，主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后，将被发送到项目管道，并经过几个特定的次序处理数据。

下载器中间件(Downloader Middlewares)
位于Scrapy引擎和下载器之间的框架，主要是处理Scrapy引擎与下载器之间的请求及响应。

爬虫中间件(Spider Middlewares)
介于Scrapy引擎和爬虫之间的框架，主要工作是处理蜘蛛的响应输入和请求输出。

调度中间件(Scheduler Middewares)
介于Scrapy引擎和调度之间的中间件，从Scrapy引擎发送到调度的请求和响应。

笔记六：scrapy爬取过程理解

引擎从调度器中获得一个链接(URL)

引擎把该URL封装成一个请求(Request)传给下载器

下载器将资源下载下来，并封装成应答包(Response)

爬虫解析Response

1）解析出实体（Item）,则交给实体管道进行进一步的处理
2）解析出的是链接（URL）,则把URL交给调度器等待抓取

管道将实体信息存储到数据库中

2.2 实现爬取用户关注列表并用文件存储个人关注的用户的主页地址

本来打算访问用户关注列表然后将关注页面中的头像和昵称还有豆瓣id写入users表，然后把关注关系写入user_follows表
通过关注用户关注页面部分用户的个人主页并不包含豆瓣ID，遇见了问题二，由于保存用户信息以及用户关注情况均需要豆瓣ID作为豆瓣身份的唯一标识，也就相当于我们这用户的唯一标识，所以未获得豆瓣ID后续操作无法执行。

解决问题二的时候转变了最开始的思路，采用文件将关注用户的个人主页地址存储起来，然后通过访问个人主页地址获得豆瓣ID以及用户信息

2.2.1 python模拟登录豆瓣

问题一：请求用户关注列表需要登录

在第一次访问时需要登录，之后可以根据登录后的cookie访问。由于cookie隔一段时间会清空，因此在cookie失效后仍要重新登录。

解决思路
参考：Python登录豆瓣并爬取影评

获得豆瓣登录请求的url，然后把用户名和密码作为参数传输，实现模拟登录

利用cookie保存会话状态

具体步骤

1.查看豆瓣网登录请求信息

通过豆瓣登录界面，发现登录成功，由于页面跳转而捕捉不到请求。故输错密码，然后登录，可以看到登录的请求内容，包括登录请求的URL：https://accounts.douban.com/j/mobile/login/basic
以及name和password属性

2.利用session提交登录请求保存请求的cookie

如果发送了一个错误请求(一个 4XX 客户端错误，或者 5XX 服务器错误响应)，可以通过 Response.raise_for_status() 来抛出异常：如果状态码为200，或者302则调用 raise_for_status() 得到的是None

import requests
# 生成Session对象，用于保存Cookie
session = requests.Session()

#登录豆瓣，1登录成功，0登录失败
def login_douban():
   # 登录URL
   login_url = 'https://accounts.douban.com/j/mobile/login/basic'
   # 请求头
   headers = {
       'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36',
       'Referer': 'https://accounts.douban.com/passport/login?source=main'
   }
   # 传递用户名和密码
   data = {'name': '用户名',
           'password': '密码',
           'remember': 'false'}
   try:
       response = session.post(login_url, headers=headers, data=data)
       response.raise_for_status() #抛出错误请求异常
   except:
       print('登录请求失败')
       return 0
   print(response.text) # 打印请求结果
   return 1

3. 判断是否为登录页面

如果未登录，通过session请求豆瓣个人关注用户链接则会转到登录界面；如果登录后长时间未操作，也需要重新登录
可以通过BeautifulSoup解析页面判断找class=login-right的标签是否存在，来判断是否为登录界面，如果是登录页面则请求登录执行login_douban()

from bs4 import BeautifulSoup
import os
if __name__ == '__main__':
   users = get_users()
   for user in users:
       douban_id = user['douban_id']
       filepath = '../storage/userFollow/' + '%s' % douban_id + '.txt'
       print(filepath)
       if not os.path.exists(filepath):
           #用户全部关注人链接
           url = 'https://www.douban.com/people/%s/contacts/' % user['douban_id']
           print(url)
           headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36'}
           response = session.get(url=url,headers=headers)
           #BeautifulSoup解析页面
           content = BeautifulSoup(response.text,"html5lib")
           #获得当前登录状态
           IF_LOGIN = content.find('div', class_='login-right')
           if IF_LOGIN == None: #已登录
               print('已登录')
           else: #未登录（cookie失效或者第一次登录）
               print('登录')
               login_douban()

4.运行结果

第一次运行的时候需要登录，而第二次运行的时候不需要登录

2.2.2 编写database.py

编写database.py 用于连接数据库

import pymysql

MYSQL_DB = 'db_douban' #数据库名称
MYSQL_USER = 'root' #用户名
MYSQL_PASS = '123456' #密码
MYSQL_HOST = 'localhost' #本地数据库

connection = pymysql.connect(host=MYSQL_HOST, user=MYSQL_USER,
                             password=MYSQL_PASS, db=MYSQL_DB,
                             charset='utf8mb4',
                             cursorclass=pymysql.cursors.DictCursor)

2.2.3 爬取用户主页地址并保存到文件中

问题二：用户主页地址的格式不一致无法直接获得豆瓣id

用户关注列表中很多用户主页的Url并不是直接包含该用户的豆瓣id
一般用户的主页：https://www.douban.com/people/1008662/，其中的数字为用户的豆瓣id
例如刘未鹏大大的主页：https://www.douban.com/people/pongba/
所以不能直接通过主页地址获得用户关注用户的豆瓣id

解决思路

直接将用户的主页地址存储下来，然后根据主页地址从用户主页关注此人处获得用户豆瓣id

但是我们还需要存储用户关注的关系，如果仅存用户主页地址无法体现出关系
想法一：用一个以豆瓣id命名的txt文件按行存入用户主页地址。一个文件代表一个用户的关注信息。这样根据数据库里的用户id可以得到该用户所关注用户的主页地址。并根据这些地址主页获得豆瓣id、用户名称、加入时间、用户头像存入user数据表，~~同时将关注关系写入user_follow关系表~~ （本来打算在类中弄一个user_url全局变量，用于存放当前爬取的地址，但是发现请求和爬取并非一一对应，请求要快于爬取，故这个全局变量只能表示最后请求的url，这样不行），保存完用户数据后再遍历一遍文件，根据文件名在数据库找到用户id，根据文件中的url在数据库中找到对应的被关注者的id，添加关注关系

具体步骤

1.保存用户主页地址

将个人全部关注页面的用户url写入/storage/userFollow/豆瓣id.txt文件中
首先要在工程目录下创建对应路径的文件，然后运行代码
我们要提取的用户关注列表如图所示，由于上述的BeautifulSoup寻找标签仍然不够方便，故将这页面解析部分全部改成了Xpath解析器。通过xpath('//div[@class="article"]/dl[@class="obu"]/dd/a/@href')获得链接
事先在users数据表中存储了两个用户的信息，然后将这两个用户的关注用户URL爬取下来

2.编写user_follow.py文件

import os
import MyDouBan.database as db
import requests
from lxml import etree

#获得连接数据库的游标
cursor = db.connection.cursor()

# 生成Session对象，用于保存Cookie
session = requests.Session()

#登录豆瓣，1登录成功，0登录失败
def login_douban():
   # 登录URL
   login_url = 'https://accounts.douban.com/j/mobile/login/basic'
  # 请求头
  headers = {
       'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36',
       'Referer': 'https://accounts.douban.com/passport/login?source=main'
   }
   # 传递用户名和密码
   data = {'name': '用户名',
           'password': '密码',
           'remember': 'false'}
   try:
       response = session.post(login_url, headers=headers, data=data)
       response.raise_for_status() #抛出错误请求异常
   except:
       print('登录失败')
       return 0
   print('登录成功') # 打印请求结果
   return 1

#从数据库中获得用户
def get_users():
   sql = 'SELECT douban_id from users'
   cursor.execute(sql)
   users = cursor.fetchall()
   return users

#向文件中添加用户url
def save_url(filepath,user_url_list): #为了方便每个用户关注只保存一次，不考虑关注变动
   if not os.path.exists(filepath):
       file = open(filepath, "w+")
       for user_url in user_url_list:
           file.write(str(user_url)+'\n')
       print(filepath+'已保存完成')
   else:
       print(filepath + '已存在')
       pass

if __name__ == '__main__':
   users = get_users()
   for user in users:
       douban_id = user['douban_id']
       filepath = '../storage/userFollow/' + '%s' % douban_id + '.txt'
       print(filepath)
       if not os.path.exists(filepath):
           #用户全部关注人链接
           url = 'https://www.douban.com/people/%s/contacts/' % user['douban_id']
           print(url)
           headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36'}
           response = session.get(url=url,headers=headers)
           #Xpath解析页面
           tree = etree.HTML(response.text)
           # 获得当前登录状态
           IF_LOGIN = tree.xpath('//div[@class="login-right"]')
           if not IF_LOGIN : #已登录
               print('已登录')
           else: #未登录（cookie失效或者第一次登录）
               print('转到登录')
               while(login_douban() == 0):
                   login_douban()
               response = session.get(url=url, headers=headers)
               tree = etree.HTML(response.text)
           user_url_list = tree.xpath('//div[@class="article"]/dl[@class="obu"]/dd/a/@href')
           save_url(filepath,user_url_list)
       else:
           print('该用户关注列表已经获得')

运行效果

优化
由于存在已注销的账户，这部分账户并没有什么意义，需要删除

修改xpath路径
2. 修改save_url中保存的逻辑，多一个已注销用户名的判断

可以看到文件中所保存的url明显变少了

笔记七：两种html标签解析方式（BeautifulSoup、Xpath）的比较

xpath 要求一定清楚文档层次结构，它通过元素和属性进行导航，可以使用绝对路径或相对路径查找，而beautifulsoup 不必清楚文档结构，可以直接找某些标签，简单粗暴。

BeautifulSoup解析中find_all()当没有找到时返回None，而Xpath解析中xpath()当没有找到时返回空集合，两者判断不同

返回为None判断：if data == None:

返回为空集合判断：if not data:

正则表达式也可以对标签进行匹配，但十分麻烦，适合处理字符串而非网页文档，不推荐在此使用

Xpath 的性能优于BeautifulSoup 示例

beautifulsoup和xpath的解析方式

笔记八：python中BeautifulSoup的使用

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。

它是一个第三方的Python库，由python语言编写。通过解析文档为用户提供需要抓取的数据。使用者不需要清楚文档结构，可以直接找到标签。但是也存在很多的局限性。

寻找标签时会载入整个文档，解析整个DOM树，因此时间和内存开销都会大很多。

官方中文文档：Beautiful Soup 4.4.0 文档

示例

#BeautifulSoup解析页面
content = BeautifulSoup(response.text,"html5lib")
#查找标签
IF_LOGIN = content.find('div', class_='login-right')

几种解析器比较

解析器	使用方法	优势	劣势
python标准库	BeautifulSoup(markup, “html.parser”)	Python的内置标准库速度适中；文档容错能力强	Python 2.7.3 or 3.2.2)前的版本中文档容错能力差
lxml HTML 解析器	BeautifulSoup(markup, “lxml”)	速度快；文档容错能力强	需要安装C语言库
lxml HTML 解析器	BeautifulSoup(markup, [“lxml”, “xml”]) BeautifulSoup(markup, “xml”)	速度快；唯一支持XML的解析器	需要安装C语言库
html5lib	BeautifulSoup(markup, “html5lib”)	最好的容错性；以浏览器的方式解析文档；生成HTML5格式的文档	速度慢

笔记九：python中Xpath的使用

使用 lxml 中的 xpath 高效提取文本与标签属性值。lxml局部遍历DOM树，因此性能会好很多。

Xpath表达式

路径

绝对路径(一个/)：从根开始。例如/html/body/div/ul/li

相对路径(两个/)：从任意位置开始。例如//div//li

规定标签属性

标签[@属性名=值]
例如//div[@id="link-report"]//div[@class="intro"]

取值

取标签中的属性值：标签/@属性名 例如/div/@class

取标签中的内容值：标签/text() 例如/div/a/text()

函数xpath()的返回值

xpath对该文本中的元素定位返回的是一个list列表，遍历后发现一堆看不懂的东西

tree = etree.HTML(response.text)
user_url_list = tree.xpath('//div[@class="article"]/dl[@class="obu"]/dd/a')
	for i in user_url_list:
    	print(i)
运行结果

用lxml获取网页内容，再用Xpath解析后打印出来的值为
这表示其中的元素是以字典形式存放，故含有键值对
from lxml import etree
tree = etree.HTML(response.text)
user_url_list = tree.xpath('//div[@class="article"]/dl[@class="obu"]/dd/a')
for i in range(len(user_url_list)):
   # user_url_list[i]返回的是一个字典
   print(user_url_list[i].tag)
   print(user_url_list[i].attrib)
   print(user_url_list[i].text)
运行结果

其中tag对应标签，attrib对应标签中的属性（以键值对的形式存放），text对应标签中的内容

笔记十：python中拼接字符串

方法一：采用占位符%s

一个参数

"当前内容：%s" % param1

多个参数

"当前内容：%s,%s" % (param1,param2)

方法二：+连接

"当前内容"+param1+param2

笔记十一：python中的文件的常用操作

文件的读写模式含义

模式	可做操作	若文件不存在	是否覆盖
r	只读	报错	-
r+	可读可写	报错	是
w	只写	创建	是
w+	可读可写	创建	是
a	只写	创建	否，追加写
a+	可读可写	创建	否，追加写

将字符串按行存入文本

filepath = '../storage/userFollow/' + douban_id +'\n'
open(filepath, 'w+').write(douban_user_url)

#另一种写法
file = open(filepath, 'w+')
file.write(douban_user_url)

写的时候换行在字符串后面加上’\n’即可

此种存储方式读取的时候会连同\n一起读出，读出时需要将后面的\n去掉

从文本中按行读出字符串

file = open(filepath,"r")
for line in file:
	print(line) #按行输出字符串
    line = line[:-2] #将行后面的'\n'字符对应编码%0A去除

判断文件夹是否存在

if os.path.isdir('data'): #data文件夹已存在
   pass
else: #data文件夹不存在
    os.mkdir('data') #创建data文件夹

由于python不会自己创建文件夹。所以用到文件夹最好自己手动建立，否则就要写代码判断是否存在，不存在建立文件夹

判断文件是否存在

 if not os.path.exists(filepath): #如果不存在该用户的关注文件
    print('不存在%s文件' % filepath)
 else:
 	print('存在%s文件' % filepath)

在写入文件的时候采用w/w+/a/a+当文件不存在时都会自动创建新文件

2.3 实现scrapy框架爬取用户个人主页并存放在mysql数据库中

2.3.1 编写items.py

由于目前我们从豆瓣页面中仅获得用户的豆瓣id、用户昵称和用户头像对应的图片url、,故只要建立如下类即可。
补充：由于在关注关系的判断时需要比较用户主页地址表明用户，故需要再加一个用户关注地址，有的部分可能没有该字段

from scrapy import Item,Field
class User(Item):
    id = Field()
    head_thumb = Field()
    douban_id = Field()
    nickname = Field()
    created_at = Field()
    douban_user_url = Field()

2.3.2 编写user_info_spider.py

1）Scrapy框架中实现豆瓣登录请求

问题描述

用户只有登录后才能在关注他人那里看到对方的豆瓣Id，问题一只是在一般的爬虫情况，而我们想通过Scrapy框架进行爬虫，所以有了问题三

解决思路
参考：Scrapy模拟登陆豆瓣抓取数据

同问题一，也是通过请求登录url，传递个人的用户名和密码信息，得到response后在request

具体步骤

1.scrapy框架中的爬虫类默认从start_requests开始执行，因此初始时先请求登录地址
    def start_requests(self):
        return [Request(url="https://accounts.douban.com/passport/login", meta={"cookiejar": 1}, callback=self.login)]
Request函数中的部分参数含义

url参数：请求的url地址

meta参数：从request向response传递的参数（为问题二中存储关注关系提供了新思路，可以把请求的用户豆瓣id放在参数里）
在这里meta={'cookiejar': 1}:代表本次请求开启cookie

callback参数：本次访问成功后的回调函数

2.根据start_requests中请求的回调转到login函数，执行登录操作。
   def login(self,response):     
       # 登录URL
       login_url = 'https://accounts.douban.com/j/mobile/login/basic'
       # 传递用户名和密码
       data = {'name': '用户名',
               'password': '密码',
               'remember': 'false'}

       return [FormRequest(url=login_url,
                           method='POST',
                           meta={"cookiejar":response.meta["cookiejar"]},
                           formdata=data,
                           dont_filter=True,
                           callback=self.start_user_info)]
FormRequest函数中的部分参数含义

meta参数：这里 meta={"cookiejar":response.meta["cookiejar"]}

formdata参数：表单参数，这里包括用户名和密码

3.执行完登录后，再次回调到start_user_info方法
这里是我们实际要进行的逻辑
从文件中依次读取用户个人主页url，然后请求，由于meta里传递了之前的cookie信息，所以此次请求是登录状态
def start_user_info(self,response):  
       for user in self.users:
           self.user_id = user['id']
           self.filepath = '../storage/userFollow/' + '%s' % user['douban_id'] + '.txt'
           if not os.path.exists(self.filepath): #如果不存在该用户的关注文件
               print('不存在用户%s的关注文件' % user['douban_id'])
           else:
               file = open(self.filepath,"r")      
               for line in file:
                   time.sleep(1 + random.randint(0, 5))   
                   line = line[:-2]          
                   yield Request(line, callback=self.parse,meta={"cookiejar":True})
True与1的值相等，所以用哪个都行

4.引擎将封装的request请求交给下载器，下载器进行下载，封装成response交给爬虫爬取，回调parse函数，这就和未实现登录前一样了
5.运行结果

代码整合

import random
import string
import time
import os
import re

import MyDouBan.database as db
from scrapy import Spider,Request,FormRequest
from MyDouBan.items import User,UserFollow
cursor = db.connection.cursor()

class UserInfoSpider(Spider):
    name="user_info"
    user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 \
                  (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36'
    allowed_domains = ["douban.com"]
    sql = 'SELECT * from users'
    cursor.execute(sql)
    users = cursor.fetchall()
    num=0

    def start_requests(self):
        self.logger.info('-------start_requests--------------')
        return [Request(url="https://accounts.douban.com/passport/login", meta={"cookiejar": 1}, callback=self.login)]

    def login(self,response):
        self.logger.info('-------login--------------')
        # 登录URL
        login_url = 'https://accounts.douban.com/j/mobile/login/basic'
        # 传递用户名和密码
        data = {'name': '',
                'password': '',
                'remember': 'false'}

        return [FormRequest(url=login_url,
                            method='POST',
                            meta={"cookiejar":response.meta["cookiejar"]},
                            formdata=data,
                            dont_filter=True,
                            callback=self.start_user_info)]

    def start_user_info(self,response):
        self.logger.info('-------start_user_info--------------')
        for user in self.users:
            self.user_id = user['id']
            self.filepath = '../storage/userFollow/' + '%s' % user['douban_id'] + '.txt'
            print(self.filepath)
            if not os.path.exists(self.filepath): #如果不存在该用户的关注文件
                print('不存在用户%s的关注文件' % user['douban_id'])
            else:
                file = open(self.filepath,"r")
                num = 0
                for line in file:
                    num =num+1
                    time.sleep(1 + random.randint(0, 5))
                    #self.logger.info('-------linebefore:%s', line)
                    line = line[:-2]
                    self.logger.info('-------line:%s', line)
                    if num == 3:
                        break
                    yield Request(line, callback=self.parse,meta={"cookiejar":True})


    def parse(self, response):
        self.logger.info('-------parse--------------')

大坑注意

开始很完美的运行了程序，但是过了一段时间大概是cookie过期了，导致怎么运行都是未登录状态。
后来过了一会，重新运行就好了

2）按用户主页地址爬取用户信息

发现用户只有登录后才能在关注他人那里看到对方的豆瓣Id，问题一只是在一般的爬虫情况，而我们想通过Scrapy框架进行爬虫，所以有了问题三

解决完问题三后，主要解决根据response回复的内容利用Xpath进行解析，获得页面中所需要的元素，这里根据定位我们需要获得豆瓣id、用户名称、加入时间、用户头像。

为了找到哪些页面元素没有获得，将没有获得的页面保存在storage/errorPages文件夹下，用num加以区分

代码

    def get_nikename(self,user,response):
        regx = '//div[@class="pic"]/a/@title'
        data = response.xpath(regx).extract() #解析得到list
        if data:
            user['nickname'] = data[0]
            self.logger.info('1-------nickname:%s', data[0])
        else:
            regx = '//div[@class="pic"]/a/img/@alt'
            data = response.xpath(regx).extract()
            if data:
                user['nickname'] = data[0]
                self.logger.info('2-------nickname:%s', data[0])
            else:
                self.num = self.num +1
                filepath = '../storage/errorPages/nickname_%s.html' % str(self.num)
                file = open(filepath,"w+",encoding="utf8")
                file.write(response.text)
        return user

    def get_head_thumb(self,user,response):
        regx = '//div[@class="basic-info"]/img/@src'
        data = response.xpath(regx).extract()
        if data:
            user['head_thumb'] = data[0]
            self.logger.info('-------head_thumb:%s', data[0])
        else:
            self.num = self.num + 1
            filepath = '../storage/errorPages/head_thumb_%s.html' % str(self.num)
            file = open(filepath, "w+", encoding="utf8")
            file.write(response.text)
        return user

    def get_douban_id(self,user,response):
        regx = '//div[@class="user-opt"]/a/@id'
        data = response.xpath(regx).extract() 
        if data:
            user['douban_id'] = data[0]
            self.logger.info('-------douban_id:%s', data[0])
        else:
            self.num = self.num + 1
            filepath = '../storage/errorPages/douban_id_%s.html' % str(self.num)
            file = open(filepath, "w+", encoding="utf8")
            file.write(response.text)
        return user

    def get_created_at(self,user,response):
        regx = '//div[@class="user-info"]/div[@class="pl"]/text()'
        data = response.xpath(regx).extract()
        if data:
            result = re.search("(\d{4})-(\d{2})-(\d{2})",data[1])
            if result != None:
                created_at = "%s-%s-%s 00:00:00" % (result.group(1),result.group(2),result.group(3))
                user['created_at'] = created_at
                self.logger.info('-------created_at:%s', created_at)
                return user
        self.num = self.num + 1
        filepath = '../storage/errorPages/created_at_%s.html' % str(self.num)
        file = open(filepath, "w+", encoding="utf8")
        file.write(response.text)
        
    def parse(self, response):
        self.logger.info('-------parse--------------')
        if 35000 > len(response.body):
            print(response.body)
            print(response.url)
        elif 404 == response.status:
            print(response.url)
        else:
            user = User()
            self.get_douban_id(user,response)
            self.get_nikename(user,response)
            self.get_head_thumb(user,response)
            self.get_created_at(user,response)
            print(user)
            return user

函数定义中的self参数在使用时是不需要加的。注意定义get_douban_id时有三个参数 def get_douban_id(self,user,response):而在实际使用函数时只需要传递两个参数，self.get_douban_id(user,response)因为self参数是默认传递的，如果写成self.get_douban_id(self,user,response)则会报错需要三个参数而实际传递了四个参数。

运行情况

成功获得用户的这四个信息

2.3.3 修改user_info_spider.py

由于在关注的时候需要根据用户主页地址在数据库中查找到用户所对应的实际表中id值，所以还需要保存用户主页地址。

用户主页地址并非从爬取的页面获得，而是request请求中发起的url，故需要在request利用meta将url参数传递给response
只需要修改def start_user_info(self,response):中的yield Request(line, callback=self.parse,meta={“cookiejar”:True,“user_url”:line})
在response中根据response.meta.get("user_url")获取数据

参考：Python爬虫：scrapy框架请求参数meta、headers、cookies一探究竟

笔记十二：python包中类的使用

直接指明引用包中的类名

直接指明了引用scrapy包中的Item类和Field类，故可以直接使用。
from scrapy import Item,Field
class User(Item):
   id = Field()
   head_thumb = Field()

指明引用包而不具体指明类名

如果通过import scrapy引入scrapy并不指明具体使用的类，则在使用时需要加上包名
import scrapy
class MydoubanItem(scrapy.Item):
 name = scrapy.Field()

引用其他文件中定义的类

引入MyDouban文件中items.py文件中定义的class
from MyDouBan.items import User,UserFollow

重命名包

利用as重命名MyDouBan文件夹下database.py文件为dp，相当于到包的概念，由于database.py定义了connection数据，通过db.connection使用该数据

user_follow.py

import MyDouBan.database as db

database.py

connection = pymysql.connect(host=MYSQL_HOST, user=MYSQL_USER,
                           password=MYSQL_PASS, db=MYSQL_DB,
                           charset='utf8mb4',
                           cursorclass=pymysql.cursors.DictCursor)

笔记十三：调试方法

方法一：print()

直接在控制台输出我们想要的数据，看它的值

方法二：logger.info()

会比print多了一些内容，包括时间信息等
self.logger.info('-------douban_id:%s', data[0])

笔记十四：python中正则表达式的使用

re正则表达式匹配
re.search和re.match
groups()与group()
匹配日期那个太难了

regx = '//div[@class="user-info"]/div[@class="pl"]/text()'
data = response.xpath(regx).extract()
if data:
    result = re.search("(\d{4})-(\d{2})-(\d{2})",data[1])
    if result != None:
        created_at = "%s-%s-%s 00:00:00" % (result.group(1),result.group(2),result.group(3))
        user['created_at'] = created_at

2.4 实现保存用户信息到数据库

2.4.1 编写pipeline.py文件

由于scrapy框架的原理可知，由spider爬虫解析出的实体，交由管道进行处理。因此编写pipeline文件将获得的用户Item写入数据库。

分析爬虫解析后的实体User

在print(user)后我们可以看到，当前用户实体是以字典的形式存放，故由一个个键值对组成。

spider传到pipeline的实体交由def process_item(self, item, spider):函数进行处理。由于对于不同的实体有不同的操作，因此要判断传来的item类型。if isinstance(item, User):表明当前item是一个User类。

在这里我们想要实现通过get_user(item)根据传来的豆瓣id获得用户。如果当前用户在数据库中，则执行update_user(item)更新；如果不在，则执行save_user(item)保存

这里要注意一个问题，在对mysql数据库操作时通过sql语句，例如插入时需要insert into users(param1,param2) values (value1,value2)，随着项目的变化，数据库中的字段经常会发生改变。 这样每次就要修改sql语句十分的麻烦，所以采用一种通用的方式：根据字典中所拥有的内容来填充sql语句。

1）获得用户

#根据豆瓣id获得用户
    def get_user(self,item):
        sql = 'SELECT * FROM users WHERE douban_id=%s' % item['douban_id']
        print(sql) #SELECT * FROM users WHERE douban_id=2472913
        cursor.execute(sql)
        return cursor.fetchone()

fetchone()取出一行值，还有个fetchall()取出多行值

2）插入用户

#保存用户
    def save_user(self,item):
        # item是字典，keys为列表，values为元组，field与temp为字符串
        keys = item.keys() 
        values = tuple(item.values())
        fields = ','.join(keys)
        temp = ','.join(['%s'] * len(keys))
        sql = 'INSERT INTO users (%s) VALUES (%s)' % (fields, temp)
        print(keys)   #dict_keys(['douban_user_url', 'douban_id', 'nickname', 'head_thumb', 'created_at'])
        print(values)  #('https://www.douban.com/people/alucardkoten/', '2472913', 'Koten', 'https://img9.doubanio.com/icon/ul2472913-4.jpg', '2008-05-11 00:00:00')
        print(fields)  #douban_user_url,douban_id,nickname,head_thumb,created_at
        print(temp)  #%s,%s,%s,%s,%s
        print(sql) #INSERT INTO users (douban_user_url,douban_id,nickname,head_thumb,created_at) VALUES (%s,%s,%s,%s,%s)
        cursor.execute(sql, tuple(i.strip() for i in values))
        return db.connection.commit()

keys = item.keys()用于获得所有的字段名列表；

values = tuple(item.values())用于获得所有的值列表，要注意这里item.values()返回的类型为，利用tuple()转换为元组，也就是表明这里的元素不能被修改；

fields = ','.join(keys) 获得一逗号隔开的字段名，如key1,key2,······keyN的形式;

temp = ','.join(['%s'] * len(keys))根据实体包含字段的个数来给值占位，如%s,%s······

这样可通过'INSERT INTO user_follows (%s) VALUES (%s)' % (fields, temp) 获得插入的字符串。在执行插入时将值的参数传入cursor.execute(sql, tuple(i.strip() for i in values))

运行结果
数据橙光写入数据库

3）更新用户

#更新用户
    def update_user(self,item):
        douban_id = item.pop('douban_id') #删除豆瓣id的键值对
        keys = item.keys()
        values = tuple(item.values()) # item.values() 类型： 如果用list(item.values())强制转换还是ValuesView
        #由于元组不能添加元素，故遍历元组
        valuelist = []
        for value in values:
            valuelist.append(value)
        valuelist.append(douban_id) #将douban_id放在值的最末尾，对应Where后面的%s
        fields = ['%s=' % i + '%s' for i in keys]
        sql = 'UPDATE users SET %s WHERE douban_id=%s' % (','.join(fields), '%s')
        print(sql) #UPDATE users SET douban_user_url=%s,nickname=%s,head_thumb=%s,created_at=%s WHERE douban_id=%s
        cursor.execute(sql, valuelist)
        return db.connection.commit()

#优化后
#更新用户
    def update_user(self,item):
        douban_id = item.pop('douban_id') #删除豆瓣id的键值对
        keys = item.keys()
        values = tuple(item.values()) # item.values() 类型： 如果用list(item.values())强制转换还是ValuesView
        fields = ['%s=' % i + '%s' for i in keys]
        sql = 'UPDATE users SET %s WHERE douban_id=%s' % (','.join(fields), douban_id)
        print(sql) #UPDATE users SET douban_user_url=%s,nickname=%s,head_thumb=%s,created_at=%s WHERE douban_id=1947334
        cursor.execute(sql, values)
        return db.connection.commit()

item为字典，利用pop()删除字典中douban_id的键值对，因为之前在获得用户时是根据豆瓣Id获得，故豆瓣id的值不用重新更新，而是要作为最后WHERE的条件传递。

由于元组不能在最后利用append添加数据，故将元组遍历添加到一个列表中，在最后利用append()添加douban_id

运行结果

优化：后来想到其实不需要把douban_id放在values而是直接拼接在sql后面不需要占位，故做了修改，毕竟元组里的值改变就失去了元组的作用，这样不太合理。

4）完整代码

import MyDouBan.database as db
from MyDouBan.items import User,UserFollow

cursor = db.connection.cursor() #获得游标

class MydoubanPipeline(object):
    #根据豆瓣id获得用户
    def get_user(self,item):
        sql = 'SELECT * FROM users WHERE douban_id=%s' % item['douban_id']
        print(sql) #SELECT * FROM users WHERE douban_id=2472913
        cursor.execute(sql)
        return cursor.fetchone()

    #保存用户
    def save_user(self,item):
        # item是字典，keys为列表，values为元组，field与temp为字符串
        keys = item.keys()
        values = tuple(item.values())
        fields = ','.join(keys)
        temp = ','.join(['%s'] * len(keys))
        sql = 'INSERT INTO users (%s) VALUES (%s)' % (fields, temp) #
        print(sql) #INSERT INTO users (douban_user_url,douban_id,nickname,head_thumb,created_at) VALUES (%s,%s,%s,%s,%s)
        cursor.execute(sql, tuple(i.strip() for i in values))
        return db.connection.commit()

    #更新用户
    def update_user(self,item):
        douban_id = item.pop('douban_id') #删除豆瓣id的键值对
        keys = item.keys()
        values = tuple(item.values()) # item.values() 类型： 如果用list(item.values())强制转换还是ValuesView
        fields = ['%s=' % i + '%s' for i in keys]
        sql = 'UPDATE users SET %s WHERE douban_id=%s' % (','.join(fields), douban_id)
        print(sql) #UPDATE users SET douban_user_url=%s,nickname=%s,head_thumb=%s,created_at=%s WHERE douban_id=1947334
        cursor.execute(sql, values)
        return db.connection.commit()

    def process_item(self, item, spider):
        if isinstance(item, User):
            '''
            User
            '''
            exist = self.get_user(item)
            if exist == None: #如果当前douban_id对应用户不存在
                try:
                    self.save_user(item)
                    print('用户%s已添加至数据库！' % item['douban_id'])
                except Exception as e:
                    print(item)
                    print(e)
            else: #若已存在应当更新
                self.update_user(item)
                print('用户%s已更新！' % exist['douban_id'])
        #return item

运行结果
scrapy crawl user_info

笔记十五：pymysql对数据库的查插删改

建立数据库连接

import pymysql
MYSQL_DB = 'db_douban' #数据库名称
MYSQL_USER = 'root' #用户名
MYSQL_PASS = '123456' #密码
MYSQL_HOST = 'localhost' #本地数据库

connection = pymysql.connect(host=MYSQL_HOST, user=MYSQL_USER,
                             password=MYSQL_PASS, db=MYSQL_DB,
                             charset='utf8mb4',
                             cursorclass=pymysql.cursors.DictCursor)
cursor = connection.cursor() #获得游标

查询

取出一条数据

sql = 'SELECT * FROM users WHERE douban_id=2472913'
cursor.execute(sql)
user = cursor.fetchone() #字典类型，通过user['douban_id']可以取出douban_id的值

取出多条数据

sql = 'SELECT * FROM users'
cursor.execute(sql)
users = cursor.fetchall() #列表类型，内部元素为字典类型，通过user[0]['douban_id']可以取出第一条数据的douban_id的值

插入

占位符填充参数和数据（最方便，通用）

item = {'created_at': '2007-10-25 00:00:00',
 'douban_id': '1947334',
 'douban_user_url': 'https://www.douban.com/people/rosiel/',
 'head_thumb': 'https://img9.doubanio.com/icon/ul1947334-64.jpg',
 'nickname': '冬惊'}
keys = item.keys()
values = tuple(item.values())
fields = ','.join(keys)
temp = ','.join(['%s'] * len(keys))
sql = 'INSERT INTO users (%s) VALUES (%s)' % (fields, temp) 
cursor.execute(sql, tuple(i.strip() for i in values))
db.connection.commit()

数据采用占位符插入

values = ('https://www.douban.com/people/alucardkoten/', '2472913', 'Koten', 'https://img9.doubanio.com/icon/ul2472913-4.jpg', '2008-05-11 00:00:00')
sql = 'INSERT INTO users (douban_user_url,douban_id,nickname,head_thumb,created_at) VALUES (%s,%s,%s,%s,%s)'
cursor.execute(sql, tuple(i.strip() for i in values)) #取出字符串两边空格
db.connection.commit()

数据直接用字符串插入

values = ('https://www.douban.com/people/alucardkoten/', '2472913', 'Koten', 'https://img9.doubanio.com/icon/ul2472913-4.jpg', '2008-05-11 00:00:00')
temp = '\',\''.join(values)
sql = 'INSERT INTO users (douban_user_url,douban_id,nickname,head_thumb,created_at) VALUES (\'%s\')' % temp
#上述sql = 'INSERT INTO users (douban_user_url,douban_id,nickname,head_thumb,created_at) VALUES ('https://www.douban.com/people/alucardkoten/','2472913','Koten','https://img9.doubanio.com/icon/ul2472913-4.jpg','2008-05-11 00:00:00')'
cursor.execute(sql)
db.connection.commit()

删除

sql = 'DELETE FROM users WHERE douban_id = %s' % '2472913'
cursor.execute(sql)
db.connection.commit()

修改

item = {'created_at': '2007-10-25 00:00:00',
 'douban_id': '1947334',
 'douban_user_url': 'https://www.douban.com/people/rosiel/',
 'head_thumb': 'https://img9.doubanio.com/icon/ul1947334-64.jpg',
 'nickname': '冬惊'}
keys = item.keys()
values = tuple(item.values()) 
fields = ['%s=' % i + '%s' for i in keys]
sql = 'UPDATE users SET %s WHERE douban_id=%s' % (','.join(fields), douban_id)
print(sql) #UPDATE users SET douban_user_url=%s,nickname=%s,head_thumb=%s,created_at=%s WHERE douban_id=1947334
cursor.execute(sql, values)
db.connection.commit()

2.5 实现保存用户关注关系到数据库

2.5.1 编写items.py

添加UserFollow实体

class UserFollow(Item):
    user_id = Field()
    user_follow_id = Field()

2.5.2 编写save_user_follow.py

由于之前存储是以当前用户豆瓣Id命名的文件，根据该豆瓣id可以获得主码id。然后在文件中存储了用户主页的url，依次从文件中取出url在数据库中查找，如果找到则能得到对应关注用户的主码id，将这个关系存储到数据库即可。

import os
import MyDouBan.database as db
from MyDouBan.items import UserFollow

#获得连接数据库的游标
cursor = db.connection.cursor()

#从数据库中获得所有用户
def get_users():
    sql = 'SELECT douban_id from users'
    cursor.execute(sql)
    users = cursor.fetchall()
    return users

#根据用户主页地址从数据库中获得某个用户id
def get_user_from_url(user_url):
    sql = 'SELECT id from users WHERE douban_user_url=\'%s\'' % user_url
    cursor.execute(sql)
    user = cursor.fetchone()
    return user

#根据用户豆瓣ID从数据库中获得某个用户id
def get_user_from_id(douban_id):
    sql = 'SELECT id from users WHERE douban_id=%s' % douban_id
    cursor.execute(sql)
    user = cursor.fetchone()
    return user

#找出该关注关系是否已经存储
def get_user_follow(item):
    sql = 'SELECT * from user_follows WHERE user_id=%s AND user_follow_id=%s' % (item['user_id'],item['user_follow_id'])
    cursor.execute(sql)
    user = cursor.fetchone()
    return user

#保存用户关注关系
def save_user_follow(item):
    keys = item.keys()  # item是字典，keys为列表，values为元组，field与temp为字符串
    values = tuple(item.values())
    fields = ','.join(keys)
    temp = ','.join(['%s'] * len(keys))
    sql = 'INSERT INTO user_follows (%s) VALUES (%s)' % (fields, temp)
    cursor.execute(sql, tuple(i for i in values))
    return db.connection.commit()


if __name__ == '__main__':
    users = get_users()
    for user in users:
        douban_id = user['douban_id']
        user_id = get_user_from_id(douban_id)['id'] #获得当前用户的id
        filepath = '../storage/userFollow/' + '%s' % douban_id + '.txt'
        print(filepath)
        if os.path.exists(filepath):
            file = open(filepath, "r")
            for line in file:
                line = line[:-1]
                user_follow = get_user_from_url(line) #获得用户关注的对象
                if user_follow:
                    user_follow_id = user_follow['id'] #获得用户关注的对象的id
                    userFollow = UserFollow()
                    userFollow['user_id'] = user_id
                    userFollow['user_follow_id'] = user_follow_id
                    print(userFollow)
                    exist = get_user_follow(userFollow)
                    if not exist:
                        save_user_follow(userFollow)
                    else:
                        print('用户%s已经关注过%s' % (userFollow['user_id'],userFollow['user_follow_id']))
                else:
                    print('未找到%s对应用户' % line)
        else:
            print('不存在用户%s的关注文件' % user['douban_id'])

运行结果

2.6 后期优化

2.6.1 部分账户被冻结

被冻结的用户无法获得豆瓣id，因此要过滤，不用保存到错误页面中

regx1 = '//div[@class="mn"]/a'
exist = data = response.xpath(regx1).extract()
if exist:
    print('%s用户已冻结' % user ['douban_user_url'])

同时优化解析过程如果douban_id为空就不爬取其他信息了

user['douban_user_url'] = response.meta.get("user_url")
self.get_douban_id(user,response)
if user["douban_id"] != None:
    self.get_nikename(user,response)
    self.get_head_thumb(user,response)
    self.get_created_at(user,response)
    print(user)
    return user

项目地址：https://github.com/joyceyang999/MyDouBan

本文旨在记录自己搭建项目时的理解和思考，由于知识水平受限，存在偏颇，记录过程有点乱，如有大佬发现错误之处，欢迎指正探讨。虚心求学ing

你可能感兴趣的:(python爬虫)

分享Python7个爬虫小案例（附源码）人工智能-猫猫爬虫 python 开发语言
在这篇文章中，我们将分享7个Python爬虫的小案例，帮助大家更好地学习和了解Python爬虫的基础知识。以下是每个案例的简介和源代码：1.爬取豆瓣电影Top250这个案例使用BeautifulSoup库爬取豆瓣电影Top250的电影名称、评分和评价人数等信息，并将这些信息保存到CSV文件中。importrequestsfrombs4importBeautifulSoupimportcsv#请求U
python爬虫系列实例-python爬虫实例，一小时上手爬取淘宝评论(附代码) weixin_37988176
前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。1明确目的通过访问天猫的网站，先搜索对应的商品，然后爬取它的评论数据。可以作为设计前期的市场调研的数据，帮助很大。2爬取评论并储存（首先要进行登录，获取cookie）搜索你想收集的信息的评价，然后点开对应的产品图片。找到对应的评价的位置。找到对应的位置之后就可以进行数据的爬取了
利用Python爬虫获取淘宝商品评论：实战案例分析数据小爬虫@ API python 爬虫开发语言
在数字化时代，数据的价值日益凸显，尤其是对于电商平台而言，商品评论作为用户反馈的重要载体，蕴含着丰富的信息。本文将详细介绍如何利用Python爬虫技术获取淘宝商品评论，包括代码示例和关键步骤解析。淘宝商品评论的重要性淘宝商品评论不仅对消费者购买决策有着重要影响，而且对于商家来说，也是了解市场需求、改进产品和服务的重要途径。因此，获取并分析淘宝商品评论数据，对于电商运营和市场分析具有重要意义。Pyt
python爬虫之scrapy框架入门，万字教学，从零开始到实战演练，超详细！！！（21）盲敲代码的阿豪 python之爬虫系统教学 python 爬虫 scrapy
文章目录前言1、scrapy的概念和流程1.1学习目标1.2scrapy的概念1.3scrapy框架的作用1.4scrapy的工作流程1.5总结2、scrapy的入门使用2.1学习目标2.2安装scrapy框架2.3scrapy项目开发流程2.4创建项目2.5创建爬虫文件2.6scrapy项目文件说明2.7案例演示2.8实战案例（抓取链家租房信息，存入本地）2.8.1修改items.py文件，在这
基于Python爬虫的商业新闻趋势分析：数据抓取与深度分析实战 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言媒体游戏
在信息化和数字化日益发展的今天，商业新闻成为了行业动向、市场变化、竞争格局等多方面信息的重要来源。对于企业和投资者来说，及时了解商业新闻不仅能帮助做出战略决策，还能洞察市场趋势和风险。在此背景下，商业新闻分析的需求日益增长。通过爬虫技术获取和分析商业新闻数据，不仅可以节省时间和成本，还能高效、精准地进行趋势预测与决策支持。本篇博客将详细介绍如何使用Python爬虫技术抓取商业新闻数据，并进行趋势分
基于百度翻译的python爬虫示例魂万劫 python 爬虫开发语言百度翻译
(今年java工作真难找啊，有广州java高级岗位招人的好心人麻烦推一下，拜谢。。）花了一周时间，从零基础开始学习了python，学有所获之后，就总想爬些什么，不然感觉不得劲，所以花了一天时间整出了个百度翻译的爬虫示例，主要卡点花在了找token、sign以及调试请求上。代码有点乱，毕竟是demo，但是功能是实现了的。importrequestsimportjs2pyimportrefromurl
如何合法抓取TikTok视频信息和评论：完整Python爬虫教程 Python爬虫项目 2025年爬虫实战项目音视频 python 爬虫开发语言
一、引言TikTok是全球最受欢迎的短视频平台之一，每天吸引着数百万的用户上传和分享视频内容。作为内容创作者和数据分析师，抓取TikTok上的视频和评论可以帮助你分析社交趋势、受欢迎的内容类型和用户互动。然而，TikTok明确表示其平台的数据抓取行为受到限制，这也意味着我们不能直接通过常规的网络爬虫技术去抓取其数据。本文将介绍如何在合法的前提下进行TikTok数据抓取。我们将探索TikTok的AP
每日实战：python爬虫之网页跳转-以某博为例代码CC python爬虫 python 爬虫 pandas 开发语言
一、项目背景与核心需求通过逆向分析微博热榜接口，实现实时热搜数据抓取，重点解决：话题跳转链接参数缺失问题页面数据清洗规范化处理多维度数据采集存储二、网页跳转爬虫实现原理2.1跳转链接生成逻辑原始热搜词→"雷军刚知道柯洁定了SU7Ultra"处理流程：1.添加话题标识→#雷军刚知道柯洁定了SU7Ultra#2.URL编码→%23雷军刚知道柯洁定了SU7Ultra%233.添加搜索参数→&t=31生成
python爬虫 Selenium库安装与使用范哥来了 python 爬虫 selenium
Selenium是一个强大的自动化测试工具，它也可以用来进行网页抓取。与传统的请求库（如requests）不同，Selenium可以模拟真实用户的行为，比如点击按钮、填写表单等，这对于那些依赖于JavaScript动态加载内容的网站来说非常有用。安装Selenium首先确保你的环境中已经安装了Python和pip。然后通过pip安装Selenium：pipinstallselenium如果你使用的
python爬虫项目范哥来了 python 爬虫开发语言
项目名称：国家自然科学基金大数据知识管理服务门户爬取项目爬取内容：爬取内容：资助项目爬取链接：HTTP://KD.NSFC.GOV.CN/BASEQUERY/SUPPORTQUERY为了完成“国家自然科学基金大数据知识管理服务门户”的资助项目信息爬取任务，我们需要设计一个网络爬虫。考虑到目标网站的具体情况，我们将采用Python语言结合requests库来处理HTTP请求，以及使用Beautifu
如何运用python爬虫爬取图片素材网站的图片？（附完整代码）大懒猫软件 vue.js python 网络爬虫图像处理 bash
在当今数字化时代，高质量的图片资源对于设计师、开发者以及任何需要视觉素材的用户来说都至关重要。壁纸社作为一个提供丰富壁纸资源的网站，涵盖了从普通高清到4K、5K甚至8K超高清的多种分辨率，满足了不同用户的需求。然而，手动下载这些壁纸不仅耗时，而且效率低下。因此，开发一个自动化爬虫程序，批量下载高质量壁纸，不仅能节省时间，还能提高工作效率。本文将详细介绍如何使用Python爬虫技术从壁纸社爬取并保存
Python爬虫-爬取汽车之家燃油车月销量榜数据写python的鑫哥爬虫案例1000讲 python 爬虫汽车之家燃油车月销量榜单数据
前言本文是该专栏的第48篇，后面会持续分享python爬虫干货知识，记得关注。在本文中，笔者已整理18篇汽车平台相关的爬虫项目案例。对此感兴趣的同学，可以直接翻阅查看。而本文，笔者将以汽车之家平台为例子。基于Python爬虫，实现批量爬取全部“燃油车”的月销量数据。废话不多说，具体实现思路和详细逻辑，笔者将在正文结合完整代码进行详细介绍。接下来，跟着笔者直接往下看正文详细内容。（附带完整代码）正文
python怎么爬取网页数据,python爬取网页数据步骤 ab524100 python
这篇文章主要介绍了python爬取网页数据表格会超出索引，具有一定借鉴价值，需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获，下面让小编带着大家一起了解一下。前言：用python的爬虫爬取数据真的很简单，只要掌握这六步就好，也不复杂python源码库。以前还以为爬虫很难，结果一上手，从初学到把东西爬下来，一个小时都不到就解决了。python爬虫六步走第一步：安装requests库和Beaut
爬虫获取 item_get_video 接口数据：小红书笔记视频详情的深度解析 API快乐传递者小红书API API 爬虫笔记音视频
在当今内容驱动的互联网时代，小红书作为国内领先的社交电商平台，其笔记视频内容成为品牌营销、内容创作和用户体验的重要组成部分。通过爬虫技术获取小红书笔记视频详情，不仅可以帮助开发者更好地理解用户需求，还能为电商运营、内容推荐和数据分析提供强大的支持。本文将详细介绍如何使用Python爬虫获取小红书item_get_video接口的返回数据，并对其数据结构进行详细解析。一、item_get_video
Python 爬虫入门（六）：urllib库的使用方法 blues_C Python爬虫实战 python 爬虫开发语言
Python爬虫入门（六）：urllib库的使用方法前言1.urllib概述2.urllib.request模块2.1发送GET请求2.2发送POST请求2.3添加headers2.4处理异常3.urllib.error模块4.urllib.parse模块4.1URL解析4.2URL编码和解码4.3拼接URL5.urllib.robotparser模块6.实战示例:爬取豆瓣电影Top2507.ur
【python爬虫实战】——基于全国各城市快递网点的数据采集小L工程师 python爬虫实战爬虫网络爬虫 python selenium 开发语言数据分析数据可视化
一、项目背景随着电子商务的快速发展，快递行业成为了现代物流的重要组成部分。快递网点的分布和服务质量直接影响到用户的物流体验。为了更好地了解快递网点的分布情况、服务范围以及联系方式等信息，本项目通过爬虫技术从公开的快递信息网站上采集相关数据。‘>本文章中所有内容仅供学习交流使用，不用于其他任何目的，严禁用于商业用途和非法用途，否则由此产生的一切后果均与作者无关！二、项目目的和意义本项目的主要目的是通
Python爬虫实战教程——如何爬取多个国家的实时汇率数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫 chrome 信息可视化
1.引言随着全球经济一体化，跨国交易和投资变得越来越普遍，实时汇率数据成为了金融领域和国际贸易中的关键数据。对于金融分析师、投资者或者是开发者来说，能够实时获取并分析汇率数据是至关重要的。本文将深入探讨如何使用Python爬虫技术抓取多个国家的实时汇率数据。我们将使用最新的技术和工具，介绍如何通过Python编写一个高效、可扩展的汇率数据爬虫。2.为什么需要实时汇率数据？汇率数据被广泛应用于以下几
Python爬虫 -- re正则+csv存储小鞠.. Python爬虫 python 爬虫开发语言
爬取Boss上有关Python的工作。网址链接https://www.zhipin.com/wapi/zpgeek/search/joblist.json?scene=1&query=python&city=100010000&experience=&payType=&partTime=°ree=&industry=&scale=&stage=&position=&jobType=&sala
Python爬虫|获取大麦网演出信息最好的药物是乌梅 python 爬虫开发语言
使用Selenium库自动化浏览器操作，从大麦网的搜索结果页面抓取演唱会信息，并将这些信息保存到一个CSV文件中代码的主要步骤包括：1.初始化WebDriver。2.打开指定的URL。3.模拟点击“全部”按钮。4.循环抓取每一页的演唱会信息，并写入CSV文件。5.关闭WebDriver。代码拆分讲解1.导入相关库fromselenium.webdriver.supportimportexpecte
Python 爬虫实战：电影评论数据抓取与自然语言处理西攻城狮北 python 爬虫开发语言
引言作为一名对电影数据和自然语言处理感兴趣的内容创作者，我决定利用Python爬虫技术抓取IMDb上的电影评论数据，并进行自然语言处理分析。这不仅可以帮助我们了解观众对电影的反馈，还能为电影制作方提供有价值的参考。一、项目背景IMDb（互联网电影数据库）是全球最大的电影数据库，用户可以在上面查看电影信息和用户评论。本项目旨在爬取IMDb上的电影评论，并对评论进行自然语言处理（NLP），以提取情感、
Python 爬虫实战：科学知识收集网站构建西攻城狮北 python 爬虫开发语言
一、引言在信息爆炸的时代，科学知识的收集与整理变得尤为重要。通过构建一个科学知识收集网站，我们可以高效地获取、整理和展示各类科学知识，为科研人员、学生以及科学爱好者提供便利。本文将详细介绍如何使用Python爬虫技术构建这样一个网站，涵盖从目标网站分析到数据存储与展示的完整流程。二、目标网站分析选择一个合适的科学知识网站作为数据源是构建收集网站的第一步。以中国科学院（http://www.cas.
Python爬虫相关内容猫猫头有亿点炸 python 爬虫开发语言
一、打开源代码的方式鉴于时间过很久后我们可能会忘记的源代码位置所以写下以下文章便于实时查看:一般有两种方法打开源代码:第一是f12第二右键查看网页源代码二、特殊情况第三种情况当你用爬虫爬取内容的时候可能用xpath还是匹配不到任何结果因为页面可能会自动刷新所以使用xpath的时候匹配不到任何内容查找源代码的示例图片三、解决办法这个时候你可以先->f12(笔记本电脑fn+f12)再->ctrl+sh
CIR-DFENet：结合跨模态图像表示和双流特征增强网络进行活动识别是Dream呀神经网络计算机视觉人工智能神经网络深度学习
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学业升学和求职工作的先行者！【优惠信息】•新专栏订阅前200名享9.9元优惠•订阅量破200
Python 爬虫实战：游戏论坛评论数据抓取与游戏热度分析西攻城狮北 python 开发语言爬虫
一、引言随着电子游戏产业的飞速发展，游戏论坛成为了玩家交流心得、分享体验的重要平台。通过分析游戏论坛的评论数据，我们可以了解不同游戏的热度、玩家的评价以及游戏的受欢迎程度。本文将详细介绍如何使用Python爬虫技术抓取游戏论坛的评论数据，并进行游戏热度分析。二、项目背景与目标2.1项目背景游戏论坛如Steam社区、贴吧、NGA等，拥有大量的用户和丰富的评论数据。这些数据反映了玩家对不同游戏的评价和
Python 爬虫实战：艺术品市场趋势分析与交易平台数据抓取西攻城狮北 python 爬虫开发语言
一、引言在当今数字化时代，艺术品市场正经历着前所未有的变革。随着互联网技术的飞速发展，越来越多的艺术品交易转移到了线上平台，这为我们提供了海量的数据资源。通过Python爬虫技术，我们可以抓取艺术品交易平台上的数据，进而分析艺术品市场的趋势，为投资者、收藏家以及艺术爱好者提供有价值的参考。本文将带领读者深入探索Python爬虫在艺术品市场的应用。从爬虫的基本原理到实际代码实现，再到数据的清洗、分析
Python爬虫实战：从青铜到王者的数据采集进化论 Loving_enjoy 实用技巧爬虫 python
#开篇：当你打开浏览器时，爬虫程序在暗处露出了姨母笑某日凌晨3点，程序员老张盯着满屏的404错误，突然领悟了爬虫的真谛——这哪里是数据采集，分明是与网站运维人员斗智斗勇的谍战游戏！本文将带你体验从"HelloWorld"式爬虫到工业级采集系统的奇幻漂流，全程高能预警，请系好安全带。---###第一章青铜时代：初学者的三板斧####1.1环境搭建：你的第一把手术刀安装Python就像选择武器库：``
Python爬虫教程：如何通过接口批量下载视频封面（FFmpeg技术实现） Python爬虫项目 python 爬虫开发语言数据库数据分析 scrapy selenium
引言随着在线视频平台的蓬勃发展，视频封面作为视频内容的预览图，一直以来都是观众对视频的第一印象。在爬取视频资源时，很多开发者和研究者往往只关注视频本身，而忽略了视频封面。实际上，视频封面不仅能提供重要的信息（例如视频标题、主题或情感等），而且它们也能作为数据集中的重要属性，用于视频分类、推荐系统等应用。在这篇博客中，我们将深入探讨如何使用Python通过接口批量下载视频封面，利用FFmpeg等技术
Python 爬虫实战：开放数据集抓取与大数据分析应用西攻城狮北 python 爬虫数据分析
引言在数据驱动的时代，开放数据集成为了各领域研究和应用的宝贵资源。通过抓取和分析开放数据集，我们可以挖掘出有价值的信息，为决策提供支持。本文将详细介绍如何使用Python爬虫技术抓取开放数据集，并进行大数据分析应用。一、项目背景与目标1.项目背景随着信息技术的飞速发展，越来越多的机构和组织开始开放其数据集，以促进创新和研究。这些开放数据集涵盖了各个领域，如气象、交通、医疗、金融等。通过抓取和分析这
Python爬虫-请求模块urllib3 andyyah晓波 python 爬虫开发语言
Python爬虫-请求模块urllib3urllib3是一个功能强大、条理清晰，用于HTTP客户端的第三方模块，许多Python的原生系统已经开始使用urllib3。urllib3提供了很多Python标准库里所没有的重要特性：线程安全。连接池。客户端SSL/TLS验证。使用multipart编码上传文件。Helpers用于重试请求并处理HTTP重定向。支持gzip和deflate编码。支持HTT
Python爬虫-请求模块Urllib andyyah晓波 python 爬虫开发语言
Python爬虫-请求模块UrllibPython3中的Urllib模块中包含多个功能的子模块，具体内容如下：urllib.request：用于实现基本HTTP请求的模块。urllib.error：异常处理模块，如果在发送网络请求时出现了错误，可以捕获异常进行异常的有效处理。urllib.parse：用于解析URL的模块。urllib.robotparser：用于解析robots.txt文件，判断
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理

Scrapy豆瓣爬虫 爬取用户以及用户关注关系