萝卜

Python豆瓣电影爬虫实战(超详解)-----我的机器人女友《阿丽塔》

写在前面

爬虫基础详见我另一篇博客：https://blog.csdn.net/weixin_43329700/article/details/86768422
我的机器人女友----《阿丽塔》中，阿丽塔凭借其天真善良，勇敢正义，敢爱敢恨的品格俘获了众多男性观影者的心，尽管电影中间 掏心脏 的那一段略微有点夸张，但竟然也让我这个 ~~铁石心肠~~ 的男人动情了(还贴了一张大海报到自己房间的藏书阁)，于是当晚就决定之后两周一定要实现这部电影的评论爬取。距离内地首映已经过去半个月了，直到最近一次饭桌上的契机，才让拖拉的我正式开始。
故事背景：茶楼
亲戚(文学出身)：看到你之前写过篇爬虫的博客，能简单讲讲用知识点和作用机理吗？
我：嗯，像用Python爬取百度贴吧或者豆瓣等这些“价值性相对没有那么高”的网站的话，可能简单的requests/urlib + beautfulsoup/正则表达式/xpath + 少许python文件操作 知识就可以了，但如果要爬取新浪微博或者今日头条(爬虫起家)等网站的话，就需要使用Selenium或数据抓包，中间人爬虫等反爬技术来实现了(这些我也不懂，随口说的)。
亲戚：你说这些我也不懂，能一句话概括一下吗？
我：。。。我复制粘贴比较快
亲戚：原来爬虫只是复制粘贴比较快而已，那也没什么嘛
我：。。。(内心活动)

于是为了不丢Python的脸，~~此处省略一万字…~~

题外话

最近打代码闲下来的时候读了一本叫 《群体性孤独》 名字听起来有点鸡汤，但却是一本货真价实的阐述人工智能发展与人类心理学相交合的绝顶好书，也是互联网时代技术影响人际关系的反思之作。作者为TED演讲的常驻嘉宾，麻省理工学院社会学教授，人称技术领域的 [弗洛伊德] ----- 雪莉-克莱尔。刚好又看了《阿丽塔》，不仅思索未来机器人与人的关系，鄙人文采不精，只能借助书本序言来表达：有一天，我将习惯用文字而非声音，用数据而非抚摸，来传递感情。有一天，我们将依赖技术，超过依赖彼此，这就是真正的“机器人时代”。对于这种所谓的“机器的美好和技术的美好”，我有一种有种的不确定性和恐惧。

**------------------正式开始-------------------**

准备工作

pycharm2017 (~~懒于升级~~)
Google chrome 开发者浏览器
500ml 水

爬虫目的

我们需要获取的内容如下，针对每条评论而言

用户名
评分(等级)
评价内容
评价时间
每条评论对应的点赞数(有用数)

爬虫数据的抓取只占到整个爬虫工作的 1/3 不到，真正考验技术和需要时间投入的是突破各种反爬机制和学会使用各种非常规技术手段来获取数据 ------佚名
所以这篇博客重点分享一下我个人理解的思路和走的弯路，最后会附上源码。

实战网址： https://movie.douban.com/subject/1652592/comments?status=P

为什么选择豆瓣呢？原因如下两点：

评论数比较多，已经过10万了，当然也可以选择猫眼，但是前辈尝试过当爬到5万条评论的时候就无法继续进行，可能是网页的时间戳设置。作为刚入门的我还是先调简单一点的来吧。(豆瓣暂时还没有发现异步加载Ajax和JS等，动态加载的概念等一下解释哈)
个人感觉豆瓣有点类似IMDB电影网，会过滤掉一些恶意灌水和无用评论如图

概念剖析—Ajax异步加载技术

所谓异步加载，就是不同步加载，这里举几个例子大家就明白了。

百度搜索：还没有按下回车就会“猴急”的弹出可能的搜索信息。才输入一个“阿”字。。
京东加载
我打开京东首页后等5s，如果不是异步加载的话滚动条下面的东西也应该加载完毕了。
但当我以光速拉动滚动条到中下部分的时候。。

如果上述例子还是比较难理解或者不知道异步加载有什么用的话，那么接下来这几个身边的你每天都在体验的异步加载一定会让你有更好的理解：
知乎/朋友圈：每有一条朋友圈或知乎消息动态时，你都会看到有小小的红标提示，而不会整个知乎又刷新一次，如果没有异步加载的功劳，看知乎时每来一条消息知乎就给你自动刷新并等待，想想都烦。
饭店中的异步加载：冬天请一桌朋友吃饭：除非有特殊要求，否则菜大多是逐个上的，既可以通过前菜，正菜，饭后小吃水果等步骤获得最佳用餐体验，又可以避免一次上太多吃得不及时凉掉。
一句话 异步加载可以节省资源，通过滚动鼠标，键盘输入，~~喊服务员~~ 等触发机制来加载内容，从容不迫。
而解决异步加载问题也是爬虫的一个蛮重要的知识点，我还没学精，所以豆瓣刚好适合练手。

重要思路

循序渐进的“先抓大再抓小” 原则

说实话，这个原则将贯穿我们整个爬虫生涯，也有很多叫法，不过总的来说都是先抓大再抓小的思想。通俗来讲，就是层层定位，跟点外卖一个道理：比如广东省广州市天河区粤垦路王府天厨隔壁停车场-3楼的消防栓旁。由大标签到小标签，我们需要的数据们都是在我同一个楼层里面如图：

要的数据们都在标签为div，属性为comment-item里面中。

所以我们可以考虑先将整个楼层的源代码提取下来，然后再单独对每一个楼层里面的含有我们需要提取的数据的html标签进行解析（每一层楼的结构又恰好是一样的）。有些人会说为什么不直接进行提取，就是 直接小 ，直接细化到每一个标签呢？答案是这样也可以，但是会有出错的可能。解释起来比较复杂，可以自行其他大神的博客。

需要用到的库

import requests
import lxml.html
import pandas as pd

个人感觉 lxml 库比 etree 要好用，lxml库的用法可以见我上一篇博客：
https://blog.csdn.net/weixin_43329700/article/details/86768422

获取网页源代码

url = 'https://movie.douban.com/subject/1652592/comments?start=0&limit=20&sort=new_score&status=P'
# 养成同时构造headers的习惯，有时候仅仅更换UA(User-Agent)是爬不到的，建议可以全改
headers = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8','Accept-Encoding': 'gzip, deflate, br','Accept-Language': 'zh-CN,zh;q=0.9','Cache-Control': 'max-age=0',
    'Connection': 'keep-alive','Host': 'movie.douban.com','Referer': 'https://movie.douban.com/subject/1652592/comments?status=F',
    'Upgrade-Insecure-Requests': '1','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'
}

html = requests.get(url, headers=headers).content.decode() 
with open('source.txt', 'w', encoding='utf-8') as f:
    f.write(html)

我的headers是在这里找的

先抓大

selector = lxml.html.fromstring(html)

# 先抓大再抓小的抓大：每条评论的整个楼层
comments_blocks = selector.xpath('//div[@class="comment-item"]')
print(comments_blocks)    # 检查,20个对象

抓大结束

相信大家跟我一样，以前都看过不少高手写的爬虫代码，但对大神们的编写和调试代码的思路却存在不少疑惑，为什么他们就能写出这么好的代码，他们是怎么想出来的，他们要列草稿吗？感觉博客里面说得都好顺呀，轮到自己实际操作怎么就不行了，他们是怎么将学到的知识点灵活运用拼凑起来的？

在深入学习，反复演练了某位微信公众号大牛的某篇博客以后，终于有所收获，尝试推敲出他们写代码和做草稿的过程，~~尽管可能大神们不需要列草稿~~ 并终于能够不看书仅借助极少量的搜索完成了这次爬虫。

翻页爬取

这次涉及翻页爬取，跟我前博客的单页爬取多页拼凑的~~小学生~~方法相比有了很大改进
建议开三个python文件
旧爬不累：适时给予良好反馈，不要写完一大段代码才去调试。

先试着根据先抓大再抓小的爬取一层楼的各种信息后保存到csv文件或生成表格； 循环打印出要爬取的网址(当然这里仅限有规律的网址)，定义函数来实现。上述思路放第一个py文件
因为一般情况下每一层楼的html标签都是一样的，所以单层楼成功以后便可以尝试循环楼层爬取单页的信息，注意，这里建议还是单页。存放于第二个py文件中
第三个py文件：若翻页爬取时页码太多，建议先尝试爬取5页(少量页码)的数据，根据第一点的思路定义一个能够解析单个网页的函数，尝试结合第一点的函数来实现较少页数的循环爬取，因为有的网站如猫眼在翻页爬取到一定的页数的时候会出现报错，以前看过好像是网页设置，时间戳的问题。
前两点都尝试成功以后就可以试一下多页爬取啦，我这个实战有5000多页(真这么牛逼吗？后文揭晓)，因为若前三点都成功的话，复制粘贴也就是几分钟的事情，或者直接在第三个文件那里直接将循环的终点数字改到自己想要的页码规律数
~~我爱学英语~~草稿的英文为：Draft，我这里用D1，D2，D3来表示

D1：爬取单层楼的所有信息

import requests
import lxml.html


# 尝试爬取第一页，第二页时改动url即可
url = 'https://movie.douban.com/subject/1652592/comments?start=0&limit=20&sort=new_score&status=P'
headers = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8','Accept-Encoding': 'gzip, deflate, br','Accept-Language': 'zh-CN,zh;q=0.9','Cache-Control': 'max-age=0',
    'Connection': 'keep-alive','Host': 'movie.douban.com','Referer': 'https://movie.douban.com/subject/1652592/comments?status=F',
    'Upgrade-Insecure-Requests': '1','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'
}

html = requests.get(url, headers=headers).content.decode() # 这里不用用cookies反倒可以

selector = lxml.html.fromstring(html)

# 先抓大再抓小的抓大：每条评论的整个楼层
comments_blocks = selector.xpath('//div[@class="comment-item"]')
print(comments_blocks)    # 检查,20个对象

# 爬取单层楼(以第一层为例)，所以从content中抽出第一个对象
first_block = selector.xpath('//div[@class="comment-item"]')[0]
print(first_block)   # 检查，一个对象

# 以下均为第一层楼的各种信息
# 用户名
username = first_block.xpath('div[1]/a[1]/@title')[0]
print(username)   # ok

# 星级,发现爬不出来，因为是在span标签中的属性中的某一部分。。只好尝试爬取属性title的值来表示星级
# 博客配图
stars = first_block.xpath('div[2]/h3/span[2]/span[2]/@title')[0]
print(stars)  # ok

# 评论内容,打印两种形式的给大家对比看一下，我的第一篇博客关于xpath的个人理解已经分享得比较详细了，
# 暂时不理解xpath可以点击连接跳转哈
content_list = first_block.xpath('div[2]/p/span/text()')
content_string = first_block.xpath('div[2]/p/span')[0].text
print(content_list)
print('-'*66)  # 分割线的好习惯
print(content_string)

# 评论时间
time = first_block.xpath('div[2]/h3/span[2]/span[3]/@title')[0]
print(time)   # ok

# 每条评论对应的有用数
useful_num = first_block.xpath('div[2]/h3/span[1]/span')[0].text
print(useful_num)

结果

D2：循环爬取单页(20层楼)

import requests
import lxml.html
import pandas as pd

url = 'https://movie.douban.com/subject/1652592/comments?start=0&limit=20&sort=new_score&status=P'
headers = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8','Accept-Encoding': 'gzip, deflate, br','Accept-Language': 'zh-CN,zh;q=0.9','Cache-Control': 'max-age=0',
    'Connection': 'keep-alive','Host': 'movie.douban.com','Referer': 'https://movie.douban.com/subject/1652592/comments?status=F',
    'Upgrade-Insecure-Requests': '1','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'
}

html = requests.get(url, headers=headers).content.decode() # 这里不用用cookies反倒可以


selector = lxml.html.fromstring(html)

# 先抓大再抓小的抓大：每条评论的整个楼层
comments_blocks = selector.xpath('//div[@class="comment-item"]')
#print(comments_blocks)    # 检查,20个对象

# 循环爬取整页的每一个楼层的所需要的信息
# 创建存储爬得信息的容器，个人偏爱DataFrame
result = pd.DataFrame()
for each in comments_blocks:
    # 用户名
    username = each.xpath('div[1]/a[1]/@title')[0]
    # 星级
    stars = each.xpath('div[2]/h3/span[2]/span[2]/@title')[0]
    # 评论内容
    content = each.xpath('div[2]/p/span')[0].text
    # 评论时间
    time = each.xpath('div[2]/h3/span[2]/span[3]/@title')[0]
    # 每条评论对应的有用数
    useful_num = each.xpath('div[2]/h3/span[1]/span')[0].text
    data = {
        '用户名': [username],
        '星级': [stars],
        '评论内容': [content],
        '评论时间': [time],
        '有用数': [useful_num]
    }
    cache = pd.DataFrame(data)
    result = pd.concat([result, cache])

result.to_csv('first_page.csv')

D3：循环爬取几页

找寻网址规律：既然是循环爬取，那就得循环翻页，我们先来观察一下网址随页码变化的规律
首页：

第二第三页


start参数公差为20，正好是每页评论的数量
于是定义一个能够循环网址的函数，里面涉及的格式化和具体思路可以参照这篇快速创建文件夹提高文书效率的博客哈
https://blog.csdn.net/weixin_43329700/article/details/88247524

init_url = 'https://movie.douban.com/subject/1652592/comments?start={}&limit=20&sort=new_score&status=P'
# 先试一下50页，也就是1万条评论
def format_url(init_url):
    urls = []
    for i in range(0,1000,20):
        urls.append(init_url.format(i))
    return urls# ok


# 循环爬取部分页数的时候，不禁会发现每一页的操作都要两个步骤：获取网页源代码和解析网页，
# 即获取每一页所需要的数据并存储到DataFrame当中
# 每一页的操作都相同，那就自然能够想起来应该需要函数来代替重复的工作

# 循环爬取整页的每一个楼层的所需要的信息
# 创建存储爬得信息的容器，个人偏爱DataFrame
# 定义能够解析单个页面的函数
def parse_page(url, headers):
    result = pd.DataFrame()
    html = requests.get(url, headers=headers).content.decode()  # 这里不用用cookies反倒可以
    selector = lxml.html.fromstring(html)
    # 先抓大再抓小的抓大：每条评论的整个楼层
    comments_blocks = selector.xpath('//div[@class="comment-item"]')
    for each in comments_blocks:
        # 用户名
        username = each.xpath('div[1]/a[1]/@title')[0]
        # 星级
        stars = each.xpath('div[2]/h3/span[2]/span[2]/@title')[0]
        # 评论内容
        content = each.xpath('div[2]/p/span')[0].text
        # 评论时间
        time = each.xpath('div[2]/h3/span[2]/span[3]/@title')
        # 每条评论对应的有用数
        useful_num = each.xpath('div[2]/h3/span[1]/span')[0].text
        data = {
            '用户名': [username],
            '星级': [stars],
            '评论内容': [content],
            '评论时间': [time],
            '有用数': [useful_num]
        }
        cache = pd.DataFrame(data)
        result = pd.concat([result, cache])
    return result

要想将上述定义好的两个函数很好的连接在一起，可以放到一个主函数中

def main():
    final_result = pd.DataFrame()
    init_url = 'https://movie.douban.com/subject/1652592/comments?start={}&limit=20&sort=new_score&status=P'
    headers = {
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
        'Accept-Encoding': 'gzip, deflate, br', 'Accept-Language': 'zh-CN,zh;q=0.9', 'Cache-Control': 'max-age=0',
        'Connection': 'keep-alive', 'Host': 'movie.douban.com',
        'Referer': 'https://movie.douban.com/subject/1652592/comments?status=F',
        'Upgrade-Insecure-Requests': '1','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'
    }
    urls = format_url(init_url)
    for url in urls:
        res = parse_page(url, headers=headers)
        final_result = pd.concat([final_result, res])
    time.sleep(5.2)
    return final_result



if __name__ == '__main__':
    final_result = main()

final_result.to_csv('50 pages.csv')

大刀阔斧

既然50页都成功了，那就直接试一下最大页数爬取

import requests
import lxml.html
import pandas as pd
import time


def format_url(init_url):
    urls = []
    for i in range(0,104000,20):  # 唯一改动处
        urls.append(init_url.format(i))
    return urls

def parse_page(url, headers):
    result = pd.DataFrame()
    html = requests.get(url, headers=headers).content.decode() 
    selector = lxml.html.fromstring(html)
    # 先抓大再抓小的抓大：每条评论的整个楼层
    comments_blocks = selector.xpath('//div[@class="comment-item"]')
    for each in comments_blocks:
        # 用户名
        username = each.xpath('div[1]/a[1]/@title')[0]
        # 星级
        stars = each.xpath('div[2]/h3/span[2]/span[2]/@title')[0]
        # 评论内容
        content = each.xpath('div[2]/p/span')[0].text
        # 评论时间
        time = each.xpath('div[2]/h3/span[2]/span[3]/@title')
        # 每条评论对应的有用数
        useful_num = each.xpath('div[2]/h3/span[1]/span')[0].text
        data = {
            '用户名': [username],
            '星级': [stars],
            '评论内容': [content],
            '评论时间': [time],
            '有用数': [useful_num]
        }
        cache = pd.DataFrame(data)
        result = pd.concat([result, cache])
    return result

# 要想将上述定义好的两个函数很好的连接在一起，可以放到一个主函数中
def main():
    final_result = pd.DataFrame()
    init_url = 'https://movie.douban.com/subject/1652592/comments?start={}&limit=20&sort=new_score&status=P'
    headers = {
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
        'Accept-Encoding': 'gzip, deflate, br', 'Accept-Language': 'zh-CN,zh;q=0.9', 'Cache-Control': 'max-age=0',
        'Connection': 'keep-alive', 'Host': 'movie.douban.com',
        'Referer': 'https://movie.douban.com/subject/1652592/comments?status=F',
        'Upgrade-Insecure-Requests': '1','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'
    }
    urls = format_url(init_url)
    for url in urls:
        res = parse_page(url, headers=headers)
        final_result = pd.concat([final_result, res])
    time.sleep(5.2)
    return final_result



if __name__ == '__main__':
    final_result = main()

final_result.to_csv('100000_comments.csv')

经过“漫长的”等待，结果如图

翻译一下：
超过最大重试与url，大意为start参数到1400就已经不行了？
试一下把1400直接输进网址

？？？按道理不是应该至少有 100000/20= 5000页的吗

于是我试着把start的参数改成小于1400的，二分法直接取一半，700

还不行？500试一下

突然发现starts参数为500的时候就是我第一次尝试翻页爬取的时候range函数里面设置的最大值，于是果断点击前一页

原来480已经是最后一页了，说好的100000评论5000多页呢？后来询问在豆瓣评论过电影的朋友才发现原来一开始的看过显示的十万三千多人，人数并不代表评论数。听到这个消息时差点哭出声：

唉，只好安慰自己，理解思路并体会到爬虫的乐趣就行，

于是打开文件夹看看爬取的成果

不仅乱码格式也不对，真的是双重打击

知道是编码格式不对，但是pandas库中的to_csv()没有办法显示增加编码格式
https://blog.csdn.net/fwj_ntu/article/details/78563962
这篇是万能的csv文件打开乱码解决办法

也可改成用csv库的方法，csv库的方法我在这篇博客也有介绍：
https://blog.csdn.net/weixin_43329700/article/details/86768422

于是循环爬取单页的草稿就变成

result_list = []   改动点
for each in comments_blocks:
    # 用户名
    username = each.xpath('div[1]/a[1]/@title')[0]
    # 星级
    stars = each.xpath('div[2]/h3/span[2]/span[2]/@title')[0]
    # 评论内容
    content = each.xpath('div[2]/p/span')[0].text
    # 评论时间
    time = each.xpath('div[2]/h3/span[2]/span[3]/@title')[0]
    # 每条评论对应的有用数
    useful_num = each.xpath('div[2]/h3/span[1]/span')[0].text
    改动点
    result = {
        '用户名': [username],
        '星级': [stars],
        '评论内容': [content],
        '评论时间': [time],
        '有用数': [useful_num]
    }
    result_list.append(result) 改动点

改动点
with open('Alita.csv', 'w', encoding='utf-8') as f:
    fieldnames = ['用户名', '星级', '评论内容', '评论时间', '有用数']
    writer = csv.DictWriter(f, fieldnames=fieldnames)
    writer.writeheader() # 告诉Python为这个csv文件创造三个列空间
    writer.writerows(result_list)

战战兢兢地点开用csv模块的创建的这个csv文件，结果还是出现了乱码，不过格式规整多了。

尝试把编码格式改为 ‘gb18030’ 后，终于成功

with open('Alita.csv', 'w', encoding='gb18030') as f:
    fieldnames = ['用户名', '星级', '评论内容', '评论时间', '有用数']
    writer = csv.DictWriter(f, fieldnames=fieldnames)
    writer.writeheader() # 告诉Python为这个csv文件创造三个列空间
    writer.writerows(result_list)

这里不少同学可能会疑惑，怎么会突然想到改成 ‘gb18030’ 呢？
原因有两个:
6. 以前积累过的编码格式错误的笔记，可以改几个尝试一下，改成
这个的成功率是我试过最高的。或者参考这篇博文：https://blog.csdn.net/qiqiaiairen/article/details/51535262
7. 用csv模块，且在windows中创建的文件，使用了UTF-8打开文件的话，有一定几率会出现乱码。还有一种便是通过Chrome浏览器查找当前页面的编码格式，个人觉得这个还是蛮有用的，出奇不意会帮得上忙。操作输入如下图：
8.
好，大功告成，附上完整的代码

import requests
import lxml.html
import re
import pandas as pd
import time

# 定义一个能够遍历规律网址的函数
def format_url(init_url):
    urls = []
    for i in range(0,1000,20):
        urls.append(init_url.format(i))
    return urls

# 定义能够解析单个页面的函数
def parse_page(url, headers):
    result = pd.DataFrame()
    html = requests.get(url, headers=headers).content.decode()  
    selector = lxml.html.fromstring(html)
    # 先抓大再抓小的抓大：每条评论的整个楼层
    comments_blocks = selector.xpath('//div[@class="comment-item"]')
    for each in comments_blocks:
        # 用户名
        username = each.xpath('div[1]/a[1]/@title')[0]
        # 星级
        stars = each.xpath('div[2]/h3/span[2]/span[2]/@title')[0]
        # 评论内容
        content = each.xpath('div[2]/p/span')[0].text
        # 评论时间
        time = each.xpath('div[2]/h3/span[2]/span[3]/@title') 
        # 这里加上[0]的话可能会报错
        # 每条评论对应的有用数
        useful_num = each.xpath('div[2]/h3/span[1]/span')[0].text
        data = {
            '用户名': [username],
            '星级': [stars],
            '评论内容': [content],
            '评论时间': [time],
            '有用数': [useful_num]
        }
        cache = pd.DataFrame(data)
        result = pd.concat([result, cache])
    return result

# 要想将上述定义好的两个函数很好的连接在一起，可以放到一个主函数中
def main():
    final_result = pd.DataFrame()
    init_url = 'https://movie.douban.com/subject/1652592/comments?start={}&limit=20&sort=new_score&status=P'
    headers = {
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
        'Accept-Encoding': 'gzip, deflate, br', 'Accept-Language': 'zh-CN,zh;q=0.9', 'Cache-Control': 'max-age=0',
        'Connection': 'keep-alive', 'Host': 'movie.douban.com',
        'Referer': 'https://movie.douban.com/subject/1652592/comments?status=F',
        'Upgrade-Insecure-Requests': '1','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'
    }
    urls = format_url(init_url)
    for url in urls:
        res = parse_page(url, headers=headers)
        final_result = pd.concat([final_result, res])
    time.sleep(5.2)
    return final_result



if __name__ == '__main__':
    final_result = main()

final_result.to_csv('Pages.csv')

想要集体替换掉被提取内容的某些字符串的话可以考虑用excel，pandas库等这里就不一一赘述了。总的来说这次爬虫练习只能给到自己70分。

结果分析

因为已经有不少文章是关于爬虫豆瓣，ILDB，猫眼电影等的分析了，还有精美的图片，所以这里就不展示了。

这里有一个新奇的情感分析库可以推荐一下：

根据你描述的中文给出你的情感指数，精确的小数位数有点可怕。

写在后面

鄙人原本对整天对着电脑的工作和学习比较厌恶，对英语比较有兴趣，接触Python的原因也是比较奇葩：就因为Python这个名字好听，仅此而已没有别的什么说python潮流简单易上手。而爬虫也让我对计算机行业的感情由轻微厌恶 ------> 喜欢。虽然现在还很菜，但是兴趣和态度起来了，接下来就可以用心学习钻研了。所以多多学习还是有好处的，没准能带来学这样东西以外的收获。(英语转Python这个跨度也令我身边不少朋友称奇哈哈)

一本好书：Netflix公司(对就是那个美国流媒体巨头、世界最大的收费视频网站网飞，快破产的时候“随便”弄了部剧叫 纸牌屋)，与 Facebook，亚马逊，Google并成为 “硅谷四剑客”。其人力资源总监写的 《奈飞文化手册》 一书中深刻解密了 Netflix成功的原因以及对技术时代下公司经营的一些思考(程序员或者工程师们都才华横溢，却往往因为沟通或者合作的问题无法发挥出1+1>2的作用)。其中最令我深刻的一句话便是 “我们公司的工程师们及管理层都对数据有着狂热的感情，但我始终觉得数据只能辅助人们做决策，，人们会对自己整理的数据持有偏见。人们总是倾向于人为自己的数据优于他人的数据，所以市场部用一批数据，销售部用一批数据，小心看起来很好实际上没用的数据，做决定最终需要的还是判断力已全局视野” 这启发我应该在提升数据获取能力的同时也要专注于提高分析能力，不应该为了做出漂亮的图表而打代码，应该去往更深层次，更贴近问题本质与客户需求方面来考虑(词穷…)
作为资深影迷的我，以前在去电影院看电影前总是会查找多方渠道的评价与电影分析，冷静分析性价比之类的才去，导致真的错过太多的好电影(对于自己来说的好电影)，所以以后看中了哪部片子，简单想一下如果是真的想去看就不墨迹直接去。

你可能感兴趣的:(网络爬虫,Python豆瓣电影评价爬虫,Python爬虫实战(超详解),网络爬虫,Python爬虫分析)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
基于定制开发开源AI智能名片S2B2C商城小程序的社群游戏定制策略研究说私域人工智能小程序游戏
摘要：本文聚焦社群游戏定制领域，深入探讨以社群文化和用户偏好为导向的定制策略。通过分析互动游戏活动、社群文化塑造等关键要素，结合定制开发开源AI智能名片S2B2C商城小程序的技术特性，提出针对性游戏定制方案。研究旨在提升社群用户参与度与游戏体验，为社群游戏发展提供理论支持与实践指导。关键词：社群游戏定制；定制开发开源AI智能名片S2B2C商城小程序；社群文化；用户偏好一、引言在数字化社交蓬勃发展的
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
LeetCode 148. 排序链表：归并排序的细节解析进击的小白菜 2025 Top100 详解 leetcode 链表算法
文章目录题目描述一、方法思路：归并排序的核心步骤二、关键实现细节：快慢指针分割链表1.快慢指针的初始化问题2.为什么选择`fast=head.next`？示例1：链表长度为偶数（`1->2->3->4`）三、完整代码实现四、复杂度分析五、总结题目描述LeetCode148题要求对链表进行排序，时间复杂度需为O(nlogn)，且空间复杂度为O(logn)。由于链表的特殊结构（无法随机访问），归并排序
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
【超硬核】JVM源码解读：Java方法main在虚拟机上解释执行 HeapDump性能社区 java 开发语言后端 jvm
本文由HeapDump性能社区首席讲师鸠摩（马智）授权整理发布第1篇-关于Java虚拟机HotSpot，开篇说的简单点开讲Java运行时，这一篇讲一些简单的内容。我们写的主类中的main()方法是如何被Java虚拟机调用到的？在Java类中的一些方法会被由C/C++编写的HotSpot虚拟机的C/C++函数调用，不过由于Java方法与C/C++函数的调用约定不同，所以并不能直接调用，需要JavaC
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
基于开源AI智能名片链动2+1模式与S2B2C商城小程序的渠道选择策略研究说私域人工智能小程序
摘要：在数字化商业环境下，品牌与产品的渠道选择对其市场推广和运营成功至关重要。本文聚焦于如何依据自身品牌和产品特性，结合开源AI智能名片链动2+1模式与S2B2C商城小程序，运用科学的渠道选择方法，慎重挑选1-2个适宜平台，集中资源发力并取得成绩后再拓展其他渠道。通过理论分析与案例研究，探讨该策略的有效性和可行性，为企业渠道布局提供参考。关键词：渠道选择；开源AI智能名片；链动2+1模式；S2B2
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
C++ 设计模式：抽象工厂（Abstract Factory）冀晓武 C++设计模式 c++设计模式抽象工厂模式
链接：C++设计模式链接：C++设计模式-工厂方法链接：C++设计模式-原型模式链接：C++设计模式-建造者模式抽象工厂（AbstractFactory）是一种创建型设计模式，它提供一个接口，用于创建一系列相关或相互依赖的对象，而无需指定它们的具体类。抽象工厂模式通常用于创建一组相关的产品对象，例如不同类型的机器人和它们的配件。1.问题分析在某些情况下，我们需要创建一组相关或相互依赖的对象，但我们
php 高并发下日志量巨大，如何高效采集、存储、分析贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.问题背景高并发系统每秒产生大量日志（如访问日志、错误日志、业务日志等）。单机写入、存储、分析能力有限，容易成为瓶颈。需要支持实时采集、分布式存储、快速检索与分析。2.主流架构方案一、分布式日志采集架构[应用服务器(PHP等)]|v[日志采集Agent（如Filebeat、Fluentd、Logstash）]|v[消息队列/缓冲（如Kafka、Redis、RabbitMQ）]|v[日志存储（如E
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
MySQL Explain 详解：从入门到精通，让你的 SQL 飞起来
引言：为什么Explain是SQL优化的“照妖镜”？在Java开发中，我们常常会遇到数据库性能瓶颈的问题。一条看似简单的SQL语句，在数据量增长到一定规模后，可能会从毫秒级响应变成秒级甚至分钟级响应，直接拖慢整个应用的性能。此时，你是否曾困惑于：为什么这条SQL突然变慢了？索引明明建了，为什么没生效？到底是哪里出了问题？答案就藏在MySQL的EXPLAIN命令里。EXPLAIN就像一面“照妖镜”，
kube-scheduler 抢占机制分享放大价值 kubernetes源码分析 kubernetes kube-scheduler 抢占
当pod调度失败后，会在PostFilter扩展点执行抢占流程，下面分析相关的代码实现抢占接口//PodNominatorabstractsoperationstomaintainnominatedPods.typePodNominatorinterface{//将pod加入抢占成功的node中AddNominatedPod(pod*PodInfo,nodeNamestring)//将pod从no
Linux/Centos7离线安装并配置MySQL 5.7 有事开摆无事百杜同学 LInux/CentOS7 linux mysql 运维
Linux/Centos7离线安装并配置MySQL5.7超详细教程一、环境准备1.下载MySQL5.7离线包2.使用rpm工具卸载MariaDB（避免冲突）3.创建系统级别的MySQL专用用户二、安装与配置1.解压并重命名MySQL目录2.创建数据目录和配置文件3.设置目录权限4.初始化MySQL5.配置启动脚本6.配置环境变量三、启动与验证1.启动MySQL服务2.获取初始密码3.登录并修改密码
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
前端 NPM 包的依赖可视化分析工具推荐前端视界前端艺匠馆前端 npm arcgis ai
前端NPM包的依赖可视化分析工具推荐关键词：NPM、依赖管理、可视化分析、前端工程、包管理、依赖冲突、性能优化摘要：本文将深入探讨前端开发中NPM包依赖可视化分析的重要性，介绍5款主流工具的使用方法和特点，并通过实际案例展示如何利用这些工具优化项目依赖结构、解决版本冲突问题以及提升构建性能。文章将帮助开发者更好地理解和掌控项目依赖关系，提高开发效率和项目可维护性。背景介绍目的和范围本文旨在为前端开
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/