RockyLiu1992

猫眼电影排行榜前100爬取案例学习笔记

最近在学习崔庆才老师著作的《python3 网络爬虫开发实战》，对爬取猫眼排名榜前100电影的讲解案例，产生一些小想法，结合pandas 在数据分析方面的应用，给出以下学习笔记，作为rockyliu学习爬虫成长道路上的one small step.

话不多说，先汇总本次爬取的目标：

1）获取猫眼排名榜前100电影
2）获取前100电影图片存放在本地
3）获取前100电影的英文名称
4）通过百度百科获取电影区域归属
5）展示前100电影的上映时间分布
6）展示参演频率最高的前5位演员及所参演电影

是不是感觉rockyliu有点贪，让我们拭目以待吧。

实现目标1：获取猫眼排名榜前100电影

先上效果图：

如效果图，通过爬虫代码，从猫眼电影排行榜上，获取前100的电影的相关信息（排名/电影海报地址/电影名/主演/上映时间/评分）。接下来上代码，供大家参考学习：

import requests
import re
import time
from requests.exceptions import RequestException
import pandas as pd 

#先定义一个获取网站源代码的方法
def get_one_page(url):
#使用try方法，防止程序中断报错
    try:
        headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'}    
        response = requests.get(url,headers=headers)
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        return None
#   rockyliu 偏好 写出print('wrong1:获取一个网站源代码出错')，便于快速查找问题

#定义一个对源代码解析，并利用正则表达式获取想要的值，再结合pandas库，生成pandas.DataFrame数据
def parse_one_page(html):
#该处的正则表达式，可能会随着时间推移而改变，若报错，请读者自行更新哟
    pattern = re.compile(
            '.*?board-index.*?>(.*?).*?data-src="(.*?)".*?name.*?a.*?>(.*?).*?star.*?>(.*?)
.*?releasetime.*?>(.*?)
.*?integer.*?>(.*?).*?fraction.*?>(.*?).*?',re.S)
    items = re.findall(pattern,html)
    pf = pd.DataFrame()   
    for item in items:
        a = [item[0],item[1],item[2].strip(),item[3].strip()[3:] if len(item[3])>3 else '',item[4].strip()[5:] if len(item[4])>5 else '',item[5].strip()+item[6].strip()]
#需要注意item[5]代表评分整数，item[6]代表评分小数，因此合计评分要两者相加
        pf_ = pd.DataFrame(a)
        pf = pd.concat([pf,pf_.T])   #要注意pf_.T，即转置小细节，否则会报错哟
    yield pf
'''通过yield函数生成一个汇总的pd.DataFrame数据（小细节，yield 只能存在函数表达式中（def balaba:），否则就会出现outside function报错  ）    
'''
#定义一个写入文档函数：
def write_to_file(offset):
    url = 'https://maoyan.com/board/4?offset='+str(offset)
    html = get_one_page(url)
    for item in parse_one_page(html):
        print(item.shape)
#如果是第一个网页，即前10电影，增加一个列表头，其他则不增加，以header = True /False 体现
        if offset == 0:
            item.columns = ['index','image_url','title','actor','time','score'] 
            item.to_csv('result.csv',mode='a',encoding='gbk',index=False)
        else:
            item.to_csv('result.csv',mode='a',encoding='gbk',index=False,header=False)
'''
小细节，要增加encoding = 'gbk'和mode='a',相信rockyliu没有错
生成的result.csv,就存在python代码所在的文件夹内。rockyliu建议写成绝对路径：r'D:\bala\result.csv'
'''
#定义一个获取前X*10的电影函数
def get_top_movie(top=10):
# if 函数，主要为了防止出现非1-10的值
    if (not isinstance(top,int)):
        print('wrong2：输入值不为整数')
    elif (top>10) | (top<1):
        print('wrong3：输入值不在1-10内')
    else:
        for i in range(top):
            write_to_file(offset=i*10)
            time.sleep(1)
#最后一步，调用函数
get_top_movie()

通过上述代码，我们实现了目标1）获取猫眼排名榜前100电影，

实现目标2：获取前100电影图片存放在本地

先上效果图：

满屏幕的图片是不是很赞呢？立刻贴代码：

import requests
import pandas as pd 
from requests.exceptions import RequestException
import time 

#读取前100电影海报图片url地址
pf = pd.read_csv('result.csv',encoding='gbk')
#爬虫的报文头，headers主要就是模拟浏览器登陆，否则可能会获取不到相关图片
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'}

for i in range(100):
    url = pf.iloc[i,1]
    movie_image_name =str(i+1)+'-' + pf.iloc[i,2]
'''
小细节，str(i+1)+'-'就是为了快速辨识电影的排名.
若不加上str(),直接（i+1）+'-'会报错哟
'''
    try:
        response = requests.get(url,headers=headers)
        if response.status_code == 200:
            content = response.content
'''
小细节，如果写成response.text 不能正常写入哟。会报 'gbk' codec can't encode character '\ufffd' in position 0: illegal multibyte sequence
'movie_image\\'，要记得先在代码所在文件夹中新建一个movie_image的文件夹，否则会报错的哟
'\\'多出一个'\'是因为为了转义，不要漏了哟
'''
            movie_image_path = 'movie_image\\' + movie_image_name +'.jpg'
            with open(movie_image_path,'wb') as f:
                f.write(content)
        else:
            print('wrong1:获取图片错误')
            print(response.status_code)
    except RequestException:
        print('wrong1:获取图片错误')
    print(i)  # 要不然，空等着程序跑，看着着急死人
    time.sleep(1)

实现目标3：获取前100电影的英文名称

通过百度百科获取前100电影的外文名称和制片地区，着实不易。anyway，贴上代码跟大家一起分享：

import requests
import re 
import pandas as pd 
import time
from requests.exceptions import RequestException
inputfile = 'result.csv'

# 利用pandas读取前面从猫眼电影上爬取的数据
pf = pd.read_csv('result.csv',encoding='gbk')   
# 新增三列，分别为  name_en - 外文名称，movie_area - 制片地址，movie_base_info- 电影基本信息
title = pf['title']
pf['name_en'] = None
pf['movie_area'] = None
pf['movie_base_info'] = None 

'''
百科的搜索地址，是rockyliu浏览众多网页中找到的，官网是要进行商务合作且收费的。若读者用于商业用途，则有可能造成侵权
'''
url_ = 'http://baike.baidu.com/search/word?word='

'''
定义一个获取百度百科指定电影的网页
模块代码冷知识：爬取到的百科网页编码为ISO-8859-1，需要response.text.encode('ISO-8859-1').decode("utf-8")，进行特殊处理，否则将报错哟。各种编码问题，今后找时间跟大家讲解下
'''
def get_movie_extra(url):
    try:
        headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'}
        response = requests.get(url,headers=headers)
        if response.status_code == 200:
            return response.text.encode('ISO-8859-1').decode("utf-8")
        return None
    except RequestException:    
        return None
'''
对获取的网页内容进行关键字提取获取
利用chrome浏览器中开发者工具，可以获取当前网页内容，结合notepad++，非常非常提高对网页的分析。
从中获取关键的字符有：class="basicInfo-item name和class="basicInfo-item value，围绕这两个关键字符，给出正则表达式

鉴于name/value组合，创建一个字典，便于今后提取相关字段和值

rockyliu的正则表达式玩的还不溜，所以，需要对name和value进行二次处理。读者有好的正则表达式，欢迎在评论区回答。毕竟正则表达式的书写是一门艺术

定义函数时，最好是用到return  

'''
def parse_movie_extra(html):
    pattern = re.compile('(.*?)
.*?(.*?)','',list_values[i],re.S).replace(' ','').replace('\n','')
    dic = dict(zip(list_keys,list_values))
    return dic 
'''
提取title列，进行for循环，分别给出name_en/movie_area/movie_base_info的值
特别说一句，最新的pandas库，要求赋值，最好利用 .at[index,column]=value的方式，而非pf[column][index]=value

增加time.sleep(1)，主要担心爬取过快，被对方封IP
增加print('已完成%d个查找'%(i+1))，便于知道当前进度，心里有数

'''
    
for i in range(len(title)):
    url = url_+title[i]
    html = get_movie_extra(url)
    dict1 = parse_movie_extra(html)
    pf.at[i, 'name_en'] = dict1.get('外文名',None)
    pf.at[i,'movie_area'] = dict1.get('制片地区',None)
    pf.at[i,'movie_base_info'] = dict1
    time.sleep(1)
    print('已完成%d个查找'%(i+1))
pf.to_csv('result1.csv',encoding='utf_8_sig',index=False)#    

'''
本次数据格式，有gbk，有utf-8,有ISO-8859-1，用excel打开后，一直报错，网上查了资料，用encoding='utf_8_sig'utf_8_sig，完美解决。
index =False ,一定不要丢了，否则，朋友试下就知道，嘿嘿。

'''
print('完成任务')

完成目标1，2，3，4后，基本上想要的数据已经全了。接下来目标5，6，都是数据分析展示了。

目标5）展示前100电影的上映时间分布效果图（好片于2010-2013扎堆上映）

6）展示参演频率最高的前5位演员及所参演电影效果图（哥哥是最高产的）

贴代码咯

import pandas as pd
import re


'''
读取已经添加百度百科的数据
挑选出我们需要的几个列字段，index/排名，title/名称,actor/主演,time/上映时间，name_en/外文名称，movie_area/上映地区

'''
pf = pd.read_csv('result1_1.csv')
pf = pf[['index', 'title', 'actor', 'time', 'name_en', 'movie_area']]

# 提取前四个数字，即获得相应的年份

func_time = lambda string: re.match('\d{4}',string).group()   
pf['time'] = pf['time'].apply(func_time)
# 利用pandas.plot.bar展示上映年份的柱状图
pd.value_counts(pf['time']).plot.bar(figsize=(25,10),yticks=range(11),grid=True,rot=45,alpha=0.5,title='Time Distribution Map of the Top 100 Cat Eye Films',color='g')

#将主演列拆分为一个一个演员列表，用于分析
#.replace('，',',').split(',')，先更换部分中文逗号，再拆分成列表
func_actor = lambda x: x.replace('，',',').split(',')
pf['actor_'] = pf['actor'].apply(func_actor)

#获取拆分出来的主演人员数量，为下一步分析做铺垫。本次分析出来，发现只有3和1
pf['actor_num'] = pf['actor_'].apply(len)

#新建列，actor_01/主演1，actor_02/主演2，actor_03/主演3
pf['actor_01'] =None
pf['actor_02'] =None
pf['actor_03'] =None

#赋值actor_01/主演1，actor_02/主演2，actor_03/主演3
for i in range(pf['actor_'].shape[0]):
    if len(pf['actor_'][i])==3:
        pf.at[i,'actor_01'] = pf['actor_'][i][0]
        pf.at[i,'actor_02'] = pf['actor_'][i][1]
        pf.at[i,'actor_03'] = pf['actor_'][i][2]
    else:
        pf.at[i,'actor_01'] = pf['actor_'][i][0]
'''
创建演员列表，用于分析每个演员出现的次数
isinstance(pf['actor_'][i],list)担心部分主演仅有一个，就成字符串而非列表，字符串不能直接和列表相加
'''
list_actor = []
for i in range(pf['actor_'].shape[0]): 
    if isinstance(pf['actor_'][i],list):   
        list_actor = list_actor+pf['actor_'][i]
    else:
        list_actor = list_actor + list(pf['actor_'][i])
#使用pd.value_counts(pd.Series),获取排名
list_actor = pd.Series(list_actor)
#创建一个空的pd.DataFrame()数据
# 新增参演电影数/movie_num,演员/actor两列
actor_top10 = pd.DataFrame()
actor_top10['movie_num'] = pd.value_counts(list_actor)[:10]
actor_top10['actor'] = pd.value_counts(list_actor)[:10].index
# 定义一个函数，用于获取参演电影名称
#actor_top10['pactor_top10_movies_list'] = None 创建列：pactor_top10_movies_list/参演电影
# 一定要用上.copy(),避免原始pf数据字段值被覆盖，或错误引用index值
def actor_top10_movies(actor_top10,pf):
    actor_top10['pactor_top10_movies_list'] = None
    for i in range(len(actor_top10['actor'])):
        pf_ = pf[(pf['actor_01']==actor_top10['actor'][i]) | (pf['actor_02']==actor_top10['actor'][i]) |(pf['actor_03']==actor_top10['actor'][i])].copy()
        actor_top10['actor_top10_movies_list'][i] = list(pf_['title'])

#调用函数
actor_top10_movies(actor_top10,pf)
#更改index值和名称
actor_top10.index=range(10)
actor_top10.index.name='order'
#打印出来，完工
print(actor_top10)
print('完工，开心！')

借助演员分布的分析思路，各位读者可以对上映地区进行分布分析，欢迎在评论区展示。

此外，想知道1940年上映的电影，可以在评论区留言哟。

部分爬虫代码来自崔庆才老师的著作《python3网络爬虫开发实战》，若侵权，请联系，rockyliu将第一时间删除，谢谢。

keras分类之二分类实例(Cat and dog)
1.数据准备在文件夹下分别建立训练目录train，验证目录validation，测试目录test，每个目录下建立dogs和cats两个目录，在dogs和cats目录下分别放入拍摄的狗和猫的图片，图片的大小可以不一样。2.数据读取#存储数据集的目录base_dir='E:/pythonlearn/dog_and_cat/data/'#训练、验证数据集的目录train_dir=os.path.join
keras分类之二分类（Cat and dog） mr_liyonghong 深度学习
1.数据准备在文件夹下分别建立训练目录train，验证目录validation，测试目录test，每个目录下建立dogs和cats两个目录，在dogs和cats目录下分别放入拍摄的狗和猫的图片，图片的大小可以不一样。2.数据读取#存储数据集的目录base_dir='E:/pythonlearn/dog_and_cat/data/' #训练、验证数据集的目录train_dir=os.path.joi
Python Learn-去除AOSP重复String 月止风溟
PythonLearn年后的话，一直在加班，赶项目，解bug，扯皮。有些感觉活得不真实，也许这就是生活吧。这个是在Aosp导入AndroidStudio，会有重复字串的问题。因为Android源码里，针对不同的设备有不同的string，源码编译不会有问题，导入AndroidStudio就会编译不过。所以看了看python，写个这个，当娱乐了。之前的OpenGLES学习，尽量之后抽时间续写。1.安装
Python 四期爬虫第十周爬虫作业 marraybug 优秀作业
本周我们学习了在scrapy框架中使用selenium爬取网站信息，并将数据存储到MongoDB中，还有使用Redis分布式爬取网站。这些重要知识点。作业是检查同学们是否掌握知识点。下面来看下我们本周掌握知识点比较好的同学的作业。大家也努力学习~争取上榜呦~1.韩玉民链接：https://gitee.com/ihanyumin/PythonLearn/tree/master/week10优点：利用
os.path.dirname(os.path.realpath(__file__)) 方小汪
主要参考Python中获取路径os.getcwd()和os.path.dirname(os.path.realpath(file))的区别和对比，稍有改动先给出2个目录的结构：（1）PycharmProjects/pythonLearn/dir/dir2/getRootPath.py（2）PycharmProjects/pythonLearn/getPath.py【1】那我们先看看第一个Pycha
Python中获取路径os.getcwd()和os.path.dirname(os.path.realpath(__file__))的区别和对比吃素的小动物
os.getcwd()和os.path.dirname(os.path.realpath(__file__))的区别先给出2个目录的结构：（1）PycharmProjects/pythonLearn/dir/dir2/getRootPath.py（2）PycharmProjects/pythonLearn/getPath.py【1】那我们先看看第一个PycharmProjects/pythonLe
python标准库手记【2】麦好软件与计算 python手记
bogon:pylearnmyhaspl$pythonlearn1.pyInfo:name:myhasplage:26welcometochina#-*-coding:utf-8-*-importstringvalues={'name':'myhaspl','age':26}t=string.Template("""name:$nameage:$agewelcometochina""")print
初识Python之将数据写入文件 Python_Group Python基础
自己弄了一个python学习群，感兴趣的可以加上一篇介绍了从文件中读取数据，这一篇我们来说说如何把数据写入到文件中存数据的最简单的方式之一是将其写入到文件中上一篇我们用到的函数是read(),那么这一篇我们用到的函数叫做write()回顾：withopen('E:\\pythonLearn\\12194548.txt')asfile_object:contents=file_object.read
[880]python中获取路径os.getcwd()和os.path.dirname(os.path.realpath(__file__))的区别和对比周小董 python前行者
Python的os.getcwd()方法和os.path.dirname(os.path.realpath(__file__))这两种方式到底有什么本质区别？通过具体的实验来进行解释。先给出2个目录的结构：（1）PycharmProjects/pythonLearn/dir/dir2/getRootPath.py（2）PycharmProjects/pythonLearn/getPath.py【1
python作业（9） sulzh
10-1Python学习笔记：代码如下：filename='PythonLearn.txt'withopen(filename)asF:contents=F.read()print(contents)withopen(filename)asF:forlineinF:print(line.rstrip())withopen(filename)asF:lines=F.readlines()forlin
python学习资料整理 iRandy
python语法熟悉入门中文教程廖雪峰python教程http://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000进阶应用教材，选自Coursera上密歇根大学的网课，有模仿案例，梯度小语法为python2http://www.pythonlearn.comhttps://www.courser
深度学习数据集图片resize hemancute
本人新写的3个pyhton脚本。（1）单张图片的resize:1#coding=utf-82importImage34defconvert(width,height):5im=Image.open("C:\\workspace\\PythonLearn1\\test.jpg")6out=im.resize((width,height),Image.ANTIALIAS)7out.save("C:\\
员工离职原因数据分析|python 殷大侠
一、分析目的数据源自kaggle，通过分析了解员工离职的原因，为降低员工离职率的举措提供数据支撑。图网侵删二、数据处理1.数据预览data=pandas.read_csv('F:\pythonlearn\Spyder\littlefly_dataana\\test\\HR_comma_sep.csv')#预览数据data.head()默认预览数据前5行可大体看清数据基本情况。#数据基本情况data
『Python学习』海龟法则学习 lin聪记 Python学习
1、本文代码来自：【量化小讲堂-Python、Pandas系列】数据告诉你：惊人的海龟交易法则2、importpandasaspd#导入上证指数的原始数据index_data=pd.read_csv(r"C:\Users\LCG22\Desktop\work\learn\Python\PythonLearn\DataSet\all_trading_data\indexdata\sh000001.c
『Python学习』海龟法则学习 Sbtgmz 数据分析学习大数据 pandas python学习
1、本文代码来自：【量化小讲堂-Python、Pandas系列】数据告诉你：惊人的海龟交易法则2、importpandasaspd #导入上证指数的原始数据 index_data=pd.read_csv(r"C:\Users\LCG22\Desktop\work\learn\Python\PythonLearn\DataSet\all_trading_data\indexdata\sh00000
Python学习分享 python 学习
Python是一个非常简单好用的语言，如果有一定语言基础的人学习python的话，是非常容易上手的。个人学习是按照网上的教程来的，相信大家按照教程来学习的话应该也是非常简单的。http://www.pythonlearn.com/首先是Python的课程文档下载，强烈建议大家去看英文版的，因为中文版的可能确实对程序员的一些专业词汇解释不够到位。个人不太建议按照视频学习，因为有过基本的C语言的基础的
学习资源（二）学习
最近在微博中发现MOOC上有了Python的教程，出于兴趣就打算简单的听一听了解一下，今天听了第一期的讲座，老师讲的非常形象，大家有兴趣可以去看一看 https://class.coursera.org/pythonlearn-002/lecture 课程是全英文的，但是有英文字幕，在学习的同时可以学习英语^-^ （手机上有Coursera的客户端可以同步学习纪录，还可以离线下载视频教程）
python列表无法显示中文处理韶华易逝 pythonlist列表
#coding=utf-8 #!D:\gitworkspace\Python\pythonLearn city = ['中国','湖北','武汉','027']; lstring = ''; for item in city: if city[-1] == item: lstring += '%s' % item; else: lstring += '
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1

猫眼电影排行榜前100爬取案例学习笔记

你可能感兴趣的:(pythonlearn)