漂泊者_LGD

[Python3网络爬虫开发实战] -爬取电影排行数据

爬取猫眼电影排行

利用requests库和正则表达式来抓取猫眼电影TOP100的相关内容，选用正则表达式来作为解析工具。

主要目标

提取出猫眼电影TOP100的电影名称、时间、评分、图片等信息，提取的站点URL为http://maoyan.com/board/4，提取的结果会以文件形式保存下来。

准备工作

确保已经正确安装好了requests库。

抓取分析

抓取的目标站点为http://maoyan.com/board/4，打开之后便可以查看到榜单信息，如图1所示。

图1
排名第一的电影是霸王别姬，页面中显示的有效信息有影片名称、主演、上映时间、上映地区、评分、图片等信息。

将网页滚动到最下方，可以发现有分页的列表，直接点击第2页，观察页面的URL和内容发生了怎样的变化，如图2所示。

图2
可以发现页面的URL变成http://maoyan.com/board/4?offset=10，比之前的URL多了一个参数，那就是offset=10，而目前显示的结果是排行11-20名的电影，初步推断这是一个偏移量的参数。再点击下一页，发现页面的URL变成了http://maoyan.com/board/4?offset=20，参数offset变成了20，而显示的结果是排行21~30的电影。

由此可以总结出规律，offset代表偏移量值，如果偏移量为n，则显示的电影序号就是n+1到n+10，每页显示10个。所以，如果想获取TOP100电影，只需要分开请求10次，而10次的offset参数分别设置为0、10、20、…90即可，这样获取不同的页面之后，再用正则表达式提取出相关信息，就可以得到TOP100的所有电影信息了。

抓取首页

接下来用代码实现这个过程。首先抓取第一页的内容。我们实现了get_one_page()方法，并给它传入url参数。然后将抓取的页面结果返回，再通过main()方法调用。初步代码实现如下：

import requests

def get_one_page(url):
    response = requests.get(url)
    if response.status_code == 200:
        return response.text
    return None

def main():
    url = 'http://maoyan.com/board/4'
    html = get_one_page(url)
    print(html)

main()

这样运行之后，就可以成功获取首页的源代码了。获取源代码后，就需要解析页面，提取出我们想要的信息。

正则表达式提取

回到网页看一下页面的真实源码。在开发者模式下的Network监听组件中查看源代码，如图3所示。

图3
注意，这里不要在Elements选项卡中直接查看源码，因为那里的源码可能经过JavaScript操作而与原始请求不同，而是需要从Network选项卡部分查看原始请求得到的源码。

查看其中一个条目的源代码，如图4所示。

图4
可以看到，一部电影信息对应的源代码是一个dd节点，我们用正则表达式来提取这里面的一些电影信息。首先，需要提取它的排名信息。而它的排名信息是在class为board-index的i节点内，这里利用非贪婪匹配来提取i节点内的信息，正则表达式写为：

.*?board-index.*?>(.*?)

随后需要提取电影的图片。可以看到，后面有a节点，其内部有两个img节点。经过检查后发现，第二个img节点的data-src属性是图片的链接。这里提取第二个img节点的data-src属性，正则表达式可以改写如下：

.*?board-index.*?>(.*?).*?data-src="(.*?)"

再往后，需要提取电影的名称，它在后面的p节点内，class为name。所以，可以用name做一个标志位，然后进一步提取到其内a节点的正文内容，此时正则表达式改写如下：

.*?board-index.*?>(.*?).*?data-src="(.*?)".*?name.*?a.*?>(.*?)

再提取主演、发布时间、评分等内容时，都是同样的原理。最后，正则表达式写为：

.*?board-index.*?>(.*?).*?data-src="(.*?)".*?name.*?a.*?>(.*?).*?star.*?>(.*?)
.*?releasetime.*?>(.*?)
.*?integer.*?>(.*?).*?fraction.*?>(.*?).*?

这样一个正则表达式可以匹配一个电影的结果，里面匹配了7个信息。接下来，通过调用findall()方法提取出所有的内容。

接下来，我们再定义解析页面的方法parse_one_page()，主要是通过正则表达式来从结果中提取出我们想要的内容，实现代码如下：

def parse_one_page(html):
    pattern = re.compile(
        '.*?board-index.*?>(.*?).*?data-src="(.*?)".*?name.*?a.*?>(.*?).*?star.*?>(.*?)
.*?releasetime.*?>(.*?)
.*?integer.*?>(.*?).*?fraction.*?>(.*?).*?',
        re.S)
    items = re.findall(pattern, html)
    print(items)

这样就可以成功地将一页的10个电影信息都提取出来，这是一个列表形式，输出结果如下：

[('1', 'http://p1.meituan.net/movie/20803f59291c47e1e116c11963ce019e68711.jpg@160w_220h_1e_1c', '霸王别姬', '\n                主演：张国荣,张丰毅,巩俐\n        ', '上映时间：1993-01-01(中国香港)', '9.', '6'), ('2', 'http://p0.meituan.net/movie/__40191813__4767047.jpg@160w_220h_1e_1c', '肖申克的救赎', '\n                主演：蒂姆·罗宾斯,摩根·弗里曼,鲍勃·冈顿\n        ', '上映时间：1994-10-14(美国)', '9.', '5'), ('3', 'http://p0.meituan.net/movie/fc9d78dd2ce84d20e53b6d1ae2eea4fb1515304.jpg@160w_220h_1e_1c', '这个杀手不太冷', '\n                主演：让·雷诺,加里·奥德曼,娜塔莉·波特曼\n        ', '上映时间：1994-09-14(法国)', '9.', '5'), ('4', 'http://p0.meituan.net/movie/23/6009725.jpg@160w_220h_1e_1c', '罗马假日', '\n                主演：格利高利·派克,奥黛丽·赫本,埃迪·艾伯特\n        ', '上映时间：1953-09-02(美国)', '9.', '1'), ('5', 'http://p0.meituan.net/movie/53/1541925.jpg@160w_220h_1e_1c', '阿甘正传', '\n                主演：汤姆·汉克斯,罗宾·怀特,加里·西尼斯\n        ', '上映时间：1994-07-06(美国)', '9.', '4'), ('6', 'http://p0.meituan.net/movie/11/324629.jpg@160w_220h_1e_1c', '泰坦尼克号', '\n                主演：莱昂纳多·迪卡普里奥,凯特·温丝莱特,比利·赞恩\n        ', '上映时间：1998-04-03', '9.', '5'), ('7', 'http://p0.meituan.net/movie/99/678407.jpg@160w_220h_1e_1c', '龙猫', '\n                主演：日高法子,坂本千夏,糸井重里\n        ', '上映时间：1988-04-16(日本)', '9.', '2'), ('8', 'http://p0.meituan.net/movie/92/8212889.jpg@160w_220h_1e_1c', '教父', '\n                主演：马龙·白兰度,阿尔·帕西诺,詹姆斯·凯恩\n        ', '上映时间：1972-03-24(美国)', '9.', '3'), ('9', 'http://p0.meituan.net/movie/62/109878.jpg@160w_220h_1e_1c', '唐伯虎点秋香', '\n                主演：周星驰,巩俐,郑佩佩\n        ', '上映时间：1993-07-01(中国香港)', '9.', '2'), ('10', 'http://p0.meituan.net/movie/9bf7d7b81001a9cf8adbac5a7cf7d766132425.jpg@160w_220h_1e_1c', '千与千寻', '\n                主演：柊瑠美,入野自由,夏木真理\n        ', '上映时间：2001-07-20(日本)', '9.', '3')]

但这样还不够，数据比较杂乱，我们再将匹配结果处理一下，遍历提取结果并生成字典，此时方法改写如下：

def parse_one_page(html):
    pattern = re.compile(
        '.*?board-index.*?>(.*?).*?data-src="(.*?)".*?name.*?a.*?>(.*?).*?star.*?>(.*?)
.*?releasetime.*?>(.*?)
.*?integer.*?>(.*?).*?fraction.*?>(.*?).*?
',
        re.S)
    items = re.findall(pattern, html)
    for item in items:
        yield {
            'index': item[0],
            'image': item[1],
            'title': item[2].strip(),
            'actor': item[3].strip()[3:] if len(item[3]) > 3 else '',
            'time': item[4].strip()[5:] if len(item[4]) > 5 else '',
            'score': item[5].strip() + item[6].strip()
        }

这样就可以成功提取出电影的排名、图片、标题、演员、时间、评分等内容了，并把它赋值为一个个的字典，形成结构化数据。运行结果如下：

{'image': 'http://p1.meituan.net/movie/20803f59291c47e1e116c11963ce019e68711.jpg@160w_220h_1e_1c', 'actor': '张国荣,张丰毅,巩俐', 'score': '9.6', 'index': '1', 'title': '霸王别姬', 'time': '1993-01-01(中国香港)'}
{'image': 'http://p0.meituan.net/movie/__40191813__4767047.jpg@160w_220h_1e_1c', 'actor': '蒂姆·罗宾斯,摩根·弗里曼,鲍勃·冈顿', 'score': '9.5', 'index': '2', 'title': '肖申克的救赎', 'time': '1994-10-14(美国)'}
{'image': 'http://p0.meituan.net/movie/fc9d78dd2ce84d20e53b6d1ae2eea4fb1515304.jpg@160w_220h_1e_1c', 'actor': '让·雷诺,加里·奥德曼,娜塔莉·波特曼', 'score': '9.5', 'index': '3', 'title': '这个杀手不太冷', 'time': '1994-09-14(法国)'}
{'image': 'http://p0.meituan.net/movie/23/6009725.jpg@160w_220h_1e_1c', 'actor': '格利高利·派克,奥黛丽·赫本,埃迪·艾伯特', 'score': '9.1', 'index': '4', 'title': '罗马假日', 'time': '1953-09-02(美国)'}
{'image': 'http://p0.meituan.net/movie/53/1541925.jpg@160w_220h_1e_1c', 'actor': '汤姆·汉克斯,罗宾·怀特,加里·西尼斯', 'score': '9.4', 'index': '5', 'title': '阿甘正传', 'time': '1994-07-06(美国)'}
{'image': 'http://p0.meituan.net/movie/11/324629.jpg@160w_220h_1e_1c', 'actor': '莱昂纳多·迪卡普里奥,凯特·温丝莱特,比利·赞恩', 'score': '9.5', 'index': '6', 'title': '泰坦尼克号', 'time': '1998-04-03'}
{'image': 'http://p0.meituan.net/movie/99/678407.jpg@160w_220h_1e_1c', 'actor': '日高法子,坂本千夏,糸井重里', 'score': '9.2', 'index': '7', 'title': '龙猫', 'time': '1988-04-16(日本)'}
{'image': 'http://p0.meituan.net/movie/92/8212889.jpg@160w_220h_1e_1c', 'actor': '马龙·白兰度,阿尔·帕西诺,詹姆斯·凯恩', 'score': '9.3', 'index': '8', 'title': '教父', 'time': '1972-03-24(美国)'}
{'image': 'http://p0.meituan.net/movie/62/109878.jpg@160w_220h_1e_1c', 'actor': '周星驰,巩俐,郑佩佩', 'score': '9.2', 'index': '9', 'title': '唐伯虎点秋香', 'time': '1993-07-01(中国香港)'}
{'image': 'http://p0.meituan.net/movie/9bf7d7b81001a9cf8adbac5a7cf7d766132425.jpg@160w_220h_1e_1c', 'actor': '柊瑠美,入野自由,夏木真理', 'score': '9.3', 'index': '10', 'title': '千与千寻', 'time': '2001-07-20(日本)'}

到此为止，我们就成功提取了单页的电影信息。

写入文件

随后，我们将提取的结果写入文件，这里直接写入到一个文本文件中。这里通过JSON库的dumps()方法实现字典的序列化，并指定ensure_ascii参数为False，这样可以保证输出结果是中文形式而不是Unicode编码。代码如下：

def write_to_json(content):
    with open('result.txt', 'a') as f:
        print(type(json.dumps(content)))
        f.write(json.dumps(content, ensure_ascii=False,).encode('utf-8'))

通过调用write_to_json()方法即可实现将字典写入到文本文件的过程，此处的content参数就是一部电影的提取结果，是一个字典。

整合代码

最后，实现main()方法来调用前面实现的方法，将单页的电影结果写入到文件。相关代码如下：

def main():
    url = 'http://maoyan.com/board/4'
    html = get_one_page(url)
    for item in parse_one_page(html):
        write_to_json(item)

到此为止，我们就完成了单页电影的提取，也就是首页的10部电影可以成功提取并保存到文本文件中了。

分页爬取

因为我们需要抓取的是TOP100的电影，所以还需要遍历一下，给这个链接传入offset参数，实现其他90部电影的爬取，此时添加如下调用即可：

if __name__ == '__main__':
    for i in range(10):
        main(offset=i * 10)

这里还需要将main()方法修改一下，接收一个offset值作为偏移量，然后构造URL进行爬取。实现代码如下：

def main(offset):
    url = 'http://maoyan.com/board/4?offset=' + str(offset)
    html = get_one_page(url)
    for item in parse_one_page(html):
        print(item)
        write_to_file(item)

到此为止，我们的猫眼电影TOP100的爬虫就全部完成了，再稍微整理一下，完整的代码如下：

import json
import requests
from requests.exceptions import RequestException
import re
import time

def get_one_page(url):
    try:
        response = requests.get(url)
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        return None

def parse_one_page(html):
    pattern = re.compile('.*?board-index.*?>(\d+).*?data-src="(.*?)".*?name">
                         + '.*?>(.*?).*?star">(.*?)
.*?releasetime">(.*?)
'
                         + '.*?integer">(.*?).*?fraction">(.*?).*?
', re.S)
    items = re.findall(pattern, html)
    for item in items:
        yield {
            'index': item[0],
            'image': item[1],
            'title': item[2],
            'actor': item[3].strip()[3:],
            'time': item[4].strip()[5:],
            'score': item[5] + item[6]
        }

def write_to_file(content):
    with open('result.txt', 'a', encoding='utf-8') as f:
        f.write(json.dumps(content, ensure_ascii=False) + '\n')

def main(offset):
    url = 'http://maoyan.com/board/4?offset=' + str(offset)
    html = get_one_page(url)
    for item in parse_one_page(html):
        print(item)
        write_to_file(item)

if __name__ == '__main__':
    for i in range(10):
        main(offset=i * 10)
        time.sleep(1)

现在猫眼多了反爬虫，如果速度过快，则会无响应，所以这里增加了一个延时等待。

运行结果

最后，我们运行一下代码，输出结果类似如下：

{'index': '1', 'image': 'http://p1.meituan.net/movie/20803f59291c47e1e116c11963ce019e68711.jpg@160w_220h_1e_1c', 'title': '霸王别姬', 'actor': '张国荣,张丰毅,巩俐', 'time': '1993-01-01(中国香港)', 'score': '9.5'}
{'index': '2', 'image': 'http://p0.meituan.net/movie/__40191813__4767047.jpg@160w_220h_1e_1c', 'title': '肖申克的救赎', 'actor': '蒂姆·罗宾斯,摩根·弗里曼,鲍勃·冈顿', 'time': '1994-10-14(美国)', 'score': '9.5'}
...
{'index': '98', 'image': 'http://p0.meituan.net/movie/76/7073389.jpg@160w_220h_1e_1c', 'title': '东京物语', 'actor': '笠智众,原节子,杉村春子', 'time': '1953-11-03(日本)', 'score': '9.1'}
{'index': '99', 'image': 'http://p0.meituan.net/movie/52/3420293.jpg@160w_220h_1e_1c', 'title': '我爱你', 'actor': '宋在河,李彩恩,吉海延', 'time': '2011-02-17(韩国)', 'score': '9.0'}
{'index': '100', 'image': 'http://p1.meituan.net/movie/__44335138__8470779.jpg@160w_220h_1e_1c', 'title': '迁徙的鸟', 'actor': '雅克·贝汉,菲利普·拉波洛,Philippe Labro', 'time': '2001-12-12(法国)', 'score': '9.1'}

这里省略了中间的部分输出结果。可以看到，这样就成功地把TOP100的电影信息爬取下来了。

这时我们再看下文本文件，结果如图5所示。

图5
可以看到，电影信息也已全部保存到了文本文件中了，大功告成！

python学习记录4--给自己：布尔运算&循环（break,continue,pass,else，exit()） mee_tiz python
M酱正在快马加鞭地赶来（咚咚咚）~~~一、布尔运算1.定义：布尔运算是数字符号化的逻辑推演法，包括联合、相交、相减。在图形处理操作中引用了这种逻辑运算方法以使简单的基本图形组合产生新的形体，并由二维布尔运算发展到三维图形的布尔运算。由于布尔在符号逻辑运算中的特殊贡献，很多计算机语言中将逻辑运算称为布尔运算，将其结果称为布尔值。逻辑运算(logicaloperators)通常用来测试真假值。最常见到
Python学习记录——사 运算符咬光空气 Python学习 python 开发语言后端
目录1、算术运算符2、赋值运算符3、复合赋值运算符4、比较运算符5、逻辑运算符1、算术运算符+-*/除//整数，取商%取模，也是取余，取除后的余数**指数，幂运算()()高于**高于*///%高于+-2、赋值运算符=，既可以单变量，也可以多变量赋值，比如a,b,v,d=3，g=e=r=17，也可以同时赋值多个变量3、复合赋值运算符+=、-=、*=、/=、//=、%=、**=复合和其它同在时，先算复
2019-05-09python学习记录-对文件进行操作年画儿
os.getcwd()得到当前路径os.chdir()改变当路径.是这个目录..是父文件夹os.makedirs()创建新文件夹os.path.join()在拼接路径的时候用的。举个例子，os.path.join(“home”,"me","mywork")在Linux系统上会返回“home/me/mywork"os.path.abspath(path)相对路径转为绝对路径os.path.isabs
Python学习记录（3）爱吃果冻的小雪生
1.从列表删除元素.insert(位置，'').remove()del语句.pop().count('').index('',start,end).reverse().sort()或者.sort(reverse=Ture)默认为False2.字符串方法1).capitalize()将小写字母改成大写字母>>>str2='xiaoxiezimu'>>>str2.capitalize()'Xiaoxi
2020-01-31python学习记录(2)-函数&高级语法 thelostworldSec
函数：调用函数：(内置函数、自定义函数)类型转换int、str函数的调用简单的例子：int('123')定义函数：python中定义函数使用def语句，依次是函数名、括号、括号中的参数，还有冒号，然后，在缩进块中编写函数体，函数的返回值用return语句返回。简答的额例子：空函数:如果想定义一个什么事也不做的空函数，可以用pass语句：defnop():pass参数检查:通过传入参数，函数异常报错
opencv+python学习记录（十七）阈值分割三味菜551
一幅图像包括目标物体、背景还有噪声，要想从多值的数字图像中直接提取出目标物体，常用的方法就是设定一个阈值T，用T将图像的数据分成两部分：大于T的像素群和小于T的像素群。这是研究灰度变换的最特殊的方法，称为图像的二值化（Binarization）。具体参考https://blog.csdn.net/qq_40962368/article/details/80917250
python做实时温度曲线图_Python学习记录 - matplotlib绘制温度变化折线图 weixin_39735288 python做实时温度曲线图
Python学习记录-matplotlib绘制温度变化折线图Python学习记录-matplotlib绘制温度变化折线图题目：列表a表示10点到12点每一分钟的气温，累计为2个小时，绘制折线图观察每分钟气温的变化#-*-coding:utf-8-*-frommatplotlibimportpyplotaspltimportrandom数据：X轴：从10点到12点按照分钟查看，有120分钟，X轴需要
python学习记录 teaczjf python 学习开发语言
环境搭建安装python3下载链接https://www.python.org/downloads/windows/教程https://blog.csdn.net/weixin_40844416/article/details/80889165安装openpyxlhttps://jingyan.baidu.com/article/6f2f55a1ef0b87f4b83e6c3a.htmlhttps
python学习记录 -- 基础语法 -- 变量/数据类型/数据类型转换/标识符/运算符/字符串/数据输入像我这么帅的一般都是主角
数据类型转换示例image.png标识符仅能出现英文中文(不推荐)数字下划线数字不可以开头大小写敏感不可使用关键字image.png运算符image.pngimage.png字符串image.png字符串拼接image.png字符串格式化image.pngimage.pngimage.pngimage.png数字精度控制image.pngimage.png数据输入image.pnginput函数把
Python学习记录035 梦回唐朝_a324
选择结构通过判断条件是否成立，来决定执行哪个分支。选择结构有多种形式，分为：单分支、双分支、多分支。a=input("输入一个数字：")ifint(a)<10:print(a)运行：输入一个数字：99在选择和循环结构中，条件表达式的值为False的情况如下：False、0、0.0、空值None、空序列对象（空列表、空元祖、空集合、空字典、空字符串）、空range对象、空迭代对象。其他情况，均为Tr
python学习记录 ➠➠ 学习 python
1.python中交换两个数值a=3b=4print(a,b)a,b=b,aprint(a,b)输出结果：2.zip()函数的用法zip（）函数在运算时，会以一个或多个序列(可迭代对象)做为参数，返回一个元组的列表。同时将这些序列中并排的元素配对。zip（）参数可以接受任何类型的序列，同时也可以有两个以上的参数;当传入参数的长度不同时，zip能自动以最短序列长度为准进行截取，获得元组。a=[1,2
opencv+python学习记录（十二）高斯平滑、均值平滑三味菜551
高斯平滑中opencv提供的函数：dst=cv.GaussianBlur(src,ksize,sigmaX[,dst[,sigmaY[,borderType]]])快速均值平滑中opencv提供的函数：dst=cv.boxFilter(src,ddepth,ksize[,dst[,anchor[,normalize[,borderType]]]])dst=cv.blur(src,ksize[,ds
Python学习记录（20）爱吃果冻的小雪生
1.集合（set）集合的显著特点是：里面元素无重复1）set的创建>>>num2={1,2,4,5,6,7,5,4,3,2,1,0}>>>num2{0,1,2,3,4,5,6,7}>>>set1=set([1,1,2,4,5,6])>>>set1{1,2,4,5,6}2）.add()将一个参数添加进集合中>>>num2={1,2,4,5,6,7,5,4,3,2,1,0}>>>num2.add(6.
python学习记录 ➠➠ 学习 python
1.列表[1,2,3,4,5],请使用map（）函数输出[1,4,9,16,25]，并使用列表推导式提取出大于10的数，最终输出[16,25]lis=[1,2,3,4,5]deffn(x):returnx**2res=map(fn,lis)print(res)res1=[iforiinres]print(res1)res2=[iforiinres1ifi>10]print(res2)输出结果：2.
python学习记录亲亲老婆几 Python python 开发语言后端
文章目录环境关于AnacondaWindows控制台wsl2下python2.7安装ide与安装包学习记录一切皆对象字符串importthis列表列表切片元组字典函数导入模块类装饰器文件读写异常设置代码格式python2和python3的一些区别1.print2.除法，python2中整数除法只包含整数部分3.input4.类pycharm快捷键显示空格和tab环境以前用的都是python3的版本
Python学习记录(8)——series、dataframe基本操作 cigarrrr Python学习记录 python 学习数据挖掘
Reindexing（重新索引）重新索引可以按照指定的索引顺序排列数据，如果没有该索引则显示为NaN例：obj=pd.Series([4.5,7.2,-5.3,3.6],index=['d','b','a','c'])obj2=obj.reindex(['a','b','c','d','e'])a-5.3b7.2c3.6d4.5eNaNdtype:float64处理时间序列这样的数据时，我们可能需
Python学习记录——이십이 Bytes和字符集编码咬光空气 Python学习学习
文章目录根据ANSI标准，各国对于各国的文字有自己的编写方法，中国发展的就是gbk编码，国际上有个unicode码，适用于所有语言，依据这个标准出来utf-8标准。像ascii，我们见到的就是8个bit位，总共存放128个，而ANSI标准则是32比特位，4个字节，也就是常见的32个1组成的那种。对一个字符串，可以用encode函数来转换，参数是"gbk"，"utf-8"这样的，参数是什么，就用什么
Python学习记录--数据类型和循环波尼 python 学习开发语言
代码缩进Python的语法缩进空格数取决于程序员，但至少需要一个必须在同一代码块使用相同数量的缩进Python非常依赖缩进，在循环或者低一级的语句中，在c++中我们会使用大括号"{}"，但是在Python中我们就是依赖缩进，同等级语句缩进空格数一样，低等级就再多一个（或一个以上）的空格#错误语法if5>2:print("Fiveisgreaterthantwo!")print("Fiveisgre
PyCharm连接远程Linux服务器虚拟环境方法小马爱祖国开发记录 linux 服务器 pycharm
Python学习记录第一章Python使用远程服务器虚拟环境开发记录文章目录Python学习记录前言一、配置服务器上的Python虚拟环境1.安装Python的虚拟环境2.配置项目环境变量3.创建环境预路径4.创建虚拟环境5.安装项目依赖包二、配置PyCharm远程解释器2.新建虚拟环境总结前言前因：开发的项目需要更换国产数据库，因为项目比较急，没空研究windows上的开发环境适配，所以决定使用
python学习记录day-16-学生信息管理系统宇硕博 python 学习开发语言
录入学生信息：将学生信息存入到文件当中删除学生信息#有人很努力，但却仅仅能够活着filename='student.txt'defmain():whileTrue:menu()choice=int(input('请选择'))ifchoicein[0,1,2,3,4,5,6,7]:ifchoice==0:answer=input('你确定要退出吗？y/n')ifanswer=='y'oranswer
我的Python学习记录（1）：环境配置（Anaconda和Python的安装） ymliu_sjtu Python python anaconda
送给最好的学弟学妹（大神请自动略过）WhyPython?Python是一种广泛使用的解释型、高级编程、通用型编程语言，由吉多·范罗苏姆(GuidoVanRossum)创造，第一版发布于1991年。Python是ABC语言的后继者，也可以视之为一种使用传统中缀表达式的LISP方言。Python的设计哲学强调代码的可读性和简洁的语法（尤其是使用空格缩进划分代码块，而非使用大括号或者关键词）。相比于C+
Python学习记录——附题目以及代码 wswsGOOD Python学习 python pycharm
作为研究生的一分子来到上海将近两个月了，深知自己的力量薄弱，所以打算在这里记录自己的学习python的一些理解与感悟，和大家交流更多的关于编程的问题，期待我和大家早日成为编程大佬。因为开学了将近两个月了，所以先把之前的一些内容补一下。（一）、Python简要介绍一、参考书目介绍➢《ThinkPython》AllenB.Downey➢《利用Python进行数据分析》WesMcKinney➢《算法精粹
opencv+python学习记录（十八）二值图的逻辑运算三味菜551
关于图像的位操作，目的是为了将一个logo覆盖到另一个图片上。#-*-coding:utf-8-*-importnumpyasnpimportcv2defshow(img_name,img_data):cv2.imshow(img_name,img_data)cv2.waitKey(0)cv2.destroyAllWindows()#Loadtwoimagesimg1=cv2.imread('ml
Python学习记录3 寡悔
从函数到高级魔法方法Python是一种通用编程语言，其在科学计算和机器学习领域具有广泛的应用。如果我们打算利用Python来执行机器学习，那么对Python有一些基本的了解就是至关重要的。本Python入门系列体验就是为这样的初学者精心准备的。函数函数的定义还记得Python里面“万物皆对象”么？Python把函数也当成对象，可以从另一个函数中返回出来而去构建高阶函数，比如：参数是函数、返回值是函
Python学习记录——了解Python是什么 smile_小流萤 Python 学习 python 开发语言
Python的诞生与简介一、Python的诞生Python的最初设计者是吉多·范罗苏姆（GuidovanRossum），1956年出生，1982年从阿姆斯特丹大学获得了数学和计算机硕士学位。1986年时在荷兰阿姆斯特丹的国家数学和计算机科学研究学会（CWI）工作，并参与到ABC语言的开发。图1Python之父——GuidovanRossum（吉多.范罗苏姆）Python的诞生是极具戏曲性的，据Gu
Python学习记录（3）——第一个脚本编程“Hello World” smile_小流萤 Python 学习 python
1.“HelloWorld”——Python编程的开始从“HelloWorld”开始，编写一个简单的Python脚本程序。所有Python文件将以.py为扩展名，将以下的源代码拷贝至test.py文件中。#!/usr/bin/pythonprint("HelloWorld!")通过脚本参数调用解释器开始执行脚本，直到脚本执行完毕。当脚本执行完成后，解释器不再有效。这里，在之前安装Python时已经
Python学习记录(2)——Python IDLE的介绍 smile_小流萤 Python 学习 python
1.IDLE的操作简介在安装Python后，会自动安装一个IDLE，它是一个PythonShell(可以在打开的IDLE窗口的标题栏上看到，如图1所示），我们可以利用PythonShell与Python交互。本节将以Windows11系统中的IDLE为例，详细介绍如何使用IDLE开发Python程序。单击系统的开始菜单，然后依次选择“所有程序->Python3.11->IDLE(Python3.1
Python学习记录之从零开始 I念成佛 Python学习笔记 python
前言作为一个计算机专业毕业的学生，一毕业就走上了测试的道路，没有参加过开发，这可能是我的一个遗憾。之前学习过java、python、html5和php但是都没有在实践中使用过，这一次，想从Python开始学习，整体感觉，知识架构都差不多。一、环境的搭建虚拟机VM15，eclipse，Python3.9.0，window10；之所以用到虚拟机，是因为担心在配置环境的时候把笔记本原生环境弄乱套了。具体
Python学习记录（2）爱吃果冻的小雪生
猜猜(x0时，x<yandx=0，而使之执行or操作，3结果为y，使结果出错，故而采用列表的形式。
2020-02-02python学习记录(3)-函数式编程&模块 thelostworldSec
四、函数式编程：函数式编程，有利于代码的管理，后期的代码的迭代和修改。函数的封装参数的传递，返回值的返回。高阶函数：变量可以指向函数、函数名也可能是变量(abs取绝对值)defadd(x,y,f):returnf(x)+f(y)把函数作为参数传入，这样的函数称为高阶函数，函数式编程就是指这种高度抽象的编程范式。map/reduce：Python内建了map()和reduce()函数。map()函数
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发