若数

Python爬虫入门实战之猫眼电影数据抓取（实战篇）

项目实战

静态网页实战

　　本节我们将为大家展现一个完整爬虫的大致过程，此次项目内容为提取猫眼电影TOP100榜中的所有电影信息并存储至CSV文件中，其首页地址为http://maoyan.com/board/4，在3.2.2中我们已经获取过第一页中的所有电影名了，但是如何获取第二页、第三页的数据呢，即获取第二页第三页对应的URL，那么我们可以在浏览器中不断翻页寻找地址栏中URL的变化规律：

第二页： http://maoyan.com/board/4?offset=10 第三页： http://maoyan.com/board/4?offset=20 第四页： http://maoyan.com/board/4?offset=30 ......

　　我们看见URL的改变规律就是参数offset值不断偏移，每页偏移的值为10，由此我们可以编写一个获取每页数据函数，接收参数就是页码数：

import requests headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36' } # 偏移参数，默认为0，即为第一页 params = { 'offset': 0 } def get_html(page): ''' 获取一页html页面 :param page: 页数 :return: 该页html页面 ''' params['offset'] = page * 10 url = 'http://maoyan.com/board/4' try: response = requests.get(url, headers=headers, params=params) if response.status_code == 200: html = response.text return html else: return -1 except: return None

　　当我们获取到html页面后，就可以提取相应的电影信息了，比如榜单张每一项电影都会有的属性：电影名称，主演，上映时间，评分等信息。提取信息有多种方式，下面我们利用正则表达式提取电影信息：

def parse_infor(html): ''' 提取html页面中的电影信息 :param html: html页面 :return: 电影信息列表 ''' # 编写正则字符串规则，提取电影名，主演，上映时间，评分信息 pat = re.compile('

.*?(.*?)

.*?

.*?.*?(.*?)(.*?)

.*?

', re.S) # 得到一个二重列表 results = re.findall(pat, html) one_page_film = [] if results: for result in results: film_dict = {} # 获取电影名信息 film_dict['name'] = result[0] # 获取主演信息 start = result[1] # 替换字符串中的 '\n' 字符，即换行字符 start.replace('\n', '') # 去掉字符串两边的空格，并使用切片去除字符串开头的'主演：'三个字符 start = start.strip()[3:] film_dict['start'] = start # 获取上映时间信息 releasetime = result[2] # 使用切片去除字符串开头的'上映时间：'五个字符 releasetime = releasetime[5:] film_dict['releasetime'] = releasetime # 获取评分信息，由于评分是有两个字符拼接的，这里我们提取后也需要进行拼接操作 left_half =result[3] right_half = result[4] score = left_half + right_half film_dict['score'] = score # 打印该电影信息： print(film_dict) # 将该电影信息字典存入一页电影列表中 one_page_film.append(film_dict) return one_page_film else: return None

　　不熟悉正则读者要好好复习下前面的知识，虽然正则写起来可能会麻烦些，当时他的提取效率是最高的，接下来我们就可以将提取好的电影信息进行存储操作，这里我们存储为CSV文件：

def save_infor(one_page_film): ''' 存储提取好的电影信息 :param html: 电影信息列表 :return: None ''' with open('top_film.csv', 'a', newline='') as f: csv_file = csv.writer(f) for one in one_page_film: csv_file.writerow([one['name'], one['start'], one['releasetime'], one['score']])

　　以上是获取一页html页面并提取电影信息存储至CSV中的过程，接下来我们构造十页的URL便可以完成猫眼电影TOP100榜中的所有电影信息的获取和存储了，以下是完整程序：

import requests import re import csv import time headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36' } params = { 'offset': 0 } def get_html(page): ''' 获取一页html页面 :param page: 页数 :return: 该页html页面 ''' params['offset'] = page * 10 url = 'http://maoyan.com/board/4' try: response = requests.get(url, headers=headers, params=params) if response.status_code == 200: html = response.text return html else: return -1 except: return None def parse_infor(html): ''' 提取html页面中的电影信息 :param html: html页面 :return: 电影信息列表 ''' pat = re.compile('

.*?(.*?)

.*?

.*?.*?(.*?)(.*?)

.*?

', re.S) results = re.findall(pat, html) one_page_film = [] if results: for result in results: film_dict = {} # 获取电影名信息 film_dict['name'] = result[0] # 获取主演信息 start = result[1] # 替换字符串中的 '\n' 字符，即换行字符 start.replace('\n', '') # 去掉字符串两边的空格，并使用切片去除字符串开头的'主演：'三个字符 start = start.strip()[3:] film_dict['start'] = start # 获取上映时间信息 releasetime = result[2] # 使用切片去除字符串开头的'上映时间：'五个字符 releasetime = releasetime[5:] film_dict['releasetime'] = releasetime # 获取评分信息 left_half =result[3] right_half = result[4] score = left_half + right_half film_dict['score'] = score # 打印该电影信息： print(film_dict) # 将该电影信息字典存入一页电影列表中 one_page_film.append(film_dict) return one_page_film else: return None def save_infor(one_page_film): ''' 存储提取好的电影信息 :param one_page_film: 电影信息列表 :return: None ''' with open('top_film.csv', 'a', newline='', errors='ignore') as f: csv_file = csv.writer(f) for one in one_page_film: csv_file.writerow([one['name'], one['start'], one['releasetime'], one['score']]) if __name__ == "__main__": # 利用循环构建页码 for page in range(10): # 请求页面 html = get_html(page) if html: # 提取信息 one_page_film = parse_infor(html) if one_page_film: # 存储信息 save_infor(one_page_film) time.sleep(1)

动态网页实战

　　本节我们将爬取猫眼电影实时票房数据，学会在动态网页中获取我们想要的数据，首先打开猫眼专业版-实时票房，其网址为：https://piaofang.maoyan.com/dashboard，然后我们可以看见现在的实时电影票房数据，可以看见 “今日实时” 的数据在不断地动态增加：

而当我们查看该网页源代码时，却并没有电影相关的票房等信息，那么可以判断该页面可能使用了Ajax(即“Asynchronous Javascript And XML”(异步 JavaScript 和 XML))技术，即动态网页(是指跟静态网页相对的一种网页编程技术。静态网页，随着html代码的生成，页面的内容和显示效果就基本上不会发生变化了——除非你修改页面代码。而动态网页则不然，页面代码虽然没有变，但是显示的内容却是可以随着时间、环境或者数据库操作的结果而发生改变)。我们可以利用浏览器的开发者工具进行分析：

我们可以发现每隔一段时间都会有一个新的请求，其请求类型都为xhr，而Ajax的请求类型就是xhr，这请求可能就是实时更新的票房信息，而我们需要的数据可能就在这些文件里，于是我们选择一个进行分析：

在Preview中，我们可以看见大量的电影相关的信息，即我们想要获取的实时电影票房数据，而这些内容是JSON格式的，浏览器开发者工具自动做了解析方便我们查看，接下来我们只需要用Python模拟这些Ajax请求，拿下这些数据然后解析即可，而这些Ajax无非依然是HTTP请求，所以只要拿到对应URL然后使用Python模拟该请求即可，我们可以直接复制，如下图：

　　获取到该请求的链接，接下来我们就用Python模拟该请求：

headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36' } def get_html(): ''' 获取JSON文件 :return: JSON格式的数据 ''' # 请求second.json的URL url = 'https://box.maoyan.com/promovie/api/box/second.json' try: response = requests.get(url, headers=headers) if response.status_code == 200: # 由于是JSON文件，我们可以返回JSON格式的数据便于后续提取 return response.json() else: return -1 except: return None

　　获取对应的JSON数据后，我们就可以利用进行提取操作了。

def parse_infor(json): ''' 从JSON数据中提取电影票房数据，包括：电影名，上映信息，综合票房，票房占比，累计票房 :param json: JSON格式的数据 :return: 每次循环返回一次字典类型的电影数据 ''' if json: # 利用json中的get()方法层层获取对应的信息 items = json.get('data').get('list') for item in items: piaofang = {} piaofang['电影名'] = item.get('movieName') piaofang['上映信息'] = item.get('releaseInfo') piaofang['综合票房'] = item.get('boxInfo') piaofang['票房占比'] = item.get('boxRate') piaofang['累计票房'] = item.get('sumBoxInfo') # 利用生成器每次循环都返回一个数据 yield piaofang else: return None

　　读者可能看见我们没有使用常规的return进行函数返回，而是使用了生成器，这样就能每次循环都返回一次数据，具体读者可以生成器 | 廖雪峰的官方网站进一步了解学习，接下来我们就将提取好的票房信息存储为格式化的HTML文件：

def save_infor(results): ''' 存储格式化的电影票房数据HTML文件 :param results: 电影票房数据的生成器 :return: None ''' rows = '' for piaofang in results: # 利用Python中的format字符串填充html表格中的内容 row = '{}{}{}{}{}'.format(piaofang['电影名'], piaofang['上映信息'], piaofang['综合票房'], piaofang['票房占比'], piaofang['累计票房']) # 利用字符串拼接循环存储每个格式化的电影票房信息 rows = rows + '\n' + row # 利用字符串拼接处格式化的HTML页面 piaofang_html = ''' 电影票房

''' + rows + '''

电影名	上映信息	综合票房	票房占比	累计票房

''' # 存储已经格式化的html页面 with open('piaofang.html', 'w', encoding='utf-8') as f: f.write(piaofang_html)

　　我们将以上过程整合，即可得到完整的票房数据获取的代码实例：

import requests headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36' } def get_html(): ''' 获取JSON文件 :return: JSON格式的数据 ''' # 请求second.json的URL url = 'https://box.maoyan.com/promovie/api/box/second.json' try: response = requests.get(url, headers=headers) if response.status_code == 200: # 由于是JSON文件，我们可以返回JSON格式的数据便于后续提取 return response.json() else: return -1 except: return None def parse_infor(json): ''' 从JSON数据中提取电影票房数据，包括：电影名，上映信息，综合票房，票房占比，累计票房 :param json: JSON格式的数据 :return: 每次循环返回一次字典类型的电影数据 ''' if json: # 利用json中的get()方法层层获取对应的信息 items = json.get('data').get('list') for item in items: piaofang = {} piaofang['电影名'] = item.get('movieName') piaofang['上映信息'] = item.get('releaseInfo') piaofang['综合票房'] = item.get('boxInfo') piaofang['票房占比'] = item.get('boxRate') piaofang['累计票房'] = item.get('sumBoxInfo') # 利用生成器每次循环都返回一个数据 yield piaofang else: return None def save_infor(results): ''' 存储格式化的电影票房数据HTML文件 :param results: 电影票房数据的生成器 :return: None ''' rows = '' for piaofang in results: # 利用Python中的format字符串填充html表格中的内容 row = '{}{}{}{}{}'.format(piaofang['电影名'], piaofang['上映信息'], piaofang['综合票房'], piaofang['票房占比'], piaofang['累计票房']) # 利用字符串拼接循环存储每个格式化的电影票房信息 rows = rows + '\n' + row # 利用字符串拼接处格式化的HTML页面 piaofang_html = ''' 电影票房

''' + rows + '''

电影名	上映信息	综合票房	票房占比	累计票房

''' # 存储已经格式化的html页面 with open('piaofang.html', 'w', encoding='utf-8') as f: f.write(piaofang_html) if __name__ == "__main__": # 获取信息 json = get_html() # 提取信息 results = parse_infor(json) # 存储信息 save_infor(results)

　　HTML文件存储效果如下图所示：

　　可以看见，动态网页的爬虫可能会更加简单些，关键就在于找到对应的XHR格式的请求，而一般这种格式的文件都是JSON格式的，提取相对也会更加简单方便，而读者可能会问为何要把这个信息存储为HTML文件格式的呢，喜欢电影的读者可能会经常打开猫眼电影查看每天的电影票房数据，何不尝试将我们所学的爬虫知识运用起来制作一个定时爬取电影票房数据并推送至个人邮箱的爬虫小程序呢，这样就省得我们每天打开网页查看，让数据主动为我们服务，也算是学习致用了吧，感兴趣的读者可以自己尝试下，下图笔者根据这个爬虫程序扩展每天收到的实时票房信息邮件，每天定时爬取推送给笔者，列表内容如下图所示：

　　推动内容如下图所示：

　　因为邮箱定时推送会涉及邮箱设置、邮箱模块使用和不同系统（Linux和Windows）定时任务的部署等诸多环节，感觉会有些偏题，毕竟这是一篇爬虫入门方面的文章，笔者把这部分实战内容放到了微信公众号上，想要了解的同学可以关注公众号“若数”学习。如果反响不错的话，笔者会推出更多的进阶实战，比如selenium的使用、代理、模拟登陆、APP爬取等实战内容，谢谢大家的阅读，拜拜~

深入解析JVM性能问题定位与优化测试不打烊性能测试 jvm 性能优化
JVM性能问题定位与优化详解：架构、内存、Linux命令与监控工具的全面解析引言Java虚拟机（JVM）是运行Java应用程序的核心组件，它管理内存、执行字节码，并提供垃圾回收机制等功能。然而，随着应用规模的增长，JVM的性能问题时常会成为系统瓶颈。为了有效定位和优化JVM性能问题，我们需要从JVM架构、内存管理、Linux系统命令，以及监控工具入手，对JVM的各类指标进行详尽的分析和优化。本文将
J-Link系列下载器的烧录问题彻底解决 1zero10 单片机单片机
1.确保成功安装好keil5方法:按照此链接中课程1.1准备安装环境进行操作【铁头山羊stm32入门教程【新版】-哔哩哔哩】https://b23.tv/wb5XUGo2.安装J-link驱动2-1从jlink官网下载最新版本驱动2-2按照此链接视频中jlink对应部分进行操作【STM32常用程序烧录方法，KeilIDE，ST-Link，Jlink-OB，DAPLink，串口（Uart）-哔哩哔哩
青龙面板京东cookies工具 zhiyi_1 学习人工智能
新增了一些功能，主要是有些老版本的适配，解决原先的bug更新方式，替换文件，config文件可以不替换，则保留配置使用方式：1.运行JD_Get.exe2.登录京东3.点击获取获取到cookie会在右侧显示4.点击发送到青龙面板（如果配置了青龙参数）下载地址：夸克网盘分享
安装与部署openeuler 的HA VX-IT BANG 服务器网络 linux
实现原理LinuxHA（HighAvailability，高可用性）是指利用Linux操作系统构建的高可用集群解决方案，旨在确保关键业务服务在面临硬件故障、软件错误、网络中断等各种异常情况时，依然能够持续、稳定地运行，尽量减少服务中断时间，提高系统的可靠性和可用性。以下从几个方面详细介绍：关键组件和技术心跳监测（Heartbeat）这是LinuxHA系统中最基础也是最重要的组件之一。它通过在节点之
Ubuntu切换终端快捷键 yangsong4353 ubuntu shell term
在Ubuntu系统中，使用终端（Terminal）进行操作时，掌握一些快捷键可以大大提高工作效率。以下是一些常用的终端快捷键及其功能：打开和关闭终端打开终端:Ctrl+Alt+T关闭终端:Ctrl+D标签页操作新建标签页:Ctrl+Shift+T关闭标签页:Ctrl+Shift+W切换标签页:Alt+数字键（如Alt+1，Alt+2等）或Ctrl+PageUp/PageDown复制和粘贴复制:Ct
【java基础】Java 中的 this 关键字李少兄 Java java 开发语言
前言在Java的编程世界里，this关键字宛如一把神奇的钥匙，看似简单，却蕴含着强大的功能。它在对象的创建、方法的调用以及成员变量的访问等方面都发挥着至关重要的作用。1.this关键字的基本概念this关键字是Java中的一个引用变量，它指向当前对象。在一个类的方法或构造器内部，this关键字可以用来引用调用该方法或构造器的对象实例。简单来说，this代表了当前正在执行操作的对象本身。哪个对象调用
【Java基础】Java 中的 static 关键字李少兄 Java java 开发语言
一、前言在Java的编程世界里，static关键字是一个非常重要且实用的特性。它就像是一把神奇的钥匙，能够改变变量、方法、代码块和内部类的性质和行为。二、static修饰成员变量2.1静态变量的基本概念在Java里，当我们使用static关键字修饰成员变量时，这个变量就变成了静态变量，也叫类变量。普通的成员变量（实例变量）是每个对象都有一份独立的副本，而静态变量不同，它属于整个类，无论创建多少个该
B4158 [BCSP-X 2024 小学高年级组] 质数补全 wwjjjww 算法数据结构
题目描述Alice在纸条上写了一个质数，第二天再看时发现有些地方污损看不清了。在大于1的自然数中，除了1和它本身以外不再有其他因数的自然数称为质数请你帮助Alice补全这个质数，若有多解输出数值最小的，若无解输出−1。例如纸条上的数字为1∗（∗代表看不清的地方），那么这个质数有可能为11,13,17,19，其中最小的为11。输入格式第一行1个整数t，代表有t组数据。接下来t行，每行1个字符串s代表
关于个人财务系统的javaweb小项目竹木有心 tomcat java
个人财务管理系统-项目计划书1.项目背景与目的随着现代社会的进步与人们收入水平的提高，个人财务的管理变得越来越重要。如何有效地记录、管理、分析个人的收支状况，成为了很多人关注的焦点。本项目旨在设计并实现一个基于JavaWeb技术的个人财务管理系统，通过该系统，用户可以轻松管理自己的收入与支出，查看财务统计分析，帮助用户进行财务规划与控制。本系统适用于大三学生的课程设计要求，涉及JavaWeb技术、
如何将Docker容器打包并在其他服务器上运行 IT小辉同学技巧性工具栏分布式云部署搜索引擎 docker 服务器容器
如何将Docker容器打包并在其他服务器上运行我会幻想很多次我们的相遇，你穿着合身的T恤，一个素色的外套，搭配一条蓝色的牛仔裤，干净的像那天空中的云朵，而我，还是一个的傻傻的少年，我们相识而笑，默默不语，如此甚好！Docker容器使得应用程序的部署和管理变得更加简单和高效。有时，我们可能需要将一个运行中的Docker容器打包，并在其他服务器上运行。本文将详细介绍如何实现这一过程。1.提交容器为镜像
已经commit但是没有push，想撤回本次commit 逐云之巅 git git
使用gitreset命令撤回提交，有三种模式可选：1.gitreset--softHEAD~（推荐）#将HEAD指针移动到上一个提交，但保留暂存区和工作区的更改。这意味着你可以重新提交这些更改，但不需要重新gitadd。2.gitreset(--mixed)HEAD~#不带参数或者带参数--mixed；撤销提交，将更改的文件和目录恢复到工作区，需要手动暂存和更改3.gitreset--hardHE
揭秘 CSS Houdini：用浏览器魔法解锁 CSS 的终极潜力寒鸦xxx css houdini 前端
一、为什么我们需要CSSHoudini？1.1传统CSS的困境当我们试图用CSS实现一个波浪形边框时，通常会经历这样的挣扎：/*传统实现方案*/.wave-border{position:relative;overflow:hidden;}.wave-border::after{content:'';position:absolute;/*需要复杂计算和多个伪元素拼接*/}这种实现方式存在三个致命
Ubuntu终端常用快捷键总结机器人那些事儿开发环境 ubuntu
基本导航快捷键：Ctrl+A：将光标移到行首Ctrl+E：将光标移到行尾Ctrl+U：删除光标前的所有字符Ctrl+K：删除光标后的所有字符Ctrl+L：清屏（相当于执行clear命令）编辑命令行：Ctrl+W：删除光标前的一个单词Ctrl+Y：粘贴之前使用Ctrl+U或Ctrl+K删除的文本Ctrl+_：撤销上一步的操作历史命令：Ctrl+R：逆向搜索历史命令Ctrl+G：退出历史命令搜索模式C
利用Beautiful Soup和Pandas进行网页数据抓取与清洗处理实战傻啦嘿哟 pandas
目录一、准备工作二、抓取网页数据三、数据清洗四、数据处理五、保存数据六、完整代码示例七、总结在数据分析和机器学习的项目中，数据的获取、清洗和处理是非常关键的步骤。今天，我们将通过一个实战案例，演示如何利用Python中的BeautifulSoup库进行网页数据抓取，并使用Pandas库进行数据清洗和处理。这个案例不仅适合初学者，也能帮助有一定经验的朋友快速掌握这两个强大的工具。一、准备工作在开始之
ubuntu22.4搭建单节点es8.1 宇智波云大数据项目运维 elasticsearch
下载对应的包elasticsearch-8.1.1-linux-x86_64.tar.gz创建es租户groupaddelasticsearcuseraddelasticsearch-gelasticsearch-pelasticsearchchmodu+w/etc/sudoerschmod-Relasticsearch:elasticsearchelasticsearch修改配置文件vim/et
鸢尾花分类项目 GUI 编织幻境的妖分类数据挖掘人工智能
1.机器学习的定义机器学习是一门人工智能的分支，专注于开发算法和统计模型，使计算机能够在没有明确编程的情况下从数据中自动学习和改进。通过识别数据中的模式和规律，机器学习系统可以做出预测或决策。常见的应用包括图像识别、语音识别、推荐系统等。2.为什么使用鸢尾花数据集（Irisdataset）鸢尾花数据集是一个经典的多类分类问题数据集，由英国统计学家和遗传学家RonaldFisher在1936年引入。
Mybatisplus更新某个字段为null 辉夜姬想环游世界日常记录 java spring 开发语言
使用@TableField(updateStrategy=FieldStrategy.IGNORED)注解要更新的字段。@TableField注解是Mybatisplus框架中提供的一个注解，主要用于实体类（Entity）的字段上，帮助开发者更灵活地映射Java对象属性与数据库表字段之间的关系主要功能：1、字段映射：当实体类和数据库字段不一致时，可以是使用value属性指定数据库字段名@Table
关于防火墙运维面试题2 编织幻境的妖运维网络 php
三、防火墙配置与管理类21.如何根据企业的网络安全策略，制定一套全面的防火墙规则集？需要考虑哪些关键因素？以下是根据企业网络安全策略制定全面防火墙规则集的指导，以及需要考虑的关键因素：一、关键因素（一）网络架构与拓扑了解企业的网络结构明确企业网络是简单的星型拓扑、复杂的网状拓扑还是混合拓扑等。例如，在星型拓扑中，所有设备都连接到一个中心交换机或集线器，这种结构下防火墙规则可能相对集中和简单；而在网
python做一个注册界面_python如何做一个登录注册界面 weixin_39824033 python做一个注册界面
python做一个登录注册界面的方法：首先初始化一个window界面，并使用画布实现欢迎的logo；然后用代码实现登录和注册按钮；接着并进行登录判断代码；最后完成注册界面即可。【相关学习推荐：python视频教程】python做一个登录注册界面的方法：一、登录界面1、首先初始化一个window界面window=tk.Tk()window.title('WelcometoMofanPython')w
python读取zip包内文件_Python模块学习：zipfile zip文件操作 weixin_40001634 python读取zip包内文件
最近在写一个网络客户端下载程序，用于下载服务器上的数据。有些数据(如文本，office文档)如果直接传输的话，将会增加通信的数据量，使下载时间变长。服务器在传输这些数据之前先对其进行压缩，客户端接收到数据之后进行解压，这样可以减小网通传输数据的通信量，缩短下载的时间，从而增加客户体验。以前用C#做类似应用程序的时候，我会用SharpZipLib这个开源组件，现在用Python做类似的工作，只要使用
关于防火墙运维面试题编织幻境的妖运维 php 网络
一、防火墙基础概念类1.请详细阐述防火墙在网络安全体系中的具体作用及核心原理。以下是防火墙在网络安全体系中的具体作用及核心原理的详细阐述：防火墙在网络安全体系中的作用访问控制限制非法访问：防火墙可以根据预设的规则，允许或拒绝特定的网络流量通过。例如，企业内部网络可能只允许来自特定IP地址范围的员工访问敏感资源，而阻止其他未经授权的外部IP地址的访问，从而保护内部网络免受未经授权的访问和潜在的攻击。
改进YOLO系列 | YOLOv5/v7 引入 Dynamic Snake Convolution | 动态蛇形卷积 wei子 YOLO 目标跟踪人工智能
改进YOLO系列：动态蛇形卷积（DynamicSnakeConvolution，DSC）简介YOLO系列目标检测算法以其速度和精度著称，但对于细长目标例如血管、道路等，其性能仍有提升空间。动态蛇形卷积（DSC）是YOLOv5/v7中引入的一种改进，旨在更好地处理细长目标。DSC原理DSC的核心思想是使用类似蛇形运动的卷积核来提取细长目标的特征。具体来说，DSC卷积核沿着一系列控制点移动，并根据每个
python制作登陆窗口_python登陆界面 weixin_39758494 python制作登陆窗口
广告关闭腾讯云11.11云上盛惠，精选热门产品助力上云，云服务器首年88元起，买的越多返的越多，最高返5000元！print(账号密码错误！请重试。)returnfalsebutton(master,text=登陆,width=10,command=test).grid(row=3,column=0,sticky=w,padx=10,pady=5)button(master,text=退出,wid
hget和get redis_redis get hget 区别 weixin_39615257 hget和get redis
下标是从0开始的,接着上面例子redis>substrk08"hello,wor"redis>getk"hello,world"3.listredis的list类型其实就是一个每个子元素都......String–>SETNG“NewGrand”–>ok–>GETNG–“NewGrand”Redis常用命令?Hash–HSET–HGET–HEXISTS–HDEL应用场景:存储用户信息......5
如何使用零配置的Sphinx生成Python文档？潮易 sphinx 全文检索搜索引擎
如何使用零配置的Sphinx生成Python文档？在Python编程中，编写文档是非常重要的。一个好的文档可以帮助其他开发者理解和使用你的代码。Sphinx是一个用于生成Python项目的文档的静态网页生成器，它支持多种文档格式，包括ReStructuredText和Markdown。以下是使用零配置的方式来使用Sphinx生成Python文档的详细步骤：1.首先，确保你已经安装了Sphinx。打
如何订阅&q；/扫描&q；主题、修改消息并发布到新主题？潮易 python 开发语言
如何订阅&q；/扫描&q；主题、修改消息并发布到新主题？这个问题涉及到Python编程中的MQTT（MessageQueuingTelemetryTransport）库的使用，该库允许我们创建客户端订阅和发布消息到MQTT服务器。以下是一个简单的步骤：1.安装MQTT库：可以使用pip安装`paho-mqtt`库。```pythonpipinstallpaho-mqtt```2.创建一个MQTT客
Ubuntu之12.04常用快捷键——记住这些你就是高手啦！码莎拉蒂 . Linux/Unix积累 ubuntu 快捷键
桌面ALT+F1:聚焦到桌面左侧任务导航栏，可按上下键导航。ALT+F2:运行命令ALT+F4:关闭窗口ALT+TAB:切换程序窗口ALT+空格:打开窗口菜单PRINT:桌面截图SUPER:打开Dash面板，可搜索或浏览项目，默认有个搜索框，按“下”方向键进入浏览区域（SUPER键指Win键或苹果电脑的command键）在Dash面板中按CTRL+TAB:切换到下一个子面板（可搜索不同类型项目，如
ubuntu终端常用快捷键 superyuanzhe linux linux
转自http://forum.ubuntu.org.cn/viewtopic.php?f=86&t=318908今天看到一个有关快捷键的帖子，觉得不错，粘过来大家看看:BashShell快捷键l：删除从光标到行尾的部分l：删除从光标到行首的部分l：删除从光标到当前单词结尾的部分l：删除从光标到当前单词开头的部分l：将光标移到行首l：将光标移到行尾l：将光标移到当前单词头部l：将光标移到当前单词尾部
Java平台上的多线程与多核处理研究向哆哆 Java入门到精通 java python 开发语言
Java平台上的多线程与多核处理研究在现代计算机架构中，多核处理器已成为主流。随着硬件性能的提升，如何有效利用多核处理器的计算能力成为开发者面临的重要问题之一。Java作为一种广泛使用的编程语言，提供了多线程编程的强大支持，使得开发者能够在多核环境下实现并行计算。本篇文章将深入探讨Java平台上的多线程与多核处理，探讨其工作原理、应用场景，并通过代码实例进行演示。1.多线程与多核处理的基本概念1.
Spring框架在Java企业级应用中的应用分析向哆哆 Java入门到精通 java spring 后端
Java在移动应用开发中的优势与挑战Java作为一门历史悠久且功能强大的编程语言，在移动应用开发中一直占据着重要地位，尤其是在安卓平台的应用开发上，Java是主要的开发语言。随着技术的发展，尤其是Kotlin的崛起，Java在移动应用中的角色发生了一些变化，但它依旧具有许多独特的优势，尤其是在企业级应用和维护现有项目中。本文将从多个角度探讨Java在移动应用开发中的优势与挑战，并提供相关的代码示例
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本

Python爬虫入门实战之猫眼电影数据抓取（实战篇）

你可能感兴趣的:(若数的爬虫)