码农飞哥

利用多线程爬点dianying回家慢慢看【python爬虫入门进阶】（05）

您好，我是码农飞哥，感谢您阅读本文，欢迎一键三连哦。
1. 社区逛一逛，周周有福利，周周有惊喜。码农飞哥社区，飞跃计划
2. Python基础专栏，基础知识一网打尽。 Python从入门到精通
❤️ 3. Ceph实战，从原理到实战应有尽有。 Ceph实战
❤️ 4. Java高并发编程入门，打卡学习Java高并发。 Java高并发编程入门
干货满满，建议收藏，需要用到时常看看。小伙伴们如有问题及需要，欢迎踊跃留言哦~ ~ ~。

为什么写这篇文章？

已经好久没有更新爬虫类的文章了，从入门到入狱的好技术怎能不好好学习呢。所以，今天我继续来卷了。本文将从实战的角度介绍一个完整的爬虫。希望读者朋友们能有所启发，有所收获。

文章目录

- 为什么写这篇文章？
- 0. 首先分析下
- - 1.明确待爬取的内容
  - 2. 分析爬取步骤
- 2. 爬取列表页
- - 2.1. 找出列表页的url的特点
  - 2.2. 找出总页数
  - 2.3. 找出详情页的url
- 3.爬取详情页数据
- - 3.1获取dianying标题
  - 获取dianying片名&导yan&主yan等信息
- 多线程操作
- 保存数据
- 最终完整源代码
- - 最终运行效果
- 最后说点
- 粉丝专属福利

0. 首先分析下

我总觉得在进行爬虫之前我们首先需要明确要爬取的内容，接着就是分析爬取的步骤，先爬取啥，后爬取啥；然后通过Xpath匹配待提取的内容；最后就是编写爬虫代码。

1.明确待爬取的内容

这里我们爬取的内容就是最新栏目下每个dianying的详细信息以及下载链接。
这里以xxxx英雄这个dianying为例，该dianying的详细详细信息，包括片名，导yan，yan员等信息都是我们需要爬取的内容。

2. 分析爬取步骤

毫无疑问在这个场景下我们首先需要爬取最新dianying栏目下列表页的数据，在该页面主要爬取的是每部dianying详情页的链接。
然后就是根据详情页的链接爬取详情页的详细数据。

2. 爬取列表页

首先就是爬取列表页获取详情的地址。在Chrome浏览器上通过按下F12按钮打开调试窗口简单的分析下。

2.1. 找出列表页的url的特点

首页的地址是：[/dyzz/index.html] 我们找不出任何特点。
接着我们点击第二页可以看到第二页url变成了/dyzz/list_23_2.html
在点击第三页发现第三页的url变成了/dyzz/list_23_3.html
依次类推我们可以得出第n页的页面地址是：/dyzz/list_23_n.html。

2.2. 找出总页数

打开xpathhelper插件，然后通过分析可以得到//div[@class="x"] 可以获取到包含总页数的div标签，然后通过
//div[@class="x"]//text() 可以获取到我们想要的内容。表达式解释：//div[@class="x"]表示从整个页面中匹配class属性是x的div标签。
//text() 表示获取该标签下的所有文本。

     # 找到分页插件的内容，strip方法是用于去除空格
    total_pages_element = html.xpath('//div[@class="x"]//text()')[1].strip()
    #提取 共 字的索引位置
    start_index = total_pages_element.find('共')
    #提取 页 字的索引位置
    end_index = total_pages_element.find('页')
    # 共 字和 页 字之间就是我们想要的总页数了
    total_pages = total_pages_element[start_index + 1:end_index]

2.3. 找出详情页的url

同样的我们在列表页面选中某个dianying标题，通过调试可以知道每个dianying详情页面的链接在

标签下的标签下的

标签下的标签中。这样说起来是不是有点绕。没关系的，通过xpath表达式只需要这样就可以了//a[@class="ulink"]/@href 表达式。表达式解释：//a[@class="ulink"]表示从整个页面中匹配class属性是ulink的a标签。/@href 表示获取该标签下href的属性值。
当然也通过//table[@class="tbspan"]//a/@href 表达式，这两个表达式都可以提取到我们想要的数据。对xpath表达式还不熟悉的小伙伴可以看下这篇文章浅识XPath（熟练掌握XPath的语法）【python爬虫入门进阶】（03）。

利用多线程爬点dianying回家慢慢看【python爬虫入门进阶】（05）_第2张图片

这里需要注意的是href标签中的链接不是一个完整的链接，完整的链接需要加上域名。所以，链接的代码是：

	BASE_DOMAIN = ''
    resp = requests.get(page_url, headers=headers)
    html = etree.HTML(resp.content.decode(BASE_ENCODING))
    # 获取dianying详情页的地址
    detail_url_list = html.xpath('//table[@class="tbspan"]//a/@href')
    #将详情页地址拼接成一个完整地址
    new_detail_url_list = [BASE_DOMAIN + detail_url for detail_url in detail_url_list]

3.爬取详情页数据

拿到详情页地址之后就是获取详情页的详细数据了。这同样比较简单。首先，还是打开详情页面进行分析。
这里还是以[「xxx英雄」]为例，还是跟列表页类似的分析步骤。

3.1获取dianying标题

通过//div[@class="title_all"]//font/text() ，表达式解释：//div[@class="title_all"]表示从整个页面中匹配class属性是title_all的div标签。 //div[@class="title_all"]//font 从标签第一步获取的div标签中获取font标签。text()方法依然是获取标签内容。

dianying的发布时间以及获取dianying海报的获取跟dianying标题类似，在此就不在赘述了。

获取dianying片名&导yan&主yan等信息

通过调试可以得知dianying片名&导yan&主yan等信息均是在

标签下。

利用多线程爬点dianying回家慢慢看【python爬虫入门进阶】（05）_第4张图片

其他的基本信息均被标签分割。所以获取到//div[@id="Zoom"] 标签下的所有文本信息就可以获取到我们想要的数据了，然后就是对获取的数据进行匹配处理。下面就是完整代码。

    movie = {
     }
 # 获取所有信息
    zoomE = html.xpath('//div[@id="Zoom"]')[0]
    # 获取所有信息
    infos = zoomE.xpath('.//text()')
    for info in infos:
        info = info.strip()
        if info.startswith('◎译　　名'):
            movie['translate_name'] = info.replace('◎译　　名', "")
        elif info.startswith('◎片　　名'):
            movie['name'] = info.replace('◎片　　名', "")
        elif info.startswith('◎年　　代'):
            movie['year'] = info.replace('◎年　　代', "")
        elif info.startswith('◎产　　地'):
            movie['place'] = info.replace('◎产　　地', "'")
        elif info.startswith('◎上映日期'):
            movie['release_time'] = info.replace('◎上映日期', "")
        elif info.startswith('◎豆瓣评分'):
            movie['score'] = info.replace('◎豆瓣评分', "")
        elif info.startswith('◎片　　长'):
            movie['film_time'] = info.replace('◎片　　长', "")
        elif info.startswith('◎导　　yan'):
            movie['director'] = info.replace('◎导　　yan', "")
        elif info.startswith('◎主　　yan'):
            # 获取yan员
            index = infos.index(info)
            info = info.replace('◎主　　yan', "")
            actors = [info]
            for x in range(index + 1, len(infos)):
                actor = infos[x].strip()
                if actor.startswith("◎"):
                    break
                actors.append(actor)
                movie['actors'] = actors
        elif info.startswith('◎标　　签'):
            movie['label'] = info.replace('◎标　　签', "")
        elif info.startswith('◎简　　介'):
            try:
                index = infos.index(info)
                for x in range(index + 1, len(infos)):
                    profile = infos[x].strip()
                    if profile.startswith('磁力链'):
                        break
                    movie['profile'] = profile
            except Exception:
                pass

这里定义了一个movie字典用于存放所获取到的dianying详细信息。这里遍历获取到的所有数据，通过字符串匹配的方法获取每一行数据。
以译名为例，首先，匹配当前的字符串是否是以◎译　　名 开头。如果是话的，则将◎译　　名 替换掉，就得到我们想要的数据REBORN 了。
其他的片名，产地也是一样的原理，在此就不在赘述了。
重点需要说下的是：主yan的信息，因为主yan不止一个，所有需要特殊的处理下。

 		elif info.startswith('◎主　　yan'):
            # 获取yan员
            index = infos.index(info)
            info = info.replace('◎主　　yan', "")
            actors = [info]
            for x in range(index + 1, len(infos)):
                actor = infos[x].strip()
                if actor.startswith("◎"):
                    break
                actors.append(actor)
                movie['actors'] = actors

首先是获取当前信息info在infos列表中的位置index，就是定义一个列表，列表中的第一个元素就是排名在第一的主yan姓名。
接着遍历infos中的元素。遍历的起始位置是index+1，结束位置是 len(infos) 不包括该位置。
当匹配到下一个◎符号是该循环结束。

多线程操作

正如标题所说，为了提高爬虫效率，这里将每个页面的数据爬取任务交给一个单独的线程来执行。这些线程由线程池来管理。具体代码是：

from multiprocessing.pool import ThreadPool
#创建一个大小为20的线程池
page_pool = ThreadPool(processes=20)
#异步请求详情页的数据
page_pool.apply_async(func=get_current_page_detail_url,
                              args=(
                                  BASE_DOMAIN + '/dyzz/' + 'list_23_' + str(
                                      current_page) + '.html',))

保存数据

这里将爬取的数据简单的保存到txt文本中。保存数据的代码是：

def save_data(content):
    content_json = json.dumps(content, ensure_ascii=False)
    with open(file='content.txt', mode='a', encoding='utf-8') as f:
        f.write(content_json + '\n')

最终完整源代码

# -*- utf-8 -*-
"""
@url: https://blog.csdn.net/u014534808
@Author: 码农飞哥
@File: list.py
@Time: 2021/12/3 10:15
@Desc: 爬取列表页
"""
from lxml import etree
import requests
from multiprocessing.pool import ThreadPool
import threading
import json

BASE_DOMAIN = ''
headers = {
     
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.55 Safari/537.36',
    'Cookie': 'XLA_CI=f6efcd6e626919703161043f280f26e6'
}
BASE_ENCODING = 'gbk'

page_pool = ThreadPool(processes=20)


# 获取所有页面的地址
def get_total_page():
    url = '/dyzz/index.html'
    resp = requests.get(url, headers=headers)
    html = etree.HTML(resp.content.decode(BASE_ENCODING))
    total_pages_element = html.xpath('//div[@class="x"]//text()')[1].strip()
    start_index = total_pages_element.find('共')
    end_index = total_pages_element.find('页')
    total_pages = total_pages_element[start_index + 1:end_index]
    for current_page in range(1, int(total_pages)):
        page_pool.apply_async(func=get_current_page_detail_url,
                              args=(
                                  BASE_DOMAIN + '/dyzz/' + 'list_23_' + str(
                                      current_page) + '.html',))


def get_current_page_detail_url(page_url):
    resp = requests.get(page_url, headers=headers)
    html = etree.HTML(resp.content.decode(BASE_ENCODING))
    # 获取dianying详情页的地址
    detail_url_list = html.xpath('//table[@class="tbspan"]//a/@href')
    new_detail_url_list = [BASE_DOMAIN + detail_url for detail_url in detail_url_list]

    movies = []
    for detail_url in new_detail_url_list:
        print(threading.current_thread().getName() + " " + detail_url)
        movies.append(get_movie_detail(detail_url))
    save_data(movies)
    return movies


def get_movie_detail(movie_url):
    resp = requests.get(movie_url, headers)
    html = etree.HTML(resp.content.decode(BASE_ENCODING))
    movie = {
     }
    # 获取dianying标题
    movie_title = html.xpath('//div[@class="title_all"]//font/text()')[0].strip()
    movie['movie_title'] = movie_title
    # 获取发布时间
    publish_time = html.xpath('//div[@class="co_content8"]/ul/text()')[0].strip()
    movie['publish_time'] = publish_time
    # 获取dianying海报
    movie_poster_url = html.xpath('//div[@class="co_content8"]//img/@src')[0].strip()
    movie['movie_poster_url'] = movie_poster_url
    # 获取所有信息
    zoomE = html.xpath('//div[@id="Zoom"]')[0]
    # 获取所有信息
    infos = zoomE.xpath('.//text()')
    for info in infos:
        info = info.strip()
        if info.startswith('◎译　　名'):
            movie['translate_name'] = info.replace('◎译　　名', "")
        elif info.startswith('◎片　　名'):
            movie['name'] = info.replace('◎片　　名', "")
        elif info.startswith('◎年　　代'):
            movie['year'] = info.replace('◎年　　代', "")
        elif info.startswith('◎产　　地'):
            movie['place'] = info.replace('◎产　　地', "'")
        elif info.startswith('◎上映日期'):
            movie['release_time'] = info.replace('◎上映日期', "")
        elif info.startswith('◎豆瓣评分'):
            movie['score'] = info.replace('◎豆瓣评分', "")
        elif info.startswith('◎片　　长'):
            movie['film_time'] = info.replace('◎片　　长', "")
        elif info.startswith('◎导　　yan'):
            movie['director'] = info.replace('◎导　　yan', "")
        elif info.startswith('◎主　　yan'):
            # 获取yan员
            index = infos.index(info)
            info = info.replace('◎主　　yan', "")
            actors = [info]
            for x in range(index + 1, len(infos)):
                actor = infos[x].strip()
                if actor.startswith("◎"):
                    break
                actors.append(actor)
                movie['actors'] = actors
        elif info.startswith('◎标　　签'):
            movie['label'] = info.replace('◎标　　签', "")
        elif info.startswith('◎简　　介'):
            try:
                index = infos.index(info)
                for x in range(index + 1, len(infos)):
                    profile = infos[x].strip()
                    if profile.startswith('磁力链'):
                        break
                    movie['profile'] = profile
            except Exception:
                pass
    return movie


def save_data(content):
    content_json = json.dumps(content, ensure_ascii=False)
    with open(file='content.txt', mode='a', encoding='utf-8') as f:
        f.write(content_json + '\n')


if __name__ == '__main__':
    get_total_page()
    page_pool.close()
    page_pool.join()

最终运行效果

最后说点

本文以某网站为例，主要是运用所学的xpath表达式，requests库的相关知识点进行爬虫。

粉丝专属福利

软考资料：实用软考资料

面试题：5G 的Java高频面试题

学习资料：50G的各类学习资料

脱单秘籍：回复【脱单】

并发编程：回复【并发编程】

											 验证码 可通过搜索下方 公众号 获取

你可能感兴趣的:(爬虫,python,爬虫,java)

使用Python和OpenCV实现图像像素压缩与解压东方佑量子变法 python opencv 开发语言
在本文中，我们将探讨如何使用Python和OpenCV库来实现一种简单的图像像素压缩算法。我们将详细讨论代码的工作原理，并提供一个具体的示例来演示该过程。1.引言随着数字媒体的普及，图像处理成为了一个重要的领域。无论是为了减少存储空间还是加快网络传输速度，图像压缩技术都扮演着至关重要的角色。这里，我们提出了一种基于像素重复模式的简单压缩算法，它适用于具有大量连续相同像素值的图像。2.技术栈介绍2.
【Python系列】Python 解释器的站点配置 Kwan的解忧杂货铺@新空间代码工作室 s1 Python python 开发语言
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术点,如集合,jvm,并发编程redis,kafka,Spring,微服务,Netty等常用开发工具系列:罗列常用的开发工具,如IDEA,M
深入解析JVM性能问题定位与优化测试不打烊性能测试 jvm 性能优化
JVM性能问题定位与优化详解：架构、内存、Linux命令与监控工具的全面解析引言Java虚拟机（JVM）是运行Java应用程序的核心组件，它管理内存、执行字节码，并提供垃圾回收机制等功能。然而，随着应用规模的增长，JVM的性能问题时常会成为系统瓶颈。为了有效定位和优化JVM性能问题，我们需要从JVM架构、内存管理、Linux系统命令，以及监控工具入手，对JVM的各类指标进行详尽的分析和优化。本文将
【java基础】Java 中的 this 关键字李少兄 Java java 开发语言
前言在Java的编程世界里，this关键字宛如一把神奇的钥匙，看似简单，却蕴含着强大的功能。它在对象的创建、方法的调用以及成员变量的访问等方面都发挥着至关重要的作用。1.this关键字的基本概念this关键字是Java中的一个引用变量，它指向当前对象。在一个类的方法或构造器内部，this关键字可以用来引用调用该方法或构造器的对象实例。简单来说，this代表了当前正在执行操作的对象本身。哪个对象调用
【Java基础】Java 中的 static 关键字李少兄 Java java 开发语言
一、前言在Java的编程世界里，static关键字是一个非常重要且实用的特性。它就像是一把神奇的钥匙，能够改变变量、方法、代码块和内部类的性质和行为。二、static修饰成员变量2.1静态变量的基本概念在Java里，当我们使用static关键字修饰成员变量时，这个变量就变成了静态变量，也叫类变量。普通的成员变量（实例变量）是每个对象都有一份独立的副本，而静态变量不同，它属于整个类，无论创建多少个该
关于个人财务系统的javaweb小项目竹木有心 tomcat java
个人财务管理系统-项目计划书1.项目背景与目的随着现代社会的进步与人们收入水平的提高，个人财务的管理变得越来越重要。如何有效地记录、管理、分析个人的收支状况，成为了很多人关注的焦点。本项目旨在设计并实现一个基于JavaWeb技术的个人财务管理系统，通过该系统，用户可以轻松管理自己的收入与支出，查看财务统计分析，帮助用户进行财务规划与控制。本系统适用于大三学生的课程设计要求，涉及JavaWeb技术、
利用Beautiful Soup和Pandas进行网页数据抓取与清洗处理实战傻啦嘿哟 pandas
目录一、准备工作二、抓取网页数据三、数据清洗四、数据处理五、保存数据六、完整代码示例七、总结在数据分析和机器学习的项目中，数据的获取、清洗和处理是非常关键的步骤。今天，我们将通过一个实战案例，演示如何利用Python中的BeautifulSoup库进行网页数据抓取，并使用Pandas库进行数据清洗和处理。这个案例不仅适合初学者，也能帮助有一定经验的朋友快速掌握这两个强大的工具。一、准备工作在开始之
Mybatisplus更新某个字段为null 辉夜姬想环游世界日常记录 java spring 开发语言
使用@TableField(updateStrategy=FieldStrategy.IGNORED)注解要更新的字段。@TableField注解是Mybatisplus框架中提供的一个注解，主要用于实体类（Entity）的字段上，帮助开发者更灵活地映射Java对象属性与数据库表字段之间的关系主要功能：1、字段映射：当实体类和数据库字段不一致时，可以是使用value属性指定数据库字段名@Table
python做一个注册界面_python如何做一个登录注册界面 weixin_39824033 python做一个注册界面
python做一个登录注册界面的方法：首先初始化一个window界面，并使用画布实现欢迎的logo；然后用代码实现登录和注册按钮；接着并进行登录判断代码；最后完成注册界面即可。【相关学习推荐：python视频教程】python做一个登录注册界面的方法：一、登录界面1、首先初始化一个window界面window=tk.Tk()window.title('WelcometoMofanPython')w
python读取zip包内文件_Python模块学习：zipfile zip文件操作 weixin_40001634 python读取zip包内文件
最近在写一个网络客户端下载程序，用于下载服务器上的数据。有些数据(如文本，office文档)如果直接传输的话，将会增加通信的数据量，使下载时间变长。服务器在传输这些数据之前先对其进行压缩，客户端接收到数据之后进行解压，这样可以减小网通传输数据的通信量，缩短下载的时间，从而增加客户体验。以前用C#做类似应用程序的时候，我会用SharpZipLib这个开源组件，现在用Python做类似的工作，只要使用
python制作登陆窗口_python登陆界面 weixin_39758494 python制作登陆窗口
广告关闭腾讯云11.11云上盛惠，精选热门产品助力上云，云服务器首年88元起，买的越多返的越多，最高返5000元！print(账号密码错误！请重试。)returnfalsebutton(master,text=登陆,width=10,command=test).grid(row=3,column=0,sticky=w,padx=10,pady=5)button(master,text=退出,wid
如何使用零配置的Sphinx生成Python文档？潮易 sphinx 全文检索搜索引擎
如何使用零配置的Sphinx生成Python文档？在Python编程中，编写文档是非常重要的。一个好的文档可以帮助其他开发者理解和使用你的代码。Sphinx是一个用于生成Python项目的文档的静态网页生成器，它支持多种文档格式，包括ReStructuredText和Markdown。以下是使用零配置的方式来使用Sphinx生成Python文档的详细步骤：1.首先，确保你已经安装了Sphinx。打
如何订阅&q；/扫描&q；主题、修改消息并发布到新主题？潮易 python 开发语言
如何订阅&q；/扫描&q；主题、修改消息并发布到新主题？这个问题涉及到Python编程中的MQTT（MessageQueuingTelemetryTransport）库的使用，该库允许我们创建客户端订阅和发布消息到MQTT服务器。以下是一个简单的步骤：1.安装MQTT库：可以使用pip安装`paho-mqtt`库。```pythonpipinstallpaho-mqtt```2.创建一个MQTT客
Java平台上的多线程与多核处理研究向哆哆 Java入门到精通 java python 开发语言
Java平台上的多线程与多核处理研究在现代计算机架构中，多核处理器已成为主流。随着硬件性能的提升，如何有效利用多核处理器的计算能力成为开发者面临的重要问题之一。Java作为一种广泛使用的编程语言，提供了多线程编程的强大支持，使得开发者能够在多核环境下实现并行计算。本篇文章将深入探讨Java平台上的多线程与多核处理，探讨其工作原理、应用场景，并通过代码实例进行演示。1.多线程与多核处理的基本概念1.
Spring框架在Java企业级应用中的应用分析向哆哆 Java入门到精通 java spring 后端
Java在移动应用开发中的优势与挑战Java作为一门历史悠久且功能强大的编程语言，在移动应用开发中一直占据着重要地位，尤其是在安卓平台的应用开发上，Java是主要的开发语言。随着技术的发展，尤其是Kotlin的崛起，Java在移动应用中的角色发生了一些变化，但它依旧具有许多独特的优势，尤其是在企业级应用和维护现有项目中。本文将从多个角度探讨Java在移动应用开发中的优势与挑战，并提供相关的代码示例
Python-tkinter自制登录界面（含注册） GCHEK python 开发语言
简单的用户登录、注册界面importtkinterastkimporttimeimportsubprocessimportsysimportosimporttkinter.messageboxwindow=tk.Tk()window.title('GCHEK')window.geometry('400x300')#设置储存用户信息的容器，这里用的txt。ifnotos.path.exists('U
idea error invoking main method （亲测有效）大葱蘸个酱 intellij-idea java ide
一、前言我的idea是IntelliJIDEA2021.3.2版本，前一天测试javagc回收，把idea的堆内存调成了28m和56m，导致今天idea无法启动，提示errorinvokingmainmethod二、解决方案把配置文件中的配置调整正常，问题解决-Xms128m最小堆内存-Xmx750m最大堆内存-Xms最小堆内存-Xmx最大堆内存其它问题导致的无法启动解决方案：管理员模式下面cmd
Python爬虫requests(详细) dme. Python爬虫零基础入门爬虫 python
本文来学爬虫使用requests模块的常见操作。1.URL参数无论是在发送GET/POST请求时，网址URL都可能会携带参数，例如：http://www.5xclass.cn?age=19&name=dengres=requests.get(url="https://www.5xclass.cn?age=19&name=deng")res=requests.get(url="https://www
Java JVM性能优化与调优卖血买老婆 Java专栏 java jvm 性能优化
优化Java应用的性能通常需要深入理解JVM（JavaVirtualMachine）的工作原理和运行机制，因为JVM直接决定了Java程序的运行时表现。以下是JVM性能优化与调优的要点和详细指导，涵盖常见问题、调优工具及策略。一、常见性能问题内存相关问题堆内存不足（OutOfMemoryError:Javaheapspace）元空间（Metaspace）不足频繁的垃圾回收导致长时间停顿内存泄漏（对
RHEL 安装 Hadoop 服务器 XhClojure hadoop 服务器大数据
在这篇文章中，我们将探讨如何在RedHatEnterpriseLinux(RHEL)上安装和配置Hadoop服务器。Hadoop是一个开源的分布式数据处理框架，用于处理大规模数据集。以下是在RHEL上安装Hadoop的详细步骤。步骤1：安装Java在安装Hadoop之前，我们需要确保系统上安装了JavaDevelopmentKit(JDK)。执行以下命令安装JDK：sudoyuminstallja
使用python计算等比数列求和的方法 HAMYHF windows
在python中，计算Sum=m+mm+mmm+mmmm+.....+mmmmm.....,输入两个数m,n。m的位数累加到n的值，列出算式并计算出结果：#为了打印出算式，并计算出结果，将m,mm这些放入到列表中#定义列表中的m初始值为0,用Ele来代表m,mm....Ele=0#定义总和为0Sum=0#定义一个空列表List=[]#输入两个值n=int(input("inputadigit：")
Python+Playwright常用元素定位方法 HAMYHF python 功能测试
CSSselector选择器在CSS中，定位元素主要通过选择器完成，以下是几种常见的CSS选择器定位方法：标签选择器(element):直接使用HTML元素名称来定位，例如p会选择所有段落元素。属性选择器(attribute):选择所有具有指定属性的元素，无论该属性的值是什么。例如，[title]会选择所有包含title属性的元素。选择具有指定属性，并且该属性值完全等于给定值的元素。例如，[typ
Python中的 redis keyspace 通知_python 操作redis psubscribe(‘__keyspace@0__ ‘) 2301_82243733 程序员 python 学习面试
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
Python数据分析与可视化程序媛小果 python python 数据分析开发语言
Python数据分析与可视化在数据驱动的商业世界中，数据分析和可视化成为了理解复杂数据集、做出明智决策的关键工具。Python，作为一种功能强大且易于学习的编程语言，提供了丰富的库和框架，使得数据分析和可视化变得简单高效。本文将探讨Python在数据分析和可视化中的应用，包括数据预处理、分析、以及如何通过可视化工具将数据洞察转化为可操作的策略。1.数据分析的重要性数据分析是提取数据中有用信息的过程
JavaScript网页设计案例：打造交互式个人简历网站程序媛小果前端 javascript 开发语言 ecmascript
在当今数字化时代，个人简历不再局限于纸质文档，而是越来越多地以网页形式呈现。JavaScript作为一种强大的客户端脚本语言，为网页设计提供了无限可能，使得网页不仅仅是静态的信息展示，而是具有丰富交互性的平台。本文将通过一个案例，展示如何使用HTML、CSS和JavaScript来设计一个交互式的个人简历网站。1.项目概述本案例的目标是创建一个个人简历网站，它不仅展示个人信息、工作经历、教育背景和
ECMAScript与JavaScript：探索两者之间的联系与区别程序媛小果前端 ecmascript javascript 前端
在Web开发的早期，JavaScript成为了客户端脚本语言的代名词，而随着时间的推移，JavaScript已经发展成为一个功能强大的语言，它的影响力远远超出了浏览器的范畴。在这场语言演进的过程中，ECMAScript扮演了一个关键角色。本文将深入探讨ECMAScript与JavaScript之间的关系，以及它们之间的主要区别。1.什么是ECMAScript？ECMAScript是由欧洲计算机制造
【Java基础】Java 中的 super 关键字李少兄 Java java 开发语言
前言在Java的面向对象编程中，继承是一个核心特性，它允许我们创建一个新类（子类）来继承另一个已有类（父类）的属性和方法。而super关键字则是在这个继承体系中扮演着至关重要的角色，它为子类与父类之间的交互提供了强大的支持。1.super关键字的基本概念super关键字是Java中的一个引用变量，它指向当前对象的父类对象。通过super，子类可以访问父类的成员，包括成员变量、方法和构造器。在子类中
【Python 学习 / 7】模块与文件操作卜及中 Python基础 python 学习数据库
文章目录前言一、导入模块1.导入整个模块2.导入模块中的特定函数3.给模块或函数起别名二、常用模块1.`math`模块2.`random`模块3.`os`模块4.`sys`模块三、文件处理1.打开文件2.读取文件3.写入文件4.关闭文件5.使用`with`语句管理文件四、日期时间1.`datetime`模块获取当前日期和时间创建日期和时间对象格式化日期和时间解析字符串为日期对象2.`time`模块
23种设计模式-享元(Flyweight)设计模式萨达大软考中级-软件设计师设计模式享元模式软考软件设计师 C++行为型设计模式 JAVA
文章目录一.什么是享元设计模式？二.享元模式的特点三.享元模式的结构四.享元模式的优缺点五.享元模式的C++实现六.享元模式的JAVA实现七.代码解析八.总结类图：享元设计模式类图一.什么是享元设计模式？享元（Flyweight）设计模式是一种结构型设计模式，通过共享对象来减少内存占用和对象创建开销。它通过将对象的可共享部分与不可共享部分分离，减少重复对象的数量，从而节省内存。享元模式的核心思
2分钟学会编写maven插件聪明马的博客 Java maven java spring
什么是Maven插件Maven是Java项目中常用的构建工具，可以自动化构建、测试、打包和发布Java应用程序。Maven插件是Maven的一项重要功能，它可以在Maven构建过程中扩展Maven的功能，实现自定义的构建逻辑。Maven插件可以提供很多不同的功能，例如：生成代码、打包文件、部署应用程序等。插件通常是在Maven构建生命周期中的某个阶段执行，例如：编译、测试、打包、安装和部署。Mav
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他