Python 通过xpath属性爬取豆瓣热映的电影信息

前言

声明一下：本文主要是研究使用，没有别的用途。

GitHub仓库地址：github项目仓库

页面分析

主要爬取页面为:https://movie.douban.com/cinema/nowplaying/nanjing/

至于后面的地区，可以按照自己的需要改一下，不过多赘述了。页面需要点击一下展开全部影片，才能显示全部内容，不然只有15部。所以我们使用selenium的时候，需要加一个打开页面后的点击逻辑。页面图如下：

通过F12展开的源码，用xpath helper工具验证一下右键复制下来的xpath路径。

为了避免布局调整导致找不到，我把xpath改为通过class名获取。

然后看看每个影片的信息。

分析一下，是不是可以通过nowplaying的div，作为根节点，然后获取下面class为list-item的节点，里面的属性就是我们要的内容。

没什么问题，那么就按照这个思路开始创建项目编码吧。

实现过程

创建项目

创建一个较douban_playing的项目，使用scrapy命令。

scrapy startproject douban_playing

Item定义

定义电影信息实体。

# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html
 
import scrapy
 
 
class DoubanPlayingItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    # 电影名
    title = scrapy.Field()
    # 电影分数
    score = scrapy.Field()
    # 电影发行年份
    release = scrapy.Field()
    # 电影时长
    duration = scrapy.Field()
    # 地区
    region = scrapy.Field()
    # 电影导演
    director = scrapy.Field()
    # 电影主演
    actors = scrapy.Field()

中间件操作定义

主要是点击展开全部影片，需要加一段代码。

# Define here the models for your spider middleware
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/spider-middleware.html
import time
 
from scrapy import signals
 
# useful for handling different item types with a single interface
from itemadapter import is_item, ItemAdapter
from scrapy.http import HtmlResponse
from selenium.common.exceptions import TimeoutException
 
 
class DoubanPlayingSpiderMiddleware:
    # Not all methods need to be defined. If a method is not defined,
    # scrapy acts as if the spider middleware does not modify the
    # passed objects.
 
    @classmethod
    def from_crawler(cls, crawler):
        # This method is used by Scrapy to create your spiders.
        s = cls()
        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
        return s
 
    def process_spider_input(self, response, spider):
        # Called for each response that goes through the spider
        # middleware and into the spider.
 
        # Should return None or raise an exception.
        return None
 
    def process_spider_output(self, response, result, spider):
        # Called with the results returned from the Spider, after
        # it has processed the response.
 
        # Must return an iterable of Request, or item objects.
        for i in result:
            yield i
 
    def process_spider_exception(self, response, exception, spider):
        # Called when a spider or process_spider_input() method
        # (from other spider middleware) raises an exception.
 
        # Should return either None or an iterable of Request or item objects.
        pass
 
    def process_start_requests(self, start_requests, spider):
        # Called with the start requests of the spider, and works
        # similarly to the process_spider_output() method, except
        # that it doesn't have a response associated.
 
        # Must return only requests (not items).
        for r in start_requests:
            yield r
 
    def spider_opened(self, spider):
        spider.logger.info('Spider opened: %s' % spider.name)
 
 
class DoubanPlayingDownloaderMiddleware:
    # Not all methods need to be defined. If a method is not defined,
    # scrapy acts as if the downloader middleware does not modify the
    # passed objects.
 
    @classmethod
    def from_crawler(cls, crawler):
        # This method is used by Scrapy to create your spiders.
        s = cls()
        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
        return s
 
    def process_request(self, request, spider):
        # Called for each request that goes through the downloader
        # middleware.
 
        # Must either:
        # - return None: continue processing this request
        # - or return a Response object
        # - or return a Request object
        # - or raise IgnoreRequest: process_exception() methods of
        #   installed downloader middleware will be called
        # return None
        try:
            spider.browser.get(request.url)
            spider.browser.maximize_window()
            time.sleep(2)
            spider.browser.find_element_by_xpath("//*[@id='nowplaying']/div[@class='more']").click()
            # ActionChains(spider.browser).click(searchButtonElement)
            time.sleep(5)
            return HtmlResponse(url=spider.browser.current_url, body=spider.browser.page_source,
                                encoding="utf-8", request=request)
        except TimeoutException as e:
            print('超时异常:{}'.format(e))
            spider.browser.execute_script('window.stop()')
        finally:
            spider.browser.close()
 
    def process_response(self, request, response, spider):
        # Called with the response returned from the downloader.
 
        # Must either;
        # - return a Response object
        # - return a Request object
        # - or raise IgnoreRequest
        return response
 
    def process_exception(self, request, exception, spider):
        # Called when a download handler or a process_request()
        # (from other downloader middleware) raises an exception.
 
        # Must either:
        # - return None: continue processing this exception
        # - return a Response object: stops process_exception() chain
        # - return a Request object: stops process_exception() chain
        pass
 
    def spider_opened(self, spider):
        spider.logger.info('Spider opened: %s' % spider.name)

爬虫定义

按照属性名，我们取出所有的影片信息。注意取出属性的写法。

#!/user/bin/env python
# coding=utf-8
"""
@project : douban_playing
@author  : huyi
@file   : douban_playing.py
@ide    : PyCharm
@time   : 2021-11-10 16:31:23
"""
 
import scrapy
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
 
from douban_playing.items import DoubanPlayingItem
 
 
class DoubanPlayingSpider(scrapy.Spider):
    name = 'dbp'
    # allowed_domains = ['blog.csdn.net']
    start_urls = ['https://movie.douban.com/cinema/nowplaying/nanjing/']
    nowplaying = "//*[@id='nowplaying']/div[@class='mod-bd']//*[@class='list-item']/@{}"
    properties = ['data-title', 'data-score', 'data-release', 'data-duration', 'data-region', 'data-director',
                  'data-actors']
 
    def __init__(self):
        chrome_options = Options()
        chrome_options.add_argument('--headless')  # 使用无头谷歌浏览器模式
        chrome_options.add_argument('--disable-gpu')
        chrome_options.add_argument('--no-sandbox')
        self.browser = webdriver.Chrome(chrome_options=chrome_options,
                                        executable_path="E:\\chromedriver_win32\\chromedriver.exe")
        self.browser.set_page_load_timeout(30)
 
    def parse(self, response, **kwargs):
        titles = response.xpath(self.nowplaying.format(self.properties[0])).extract()
        scores = response.xpath(self.nowplaying.format(self.properties[1])).extract()
        releases = response.xpath(self.nowplaying.format(self.properties[2])).extract()
        durations = response.xpath(self.nowplaying.format(self.properties[3])).extract()
        regions = response.xpath(self.nowplaying.format(self.properties[4])).extract()
        directors = response.xpath(self.nowplaying.format(self.properties[5])).extract()
        actors = response.xpath(self.nowplaying.format(self.properties[6])).extract()
        for x in range(len(titles)):
            item = DoubanPlayingItem()
            item['title'] = titles[x]
            item['score'] = scores[x]
            item['release'] = releases[x]
            item['duration'] = durations[x]
            item['region'] = regions[x]
            item['director'] = directors[x]
            item['actors'] = actors[x]
            yield item

数据管道定义

还是老样子，把取出的电影数据按照格式输出在文本中。

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html
 
 
# useful for handling different item types with a single interface
from itemadapter import ItemAdapter
 
 
class DoubanPlayingPipeline:
    def __init__(self):
        self.file = open('result.txt', 'w', encoding='utf-8')
 
    def process_item(self, item, spider):
        self.file.write(
            "电影:{}\t分数:{}\t发行年份:{}\t电影时长:{}\t地区:{}\t电影导演:{}\t电影主演:{}\n".format(
                item['title'],
                item['score'],
                item['release'],
                item['duration'],
                item['region'],
                item['director'],
                item['actors']))
        return item
 
    def close_spider(self, spider):
        self.file.close()

配置设置

都是一些常规的，放开几个默认配置就行。

# Scrapy settings for douban_playing project
#
# For simplicity, this file contains only settings considered important or
# commonly used. You can find more settings consulting the documentation:
#
#     https://docs.scrapy.org/en/latest/topics/settings.html
#     https://docs.scrapy.org/en/latest/topics/downloader-middleware.html
#     https://docs.scrapy.org/en/latest/topics/spider-middleware.html
 
BOT_NAME = 'douban_playing'
 
SPIDER_MODULES = ['douban_playing.spiders']
NEWSPIDER_MODULE = 'douban_playing.spiders'
 
 
# Crawl responsibly by identifying yourself (and your website) on the user-agent
#USER_AGENT = 'douban_playing (+http://www.yourdomain.com)'
USER_AGENT = 'Mozilla/5.0'
 
# Obey robots.txt rules
ROBOTSTXT_OBEY = False
 
# Configure maximum concurrent requests performed by Scrapy (default: 16)
#CONCURRENT_REQUESTS = 32
 
# Configure a delay for requests for the same website (default: 0)
# See https://docs.scrapy.org/en/latest/topics/settings.html#download-delay
# See also autothrottle settings and docs
#DOWNLOAD_DELAY = 3
# The download delay setting will honor only one of:
#CONCURRENT_REQUESTS_PER_DOMAIN = 16
#CONCURRENT_REQUESTS_PER_IP = 16
 
# Disable cookies (enabled by default)
COOKIES_ENABLED = False
 
# Disable Telnet Console (enabled by default)
#TELNETCONSOLE_ENABLED = False
 
# Override the default request headers:
DEFAULT_REQUEST_HEADERS = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Accept-Language': 'en',
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.94 Safari/537.36'
}
 
# Enable or disable spider middlewares
# See https://docs.scrapy.org/en/latest/topics/spider-middleware.html
SPIDER_MIDDLEWARES = {
   'douban_playing.middlewares.DoubanPlayingSpiderMiddleware': 543,
}
 
# Enable or disable downloader middlewares
# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html
DOWNLOADER_MIDDLEWARES = {
   'douban_playing.middlewares.DoubanPlayingDownloaderMiddleware': 543,
}
 
# Enable or disable extensions
# See https://docs.scrapy.org/en/latest/topics/extensions.html
#EXTENSIONS = {
#    'scrapy.extensions.telnet.TelnetConsole': None,
#}
 
# Configure item pipelines
# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
   'douban_playing.pipelines.DoubanPlayingPipeline': 300,
}
 
# Enable and configure the AutoThrottle extension (disabled by default)
# See https://docs.scrapy.org/en/latest/topics/autothrottle.html
#AUTOTHROTTLE_ENABLED = True
# The initial download delay
#AUTOTHROTTLE_START_DELAY = 5
# The maximum download delay to be set in case of high latencies
#AUTOTHROTTLE_MAX_DELAY = 60
# The average number of requests Scrapy should be sending in parallel to
# each remote server
#AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0
# Enable showing throttling stats for every response received:
#AUTOTHROTTLE_DEBUG = False
 
# Enable and configure HTTP caching (disabled by default)
# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings
#HTTPCACHE_ENABLED = True
#HTTPCACHE_EXPIRATION_SECS = 0
#HTTPCACHE_DIR = 'httpcache'
#HTTPCACHE_IGNORE_HTTP_CODES = []
#HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'

执行验证

还是老样子，不直接使用scrapy命令，构造一个py执行cmd。注意该py的位置。

看一下执行后的结果。

完美！！！

总结

最近都在写一些爬虫的案例，也是边学习边摸索，把一些实现过程记录一下，也分享一下，等过段时间还可以回忆回忆。

情之一字，不知所起，不知所栖，不知所结，不知所解，不知所踪，不知所终。 ——《雪中悍刀行》

如果本文对你有用的话，请不要吝啬你的赞，谢谢！

以上就是Python 通过xpath属性爬取豆瓣热映的电影信息的详细内容，更多关于Python 爬虫豆瓣的资料请关注脚本之家其它相关文章！

如何用本地部署的DeepSeek-R1模型结合OmniParser V2实现无网络 WPS 文件交互？（适合小白） Leaton Lee wps 交互 deepseek OmniParse V2
引言你是否想在没有互联网的情况下，用AI直接操作WPS的Word（.docx）和Excel（.xls）文件？今天我们来实现一个本地部署的方案，使用deepseekr1模型和OmniParserV2，通过WPS的图形界面（GUI）完成文件操作。别担心，即使你是编程小白，这篇文章会用简单语言一步步带你完成。什么是我们要做的？我们希望AI能像人一样“看”到WPS界面，然后根据指令（如“保存文件”）自动点
在 UniApp 中实现stream流式输出 AI 聊天功能，AI输出内容用Markdown格式展示 Echo-潔 uniapp uni-app 前端 AI stream 流式输出
在UniApp中实现流式AI聊天功能介绍在现代Web开发中，流式API响应能够显著提升用户体验，尤其是在与AI聊天接口进行交互时。本文将介绍如何在UniApp中使用FetchAPI实现一个流式响应的AI聊天功能，包括实时更新聊天内容和滚动到底部的功能。实现用Markdown格式展示AI输出的内容//用Markdown格式展示//使用showdown插件importshowdownfrom'show
Java 三路快排 18你磊哥 java基础学习 java
三路快速排序（3-WayQuickSort）是快速排序的优化版本，特别适用于处理包含大量重复元素的数组。其核心思想是将数组划分为三个区域：小于基准值、等于基准值和大于基准值，从而减少不必要的递归和交换三路快排原理分区逻辑：使用三个指针lt（lessthan）、current（当前遍历位置）、gt（greaterthan）将数组划分为三部分：[low,lt-1]：小于基准值的元素[lt,gt]：等于
前端 UI 框架发展史之道前端前端知识点前端 ui 学习程序人生前端框架
上一小节我们了解了前端UI框架的作用和意义，接下来我们再来了解前端UI框架的发展历史。虽然是讲历史，但我不想讲得太复杂，也不打算搞什么编年史记录啥的，毕竟我们不是来学历史的。我会简单描述一下前端UI框架的发展历程，同时在这个过程中，把我自己的一些感受和想法分享给你。你可以以轻松娱乐的心态来看这篇文章，同时也大概了解一下我们前端开发是怎么发展到现在这样子的。这样可以让你更好地去理解将要学习的前端UI
Spring Boot 集成 Kafka m0_74824592 面试学习路线阿里巴巴 spring boot kafka linq
在现代软件开发中，分布式系统和微服务架构越来越受到关注。为了实现系统之间的异步通信和解耦，消息队列成为了一种重要的技术手段。Kafka作为一种高性能、分布式的消息队列系统，被广泛应用于各种场景。而SpringBoot作为一种流行的Java开发框架，提供了便捷的方式来构建应用程序。本文将介绍如何在SpringBoot项目中集成Kafka，包括Kafka的基本概念、SpringBoot集成Kafka的
AI 问答系统实战：用 Python + Flask + LLM 打造你的智能对话机器人！ Leaton Lee 人工智能 python flask
开篇互动：你是否想拥属于自己的AI问答机器人？“你是否想过拥有一个可以随时为你解答问题、提供建议的AI助手？”随着大语言模型（LLM）的快速发展，打造一个智能问答系统已经成为可能！本文将手把手教你如何利用Python和Flask快速搭建一个属于自己的AI问答系统，并集成强大的语言模型（如OpenAI的GPT-3.5或HuggingFace的LLaMA）。无论是技术小白还是有一定经验的开发者，都能轻
Flask框架中局部刷新页面 oliver.chau Python 前端开发 flask python 后端
在Flask中使用AJAX仅刷新leftMenue.html你的项目使用Flask，想要在添加网站后，仅刷新leftMenue.html而不刷新整个页面，可以使用AJAX（推荐）。✅1.在app.py里创建一个返回leftMenue.html的路由在Flask里，我们需要一个专门的API来返回最新的leftMenue.html。fromflaskimportFlask,render_templat
Webpack 打包详细教程 oliver.chau 前端开发 webpack 前端 node.js
Webpack是一个现代JavaScript应用的静态模块打包工具，它可以处理JavaScript、CSS、图片等资源，并优化它们以提高性能。以下是Webpack从基础到进阶的详细教程。1.Webpack基础概念Webpack的核心概念包括：Entry（入口）：Webpack开始打包的起点。Output（输出）：打包后的文件存放路径。Loaders（加载器）：转换非JavaScript资源（如CS
高斯Splatting：3D 重建与新视图合成的综述三谷秋水人工智能机器学习计算机视觉计算机视觉人工智能深度学习
24年5月来自挪威大学的论文“GaussianSplatting:3DReconstructionandNovelViewSynthesis,aReview”。基于图像的3D重建是一项具有挑战性的任务，涉及从一组输入图像中推断出目标或场景的3D形状。基于学习的方法因其直接估计3D形状的能力而备受关注。这篇论文重点介绍3D重建的最新技术，包括生成新的、未见过的视图。高斯Splatting方法的最新发
实现课程安排模板鸿蒙示例代码
本文原创发布在华为开发者社区。介绍本示例基于Tabs容器组件、Scroll组件、Grid组件实现了上课模块的排版、下半部分使用List组件实现了第一天、第二天的任务列表、班级群界面中使用List组件实现消息的通知。实现课程安排模板源码链接效果预览使用说明如果在运行该示例代码时，出现运行不了的情况，可尝试选择DevEcoStudio菜单栏Build里面的CleanProject选项，来清理工程。实现
在线监控+日志分析方案徐福记c 运维运维
1.在线监控系统设计技术选型：Prometheus+Grafana+各ExporterPrometheus：负责定时拉取各服务指标数据并存储。Grafana：可视化仪表盘，支持多数据源（Prometheus、Loki等）。Exporter：SpringBoot应用：通过Micrometer暴露/actuator/prometheus端点。MySQL：部署mysqld_exporter采集数据库性能
总结.NET CAD各种命令发送方式一个成长中的码农 .net cad CAD二次开发 .net 算法 c#
.NETAPI提供了各种的调用命令的方式，有异步与同步的发送命令，本文章总结了各种命令发送的方法与方式。在最后调用命令的方式此方式会在当前整个命令结束后才会调用，并且支持文档的切换与锁文档//////命令结束后调用命令//////命令publicstaticvoidSendComandFinally(stringcommand){DocumentacdDoc=Autodesk.AutoCAD.Ap
Express 中 get 参数获取 yqcoder express 前端 javascript
1.使用req.query获取URL查询字符串参数在GET请求中，参数通常以查询字符串的形式附加在URL后面，格式为?参数名1=值1&参数名2=值2。Express里可通过req.query对象获取这些参数。constexpress=require("express");constapp=express();//定义处理GET请求的路由app.get("/search",(req,res)=>{/
【TVM教程】为 Mobile GPU 自动调优卷积网络
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/作者：LianminZheng,EddieYan针对特定设备的自动调优对于获得最佳性能至关重要。本文介绍如何调优整个卷积网络。TVM中MobileGPU的算子实现是以template形式编写的。该template有许多可调参数（tile因子
技术分享 | MySQL8.0 内部临时表占用磁盘空间问题排查数据库mysql
本文为墨天轮数据库管理服务团队第43期技术分享，内容原创，如需转载请联系小墨（VX：modb666）并注明来源。概念描述到了mysql8.0版本，SQL运行过程中产生的内部临时表已经有了变化，存放位置由innodb\_temp\_tablespaces\_dir参数控制，默认放在$DATADIR/#innodb\_temp/目录下，由多个.ibt文件构成。并且当数据库连接断开时，.ibt文件的大小
2025 年政府工作报告中的科技要点解读以及机会点番茄老夫子科技人工智能
2025年政府工作报告中的科技要点主要包括以下方面：培育未来产业：建立未来产业投入增长机制，培育生物制造、量子科技、具身智能、6G等未来产业，体现了对前沿科技领域的高度重视，旨在抢占未来科技和产业发展的制高点，这些领域具有巨大的发展潜力和创新空间，有望为经济增长带来新的动力。壮大新兴产业：深入推进战略性新兴产业融合集群发展，开展新技术新产品新场景大规模应用示范行动，推动商业航天、低空经济等新兴产业
从单品到全盘：解锁服装商品企划的全局密码 xss
全局思维，服装行业的胜负手？在如今的服装行业，竞争可谓是白热化状态。从繁华都市的街头巷尾，到电商平台的虚拟世界，各类服装品牌如雨后春笋般涌现，让人目不暇接。大到国际知名品牌，小到街头巷尾的小众潮牌，都在想尽办法吸引消费者的目光。在这个竞争激烈的大环境下，价格战、设计比拼、营销大战等各种竞争手段层出不穷。价格战中，品牌们为了吸引顾客，不断压低价格，利润空间被一再压缩；设计上，大家绞尽脑汁，紧跟潮流甚
有没有开源的企业网盘，是否适合企业使用？网盘
开源选项丰富、灵活定制能力强、需要额外运维投入、适合特定场景但不一定适合所有企业，是开源企业网盘的主要特征。从表面看，开源网盘往往具有免费或低成本优势，但企业要投入一定的人力与技术资源来完成安装、维护与升级，从而保障系统的稳定运行。我个人尤其建议在评估运维能力和长期需求后再行决定，因为开源网盘的可行性需要与企业的IT基础和信息安全策略相匹配。在这几点特征里，灵活定制能力强最具吸引力。企业可以根据自
golang中使用mysql事务彩色代码 Golang编程语言 MySQL数据库 mysql golang 数据库
在Go语言中，可以使用第三方库来处理MySQL事务。在示例中，我们将使用database/sql包与github.com/go-sql-driver/mysql驱动程序来连接和执行MySQL数据库操作。首先，确保你已经安装了相应的依赖库。你可以使用以下命令来安装它们：goget-udatabase/sqlgoget-ugithub.com/go-sql-driver/mysql接下来，我们将演示一
visionPro8.2r紧急许可重复利用方法吾与谁归in 视觉编辑器
VisionPro安装，个人学习使用VisionPro安装，紧急许可重复使用方法，目前仅是8.2r,在这备份一下。建议首次安装时进行备份紧急激活许可（1-4次激活都可以，第五次凉凉）。1.以管理员身份运行CognexSoftwareLicensingCenter软件2、配置连接类型一定要设置离线3，安装紧急许可这里第一个显示broken是因为第一次紧急许可过期了，第一个显示ok是新激活的紧急许可。
C#使用Winform实现简单的编辑器：编译、运行、关键字、注释高亮显示。吾与谁归in c#java c++
发布文章的目的即是学习也是分享保存。目录1、简单的界面设计2、实现代码（1）用到的变量字段（2）窗体初始化、加载（3）执行操作：编译、运行（4）编译功能方法（5）高亮显示（6）其它3、运行效果4、说明1、文本发生变化的重绘滚动（闪烁）问题。2、光标位置显示问题。3、关键字高亮显示后，直接在后面输入文字格式问题。1、简单的界面设计程序分为脚本编辑框，操作、结果显示栏。脚本编辑栏：可以编写自己想要的代
js触发onclick事件获取文本框中的值value 吾与谁归in Web前端 js javascript html5
1.首先我们创建一到两个文本框，使用标签用户名：密码：2.接着我们创建script代码，创建函数获取文本框中的值，获取值是通过文本框的id获取的，使用到了标签/**创建函数*/functiononclickFun(){/*通过id获取元素*/varuser=document.getElementById("name")/*警示窗口*/alert("你好【"+user.value+"】，欢迎进入系统
最新整理的50个网络安全必知术语，想要入行网安，建议收藏！ wljslmz 网络技术 web安全安全网络安全
想象一下，你刚入行网络安全（Cybersecurity），兴冲冲地打开一本专业书，或者加入一个网安论坛，结果满屏的“漏洞”“威胁”“DDoS”“加密”……脑袋瞬间一片迷雾。这时候，你会不会觉得自己像个“数字文盲”，完全摸不着北？别慌，这正是网络安全术语存在的意义——它们是你进入这个高能领域的“通行证”！网络安全术语可不是什么枯燥的学术名词，而是行业里沟通的“通用语言”。它就像一张地图，能帮你快速定
微信小程序云开发的sql语法 where `$and` 运算符怎么用？踩坑总结！代码简单说 2025开发必备微信小程序 sql 小程序 where 微信小程序and
微信小程序云开发$and组合查询时间戳转换**最近在小程序云开发里用$and组合查询，结果直接翻车，明明条件写对了，却总是查不出数据，要么就是报错，真是要被折腾疯了，官方文档也没给完整示例，最终折腾了半天，终于找到正确用法，现在分享出来，避免大家踩坑1.$and查询失败的真正原因在云开发数据库查询时，如果你的$and组合条件查不出数据，大概率是因为数据类型不匹配，特别是在时间筛选时，很多人会写成这
PySpark实现导出两个包含多个Parquet数据文件的S3目录里的对应值的差异值分析 weixin_30777913 python spark 数据分析云计算
编写PySpark代码实现从一个包含多个Parquet数据文件的AmazonS3目录的dataframe数据里取两个维度字段，一个度量字段的数据，根据这两个维度字段的数据分组统计，计算度量字段的数据的分组总计值，得到一个包含两个维度字段和度量字段的分组总计值字段的dataframe，再从另一个包含多个Parquet数据文件的S3目录的dataframe数据里取两个维度字段，一个度量字段的数据组成一
我的投资组合网站：打造个性化的在线投资展示平台 Tranyn.X
本文还有配套的精品资源，点击获取简介：本文介绍如何创建和设计一个在线平台，用于展示个人或专业投资者的投资策略、历史表现和投资理念。网站的构建涉及网页布局、响应式设计、CSS样式控制、内容管理、数据分析、SEO优化、安全性、用户体验、个性化和社交媒体整合等多个方面，确保网站既具有吸引力又能够有效地传达投资者的专业形象和投资成就。1.投资组合网站构建与网页布局设计网站构建的初步规划在当今数字化时代，构
Spring 中的依赖注入 web13093320398 面试学习路线阿里巴巴 java
依赖注入当某个java实例需要另一个java实例的协助时，在传统的程序设计过程中，通常由调用者来创建被调用者的实例在spring中，创建被调用者的工作不再由调用者来完成，因此称为控制反转，创建被调用者实例的工作通常由spring容器来完成，然后注入调用者，因此也称为依赖注入注入方式通过构造器注入将被依赖对象通过构造函数的参数注入给依赖对象，并且在初始化对象的时候注入优点：对象初始化完成后便可获得可
Spring @Around 注解 web13093320398 面试学习路线阿里巴巴 spring java 后端
@Around是SpringAOP（面向切面编程）中的一个注解，它用于定义一个环绕通知（AroundAdvice）。环绕通知是AOP中最强大的一种通知类型，因为它能够在方法执行之前和之后都执行自定义的逻辑，并且可以控制方法是否继续执行或改变其返回值。@Around注解的基本用法要使用@Around注解，你需要先定义一个切面（Aspect），然后在该切面中使用@Around注解来标注一个方法，该方法
tcc编译器教程6 进一步学习编译gmake源代码刘阿去学习 c语言
本文以编译gmake为例讲解如何使用tcc进行复杂一点的c代码的编译1简介前面主要讲解了如何编译lua解释器,lua解释器的编译很简单也很容易理解.当然大部分c语言程序编译没那么简单,下面对前面的gmake程序进行编译.2gmake源码结构首先打开之前tcc-busybox-for-win32\gmake文件夹,具体文件如下主要有3个文件夹和3个文件,分别为0.tcc-主要为编译所用的信息lib-
Golang实现一个事务型内存数据库 qingwave Code 数据库 golang redis
内存数据库经我们经常用到，例如Redis，那么如何从零实现一个内存数据库呢，本文旨在介绍如何使用Golang编写一个KV内存数据库MossDB。特性MossDB是一个纯Golang编写、可嵌入的、键值型内存数据库，包含以下特性可持久化，类似RedisAOF(AppendonlyLog)支持事务支持近实时的TTL(TimetoLive),可以实现毫秒级的过期删除前缀搜索Watch接口，可以监听某个键
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他