Mi1k7ea

Python爬虫之Scrapy爬虫框架

Scrapy是一个用Python写的爬虫框架，使用Twisted这个异步网络库来处理网络通信。

这里通过创建CSDN博客爬虫来学习Scrapy爬虫框架。

安装Scrapy：

在Linux上，直接pip install scrapy即可；

在Windows上，需要依次安装pywin32、pyOpenSSL、lxml和scrapy。

本次在Kali上安装，安装成功后能成功看到版本信息：

CSDN博客爬虫项目：

创建爬虫项目：

到相应的目录中在命令行输入：scrapy startproject csdnSpide

scrapy.cfg：项目部署文件

csdnSpider/：该项目的Python模块，可以在此加入代码

csdnSpider/items.py：项目中的item文件

csdnSpider/pipelines.py：项目中的Pipelines文件

csdnSpider/settings.py：项目的配置文件

csdnSpider/spiders/：放置Spider代码的目录

创建爬虫模块：

到spiders目录中编写爬虫模块，创建一个Spider类，需要继承scrapy.Spider类并定义三个属性：name爬虫的名字（必须唯一）、start_urls、parse()

Selector选择器解析HTML内容：

构造XPath，i表示第i篇博文：

每页的文章数量：//*[@class="list_item article_item"]，然后再获取相应的数组大小即可

标题：//*[@id="article_list"]/div[i]/div[1]/h1/span/a/text()

摘要：//*[@id="article_list"]/div[i]/div[2]/text()

链接：//*[@id="article_list"]/div[i]/div[1]/h1/span/a/@href

调试XPath语法是否正确：在命令行输入：scrapy shell "http://blog.csdn.net/ski_12"

接着输入以下命令测试链接的XPath，另外两个元素也是同样则是即可：

response.xpath('//*[@id="article_list"]/div[1]/div[1]/h1/span/a/@href').extract()

没有问题。然后修改代码直接在该文件中进行输出：

运行爬虫：scrapy crawl csdn

正常解析出来了。

接着添加翻页操作的解析：

使用re模块正则匹配的表达式下一页

再次运行爬虫：scrapy crawl csdn

定义Item：

Item对象是一种简单的容器，用来保存爬取的诗句，使用简单的class定义语法以及Field对象来声明。定义存储数据的Item类时，需要继承scrapy.Item。Item的操作方式与字典的操作方式相似。

构建Item Pipeline：

当Item在Spider中被收集之后，将会被传递到Item Pipeline，一些组件会按照一定的顺序执行对Item的处理。Item Pipeline的应用主要有：清理HTML数据；验证爬取的数据的合法性，检查Item是否包含某些字段；查重并丢弃；将爬取结果保存到文件或数据库中。

每个Item Pipeline组件都是一个独立的Python类，必须实现process_item方法，且该方法必须返回Item对象或者抛出DropItem异常。

激活Item Pipeline，到settings.py的ITEM_PIPELINES变量中添加该Item Pipeline组件：

至此，简单的爬虫已经基本编写完了，但是还可以添加新的东西。

编写下载器中间件RandomUserAgent：

进一步地，伪造随机的User-Agent来绕过反爬来进行爬取，伪造随机User-Agent的使用需要编写下载器中间件：

下载器中间件是介于Scrapy的request和response处理的钩子函数，是用于全局修改Scrapy的request和response，可以帮助我们定制自己的爬虫系统。

每个中间件组件是定义了以下一个或多个方法的Python类：process_request(request, spider)、process_response(request, response, spider)、process_exception(request, exception, spider)

而本次的编写是定义process_request(request, spider)方法：

在csdnSpider目录中新建一个middlewares目录，在该目录添加__init__.py文件并编写RandomUserAgent.py：

然后在settings.py中添加User-Agent列表：

下载器中间件组件需要激活，要添加到settings.py的DOWNLOADER_MIDDLEWARES设置中，禁用内置的User-Agent中间件并启用编写的中间件：

运行爬虫：scrapy crawl csdn

可以看到调用了RandomUserAgent下载器中间件，并成功保存了爬取的数据。

使用Scrapy_redis的分布式爬虫：

在之前的基础上，接着尝试添加基于Redis的分布式爬虫搭建。

安装：pip install scrapy_redis

在settings.py中配置Redis：

运行爬虫：

可以看到爬虫正常运行，scrapy_redis的调度器和去重方式被调度使用了。

使用MongoDB集群存储爬取的数据：

最后添加个MongoDB集群来进行保存，关于MongoDB集群的搭建参考《Ubuntu搭建MongoDB集群》即可。这时需要修改pipelines.py的代码：

在settings.py中添加MongoDB的内容：

确认环境已配置好：

配置开启好MongoDB集群环境后，直接运行爬虫：

正常爬取到消息，但并没有显示MongoDB相关的信息。

接着直接访问MongoDB的主节点并查看是否保存了爬取的数据：

没有问题。

项目源代码：

csdn_spider.py：

#coding=utf-8
import scrapy
import re
from scrapy import Selector

from csdnSpider.items import CsdnspiderItem

class CSDNSpider(scrapy.Spider):
	# 爬虫的名字，必须唯一
	name = "csdn"
	# 允许的域名
	allowed_domains = ['csdn.net']
	# 爬虫启动时进行爬取的入口URL列表
	start_urls = [
		"http://blog.csdn.net/ski_12"
	]

	# 解析返回的数据、提取数据（生成item）以及生成需要进一步处理的URL的Request对象
	def parse(self, response):
		num = response.xpath('//*[@class="list_item article_item"]').extract()
		for i in range(1,len(num)+1):  
			title_xpath = '//*[@id="article_list"]/div[' + str(i) + ']/div[1]/h1/span/a/text()'
			summary_xpath = '//*[@id="article_list"]/div[' + str(i) + ']/div[2]/text()'
			link_xpath = '//*[@id="article_list"]/div[' + str(i) + ']/div[1]/h1/span/a/@href'
			link = response.xpath(link_xpath).extract()[0]
			title = response.xpath(title_xpath).extract()[0]
			summary = response.xpath(summary_xpath).extract()[0]
			item = CsdnspiderItem(url=link, title=title, content=summary)
			yield item

		suffix_url = Selector(response).re(u'下一页')
		if suffix_url:
			next_page = 'http://blog.csdn.net' + suffix_url[0]
			yield scrapy.Request(url=next_page, callback=self.parse)

items.py：

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class CsdnspiderItem(scrapy.Item):
	# define the fields for your item here like:
	url = scrapy.Field()
	title = scrapy.Field()
	content = scrapy.Field()

pipelines.py：

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html

import pymongo
from scrapy.exceptions import DropItem

class CsdnspiderPipeline(object):
	def __init__(self, mongo_uri, mongo_db, replicaset):
		self.mongo_uri = mongo_uri
		self.mongo_db = mongo_db
		self.replicaset = replicaset

	@classmethod
	def from_crawler(cls, crawler):
		return cls(
			mongo_uri = crawler.settings.get('MONGO_URI'),
			mongo_db = crawler.settings.get('MONGO_DATABASE'),
			replicaset = crawler.settings.get('REPLICASET')
			)

	def open_spider(self, spider):
		self.client = pymongo.MongoClient(self.mongo_uri, replicaset=self.replicaset)
		self.db = self.client[self.mongo_db]

	def close_spider(self, spider):
		self.client.close()

	def process_item(self, item, spider):
		self.db.blogInfo.insert(dict(item))
		return item

RandomUserAgent.py：

#coding=utf-8
import random

class RandomUserAgent(object):
	def __init__(self, agents):
		self.agents = agents

	@classmethod
	def from_crawler(cls, crawler):
		return cls(crawler.settings.getlist('USER_AGENTS'))

	def process_request(self, request, spider):
		request.headers.setdefault('User-Agent', random.choice(self.agents))

settings.py：

# -*- coding: utf-8 -*-

# Scrapy settings for csdnSpider project
#
# For simplicity, this file contains only settings considered important or
# commonly used. You can find more settings consulting the documentation:
#
#     http://doc.scrapy.org/en/latest/topics/settings.html
#     http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html
#     http://scrapy.readthedocs.org/en/latest/topics/spider-middleware.html

BOT_NAME = 'csdnSpider'

SPIDER_MODULES = ['csdnSpider.spiders']
NEWSPIDER_MODULE = 'csdnSpider.spiders'


# Crawl responsibly by identifying yourself (and your website) on the user-agent
#USER_AGENT = 'csdnSpider (+http://www.yourdomain.com)'

# Obey robots.txt rules
ROBOTSTXT_OBEY = True

# Configure maximum concurrent requests performed by Scrapy (default: 16)
#CONCURRENT_REQUESTS = 32

# Configure a delay for requests for the same website (default: 0)
# See http://scrapy.readthedocs.org/en/latest/topics/settings.html#download-delay
# See also autothrottle settings and docs
#DOWNLOAD_DELAY = 3
# The download delay setting will honor only one of:
#CONCURRENT_REQUESTS_PER_DOMAIN = 16
#CONCURRENT_REQUESTS_PER_IP = 16

# Disable cookies (enabled by default)
#COOKIES_ENABLED = False

# Disable Telnet Console (enabled by default)
#TELNETCONSOLE_ENABLED = False

# Override the default request headers:
#DEFAULT_REQUEST_HEADERS = {
#   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
#   'Accept-Language': 'en',
#}

# Enable or disable spider middlewares
# See http://scrapy.readthedocs.org/en/latest/topics/spider-middleware.html
#SPIDER_MIDDLEWARES = {
#    'csdnSpider.middlewares.CsdnspiderSpiderMiddleware': 543,
#}

# Enable or disable downloader middlewares
# See http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html
DOWNLOADER_MIDDLEWARES = {
   # 'csdnSpider.middlewares.MyCustomDownloaderMiddleware': 543,
   'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware':None,
   'csdnSpider.middlewares.RandomUserAgent.RandomUserAgent':410,
}

# Enable or disable extensions
# See http://scrapy.readthedocs.org/en/latest/topics/extensions.html
#EXTENSIONS = {
#    'scrapy.extensions.telnet.TelnetConsole': None,
#}

# Configure item pipelines
# See http://scrapy.readthedocs.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
	'csdnSpider.pipelines.CsdnspiderPipeline': 300,
}

# Enable and configure the AutoThrottle extension (disabled by default)
# See http://doc.scrapy.org/en/latest/topics/autothrottle.html
#AUTOTHROTTLE_ENABLED = True
# The initial download delay
#AUTOTHROTTLE_START_DELAY = 5
# The maximum download delay to be set in case of high latencies
#AUTOTHROTTLE_MAX_DELAY = 60
# The average number of requests Scrapy should be sending in parallel to
# each remote server
#AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0
# Enable showing throttling stats for every response received:
#AUTOTHROTTLE_DEBUG = False

# Enable and configure HTTP caching (disabled by default)
# See http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings
#HTTPCACHE_ENABLED = True
#HTTPCACHE_EXPIRATION_SECS = 0
#HTTPCACHE_DIR = 'httpcache'
#HTTPCACHE_IGNORE_HTTP_CODES = []
#HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'

# 使用scrapy_redis的调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 在redis中保持scrapy-redis用到的各个队列，从而允许暂停和暂停后恢复
SCHEDULER_PERSIST = True
# 使用scrapy_redis的去重方式
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
REDIS_HOST = '127.0.0.1'
REDIS_PORT = 6379

USER_AGENTS = [
    "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.0.04506)",
    "Mozilla/4.0 (compatible; MSIE 7.0; AOL 9.5; AOLBuild 4337.35; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
    "Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)",
    "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)",
    "Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)",
    "Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)",
    "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)",
    "Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6",
    "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1",
    "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0",
    "Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5",
    "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.8) Gecko Fedora/1.9.0.8-1.fc10 Kazehakase/0.5.6",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_3) AppleWebKit/535.20 (KHTML, like Gecko) Chrome/19.0.1036.7 Safari/535.20",
    "Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; fr) Presto/2.9.168 Version/11.52",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.11 TaoBrowser/2.0 Safari/536.11",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.71 Safari/537.1 LBBROWSER",
    "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; LBBROWSER)",
    "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E; LBBROWSER)",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.84 Safari/535.11 LBBROWSER",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E)",
    "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; QQBrowser/7.0.3698.400)",
    "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E)",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SV1; QQDownload 732; .NET4.0C; .NET4.0E; 360SE)",
    "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E)",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E)",
    "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1",
    "Mozilla/5.0 (iPad; U; CPU OS 4_2_1 like Mac OS X; zh-cn) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8C148 Safari/6533.18.5",
    "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:2.0b13pre) Gecko/20110307 Firefox/4.0b13pre",
    "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:16.0) Gecko/20100101 Firefox/16.0",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11",
    "Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.10) Gecko/20100922 Ubuntu/10.10 (maverick) Firefox/3.6.10"
]

JavaSE : 注解 Annotation Edenyt java-ee java
注解Java中的注解（Annotation）是一种元数据形式，用于向编译器或JVM提供有关程序元素（如类、方法、变量、参数和包）的附加信息。注解不会直接影响程序的行为或结构，但它们可以被编译器、开发工具或运行时环境用于生成代码、进行验证、执行处理或提供信息。以下是关于Java注解的几个关键点：1.注解的种类1.1.内置标准注解：@Override：指示一个方法覆盖了超类中的方法。@Deprecat
自然语言处理系列（5）——情感分析的原理与实战 DoYangTan 自然语言处理人工智能
自然语言处理系列（5）——情感分析的原理与实战情感分析（SentimentAnalysis）是自然语言处理中的一项经典任务，目的是通过分析文本，判断其表达的情感倾向性。情感分析广泛应用于社交媒体监控、市场调研、客户服务等领域，帮助企业和机构快速了解用户的情感态度。在本文中，我们将深入探讨情感分析的基本概念、常用方法，并展示如何使用Python和现代NLP工具实现情感分析任务。1.情感分析的基本概念
【现代前端框架中本地图片资源的处理方案】 Gazer_S 前端框架前端缓存 javascript chrome
现代前端框架中本地图片资源的处理方案前言在前端开发中，正确引用本地图片资源是一个常见但容易被忽视的问题。我们不能像在HTML中那样简单地使用相对路径，因为JavaScript模块中的路径解析规则与HTML不同，且现代构建工具对静态资源有特殊的处理机制。本文将详细探讨在webpack和Vite等构建工具中处理本地图片引用的各种方法。传统方式的局限性在传统开发中，我们可能习惯这样引用图片：constl
后端开发技巧：提升代码质量与系统性能 wenbin_java java spring boot maven mybatis
引言后端开发是构建高效、稳定应用的核心环节。无论是处理复杂的业务逻辑，还是优化系统性能，后端开发者都需要掌握一系列技巧和最佳实践。本文将分享一些实用的后端开发技巧，帮助你提升代码质量、优化系统性能并确保应用的安全性。1.提升代码质量的技巧1.1遵循编码规范统一风格：使用工具（如Checkstyle、ESLint）确保代码风格一致。命名规范：变量、函数、类名应具有描述性，避免使用缩写。1.2模块化与
【AI+智造】基于阿里云Ubuntu24.04系统，使用Ollama部署开源DeepSeek模型并集成到企业微信邹工转型手札 Duodoo开源 Odoo18开源企业信息化制造人工智能数据分析
作者：Odoo技术开发/资深信息化负责人日期：2025年2月28日本方案结合了本地部署与云服务调用的技术路径，涵盖部署步骤、集成逻辑及关键问题点，适用于企业级AI应用场景。一、方案背景与架构设计1.技术选型背景DeepSeek模型：作为开源大模型，支持文本生成、智能问答等场景，适合企业知识库与自动化服务。Ollama工具：轻量化本地模型部署框架，支持一键拉取模型镜像并启动API服务。企业微信集成：
自动化脚本在Xshell中的应用这多冒昧啊运维 github git 运维自动化自动化脚本脚本
Xshell是一款功能强大的终端模拟软件，主要用于远程连接和管理服务器。它支持多种协议，包括SSH、Telnet、SFTP等，使用户能够通过命令行界面对远程服务器进行操作。Xshell提供了丰富的功能和特点，使其成为系统管理员、开发人员和网络工程师的得力工具。目录一、概述二、自动化脚本在Xshell中的应用案例案例一：自动化系统更新与维护案例二：自动化备份与恢复案例三：自动化网络安全检查三、总结一
根据Excel生成建表语句sql——源码设计说明忙碌的菠萝 java 环境搭建 sql java 数据库
根据Excel生成建表语句sql设计的人跟开发的人总不是同一个，这就导致了设计是设计的思路，开发是开发的思路，表也是一样，开发给加了字段不同步给设计人员，设计加了字段开发可能这个环境加了，另一个没加。为了避免比对和扯皮，以设计为准！序号内容连接地址1工具使用说明https://blog.csdn.net/qq_21271511/article/details/1219010642工具下载地址htt
网络安全工具 AWVS 与 Nmap：原理、使用及代码示例阿贾克斯的黎明网络安全安全 web安全网络
目录网络安全工具AWVS与Nmap：原理、使用及代码示例AWVS：Web漏洞扫描的利器1.工具概述2.工作原理3.使用方法4.代码示例（Python调用AWVSAPI进行扫描）Nmap：网络探测与端口扫描的神器1.工具概述2.工作原理3.使用方法4.代码示例（Python调用Nmap进行扫描）总结在网络安全领域，AWVS（AcunetixWebVulnerabilityScanner）和Nmap是
深入剖析 Java 反序列化：FASTjson 漏洞与 Shiro 漏洞阿贾克斯的黎明网络安全 php web安全开发语言
目录深入剖析Java反序列化：FASTjson漏洞与Shiro漏洞引言Java反序列化原理示例代码FASTjson漏洞分析漏洞成因示例代码防护措施Shiro漏洞分析漏洞成因示例代码（模拟攻击场景）防护措施总结引言在Java应用开发中，反序列化是一项重要的技术，但同时也隐藏着巨大的安全风险。FASTjson和Shiro作为Java开发中常用的工具和框架，其反序列化漏洞曾引发了广泛关注。本文将深入探讨
Composer如何通过GitHub Personal Access Token安装私有包：完整教程 lihuang319 composer github php
使用Composer安全管理您的PHP私有依赖包一、前言在PHP开发中，我们经常需要将内部工具包托管为私有仓库。传统的账号密码验证方式存在安全隐患，而GitHubPersonalAccessToken（PAT）提供了一种更安全的鉴权方案。本文将通过4个核心步骤+3个避坑指南，手把手教您在Composer中优雅地使用PAT安装私有包。二、为什么要用PAT？安全性：细粒度权限控制（可设置过期时间/单仓
Golang的Aes加解密工具类张声录1 golang 开发语言后端
packagemainimport("bytes""crypto/aes""crypto/sha1""encoding/binary""encoding/hex""fmt")//SHA1PRNG模拟Java的SHA1PRNG算法typeSHA1PRNGstruct{state[sha1.Size]bytecounteruint32indexint}//NewSHA1PRNG使用种子初始化SHA1P
电竞赛事数据分析：LNG vs BLG的胜利背后烧瓶里的西瓜皮 python 自动驾驶人工智能数据可视化机器学习
电竞赛事数据分析：LNGvsBLG的胜利背后摘要在S14瑞士轮次日，LNG以1:0战胜BLG，取得了开赛二连胜。本文将通过Python进行数据处理与分析，结合机器学习算法预测比赛结果，并使用数据可视化工具展示关键指标。通过对这场比赛的数据深入挖掘，揭示LNG获胜的关键因素。引言电子竞技（Esports）已经成为全球范围内的一项重要娱乐活动，而《英雄联盟》（LeagueofLegends,LoL）作
Go红队开发—语法补充竹等寒 Go golang xcode 开发语言
文章目录错误控制使用自定义错误类型错误包装errors.Is和errors.Aspanic捕获、recover、defer错误控制练习接口结构体实现接口基本类型实现接口切片实现接口接口练习Embed嵌入文件之前有师傅问这个系列好像跟红队没啥关系，前几期确实没啥关系，因为这都是进行红队工具开发的前置知识点，对于我个人强迫症而言只是想让这个系列更加完善而已，所以前置知识也加进去了，有GO知识的大佬可以
Linux系统如何排查端口占用程序猿000001号 linux 运维服务器
如何在Linux系统中排查端口占用在Linux系统中，当您遇到网络服务无法启动或响应异常的情况时，可能是因为某个特定的端口已经被其他进程占用。这时，您需要进行端口占用情况的排查来解决问题。本文将介绍几种常用的命令行工具和方法，帮助您快速定位并解决端口占用的问题。1.使用netstat命令netstat是一个网络统计工具，它可以显示网络连接、路由表、接口统计等信息。要检查端口占用情况，可以使用以下命
Houdini：Houdini程序化建模与VEX脚本_2024-07-16_01-51-39.Tex chenjj4003 游戏开发 houdini php 开发语言 cinema4d 材质贴图 blender
Houdini：Houdini程序化建模与VEX脚本Houdini基础Houdini界面介绍Houdini是一款由SideEffectsSoftware开发的高级3D动画软件，以其强大的程序化建模和视觉特效能力而闻名。Houdini的界面主要由以下几个部分组成：菜单栏：位于窗口顶部，提供文件操作、编辑、视图控制、渲染设置等命令。工具架：包含常用的工具按钮，如创建、编辑、选择工具等。视图区：主要的3
开目MOM数字化制造运营管理系统介绍开目软件制造
开目MOM系统是制造业数据化架构中的重要组成部分，为企业提供制造数据管理、制造运营管理、质量管理、仓储管理、工具工装管理、设备管理等模块，打造一个可靠、全面的制造协同管理平台。开目MOM系统-即制造运营管理系统，是面向CPS的新一代数字化管理解决方案。随着企业对制造运营管控的认知和升级，MOM逐渐被广泛应用于市场中，MOM概念首次于2000年被提出，MOM系统覆盖了制造运营管理的全部活动范围，其主
Visual Studio插件大全推荐 ysdysyn visual studio ide
给大家推荐一下VisualStudio插件，它们能够提升开发效率、改善代码质量，并增强开发体验：开发效率提升类Resharper一款强大的生产力工具，提供代码自动完成、重构、代码检查、导航等功能。能深入理解代码结构，给出更准确的补全建议和错误检查，帮助开发者编写高质量代码，但比较占用内存.CodeRush具有丰富的代码生成模板和快捷方式，可快速生成属性、方法、构造函数等代码结构，还提供智能代码导航
go install 报错 cannot find package“xxx/xxx“ 柠是柠檬的檬 go golang github git
问题：goinstall安装包的时候，如果本地环境没有对应的包，就会报错cannotfindpackage“xxx/xxx“。解决：如果可以的话可以执行goget来获取对应的包。mkdir-p$GOPATH/src/google.golang.org/cd$GOPATH/src/google.golang.org/gogetgoogle.golang.org/grpc没有工具的话，就需要把对应的包
Java与Spring的“甜蜜毒药”：从辉煌到疲态的技术反思步子哥 java spring python
“Java生态就像一场漫长的婚姻，Spring是那个看似完美的伴侣，但当你意识到对方的控制欲时，已经为TA背上了巨额房贷。”Java，这位曾经的企业级开发之王，如今却像一位中年危机的技术巨人，站在2023年的技术浪潮中，显露出疲态。而Spring，这个曾经被誉为“轻量级救世主”的框架，早已从灵活的工具箱变成了沉重的枷锁。今天，我们就来聊聊这对技术界的“黄金搭档”，如何从蜜月期走向了“分居边缘”。Ⅰ
利用 AI 高效生成思维导图的简单实用方法 love530love 人工智能信息可视化
#工作记录适用于不支持直接生成思维导图的AI工具；适用于AI生成后不能再次编辑的思维导图。在日常的学习、工作以及知识整理过程中，思维导图是一种非常实用的工具，能够帮助我们清晰地梳理思路、归纳要点。而借助AI的强大能力，我们可以更加便捷地生成思维导图，下面就为大家详细介绍具体的操作方法。一、根据不同情况利用AI生成思维导图内容（一）给出主题让AI生成内容当我们有了一个想要梳理的主题，比如“Pytho
风险管理必备工具：从SWOT分析到蒙特卡洛模拟软件程序员
在商业世界中，风险管理是企业取得成功的关键因素之一。有效的风险管理可以帮助企业识别潜在的风险，制定相应的策略来降低风险的影响，并抓住潜在的机会。在风险管理中，有许多工具可以帮助企业进行分析和决策。本文将介绍两种常用的风险管理工具：SWOT分析和蒙特卡洛模拟软件。SWOT分析：全面评估企业的优势、劣势、机会和威胁SWOT分析是一种广泛应用的战略规划工具，它可以帮助企业全面地评估自身的内部优势（Str
【NFS】Lock reclaim failed-造成web卡住504 勤不了一点基础应用 linux nfs
目录警报触发排查过程解决问题后续优化，避免同类问题收获警报触发搬砖搬砖。。。突然邮件弹窗XXX系统访问504，难道又是别人请求响应超时了？紧接着又来了几个504，不秒啊，决定上机器一探究竟。排查过程ps-ef发现不少php程序，每分钟几个很规律。怀疑是不是crond里面添加的计划任务卡住了。先记着继续查看top,lsof-pXX,df-Th，iostat一套工具下去，想看看是不是系统资源限制了，发
UML各种图的定义及组成元素（期末复习用）难啊楠 uml java 开发语言
UML各种图的定义及组成元素用例图定义用例图是表示一个系统中的用例与参与者关系之间的图。组成元素参与者用例关系关联关系泛化关系依赖关系类图定义类图是显示一组类、接口、协作以及它们之间关系的图。组成元素类接口协作依赖关系泛化关系实现关系关联关系对象图定义对象图显示了某一时刻的一组对象及它们之间的关系。组成元素对象链对象图与类图之间的关系！！！！！！相同点：两者都是面向对象建模工具，对象是类的实例。两
OPC UA 资料收藏小毛驴850 软件工程
1、教程OPCUAClient：UaExpert教程-无公害水果-博客园2、代码OpcUaHelper:一个通用的opcua客户端类库，基于.net4.6.1创建，基于官方opcua基金会跨平台库创建，封装了节点读写，批量节点读写，引用读取，特性读取，历史数据读取，方法调用，节点订阅，批量订阅等操作。还提供了一个节点浏览器工具
《Python入门+Python爬虫》——6Day 数据库可视化——Flask框架应用不摆烂的小劉 python python flask 爬虫
Python学习版本:Python3.X观看：Python入门+Python爬虫+Python数据分析1.Flask入门1.1关于Flask1.1.1了解框架Flask作为Web框架，它的作用主要是为了开发Web应用程序。那么我们首先来了解下Web应用程序。Web应用程序(WorldWideWeb)诞生最初的目的，是为了利用互联网交流工作文档。一切从客户端发起请求开始。所有Flask程序都必须创建
【GO】学习笔记勤不了一点 GO golang 学习笔记 go
目录学习链接开发环境开发工具GVM-GO多版本部署GOPATH与go.modgo常用命令环境初始化编译与运行GDB--GNU调试器基本语法与字符类型关键字与标识符格式化占位符基本语法初始值&零值&默认值变量声明与赋值_下划线的用法字符类型const常量字符串类型转换与判断指针值类型和引用类型复杂数据类型数组：一个由固定长度的特定类型元素组成的序列切片(Slice)：动态序列链表(list)：没有元
别再 pip install 了！一个绝佳的包管理器：pipx 西坡不是东坡 python学习 pip
在Python开发过程中，我们常常需要安装各种各样的工具库。有些库是项目级别的，比如Django或者Flask，而有些库是我们在整个系统中都可能用到的命令行工具，比如black、flake8、httpie等。对于后者，传统的pip安装方式可能会引发一些版本冲突或者环境污染的问题。这时，pipx就成了我们的救星。什么是pipx？pipx是一个用于安装和管理Python命令行工具的工具。它的主要优势在
python爬虫项目（一百九十八）：电商平台用户行为数据分析与推荐系统、爬取电商平台用户行为数据人工智能_SYBH 爬虫试读 2025年爬虫百篇实战宝典:从入门到精通 python 爬虫数据分析开发语言信息可视化 okhttp
在现代电商平台中，用户的行为数据对于优化用户体验、提升销量以及个性化推荐至关重要。通过抓取和分析用户的浏览、点击、购买等行为数据，电商平台能够更好地了解用户的偏好，从而推荐相关产品，增加用户的黏性和购买意愿。本篇博客将详细介绍如何通过爬虫技术抓取电商平台的用户行为数据，并结合数据分析和推荐算法，构建一个简单的推荐系统。目录一、电商平台用户行为数据二、爬虫技术实现2.1网站分析2.2使用Seleni
爬虫学习第六篇轻松搞定网络请求笨鸟笃行 python学习爬虫学习 python
嘿，小伙伴们！今天咱们来聊聊用Python进行网络请求，这是爬虫学习的敲门砖哦。别怕，跟着我一步步来，保证让你轻松上手！（一）安装requests模块首先，得把requests模块装上。看过上一篇的小伙伴应该都搞定了吧，这玩意儿超好用，能帮我们轻松发起网络请求。如果没搞定的，跟着我重新安装一遍，在vscode的终端里输入pipinstallrequests，回车，搞定！就像给手机装了个APP一样简
爬虫学习第一篇（认识爬虫流程和使用工具）笨鸟笃行 python学习爬虫学习
认识爬虫什么是爬虫？爬虫听着好像是一个什么虫子的名字，其实爬虫是一个自动化请求网站并提取数据的程序，简单理解即是一个自动化爬取数据的脚本例如以下就是一个十分简单的爬虫代码（不过这个代码不适用于所有网页，只能爬取一些没有限制的网站）importrequests#导入请求库url=""#输入爬取内容的地址res=requests.get(url)#发送请求到url这个地址print(res.statu
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方