sty3318

3.1.爬虫

3.1.1.什么是网络爬虫

网络爬虫（Web Crawler）是一种自动化程序，可以自动地在互联网上浏览和获取信息。它通常会从指定的起始点开始，按照一定规则遍历网页，获取所需数据并进行抓取、解析、存储等操作。

3.1.1.1.网络爬虫大体组成

网络爬虫的结构可以根据具体需求和实现方式有所不同，但通常包括以下几个核心组件：

调度器（Scheduler）： 调度器负责管理爬取任务的调度和控制流程。它维护一个待爬取的URL队列，并根据一定的策略选择下一个要爬取的URL。调度器还可以处理并发请求、监控任务状态，以及设置任务优先级等功能。
下载器（Downloader）： 下载器负责从网络上获取网页内容。它接收调度器传递的URL请求，并发送HTTP请求到目标网站，获取网页的HTML或其他类型的数据。下载器还要处理异常情况、重试机制、代理设置等，确保成功地获取网页内容。
解析器（Parser）： 解析器负责对下载器获取的网页内容进行解析和提取有用信息。它可以使用各种技术，如正则表达式、XPath、CSS选择器等，来定位和提取所需的数据，然后将这些数据结构化并传递给存储器或其他组件进行处理。
存储器（Storage）： 存储器用于将解析器提取出来的数据保存到本地文件系统、数据库或其他持久化存储介质中。这样可以确保爬取的数据被有效地保存和管理，以备后续分析和应用。
去重器（Deduplicator）： 去重器负责检测和过滤重复的网页内容，以减少无效爬取和存储。它可以使用哈希算法、URL签名等技术来判断两个网页是否相同，避免重复处理相同的内容。
用户代理池（User-Agent Pool）： 用户代理池用于模拟不同浏览器行为，防止爬虫被目标网站识别和封禁。它可以随机选择或轮换使用不同的用户代理(User-Agent)头部信息，使爬虫看起来像是由多个真实用户在访问网页。

这些组件之间通过适当的接口和数据传递方式进行协作，构成了一个完整的网络爬虫系统。不同的爬虫系统可能会根据需求和技术选择适合的组件和实现方式，以达到高效、稳定地抓取和处理目标网页数据的目的。

3.1.1.2.爬虫类型

网络爬虫可以根据其设计和功能特点分为多种类型，常见的网络爬虫类型包括：

通用网络爬虫（General Purpose Crawler）： 通用网络爬虫旨在广泛地抓取互联网上的各种网页内容，并建立一个全面的网页索引。这类爬虫通常由搜索引擎使用，如谷歌、百度等，用于构建搜索引擎的网页数据库。
聚焦网络爬虫（Focused Crawler）： 聚焦网络爬虫针对特定领域或主题进行抓取，只爬取与指定主题相关的网页内容。这种爬虫通常用于构建专题搜索引擎或聚合特定领域的信息。
增量式网络爬虫（Incremental Crawler）： 增量式网络爬虫主要用于更新已有数据集，只爬取新增或更新的网页内容，以保持数据集的实时性和完整性。
深层网络爬虫（Deep Web Crawler）： 深层网络爬虫用于抓取深层网页或动态生成的网页内容，通常需要处理表单提交、AJAX请求等技术，以获取隐藏在深层网页中的信息。
垂直搜索爬虫（Vertical Search Crawler）： 垂直搜索爬虫专注于特定行业或领域的信息抓取，例如医疗、金融、旅游等，通过深入研究和定制化算法提供更精准的搜索结果。
社交网络爬虫（Social Media Crawler）： 社交网络爬虫专门用于抓取社交媒体平台上的内容，如Twitter、Facebook等，用于分析用户行为、舆情监测等应用。
媒体爬虫（Media Crawler）： 媒体爬虫主要用于抓取图片、视频、音频等多媒体内容，以建立多媒体数据库或提供多媒体搜索功能。

以上是常见的网络爬虫类型，不同类型的网络爬虫在设计和实现上会有所不同，具有不同的适用场景和特点。根据具体需求和目标，选择合适类型的网络爬虫可以提高数据获取的效率和质量。

3.1.1.3.实施爬虫需要注意的事

在使用网络爬虫时，需要注意以下几个方面：

合法性和道德性： 网络爬虫应该遵守相关法律法规，并且尊重网站的服务条款和隐私政策。不得非法获取、使用或传播他人的个人信息，商业机密或受版权保护的内容。
尊重网站规则： 爬虫开发者应该遵守网站的robots.txt文件或其他协议规定，不得抓取禁止访问的页面或频繁访问同一页面。同时，应该设置合理的抓取频率和请求间隔，以避免对服务器造成过大负荷。
数据的合法性和准确性： 爬虫获取的数据可能存在误差或不准确的情况，开发者应该进行数据清洗和验证，确保获取的数据符合预期并具备可用性。
防范反爬措施： 许多网站会采取反爬虫措施，如验证码、IP封锁、动态网页等技术，开发者需要了解这些措施并采取相应策略，以避免被检测和封禁。
保护用户隐私和数据安全： 在处理用户数据时，爬虫开发者应该采取必要的安全措施，确保用户隐私不被泄露或滥用。敏感信息如密码、支付信息等应进行加密和安全存储。
合理使用资源： 爬虫应该合理利用网络带宽和计算资源，避免对服务器和网络造成过度负载，并尽量减少浪费和冗余的抓取操作。

总之，使用网络爬虫需要遵循法律和道德规范，尊重网站规则，并保护用户隐私和数据安全。同时，还应该关注数据的准确性和可用性，以提高爬虫的效率和价值。

3.1.1.4.爬虫的基本工作流程

网络爬虫的基本工作流程通常包括以下几个步骤：

确定抓取目标： 网络爬虫首先需要确定要抓取的目标网站或页面，可以是整个网站、特定页面或特定类型的内容。
发送HTTP请求： 爬虫会向目标网站发送HTTP请求，请求特定的页面或资源。这些请求可以是GET请求用于获取页面内容，也可以是POST请求用于提交表单等操作。
下载页面内容： 爬虫接收到服务器返回的响应后，会下载页面内容，包括HTML、CSS、JavaScript等文件。有些网站可能会返回动态生成的内容，爬虫需要解析JavaScript或模拟浏览器行为来获取完整内容。
解析页面内容： 爬虫会解析下载的页面内容，提取出需要的信息，如链接、文本、图片等。常用的解析方式包括正则表达式、XPath、CSS选择器和HTML解析器等。
处理提取的信息： 爬虫会对提取的信息进行处理和存储，可以进行数据清洗、去重、格式化等操作，然后保存到数据库或文件中供后续处理和分析。
跟踪链接： 爬虫会从当前页面中提取链接，并递归地访问这些链接，继续抓取新的页面内容。这样可以实现对整个网站的深度或广度遍历。
处理异常情况： 在抓取过程中，爬虫可能遇到各种异常情况，如网络超时、页面不存在、反爬虫机制等，需要进行异常处理并采取相应的策略，如重试、切换IP等。
设定停止条件： 爬虫可以设定停止条件，如抓取的页面数量、深度或时间限制，当满足条件时停止抓取，避免无限循环或过度消耗资源。

总之，网络爬虫通过发送HTTP请求、下载页面内容、解析提取信息等步骤来实现对网站数据的抓取和分析，从而实现自动化的信息获取和处理功能。

3.1.2.处理URL和HTTP请求的库

3.1.2.1.urllib、urllib2、urllib3

3.1.2.1.1.urllib、urllib2、urllib3的作用

urllib

・urllib库提供了基本的URL操作功能，包括打开URL、读取数据、编码解码等。

・它包含一些子模块，例如urllib.request用于发送HTTP请求，urllib.parse用于URL解析和参数处理，urllib.error用于处理URL打开时的异常错误等。

・urllib适用于简单的URL操作和数据获取场景。

urllib2

・urllib2库是Python 2.x版本中的一个独立模块，在Python 3.x版本中被合并到了urllib.request中。

・它提供了更多高级的HTTP请求功能，如发送GET、POST、PUT等请求，添加header信息，处理HTTP认证、cookie等。

・urllib2可以用于创建更复杂的HTTP客户端程序。

urllib3

・urllib3是一个第三方库，提供了更高级和功能丰富的HTTP客户端功能。

・它比标准库的urllib和urllib2更强大，支持连接池管理、SSL/TLS验证、代理支持、重试机制等。

・urllib3易于使用，并具有良好的性能和可定制性，适用于复杂的HTTP请求场景。

3.1.2.1.2.urllib、urllib2、urllib3的区别

urllib

・urllib是Python 2.x版本中的一个模块，而在Python 3.x版本中被拆分成了urllib.request、urllib.parse等子模块。

・urllib提供了一些基本的URL操作功能，如打开URL、读取数据、编码解码等。但是它的功能相对较为简单，没有提供高级的HTTP请求功能。

urllib2

・urllib2是Python 2.x版本中的一个独立模块，用于发送和处理HTTP请求。

・它是对urllib模块的扩展，提供了更多的HTTP请求方法，如POST、PUT等。

・urllib2还支持处理HTTP的认证、cookie等功能。

・但是在Python 3.x版本中，urllib2已被合并到了urllib.request中，所以在Python 3.x中可以直接使用urllib.request来进行HTTP请求。

urllib3

・urllib3是一个第三方库，提供了更高级和功能丰富的HTTP客户端功能。

・与urllib和urllib2相比，urllib3提供了更好的性能、更多的配置选项和更全面的HTTP协议支持。

・它支持连接池管理、SSL/TLS验证、代理支持、重试机制等功能，并且易于使用。

urllib是Python 3.x版本中的标准库模块，提供了基本的URL操作功能；urllib2是Python 2.x版本中的标准库模块，在Python 3.x中被合并到了urllib.request中；而urllib3是第三方库，提供了更高级和功能丰富的HTTP客户端功能。根据你的需求，选择适合的模块来处理URL和HTTP请求。

3.1.2.2.request库

相比于urllib库：

（1）urllib 是 Python 内置的标准库，提供了一系列模块来处理 URL。它包含了多个子模块，如 urllib.request、urllib.parse、urllib.error 等，用于发送请求、解析 URL、处理异常等。使用 urllib 可以完成基本的 HTTP 请求和处理响应，但相对来说使用起来比较繁琐，需要编写更多的代码来处理各种细节。

（2）requests 是一个第三方库，提供了简洁而强大的 API，用于发送 HTTP 请求和处理响应。相比于 urllib，requests 更加易用，并且提供了丰富的功能和选项，例如自动处理重定向、会话维护、证书验证等。因此，许多开发者更喜欢使用 requests 来进行 HTTP 请求，因为它能够简化代码并提高开发效率。

request是在urlib的基础上进行封装的，request更加便捷。

例：使用 urllib 发送 GET 请求的示例：

import urllib.request

url = 'http://example.com/api'
response = urllib.request.urlopen(url)
data = response.read().decode('utf-8')
print(data)

例：使用 requests 发送 GET 请求的示例：

import requests

url = 'http://example.com/api'
response = requests.get(url)
print(response.text)

从上面的示例可以看出，使用 requests 相对来说更加简洁和直观。因此，一般情况下推荐使用 requests 库来处理 HTTP 请求，除非有特殊需求需要使用 urllib。

总结起来，urllib 是 Python 内置的标准库，提供了处理 URL 和发送 HTTP 请求的基本功能，而 requests 是一个第三方库，提供了更加强大和便捷的 API，用于发送 HTTP 请求和处理响应。

因为request更方便使用，并且建议使用request，所以我们来多说说request。

3.1.2.2.1.发送 GET 请求

例：使用 requests.get() 方法可以发送 GET 请求，并获取服务器响应。

import requests

response = requests.get('http://example.com/api')
print(response.text)

3.1.2.2.2.发送 POST 请求

例：使用 requests.post() 方法可以发送 POST 请求，并传递数据给服务器。

import requests

payload = {'key1': 'value1', 'key2': 'value2'}
response = requests.post('http://example.com/post', data=payload)
print(response.text)

3.1.2.2.3.设置请求头

例：可以通过 headers 参数设置请求头信息。

import requests

headers = {'User-Agent': 'Mozilla/5.0'}
response = requests.get('http://example.com', headers=headers)

3.1.2.2.4.处理响应

response 对象包含了服务器响应的各种信息，如状态码、响应头、响应内容等。

可以通过

response.status_code 获取状态码，

response.headers 获取响应头，

response.text 获取响应内容（文本格式），

response.json() 获取 JSON 格式的响应内容等。

3.1.2.2.5.处理异常

例：requests 库会在发生错误时抛出异常，可以使用 try-except 块来处理异常。

import requests

try:
    response = requests.get('http://invalid-url')
    response.raise_for_status()  # 如果请求不成功，抛出异常
except requests.exceptions.RequestException as e:
    print('Error: ', e)

3.1.2.2.6.Session 对象

例：requests 支持创建 Session 对象，用于保持会话状态、跨请求保持参数等。这在需要进行多次相关请求的情况下很有用。

import requests

session = requests.Session()
response1 = session.get('http://example.com/login')
response2 = session.post('http://example.com/dashboard', data={'username': 'user', 'password': 'pass'})

3.1.2.2.7.request的大体参数介绍

requests.get是Python中requests库提供的HTTP请求方法之一，用于发送HTTP GET请求并返回响应。下面介绍一下requests.get函数的参数：

requests.get(url, params=None, **kwargs)

其中，url是必选参数，表示请求的URL地址；params是可选参数，表示请求的URL参数，可以是字典、元组列表或字符串；**kwargs是可选参数，表示其他的各种控制HTTP请求的参数，如headers、timeout、auth、proxies等。

具体来说，常见的参数如下：

url： 必须提供的参数，表示请求的URL地址。
params： 可选参数，表示请求的URL参数，可以是以下类型之一：
- 字典：将作为参数添加到URL后面，例如{'key1': 'value1', 'key2': 'value2'}会编码为key1=value1&key2=value2附加到URL上。
- 元组列表：类似于字典，但可以包含多个值。例如[('key1', 'value1'), ('key1', 'value2')]会编码为key1=value1&key1=value2附加到URL上。
- 字符串：将被追加到URL后面，例如'page=2'会附加到URL上。
headers： 可选参数，表示HTTP请求头部信息，通常包含User-Agent、Accept等信息，默认为None。
timeout： 可选参数，表示请求超时时间，单位为秒，默认为None，即等待服务器响应的时间不限制。
auth： 可选参数，表示HTTP认证信息，如HTTPBasicAuth对象，默认为None。
proxies： 可选参数，表示代理配置信息，如{'http': 'http://xxx.xxx.xxx.xxx:port', 'https': 'https://xxx.xxx.xxx.xxx:port'}，默认为None。
verify： 可选参数，表示SSL证书验证开关，可以是True、False或CERT文件路径，默认为True。
cert： 可选参数，表示SSL客户端证书文件路径，通常是一个包含证书和私钥的PEM文件，默认为None。
allow_redirects： 可选参数，表示是否允许重定向，默认为True。
stream： 可选参数，表示是否使用流式传输，默认为False。
params_encoding： 可选参数，表示URL参数编码方式，如utf-8，默认为None。

总之，requests.get提供了丰富的参数支持，可以满足各种HTTP请求场景需求。根据具体需求选择合适的参数进行配置即可。

你可能感兴趣的:(python学习,爬虫,python,学习)

ElasticSearch中的分片是什么? java1234_小锋 java elasticsearch 大数据搜索引擎
大家好，我是锋哥。今天分享关于【ElasticSearch中的分片是什么?】面试题。希望对大家有帮助；ElasticSearch中的分片是什么?超硬核AI学习资料，现在永久免费了！在Elasticsearch中，分片（Shard）是将数据拆分成更小的部分，允许在分布式环境中并行处理和存储数据的机制。它是Elasticsearch在水平扩展时用于管理大量数据的关键概念。主要概念：主分片（Primar
机器学习宝典——第6章爱看烟花的码农机器学习人工智能
第6章：聚类算法(Clustering)你好，同学！欢迎来到无监督学习的世界。与监督学习不同，这里的我们没有“标准答案”（标签），我们的目标是在数据中发现隐藏的、内在的结构。聚类算法就是实现这一目标的核心工具，它试图将数据集中的样本划分为若干个不相交的子集，我们称之为“簇”(cluster)。本章我们将深入探讨三种最具代表性的聚类算法：K-均值(K-Means)、层次聚类(Hierarchical
Python|Pyppeteer规避反自动化检测方法【最新方案】(33) 写python的鑫哥 Pyppeteer从入门到精通 python pyppeteer puppeteer 规避反自动化检测反爬虫
前言本文是该专栏的第33篇，结合优质项目案例持续分享Pyppeteer的干货知识，记得关注。相信有些同学在使用Pyppeteer框架进行某个自动化操作的时候，会触发平台的检测机制，让目标平台识别出当前是机器人在操作，而非人为操作，导致让你的程序无法继续进行下一步。对于上述这种情况，你是不是有很大的疑惑呢？别担心，本文笔者专门针对上述问题，来详细介绍在使用Pyppeteer的过程中，出现反自动化机制
【深度学习】神经网络剪枝方法的分类烟锁池塘柳0 机器学习与深度学习深度学习神经网络剪枝
神经网络剪枝方法的分类摘要随着深度学习模型，特别是大语言模型（LLM）的参数量爆炸式增长，模型的部署和推理成本变得异常高昂。如何在保持模型性能的同时，降低其计算和存储需求，成为了工业界和学术界的核心议题。神经网络剪枝（Pruning）作为模型压缩的关键技术之一，应运而生。本文将解析剪枝技术的不同分类，深入探讨其原理、优缺点。文章目录神经网络剪枝方法的分类摘要1为什么我们需要剪枝？2分类方法一：剪什
Python 图像分类入门超龄超能程序猿机器学习 python 分类开发语言
一、介绍图像分类作为深度学习的基础任务，旨在将输入图像划分到预定义的类别集合中。在实际的业务中，图像分类技术是比较常用的一种技术技能。例如，在安防监控中，可通过图像分类识别异常行为；在智能交通系统中，实现对交通标志和车辆类型的快速识别等。本文将通过安装包已有数据带你逐步了解使用Python进行图像分类的全过程。二、环境搭建在开始图像分类项目前，需要确保Python环境中安装了必要的库。主要包括：T
初始CNN(卷积神经网络) 超龄超能程序猿机器学习 cnn 人工智能神经网络
卷积神经网络（ConvolutionalNeuralNetwork，简称CNN）作为深度学习的重要分支，在图像识别、目标检测、语义分割等领域大放异彩。无论是手机上的人脸识别解锁，还是自动驾驶汽车对道路和行人的识别，背后都离不开CNN的强大能力一、CNN诞生的背景与意义在CNN出现之前，传统的图像识别方法主要依赖人工提取特征，例如使用SIFT（尺度不变特征变换）、HOG（方向梯度直方图）等算法。这些
取余和取模到底是不是一回事？对比Python、Java、C和C++中的%运算符霜叶桑 java python c语言 c++
取余和取模到底是不是一回事？对比Python、JAVA、C和C++中的%运算符数学中的「取余」和「取模」计算机领域中的「取余」和「取模」Python、Java、C和C++中的`%`运算符Python：取模运算Java：取余运算C和C++：取余运算为什么一般用正除数数学中的「取余」和「取模」在纯数学中，当我们谈论整数除法a÷ba\divba÷b（aaa是被除数，bbb是除数，且b≠0b\not=0
结构型智能科技的关键可行性——信息型智能向结构型智能的转变（修改提纲）刘海东刘海东人工智能机器学习算法
结构型智能科技的关键可行性——信息型智能向结构型智能的转变1.信息型智能科技概述1.1传统计算机科技的信息型继承者1.2信息型智能环境1.3信息型智能主体1.4机器学习创造的智能1.5信息型智能科技的缺陷2.结构型智能科技概述2.1传统计算机科技向生命结构的发展2.2结构型智能科技的环境2.3结构型智能科技创造的机器生命2.4结构型智能科技的科学性3.结构型智能科技的关键可行性——信息型智能向结构
深度学习实验：GPU加速，突破性能瓶颈 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
深度学习实验：GPU加速，突破性能瓶颈1.背景介绍随着深度学习模型变得越来越复杂和庞大，传统的CPU已经无法满足训练和推理的计算需求。GPU凭借其强大的并行计算能力和专门为矩阵运算优化的架构，成为了深度学习领域的核心加速器。本文将探讨如何利用GPU加速深度学习实验,突破性能瓶颈,提高模型训练和推理的效率。2.核心概念与联系2.1GPU架构GPU(图形处理器)最初是为了加速图形渲染而设计的,但由于其
匿名科创无人机学习心得 heng6868 嵌入式项目物联网网络 iot
*1.*飞控stm32串口5连接imu，串口五发送的指令会发送到imu中，如果是自定义的用户格式帧（比如：AAFFF103010101A067）会先到imu，imu的串口1接stm飞控。串口2接数传，从串口1接收到的数据会通过串口二发送给数传，数传传给另一个数传，在通过USB线传输给上位机。但是如果不是属于用户自定义的格式帧，imu会进行处理，比如飞控串口5一上电就会输出电池信息（如：AAFF0D
深度学习相关指标工作笔记 Victor Zhong AI 框架深度学习笔记人工智能
这里写目录标题检测指标iou/Ｇou/Ｄiou/ＣiouMSE(MeanSquaredError)(均方误差)(回归问题)交叉熵损失函数(CrossEntropyErrorFunction)(分类问题)检测指标iou/Ｇou/Ｄiou/ＣiouIntersectionoverUnion(IoU)是目标检测里一种重要的评价值交并比令人遗憾的是IoU无法优化无重叠的bboxes如果用IoU作为loss
194、Django Channels实战：构建实时WebSocket应用多多的编程笔记 django websocket sqlite
DjangoChannels：实现WebSocket与实时通信本文将向您介绍Python开发框架Django中的一个重要组件——DjangoChannels，它使得在Django中实现WebSocket通信变得轻而易举。通过阅读本文，您将了解WebSocket的概念、DjangoChannels的工作原理以及如何在实际项目中使用它来实现实时通信。1.WebSocket：实现快速双向通信在介绍Dja
介绍electron 几道之旅 electron javascript 前端
一、Electron是什么？Electron是一个基于Chromium和Node.js的框架，允许开发者使用前端技术（HTML/CSS/JavaScript）构建原生桌面应用。其核心优势在于：跨平台：一次开发，生成Windows、macOS、Linux三端应用；技术栈统一：前端开发者无需学习新语言，直接复用Web生态（如Vue/React）；混合架构：Chromium：负责渲染界面，支持现代CSS
LK32T102学习-0 和风化雨嵌入式系统 LK32T 单片机嵌入式硬件
工程建立步骤：建立一个文件夹，文件夹的名称就是任务名称，如XX将test1-gpio文件夹中的内容全部拷贝到XX通过uVision（或直接点击XX文件夹下的*.uvprojx）打开工程打开工程文件夹下的main.c文件修改main函数，其余不动main函数结构intmain(){ Device_Init();//不要动 //添加你的其他初始化代码 while(1){//工作循环//添加
LK32T102学习2-GPIO
GPIO即可编程输入输出口，LK32T102有3组GPIO口，每组最多32条口线。GPIO口线可以实现很多的功能，可以说掌握了GPIO功能也就MCU编程也就基本实现了MCU的入门。GPIO功能使用要注意LTK320T的管脚是多功能的，可作为数字量管脚，也可以作为模拟量管脚。输入模式浮空输入模式输入完全由外部输入决定PU，PD都不导通上拉输入模式IO悬空时输入为高电平PU导通，PD不导通下拉输入模式
【计算机三级】网路技术学习笔记第二章中小型网络系统总体规划与设计努力的小刘@ 计算机等级考试网络计算机网络网络协议
计算机三级网络技术二、中小型网络系统总体规划与设计考点（一）：网络总体设计基本方法1.核心层网络结构设计整个网络系统的主干部分是核心层网络，是设计与建设的重点，目前应用于核心层网络的技术标准主意要是GE/10GE,核心设备是高性能路由器，连接核心路由器的是具有冗余链路的光纤，整个网络流量的40%-60%都需要有核心层网络来承载直接接入核心路由器采取链路冗余的办法，直接连接两台核心路由器，其特点是直
STM32开发方式及基本介绍
相关推荐STM32新建一个工程STM32的开发有三种方式1.寄存器版本2.库函数版本3.HAL库版本一、库函数开发与寄存器开发的关系很多人都是从学51单片机转而想进一步学习STM32，他们习惯了51单片机的寄存器开发方式，ST官方库摆在面前会不知道从何下手。其实简单来说，固件库就是函数的集合，固件库函数的作用是向下负责与寄存器直接打交道，向上提供用户函数调用的接口。举一个例子来解释STM32固件库
线性代数在图像处理中的应用 --- 纳尼? 2D的高斯核可以通过1D的高斯核直接生成？（秩为1的矩阵）松下J27 Linear Algebra 线性代数图像处理人工智能
二维高斯核，Rank秩等于一的矩阵之前，我在学习图像处理的时候，会经常用到Gaussianblur，也就是二维高斯低通滤波。当时用的都是Matlab中，现成的图像处理库。只需要输入sigma和kernelsize这些参数就行了，完全不需要考虑高斯核中的每个点长啥样。虽然教科书里面也会有一些配图，例如：直到后来，我学习高斯图像金字塔的时候发现，在别人的代码里面，他在生成二维高斯核的时候，并不是直接写
【深度学习新浪潮】基于扩散模型的图像编辑加速方法小米玄戒Andrew 深度学习新浪潮深度学习人工智能扩散模型 Transformer DiT 图像编辑模型加速
在基于扩散模型的图像编辑任务中，实现高质量与高效加速的平衡需要综合运用模型架构优化、采样策略创新、条件控制增强及硬件加速等多维度技术。一、一步反演与掩码引导的编辑框架通过一步反演框架将输入图像映射到可编辑的潜在空间，结合掩码引导的注意力重缩放机制，实现文本引导的局部编辑。例如，SwiftEdit通过一步反演和注意力重缩放，将编辑时间压缩至0.23秒，比传统多步方法快50倍。具体步骤包括：一步反演：
spring-ai-alibaba 1.0.0.2 学习（十二）——聊天记忆扩展包
学习spring-ai时提到过，spring-ai除了内置的InMemoryChatMemoryRepository，还提供jdbc、cassandra、neo4j三个扩展包。而spring-ai-alibaba则提供了jdbc、redis、elasticsearch三个扩展包。两者都提供了jdbc扩展包，有什么区别呢？spring-aijdbc和spring-ai-alibabajdbc对比sp
红宝书学习笔记丰锋ff 学习笔记
list1NO.WordMeaning1remoteadj.偏远的；久远的；遥控的；n.遥控器2removev.挪走；去除；移开；消除3removaln.除去；迁移；免职4remainv.剩下；留下；保持5remaindern.剩余物；剩余人员；余数；v.廉价出售6remainsn.遗迹；遗体；遗骨；剩余物；剩下（物）；<"remain"的第三人称单数7remedyn.疗法；纠正办法；v.纠正；治
Java学习第十七部分——Mocking 框架慕y274 java 学习开发语言
目录一.概述1.Mockito2.PowerMock3.EasyMock4.JMockit5.WireMock二.选择一.概述在Java开发中，Mocking框架是单元测试的重要工具，用于模拟外部依赖，从而隔离被测试代码与外部系统之间的交互。以下介绍几种流行的JavaMocking框架：1.MockitoMockito是目前最流行的JavaMocking框架之一，具有以下特点：-**简洁的API*
Java学习第三部分——面向对象基础慕y274 java 学习开发语言
目录一.简介二.类和对象（一）类（Class）（二）对象（Object）三.构造方法（Constructor）四.封装（Encapsulation）五.继承（Inheritance）六.多态（Polymorphism）（一）方法重载（MethodOverloading）（二）方法覆盖（MethodOverriding）七.抽象类和接口（一）抽象类（AbstractClass）（二）接口（Inter
学cpp c++怎么才能找到嵌入式开发工作程序员
前言Thelasttime,Ihavelearned这个问题，也是最近两次答疑星球同学提问很多问题中的一个共性问题，比如提问的下面这些问题：嵌入式我需要专门学习什么技术吗？需不需要开发板？想从事嵌入式linux，但是看boss上面有搞摄像头的，有搞车载传感器的...感觉技术栈好杂，马上秋招了，该如何入手？嵌入式linux和这种普通的cpp开发区别在哪里，面试的时候侧重于哪里？我想重点投嵌入式开发，
鸿蒙HarmonyOS学习笔记（2） yuwinter HarmonyOS harmonyos 学习笔记
基本语法概述如下图所示，当开发者点击按钮时，文本内容从“HelloWorld”变为“HelloArkUI”。ArkTS的基本组成说明自定义变量不能与基础通用属性/事件名重复。装饰器：用于装饰类、结构、方法以及变量，并赋予其特殊的含义。如上述示例中@Entry、@Component和@State都是装饰器，@Component表示自定义组件，@Entry表示该自定义组件为入口组件，@State表示组
20、鸿蒙学习——OAID、AAID、ODID 青春路上的小蜜蜂学习 harmonyos 华为 typescript ArkTs
1、OAID开放匿名设备标识符（（OpenAnonymousDeviceIdentifier），是一种非永久性设备标识符，基于开放匿名设备标识符，可在保护用户个人数据隐私安全的前提下，向用户提供个性化广告，同时三方检测平台也可向广告主提供转化根因分析。OAID具有以下特性：OAID是设备级标识符，同一台设备上不同的App获取到的OAID值一致OAID的获取受应用的跟踪开关影响：当应用的跟踪开关开启
鸿蒙学习——开发中遇到的问题记录青春路上的小蜜蜂学习 harmonyos
1、Image组件设置aspectRatio后，宽度100%时不会充满100%说明：线性布局在给子组件设置margin值时，子组件的高度就是本身的高度加上margin的高度，指定了aspectRatio后，为了保持宽高比，Row的宽度会根据宽高比进行一定的缩进。解决方法：1：如要给image设置宽度100%的话，去掉margin属性2：如要给image组件设置margin属性的话，不设置宽度
鸿蒙开发进阶（HarmonyOS ）开发ArkTS卡片页面凹~凸~曼 HarmonyOS 鸿蒙开发 OpenHarmony harmonyos 华为鸿蒙系统前端 android ui 移动开发
鸿蒙NEXT开发实战往期必看文章：一分钟了解”纯血版！鸿蒙HarmonyOSNext应用开发！“非常详细的”鸿蒙HarmonyOSNext应用开发学习路线！（从零基础入门到精通）HarmonyOSNEXT应用开发案例实践总结合（持续更新......）HarmonyOSNEXT应用开发性能优化实践总结（持续更新......）开发者可以使用声明式范式开发ArkTS卡片页面。如下卡片页面由DevEcoS
HarmonyOS 鸿蒙学习笔记3-UIAbility组件
UIAbility组件UIAbility组件是一种包含UI界面的应用组件，主要用于和用户交互。直白来说就是构建页面，可以通过多个页面来实现功能模块。创建的module默认情况下就是一个ability，除此之外还有HAR(静态资源包)和HSP(动态共享包)，主要用于module间共用资源，后续会做详细讲解。主要内容：1.`abilitymodule`目录结构及声明配置；2.生命周期；3.与UI界面数
apache-dolphinscheduler-3.2.0调度器简介和集群部署详细安装文档
1、为什么选用apache-dolphinscheduler轻松管理复杂的任务工程支持跨项目和跨工作流程的任务依赖支持Kill、暂停和恢复操作任务支持以租户、Worker分组组和环境中隔离运行每个任务都可以修改输出参数，并将其传递给后续任务在一分钟内创建你的工作流程通过拖拉拽的工作流创建方式提高效率支持Python、Yaml和OpenApi的方式生成工作流支持将一个工作流作为另一个工作流的子流程执
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio