Knight ELeven

python渗透工具编写学习笔记：10、网络爬虫基础/多功能编写

前言

10.1 概念

10.2 调度器/解析器

10.3 存储器/去重器

10.4 日志模块

10.5 反爬模块

10.6 代理模块

前言

在渗透工具中，网络爬虫有着不可忽视的作用，它能够快速而精准的搜寻、提取我们所需要的信息并按照我们所需要的格式排列，那么今天我们就来学习使用python编写实用的爬虫吧！坚持科技向善，勿跨越法律界限，代码仅供教学目的。初出茅庐，如有错误望各位不吝赐教。

10.1 概念

网络爬虫是指自动访问互联网上的网页并提取相关信息的程序。Python是一种常用的编程语言，可以用来编写网络爬虫。Python爬虫的架构通常包括以下几个组件：

调度器（Scheduler）：负责管理爬取的URL队列，将待爬取的URL添加到队列中，并根据一定的策略从队列中取出URL进行爬取。
下载器（Downloader）：负责下载URL对应的网页内容，并将下载结果返回给爬虫程序。
解析器（Parser）：负责解析下载下来的网页内容，提取出需要的数据。
存储器（Storage）：负责将解析出的数据进行存储，可以是保存到数据库中、写入文件等。
去重器（Deduplicator）：负责对已下载的URL进行去重，避免重复的爬取。
调度器、下载器、解析器、存储器之间一般通过消息队列、数据库等通信机制进行交互。

在实际的爬虫项目中，爬虫的整体流程为：调度器从URL队列中取出一个URL，交给下载器下载该URL对应的网页内容，下载完成后将结果交给解析器进行解析，提取出需要的数据，并交给存储器进行存储。同时，去重器会对已下载的URL进行去重，避免重复爬取。

10.2 调度器/解析器

网络爬虫是指自动访问互联网上的网页并提取相关信息的程序。Python是一种常用的编程语言，也可以用来编写网络爬虫。

我们用Python编写一个简单的爬虫调度器：

在Python中，你可以使用requests库来发送HTTP请求获取网页内容，使用BeautifulSoup库来解析网页内容。

import requests
from bs4 import BeautifulSoup

发送请求获取网页内容：使用requests库发送HTTP请求并获取网页内容。

url = "https://www.example.com"  # 要爬取的网页地址
response = requests.get(url)
html = response.text  # 获取网页内容

要学习如何编写爬虫的解析器，我们需要先学习正则表达式的编写：

正则表达式是一种用来匹配字符串的工具，可以用来搜索、替换和提取字符串中的特定模式。在Python中，正则表达式的相关函数和模块被封装在re模块中。

下面我们再来学习编写爬虫的解析器，用于筛选出我们需要的信息。我们可以使用re模块来进行字符串的正则表达式匹配。下面是一些常用的re模块函数：

re.match(pattern, string, flags=0):
- 函数用于尝试从字符串的起始位置匹配一个模式。
- 如果匹配成功，返回一个匹配对象；如果匹配失败，返回None。
- pattern：要匹配的正则表达式模式。
- string：要匹配的字符串。
- flags：可选参数，用于控制匹配的模式。
re.search(pattern, string, flags=0):
- 函数用以在字符串中搜索匹配的第一个位置，返回一个匹配对象。
- pattern：要匹配的正则表达式模式。
- string：要匹配的字符串。
- flags：可选参数，用于控制匹配的模式。
re.findall(pattern, string, flags=0):
- 函数用以在字符串中搜索匹配的所有位置，返回一个列表。
- pattern：要匹配的正则表达式模式。
- string：要匹配的字符串。
- flags：可选参数，用于控制匹配的模式。

下面是一个示例，演示如何使用re模块来匹配字符串：

import re

# 匹配字符串中的数字
pattern = r'\d+'
string = 'abc123def456ghi'

# 使用re.search()匹配第一个数字
match = re.search(pattern, string)
if match:
    print(f'Matched: {match.group()}')  # 输出：Matched: 123

# 使用re.findall()匹配所有数字
matches = re.findall(pattern, string)
if matches:
    print(f'All Matches: {matches}')  # 输出：All Matches: ['123', '456']

在上面的示例中，使用正则表达式模式r'\d+'匹配字符串中的数字。首先使用re.search()函数匹配第一个数字，然后使用re.findall()函数匹配所有数字。输出结果显示匹配到的数字。

学会了re模块的主要函数，接下来我们来学习正则表达式筛选条件的编写：

字符匹配
- 字符：使用普通字符直接匹配，例如匹配字符串 "hello"，可以使用正则表达式 "hello"。
- 句点（.）：匹配任意一个字符，除了换行符（\n）。
- 字符集（[]）：匹配方括号中的任意一个字符。例如，[aeiou] 匹配任意一个元音字母。
- 转义字符（\）：用来匹配特殊字符。例如，匹配圆括号字符，可以使用 "("。
- 重复次数：用于指定一个字符的重复次数。例如，a{3} 匹配 "aaa"。
- 元字符（\d、\w、\s）：用于匹配特定类型的字符。例如，\d 匹配任意一个数字字符。
边界匹配
- 开始位置（^）：匹配字符串的开始位置。
- 结束位置（$）：匹配字符串的结束位置。
重复匹配
- 重复（*）：匹配前面的元素0次或多次。
- 加号（+）：匹配前面的元素1次或多次。
- 问号（?）：匹配前面的元素0次或1次。
- 花括号（{}）：匹配前面的元素指定的次数范围。例如，a{2,4} 匹配 "aa"、"aaa"、"aaaa"。
分组和捕获
- 圆括号（()）：用于分组的目的。例如，(ab)+ 匹配 "ab"、"abab"、"ababab"。
- 捕获组（\1、\2、\3...）：用于引用分组中的内容。例如，(\w+)\s+\1 匹配 "hello hello"。
特殊序列
- \d：匹配任意一个数字字符。等价于 [0-9]。
- \D：匹配任意一个非数字字符。等价于 [^0-9]。
- \w：匹配任意一个字母、数字或下划线字符。等价于 [a-zA-Z0-9_]。
- \W：匹配任意一个非字母、数字或下划线字符。等价于 [^a-zA-Z0-9_]。
- \s：匹配任意一个空白字符，包括空格、制表符、换行符等。
- \S：匹配任意一个非空白字符。

以上是正则表达式的一些常用语法，我们再来看看爬虫常用的筛选条件：

soup = BeautifulSoup(html, "html.parser")  # 使用html.parser解析器解析网页内容
# 提取需要的信息
title = soup.title.text  # 提取网页标题
links = soup.find_all("a")  # 提取所有链接

10.3 存储器/去重器

完成了调度器与解析器的编写，我们再来看三要素里的最后一个：爬虫的存储器。它用于将爬取完成后的数据储存起来，下面我们利用python的文件写入方法来对数据进行储存，并将提取的信息保存到文件或数据库中。

# 保存到文件
with open("output.txt", "w") as f:
    f.write(title)
    for link in links:
        f.write(link.get("href"))

好了！我们已经写出了网络爬虫最主要的三个部分，接下来是时候为它添加上更加丰富的功能了，为了使我们的爬虫不会爬取相同的网页，我们来编写一个爬虫的去重器。以下是爬虫去重器的示例代码：

import hashlib

def get_md5(url):
    """
    计算URL的MD5值
    """
    if isinstance(url, str):
        url = url.encode("utf-8")
    m = hashlib.md5()
    m.update(url)
    return m.hexdigest()

class Deduplicator:
    def __init__(self):
        self.visited_urls = set()
    
    def is_visited(self, url):
        """
        判断URL是否已经被访问过
        """
        url_md5 = get_md5(url)
        if url_md5 in self.visited_urls:
            return True
        else:
            self.visited_urls.add(url_md5)
            return False

使用方法：

deduplicator = Deduplicator()
url = "http://example.com"

if deduplicator.is_visited(url):
    print("URL已被访问过")
else:
    print("URL未被访问过")

以上代码中，get_md5函数用于计算URL的MD5值，将其作为唯一的标识。Deduplicator类用于存储已经访问过的URL，通过调用is_visited方法判断URL是否已经被访问过。如果URL已被访问过，则返回True；如果URL未被访问过，则将其MD5值添加到已访问集合中，并返回False。

10.4 日志模块

日志模块，可以使我们的爬虫爬取日志信息，提取不同级别的日志，编写Python爬虫的日志模块可以使用Python内置的logging模块来实现。下面是一个简单示例：

import logging

# 创建日志对象
logger = logging.getLogger('crawler')
logger.setLevel(logging.DEBUG)

# 创建文件handler，用于将日志写入文件
file_handler = logging.FileHandler('crawler.log')
file_handler.setLevel(logging.DEBUG)

# 创建控制台handler，用于在控制台输出日志
console_handler = logging.StreamHandler()
console_handler.setLevel(logging.INFO)

# 定义日志格式
formatter = logging.Formatter('%(asctime)s - %(name)s - %(levelname)s - %(message)s')
file_handler.setFormatter(formatter)
console_handler.setFormatter(formatter)

# 将handler添加到日志对象中
logger.addHandler(file_handler)
logger.addHandler(console_handler)

以上代码创建了一个名为'crawler'的日志对象，并设置了日志级别为DEBUG，即最低级别的日志会输出到文件和控制台。可以根据需求进行调整日志级别。

接下来，可以在爬虫代码中使用日志对象来记录日志信息。例如：

url = 'http://example.com'

try:
    # 爬取数据的代码
    logger.debug(f'Start crawling url: {url}')
    
    # ...
    
    # 爬取成功的日志信息
    logger.info(f'Successfully crawled url: {url}')
except Exception as e:
    # 爬取失败的日志信息
    logger.error(f'Failed to crawl url: {url}. Error message: {str(e)}')

以上代码会在开始爬取URL和成功爬取URL时分别记录DEBUG级别和INFO级别的日志信息，如果爬取过程中出现异常，则会记录ERROR级别的日志信息，并将异常信息作为日志消息的一部分。所有日志信息会同时输出到文件和控制台。

这样，就完成了一个简单的Python爬虫日志模块的编写。我们可以根据实际需求对日志模块进行扩展和优化，例如添加日志文件的切割、设置日志文件大小等。

10.5 反爬模块

当遇到反爬机制时，我们可以使用Python编写一些反爬模块来应对。这些模块可以帮助我们绕过一些常见的反爬手段，如User-Agent检测、验证码识别、IP封锁等。

以下是一个示例，演示了如何使用Python的requests库和验证码识别库tesseract来实现一个简单的反爬模块：

import requests
from PIL import Image
import pytesseract

# 请求头，可以根据具体的网站进行调整
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}

# 请求网页，可以添加其他参数，如代理IP等
response = requests.get('http://example.com', headers=headers)

# 如果返回的响应中有验证码图片，可以使用Pillow库来处理
if 'captcha' in response.text:
    # 找到验证码图片的URL
    captcha_url = 'http://example.com/captcha.jpg'
    captcha_response = requests.get(captcha_url, headers=headers)

    # 保存验证码图片到本地
    with open('captcha.jpg', 'wb') as f:
        f.write(captcha_response.content)

    # 使用tesseract来识别验证码
    captcha = pytesseract.image_to_string(Image.open('captcha.jpg'))

    # 构建包含验证码的表单数据
    data = {
        'captcha': captcha,
        # 其他表单数据...
    }

    # 提交包含验证码的表单数据
    response = requests.post('http://example.com/submit', data=data, headers=headers)

# 处理响应内容
# ...

注：这只是一个简单的示例，实际应用时可能需要根据具体的反爬机制进行具体调整和优化。此外，还可以考虑使用代理IP池、使用多个账号轮流访问等更复杂的反爬策略。

10.6 代理模块

最后，我们再来使用Python编写爬虫的代理模块：

import requests

# 使用代理IP访问网页
def request_with_proxy(url, proxies):
    try:
        # 使用get方法发送请求
        response = requests.get(url, proxies=proxies)
        # 返回响应内容
        return response.text
    except requests.exceptions.RequestException as e:
        print('Error:', e)

# 获取代理IP
def get_proxy():
    try:
        # 代理IP的API地址
        api_url = 'http://api.ip.data5u.com/dynamic/get.html?order=YOUR_ORDER_NUMBER&ttl=1&json=1'
        response = requests.get(api_url)
        # 解析返回的JSON数据
        data = response.json()
        # 提取代理IP和端口号
        proxy_ip = data['data'][0]['ip']
        proxy_port = data['data'][0]['port']
        # 构造代理IP字典
        proxy = {
            'http': f'http://{proxy_ip}:{proxy_port}',
            'https': f'https://{proxy_ip}:{proxy_port}',
        }
        return proxy
    except requests.exceptions.RequestException as e:
        print('Error:', e)

# 测试代理IP是否可用
def test_proxy(proxy):
    try:
        # 使用httpbin.org作为测试目标网站
        url = 'http://httpbin.org/ip'
        response = requests.get(url, proxies=proxy)
        # 解析返回的JSON数据
        data = response.json()
        # 提取IP地址
        ip = data['origin']
        print('Proxy IP:', ip)
    except requests.exceptions.RequestException as e:
        print('Error:', e)

# 主函数
def main():
    # 获取代理IP
    proxy = get_proxy()
    if proxy:
        # 测试代理IP是否可用
        test_proxy(proxy)
        # 使用代理IP访问网页
        url = 'https://www.example.com'
        html = request_with_proxy(url, proxy)
        print(html)

if __name__ == '__main__':
    main()

确保将YOUR_ORDER_NUMBER替换为在代理IP网站上获得的订单号。在上述代码中，我们使用httpbin.org作为测试网站，可以将url变量替换为任何想要访问的实际网站。

好了，到这里就是今天的全部内容了，如有帮助不胜荣幸。

大神之路-起始篇 | 第13章.计算机科学导论之【文件结构】学习笔记全栈工程师修炼指南从业必看书籍专栏学习笔记
欢迎关注「WeiyiGeek」公众号点击下方卡片即可关注我哟!设为「星标⭐」每天带你基础入门到进阶实践再到放弃学习！涉及网络安全运维、应用开发、物联网IOT、学习路径、个人感悟等知识“花开堪折直须折，莫待无花空折枝。”作者主页：[https://www.weiyigeek.top]作者博客：[https://blog.weiyigeek.top]作者答疑学习交流群：
Redis学习总结（15）——Redis 基本数据类型使用场景一杯甜酒 Redis Redis基本数据类型使用场景
一、StringStrings数据结构是简单的key-value类型，value其实不仅是String，也可以是数字.常用命令:set,get,decr,incr,mget等。应用场景：String是最常用的一种数据类型，普通的key/value存储都可以归为此类.即可以完全实现目前Memcached的功能，并且效率更高。还可以享受Redis的定时持久化，操作日志及Replication等功能。除
pytorch官方文档60分钟入门笔记 xiaodidadada 机器学习
文章目录1.张量（Tensors）定义张量张量操作2.自动求导（autograd）变量Variable3.神经网络4.训练一个分类器载入数据5.数据并行day63参考：官方文档https://blog.csdn.net/u014630987/article/details/786690511.张量（Tensors）tensors和numpy的ndarray类似,但是tensors可以使用GPU加快
笔记本安装linux系统_“老笔记本”操作系统的安装彭英韬笔记本安装linux系统
现在科技发展电脑更新速度很很，有很多人已经换了几台电脑了。一是工作需要电脑满足不了需求；二是经济条件好经常更换满足心里需求；三是只会使用电脑不会维修，修不好就换等情况。现在电脑出现问题比较多的操作系统，由于经常上网有一些软件自动就安装了，使用一段时间电脑速度就慢了，有时自己清理电脑就出现进不了系统。还有时候安装自己需要系统时，由于不匹配等因素，导致电脑死机或出现蓝屏现象。虽然上网关系系统安装的软件
Prompt 精通之路（四）- AI 赋能：10 个超实用的 Prompt 模板，覆盖写作、编程、学习和办公程序员阿超的博客 Prompt 精通之路：从零基础到 AI 高效玩家人工智能 prompt 学习 Prompt模板 AI工作流 ChatGPT应用生产力工具
Prompt精通之路：系列文章导航第一篇：[本文]AI时代的新语言：到底什么是Prompt？为什么它如此重要？第二篇：告别废话！掌握这4个黄金法则，让你的Prompt精准有效第三篇：像专业人士一样思考：Zero-Shot,Few-Shot和思维链（CoT）技巧详解第四篇：AI赋能：10个超实用的Prompt模板，覆盖写作、编程、学习和办公第五篇：构建你的“AI指令系统”：超越简单提问的CRISPE
API，异常 qq_42822008
API:应用程序编程接口，即jdk文档手册，里面以类的形式提供了很多常用的功能。常用的包与类：java.lang包：因为常用，所以不需要导包字符串，线程java.util包:数组工具类，日期，集合等java.net包:网络相关的类型java.io包:输入输出类型java.math包：数学应用的相关类型打包工具:javadoc(1)使用命令提示符界面：类信息中没有声明包，即使用默认包javadoc-
全平台QQ聊天数据库解密项目常见问题解决方案管旭韶
全平台QQ聊天数据库解密项目常见问题解决方案qq-win-db-keyQQNT/WindowsQQ聊天数据库解密项目地址:https://gitcode.com/gh_mirrors/qq/qq-win-db-key项目基础介绍本项目是一个开源项目，旨在为用户提供全平台QQ聊天数据库的解密方法。项目主要使用Python、JavaScript和C++等编程语言实现。新手常见问题及解决步骤问题一：如何
微调 || RAG，项目落地怎么选？LLM应用选型指南，适用场景全解析认知超载 AI 人工智能
基本定义微调：是指利用更小、更具针对性的数据集对经过预先训练的大语言模型进一步训练的过程。在这个过程中，模型基于新数据集修改权重和参数，学习特定于任务的模式，同时保留来自最初预训练模型的知识。RAG：即检索增强生成，是将检索大量外部知识的过程与文本生成结合在一起的一种方法。它会从大型外部数据库中检索与输入问题相关的信息，将这些信息作为上下文提供给大语言模型，辅助其生成回答。微调适用场景1.特定领域
Linux操作系统笔记3 wu2790 笔记
接口管理命令：ip命令字符终端nmcli命令字符终端nmtui命令可视化终端ip命令：使用ip命令可以配置临时网络的连接信息，相关命令如下：iplink：显示网络设备运行状态ip-slink：显示更详细的设备信息iplinkshow[网络设备名]：仅显示指定的网络设备名的信息iplinkshowup：仅显示当前处于激活状态的设备信息iplinkset[网络设备名]down：将指定的网络设备下线ip
量子算法：微算法科技用于定位未知哈希图的量子算法，网络安全中的哈希映射突破 MicroTech2025 量子计算哈希算法
近年来，量子计算的飞速发展使其成为各个领域的变革力量。特别是在网络安全领域，量子算法展示了加速并增强威胁检测（如恶意软件识别）方法的巨大潜力。微算法科技（NASDAQ:MLGO）用于定位未知哈希图的量子算法，是针对未知哈希图定位而设计的量子算法。这项技术可能会彻底改变在数据处理中利用哈希值的方式，特别是在恶意软件模式识别中。传统网络安全框架通常依赖哈希函数来生成不同数据结构的唯一标识符，或称之为“
linux操作系统笔记1 wu2790 linux 笔记服务器
基本命令格式[redhat@localhost~]$$:使用的shell，$表示普通用户，#表示root（管理员）用户redhat：表示当前登录的用户，su(-)切换用户，whoami查看当前登录的用户localhost：表示主机名称，hostname查看主机名称，还可以临时修改（hostname英文名称）,永久修改（hostnamectlset-hostname英文名称）~：表示当前的工作目录,
百度颠覆了自己，飞算JavaAI造福了中国程序员！飞算JavaAI开发助手百度
在当今这个科技日新月异的时代，企业纷纷寻求技术突破，以期在激烈的市场竞争中脱颖而出。百度，作为中国互联网行业的领军企业之一，凭借其强大的科技实力和创新能力，在人工智能等多个领域取得了显著成就，并正在逐步颠覆自身的传统形象。百度自成立之初，就将技术创新视为企业的生命线。从最初的搜索引擎技术，到如今的深度学习、自然语言处理、计算机视觉等前沿领域，百度始终走在技术革新的前沿。其自主研发的飞桨深度学习平台
MapReduce01：基本原理和wordCount代码实现冬至喵喵大数据 mapreduce
本篇文章中，笔者记录了自己对于MapReduce的肤浅理解，参考资料主要包括《大数据Hadoop3.X分布式处理实战》和网络视频课程。下文介绍了MapReduce的基本概念、运行逻辑以及在wordCount代码示例。一、MapReduce概述1.概述google为解决其搜索引擎中的大规模网页数据的并行化处理问题，设计了MapReduce，在发明MapReduce之后首先用其重新改写了搜索引擎中we
Gartnet《Solution Path for Implementing Hybrid Cloud Applications With On-Premises Data》学习心得架构师学习成长之路大数据架构
一、引言随着企业数字化转型的深入，混合云架构逐渐成为一种中长期的现实选择。软件架构师们在将应用逻辑迁移到云端的同时，往往面临着数据层难以同步迁移的困境。Gartner的这份报告《SolutionPathforImplementingHybridCloudApplicationsWithOn-PremisesData》为我们提供了一条实施混合云应用的清晰路径，涵盖了从迁移策略的确定、应用与数据层的整
Prompt 精通之路（五）- 构建你的“AI 指令系统”：超越简单提问的 CRISPE 与 APE 框架
Prompt精通之路：系列文章导航第一篇：[本文]AI时代的新语言：到底什么是Prompt？为什么它如此重要？第二篇：告别废话！掌握这4个黄金法则，让你的Prompt精准有效第三篇：像专业人士一样思考：Zero-Shot,Few-Shot和思维链（CoT）技巧详解第四篇：AI赋能：10个超实用的Prompt模板，覆盖写作、编程、学习和办公第五篇：构建你的“AI指令系统”：超越简单提问的CRISPE
Liunx 操作系统笔记4 wu2790 笔记
进程管理命令ps命令：功能是显示当前系统的进程状态使用ps命令可以查看到进程的所有信息，例如进程的号码，发起者，系统资源使用占比，运行状态等，ps命令可帮助我们及时发现哪些进程出现“僵死”或“不可中断”等异常情况。ps命令经常会与kill命令搭配使用，以中断和删除不必要的服务进程，避免服务器的资源浪费语法格式：ps参数常用参数：-a显示所有进程信息-t显示属于指定终端主机的程序状态-c不显示程序路
Linux 虚拟机里面系统自动校准时间， wushuang443 linux
首先查看下系统时间：输入date或者timedatectlstatus查看时间信息先启用NTP(网络时间协议)timedatectlset-ntptrue1现在发现日期对上了，但是准确的时钟分钟没对上，输入：这点时区的设置很重要timedatectlset-timezone"Asia/Shanghai"1修改时区为上海注意：若提示权限不足可以加上sudo提权或者使用root账户
C#学习日志 future1412 c#学习 java
构造函数和析构函数知识点一构造函数基本概念在实例化对象时会调用的用于初始化的函数如果不写默认存在一个无参构造函数构造函数的写法1.没有返回值2.函数名和类名必须相同3.没有特殊需求时一般都是public的classPerson{publicstringname;publicintage;类中是允许自己申明无参构造函数的结构体是不允许publicPerson(){name="怪盗基德";age=18
内核参数优化记录小坚学Linux php 网络智能路由器
文章目录参数查看和修改网络net.core.netdev_max_backlognet.core.netdev_budget_usecsnet.core.netdev_budgetnet.ipv4.conf.all.rp_filter=0net.ipv4.conf.default.rp_filter=0net.ipv4.conf.default.arp_announce=2net.ipv4.con
【深度学习:进阶篇】--4.2.词嵌入和NLP 西柚小萌新吖(●ˇ∀ˇ●) #深度学习深度学习自然语言处理人工智能
在RNN中词使用one_hot表示的问题假设有10000个词每个词的向量长度都为10000，整体大小太大没能表示出词与词之间的关系例如Apple与Orange会更近一些，Man与Woman会近一些，取任意两个向量计算内积都为0目录1.词嵌入1.1.特点1.3.word2vec介绍1.3.Word2Vec案例1.3.1.训练语料1.3.2.步骤1.3.3.代码2.测试代码1.词嵌入定义：指把一个维数
【深度学习】卷积神经网络(CNN)原理 chaser&upper 深度学习神经网络卷积计算机视觉
【深度学习】卷积神经网络原理1.卷积神经网络的组成2.卷积层2.1卷积运算过程3.padding-零填充3.1ValidandSame卷积3.2奇数维度的过滤器4.stride-步长5.多通道卷积5.1多卷积核（多个Filter）6.卷积总结7.池化层(Pooling)8.全连接层9.总结1.卷积神经网络的组成定义卷积神经网络由一个或多个卷积层、池化层以及全连接层等组成。与其他深度学习结构相比，卷
GoldenDB简述
GoldenDB是国产的分布式数据库。它解决了分布式事务一致性问题。底层存储采用的是SharedNothing不共享数据（分片式存储）的分布式架构，各自节点持有各自的数据。不共享彼此数据，还有其他两种分布式架构，分别是Sharedisk，共享磁盘，例如NFS，网络文件系统，采用的就是这种架构。NFS是一种基于客户端-服务器架构的文件系统。它通过网络，特别是局域网，让多台计算机可以共享文件和目录。还
深度学习学习经验——卷积神经网络（CNN） Linductor 深度学习学习经验深度学习学习 cnn
卷积神经网络卷积神经网络（CNN）1.卷积神经网络的基本组成2.卷积操作3.激活函数（ReLU）4.池化操作5.全连接层6.卷积神经网络的完整实现项目示例项目目标1.加载数据2.卷积层：图像的特征探测器2.1第一个卷积层3.激活函数：增加非线性4.池化层：信息压缩器5.多层卷积和池化：逐层提取更高层次的特征6.全连接层：分类器7.模型训练和测试完整的项目示例代码总结卷积神经网络（CNN）卷积神经网
用鸿蒙打造真正的跨设备数据库：从零实现分布式存储网罗开发 HarmonyOS 实战源码实战 harmonyos 数据库分布式
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
从零掌握二叉树序列化：Swift实战详解，让你的树结构飞起来！网罗开发 Swift swift 开发语言 ios
文章目录摘要描述题解答案序列化思路反序列化思路题解代码分析示例测试及结果时间复杂度空间复杂度总结摘要今天咱们来聊聊二叉树的一个经典问题：序列化和反序列化。简单来说，就是把一棵二叉树转换成字符串形式（序列化），然后再把这个字符串还原成原来的二叉树（反序列化）。这个问题在实际开发中特别有用，比如你想把一棵树结构保存到文件里，或者通过网络传输给其他服务，都需要用到这种技术。描述想象一下，你正在开发一个社
LeetCode - #106 从中序与后序遍历序列构造二叉树网罗开发 Swift #LeetCode leetcode 算法职场和发展
文章目录前言1.描述2.示例3.答案关于我们前言我们社区陆续会将顾毅（Netflix增长黑客，《iOS面试之道》作者，ACE职业健身教练。）的Swift算法题题解整理为文字版以方便大家学习与阅读。LeetCode算法到目前我们已经更新到105期，我们会保持更新时间和进度（周一、周三、周五早上9:00发布），每期的内容不多，我们希望大家可以在上班路上阅读，长久积累会有很大提升。不积跬步，无以至千里；
LeetCode - #144 二叉树的前序遍历网罗开发 Swift leetcode 算法职场和发展
文章目录前言1.描述2.示例3.答案关于我们前言我们社区陆续会将顾毅（Netflix增长黑客，《iOS面试之道》作者，ACE职业健身教练。）的Swift算法题题解整理为文字版以方便大家学习与阅读。LeetCode算法到目前我们已经更新到143期，我们会保持更新时间和进度（周一、周三、周五早上9:00发布），每期的内容不多，我们希望大家可以在上班路上阅读，长久积累会有很大提升。不积跬步，无以至千里；
C++笔记想要入门的程序猿 c++笔记开发语言
一.指针与引用的区别：1.指针是一个实际的变量，引用是一个别名2.指针可以为空，引用不行3.引用在定义的时候只能初始化一次，后面就不能变了，指针可以变4.指针需要通过解引用操作符（*）访问目标对象，而引用直接作为原变量的别名使用，无需特殊符号inta=10;int*p=&a;int&r=a;coutwords={"apple","banana","cherry"};std::sort(words.
Ubuntu22+ROS2+QtCreator+Ros_Qtc_Plugin开发环境搭建 ZPC8210 ROS python github git
Ubuntu22+ROS2+QtCreator+Ros_Qtc_Plugin开发环境搭建1.写在前面最近重装了ubuntu22.04，被告知ubuntu22已经不支持ROS1了，想着ROS2毕竟是大势所趋，所以安装了ROS2准备进行相应的学习开发。折腾了两天，没发现一款好用的、适合ROS2开发的IDE。之前开发ROS1程序时一直用的QTC，我本以为QTC应该还没有对应的ROS2插件，没想到网上查找
筑牢电力网安防线：密码技术应用全景南京首传信安科技有限公司密码应用密码学电力安全
密码技术在电力行业的应用是保障国家关键基础设施安全的核心环节。随着智能电网、新能源接入、电力物联网的发展，密码技术已深度融入电力系统的发、输、变、配、用、调、管等各个环节，为电力系统的安全稳定运行、数据机密性、完整性和身份真实性提供保障。一、主要应用领域1.网络与通信安全(基础保障)通信加密：对电力调度数据网、广域测量系统、配电自动化系统、用电信息采集系统等关键网络中的通信数据进行加密（如采用IP
ztree设置禁用节点 3213213333332132 JavaScript ztree json setDisabledNode Ajax
ztree设置禁用节点的时候注意，当使用ajax后台请求数据,必须要设置为同步获取数据，否者会获取不到节点对象，导致设置禁用没有效果。 $(function(){ showTree(); setDisabledNode(); });
JVM patch by Taobao bookjovi java HotSpot
在网上无意中看到淘宝提交的hotspot patch，共四个，有意思，记录一下。 7050685：jsdbproc64.sh has a typo in the package name 7058036：FieldsAllocationStyle=2 does not work in 32-bit VM 7060619：C1 should respect inline and
将session存储到数据库中 dcj3sjt126com sql PHP session
CREATE TABLE sessions ( id CHAR(32) NOT NULL, data TEXT, last_accessed TIMESTAMP NOT NULL, PRIMARY KEY (id) ); <?php /** * Created by PhpStorm. * User: michaeldu * Date
Vector 171815164 vector
public Vector<CartProduct> delCart(Vector<CartProduct> cart, String id) { for (int i = 0; i < cart.size(); i++) { if (cart.get(i).getId().equals(id)) { cart.remove(i);
各连接池配置参数比较 g21121 连接池
排版真心费劲，大家凑合看下吧，见谅~ Druid DBCP C3P0 Proxool 数据库用户名称 Username Username User 数据库密码 Password Password Password 驱动名
[简单]mybatis insert语句添加动态字段 53873039oycg mybatis
mysql数据库,id自增,配置如下： <insert id="saveTestTb" useGeneratedKeys="true" keyProperty="id" parameterType=&
struts2拦截器配置云端月影 struts2拦截器
struts2拦截器interceptor的三种配置方法方法1. 普通配置法 <struts> <package name="struts2" extends="struts-default"> &
IE中页面不居中，火狐谷歌等正常 aijuans IE中页面不居中
问题是首页在火狐、谷歌、所有IE中正常显示，列表页的页面在火狐谷歌中正常，在IE6、7、8中都不中，觉得可能那个地方设置的让IE系列都不认识，仔细查看后发现，列表页中没写HTML模板部分没有添加DTD定义，就是<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3
String,int,Integer,char 几个类型常见转换 antonyup_2006 html sql .net
如何将字串 String 转换成整数 int? int i = Integer.valueOf(my_str).intValue(); int i=Integer.parseInt(str); 如何将字串 String 转换成Integer ? Integer integer=Integer.valueOf(str); 如何将整数 int 转换成字串 String ? 1.
PL/SQL的游标类型百合不是茶显示游标(静态游标)隐式游标游标的更新和删除 %rowtype ref游标(动态游标)
游标是oracle中的一个结果集,用于存放查询的结果; PL/SQL中游标的声明; 1,声明游标 2,打开游标(默认是关闭的); 3,提取数据 4,关闭游标注意的要点:游标必须声明在declare中,使用open打开游标,fetch取游标中的数据,close关闭游标隐式游标:主要是对DML数据的操作隐
JUnit4中@AfterClass @BeforeClass @after @before的区别对比 bijian1013 JUnit4 单元测试
一.基础知识 JUnit4使用Java5中的注解（annotation），以下是JUnit4常用的几个annotation： @Before：初始化方法对于每一个测试方法都要执行一次（注意与BeforeClass区别，后者是对于所有方法执行一次）@After：释放资源对于每一个测试方法都要执行一次（注意与AfterClass区别，后者是对于所有方法执行一次
精通Oracle10编程SQL(12)开发包 bijian1013 oracle 数据库 plsql
/* *开发包 *包用于逻辑组合相关的PL/SQL类型（例如TABLE类型和RECORD类型）、PL/SQL项（例如游标和游标变量）和PL/SQL子程序（例如过程和函数） */ --包用于逻辑组合相关的PL/SQL类型、项和子程序，它由包规范和包体两部分组成 --建立包规范：包规范实际是包与应用程序之间的接口，它用于定义包的公用组件，包括常量、变量、游标、过程和函数等 --在包规
【EhCache二】ehcache.xml配置详解 bit1129 ehcache.xml
在ehcache官网上找了多次，终于找到ehcache.xml配置元素和属性的含义说明文档了，这个文档包含在ehcache.xml的注释中！ ehcache.xml ： http://ehcache.org/ehcache.xml ehcache.xsd ： http://ehcache.org/ehcache.xsd ehcache配置文件的根元素是ehcahe ehcac
java.lang.ClassNotFoundException: org.springframework.web.context.ContextLoaderL 白糖_ java eclipse spring tomcat Web
今天学习spring+cxf的时候遇到一个问题：在web.xml中配置了spring的上下文监听器： <listener> <listener-class>org.springframework.web.context.ContextLoaderListener</listener-class> </listener> 随后启动
angular.element boyitech AngularJS AngularJS API angular.element
angular.element 描述: 包裹着一部分DOM element或者是HTML字符串，把它作为一个jQuery元素来处理。（类似于jQuery的选择器啦）如果jQuery被引入了，则angular.element就可以看作是jQuery选择器，选择的对象可以使用jQuery的函数；如果jQuery不可用，angular.e
java-给定两个已排序序列，找出共同的元素。 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class CommonItemInTwoSortedArray { /** * 题目：给定两个已排序序列，找出共同的元素。 * 1.定义两个指针分别指向序列的开始。 * 如果指向的两个元素
sftp 异常，有遇到的吗？求解 Chen.H java jcraft auth jsch jschexception
com.jcraft.jsch.JSchException: Auth cancel at com.jcraft.jsch.Session.connect(Session.java:460) at com.jcraft.jsch.Session.connect(Session.java:154) at cn.vivame.util.ftp.SftpServerAccess.connec
[生物智能与人工智能]神经元中的电化学结构代表什么? comsci 人工智能
我这里做一个大胆的猜想,生物神经网络中的神经元中包含着一些化学和类似电路的结构,这些结构通常用来扮演类似我们在拓扑分析系统中的节点嵌入方程一样,使得我们的神经网络产生智能判断的能力,而这些嵌入到节点中的方程同时也扮演着"经验"的角色.... 我们可以尝试一下...在某些神经
通过LAC和CID获取经纬度信息 dai_lm lac cid
方法1：用浏览器打开http://www.minigps.net/cellsearch.html，然后输入lac和cid信息(mcc和mnc可以填0)，如果数据正确就可以获得相应的经纬度方法2：发送HTTP请求到http://www.open-electronics.org/celltrack/cell.php?hex=0&lac=<lac>&cid=&
JAVA的困难分析 datamachine java
前段时间转了一篇SQL的文章（http://datamachine.iteye.com/blog/1971896），文章不复杂，但思想深刻，就顺便思考了一下java的不足，当砖头丢出来，希望引点和田玉。 -----------------------------------------------------------------------------------------
小学5年级英语单词背诵第二课 dcj3sjt126com english word
money 钱 paper 纸 speak 讲，说 tell 告诉 remember 记得，想起 knock 敲，击，打 question 问题 number 数字，号码 learn 学会，学习 street 街道 carry 搬运，携带 send 发送，邮寄，发射 must 必须 light 灯，光线，轻的 front
linux下面没有tree命令 dcj3sjt126com linux
centos p安装 yum -y install tree mac os安装 brew install tree 首先来看tree的用法 tree 中文解释：tree 功能说明：以树状图列出目录的内容。语　　法：tree [-aACdDfFgilnNpqstux][-I <范本样式>][-P <范本样式
Map迭代方式，Map迭代，Map循环蕃薯耀 Map循环 Map迭代 Map迭代方式
Map迭代方式，Map迭代，Map循环 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年
Spring Cache注解+Redis hanqunfeng spring
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redis</artifactId>
Guava中针对集合的 filter和过滤功能 jackyrong filter
在guava库中，自带了过滤器(filter)的功能，可以用来对collection 进行过滤，先看例子： @Test public void whenFilterWithIterables_thenFiltered() { List<String> names = Lists.newArrayList("John"
学习编程那点事 lampcy 编程 android PHP html5
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
架构师之流处理---------bytebuffer的mark,limit和flip nannan408 ByteBuffer
1.前言。如题，limit其实就是可以读取的字节长度的意思，flip是清空的意思，mark是标记的意思。 2.例子. 例子代码: String str = "helloWorld"; ByteBuffer buff = ByteBuffer.wrap(str.getBytes()); Sy
org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1, column 1 Everyday都不同 $转义 el表达式
最近在做Highcharts的过程中，在写js时，出现了以下异常：严重: Servlet.service() for servlet jsp threw exception org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1,
用Java实现发送邮件到163 tntxia java实现
/* 在java版经常看到有人问如何用javamail发送邮件？如何接收邮件？如何访问多个文件夹等。问题零散，而历史的回复早已经淹没在问题的海洋之中。本人之前所做过一个java项目，其中包含有WebMail功能，当初为用java实现而对javamail摸索了一段时间，总算有点收获。看到论坛中的经常有此方面的问题，因此把我的一些经验帖出来，希望对大家有些帮助。此篇仅介绍用
探索实体类存在的真正意义 java小叶檀 POJO
一. 实体类简述实体类其实就是俗称的POJO,这种类一般不实现特殊框架下的接口，在程序中仅作为数据容器用来持久化存储数据用的 POJO（Plain Old Java Objects）简单的Java对象它的一般格式就是 public class A{ private String id; public Str

python渗透工具编写学习笔记：10、网络爬虫基础/多功能编写

前言

10.1 概念

10.2 调度器/解析器

10.3 存储器/去重器

10.4 日志模块

10.5 反爬模块

10.6 代理模块

你可能感兴趣的:(爬虫,python,学习,网络,笔记,网络安全)