木一SEO

搜素引擎蜘蛛的基本原理与工作流程详解【史上最全版】

搜索引擎用来爬行和访问页面的程序被称为蜘蛛，也叫做机器人。搜索引擎蜘蛛访问网站页面的时候就和你使用浏览器访问的过程一样，蜘蛛发出访问页面的请求，服务器会返回HTML代码，蜘蛛程序把这些代码存到原来页面的数据中，搜索引擎为了提高爬行和抓取的速度，都会使用多个蜘蛛分布爬行。

一、搜素引擎蜘蛛的基本原理

如果说互联网是一个蜘蛛网的话，那么搜索引擎蜘蛛就是在这个网上爬来爬去的蜘蛛。

网络蜘蛛是通过网页的链接地址来寻找网页的，从网站的一个页面（首页）开始，读取网页的内容，找到网页中其他链接地址，通过这些链接地址寻找下一个网页，知道把这个网站所有的网页都找到。

对于搜索引擎来说，要把互联网上所有的页面抓取下来几乎不可能，其中部分原因是技术问题，100亿网页的容量是100*2000G字节，这么多的数据下载需要很多机器下载很长时间才能把所有的网页下面，而且数据量太大，在搜索的时候有效率方面也会受到影响。

所以搜索引擎只对一些重要的网页网页进行抓取，所以有些蜘蛛就对一些不太重要的网站设置了访问层数，所以你的网站如果有三层链接，但是蜘蛛限制访问的层数是两层，那么你第三层的网页便不会被蜘蛛所访问。对于网站设计者来说，扁平化的网站有利于搜索引擎抓取更多的网页。

网络蜘蛛在访问网站网页的时候，经常会遇到加密数据和网页权限的问题，有些网页是需要会员权限才能访问。

当然，网站的所有者可以通过协议让网络蜘蛛不去抓取，但对于一些出售报告的网站，他们希望搜索引擎能搜索到他们的报告，但又不能完全免费的让搜索者查看，这样就需要给网络蜘蛛提供相应的用户名和密码。

网络蜘蛛可以通过所给的权限对这些网页进行网页抓取，从而提供搜索，而当搜索者点击查看该网页的时候，同样需要搜索者提供相应的权限验证。

二、搜素引擎蜘蛛的页面抓取流程

搜索引擎给用户呈现的每一条搜索结果都是对应互联网上的一个页面。每个搜索结果从产生到被搜索引擎呈现给用户都要经过四个步骤：抓取、过滤、建立索引和输出结果。

抓取

百度蜘蛛，是百度搜索引擎的一个计算机程序，专门抓取互联网上的信息。当你的网站出现新增内容时，蜘蛛会通过互联网上某个指向该页面的链接进行访问和抓取，假如你并没有设置任何外部链接指向网站中的新增内容，则蜘蛛是无法对它进行抓取的。对已经抓取过的内容，搜索引擎会对抓取的页面进行记录，并依据这些页面对用户的重要程度安排不同频次的抓取更新工作。

过滤

并非互联网中所有的页面都对用户有价值，例如：一些明显欺骗用户的网页，空白内容页面，死链接等，这种网页对用户、百度、站长来讲，都是没有价值的，因此百度会对其内容进行过滤，避免为用户和你的网站带来不必要的麻烦。

建立索引

百度会对抓取回来的内容进行标记和识别，并讲这些进行存储为结构化数据，百度会将网页中的关键词进行存储和识别，便于用户搜索的内容进行匹配。

输出结果

输入关键词之后，百度会对其进行一系列复杂的分析，并根据分析的结论在索引数据库中查找最匹配的网页，按照用户输入的关键词体现的需求强弱恶和网页的优劣打分，按最终的分数进行排列，呈现给用户。

通用的爬虫框架

爬虫工作基本流程：

1、首先在互联网中选出一部分网页，以这些网页的链接地址作为种子URL
2、将这些种子URL放入待抓取的URL队列中，爬虫从待抓取的URL队列依次读取
3、将URL通过DNS解析
4、把链接地址转换为网站服务器对应的IP地址
5、网页下载器通过网站服务器对网页进行下载
6、下载的网页为网页文档形式
7、对网页文档中的URL进行抽取
8、过滤掉已经抓取的URL
9、对未进行抓取的URL继续循环抓取，直至待抓取URL队列为空。
其中，下载的网页文档一部分存储到页面库中，等待建立索引等后续处理，另一方面将网页中的URL存入已抓取URL库中，提供给步骤8进行过滤。

三、搜素引擎蜘蛛的抓取策略

由于蜘蛛为了能够抓取网上尽量多的页面，它会追踪网页上的简介，从一个页面爬到下一个页面，就好像是蜘蛛在蜘蛛网上爬行那样。整个互联网网站都是相互链接组成的，也就是说，搜索引擎蜘蛛从任何一个页面出发最终都会爬完所有页面。

网站和页面链接结构太过于复杂，所以蜘蛛只有采用一定的方法才能够爬完所有页面，最简单的爬行策略有3种：

1、最佳优先

最佳优先搜索策略按照一定的网页分析算法，预测候选URL与目标网页的相似度，或与主题的相关性，并选取评价最好的一个或几个URL进行抓取，它只访问经过网页分析算法预测为“有用”的网页。

存在的一个问题是，在爬虫抓取路径上的很多相关网页可能被忽略，因为最佳优先策略是一种局部最优搜索算法，因此需要将最佳优先结合具体的应用进行改进，以跳出局部最优点，据马海祥博客的研究发现，这样的闭环调整可以将无关网页数量降低30%~90%。

2、深度优先

深度优先是指蜘蛛沿着发现的链接一直向前爬行，直到前面再也没有其他链接，然后返回到第一个页面，沿着另一个链接再一直往前爬行。

3、广度优先

广度优先是指蜘蛛在一个页面发现多个链接时，不是顺着一个链接一直向前，而是把页面上所有链接都爬一遍，然后再进入第二层页面沿着第二层上发现的链接爬向第三层页面。

从理论上说，无论是深度优先还是广度优先，只要给蜘蛛足够的时间，都能爬完整个互联网。

四、搜索引擎蜘蛛工作中的信息收集

信息收集模块包括“蜘蛛控制”和“网络蜘蛛”两部分，“蜘蛛”这个称呼形象的描述出了信息收集模块在网络数据形成的“Web”上进行信息获取的功能。

总体而言，网络蜘蛛从种子网页出发，通过反复下载网页并从文档中寻找未曾见过的URL，达到访问其他网页得以遍历Web的目的。

而其工作策略一般则可以分为累积式抓取（cumulative crawling）和增量式抓取（incremental crawling）两种。

1、累积式抓取

累积式抓取是指从某一个时间点开始，通过遍历的方式抓取系统所能允许存储和处理的所有网页。在理想的软硬件环境下，经过足够的运行时间，累积式抓取的策略可以保证抓取到相当规模的网页集合。

但在马海祥看来由于Web数据的动态特性，集合中网页的被抓取时间点是不同的，页面被更新的情况也不同，因此累积式抓取到的网页集合事实上并无法与真实环境中的网络数据保持一致。

2、增量式抓取

与累积式抓取不同，增量式抓取是指在具有一定量规模的网络页面集合的基础上，采用更新数据的方式选取已有集合中的过时网页进行抓取，以保证所抓取到的数据与真实网络数据足够接近。

进行增量式抓取的前提是，系统已经抓取了足够数量的网络页面，并具有这些页面被抓取的时间信息。面向实际应用环境的网络蜘蛛设计中，通常既包括累积式抓取，也包括增量式抓取的策略。

累积式抓取一般用于数据集合的整体建立或大规模更新阶段，而增量式抓取则主要针对数据集合的日常维护与即时更新。

在确定了抓取策略之后，如何从充分利用网络带宽，合理确定网页数据更新的时间点就成了网络蜘蛛运行策略中的核心问题。

总体而言，在合理利用软硬件资源进行针对网络数据的即时抓取方面，已经形成了相对比较成熟的技术和实用性解决方案，马海祥觉得在这方面目前所需解决的主要问题是如何更好的处理动态网络数据问题（如数量越来越庞大的Web2.0数据等），以及更好的根据网页质量修正抓取策略的问题。

五、数据库

为了避免重复爬行和抓取网址，搜索引擎会建立一个数据库，记录已被发现还没有抓取的页面和已经被抓取的页面，那么数据库中的URL是怎么来的呢？

1、人工录入种子网站

这个简单的来说，就是我们建好一个新站后，向百度、Google或360提交的网址收录。

2、蜘蛛抓取页面

如果搜索引擎蜘蛛在爬取的过程中，发现了新连接URL，数据库中没有，就会存入待访问数据库（网站观察期）。

蜘蛛按重要性从待访问数据库中提取URL，访问并抓取页面，然后把这个URL从待访问地址库中删除，放进已访问地址库中，所以马海祥建议各位站长在网站观察期的时候尽量有规律的更新网站是必要的。

3、站长提交网站

一般来说，提交网站只是把网站存入待访问数据库，如果网站持久不更新蜘蛛也不会光顾，搜索引擎收录的页面都是蜘蛛自己追踪链接得到的。

所以你提交给搜索引擎其实用处不大，还是要根据后期你网站更新程度来考虑，搜索引擎更喜欢自己沿着链接发现新页面，当然如果说你的SEO技术够老练，并且有这能力，可以试一下，说不定会有意想不到的效果，不过，对于一般在站长来说，马海祥还是建议让蜘蛛自然的爬行和抓取到新站页面。

六、吸引蜘蛛

虽然理论上说蜘蛛可以爬行和抓取所有页面，但实际上是不可能完成的，那么SEO人员想要收录更多的页面就只有想办法引诱蜘蛛抓取。

既然抓不了所有页面，那么我们就要让它抓取重要页面，因为重要页面在索引中起到重要决定，直接影响排名的因素，哪么那些页面算是比较重要的呢？对此，马海祥也特意整理了以下几个我认为比较重要页面，具体有这么几个特点：

1、网站和页面权重

质量高、年龄老的网站被给予很高的权重，这种网站上的页面蜘蛛爬行的深度比较高，所以会有更多的内页被收录。

2、页面更新度

蜘蛛每次爬行都会把页面数据储存起来，如果第二次爬行时发现此页面与第一次收录的内容完全一样，说明页面没有更新，蜘蛛也没必要经常再来爬行和抓取。

如果页面内容经常更新，蜘蛛就会频繁的爬行和抓取，那么，页面上的新链接自然的会被蜘蛛更快的追踪和抓取，这也就是为什么需要每天更新文章。

3、导入链接

无论是外部链接还是同一个网站的内部链接，要被蜘蛛抓取，就必须有导入链接进入页面，否则蜘蛛根本不知道页面的存在。此时的URL链接起着非常重要的作用，内链的重要性发挥出来了。

这也就是为什么大多数站长或SEO都要高质量友情链接，因为蜘蛛从对方网站爬行到你网站之次数多，深度也高。

4、与首页点击距离

一般来说网站首页权重最高，大部分外部链接都指向首页，蜘蛛访问最频繁的也是首页，离首页点击距离越近，页面权重越高，被蜘蛛爬行的机会也就越大。

这也就是为什么要求网站框架建设点击三次就能查看完整个网站的意思。

七、蜘蛛爬行时的复制内容检测

一般都知道在搜索引擎索引环节中中会进行去重处理，其实在蜘蛛爬行的时候已经在进行检测，当蜘蛛爬行和抓取文件时会进行一定程度的复制内容检测，遇到权重低的网站上大量转载或抄袭内容时，很可能不再继续爬行。

所以对于新站来说切莫采集和抄袭，这也就是为什么很多站长查看日志的时候发现了蜘蛛，但是页面从来没有被抓取的原因，因为爬行发现是重复内容那么它讲放弃抓取也就只停留在爬行过的阶段。

二分查找（Java版）爱学Java Java数据结构与算法 java 算法
二分查找算法Java版算法介绍算法复杂度算法思想算法注意事项算法基础版改进版平衡版最左侧查找最右侧查找总结二分查找算法介绍算法复杂度时间复杂度：O(logn)空间复杂度：O(1)算法思想二分查找（BinarySearch）是一种高效的搜索算法，适用于在有序数组或序列中查找目标元素的位置。其核心思想是利用数组的有序性，将查找范围逐步缩小至目标值所在的子范围。1，确定查找范围：在有序数组中，设定两个指
基于MATLAB机器学习、深度学习实践技术应用梦想的初衷~ 机器学习人工智能 matlab 机器学习深度学习
近年来，MATLAB在机器学习和深度学习领域的发展取得了显著成就。其强大的计算能力和灵活的编程环境使其成为科研人员和工程师的首选工具。在无人驾驶汽车、医学影像智能诊疗、ImageNet竞赛等热门领域，MATLAB提供了丰富的算法库和工具箱，极大地推动了人工智能技术的应用和创新。原文链接https://mp.weixin.qq.com/s?__biz=Mzg2NDYxNjMyNA==&mid=224
降维算法：主成分分析一个人在码代码的章鱼数学建模机器学习概率论
主成分分析一种常用的数据分析技术，主要用于数据降维，在众多领域如统计学、机器学习、信号处理等都有广泛应用。主成分分析是一种通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量（即主成分）的方法。这些主成分按照方差从大到小排列，方差越大，包含的原始数据信息越多。通常会选取前几个方差较大的主成分，以达到在尽量保留原始数据信息的前提下降低数据维度的目的。它通过将多个指标转换为少数几个主成分,
【第二天】零基础入门刷题Python-算法篇-数据结构与算法的介绍-五种常见的排序算法（持续更新） Long_poem 排序算法算法 python
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、Python数据结构与算法的详细介绍1.Python中的常用的排序算法1.排序算法的介绍2.五种详细的排序算法代码总结前言提示：这里可以添加本文要记录的大概内容：第一天Python数据结构与算法的详细介绍第二天五种常见的排序算法提示：以下是本篇文章正文内容，下面案例可供参考一、Python数据结构与算法的详细介绍1.P
深度学习学习笔记（第30周） qq_51339898 深度学习人工智能
一、摘要本周报的目的在于汇报第30周的学习成果，本周主要聚焦于基于深度学习的图像分割领域的常用模型U-net。 U-net是最常用、最简单的一种分割模型，在2015年被提出。UNet网络是一种用于图像分割的卷积神经网络，其特点是采用了U型网络结构，因此称为UNet。UNet算法的关键创新是在解码器中引入了跳跃连接（SkipConnections），即将编码器中的特征图与解码器中对应的特征图进行连接
oracle dbms_crypto,Oracle的dbms_obfuscation_toolkit加密解密数据 weixin_39931362 oracle dbms_crypto
oracle从8i开始提供一个数据加密包:dbms_obfuscation_toolkit.利用这个包,我们可以对数据进行DES,TripleDES或者MD5加密.本文就此讲解如何使用以及使用过程需要注意的问题.1.dbms_obfuscation_toolkit简介dbms_obfuscation_toolkit主要有一下几个存储过程:-DESGETKEY--产生密钥,用于DES算法DES3GE
python模拟手写笔迹_原笔迹手写实现平滑和笔锋效果之:笔迹的平滑(一) weixin_39570530 python模拟手写笔迹
之前研究过一种用于模拟真实手写笔迹签名的算法,要求能够保持原笔迹平滑,并有笔锋的效果.在网上看了一些资料,资料很多,能够达到用于正式产品中的效果的一个都没有找到.但是即使按照这篇文章讲的方法去实现手写笔迹,表现的效果也非常的不理想.而且,这篇文章还只是涉及到了笔迹平滑的问题,没有涉及到如何解决笔锋的问题经过我一段时间的研究,终于在上厕所的时候(有没有被duang了一下的感觉,哈哈~O(∩_∩)O)
算法---选择排序独孤--蝴蝶算法排序算法数据结构
选择排序的思路在乱序数组中查找到最小元素（升序），存放到起始位置重复第一步，直到数组有序代码classSolution:defchoose(self,arr):n=len(arr)foriinrange(n-1):min_index=iforjinrange(i+1,n):ifarr[j]
AUTOSAR从入门到精通-自动驾驶测试技术（二）格图素书自动驾驶人工智能数学建模机器学习
目录前言几个高频面试题目自动驾驶汽车到底需要哪些类型的传感器？1、摄像头2、雷达场地测试主要测试内容包括什么？算法原理自动驾驶测试技术发展情况▍自动驾驶汽车测试的必要性自动驾驶汽车测试若干问题自动驾驶汽车测试类型及测试内容是什么？2、自动驾驶测试主要验证目的有什么？3、在环测试是什么，其验证目的分别是什么？4、场地测试主要测试内容包括什么？5、目前汽车上市前需要进行的具体测试项目有哪些？6、自动驾
数据结构与算法再探（五）贪心-双指针-滑动窗口刀客123 数据结构与算法算法
贪心算法贪心算法是一种常用的算法设计策略，旨在通过局部最优选择来构建全局最优解。它的基本思想是：在每一步选择中，都选择当前看起来最优的选项，而不考虑后续的影响。贪心算法通常用于解决最优化问题，尤其是在某些特定条件下能够得到全局最优解的问题1、分发饼干455.分发饼干-力扣（LeetCode）假设你是一位很棒的家长，想要给你的孩子们一些小饼干。但是，每个孩子最多只能给一块饼干。对每个孩子i，都有一个
探索 Python 中的 uuid 模块：生成唯一标识符程序媛幂幂 python 数据库服务器
前言UUID，全称为UniversallyUniqueIdentifier，是一种128位的全局唯一标识符。这个标识符通过一定的算法计算出来，可以保证在一定的空间和时间上的唯一性。在Python中，UUID通常用于生成唯一的标识符，例如数据库表的ID字段、用户账号、订单等。UUID的生成通常基于MAC地址、时间戳、命名空间、随机数或伪随机数等元素，以保证生成ID的唯一性。在Python中，UUID
三轴云台之跟随模式篇 SKYDROID云卓小助手算法网络人工智能计算机视觉深度学习
一、定义与原理定义：跟随模式是三轴云台的一种工作模式，在此模式下，云台能够跟随用户的操作或预设的路径进行平滑的移动和拍摄。原理：跟随模式的实现依赖于云台的传感器、电机控制系统和算法。云台通过内置的传感器感知用户的操作或预设路径，然后通过电机控制系统调整云台的角度和位置，以实现跟随效果。算法则用于优化云台的移动路径和速度，以确保拍摄的稳定性和流畅性。二、功能特点平滑跟随：在跟随模式下，云台能够平滑地
机器算法之逻辑回归(Logistic Regression)详解 HappyAcmen 算法合集算法逻辑回归机器学习
一、什么是逻辑回归？逻辑回归并不是传统意义上的回归分析，而是一种用于处理二分类问题的线性模型。它通过计算样本属于某一类别的概率来进行分类，尽管名字中有“回归”二字，但它实际上是一种分类算法。简单来说，逻辑回归回答的是“这件事发生的可能性有多大”。二、逻辑回归的基本原理在讲原理之前，我们先来了解一下逻辑回归的数学基础。逻辑回归的核心是一个Logistic函数（或称为Sigmoid函数），它的公式如下
解锁辅助驾驶新境界：基于昇腾 AI 异构计算架构 CANN 的应用探秘倔强的石头_ AIGC 人工智能架构
博客主页：倔强的石头的CSDN主页Gitee主页：倔强的石头的gitee主页⏩文章专栏：《AI大模型》期待您的关注目录一、引言二、CANN是什么1.异构计算与人工智能的关系2.CANN的定义和作用3.CANN的技术优势三、基于CANN的辅助驾驶AI应用原理1.目标检测算法2.智能检测流程3.算力平台支持四、基于CANN的辅助驾驶AI优势1.高效训练2.精准检测3.快速编程4.产业应用五、部署实操六
leetcode14. 最长公共前缀 Cider瞳力扣刷题数据结构算法 golang c++面试 leetcode go
leetcode14.最长公共前缀编写一个函数来查找字符串数组中的最长公共前缀。如果不存在公共前缀，返回空字符串“”。最长公共前缀解析题目分析该问题要求找到一组字符串中的最长公共前缀。公共前缀是指在一个字符串集合中，所有字符串都共同拥有的起始子串。算法介绍首先，将第一个字符串作为公共前缀的初始候选。然后，逐个与剩余的字符串进行比较，更新公共前缀。在比较两个字符串时，找到它们共有的最长前缀。算法步骤
C++的STL库介绍及使用（初学者请食用）陌晽叶吖 c++开发语言
C++STL（标准模板库）是C++中提供的一个强大而广泛的库，包含了多种常用的模板类和算法。对于初学者来说，掌握STL的基础是非常重要的，它能大大提高代码的效率和简洁性。下面是适用于C++STL库初学者的使用方法，涵盖了常用的容器、算法和迭代器等基本内容。1.STL容器STL容器是存储数据的类模板，常见的容器包括：Vector（向量）List（链表）Deque（双端队列）Map（映射）Set（集合
多边形扫描线填充算法晓梦OvO 算法 python
1.基本思想按扫描线顺序，计算扫描线与多边形的相交区间，再用要求的颜色显示这些区间的象素，即完成填充工作。对于一条扫描线填充过程可以分为四个步骤：1.求交：计算扫描线与多边形各边的交点；2.排序：把所有交点按x值递增顺序排序；3.配对：第一个与第二个，第三个与第四个等等；每对交点代表扫描线与多边形的一个相交区间，4.着色：把相交区间内的象素置成多边形颜色，把相交区间外的象素置成背景色。2.算法过程
华为OD机试E卷 --羊、狼、农夫过河--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript c语言 python
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码c++算法源码题目描述羊、狼、农夫都在岸边，当羊的数量小于狼的数量时，狼会攻击羊，农夫则会损失羊。农夫有一艘容量固定的船，能够承载固定数量的动物。要求求出不损失羊情况下将全部羊和狼运到对岸需要的最小次数。只计算农夫去对岸的次数，回程时农夫不会运送羊和狼。备注:农夫在或农夫离开后羊的数量大于狼的数量
华为OD机试E卷 --手机App防沉迷系统--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript python c语言
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码c++算法源码题目描述智能手机方便了我们生活的同时，也侵占了我们不少的时间。“手机App防沉迷系统”能够让我们每天合理地规划手机App使用时间，在正确的时间做正确的事。它的大概原理是这样的：在一天24小时内，可以注册每个App的允许使用时段一个时间段只能使用一个AppApp有优先级，数值越高，优先
农夫过河——python贪心算法实现贝桑不止学Python
1.问题描述：一个农夫在河的西岸带了一匹狼、一只羊和一棵白菜，他需要把这三样东西用船带到河的东岸。然而，这艘船只能容下农夫本人和另外一样东西。如果农夫不在场的话，狼会吃掉羊，羊也会吃掉白菜。2.问题分析：由于整个过程涉及四个对象，多个步骤，而各个步骤中各个对象所处位置相对不同，因此可以定义一个二维数组，分别存储对象及初始状态——initial_state[0][0]，[1][0]，[1][1]，[
安装栅栏-算法晚夜微雨问海棠呀算法 scala
给定一个数组trees，其中trees[i]=[xi,yi]表示树在花园中的位置。你被要求用最短长度的绳子把整个花园围起来，因为绳子很贵。只有把所有的树都围起来，花园才围得很好。返回恰好位于围栏周边的树木的坐标。输入:points=[[1,1],[2,2],[2,0],[2,4],[3,3],[4,2]]输出:[[1,1],[2,0],[3,3],[2,4],[4,2]]importscala.c
[前端算法]动态规划摇光93 算法算法动态规划
最优子结构,重叠子问题爬楼梯递归+记忆化搜索自顶向下varclimbStairs=function(n){letmap=[]functiondfs(n){if(n=coins[j]){dp[i]=Math.min(dp[i],dp[i-coins[j]]+1);}}}if(dp[amount]===Infinity){return-1;}returndp[amount];}01背包问题functi
改进yolov8工业缺陷检测+swin+transformer qq1309399183 计算机视觉实战项目集合 YOLO transformer 深度学习人工智能计算机视觉机器学习神经网络
使用NEU-DET数据集进行缺陷检测的YOLOv8改进模型应用详解在现代工业生产过程中，质量控制是至关重要的一个环节。随着机器视觉技术和人工智能算法的发展，基于深度学习的方法已经成为自动化缺陷检测的重要工具。本篇将介绍一种基于NEU-DET数据集，利用YOLOv8及其改进版本（包含坐标注意力机制和SwinTransformer）进行缺陷检测的应用开发过程。我们将详细探讨从数据准备到模型训练，再到最
《贪心算法：原理剖析与典型例题精解》 m0_dawn 算法贪心算法算法蓝桥杯 python 职场和发展
必刷的贪心算法典型例题！算法竞赛（蓝桥杯）贪心算法1——数塔问题-CSDN博客算法竞赛（蓝桥杯）贪心算法2——需要安排几位师傅加工零件-CSDN博客算法（蓝桥杯）贪心算法3——二维数组排序与贪心算法——活动选择-CSDN博客算法（蓝桥杯）贪心算法4——拦截导弹的系统数量求解-CSDN博客算法（蓝桥杯）贪心算法5——删数问题的解题思路-CSDN博客算法（蓝桥杯）贪心算法6——均分纸牌问题的解题思路与
《递归算法：原理剖析与典型例题精解》 m0_dawn 算法数据结构蓝桥杯学习职场和发展
目录一、递归算法概述二、递归的时间复杂度三、递归与循环的区别（一）结构与实现方式（二）适用场景四、递归的优点（一）代码简洁易读（二）逻辑清晰直观（三）易于扩展和修改五、递归的缺点（一）空间复杂度高（二）效率低下（未优化时）（三）难以理解（复杂递归）六、循环的优点（一）空间复杂度低（二）效率高（简单迭代）（三）易于调试七、循环的缺点（一）代码复杂度高（复杂逻辑）（二）逻辑不够直观（三）难以扩展和修改
算法随笔_12:最短无序子数组程序趣谈算法
上一篇:算法随笔_11:字符串的排列-CSDN博客题目描述如下:给你一个整数数组nums，你需要找出一个连续子数组，如果对这个子数组进行升序排序，那么整个数组都会变为升序排序。请你找出符合题意的最短子数组，并输出它的长度。示例1：输入：nums=[2,6,4,8,10,9,15]输出：5解释：你只需要对[6,4,8,10,9]进行升序排序，那么整个表都会变为升序排序。===============
【2024年华为OD机试】(C/D卷,200分)- 5G网络建设（JavaScript&Java & Python&C/C++）妄北y 算法汇集笔记总结(保姆级)华为od c语言 5G python javascript java 网络
一、问题描述题目描述现需要在某城市进行5G网络建设，已经选取N个地点设置5G基站，编号固定为1到N。接下来需要各个基站之间使用光纤进行连接以确保基站能互联互通。不同基站之间假设光纤的成本各不相同，且有些节点之间已经存在光纤相连。请你设计算法，计算出能联通这些基站的最小成本是多少。注意：基站的联通具有传递性，比如基站A与基站B架设了光纤，基站B与基站C也架设了光纤，则基站A与基站C视为可以互相联通。
贪心与动规（动态规划） programming expert 动态规划算法
1.贪心与动规的区别贪心算法和动态规划的主要区别在于它们解决问题的方式、能否保证得到最优解以及算法复杂度‌。‌解决问题的方式‌：贪心算法：在每一步选择中都采取当前状态下最优的选择，从而希望导致结果是全局最优的。它通常不考虑未来后果，只关注当前的最优解‌。动态规划：将原问题分解为子问题，通过解决子问题，并将子问题的解存储下来（通常是存储在一个表格中），在解决原问题时利用这些子问题的解。它通常以自底向
改进yolov8缺陷检测+swin+transformer QQ_1309399183 计算机视觉实战项目集锦 YOLO transformer 深度学习人工智能计算机视觉 opencv 机器学习
使用NEU-DET数据集进行缺陷检测的YOLOv8改进模型应用详解在现代工业生产过程中，质量控制是至关重要的一个环节。随着机器视觉技术和人工智能算法的发展，基于深度学习的方法已经成为自动化缺陷检测的重要工具。本篇将介绍一种基于NEU-DET数据集，利用YOLOv8及其改进版本（包含坐标注意力机制和SwinTransformer）进行缺陷检测的应用开发过程。我们将详细探讨从数据准备到模型训练，再到最
（贪心）快速过河问题——算法笔记 JeffyGao C++算法笔记
首先对数组进行排序，速度快的在前面(过河速度取决于慢者)。记速度最快的依次为a,b,c,d...左侧是渡河的起点，left表示左边剩余人数由数学知：当2*b不等于a+c时需要判断min(s1,s2)s1,s2表示把cd带走所需的秒数。12出发，1返回；34出发，2返回；12过去s1=speed[1]+speed[0]+speed[left-1]+speed[1];13出发，1返回；14出发，1返回
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出