weixin_37988176

python爬虫入门代码-Python爬虫入门

原标题：python爬虫入门

基础知识

HTTP协议

我们浏览网页的浏览器和手机应用客户端与服务器通信几乎都是基于HTTP协议，而爬虫可以看作是一个另类的客户端，它把自己伪装成浏览器或者手机应用客户端，按照自己的逻辑贪婪的向服务器索取数据，如何向服务器索取数据，所以了解HTTP协议就显得很有必要了。

HTTP协议中文名称是超文本传输协议，是一个基于请求与响应模式的、无状态的、应用层的协议，常基于TCP的连接方式。请求和响应模式很好理解，客户端发送请求，服务器响应客户端的请求，就像学校食堂打菜一样，你和打菜阿姨说要哪份菜，她才会给你盛哪份菜。

无状态是指协议对于事务处理没有记忆能力。缺少状态意味着如果后续处理需要前面的信息，则它必须重传，这样可能导致每次连接传送的数据量增大。另一方面，在服务器不需要先前信息时它的应答就较快。形象点说，可以把服务器看成是没有记忆的大学食堂打饭打菜，在每次请求中，阿姨并不知道你之前有没有打过菜，也不知道你是不是合法的学生，所以你只能一边举着学生证一边和阿姨说我要这个菜，阿姨看到你的学生证后才会给你打菜，而这个学生证就是你每次需要重传的数据信息。

当我们在浏览器地址栏中输入http://www.bilibili.com 并敲入回车后，浏览器会构造HTTP请求发送到服务器，在收到服务器的HTTP响应后，浏览器会解析页面，继续向服务器请求图片、视频、js脚本等数据，直到页面加载完成，最终展示给我们的就是B站主页了。这是我用Fiddler抓的包，展示的是HTTP最原生的面貌，接下来我就根据这张图具体的讲解HTTP协议，以及写爬虫需要关注的一些点。

HTTP请求由三部分组成，分别是: 请求行、消息报头、请求正文。在接收和解释请求消息后，服务器返回一个HTTP响应消息，HTTP响应也是由三个部分组成，分别是：状态行、消息报头、响应正文。

HTTP方法

HTTP请求的请求行以一个方法符号开头，以空格分开，后面跟着请求的URI和协议的版本。请求方法都是大写，有很多种，常见的有GET POST DELETE PUT，各种方法之间的区别不大。

这里罗列了一些常用的方法，一般来讲，GET表示向服务器请求URI对应的资源，POST表示向服务器提交数据，DELETE表示删除数据，PUT表示修改数据。但这都是一种约定，没有强制的要求，如果你碰见用DELETE方法提交数据也没必要大惊小怪。在实际写爬虫的过程中，我们只需要按照抓包请求构造数据即可，没有必要在意用了什么方法。

报头字段

重点讲解几个写爬虫需要关注的字段

User-Agent 出现在请求报头中，表示客户端的操作系统、浏览器型号版本等信息。服务器可以根据此报头向客户端返回不同的页面以适应客户端。有些网站（知乎）会校验此报头，不填写或者不主流的报头都不能拿到正常的页面。因此自己在写爬虫的时候最好将从浏览器中拷贝到代码中。Cookie 出现在请求抱头中，前面我们说过HTTP是基于请求与响应模式并且无状态的协议，之前举了打菜阿姨的例子，Cookie就相当于每次请求中的学生证，它可以记录用户的身份信息。当我们自己写爬虫的时候，如果需要登陆，并且登陆又有验证码或者短信验证时，最简单的方法就是从浏览器中把cookie拷贝到爬虫中，就可以骗过服务器了。Set-Cookie 出现在响应抱头中，让客户端更新页面关联的Cookie，还是拿食堂阿姨的例子，如果你的响应报头有这个字段，意思就是阿姨重新给你了一个学生证，下次打饭你得用最新的学生证，原来的学生证不好使。如果你在模拟浏览器或者客户端登陆，需要将此报头更新已有的Cookie，不过Scrapy和requests都可以自动更新，因此不需要你再手动设置。Content-Type 标明请求正文或者响应正文的格式，客户端或者服务器会根据此字段选择合适的方式解析正文内容，以下是一些常见的值

Content-Length 标明请求正文或者响应正文的长度，在使用requests构造请求的时候，我们不需要显式的加上此字段，requests会根据请求正文自动计算添加。Content-Encoding 在某些情况下，正文会讲过压缩后传输，此字段会指明压缩的类型（gzip和压缩参数）Transfer-Encoding 如果正文内容过长，HTTP协议允许将此字段设置为chunked，然后分块传输响应正文Connection 在HTTP1.1之前的版本，不支持持久连接，所谓的持久链接意思就是：HTTP协议一般通过TCP协议实现，客户端和服务器经过TCP三次握手建立连接，在请求和响应结束之后，此连接继续保持，当之后还有请求的时候，就不需要重新通过三次握手再建立连接，这样可以极大的降低客户端和服务器的IO负载。

在自己写爬虫的时候，我们可以根据浏览器的抓包数据有选择的添加一些请求报头，其实大部分情况下都可以直接使用浏览器中的请求头，为了避免不必要的麻烦，尽可能像的模仿浏览器总是没有错的。

响应码

响应消息的第一行的状态行包括HTTP的协议版本、状态码、状态码含义。按照约定

2xx表示请求成功3xx表示重定向4xx表示客户端错误（403 Forbiden 404 Not Found）5xx表示服务器错误（502 网关错误）

更多HTTP参考：

阮一峰HTTP权威指南

爬虫开发

一般来说开发爬虫的过程是这样的

抓包分析获取数据的URL通过python从上一步的URL获取数据从上一步获取的HTML页面或者JSON数据中解析出感兴趣的数据存储数据

下面就讲解这四个关键点

抓包发包工具

写爬虫的第一步就是分析想要的数据浏览器是通过什么URL拿到的，抓包也就在所难免。最好用的抓包工具当然是谷歌浏览器了，右键检查，选中网络，重新刷新页面就可以看到加载此网页所有的HTTP请求了，如果此链接有跳转地址，跳转之前的HTTP请求会被清掉，所以记得选上preserve log，尤其是登陆的时候，一般都会有跳转。

再介绍另外两个HTTP抓包工具——Fiddler和Charles，分别在windows和macos使用。它们可以为我们展示更多HTTP的细节，将请求和响应都调至Raw模式下，我们就可以一睹HTTP请求和响应的真实面貌。

通过抓包分析出具体的URL后，想进一步确认自己构造的参数和报头能否正确获取到数据，应该怎么做呢？不怕，postman可以帮你，你可以很轻松的选择方法，定义header，添加各种类型的body。

python请求数据

讲完了基本的HTTP协议知识后，大家可能会疑问那我该如何模仿浏览器或者手机客户端去向服务器发送HTTP请求呢？python的原生库urllib、第三方库requests、pycurl等都支持HTTP协议，既然有这么多工具可以用，大家可能就又有疑问该选择哪个工具了。在此我特地安利大家用一下requests，它让爬虫变得如此简单，让你再也不用为字符编码、重定向、cookie、响应解压缩烦恼了。如果你坚持用原生的库，那么有以下问题需要你一一解决，这些都是当年自己趟过的坑，绝非危言耸听。

需要自己判断服务器返回数据的编码格式，如果这个地方你不能正确判断，那恭喜你之后的每一步，你都必须面对乱码的问题重定向，urllib不能自动判断重定向，需要自己解析重定向的链接并重新请求如果模拟登陆，你必须要手动保证Cookie正确更新和发送很多情况下响应正文是压缩过的，需要做解压处理对于比较长的响应正文，服务器会将正文分段传输，所以还需要你做拼接操作原生的urllib对HTTPS和持久连接都支持不好

当你花了一整天，写了好几百行的代码终于解决上面的问题后，而你旁边的同事可能早已经把数据下载完并愉快的约妹子去了。所以用requests吧，兄弟们用了都说好。下面我用两个例子讲解一下如何用requests获取想要的数据，并教你如何解决这些问题：

如何发送不同方法的请求如何保存cookie如何添加代理如何处理编码问题

B站

假如我想下载B站里面某位小姐姐所有上传的视频，应该怎么办呢？首先你需要找到这位小姐姐的视频主页

但是通过谷歌浏览器右键查看页面源码，没有从html中找到这些视频的播放信息，唯一的可能就是视频数据是通过js脚本调用服务器获取，然后生成的这张页面。爬虫小白可能会疑问，难道我需要像浏览器一样分析js脚本，然后模拟js执行吗？其实不用这么复杂，只需要简单的分析抓包结构，就可以找到请求URL了。

获取视频的URL： http://space.bilibili.com/ajax/member/getSubmitVideos?mid=79415852&pagesize=30&tid=0&page=1&keyword=&order=senddate

那么问题又来了，这个URL的其他参数是干啥的呢？凭经验，mid肯定是这位小姐姐的用户id，page和pagesize是负责分页用的，keyword和是用来搜索的关键字，order是排序选项，剩下的tid是干啥的呢？其实写爬虫很多时候都会遇到这种问题，不知道某个参数的含义，也不确定正确的取值范围，需要一些尝试和运气，这里我们不管它就好。而返回的字段中有一个aid，那肯定是视频的id，有这个就可以自己拼接出播放链接了。

是不是很简单，通过response.ok查看请求是否正确返回，因为此接口的数据为json格式，直接通过response.json()就可以直接拿到格式化的数据。

知乎

虽然现在知乎对未登录用户展示的内容越来越多，但是仍会有一些限制，用爬虫模拟登陆可以之后再去爬取数据，可以避免很多不必要的麻烦，现在就讲一讲如何用requests模拟用户登陆。

还是和之前一样，在登陆页面打开谷歌浏览器的抓包窗口，输入用户名和密码点击确定，然后在茫茫请求中找到发送登陆信息的那个HTTP请求即可，功夫不负有心人，我们终于找到了登陆的请求。

等等，请求里面还有一个_xsrf，这是一个什么鬼参数，其实呢这是一个防止跨站请求伪造而生成的一个随机数，可以通过解析https://www.zhihu.com/#signin 页面获取，这一部分我在下面会讲解如何HTML获取数据，现在假设我们已经拿到这个数据了，如何将用户名和密码登陆呢？

如果我们想要自动保存Cookie信息，只需要生成一个Session对象，之后所有的请求通过此对象完成，requests会像浏览器一样自动更新cookie信息，并在每次请求的时候加上cookie，因此在成功的发送post登陆请求之后，就可以用session在保持登陆状态请求数据了。需要注意的是在请求的时候我特意去掉了Cookie和Content-Length报头，因为requests会自动加上，所以不需要我们特意关注。

更多关于requests的使用可以查看官方文档：

python解析数据

因为个人在解析数据的时候遇到过很多编码的坑，所以在继续讲解之前告诉大家一些如何避免编码问题的方法。python2中有两种字符串：unicode和str，它们分别对应python3中的str和bytes。如何定义这两种类型的变量在下图中给大家列出来了。

以python3为例讲解这两种类型的区别。python3中的str每一个字符可以存储一个英文字母、一个汉字甚至一个emoji表情，它可以通过特定的编码方式，例如utf-8或者gbk生成bytes，在不同的编码格式下，可能需要2-3个字符常能表示一个汉字。bytes可以指定解码格式解码生成str，如果指定的解码格式不匹配，就会导致乱码问题。为了避免乱码问题，最好的方式就是使用str，等到需要写入文件或者数据库的时候，再指定写入的编码格式，用好这个准则，我们可以避免百分之九十的编码问题。

HTTP响应的数据格式有很多，例如文本、json、html，对应的解析方式也很多。通用一点，用python内置库正则匹配找到想要的数据，但是这种方法相对来说比较麻烦，而且不好维护，比较适合文本类型的数据，但HTTP响应正文基本都是json和HTML，这种方式适用面比较窄。

当请求的数据是json格式时，我们可以很方便的用requests反序列化返回内容，取出感兴趣的数据。但是当HTTP返回的数据是html的时候，我们该如何操作，就像刚才知乎登陆的例子中，如何快速从html中解析想要的数据呢？

专门用来解析html的第三方库有很多，例如beautifulsoup、pyquery。个人推荐使用pyquery，因为它可以使用jquery的方式选取元素，而且支持xpath，以后上手scrapy会很容易。继续上面登陆知乎的例子，登陆时需要的_xsrf实际上在 https://www.zhihu.com/#signin 页面里面，只要先请求到这个页面，然后解析出_xsrf，配合之前的登陆请求，我们就可以完整的实现用python模拟浏览器登陆知乎了。

使用起来是不是相当的简单，我们只要通过谷歌浏览器找到对应DOM元素，根据属性名就可以非常快速的找到想要的数据。需要注意的是response.content和response.text，这都是返回的body正文，但是前者是bytes，后者是str，requests已经帮助我们把响应正文按照正确的编码格式进行了解码，根据我们之前的阐述的原则，尽量使用str，所以26这个地方我用的是response.text。

更多关于pyquery的使用可以参考官方文档： https://pythonhosted.org/pyquery/

存储数据

根据数据量的不同以及数据类型的不同，数据的存储选择也很多。如果爬取的是图片、音频、视频等多媒体文件，直接按照文件形式存储就好了。如果是一些文本，数字等数据，一般有这么几种选择：

输出到屏幕写入文件（txt csv）写入数据库（mysql sqlite mongo）

如果数据量非常小，可以选择直接输出到屏幕（这种情况貌似也不需要爬虫），因为终端存储的数据量很少，而且因为没有持久化，关闭窗口就意味着数据丢失，不建议使用。

在数据量小且不愿意折腾数据库的情况下，可以把爬取的数据写入文件，但是这种情况不能随取随用，也不方便做数据分析，需要手动处理。

当数据量较多，而且需要快捷的分析数据，推荐使用数据库存储数据，大型的数据库mysql, mongo功能齐全，可以分方便的进行数据分析，而且也很容易实现分布式扩展，当你需要多进程甚至多机器运行爬虫的时候，这些数据库可能是最好的选择。sqlite相对来说功能要少很多，python原生支持，依赖少，数据量不算太大的情况下可以考虑使用。

因为这部分内容太多太深，感兴趣的童鞋如果想深入了解一些，这里列出一些文档供大家参考：

爬虫示例

下面给出一个简单的例子，为大家展示如何使用上述python库实现一个完整的爬虫。一些热门的知乎话题最多有1000条精华回答，这个例子就是爬取这些精品答案。图示页面就是回答列表，每页有二十个答案，最多有五十页。但是此页面没有完整的回答信息，需要通过显示全部对应的链接进入回答详情页才能获取完整的答案，所以我们的爬虫策略就是通过回答列表找到所有精华回答链接，再通过回答链接获取内容。而且这些页面不需要登陆也能访问，因此可以省去模拟登陆。

开发环境

python是跨平台语言，但不同平台不同版本的python略微有一些差异，考虑到大家使用windows平台的较多，我在windows和ubuntu的python3.5验证过此代码，其他平台和其他python版本下可能需要做一些修改。集成开发环境推荐使用Pycharm，这是一个跨平台良心IDE，各大操作系统下都有免费的社区版本可以下载。

运行代码

代码链接

安装依赖库：

pipinstall requests pyquery SQLAlchemy

运行代码：

pythonscrawl.py

代码解释

通过谷歌浏览器抓包分析，可以通过 https://www.zhihu.com/topic/19553155/top-answers?page=2页面获取每个话题不同分页下的回答链接 https://www.zhihu.com/question/27189372/answer/38712987，在此页面中就可以获取问题、回答、点赞数、标签等信息。

因为数据量不大，采用sqlite存储，可以很方便的用命令行或者桌面客户端查看数据。

反爬虫策略和应对方式

稍微大一些的网站都会有一些反爬虫策略，简单一点的根据User-Agent过滤，例如知乎，我们只需要设置为和浏览器相同即可。复杂一点的会限制非登陆用户，也只需要按照之前例子中的方式登陆，或者干脆先用浏览器登陆好，然后在第一次访问的时候带上浏览器中的cookie就好，实现起来难度不大。但是有不少网站，例如豆瓣和github，在检测到某一客户端频繁访问后，会直接封锁ip，这个问题解决起来就相当的棘手和蛋疼了。

解决方法也挺简单，我们只需要找到足够多的代理ip就可以了，只要策略得当，短时间内不要过度频繁的使用同一ip代码，或者当某一ip地址被封锁后马上切换到其他的ip代理，这样就可以保证高效的爬取数据了。那如何找到代理ip并且如何使用了，其实免费的代理ip很多，我们用百度搜索代理ip就可以找到很多网站，例如：http://www.ip181.com/。

找到代理ip后，就可以用上面的方式很轻松的使用代理ip了，但是网上免费的代理ip质量不好，很多不可用，而且速度慢、不稳定，请求的时候最好设置一下超时时间。我之前在爬github的时候，会专门写一个爬虫从这些网站搜集代理ip地址，一旦检测到被github封锁，就随机选取一个代理ip使用，如果发现代理ip不可用，不断的更换知道可用的代理ip为止，每个代理ip使用的次数也会有一定的限制，保证爬虫在整个执行期间不会因为ip封锁而不可用。

异常及性能

曾经我遇到过这样的状态，写好并运行爬虫一个小时之后，因为网络抖动或者某一种特殊的页面导致解析失败，整个爬虫运行终止，这就蛋疼了。如果日志打印不充分，我连运行失败的原因都清楚，更别说修复问题，即使修复好重新运行，又要花一个小时才能到刚才的进度，费时费力。

爬虫出现异常的情况实在是太多：网络抖动、解析页面失败、反爬虫被屏蔽、写入数据异常、代码逻辑错误等等都会导致进程终止，而一般爬虫需要数小时甚至数天数周的运行，每一次的运行失败都是时间巨大的浪费。因此一定需要在可能出现异常的地方接住异常，保证爬虫不会终止，并记录日志，这些错误日志不仅可以快速的帮助我们定位错误，在出错不多的情况下，我们甚至不需要修改代码重新运行，只需要人肉补全这些数据就好。

如果发现自己的爬虫运行效率太低，爬取速度太慢，并发对于提升爬虫速度是一个不错解决方案，因为GIL的存在，多进程并发模式对于python提速更优，我们可以使用生产者消费者的模式将爬虫任务进行拆分，从而实现多进程或者分布式。一般来说可以将HTTP请求的数据、解析数据、存储数据分别用不同的进程实现，这些进程之间通过消息队列进行通信，保证每个进程无状态，就可以非常容易的实现多进程扩展。即使某一类进程出现异常，也不需要重新启动所有的进程，只需要修复好代码重新启动，就可以实现断点续爬了。

一些常用的分布式工具：redis、rabbitmq、scrapy、celery、you-get

爬虫这件小事

「爬虫」的采集行动

总结：常用的 Python 爬虫技巧

一文看懂爬虫

定向爬虫及网页结构解析

End.

转载请注明来自36大数据（36dsj.com)：36大数据» python爬虫入门返回搜狐，查看更多

责任编辑：

guava loadingCache代码示例 IM 胡鹏飞 Java 工具类介绍
publicclassTest2{publicstaticvoidmain(String[]args)throwsException{LoadingCachecache=CacheBuilder.newBuilder()//设置并发级别为8，并发级别是指可以同时写缓存的线程数.concurrencyLevel(8)//设置缓存容器的初始容量为10.initialCapacity(10)//设置缓存
C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
WHQL签名怎么申请 GDCA SSL证书 windows
WHQL（WindowsHardwareQualityLabs）签名是微软对硬件和驱动程序进行认证的一种方式，以确保它们与Windows操作系统的兼容性和稳定性。以下是申请WHQL签名的基本步骤，供您参考：1.准备阶段准备硬件设备和驱动程序：确保您的硬件设备已经准备好，并且对应的驱动程序已经经过充分的测试，能够在各种配置和环境下正常工作。获取EV代码签名证书：根据微软的要求，驱动程序进行WHQL认
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
【LeetCode 热题 100】24. 两两交换链表中的节点——（解法一）迭代+哨兵 xumistore LeetCode leetcode 链表算法 java
Problem:24.两两交换链表中的节点题目：给你一个链表，两两交换其中相邻的节点，并返回交换后链表的头节点。你必须在不修改节点内部的值的情况下完成本题（即，只能进行节点交换）。文章目录整体思路完整代码时空复杂度时间复杂度：O(N)空间复杂度：O(1)整体思路这段代码旨在解决一个经典的链表操作问题：两两交换链表中的节点(SwapNodesinPairs)。问题要求将链表中每两个相邻的节点进行交换
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
LeetCode 148. 排序链表：归并排序的细节解析进击的小白菜 2025 Top100 详解 leetcode 链表算法
文章目录题目描述一、方法思路：归并排序的核心步骤二、关键实现细节：快慢指针分割链表1.快慢指针的初始化问题2.为什么选择`fast=head.next`？示例1：链表长度为偶数（`1->2->3->4`）三、完整代码实现四、复杂度分析五、总结题目描述LeetCode148题要求对链表进行排序，时间复杂度需为O(nlogn)，且空间复杂度为O(logn)。由于链表的特殊结构（无法随机访问），归并排序
前端项目架构设计要领
1.架构设计的核心目标在设计前端项目架构时，核心目标是模块化、可维护、可扩展、可测试，以及开发效率的最大化。这些目标可以通过以下几个方面来实现：组件化：将UI功能封装为可复用的组件。模块化：将业务逻辑分解为独立的模块或服务。自动化构建与部署：实现自动化构建、测试和部署流程，减少人为操作的错误。代码规范化与检查：确保团队协作时，代码风格和质量一致。2.项目目录结构设计一个清晰合理的目录结构对大型项目
精通Canvas：15款时钟特效代码实现指南烟幕缭绕
本文还有配套的精品资源，点击获取简介：HTML5的Canvas是一个用于绘制矢量图形的API，通过JavaScript实现动态效果。本项目集合了15种不同的时钟特效代码，帮助开发者通过学习绘制圆形、线条、时间更新、旋转、颜色样式设置及动画效果等概念，深化对Canvas的理解和应用。项目中的CSS文件负责时钟的样式设定，而JS文件则包含实现各种特效的逻辑，通过不同的函数或类处理时间更新和动画绘制，提
嵌入式系统LCD显示模块编程实践
本文还有配套的精品资源，点击获取简介：本文档提供了一个具有800x480分辨率的3.5英寸液晶显示模块LW350AC9001的驱动程序代码，以及嵌入式系统中使用C/C++语言进行硬件编程的实践指南。该模块的2mm厚度使其适用于空间受限的便携式设备。内容包括驱动程序源代码、硬件控制接口使用方法，以及如何在嵌入式系统中进行图形处理、电源管理与性能优化。1.嵌入式系统原理1.1嵌入式系统概念嵌入式系统是
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
2025代码块种类以及作用 2501_92758067 intellij-idea phpstorm idea jupyter
https://www.bilibili.com/opus/1088624478422827030https://www.bilibili.com/opus/1088624529930977287https://t.bilibili.com/1088633635294150662https://www.bilibili.com/opus/1088633635294150662https://t.b
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
Leetcode 3604. Minimum Time to Reach Destination in Directed Graph Espresso Macchiato leetcode笔记 leetcode 3604 leetcode medium leetcode双周赛160 BFS 广度优先遍历最优路径
Leetcode3604.MinimumTimetoReachDestinationinDirectedGraph1.解题思路2.代码实现题目链接：3604.MinimumTimetoReachDestinationinDirectedGraph1.解题思路这一题思路上就是一个广度优先遍历，我们不断考察当前时间点以及位置的情况下，下一个点可行的位置，然后考察最近的时间点能够到达的位置，遍历全部可能
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
Vue3+Vite+TS+Axios整合详细教程老马聊技术 Vue Vite TS vue.js
1.Vite简介Vite是新一代的前端构建工具，在尤雨溪开发Vue3.0的时候诞生。类似于Webpack+Webpack-dev-server。其主要利用浏览器ESM特性导入组织代码，在服务器端按需编译返回，完全跳过了打包这个概念，服务器随起随用。生产中利用Rollup作为打包工具，号称下一代的前端构建工具。vite是一种新型的前端构建工具，能够显著的提升前端开发者的体验。它主要有俩部分组成：一个
kube-scheduler 抢占机制分享放大价值 kubernetes源码分析 kubernetes kube-scheduler 抢占
当pod调度失败后，会在PostFilter扩展点执行抢占流程，下面分析相关的代码实现抢占接口//PodNominatorabstractsoperationstomaintainnominatedPods.typePodNominatorinterface{//将pod加入抢占成功的node中AddNominatedPod(pod*PodInfo,nodeNamestring)//将pod从no
日历插件-FullCalendar的详细使用老马聊技术 JavaScript 前端 javascript
一、介绍FullCalendar是一个功能强大、高度可定制的JavaScript日历组件，用于在网页中显示和管理日历事件。它支持多种视图（月、周、日等），可以轻松集成各种框架，并提供丰富的事件处理功能。二、实操案例具体代码如下：FullCalendar日期选择body{font-family:Arial,sans-serif;margin:20px;}#calendar{max-width:900
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
RocketMQ 核心特性实战详解愤怒的代码 RocketMQ实战 rocketmq
RocketMQ核心特性实战详解本文基于RocketMQ4.x+rocketmq-spring-boot-starter2.3.1，从零搭建，逐步讲解RocketMQ11大核心特性，每一段代码都能直接跑。0.项目环境准备依赖引入在pom.xml文件添加：org.apache.rocketmqrocketmq-spring-boot-starter2.3.1配置文件application.ymlse
Java 调用 HTTP 接口的 7 种方式：全网最全指南
Java调用HTTP接口的7种方式：全网最全指南在开发过程中，调用HTTP接口是最常见的需求之一。本文将详细介绍Java中7种主流的调用HTTP接口的方式，包括每种工具的优缺点和完整代码实现。1.使用RestTemplateRestTemplate是Spring提供的同步HTTP客户端，适用于传统项目。尽管从Spring5开始被标记为过时，它仍然是许多开发者的首选。示例代码importorg.sp
C#接口实现详解：从理论到实践，掌握面向对象编程的核心技巧钢铁男儿 C#图解教程 c#java 前端
在C#的世界里，接口是实现多态性和解耦设计的利器接口实现的核心规则实现主体限制只有类和结构体（struct）能实现接口。接口本身不包含实现代码，而是定义一组必须由实现类提供的成员契约。双重实现要求声明关联：在类/结构体的基类列表中明确包含接口名称classMyClass:IMyInterface//接口声明在冒号后成员实现：为接口声明的每个成员提供具体的实现代码，包括匹配的方法签名、属性和返回值类
【Linux内核模块】Linux内核模块程序结构 byte轻骑兵 #嵌入式Linux驱动开发实战 linux 运维服务器
如果你已经写过第一个"HelloWorld"内核模块，可能会好奇：为什么那个几行代码的程序能被内核识别？那些module_init、MODULE_LICENSE到底是什么意思？今天咱们就来扒一扒内核模块的程序结构，搞清楚一个合格的内核模块到底由哪些部分组成，每个部分又承担着什么角色。目录一、内核模块的"骨架"：最简化结构解析二、头文件：内核模块的"说明书"2.1最常用的三个头文件2.2按需添加的其
AIGC工具与软件开发流程的深度集成方案 Irene-HQ 软件开发测试 AIGC 测试工具 github AIGC 程序人生面试
一、代码开发环节集成路径‌环境配置标准化‌安装AIGC工具包并配置环境变量（如设置AIGC_TOOL_PATH），确保团队开发环境一致‌。在IDE插件市场安装Copilot等工具，实现编码时实时建议调用‌。‌人机协作新模式‌‌需求解析‌：上传PRD文档，AI自动提取业务规则生成类结构（如支付模块的PaymentService雏形）‌。‌代码补全‌：输入注释//JWT验证中间件，生成OAuth2.0
Java设计模式实战：高频场景解析与避坑指南 mckim_ 笔记学习 java 设计模式
引言设计模式是软件开发的基石，但许多开发者面对23种模式时容易陷入“学完就忘”或“滥用模式”的困境。本文从工业级项目视角出发，精选10种高频设计模式，结合真实代码案例与主流框架应用，帮你建立模式思维，拒绝纸上谈兵。一、创建型模式：告别new的暴力美学1.工厂方法模式（FactoryMethod）核心痛点：对象创建逻辑散落各处，难以统一管理。场景案例：电商平台需要支持多种支付方式（支付宝、微信、银联
Windows平台下Android Studio搭建Flutter开发环境的正确姿势（202506）
Flutter作为Google推出的跨平台移动应用开发框架，近年来获得了广泛关注。它允许开发者使用单一代码库构建iOS和Android应用，大大提高了开发效率。本文将带你一步步在Windows系统上搭建完整的Flutter开发环境。第一步：下载并安装FlutterSDK首先，我们需要获取FlutterSDK：访问Flutter官方中文文档的安装页面：https://docs.flutter.cn/
C++11中的std::function
文章转载自：http://www.jellythink.com/archives/771看看这段代码先来看看下面这两行代码：std::functiononKeyPressed;std::functiononKeyReleased;这两行代码是从Cocos2d-x中摘出来的，重点是这两行代码的定义啊。std::function这是什么东西？如果你对上述两行代码表示毫无压力，那就不妨再看看本文，就当温
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那

python爬虫入门代码-Python爬虫入门

你可能感兴趣的:(python爬虫入门代码-Python爬虫入门)