久孤776

8.用python写网路爬虫，Scrapy

前言

Scrapy 是一个流行的网络爬虫框架，它拥有很多简化网站抓取的高级函数。本章中，我们将学习使用 Scrapy 抓取示例网站，目标任务与第2章相同。然后，我们还会介绍 Portia ，这是一个基于 Scrapy 的应用，允许用户通过点击界面抓取网站。

8.1 安装

我们可以使用 pip 命令安装 Scrapy，如下所示。

pip install Scrapy

由于Scrapy依赖一些外部库，因此如果在安装过程中遇到困难的话，可以从其官方网站上获到更多信息，网址为http://doc.scrapy.org/en/latest/intro/install.html。

目前，Scrapy 仅支持Python2.7版本，比本书中介绍的其他包条件更加苛刻。如果想支持更低的 Python 2.6版本，需要降级到 Scrapy 0.20 版本。而由于依赖的Twisted 的原因，目前还无法支持 Python 3 版本，不过 Scrapy 团队向我确认他们正在解决这一问题。

如果 Scrapy 安装成功，那么就可以在终端里执行 scrapy 命令了。

本章中我们将会使用如下几个命令。

startproject：创建一个新项目：

genspider：根据模板生成一个新爬虫：

crawl：执行爬虫：

shell：启动交互式抓取控制台。

要了解上述命令或其他命令的详细信息可以参考下面这个链接

http://doc.scrapy.org/en/latest/topics/commands.html

8.2 启动项目

安装好 Scrapy 以后，我们可以运行 startproject 命令生成该项目的默认结构。具体步骤为：打开终端进入想要存储 Scrapy 项目的目录，然后运行 scrapystartproject

下面是 s crapy 命令生成的文件结构。

其中，在本章比较重要的几个文件如下所示。

items.py：该文件定义了待抓取域的模型。

settings.py：该文件定义了一些设置，如用户代理、爬取延时等。

spiders／：该目录存储实际的爬虫代码。

另外， Scrapy 使用 scrapy.cfg 设置项目配置，使用 pipelines.py 处理要抓取的域，不过在本例中无须修改这两个文件。

8.2.1 定义模型

默认情况下，example/items.py 文件包含如下代码。

Example IeItem 类是一个模板，需要将其中的内容替换为爬虫运行时想要存储的待抓取国家信息。为了更好地聚焦 Scrapy 的执行过程，接下来我们只会抓取国家名称和人口数量，而不是抓取国家的所有信息。下面是修改后支持该功能的模型代码。

8.2.2 创建爬虫

现在，我们要开始编写真正的爬虫代码了，在 Scrapy 里又被称为 spider通过genspider命令，传入爬虫名、域名以及可选的模板参数，就可以生成初始模板。

这里使用内置的 crawl 模板，可以生成更接近我们想要的国家爬虫的初始版本。运行 genspider 命令之后，下面的代码将会在example/spiders/country.py中自动生成。

最开始几行导入了后面会用到的 Scrapy 库，包括 8.2. 1 节中定义的 Example leltem 模型。然后创建了一个爬虫类，该类包括如下类属性。

name：该属性为定义爬虫名称的字符串。

start_urls：该属性定义了爬虫起始 URL列表。不过， start_urls 的默认值与我们想要的不一样，在 example.webscraping.com 域名之前多了 WWW 前缀

alloweddomains：该属性定义了可以爬取的域名列表。如果没有定义该属性，则表示可以爬取任何域名。

rules：该属性为一个正则表达式集合，用于告知爬虫需要跟踪哪些链接。

rules 属性还有一个 callback函数，用于解析下载得到的响应，而 parse_item（）示例方法给我们提供了一个从响应中获取数据的例子。

Scrapy 是一个高级框架，因此即使只有这几行代码，也还有很多需要了解的知识。官方文档中包含了创建爬虫相关的更多细节，其网址为

http://doc.scrapy.org/en/latest/topics/spiders.html

1 . 优化设置

在运行前面生成的爬虫之前，需要更新 Scrapy 的设置，避免爬虫被封禁。默认情况下， Scrapy 对同一域名允许最多 8 个并发下载，并且两次下载之间没有延时，这样就会比真实用户浏览时的速度快很多，所以很容易被服务器检测到。在前言中我们提到，当下载速度持续高于每秒一个请求时，我们抓取的示例网站会暂时封禁爬虫，也就是说使用默认配置会造成我们的爬虫被封禁。除非你在本地运行示例网站，否则我建议在 example / s etting s . py文件中添加如下几行，使爬虫同时只能对每个域名发起一个请求，并且每两次请求之间存在延时：

请注意，Scrapy 在两次请求之间的延时并不是精确的，这是因为精确的延时同样会造成爬虫容易被检测到，然后被封禁而 Scrapy 实际使用的方法是在两次请求之间的延时上添加随机的偏移量要想了解更多关于上述设置和其他设置的细节，可以参考

http://doc.scrapy.org/en/latest/topics/settings.html

2. 测试爬虫

想要从命令行运行爬虫，需要使用 c rawl 命令并且带上爬虫的名称。

和预期一样，默认的爬虫代码运行失败了，这是因为http://www.example. webscraping.com并不存在① 。此外，你还会注意到命令中有一个－ s LOG LEVE L=ERROR 标记，这是一个 Scrapy 设置，等同于在sett ings . py 文件中定义 LOG_LEVEL ＝ ’ ERROR ’ 。默认情况下， Scrapy 会在终端上输出所有日志信息，而这里是将日志级别提升至只显示错误信息

下面的代码更正了爬虫的起始 URL，并且设定了要爬取的网页。

第一条规则爬取索引页并跟踪其中的链接，而第二条规则爬取国家页面并将下载响应传给 ca l lback 函数用于抓取。下面让我们把日志级别设为 DEBUG 以显示所有信息，来看下爬虫是如何运行的。

输出的日志信息显示，索引页和国家页都可以正确爬取，并且已经过滤了重复链接。但是，我们还会发现爬虫浪费了很多资源来爬取每个网页上的登录和注册表单链接，因为它们也匹配 rules 里的正则表达式。前面命令中的登录 URL 以_next= % 2 Findex%2 F l 结尾，也就是_next= / i口dex / l 经过 URL 编码后的结果，其目的是让服务器端获取用户登录后的跳转地址。要想避免爬取这些 URL，我们可以使用规则的 de口y 参数，该参数同样需要一个正则表达式，用于匹配所有不想爬取的 U肚。下面对之前的代码进行了修改，通过避免 URL 包含／ user／来防止爬取用户登录和注册表单。

8.2.3 使用 shell 命令抓取

现在 Scrapy 已经可以爬取国家页面了，下面还需要定义要抓取哪些数据。为了帮助测试如何从网页中抽取数据， Scrapy 提供了一个很方便的命令一－ sr时工，可以下载 URL 并在 P严hon 解释器中给出结果状态。下面是爬取某个示例国家时的结果。

现在我们可以查询这些对象，检查哪些数据可以使用。

Scrapy 使用 l xml 抓取数据，所以我们仍然可以使用第 2 章中用过的 css

选择器。

该方法返回一个 lxml 选择器，要想使用它，还需要调用 extract （）方法。

然后，可以在先前生成的 example / spiders / country . py 文件的 parse_item （）方法中使用这些 css 选择器。

8.2.4 检查结果

下面是该爬虫的完整代码。

要想保存结果，我们可以在 parse i tem （）方法中添加额外的代码，用于写入己抓取的国家数据，或是定义管道。不过，这一操作并不是必需的，因为 Scrapy 还提供了一个更方便的一－output 选项，用于自动保存己抓取的条目，可选格式包括 csv、 JSON 和 XML 。下面是该爬虫的最终版运行时的结果，该结果将会输出到一个 csv 文件中，此外该爬虫的日志级别被设定为 INFO 以过滤不重要的信息。

在爬取过程的最后阶段， Scrapy 会输出－些统计信息，给出爬虫运行的一些指标。从统计结果中，我们可以了解到爬虫总共爬取了 279 个网页，并抓取到其中的 252 个条日，这与数据库中的国家数量一致，因此我们知道爬虫己经找到了所有国家数据。

要想验证抓取的这些国家信息正确与否，我们可以检查 count rie s.c sv 文件中的内容。

和预期一样，表格中包含了每个国家的名称和人口数量。抓取这些数据所要编写的代码比第 2 章中的原始爬虫要少很多，这是因为 Scrapy 提供了很多高级功能。在下一节中，我们将使用 Portia 重新实现该爬虫，而且要编写的代码更少。

8.2.5 中断与恢复爬虫

在抓取网站时，暂停爬虫并于稍后恢复而不是重新开始，有时会很有用。比如，软件更新后重启计算机，或是要爬取的网站出现错误需要稍后继续爬取时，都可能会中断爬虫。非常方便的是， Scrapy 内置了对暂停与恢复爬取的支持，这样我们就不需要再修改示例爬虫了。要开启该功能，我们只需要定义用于保存爬虫当前状态目录的 JOBDIR 设置即可。需要注意的是，多个爬虫的状态需要保存在不同的目录当中。下面是在我们的爬虫中使用该功能的示例。

从上述执行过程可以看出，我们使用 AcCCtrl+C ）发送终止信号，然后爬虫又完成了几个条目的处理之后才终止。想要 Scrapy 保存爬虫状态，就必须等待它正常结束，而不能经受不住诱惑再次按下C创＋C 强行立即终止！现在，爬虫状态保存在crawls/country目录中，之后可以运行同样的命令恢复爬虫运行。

此时，爬虫从刚才暂停的地方恢复运行，和正常启动一样继续进行爬取。该功能对于我们的示例网站而言用处不大，因为要下载的页面数量非常小。不过，对于那些需要爬取几个月的大型网站而言，能够暂停和恢复爬虫就非常方便了。

需要注意的是，有一些边界情况在这里没有覆盖，可能会在恢复爬取时产生问题，比如 cookie 过期等，此类问题可以从 Scrapy 的官方文档中进行详细了解，其网址为 http://doc.s crapy.org/en/latest/topics/jobs.html 。

8.3 使用 Portia 编写可视化爬虫

Portia 是一款基于 Scrapy 开发的开源工具，该工具可以通过点击要抓取的网页部分来创建爬虫，这样就比手工创建 css 选择器的方式更加方便。

8.3.1 安装

Portia是一款非常强大的工具，为了实现其功能需要依赖很多外部库。由于该工具相对较新，因此下面会稍微介绍一下它的安装步骤。如果未来该工具的安装步骤有所简化，可以从其最新文档中获取安装方法，网址为https : / /gi thub . com/scrapinghub/portia#running-portia 。

推荐安装方式的第一步是使用 vi rtua l env 创建一个虚拟 Py由on 环境。这里我们将该环境命名为 portia_example，当然你也可以将其替换成其他任何名称。

然后，在 vi rtual env 中安装 Portia 及其依赖。

Portia目前处于活跃开发期，因此在你阅读本书时其接口可能已经发生变化。如果你想使用和本书相同的版本进行开发，可以运行如下git命令。

如果你还没有安装 git ，可以直接下载 Portia 的最新版，其网址为 https : / /gi thub . com/ s crapinhub/portia/archive/master.zip。

安装完成后，可以进入 slyd 目录运行服务器端来启动 Portia。

如果安装成功，就可以在浏览器中访问到 Portia 工具，网址为 http://localhost:9001/static/main. html 。

下图为初始屏幕

如果你在安装过程中遇到了问题，可以查看 Portia 的问题页，网址为 https : / / github . com/ scrapinghub /port ia/issues ，也许其他人已经经历过相同的问题并且找到了解决方案。

8.3.2 标注

在 Portia 的启动页，有一个用于输入待抓取网站 URL 的文本框，比如 http:/ / example . webscrapi r可 . com。输入后， Portia 会在其主面板加载该网页，如下图所示

默认情况下，项目名称被设为 new_project，而爬虫名称则被设为待爬取域名 Cexample.webscraping.com ），这两项都可以通过单击相应标签进行修改。接下来，浏览器会定位到一个示例国家网页，让你标注感兴趣的数据，如下图所示

单击 Annotate this page 按钮，然后再单击国家人口数量，就会弹出如下图所示

单击＋field 按钮创建一个名为 popul at ion 的新域，然后单击 Done 保存。接下来，对国家名称以及你感兴趣的其他域进行相同操作。被标注的域会在网页中高亮显示，并且可以在右边栏的面板中进行编辑如下图所示

完成标注后，单击顶部的蓝色按钮 Continue Browsing 。

8.3.3 优化爬虫

标注完成后， Portia 会生成一个 Scrapy 项目，并将产生的文件保存到 data/projects 目录中。要运行爬虫，只需执行 port iacrawl 命令，并带上项目名和爬虫名即可。不过，如果爬虫使用默认设置运行的话，很快就会遇到服务器错误。

这和 “优化放置 ” 小节中遇到的问题是一样的，因为 Portia 生成的项目使用了默认的 Scrapy 爬取设置，导致下载速度过快。我们仍然可以在设置文件中修改这些设置（文件位于 data/projects /newproject/spiders/settings.py ）。不过，为了演示一些新方法，这次我们改为使用命令行进行设置。

当运行这个放慢速度的爬虫时，就可以避免被封禁的问题了。不过，接下来同样也会遇到下载非必要网页（比如登录和注册页 ) 这个降低效率的问题。默认情况下，Portia 生成的爬虫会爬取给定域名的所有URL。要想只爬取特定URL，可以配置右边栏面板中的 Crawling 选项卡，如下图所示

这里，我们添加/index/ 和／view／作为爬虫跟踪模式，并且将／user/ 作为排除模式，这些都和之前 Scrapy 项目中的用法相似。如果勾选了底部的Overlay blocked links 复选框， Portia 就会把跟踪链接高亮为绿色，排除链接，高亮为红色

8.3.4 检查结果

现在就可以执行 Portia 生成的爬虫了，另外和之前一样，我们使用一output 选项指定输出的 csv 文件。

当运行如上命令时，该爬虫将会产生和手工创建的 Scrapy 版本相同的输出。

Portia 是一个非常方便的与 Scrapy 配合的工具。对于简单的网站，使用 Portia 开发爬虫通常速度更快。相反，对于复杂的网站（比如依赖 JavaScript 的界面），则可以选择使用 Python 直接开发 Scrapy 爬虫。

8.4 使用 Scrapely 实现自动化抓取

为了抓取标注域， Portia 使用了 Scrapely 库，这是一款独立于 Portia 之外的非常有用的开源工具，该工具可以从https://github .com/scrapy/scrapely获取。Scrapely 使用训练数据建立从网页中抓取哪些内容的模型，并在以后抓取相同结构的其他网页时应用该模型。下面是该工具的运行示例。

首先，将我们想要从 Afghani s tan 网页中抓取的数据传给 Scrapely ，本例中是国家名称和人口数量。然后，在另一个国家页上应用该模型，可以看出 Scrapely 使用该模型返回了正确的国家名称和人口数量。

这一工作流允许我们无须知晓网页结构，只把所需内容抽取出来作为训练案例，就可以抓取网页。如果网页内容是静态的，在布局发生改变时，这种方法就会非常有用。例如一个新闻网站，己发表文章的文本一般不会发生变化，但是其布局可能会更新。这种情况下 Scrapely 可以使用相同的数据重新训练，针对新的网站结构生成模型。

在测试 Scrapely 时，此处使用的示例网页具有良好的结构，每个数据类型的标签和属性都是独立的，因此Scrapely可以正确地训练模型。但是，对于更加复杂的网页，Scrapely可能在定位内容时失败，因此在其文档中会警告你应当“谨慎训练”。也许今后会有更加健的自动化爬虫库发布。

8.5 本章小结

本章首先介绍了网络爬虫框架Scrapy，该框架拥有很多能够改善抓取网站效率的高级功能。然后介绍了 Portia，它提供了生成Scrapy爬虫的可视化界面。最后我们试用 Scrapely,Portia 正是使用该库根据给定模型自动化抓取网页的。

[附源码]Python计算机毕业设计SSM基于B-S的心理健康管理系统（程序+LW) Python、JAVA毕设程序源码 java 开发语言
环境配置：Jdk1.8+Tomcat7.0+Mysql+HBuilderX（Webstorm也行）+Eclispe（IntelliJIDEA,Eclispe,MyEclispe,Sts都支持）。项目技术：SSM+mybatis+Maven+Vue等等组成，B/S模式+Maven管理等等。环境需要1.运行环境：最好是javajdk1.8，我们在这个平台上运行的。其他版本理论上也可以。2.IDE环境：
5-1 使用ECharts将MySQL数据库中的数据可视化上课的牛马实训大数据
方法一：使用PythonFlask框架搭建API对于技术小白来说，使用ECharts将MySQL数据库中的数据可视化需要分步骤完成。以下是详细的实现流程：一、技术架构‌后端服务‌：使用PythonFlask框架搭建API（简单易学，适合新手）数据库连接‌：通过Python的pymysql库连接MySQL前端可视化‌：HTML+JavaScript+ECharts数据流向‌：MySQL数据库→Pyt
绕过 reCAPTCHA V2/V3：Python、Selenium 指南 qq_33253945 python selenium javascript 网络爬虫爬虫算法
前言验证码（CAPTCHA）技术已经存在许多年，尽管它的有效性一直备受争议，但许多网站仍然依赖它来保护资源。尤其是Google推出的reCAPTCHA系列，一直是验证码领域的佼佼者。本文将详细介绍如何绕过reCAPTCHAV2和V3，并提供实用的代码示例。详情请见：解决验证码recaptcha、cloudflare、incapsula1.什么是reCAPTCHA？reCAPTCHA是Google推
CSP-J备考冲刺必刷题（C++） | AcWing 11 背包问题求方案数热爱编程的通信人 c++算法开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】AcWing：11.背包问题求方案数-AcWi
python数据可视化绘制图表（直方图，饼图圆环图，散点或气泡图，误差棒图） 2224070304 信息可视化 python 数据分析
一，直方图#先导入模块importnumpyasnp importmatplotlib.pyplotasplt#准备50个随机的数据scores=np.random.randint(0,100,50)#绘制直方图plt.hist(scores,bins=8,histtype='stepfilled')plt.show()其中，scores为数组（可为单个或多个的数列)bins=8,表示矩形的条数为
用Python实现SFM 薄辉 python opencv 计算机视觉人工智能图像处理
SFM(结构化光流法)是一种用于解决三维重建问题的方法，它可以根据许多二维图像和它们之间的相对位置，估计出三维场景的深度和摄像机的姿态。在Python中，你可以使用OpenCV库来实现SFM。下面是一个简单的例子，展示了如何使用OpenCV库的cv2.sfm_create函数来实现SFM：importcv2#读入图像，存入列表images中images=[]foriinrange(1,11):im
使用Python轻松拆分PDF，每页独立成文件 AI航海家(Ethan) python python pdf
使用Python轻松拆分PDF，每页独立成文件嗨，各位PDF爱好者！如果你曾经有想要拆分一个大PDF文件的想法，让每一页都成为独立的文件，那么这篇博客就是为你准备的！我们将使用Python中的一个非常强大的库–PyPDF2，把这些需求变得简单易行。PyPDF2登场首先，我们需要安装PyPDF2库。如果你还没有安装，别担心，只需要在终端运行以下命令：pipinstallPyPDF2安装好了吗？下面我
决策树算法及其python实例 m0_74831463 算法决策树 python
一、决策数的概念什么是决策树算法呢？决策树（DecisionTree）是一种基本的分类与回归方法，本文主要讨论分类决策树。决策树模型呈树形结构，在分类问题中，表示基于特征对数据进行分类的过程。它可以认为是if-then规则的集合。每个内部节点表示在属性上的一个测试，每个分支代表一个测试输出，每个叶节点代表一种类别二、决策树的构造1、决策树的构造步骤输入：训练集D={(21,11),(z2,32),
探索Sfm-python: 一款强大的计算机视觉库缪昱锨Hunter
探索Sfm-python:一款强大的计算机视觉库去发现同类优质开源项目:https://gitcode.com/在计算机视觉领域，Sfm-python是一个值得关注的开源项目，它以简洁高效的Python接口提供结构化从运动（StructurefromMotion,SfM）算法。如果你对3D重建、图像匹配或地理定位有兴趣，那么这个项目将是你不可或缺的工具。让我们一起深入了解一下它的技术细节、应用场景
Python Textract库：文本提取程序员喵哥 python 开发语言
更多Python学习内容：ipengtao.comTextract是一个强大的Python库，用于从各种文件格式中提取文本。无论是PDF、Word文档、Excel电子表格、HTML页面还是图像，Textract都能有效地提取其中的文本内容。Textract通过集成多种开源工具和库，实现了对多种文件格式的支持，使得文本提取变得简单而高效。本文将详细介绍Textract库的安装、主要功能、基本操作、高
python学智能算法（八）|决策树西猫雷婶人工智能 python学习笔记机器学习 python 决策树开发语言
【1】引言前序学习进程中，已经对KNN邻近算法有了探索，相关文章链接为：python学智能算法（七）|KNN邻近算法-CSDN博客但KNN邻近算法有一个特点是：它在分类的时候，不能知晓每个类别内事物的具体面貌，只能获得类别，停留在事物的表面。为了进一步探索事物的内在特征，就需要学习新的算法。本篇文章就是在KNN的基础上学习新算法：决策树。【2】原理分析在学习决策树执之前，需要先了解香农熵。本科学控
freecad嵌入工作台黄河里的小鲤鱼软件开发建模 python
1Introduction导言FreeCADcanbeimportedasaPythonmoduleinotherprogramsorinastandalonePythonconsole,togetherwithallitsmodulesandcomponents.It’sevenpossibletoimporttheFreeCADuserinterfaceasapythonmodulebutwi
家用笔记本换装centos7当服务器全流程吕域服务器 windows 电脑 centos
目录1、安装centos7系统硬件准备软件和镜像准备制作启动盘2、网络连接和ssh远程登陆centos7连接网络ssh远程登陆3、笔记本闭盖不休眠（7*24小时可用）4、定时开关机（省电、保护电脑）5、配置开发环境（此处以python为例，非必要项，示需求安装）1、安装centos7系统硬件准备老旧淘汰笔记本一台（新笔记本不合算，舍不得）一个大于8G的U盘网线一根（后续联网用）软件和镜像准备软件U
python 函数—文档、类型注释和内省想知道哇 python python 开发语言
Python文档、类型注释和内省目录引言函数文档docstring的使用help()函数类型注释基本类型注释复杂类型注释内省技术基本内省方法inspect模块的高级内省综合示例建议引言Python提供了丰富的文档和内省机制，使开发者能够编写自解释的代码并在运行时检查对象属性。本教程详细介绍了函数文档、类型注释和内省技术。函数文档docstring的使用Python使用三引号字符串（'''或"""）
奇异值分解（SVD）文弱_书生乱七八糟神经网络人工智能
奇异值分解(SVD)介绍奇异值分解(SVD)，这是最强大的矩阵分解技术之一。SVD广泛应用于机器学习、数据科学和其他计算领域，用于降维、降噪和矩阵近似等应用。与仅适用于方阵的特征分解不同，SVD可以应用于任何矩阵，使其成为一种多功能工具。在这里煮啵将分解SVD背后的理论，通过手动计算示例进行分析，并展示如何在Python中实现SVD。在本节结束时，您将清楚地了解SVD的强大功能及其在机器学习中的应
python异步--asyncio HWQlet python python异步编程
在python2.x和python3.x早期版本的时候，协程的主流实现方法是gevent，这个我之前讲过asyncio在python3.4后内置在python中了，在后面还有async/await，更后面有aiohttp，flask实现就有参照aiohttpasync和await分别又来替换早期协程的asyncio.coroutine和yieldfrom。从此以后，协程就是python中一个新的语
Python异步编程 - asyncio库孤寒者 Python全栈系列教程 python 异步编程 asyncio yield 协程
目录：每篇前言：异步IOPython中的异步编程实现方式：协程Python传统协程示例：实现生产者-消费者模型消费者：生产者：运行流程：整体流程：传统协程——>现代协程：asyncio库async/await每篇前言：作者介绍：【孤寒者】—CSDN全栈领域优质创作者、HDZ核心组成员、华为云享专家Python全栈领域博主、CSDN原力计划作者本文已收录于爬虫必备前端技术栈专栏：《爬虫必备前端技术栈
python输出星号等腰三角形_python打印直角三角形与等腰三角形实例代码 weixin_39644139 python输出星号等腰三角形
python打印直角三角形与等腰三角形实例代码前言本文通过示例给大家详细介绍了关于python打印三角形的相关，分享出来供大家参考学习，下面话不多说了，来一起看看详细的介绍吧1、直角三角形#i控制行数j控制*的个数foriinrange(5):i+=1forjinrange(i):print('*',end='')#end=‘'输出空格print()/2、等腰三角形row=int(input('p
python绘制等边三角形的代码_Python打印等边三角形 weixin_39621178
示例1:#!/usr/bin/python#-*-coding:UTF-8-*-#根据输入打印rows=int(raw_input('pleaseinputnumber:'))#等边三角形foriinrange(0,rows+1):forjinrange(0,rows-i):print"",j+=1forkinrange(0,2*i-1):ifk==0ork==2*i-2ori==rows:ifi
Python写倒三角森之林 python
4.(程序题)编程显示如下所示的三角形图案。要求程序运行时，输入一个正整数，显示该整数行高度的三角形图案。#############h=int(input("请输入高度："))foriinrange(h):forjinrange(i,h):print("#",end="")forrinrange(0,i):print("",end="")print("")
python+flask计算机毕业设计基于Android平台的景区移动端旅游软件系统（程序+开题+论文） Node.js彤彤程序 python flask 课程设计
本系统（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。系统程序文件列表开题报告内容研究背景随着移动互联网技术的飞速发展，智能手机已成为人们日常生活中不可或缺的一部分，特别是在旅游领域，移动端应用以其便捷性、实时性和个性化服务的特点，极大地改变了人们的旅游体验方式。当前，旅游市场日益繁荣，游客对于旅游信息获取、行程规划、景点导航、票务预订及个性化服务的需
ALO蚁狮优化算法：从背景到实战的全面解析 der丸子吱吱吱智能优化算法 ALO算法
目录引言背景2.1蚁狮优化算法的起源2.2自然启发式算法的背景2.3ALO的发展与应用原理3.1蚁狮的生物行为3.2ALO的数学建模3.3算法流程与关键步骤实战应用4.1函数优化问题4.2工程优化案例4.3组合优化与约束优化代码实现与结果分析5.1Python代码实现5.2实验设计与结果分析5.3性能评估与优化建议学习资源6.1工具推荐6.2网站与文献资源6.3ALO与AI结合的方法结论1.引言在
全面掌握Python：从安装到基础再到进阶的系统学习之路（附代码，建议新手收藏） der丸子吱吱吱 python 学习开发语言新手入门代码
Python，作为一种现代化的高级编程语言，因其简洁易懂的语法和强大的功能，成为了数据科学、人工智能、Web开发等多个领域的首选语言。在这篇文章中，我们将从大学课本的结构来详细介绍Python，帮助大家从零基础开始，逐步深入掌握Python的各个方面。目录第一章：Python简介与安装1.1Python语言概述1.2安装Python1.3Python的开发环境1.4第一个Python程序第二章：基
Centos7软件包管理(rpm、yum) Bulut0907 Linux centos 软件包管理 rpm yum yum源修改
目录1.rpm2.yum2.1修改yum源1.rpmRPM(RedHatPackageManager)，redhat系列操作系统里面的打包安装工具查询命令：查询安装的所有rpm软件包：rpm-qa查询指定rpm软件包，并显示详细信息：rpm-qipython3卸载命令：卸载软件包，不管是否有其它软件包依赖该软件包：rpm-e--nodeps软件包名称安装命令：安装rpm包，并显示详细信息和进度条(
从 0 到 1 构建 Python 分布式爬虫，实现搜索引擎全攻略七七知享 Python python 分布式爬虫搜索引擎算法程序人生网络爬虫
从0到1构建Python分布式爬虫，实现搜索引擎全攻略在大数据与信息爆炸的时代，搜索引擎已然成为人们获取信息的关键入口。你是否好奇，像百度、谷歌这般强大的搜索引擎，背后是如何精准且高效地抓取海量网页数据的？本文将带你一探究竟，以Python为工具，打造属于自己的分布式爬虫，进而搭建一个简易搜索引擎，完整呈现从底层代码编写到系统搭建的全过程。通过本文的实践，我们成功打造了Python分布式爬虫，并以
Flink启动任务 swg321321 flink 大数据
Flink以本地运行作为解读例如：第一章Python机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Flink前言StreamExecutionEnvironmentLocalExecutorMiniClusterStreamGraph二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发
python中Flask模块的使用 weixin_30315905 python json
1.简介在服务器上运行Flask接口，就能使用requests模块获取该接口的值。先运行接口文件，再运行requests文件，即可获取值。2.示例2.1一个简单的flask接口1importjson2fromflaskimportFlask,request34#python类型5data={6'name':'John',7'age':18,8'location':'nanjing'910}1112
计算机专业毕业设计题目推荐（新颖选题）本科计算机人工智能专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计人工智能毕业设计毕设题目毕业设计题目 ai AI编程
文章目录前言最新毕设选题（建议收藏起来）本科计算机人工智能专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能
python中的静态方法绛洞花主敏明 python
问题：pycharm中建立新的方法，出现如下的警告：在python中建立类一般使用如下的方法：classDog(object):defrun(self):print("running")run方法是类中的普通方法声明和创建静态方法，在方法上加上staticmethod注明一下classDog(object):@staticmethoddefrun(self):print("running")如下的
一文弄懂Python 变量初始化与内存管理宇寒风暖 python编程 python 开发语言笔记学习
在Python中，变量的初始化并不一定会开辟新的内存空间。Python的内存管理机制非常灵活，它会根据变量的值、类型以及Python的内部优化策略来决定是否复用已有的内存空间。1.变量初始化的基本概念在Python中，变量是对象的引用。当你初始化一个变量时，Python会执行以下操作：创建一个对象（如果该对象不存在）。将变量名绑定到该对象。例如：a=10b="hello"a是一个整数对象的引用。b
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息