普通网友

一文学会爬虫技巧

前言

作为冷数据启动和丰富数据的重要工具，爬虫在业务发展中承担着重要的作用，我们业务在发展过程中积累了不少爬虫使用的经验，在此分享给大家，希望能对之后的业务发展提供一些技术选型方向上的思路,以更好地促进业务发展

我们将会从以下几点来分享我们的经验

爬虫的应用场景
爬虫的技术选型
实战详解：复杂场景下的爬虫解决方案
爬虫管理平台

爬虫的应用场景

在生产上，爬虫主要应用在以下几种场景

搜索引擎，Google，百度这种搜索引擎公司每天启动着无数的爬虫去抓取网页信息，才有了我们使用搜索引擎查询资料的便捷，全面，高效（关于搜索引擎工作原理，在这篇文章作了详细的讲解，建议大家看看）
冷数据启动时丰富数据的主要工具，新业务开始时，由于刚起步，所以没有多少数据，此时就需要爬取其他平台的数据来填充我们的业务数据，比如说如果我们想做一个类似大众点评这样的平台，一开始没有商户等信息，就需要去爬取大众，美团等商家的信息来填充数据
数据服务或聚合的公司，比如天眼查，企查查，西瓜数据等等
提供横向数据比较，聚合服务，比如说电商中经常需要有一种比价系统，从各大电商平台，如拼多多，淘宝，京东等抓取同一个商品的价格信息，以给用户提供最实惠的商品价格，这样就需要从各大电商平台爬取信息。
黑产，灰产，风控等，比如我们要向某些资金方申请授信，在资金方这边首先要部署一道风控，来看你的个人信息是否满足授信条件，这些个人信息通常是某些公司利用爬虫技术在各个渠道爬取而来的，当然了这类场景还是要慎用，不然正应了那句话「爬虫用的好，监控进得早」

爬虫的技术选型

接下来我们就由浅入深地为大家介绍爬虫常用的几种技术方案

简单的爬虫

说起爬虫，大家可能会觉得技术比较高深，会立刻联想到使用像 Scrapy 这样的爬虫框架，这类框架确实很强大，那么是不是一写爬虫就要用框架呢?非也！要视情况而定,如果我们要爬取的接口返回的只是很简单,固定的结构化数据(如JSON)，用 Scrapy 这类框架的话有时无异于杀鸡用牛刀,不太经济!

举个简单的例子，业务中有这么一个需求:需要抓取育学园中准妈妈从「孕4周以下」~「孕36个月以上」每个阶段的数据

对于这种请求，bash 中的 curl 足堪大任!

首先我们用 charles 等抓包工具抓取此页面接口数据,如下

通过观察，我们发现请求的数据中只有 month 的值（代表孕几周）不一样，所以我们可以按以下思路来爬取所有的数据：

1、找出所有「孕4周以下」~「孕36个月以上」对应的 month 的值，构建一个 month 数组 2、构建一个以 month 值为变量的 curl 请求，在 charles 中 curl 请求我们可以通过如下方式来获取

3、依次遍历步骤 1 中的 month,每遍历一次，就用步骤 2 中的 curl 和 month 变量构建一个请求并执行,将每次的请求结果保存到一个文件中（对应每个孕期的 month 数据），这样之后就可以对此文件中的数据进行解析分析。

示例代码如下，为了方便演示，中间 curl 代码作了不少简化，大家明白原理就好

#!/bin/bash

## 获取所有孕周对应的 month，这里为方便演示，只取了两个值
month=(21 24)
## 遍历所有 month，组装成 curl 请求
for month in ${month[@]};
do
    curl -H 'Host: yxyapi2.drcuiyutao.com' 
    -H 'clientversion: 7.14.1' 
        ...
    -H 'birthday: 2018-08-07 00:00:00'  
    --data "body=month%22%3A$month"  ## month作为变量构建 curl 请求
    --compressed 'http://yxyapi2.drcuiyutao.com/yxy-api-gateway/api/json/tools/getBabyChange' > $var.log ## 将 curl 请求结果输出到文件中以便后续分析
done

前期我们业务用 PHP 的居多，不少爬虫请求都是在 PHP 中处理的，在 PHP 中我们也可以通过调用 libcurl 来模拟 bash 中的 curl 请求,比如业务中有一个需要抓取每个城市的天气状况的需求,就可以用 PHP 调用 curl,一行代码搞定！

看了两个例子，是否觉得爬虫不过如此，没错，业务中很多这种简单的爬虫实现可以应付绝大多数场景的需求！

脑洞大开的爬虫解决思路

按以上介绍的爬虫思路可以解决日常多数的爬虫需求,但有时候我们需要一些脑洞大开的思路,简单列举两个

1、去年运营同学给了一个天猫精选的有关奶粉的 url 的链接

https://m.tmall.com/mblist/de_9n40_AVYPod5SU93irPS-Q.html,他们希望能提取此文章的信息,同时找到天猫精选中所有提到奶粉关键字的文章并提取其内容, 这就需要用到一些搜索引擎的高级技巧了, 我们注意到,天猫精选的 url 是以以下形式构成的

https://m.tmall.com/mblist/de_ + 每篇文章独一无二的签名

利用搜索引擎技巧我们可以轻松搞定运营的这个需求

对照图片，步骤如下:

首先我们用在百度框输入高级查询语句「奶粉 site:m.tmall.com inurl:mblist/de_」，点击搜索，就会显示出此页中所有天猫精选中包含奶粉的文章 title
注意地址栏中浏览器已经生成了搜索的完整 url,拿到这个 url 后，我们就可以去请求此 url，此时会得到上图中包含有 3， 4 这两块的 html 文件
拿到步骤 2 中获取的 html 文件后，在区域 3 每一个标题其实对应着一个 url（以 ..... ）的形式存在，根据正则表达式就可以获取每个标题对应的 url，再请求这些 url 即可获取对应的文章信息。
同理，拿到步骤 2 中获取的 html 文件后，我们可以获取区域 4 每一页对应的 url，再依次请求这些 url，然后重复步骤 2，即可获取每一页天猫精选中包含有奶粉的文章

通过这种方式我们也巧妙地实现了运营的需求，这种爬虫获取的数据是个 html 文件，不是 JSON 这些结构化数据，我们需要从 html 中提取出相应的 url 信息（存在标签里）,可以用正则，也可以用 xpath 来提取。

比如 html 中有如下 div 元素

大家好！

可以用以下的 xpath 来提取

data = selector.xpath('//div[@id="test1"]/text()').extract()[0]

就可以把「大家好！」提取出来，需要注意的是在这种场景中，「依然不需要使用 Scrapy 这种复杂的框架」，在这种场景下，由于数据量不大，使用单线程即可满足需求，在实际生产上我们用 php 实现即可满足需求

2、某天运营同学又提了一个需求，想爬取美拍的视频

通过抓包我们发现美拍每个视频的 url 都很简单，输入到浏览器查看也能正常看视频，于是我们想当然地认为直接通过此 url 即可下载视频,但实际我们发现此 url 是分片的(m3u8,为了优化加载速度而设计的一种播放多媒体列表的档案格式),下载的视频不完整,后来我们发现打开`http://www.flvcd.com/`网站

输入美拍地址转化一下就能拿到完整的视频下载地址

「如图示：点击「开始GO！」后就会开始解析视频地址并拿到完整的视频下载地址」

进一步分析这个「开始GO!」按钮对应的请求是「http://www.flvcd.com/parse.php?format=&kw= + 视频地址」，所以只要拿到美拍的视频地址，再调用 flvcd 的视频转换请求即可拿到完整的视频下载地址，通过这种方式我们也解决了无法拿到美拍完整地址的问题。

复杂的爬虫设计

上文我们要爬取的数据相对比较简单, 数据属于拿来即用型，实际上我们要爬取的数据大部分是非结构化数据(html 网页等),需要对这些数据做进一步地处理（爬虫中的数据清洗阶段）,而且每个我们爬取的数据中也很有可能包含着大量待爬取网页的 url,也就是说需要有 url 队列管理，另外请求有时候还需求登录，每个请求也需要添加 Cookie，也就涉及到 Cookie 的管理，在这种情况下考虑 Scrapy 这样的框架是必要的！不管是我们自己写的，还是类似 Scrapy 这样的爬虫框架，基本上都离不开以下模块的设计

url 管理器
网页（HTML）下载器, 对应 Python 中的urllib2, requests等库
（HTML）解析器,主要有两种方式来解析
下图详细解释了各个模块之间是如何配合使用的
- 正则表达式
- 以css, xpath为代表的结构化解析(即将文档以DOM树的形式重新组织，通过查找获取节点进而提取数据的方式), Python中的 html.parser,BeautifulSoup,lxml 皆是此类范畴

首先调度器会询问 url 管理器是否有待爬取的 url
如果有,则获取出其中的 url 传给下载器进行下载
下载器下载完内容后会将其传给解析器做进一步的数据清洗，这一步除了会提取出有价值的数据，还会提取出待爬取的URL以作下一次的爬取
调度器将待爬取的URL放到URL管理器里，将有价值的数据入库作后续的应用
以上过程会一直循环,直到再无待爬取URL

可以看到，像以上的爬虫框架,如果待爬取 URL 很多，要下载,解析,入库的工作就很大(比如我们有个类似大众点评的业务，需要爬取大众点评的数据，由于涉及到几百万量级的商户,评论等爬取,数据量巨大!)，就会涉及到多线程，分布式爬取，用 PHP 这种单线程模型的语言来实现就不合适了,Python 由于其本身支持多线程，协程等特性，来实现这些比较复杂的爬虫设计就绰绰有余了,同时由于 Python 简洁的语法特性，吸引了一大波人写了很多成熟的库，各种库拿来即用，很是方便，大名鼎鼎的 Scrapy 框架就是由于其丰富的插件,易用性俘获了大批粉丝,我们的大部分爬虫业务都是用的scrapy来实现的，所以接下来我们就简要介绍一下 Scrapy,同时也来看看一个成熟的爬虫框架是如何设计的。

我们首先要考虑一下爬虫在爬取数据过程中会可能会碰到的一些问题，这样才能明白框架的必要性以后我们自己设计框架时该考虑哪些点

url 队列管理:比如如何防止对同一个 url 重复爬取(去重),如果是在一台机器上可能还好，如果是分布式爬取呢
Cookie 管理:有一些请求是需要帐号密码验证的,验证之后需要用拿到的 Cookie 来访问网站后续的页面请求，如何缓存住 Cookie 以便后续进一步的操作
多线程管理:前面说了如果待爬取URL很多的话，加载解析的工作是很大的，单线程爬取显然不可行，那如果用多线程的话，管理又是一件大麻烦
User-Agent 与动态代理的管理: 目前的反爬机制其实也是比较完善的,如果我们用同样的UA,同样的IP不节制地连续对同一个网站多次请求，很可能立马被封，此时我们就需要使用 random-ua ,动态代理来避免被封
动态生成数据的爬取:一般通过 GET 请求获取的网页数据是包含着我们需要的数据的，但有些数据是通过 Ajax 请求动态生成，这样的话该如何爬取
DEBUG
爬虫管理平台: 爬虫任务多时,如何查看和管理这些爬虫的状态和数据

从以上的几个点我们可以看出写一个爬虫框架还是要费不少功夫的，幸运的是，scrapy 帮我们几乎完美地解决了以上问题，让我们只要专注于写具体的解析入库逻辑即可，来看下它是如何实现以上的功能点的

url 队列管理: 使用 scrapy-redis 插件来做 url 的去重处理,利用 redis 的原子性可以轻松处理url重复问题
Cookie管理: 只要做一次登录校验，就会缓存住Cookie,在此后的请求中自动带上此Cookie,省去了我们自己管理的烦恼
多线程管理: 只要在中间件中指定线程次数CONCURRENT_REQUESTS = 3，scrapy就可以为我们自己管理多线程操作，无需关心任何的线程创建毁灭生命周期等复杂的逻辑
User-Agent与动态代理的管理: 使用random-useragent插件为每一次请求随机设置一个UA,使用蚂蚁(mayidaili.com)等代理为每一个请求头都加上proxy这样我们的 UA 和 IP 每次就基本都不一样了，避免了被封的窘境
动态数据(通过 ajax 等生成)爬取: 使用Selenium + PhantomJs来抓取抓动态数据
DEBUG: 如何有效测试爬取数据是否正确非常重要，一个不成熟的框架很可能在我们每次要验证用 xpath，正则等获取数据是否正确时每一次都会重新去下载网页,效率极低,但Scray-Shell 提供了很友好的设计，它会先下载网页到内存里，然后你在 shell 做各种 xpath 的调试,直到测试成功!
使用 SpiderKeeper+Scrapyd 来管理爬虫, GUI 操作,简单易行

可以看到 Scrapy 解决了以上提到的主要问题，在爬取大量数据时能让我们专注于写爬虫的业务逻辑,无须关注 Cookie 管理,多线程管理等细节,极大地减轻了我们的负担,很容易地做到事半功倍!

(注意! Scrapy 虽然可以使用 Selenium + PhantomJs 来抓取动态数据,但随着 Google 推出的 puppeter 的横空出世,PhantomJs 已经停止更新了,因为 Puppeter 比 PhantomJS 强大太多,所以如果需要大量地抓取动态数据,需要考虑性能方面的影响,Puppeter 这个 Node 库绝对值得一试，Google 官方出品,强烈推荐)

理解了 Scrapy 的主要设计思路与功能,我们再来看下如何用 Scrapy 来开发我们某个音视频业务的爬虫项目,来看一下做一个音视频爬虫会遇到哪些问题

音视频爬虫实战

一、先从几个方面来简单介绍我们音视频爬虫项目的体系

1、四个主流程

爬取阶段
资源处理（包括音频，视频，图片下载及处理）
正式入库
后处理阶段（类似去水印）

2、目前支持的功能点

各类视频音频站点的爬取（喜马拉雅，爱奇艺，优酷，腾讯，儿歌点点等）
主流视频音频站点的内容同步更新（喜马拉雅，优酷）
视频去水印（视频 logo）
视频截图（视频内容无封面）
视频转码适配(flv 目前客户端不支持)

3、体系流程分布图

二、分步来讲下细节

1. 爬虫框架的技术选型

说到爬虫，大家应该会很自然与 python 划上等号，所以我们的技术框架就从 python 中比较脱颖而出的三方库选。scrapy 就是非常不错的一款。相信很多其他做爬虫的小伙伴也都体验过这个框架。

那么说说这个框架用了这么久感受最深的几个优点：

request 触发底层采用的是 python 自带的 yied 协程，可以节省内容的同时，回调式的编程方式也显得优雅舒适
对于 html 内容的高效筛选处理能力，selecter 的 xpath 真的很好用
由于迭代时间已经很长了，具备了很完善的扩展 api，例如：middlewares 就可以全局 hook 很多事件点，动态 ip 代理就可以通过 hook request_start 实现

2. 爬虫池 db 的设计

爬虫池 db 对于整个爬取链路来说是非常重要的关键存储节点，所以在早教这边也是经历了很多次的字段更迭。

最初我们的爬虫池 db 表只是正式表的一份拷贝，存储内容完全相同，在爬取完成后，copy 至正式表，然后就失去相应的关联。这时候的爬虫池完全就是一张草稿表，里面有很多无用的数据。

后来发现运营需要看爬虫的具体来源，这时候爬虫池里面即没有网站源链接，也无法根据正式表的专辑 id 对应到爬虫池的数据内容。所以，爬虫池 db 做出了最重要的一次改动。首先是建立爬虫池数据与爬取源站的关联，即source_link 与 source_from 字段，分别代表内容对应的网站原链接以及来源声明定义。第二步则是建立爬虫池内容与正式库内容的关联，为了不影响正式库数据，我们添加 target_id 对应到正式库的内容 id 上。此时，就可以满足告知运营爬取内容具体来源的需求了。

后续运营则发现，在大量的爬虫数据中筛选精品内容需要一些源站数据的参考值，例如：源站播放量等，此时爬虫池db 和正式库 db 存储内容正式分化，爬虫池不再只是正式库的一份拷贝，而是代表源站的一些参考数据以及正式库的一些基础数据。

而后来的同步更新源站内容功能，也是依赖这套关系可以很容易的实现。

整个过程中，最重要的是将本来毫无关联的 「爬取源站内容」 、 「爬虫池内容」 、 「正式库内容」 三个区块关联起来。

3. 为什么会产生资源处理任务

本来的话，资源的下载以及一些处理应该是在爬取阶段就可以一并完成的，那么为什么会单独产生资源处理这一流程。

首先，第一版的早教爬虫体系里面确实没有这一单独的步骤，是在scrapy爬取过程中串行执行的。但是后面发现的缺点是：

scrapy 自带的 download pipe 不太好用，而且下载过程中并不能并行下载，效率较低
由于音视频文件较大，合并资源会有各种不稳定因素，有较大概率出现下载失败。失败后会同步丢失掉爬取信息。
串行执行的情况下，会失去很多扩展性，重跑难度大。

针对以上的问题，我们增加了爬虫表中的中间态，即资源下载失败的状态，但保留已爬取的信息。然后，增加独立的资源处理任务，采用 python 的多线程进行资源处理。针对这些失败的内容，会定时跑资源处理任务，直到成功为止。（当然一直失败的，就需要开发根据日志排查问题了）

4. 说说为什么水印处理不放在资源处理阶段，而在后处理阶段（即正式入库后）

首先需要了解我们去水印的原理是用 ffmpeg 的 delogo 功能，该功能不像转换视频格式那样只是更改封装。它需要对整个视频进行重新编码，所以耗时非常久，而且对应于 cpu 的占用也很大。

基于以上，如果放在资源处理阶段，会大大较低资源转移至 upyun 的效率，而且光优酷而言就有不止 3 种水印类型，对于整理规则而言就是非常耗时的工作了，这个时间消耗同样会降低爬取工作的进行。而首先保证资源入库，后续进行水印处理，一方面，运营可以灵活控制上下架，另一方面，也是给了开发人员足够的时间去整理规则，还有就是，水印处理出错时，还存在源视频可以恢复。

5. 如何去除图片水印

不少爬虫抓取的图片是有水印的,目前没发现完美的去水印方法，可使用的方法：

原始图片查找，一般网站都会保存原始图和加水印图，如果找不到原始链接就没办法
裁剪法，由于水印一般是在图片边角，如果对于被裁减的图片是可接受的，可以将包含水印部分直接按比例裁掉
使用 opencv 库处理，调用 opencv 这种图形库进行图片类似PS的图片修复，产生的效果也差不多，遇到复杂图形修复效果不好。

三、遇到的问题和解决方案

资源下载阶段经常出现中断或失败等问题【方案：将资源下载及相关处理从爬取过程中独立出来，方便任务重跑】
虽然是不同平台，但是重复资源太多，特别是视频网站【方案：资源下载前根据title匹配，完全匹配则过滤，省下了多余的下载时间消耗】
大量爬取过程中，会遇到ip被封的情况【方案：动态 ip 代理】
大型视频网站资源获取规则频繁替换（加密，视频切割，防盗链等），开发维护成本高【方案：you-get 三方库，该库支持大量的主流视频网站的爬取，大大减少开发维护成本】
app相关爬取被加密【方案：反编译】
优酷和腾讯视频会有 logo【方案：ffmpeg delogo 功能】
爬过来的内容没有主播关联像盗版【方案：在内容正式入库时，给内容穿上主播马甲】
爬取源站内容仍在更新中，但是我们的平台内容无法更新【方案：db 存入原站链接，根据差异性进行更新】
类似优酷，爱奇艺等主流视频网站的专辑爬取任务媒介存于服务器文本文件中，并需开发手动命令触发，耗费人力【方案：整合脚本逻辑，以 db 为媒介，以定时任务检测触发】
运营需要添加一些类似原站播放量等的数据到运营后台显示，作为审核，加精，置顶等操作的依据【方案：之前爬虫表在将数据导入正式表后失去关联，现在建立起关联，在爬虫表添加爬虫原站相关数据字段】
由于自己的很多资源是爬过来的，所以资源的安全性和反扒就显得很重要，那么怎么保证自己资源在接口吐出后仍然安全【方案：upyun的防盗链空间，该空间下的资源地址有相应的时效性】
接口中没有媒体文件相关信息，而自己平台需要，例如：时长【方案：ffmpeg 支持的媒体文件解析】
下载后的视频很多在客户端无法播放【方案：在资源上传 upyun 前，进行格式和码率验证，不符合则进行相应的转码】

四、最后做下总结

对于我们视频的音视频爬虫代码体系，不一定能通用于所有的业务线，但是同类问题的思考与解决方案确是可以借鉴与应用于各个业务线的，相信项目主对大家会有不少启发

爬虫管理平台

当爬虫任务变得很多时，ssh+crontab 的方式会变得很麻烦，需要一个能随时查看和管理爬虫运行状况的平台，

SpiderKeeper+Scrapyd 目前是一个现成的管理方案，提供了不错的UI界面。功能包括：

1.爬虫的作业管理：定时启动爬虫进行数据抓取，随时启动和关闭爬虫任务

2.爬虫的日志记录：爬虫运行过程中的日志记录，可以用来查询爬虫的问题

3.爬虫运行状态查看：运行中的爬虫和爬虫运行时长查看

总结

从以上的阐述中，我们可以简单地总结一下爬虫的技术选型

如果是结构化数据（JSON 等），我们可以使用 curl，PHP 这些单线程模块的语言来处理即可
如果是非结构化数据（html 等），此时 bash 由于无法处理这类数据，需要用正则, xpath 来处理，可以用 php， BeautifulSoup 来处理，当然这种情况仅限于待爬取的 url 较少的情况
如果待爬取的 url 很多，单线程无法应付，就需要多线程来处理了，又或者需要 Cookie 管理，动态 ip 代理等，这种情况下我们就得考虑 scrapy 这类高性能爬虫框架了

根据业务场景的复杂度选择相应的技术可以达到事半功倍的效果。我们在技术选型时一定要考虑实际的业务场景。

最后，欢迎大家关注公众号「码海」，共同进步

一文学会爬虫技巧_第1张图片

你可能感兴趣的:(搜索引擎,编程语言,python,java,大数据)

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他