冰阔落

web scraper 入门到精通之路

【摘要】来一个插件帮忙翻看一下网页上的数据——webscraper，目的当然是为了学习新知识，希望在此与大家一起进步，一起成长。谢谢大家的过目！为了更加透彻清晰，将采用图文并茂的方式。（如有侵权，请及时联系我）本文来自于x-team成员：清泓。「最后更新时间2020年2月23日【持续更新】」

（本人郑重声明：抓取的所有资料著作权归被抓取方所属公司或集团，抓取数据只供学习使用，强烈谴责把数据商业化！！！请勿以身试法！）

本文主要参考文献：[1]

一.安装

安装采用的网站[2]下载，这个网站是一个插件库，实测可行。

下载下来之后，是一个crx文件，然后打开Chrome，重点是：只支持Chrome浏览器！

1.打开Chrome浏览器设置，找到拓展程序。

2.打开浏览器开发者模式。

3.将crx的后缀名改为zip格式并解压。

4.点击拓展程序里面的按钮「加载已解压的拓展程序」。

5.成功部署webscraper。

基本安装步骤就说到这里了，下面让我们来小试一下牛刀。

二.初步使用，抓取csdn官方博客的所有条目数据。

1.抓取博客第一页的所有标题。

（1）打开网页，打开调试板，找到webscraper,点击进去。

值得注意的是这个调试板必须要弄成下列模式布局，在浏览器下方的布局。

（2）添加请求头，这个就是我们的网页地址https://blog.csdn.net/blogdevteam/。

（3）理解工具含义。

创建选择器时需使用 Element preview 和 Data preview 功能以确保你选中了正确的网页元素及数据。

1）selector - CSS 选择器选取所需元素；[3]

2）multiple - 如果要选择多个记录需勾选此项。从两个或多个选中 multiple 的选择器中提取的数据不会合并到一个单独记录中；

3）delay - 选择器生效前的延迟时长；

4）parent selectors - 为此选择器选择母选择器以产生选择器树形结构；

5）文本选择器（Text selector）；

6）链接选择器（Link selector）；

7）元素选择器（Element selector）。

(4). Date extraction 选择器。

Date extraction 选择器仅从选中的元素中返回数据。譬如 Text （文本）选择器从选中的元素中提取文本。以下选择器可用作 Date extraction 选择器：

1）Text（文本）选择器；

2）Link（链接）选择器；

3）Link popup（弹出链接）选择器；

4）Image（图像）选择器；

5）Table（表格）选择器；

6）Element attribute（元素属性）选择器；

7）HTML 选择器；

8）Grouped（组块）选择器。

（5). 设定规则

(6).抓取运行和抓取结果。

(7). 结果，这就是设定的单页抓取标题的数据。

三.抓取整个博客的标题，描述和日期，阅读数，评论数。

（1）关于多页抓取。

多页抓取分很多情况，需要看一下网站的规则，csdn的博客的分页规则如下：

当点击第二页博客的数据的时候，网址链接变成了https://blog.csdn.net/blogdevteam//article/list/2?

再看再这个博客内容有多少页。

可以看到总共37页。

设置完之后保存一下设置,跑一下，测试一下结果是否正确。

可以看到最小页码是1，最大页码是37，抓取数据成功。现在来创建同级数据的多个数据集,道理同上，只是多了一个内容类型而已。现在的结构如下：

接下来多建几个同级的内容。

让我们来试一下效果，action。

这个是有残缺的，每行至多一个数据内容，其余的全没了，是随机的丢失。为什么会出现这种情况呢？？？？？？太奇怪了。检查一下：

1.首先结构是没有问题的。

2.单条数据没问题。

3.逐条检查规则没任何问题。

原因定位在multiple！

这个只能配置一个作为起始点。感觉和只能有一个主键key差不多了。

疑似原因的解除如下，设定之后，成功加载出数据，然后导出为Excel文档。

导出Excel文档如下：

注意：一个常见错误是同时创建两个选择器设定选项均选中 multiple，期望结果自然合并。例如，如果同时选择分页链接和导航链接，这些链接无法自然合并。正确的方法是使用元素选择器选用 Element 元素，并将 Data 选择器作为子选择器添加到 Element 选择器中，而不是选中 multiple 选项。

这个要特别注意，当时爬取网站的时候，是把multiple当成了一个类型选择器在使用，正确用法应该在默认_root的目录下新建一个类型选择器进行合并操作，相当于把一撮毛用橡皮筋卷起来，这个element就相当于那个橡皮筋。

2020年2月23日补充说明：（在此感谢热心知友提出的问题，以下提供的图片，也是热心网友提供的）

如下图所示，multiple1图是利用multiple对所选数据进行抓取的，但是，这个会出现一个问题，就是多个元素的批量抓取的时候，容易出现multiple2图出现的情况，单条数据的元素不能完全被抓下来，造成了单条数据的元素缺失，比如说，我抓取的电影，有三个元素，一个是电影标题，第二个元素是电影简介，第三个元素是电影评分，而结果是我们只抓取到了电影简介，或者只抓取到了电影标题。

multiple1(只设置了multiple)

multiple2

解决方案，在_root目录下加一个element类型的元素束，把这些元素捆起来。如下图element3所示：

element3

2020年3月21日补充说明：

添加element的方法：

选择element类型的选择器

element内容区域其实就是一个母容器

element创建成功

四.关于多级数据的抓取。

二级页面抓取，可以设定一个子数据源的selector。

现在开始，我们来爬一个处女座程序猿的博客，做个简单一点的，多级页面的的每页的单个数据源和多级页面的全部正文，这里主要偏向的有两个方面，其一是多级页面的数据抓取，其一是子数据源的桥接点的建立。

1.我们首先来新建一个请求头，然后暂且不抓太多数据，就抓取处女座程序猿的1-5页的博客数据。请求头如下，点击保存。

2.创建父类选择器。

父类选择器创建成功，我们可以在这个父类选择器里面创建新的子类选择器了。

点击父类选择器我们可以再新建一个子类选择器，我们这里先把流程简单化，每个分级都只带一个属性，这个本身是一个桥接点，类型为link,是一个链接，意思就是以标题为链接源，（相当于我们手动点击知乎某个推送标题可以进入具体文章浏览内容）这个当然是分在我们刚才创建的root目录下面的。

3.开始抓取二级页面内容。

打开子页面之后，我们直接在刚才建立的子选择器里面添加文本类型的选择器就行了，内容选中为整个文章的内容。

4.整个页面结构图。

五. 多级页面的热身运动到此为止，接下来，是多级页面的多数据抓取，首先思路是：

1.创建一个公共的父类选择器。

2.创建多个分支选择器。

3.在分支选择器的下面创建多个子类分支内容，可以子生子，孙子生孙子。

这个是抓取的数据字段：

{"_id":"zhihu","startUrl":["https://www.zhihu.com/question/352108632"],
"selectors":[{"id":"anwer","type":"SelectorElementScroll","parentSelectors":
["_root"],"selector":"div.List-item:nth-of-type(1)","multiple":true,"delay":0},
{"id":"name","type":"SelectorText","parentSelectors":["anwer"],
"selector":"#Popover13-toggle a","multiple":false,"regex":"","delay":0},
{"id":"Agree with the number","type":"SelectorText","parentSelectors":["anwer"],
"selector":".Voters button","multiple":false,"regex":"","delay":0},
{"id":"content","type":"SelectorText","parentSelectors":["anwer"],
"selector":"span[itemprop='text']","multiple":false,"regex":"","delay":0},
{"id":"Editing time","type":"SelectorText","parentSelectors":
["anwer"],"selector":"a span","multiple":false,"regex":"","delay":0},
{"id":"comment","type":"SelectorText","parentSelectors":["anwer"],
"selector":"button.ContentItem-action:nth-of-type(1)",
"multiple":false,"regex":"","delay":0}]}

六. 关于滚动网页的多数据抓取

以知乎回答为例子:

注意点：选择内容属性的时候，特别是标签属性的时候，一定要选对，选不对会出现数据抓取失败的情况。

2019年11月11日～12日关于抓取二级页面的固定点击事件中的内容

最近爬取网站的时候，发现二级页面的数据中有一个展开数据的情况，如果不点击的时候会导致收起的页面抓取不到。

抓取海单词[4]数据的实际问题：里面的近反义词有时候是展开的有时候是收起的，webscraper无法自动识别导致所有数据都是空值。在webscraper中写上适合自己的网站实际情况的爬虫。

查看官方文档，我看到了一个好东西，仔细看了一下Element click的功能，嗯，可以，好像这个以前我认为只能获取分页数据的点击跳转页面的东西，好像还有一个作用，可以在当前页面点击按钮然后爬取点击事件结束之后的内容。仔细研究了一下。

4.11 Element click（元素点击）选择器

Element click 选择器使用方式类似 Element 选择器。主要目的也是元素选择，作为子选择器的母选择器。唯一差别在于， Element click 选择器可通过点击按钮同网站交互，以加载新元素。比如采用 JavaScript 以及 AJAX 技术进行导航或页面加载的网页。

4.11.1 配置选项

1）selector - CSS 选择器，用于选择元素，作为子选择器的母选择器。

2）click selector - CSS 选择器，用于点击按钮加载更多元素。

3）click type - 选择器类型，用于指示选择如何得知无新元素并停止点击。

4）click element uniqueness（点击元素独特性）- 选择器如何的是按钮已点击过。

5）multiple - 选中多项记录（默认应选中）。子选择器的 multiple 通常不选。

6）delay- 配置在点击及元素搜索之间的间隔。此项需指定，因为按钮点击后数据未必能立刻加载。因为服务器响应没那么及时，要想不丢失数据，最好设为 2000ms 以上。

7）Discard initial elements（忽略初始元素）- 选择器不会选中在第一次点击按钮前就已经存在的元素。这在去重时很有用。

4.11.2 Click type 点击类型

重点：

1）Click Once 点击一次

Click Once 只会点击按钮一次。如果符合条件的新按钮出现亦会点击。比如导航链接可能只会显示1~5，6~10随后才会显示。此选择器也会对它们（6~10）进行点击。

2）Click More 点击更多

Click More 会点击已有按钮直至无新元素出现。新元素按照有独有文本内容进行认定。

4.11.3 Click element uniqueness 点击元素独特性

当使用 Click Once 同一按钮只会被点击一次。当使用 Click More 会一直点击直到不产生新元素。

1）Unique Text - 有同样文本内容的按钮被视为同一按钮

2）Unique HTML+Text - 有同样 HTML 和文本内容的按钮被视为同一按钮

3）Unique HTML - 有同样 HTML 的按钮被视为同一按钮

4）Unique CSS Selector - 有同样 CSS 选择器的按钮被视为同一按钮

案例：

具体来说：

1.Click type

点击类型，click more 表示点击多次，因为我们要抓取批量数据，这里就选择 click more，还有一个 click once 选项，点击一次

2.Click element uniqueness

这个选项是控制 Web Scraper 什么时候停止抓取数据的。比如说 Unique Text，表示文字改变时停止抓取数据。

我们都知道，一个网站的数据不可能是无穷无尽的，总有加载完的时候，这时候「加载更多」按钮文字可能就变成「没有更多」、「没有更多数据」、「加载完了」等文字，当文字变动时，Web scraper 就会知道没有更多数据了，会自动停止抓取数据。

3.Multiple

这个我们的老朋友了，表示是否多选，这里我们要抓取多条数据，当然要打勾。

4.Discard initial elements

是否丢弃初始元素，这个主要是去除一些网站的重复数据用的，不是很重要，我们这里也用不到，直接选择 Never discard，从不丢弃数据。

5.Delay

延迟时间，因为点击加载更多后，数据加载需要一段时间，delay 就是等待数据加载的时间。一般我们设置要大于等于 2000，因为延迟 2s 是一个比较合理的数据，如果网络不好，我们可以设置更大的数字。

这次海词词典上的应用可以说正好可以应用到这个东西。

这个问题是解决了，说一下实际操作：

首先是我们有自己的服务器的情况下，

我们自己建立一个h5页面，写上链接，本次利用了webscraper抓取二级页面的特性，在第一个页面，人工写入网页链接。然后海词词典的数据。（本人郑重声明：海词词典的所有资料著作权归属海词词典所属公司，抓取数据只供学习使用，强烈谴责把数据商业化！！！请勿以身试法！）

h5编写页面如下图：

在浏览器中打开编写的实际网页显示如下图：

在这里我们利用webscraper抓取二级页面的属性，抓取海词资源。我们可以看到以下这种情况：

这图中还有点击事件的，点击进去还有查看更多。。。

于是应证了我之前所出现的那一点问题。

解决办法把图中第一节的json文件变动一下：

{"_id":"test_python_bigboom","startUrl":
["http://shupai.downline.cn/local_test_db_009/001_center_data_shupai/000_test_python_webscraper_data_explesion.html"],
"selectors":[{"id":"root","type":"SelectorElement","parentSelectors":["_root"],
"selector":"a","multiple":true,"delay":0},{"id":"titlelink","type":"SelectorLink",
"parentSelectors":["root"],"selector":"_parent_","multiple":true,"delay":0},
{"id":"word_name","type":"SelectorText","parentSelectors":["titlelink"]
,"selector":"h1.keyword","multiple":false,"regex":"","delay":0},
{"id":"haici_n","type":"SelectorText","parentSelectors":["titlelink"],
"selector":".basic li:nth-of-type(1)","multiple":false,"regex":"","delay":0},
{"id":"haici_adj","type":"SelectorText","parentSelectors":["titlelink"],
"selector":".basic li:nth-of-type(2)","multiple":false,"regex":"","delay":0},
{"id":"haici_pron","type":"SelectorText","parentSelectors":["titlelink"],
"selector":".basic li:nth-of-type(3)","multiple":false,"regex":"","delay":0},
{"id":"Detailed interpretation","type":"SelectorText","parentSelectors":
["titlelink"],"selector":"div.detail","multiple":false,"regex":"","delay":0},
{"id":"Near antonym","type":"SelectorText","parentSelectors":["titlelink"],
"selector":"div.nfo","multiple":false,"regex":"","delay":0},
{"id":"Proximity word","type":"SelectorElementClick","parentSelectors":
["titlelink"],"selector":".rel h3.cur","multiple":false,"delay":0,
"clickElementSelector":".rel h3.cur","clickType":"clickOnce",
"discardInitialElements":"do-not-discard","clickElementUniquenessType":
"uniqueText"}]}

变动为：

{"_id":"test_python_bigboom","startUrl":
["http://shupai.downline.cn/local_test_db_009/001_center_data_shupai/000_test_python_webscraper_data_explesion.html"],
"selectors":[{"id":"root","type":"SelectorElement","parentSelectors":
["_root"],"selector":"a","multiple":true,"delay":0},{"id":"titlelink","type":
"SelectorLink","parentSelectors":["root"],"selector":"_parent_",
"multiple":true,"delay":0},{"id":"word_name","type":"SelectorText",
"parentSelectors":["titlelink"],"selector":"h1.keyword",
"multiple":false,"regex":"","delay":0},
{"id":"haici_n","type":"SelectorText","parentSelectors":["titlelink"],
"selector":".basic li:nth-of-type(1)","multiple":false,"regex":"","delay":0},
{"id":"haici_adj","type":"SelectorText","parentSelectors":["titlelink"],
"selector":".basic li:nth-of-type(2)","multiple":false,"regex":"","delay":0},
{"id":"haici_pron","type":"SelectorText","parentSelectors":["titlelink"],
"selector":".basic li:nth-of-type(3)","multiple":false,"regex":"","delay":0},
{"id":"Detailed interpretation","type":"SelectorText","parentSelectors":
["titlelink"],"selector":"div.detail","multiple":false,"regex":"","delay":0},
{"id":"Near antonym","type":"SelectorText","parentSelectors":["titlelink"],
"selector":"div.nfo","multiple":false,"regex":"","delay":0},
{"id":"Proximity word","type":"SelectorElementClick","parentSelectors":
["titlelink"],"selector":"div.nwd","multiple":true,"delay":"2000",
"clickElementSelector":".rel h3.cur","clickType":"clickMore",
"discardInitialElements":"do-not-discard","clickElementUniquenessType":
"uniqueText"},{"id":"liju","type":"SelectorText","parentSelectors":
["titlelink"],"selector":"div.sort","multiple":false,"regex":"","delay":0},
{"id":"linjinyici","type":"SelectorText","parentSelectors":["Proximity word"],
"selector":"_parent_","multiple":false,"regex":"","delay":0}]}

{"_id":"test_python_bigboom","startUrl":
["http://shupai.downline.cn/local_test_db_009/001_center_data_shupai/000_test_python_webscraper_data_explesion.html"],
"selectors":[{"id":"root","type":"SelectorElement","parentSelectors":
["_root"],"selector":"a","multiple":true,"delay":0},
{"id":"titlelink","type":"SelectorLink","parentSelectors":
["root"],"selector":"_parent_","multiple":true,"delay":0},
{"id":"word_name","type":"SelectorText","parentSelectors":["titlelink"],
"selector":"h1.keyword","multiple":false,"regex":"","delay":0},{"id":"haici_n",
"type":"SelectorText","parentSelectors":["titlelink"],
"selector":".basic li:nth-of-type(1)","multiple":false,"regex":"","delay":0},
{"id":"haici_adj","type":"SelectorText","parentSelectors":["titlelink"],
"selector":".basic li:nth-of-type(2)","multiple":false,"regex":"","delay":0},
{"id":"haici_pron","type":"SelectorText","parentSelectors":
["titlelink"],"selector":".basic li:nth-of-type(3)","multiple":false,"regex":"",
"delay":0},{"id":"Detailed interpretation","type":"SelectorText","parentSelectors":
["titlelink"],"selector":"div.detail","multiple":false,"regex":"","delay":0},
{"id":"Near antonym","type":"SelectorText","parentSelectors":["titlelink"],
"selector":"div.nfo","multiple":false,"regex":"","delay":0},
{"id":"Proximity word","type":"SelectorElementClick","parentSelectors":
["titlelink"],"selector":"div.nwd","multiple":true,"delay":"2000",
"clickElementSelector":".rel h3.cur","clickType":"clickMore",
"discardInitialElements":"do-not-discard","clickElementUniquenessType":"uniqueText"},
{"id":"liju","type":"SelectorText","parentSelectors":["titlelink"],
"selector":"div.sort","multiple":false,"regex":"","delay":0},
{"id":"linjinyici","type":"SelectorText","parentSelectors":
["Proximity word"],"selector":"_parent_","multiple":false,"regex":"","delay":0}]}

以下是结构图：

实际效果：到最后proximityword 为 elemtmore类型的click，所以不会在成果表单中显示，

proximity word 之后的 linjinyici为text类型，是真正展现在结果表单中的展示数据。

可以看下结果，以前是抓不到的。

上述仅仅为方法，真正应用实战中又出现了一部分问题，

所以进行了第二次修订：

树形图如下：

由于webscraper的树形图片区只有这么大（反正左右拉，上下拉都没有放大，将就一下，看不清直接导入json文件即可。）

以下为json文件：

{"_id":"python_haici","startUrl":
["http://shupai.downline.cn/001_center_data_shupai/000_test_python_webscraper_data_explesion.html"],
"selectors":[{"id":"base","type":"SelectorElement","parentSelectors":["_root"],
"selector":"a","multiple":true,"delay":0},{"id":"links","type":"SelectorLink",
"parentSelectors":["base"],"selector":"_parent_","multiple":true,"delay":0},
{"id":"word","type":"SelectorText","parentSelectors":["links"],
"selector":"h1.keyword","multiple":false,"regex":"","delay":0},
{"id":"Basic interpretation","type":"SelectorText","parentSelectors":["links"],
"selector":"div.word","multiple":false,"regex":"","delay":0},
{"id":"type_one","type":"SelectorText","parentSelectors":["links"],
"selector":".detail span:nth-of-type(1)","multiple":false,"regex":"","delay":0},
{"id":"Explain one","type":"SelectorText","parentSelectors":["links"],
"selector":".detail ol:nth-of-type(1)","multiple":false,"regex":"","delay":0},
{"id":"type_two","type":"SelectorText","parentSelectors":["links"],
"selector":".detail span:nth-of-type(2)","multiple":false,"regex":"","delay":0},
{"id":"Explain two","type":"SelectorText","parentSelectors":["links"],
"selector":".detail ol:nth-of-type(2)","multiple":false,"regex":"","delay":0},
{"id":"type_three","type":"SelectorText","parentSelectors":["links"],
"selector":".layout span:nth-of-type(3)","multiple":false,"regex":"","delay":0},
{"id":"Explain_three","type":"SelectorText","parentSelectors":
["links"],"selector":".detail ol:nth-of-type(3)","multiple":false,"regex":"",
"delay":0},{"id":"type_four","type":"SelectorText","parentSelectors":["links"],
"selector":"span:nth-of-type(4)","multiple":false,"regex":"","delay":0},
{"id":"Explain four","type":"SelectorText","parentSelectors":
["links"],"selector":"ol:nth-of-type(4)","multiple":false,"regex":"","delay":0},
{"id":"type_five","type":"SelectorText","parentSelectors":["links"],
"selector":"span:nth-of-type(5)","multiple":false,"regex":"","delay":0},
{"id":"Explain_five","type":"SelectorText","parentSelectors":
["links"],"selector":"ol:nth-of-type(5)","multiple":false,"regex":"","delay":0},
{"id":"type_six","type":"SelectorText","parentSelectors":
["links"],"selector":"span:nth-of-type(6)","multiple":false,"regex":"","delay":0},
{"id":"Explain_six","type":"SelectorText","parentSelectors":
["links"],"selector":"ol:nth-of-type(6)","multiple":false,"regex":"","delay":0},
{"id":"English plus English interpretation click",
"type":"SelectorElementClick","parentSelectors":["links"],
"selector":"div.en","multiple":false,"delay":"400",
"clickElementSelector":".def h3.cur","clickType":"clickMore",
"discardInitialElements":"do-not-discard","clickElementUniquenessType":
"uniqueText"},{"id":"English plus English interpretation++",
"type":"SelectorText","parentSelectors":
["English plus English interpretation click"],"selector":
"_parent_","multiple":false,"regex":"","delay":0},
{"id":"Double interpretation click","type":
"SelectorElementClick","parentSelectors":["links"],"selector":
"div.dual","multiple":false,"delay":"400","clickElementSelector":
".def h3.cur","clickType":"clickMore","discardInitialElements":"do-not-discard",
"clickElementUniquenessType":"uniqueText"},
{"id":"Double interpretation++","type":"SelectorText","parentSelectors":
["Double interpretation click"],"selector":"_parent_","multiple":false,"regex":"",
"delay":0},{"id":"Example","type":"SelectorText","parentSelectors":["links"],
"selector":"div.sort","multiple":false,"regex":"","delay":0},
{"id":"Common sentence pattern click",
"type":"SelectorElementClick","parentSelectors":["links"],"selector":
"div.patt","multiple":false,"delay":"400","clickElementSelector":
".sent h3.cur","clickType":"clickOnce","discardInitialElements":
"do-not-discard","clickElementUniquenessType":"uniqueText"},
{"id":"Common sentence pattern++","type":"SelectorText","parentSelectors":
["Common sentence pattern click"],"selector":
"_parent_","multiple":false,"regex":"","delay":0},
{"id":"Common Phrases click","type":
"SelectorElementClick","parentSelectors":["links"],
"selector":"div.phrase","multiple":false,"delay":"400","clickElementSelector":
".sent h3.cur","clickType":"clickOnce","discardInitialElements":"do-not-discard",
"clickElementUniquenessType":"uniqueText"},
{"id":"Common Phrases++","type":"SelectorText","parentSelectors":
["Common Phrases click"],"selector":"_parent_","multiple":false,"regex":"",
"delay":0},{"id":"Vocabulary matching click","type":
"SelectorElementClick","parentSelectors":["links"],"selector":"div.coll",
"multiple":false,"delay":0,"clickElementSelector":".sent h3.cur","clickType":
"clickOnce","discardInitialElements":"do-not-discard","clickElementUniquenessType":
"uniqueText"},{"id":"Vocabulary matching++",
"type":"SelectorText","parentSelectors":["Vocabulary matching click"],
"selector":"_parent_","multiple":false,"regex":"","delay":0},
{"id":"Classic citation click","type":
"SelectorElementClick","parentSelectors":["links"],
"selector":"div.auth","multiple":false,"delay":"400","clickElementSelector":
".sent h3.cur","clickType":"clickOnce","discardInitialElements":"do-not-discard",
"clickElementUniquenessType":"uniqueText"},
{"id":"Classic citation++","type":"SelectorText","parentSelectors":
["Classic citation click"],"selector":"_parent_","multiple":false,"regex":
"","delay":0},{"id":"Word usage","type":"SelectorText","parentSelectors":
["links"],"selector":"div.ess","multiple":false,"regex":"","delay":0},
{"id":"Discrimination of word meaning click","type":
"SelectorElementClick","parentSelectors":
["links"],"selector":"div.discrim","multiple":false,"delay":"400",
"clickElementSelector":".learn h3.cur","clickType":
"clickOnce","discardInitialElements":"do-not-discard","clickElementUniquenessType":
"uniqueText"},{"id":"Discrimination of word meaning++",
"type":"SelectorText","parentSelectors":["Discrimination of word meaning click"],
"selector":"_parent_","multiple":false,"regex":"","delay":0},
{"id":"Common mistakes click","type":"SelectorElementClick","parentSelectors":
["links"],"selector":"div.comn","multiple":false,"delay":"400",
"clickElementSelector":".learn h3.cur","clickType":"clickOnce",
"discardInitialElements":"do-not-discard","clickElementUniquenessType":
"uniqueText"},{"id":"Common mistakes++","type":"SelectorText","parentSelectors":
["Common mistakes click"],"selector":
"_parent_","multiple":false,"regex":"","delay":0},
{"id":"Etymological explanation click","type":
"SelectorElementClick","parentSelectors":["links"],"selector":"div.etm",
"multiple":false,"delay":"400","clickElementSelector":
".learn h3.cur","clickType":"clickOnce","discardInitialElements":
"do-not-discard","clickElementUniquenessType":"uniqueText"},
{"id":"Etymological explanation++","type":"SelectorText","parentSelectors":
["Etymological explanation click"],
"selector":"_parent_","multiple":false,"regex":"","delay":0},
{"id":"Near antonym","type":"SelectorText","parentSelectors":
["links"],"selector":"div.nfo","multiple":false,"regex":"","delay":0},
{"id":"Proximity word click","type":"SelectorElementClick","parentSelectors":
["links"],"selector":"div.nwd","multiple":false,
"delay":"400","clickElementSelector":".rel h3.cur","clickType":"clickOnce",
"discardInitialElements":"do-not-discard","clickElementUniquenessType":
"uniqueText"},{"id":"Proximity word++","type":"SelectorText","parentSelectors":
["Proximity word click"],"selector":"_parent_","multiple":false,"regex":
"","delay":0}]}

这边也没什么特点好说的，主要是一点，类型太多，动名词等类型有的单词有很多，而有的单词没有，有多种类型的单词解释，多类型的单词解释那一部分数据必不可缺，类型少的单词有的数据类型列是为空值的。

虽然说后期的列表排序和管理比较困难，但是必须这么去做，不然有一部分数据是抓取不到的。

实例：（no单词和one单词的用例标签栏有区别，或多或少）

这边用六个类型囊括详尽释义，对于详尽释义这一栏我重点抓取，

造成的是部分type类型为空，因为有的单词没有这么多类型，而有的单词达到六个类型之多。

但这一栏的分开写，分类型写，我认为是有必要的，因为便于以后学习。分清楚这些基本类型，动，名，代，数。。。词。

OK里面就有几个是空值，但是这个不可避免。

晒一下抓取之后的结果图：

好了，解释就到这里了，这个可能只有实际操作网页才能弄透彻，希望大家动手实操，一起学习，一起进步！

这个插件还有一些内容可以深挖，而且有很多隐藏性的问题，可能存在属性冲突之类的疑难问题，可能使用还不够熟悉，需要多加熟悉。

本文将持续更新，完善，对此文档有疑问或者对这方面有兴趣的同志可以留言联系我，与我一起学习，一起进步，come on!

2019年12月6日更新

大家好久不见哈。今天给大家实战一个项目。本次是抓取易读网[5]的小说。本人不具备版权，大家记得数据仅提供学习使用，私自挪用产生的一切后果，本人不承担任何连带责任。好了，不说了，展开正题。

乍一看，结构分明，非常适合操作。来来来，操作一把。

没有任何“杂质”（华丽布局，繁杂广告等）而且外表看似一个非常好抓的网站，谁料到它是分离型的结构。没有外框，这就意味着不能设置元素选择器。元素选择器需要设置一大片区域，Element...想了一下，直接把外部标题弄成束状集结点。具体结构如下图所示。

json串如下：

{"_id":"yidu","startUrl":["https://yiduks.com/artlist_[1-5].html"],
"selectors":[{"id":"外部标题","type":"SelectorText","parentSelectors":["_root"],
"selector":".b_title a","multiple":true,"regex":"","delay":0},
{"id":"版权作者","type":"SelectorText","parentSelectors":["_root"],"selector":
".b_auth a","multiple":false,"regex":"","delay":0},
{"id":"小说类型","type":"SelectorText","parentSelectors":["_root"],
"selector":"div.b_artc","multiple":false,"regex":"","delay":0},
{"id":"是否连载","type":"SelectorText","parentSelectors":["_root"],
"selector":"div.b_staus","multiple":false,"regex":"","delay":0},
{"id":"点击阅读","type":"SelectorLink","parentSelectors":["_root"],
"selector":".b_read a","multiple":true,"delay":0},
{"id":"章节链接","type":"SelectorLink","parentSelectors":["点击阅读"],
"selector":"td[width] a","multiple":true,"delay":0},
{"id":"小说章节","type":"SelectorText","parentSelectors":
["章节链接"],"selector":"b","multiple":false,"regex":"","delay":0},
{"id":"小说作者","type":"SelectorText","parentSelectors":["章节链接"],"selector":
".MC a[title]","multiple":false,"regex":"","delay":0},
{"id":"小说正文","type":"SelectorText","parentSelectors":["章节链接"],
"selector":"div.ART","multiple":false,"regex":"","delay":0}]}

后来发现了一个问题，就是，这个网站做了如下限制：（有的章节不能看，这个不是爬取数据被识别出来了，而是网站本身的问题）

解决方案：

ok,填入邀请码，不影响我们的接下来的操作，继续爬。

这个为结果，构成结构还需要调整一下。

2019年11月19日更新：

经过后续测试，发现是我之前错了，这个Element可以多个条目的情况下使用，当然，其他问题，我之前所担心的只能抓取单条数据的可能存在的问题，都不是问题。

所以，这次经历告诉我，实践是检验真理的唯一标准，不要以自己的猜想和臆测，或者根据之前的经验，而妄下定论。

这个修改起来是不能直接在那个地方修改的，只能在json字符串里面进行改动，只需要在前面的头部结构加一个束状元素把它们捆绑起来就OK。

修改json数据如下：

测试窗口：

这里要详细解释一下之前出现的问题。

问题体现在设立元素选择器的时候，没有大框，不能一下选定所有需要爬取的数据，如果没有整合，如何能够抓取里面的内容。

因为束状选择器（这个算是无中生有的名字，这是我自己命名的，其实就是我之前文档中所说过的，一个橡皮筋的作用）里面包含了

所有的内容，下一级的内容都要从这个大盘子中获取。

这里是一条一条叠起来的element区域。详情见下图：

连续点击两条条目数据之后叠加，和子类数据条目获取一个概念。

我这里就不对抓取详细说明了，第一为了减少篇幅，我削减了很多之前已经在此栏目说明的抓取方法，如果对基本使用存在疑问可以往上面看一下之前的项目怎么抓取的。再次感谢大家追更的心。篇幅确实有点长。

以下我对本次抓取的结构放在下面。如果对本次抓取的结构还有疑问，请复制此json串慢慢研究。

测试json如下：

{"_id":"yidutwo","startUrl":
["https://yiduks.com/artlist_[1-2].html"],"selectors":
[{"id":"test","type":"SelectorElement","parentSelectors":["_root"],
"selector":"div.b_row","multiple":true,"delay":0},
{"id":"title","type":"SelectorText","parentSelectors":["test"],
"selector":".b_title a","multiple":false,"regex":"","delay":0},
{"id":"auther","type":"SelectorText","parentSelectors":["test"],
"selector":".b_auth a","multiple":false,"regex":"","delay":0},
{"id":"type","type":"SelectorText","parentSelectors":
["test"],"selector":"div.b_artc","multiple":false,"regex":"","delay":0},
{"id":"yesnonext","type":"SelectorText",
"parentSelectors":["test"],"selector":"div.b_staus",
"multiple":false,"regex":"","delay":0},
{"id":"readclick","type":"SelectorLink",
"parentSelectors":["test"],"selector":".b_read a",
"multiple":false,"delay":0}]}

根据这个json,改动正式结构的json结构如下：

{"_id":"yidu","startUrl":
["https://yiduks.com/artlist_[1-5].html"],
"selectors":[{"id":"yiduelement","type":"SelectorElement","parentSelectors":
["_root"],"selector":"div.b_row","multiple":true,"delay":0},
{"id":"外部标题","type":"SelectorText","parentSelectors":["test"],"selector":
".b_title a","multiple":false,"regex":"","delay":0},
{"id":"版权作者","type":"SelectorText","parentSelectors":["_root"],
"selector":".b_auth a","multiple":false,"regex":"","delay":0},
{"id":"小说类型","type":"SelectorText","parentSelectors":
["_root"],"selector":"div.b_artc","multiple":false,"regex":"","delay":0},
{"id":"是否连载","type":"SelectorText","parentSelectors":["_root"],
"selector":"div.b_staus","multiple":false,"regex":"","delay":0},
{"id":"点击阅读","type":"SelectorLink","parentSelectors":["_root"],
"selector":".b_read a","multiple":false,"delay":0},
{"id":"章节链接","type":"SelectorLink","parentSelectors":["点击阅读"],
"selector":"td[width] a","multiple":true,"delay":0},
{"id":"小说章节","type":"SelectorText","parentSelectors":
["章节链接"],"selector":"b","multiple":false,"regex":"","delay":0},
{"id":"小说作者","type":"SelectorText","parentSelectors":["章节链接"],
"selector":".MC a[title]","multiple":false,"regex":"","delay":0},
{"id":"小说正文","type":"SelectorText","parentSelectors":["章节链接"],
"selector":"div.ART","multiple":false,"regex":"","delay":0}]}

{"_id":"yidu","startUrl":
["https://yiduks.com/artlist_[1-5].html"],
"selectors":[{"id":"外部标题","type":"SelectorText","parentSelectors":["_root"],
"selector":".b_title a","multiple":false,"regex":"","delay":0},
{"id":"版权作者","type":"SelectorText","parentSelectors":["_root"],
"selector":".b_auth a","multiple":false,"regex":"","delay":0},
{"id":"小说类型","type":"SelectorText","parentSelectors":
["_root"],"selector":"div.b_artc","multiple":false,"regex":"","delay":0},
{"id":"是否连载","type":"SelectorText","parentSelectors":
["_root"],"selector":"div.b_staus","multiple":false,"regex":"","delay":0},
{"id":"点击阅读","type":"SelectorLink","parentSelectors":
["_root"],"selector":".b_read a","multiple":false,"delay":0},
{"id":"章节链接","type":"SelectorLink","parentSelectors":["点击阅读"],
"selector":"td[width] a","multiple":true,"delay":0},
{"id":"小说章节","type":"SelectorText","parentSelectors":["章节链接"],
"selector":"b","multiple":false,"regex":"","delay":0},
{"id":"小说作者","type":"SelectorText","parentSelectors":["章节链接"],
"selector":".MC a[title]","multiple":false,"regex":"","delay":0},
{"id":"小说正文","type":"SelectorText","parentSelectors":["章节链接"],
"selector":"div.ART","multiple":false,"regex":"","delay":0}]}

{"_id":"yidu","startUrl":
["https://yiduks.com/artlist_[1-5].html"],"selectors":
[{"id":"yidu","type":"SelectorElement","parentSelectors":["_root"],
"selector":"div.b_row","multiple":true,"delay":0}
{"id":"bubiaoti","type":"SelectorText","parentSelectors":["test"],
"selector":".b_title a","multiple":false,"regex":"","delay":0},
{"id":"banquanzuozhe","type":"SelectorText","parentSelectors":["_root"],
"selector":".b_auth a","multiple":false,"regex":"","delay":0},
{"id":"xiaoshuoleixing","type":"SelectorText","parentSelectors":
["_root"],"selector":"div.b_artc","multiple":false,"regex":"","delay":0},
{"id":"shifoulianzai","type":"SelectorText","parentSelectors":["_root"],
"selector":"div.b_staus","multiple":false,"regex":"","delay":0},
{"id":"yuedu","type":"SelectorLink","parentSelectors":["_root"],
"selector":".b_read a","multiple":false,"delay":0},
{"id":"ielianjie","type":"SelectorLink","parentSelectors":["dianjiyuedu"],
"selector":"td[width] a","multiple":true,"delay":0},
{"id":"zhangjie","type":"SelectorText","parentSelectors":["lianjie"],
"selector":"b","multiple":false,"regex":"","delay":0},
{"id":"zuozhe","type":"SelectorText","parentSelectors":["elianjie"],
"selector":".MC a[title]","multiple":false,"regex":"","delay":0},
{"id":"hengwen","type":"SelectorText","parentSelectors":["lianjie"],
"selector":"div.ART","multiple":false,"regex":"","delay":0}]}

欢迎关注 技术团队的知乎账号我们凭团队实例运作以下专栏，必须干货！

互联网创业专栏 (我们小伙伴的创业历程)

与您一起聊技术 (APP、微信公众号、小程序、H5 技术总结)

互联网产品研发管理 (我们公司对产品结构的管理思路)

我们是不一样的技术团队:

（我们认为:所有的企业行为，都解读为交易行为，无论是摩拜单车、外卖平台、自动售货机、招聘社区、家政服务，都用交易的语言来表达，我们专栏里面有很多实际案例和开发过程和交付流程）

（类似于元素周期表，我们把交易拆解成元素级别，根据业务定制组装，完全复原个性化需求，我们专栏里面有很学术也很实际的介绍)

(每个项目设置: 导师成长基金、参与人员的奖励，全员股权池，创业氛围浓郁，我们专栏公开分享了我们的一些经验)

(专治各种复杂的业务场景，我们通过简洁的元素和分层组合，来完成复杂场景的业务定制，我们在这一块有非常多的案例，在互联网创业专栏里面有详细描述)

参考

^网页数据抓取工具，webscraper 最简单的数据抓取教程，人人都用得上 https://www.cnblogs.com/fengzheng/p/8440806.html
^crxdl插件网 https://crxdl.com
^webscraper官方文档 http://webscraper.top/543178
^海词网 https://m.dict.cn/
^易读网 http://www.yidukk.com/

你可能感兴趣的:(Selenium,WebMagic)

使用Python爬虫抓取并分析电商网站销量数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 selenium
目录：前言爬虫基础概念什么是Web爬虫爬虫的工作原理Python爬虫库介绍准备工作安装所需的库选择目标电商网站分析目标电商网站使用浏览器开发者工具分析页面结构识别需要抓取的销量数据构建爬虫程序使用requests获取网页使用BeautifulSoup解析静态网页使用Selenium抓取动态页面防止反爬虫技术模拟浏览器请求使用代理池随机延迟请求抓取电商网站的销量数据抓取商品标题、销量、价格等信息处理
【数据分析】4 商业数据分析技能模型总结 loyd3 数据分析数据分析数据挖掘
优秀的商业分析师需要具备的能力数据分析能力逻辑思维能力赢得结果能力一、数据分析能力扩展：工具链生态与进阶场景1.数据获取技术升级企业级数据源管理：数据湖架构（AWSS3/阿里云OSS）与数据仓库（Snowflake/Redshift）权限管理API自动化采集（Postman+PythonRequests模块）反爬虫策略突破（IP代理池/Selenium模拟登录）新兴数据源拓展：社交舆情数据（Twi
selenium浏览器下载汇总 gallonyin RPA selenium 测试工具
chromedriver官网：https://googlechromelabs.github.io/chrome-for-testing/下载chromewin64位：https://storage.googleapis.com/chrome-for-testing-public/131.0.6778.85/win64/chrome-win64.zip下载chromedriverwin64位：ht
selenium 调用chrome driver 报错 feelxing selenium selenium chrome chrome driver
一、配置Systeminfo:host:'MEV-PC',ip:'192.168.1.2',os.name:'Windows7',os.arch:'amd64',os.version:'6.1',java.version:'1.8.0_112'chromedrivert2.9selenium-java版本3.31二、运行代码三、错误Exceptioninthread"main"org.openqa
Selenium按文本查找元素全解析 test猿 selenium 测试工具
以下方法基于Python语言实现，适用于最新版Selenium4.15+，建议收藏备用！‌方法一：XPath文本定位‌pythonCopyCode#精确匹配文本（全字符匹配）element=driver.find_element(By.XPATH,'//*[text()="完整文本内容"]')#部分匹配文本（包含指定字符串）element=driver.find_element(By.XPATH,
支持selenium的chrome driver更新到133.0.6943.126 代码的乐趣 selenium chrome python
最近chrome释放新版本：133.0.6943.126如果运行selenium自动化测试出现以下问题，是需要升级chromedriver才可以解决的。selenium.common.exceptions.SessionNotCreatedException:Message:sessionnotcreated:ThisversionofChromeDriveronlysupportsChromev
支持selenium的chrome driver更新到133.0.6943.98 代码的乐趣 selenium chrome python
最近chrome释放新版本：133.0.6943.98如果运行selenium自动化测试出现以下问题，是需要升级chromedriver才可以解决的。selenium.common.exceptions.SessionNotCreatedException:Message:sessionnotcreated:ThisversionofChromeDriveronlysupportsChromeve
支持selenium的chrome driver更新到133.0.6943.141 代码的乐趣 selenium chrome python
最近chrome释放新版本：133.0.6943.141如果运行selenium自动化测试出现以下问题，是需要升级chromedriver才可以解决的。selenium.common.exceptions.SessionNotCreatedException:Message:sessionnotcreated:ThisversionofChromeDriveronlysupportsChromev
「Selenium+Python自动化从0到1①｜2025最新环境搭建+浏览器驱动避坑指南（附验证代码）」俗人咖 selenium python 自动化
Selenium+Python自动化1-环境搭建一、Selenium简介Selenium是一个广泛使用的自动化测试工具，主要用于Web应用程序的自动化测试。它支持多种编程语言（如Java、Python、C#、Ruby、JavaScript等），并允许用户控制浏览器执行自动化任务，例如点击按钮、填写表单、验证页面内容等。Selenium可以在多种浏览器（如Chrome、Firefox、Edge、Sa
[特殊字符]️ ‌Selenium元素存在性判断的5种方法‌ test猿 selenium python 测试工具
️‌Selenium元素存在性判断的5种方法‌方法对比表方法类型执行效率异常处理适用场景推荐指数显式等待法⭐⭐⭐⭐自动处理动态加载元素⭐⭐⭐⭐⭐批量查找法⭐⭐⭐⭐无需捕获简单静态页面⭐⭐⭐⭐异常捕获法⭐⭐手动处理兼容旧代码⭐⭐JavaScript注入法⭐⭐⭐⭐无需捕获需绕过DOM检查⭐⭐⭐复合条件法⭐⭐⭐⭐自动处理复杂异步场景⭐⭐⭐⭐‌核心解决方案‌1️⃣‌显式等待法（推荐首选）‌fromsele
Web自动化之Selenium execute_script函数常用JS脚本起个破名想半天了 #python selenium:从入门到精通 selenium python 自动化 javascript
在Web自动化测试中，Selenium的execute_script函数是一个非常强大的工具，它允许我们直接在浏览器中执行JavaScript代码。使用时只需将JS代码按照字符串的格式传入即可。常用JS代码以下是一些常用的JavaScript代码示例，可以在Selenium的execute_script函数中直接使用：包括操作当前页面和操作某个元素。操作当前页面获取页面标题page_title=b
selenium如何实现，开启浏览器的开发者工具模式 test猿 selenium 测试工具
核心配置方案pythonCopyCode#通用导入方式（适配Selenium5.x+）fromseleniumimportwebdriverfromselenium.webdriver.common.serviceimportService#---------------------------#️Chrome/Edge配置方案#---------------------------defchro
selenium如何实现，开启浏览器的开发者工具模式，并且开启 toggle移动设备模拟模式 test猿 selenium 测试工具
核心实现代码pythonCopyCodefromseleniumimportwebdriverfromselenium.webdriver.chrome.optionsimportOptionsdefenable_devtools_with_toggle():options=Options()#强制开启开发者工具options.add_argument("--auto-open-devtools-
一文掌握Selenium的详细使用数据知道 2025年爬虫和逆向教程 selenium 测试工具爬虫数据采集
文章目录1.安装Selenium1.1安装Selenium库1.2下载浏览器驱动2.基础用法2.1启动浏览器2.2查找元素2.3操作元素3.高级功能3.1等待机制3.2处理弹窗3.3执行JavaScript3.4切换窗口或iframe3.5处理Cookies3.6截图3.7处理下拉菜单4.浏览器选项4.1无头模式（Headless）4.2禁用图片加载4.3设置代理5.常见应用场景5.1自动化登录5
python模拟app操作_Python爬虫入门教程 49-100 Appium安装+操作51JOB_APP（模拟手机操作之一）手机APP爬虫-阿里云开发者社区... weixin_39892019 python模拟app操作
爬前准备工作在开始安装Appium之前，你要先知道Appium是做什么的？Appium是一个自动化测试开源工具，看到没，做测试用的，它有点类似Selenium，可以自动操作APP实现一系列的操作。标记重点，可以使用python对Appium编写脚本，实现对App的抓取。今天就给你写一个100%叫你可以运行起来的入门实例。下载地址下载之后，双击exe安装即可出现如下界面，表示安装成功，先不要进行其他
【Python爬虫教程】进阶篇-16 app自动化测试appium 「已注销」 python爬虫逆向教程 python 爬虫 appium 网络爬虫网络安全
Appium是一个跨平台移动端自动化测试工具，可以非常便捷地为iOS和Android平台创建自动化测试用例。它可以模拟App内部的各种操作，如点击、滑动、文本输入等，只要我们手工操作的动作Appium都可以完成。在前面我们了解过Selenium，它是一个网页端的自动化测试工具。Appium实际上继承了Selenium，Appium也是利用WebDriver来实现App的自动化测试。对iOS设备来说
Python爬虫selenium框架基本使用啧不应该啊 Python爬虫 python 爬虫 selenium
一、安装导入使用包管理器安装pip3installselenium二、WebDriver工具要使用这个工具我们需要保证安装了一个浏览器的驱动器。Python的WebDriver是一个用于自动化Web浏览器操作的工具，它属于Selenium的一部分，特别是Selenium2.0及以后版本中，WebDriver已经成为了Selenium的主要组件。WebDriver为Web自动化提供了一个简单的接口，
Python爬虫实战：电商数据爬取与价格趋势分析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言零售 mongodb 人工智能
摘要本文详细介绍了如何使用Python编写爬虫程序，从电商网站抓取商品数据，并对价格趋势进行分析。我们将使用最新的爬虫技术和数据分析工具，包括Selenium、BeautifulSoup、Pandas和Matplotlib等。通过本文，读者将学习到如何构建一个完整的电商数据爬取与分析系统，并掌握相关技术在实际项目中的应用。关键词Python爬虫、电商数据、价格趋势分析、Selenium、Beaut
Selenium WebDriver自动化测试(框架篇)--操作Excel实现数据驱动职说测试 selenium excel 测试工具 wei自动化测试 UI自动化测试
文章目录一、引言二、操作Excel的准备工作2.1、添加ApachePOI依赖三、读取Excel文件实现数据驱动3.1、示例代码四、将测试结果写入Excel文件4.1、示例代码五、封装通用方法5.1、示例代码六、总结参考文献一、引言数据驱动测试是一种在自动化测试中广泛应用的方法，它允许使用外部数据源（如Excel文件）来提供测试数据。这种方法特别适合于需要大量不同输入数据的测试场景。Java版Se
自动化测试工具：Selenium 小俊学长测试工具自动化 selenium
Selenium作为一种广泛使用的自动化测试工具，尤其在Web自动化测试领域发挥着重要作用。为了提升测试效率、增强测试的可维护性和可读性，Selenium经常与各种流行框架集成，其中pytest和Allure报告是两个非常受欢迎的选项。本文将详细探讨Selenium与pytest以及Allure报告的集成，包括集成背景、优势、具体实现步骤以及在实际应用中的效果。一、集成背景1.Selenium简介
用selenium爬取拉钩网的职位信息 wg5foc08 Python
拉钩网的职位信息数据为ajax数据，抓取ajax数据可以直接分析数据的url接口，但是直接用requests库发送url请求会被拉钩网识别出来。1.可以通过session保存会话信息模拟请求，这时可以爬取部分信息数据，但是仍然不能爬取大量的或者完整的数据2.用selenium模拟浏览器爬取拉钩网的数据，可以完整的爬取本文拟爬取的url代码1：importrequestsfromlxmlimport
Selenium入门，最近看到的都师一些小白想学测试，今天就分享入门吧~ 程序员-小枫 selenium 自动化测试 Python selenium python 软件测试
Selenium入门（自动右键保存图片到本机上）前言入职测开一段时间，基本就是熟悉需求，熟悉业务，熟悉这熟悉那，再跟着需求做各种各样的测试和联调，趁着业余时间，也是学习了一下Selenium，在之前Selenium是我作为爬虫的工具，不过之后就用来做写一些自动化测试脚本啦~~（这里使用Python中的Selenium库进行Coding~~1、什么是SeleniumSelenium是一个用于Web应
数据采集技术：selenium/正则匹配/xpath/beautifulsoup爬虫实例写代码的中青年 3天入门机器学习 selenium beautifulsoup 爬虫 python xpath 正则表达式
专栏介绍1.专栏面向零基础或基础较差的机器学习入门的读者朋友，旨在利用实际代码案例和通俗化文字说明，使读者朋友快速上手机器学习及其相关知识体系。2.专栏内容上包括数据采集、数据读写、数据预处理、分类\回归\聚类算法、可视化等技术。3.需要强调的是，专栏仅介绍主流、初阶知识，每一技术模块都是AI研究的细分领域，同更多技术有所交叠，此处不进行讨论和分享。数据采集技术：selenium/正则匹配/xpa
智联招聘爬虫 m0_74823878 面试学习路线阿里巴巴爬虫
使用Python和Selenium进行招聘信息爬取在当今数字化时代，数据已成为企业决策的重要依据。对于人力资源部门或求职者而言，获取最新的招聘信息至关重要。然而，手动浏览和收集招聘信息不仅耗时费力，而且效率低下。为了解决这个问题，我们可以使用Python和Selenium库来自动化这一过程，实现从招聘网站上批量爬取招聘信息。准备工作在开始之前，你需要确保已经安装了以下库：Python（建议版本3.
2024年Scrapy+Selenium项目实战--携程旅游信息爬虫 2401_84563287 程序员 scrapy selenium 旅游
简介携程（you.ctrip.com）是一个提供旅游信息的网站，但它的部分内容可能是动态加载的，难以直接通过Scrapy获取。这时就需要借助Selenium这样的工具，模拟浏览器行为进行数据的获取和处理。工具准备Scrapy：一个用于爬取网站并提取结构化数据的强大框架。Selenium：一个自动化测试工具，可以模拟用户操作浏览器的行为。ChromeDriver：作为SeleniumWebDrive
Appium自动化测试框架码农黛兮_46 软件测试 appium 自动化测试工具
Appium自动化测试框架1、Appium简介1.1Appium概念Appium是一个开源的移动端自动化测试工具，适用于移动端原生APP、移动WebAPP或混合APP的自动化测试； Appium继承了Selenium(Web端自动化测试工具)，应用WebDriver(JSONwireprotocol)技术，借助操作系统自带的测试框架来驱动Android和IOS应用。特点：Appium是一个开源、跨
Chrome版本对应chromedriver的安装广拓科技 chrome 前端
用selenium配合Chrome浏览器做自动化时，需要配置chromedriver来驱动浏览器，自Chrome浏览器升级到115以后，在之前提供的下载地址或者国内常用的淘宝镜像能提供的最新驱动版本是114及以下的版本114之前chromedriver驱动版本官方：https://chromedriver.storage.googleapis.com/index.html淘宝镜像：https://
Selenium 与 Coze 集成小赖同学啊人工智能 python 自动化测试(app pc API)selenium 测试工具
涵盖两者的基本概念、集成步骤、代码示例以及相关注意事项。基本概念Selenium：是一个用于自动化浏览器操作的工具集，支持多种浏览器（如Chrome、Firefox等），能够模拟用户在浏览器中的各种操作，如点击、输入文本、选择下拉框等，常用于Web应用的自动化测试。Coze：它是一个专注于智能体交互测试的平台，可用于模拟和测试智能体在不同场景下的行为和交互效果，适用于涉及智能对话、智能决策等功能的
业务流程遍历测试：高效揪出隐藏Bug的秘诀！爱吃香菜程序员职场经验软件测试 bug 自动化测试软件测试功能测试程序员职场经验深度学习
面试求职：「面试试题小程序」，内容涵盖测试基础、Linux操作系统、MySQL数据库、Web功能测试、接口测试、APPium移动端测试、Python知识、Selenium自动化测试相关、性能测试、性能测试、计算机网络知识、Jmeter、HR面试，命中率杠杠的。（大家刷起来…）职场经验干货：软件测试工程师简历上如何编写个人信息（一周8个面试）软件测试工程师简历上如何编写专业技能（一周8个面试）软件测
自动化测试框架有哪些？爱吃香菜软件测试程序员职场经验自动化测试模型软件测试测试工具自动化测试深度学习职场经验大厂
面试求职：「面试试题小程序」，内容涵盖测试基础、Linux操作系统、MySQL数据库、Web功能测试、接口测试、APPium移动端测试、Python知识、Selenium自动化测试相关、性能测试、性能测试、计算机网络知识、Jmeter、HR面试，命中率杠杠的。（大家刷起来…）职场经验干货：软件测试工程师简历上如何编写个人信息（一周8个面试）软件测试工程师简历上如何编写专业技能（一周8个面试）软件测
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交