html转Excel若干小技巧

目录

分享背景

目标网站

获取html

清洗数据-正则替换

写入excel


分享背景

现在网络的数据很多,对于有规律的网站可以使用爬虫大规模获取,但是轻量级的数据就没必要编写爬虫了,不能每个网页都写一个程序,使用一些小技巧就可以。

目标网站

https://wenku.baidu.com/view/9e3a3559b9f3f90f76c61bc3.html

html转Excel若干小技巧_第1张图片

如上图某文库的文档,是不能复制的,而且是使用Ajax异步加载,加上N多的广告数据,有时候想爬都无力从心。我们的方法是直接复制HTML文件到一些文本编译器中,然后进行正则规范化和其他数据清洗操作。

获取html

1.等待网站加载完毕

2.按F12打开控制台

html转Excel若干小技巧_第2张图片

3.选择元素选择器并选择该表格所在的父节点

html转Excel若干小技巧_第3张图片

 可以看到div是隐藏的,不可以直接选取,只能从子节点向上查找

html转Excel若干小技巧_第4张图片

4.复制父节点html数据到任意文本

html转Excel若干小技巧_第5张图片

我这是使用的notepad++

html转Excel若干小技巧_第6张图片

选择语言html,好看一些

html转Excel若干小技巧_第7张图片

可以看到数据在

标签中

html转Excel若干小技巧_第8张图片

清洗数据-正则替换

1.去除所有

标签,Ctrl+F,调出查找器,如下设置即可,替换值replace with什么都不填

html转Excel若干小技巧_第9张图片

html转Excel若干小技巧_第10张图片

2.去除所有

标签

html转Excel若干小技巧_第11张图片

html转Excel若干小技巧_第12张图片

3.替换所有空格,方框为逗号,方框可以复制一下,或者findwhat打一个空格

html转Excel若干小技巧_第13张图片

html转Excel若干小技巧_第14张图片

4.去除多余逗号,

html转Excel若干小技巧_第15张图片

html转Excel若干小技巧_第16张图片

6.删除开头结尾的div标签,并将所有数据变为一行

html转Excel若干小技巧_第17张图片

html转Excel若干小技巧_第18张图片

html转Excel若干小技巧_第19张图片

7,每条数据都是以保质期结尾,我们就按时间单位分行,不规范的手动清理

html转Excel若干小技巧_第20张图片

html转Excel若干小技巧_第21张图片

写入excel

ctrl+a 复制

html转Excel若干小技巧_第22张图片

html转Excel若干小技巧_第23张图片

html转Excel若干小技巧_第24张图片

html转Excel若干小技巧_第25张图片

html转Excel若干小技巧_第26张图片

html转Excel若干小技巧_第27张图片

 

你可能感兴趣的:(日积跬步)