电商数据采集的网页抓取数据、淘宝、天猫、京东等平台的电商数据抓取,网页爬虫、采集网站数据、网页数据采集软件、python爬虫、HTM网页提取、APP数据抓包、APP数据采集、一站式网站采集技术、BI数据的数据分析、数据标注等成为大数据发展中的热门技术关键词。那么电商数据采集的方法有哪些呢?我给大家分享一下,我爬虫的个人经验,我们在采集类似电商数据网站的时候会遇到什么技术问题,然后再根据这些问题给大家分享采集方案。
一、写爬虫采集网站之前:
为什么经常听到有些网站的域名被劫持、服务器被heikegongji、数据库被盗等大家平时登录一个网站,记的都是类似www.tmall.com这样的网址。这叫做域名(domain name)。输入域名后是需要先通过DNS服务器来解析识别这个域名对应的服务器IP地址,每家公司网站的程序和数据都是放在自己服务器上的(如阿里云服务器或者自己购买的服务器),每个服务器有一个IP地址,只要知道这个IP地址,就可以访问到这个网站(特殊情况除外,比如设置了禁止IP访问权限)。
(1)域名解析过程:
输入www.tmall.com这网址(域名)怎么就可以访问到对应的网站呢?那是因为如果需要让您域名可以正常使用,就必须先把域名和您网站的服务器IP地址绑定在一起,以后用户在浏览器只要输入这个域名就等于输入您这个服务器IP地址了,这个绑定的过程叫做域名解析,互联网有13台DNS根服务器,专门来做域名解析,其中10台在美国(包括一台主根服务器),另外3台根服务器分别在英国、瑞典、日本,而中国一台都没有,那么,大家的担忧随之而来:很多朋友问我,如果美国的根服务器不为中国提供服务了,中国是不是就从网络上消失了?网站还能访问吗?其实域名服务器只是解析域作用而已,如果没有域名我们可以用IP访问网站,只是用IP访问记起来不方便而已,域名也就一个别名容易记住的简称的作用而已,例如103.235.46.39。这叫做IP地址,即Internet Protocol Address,互联网协议地址。比如输入 pingwww.baidu.com可以查到百度这个网址解析绑定到的是哪个服务器的IP地址。
从上面可以知道百度的IP地址为:103.235.46.39。当您知道这个网址的服务器IP地址时候,您在浏览器输入网址和您在浏览器输入这个IP地址 都是可以访问到这个网站的(除非有些禁止IP访问),通过这个手段,我们后面在做网站数据采集爬虫的时就可以直接请求IP地址去采集数据了,可以绕过网址直捣皇宫了,就算网址更换了,但是服务器是不变的,我们一样找到它网站老巢,采集它的数据。
(2)域名劫持爬虫技术:域名劫持是互联网gongji的一种方式,通过gongji域名解析服务器(DNS),实现劫持,因为如果要访问www.baidu.com 就必先经过DNS域名解析服务器来解析这个网址对应那台服务器IP地址。如果在这个过程有heike想攻您网站,比如heike想gongji百度,就可以在这个DNS解析域名环节做手脚,比如我想让所有用户打开www.baidu.com 直接访问的是我的广告网站,而不是百度自己服务器里面的网站网页。那很简单,那只要在DNS 解析百度这个网址的时候把对应的百度服务器IP地址 修改解析到您自己的网站服务器IP地址去,那么所有人打开这个www.tmall.com网址就实际就是打开您的网站了。这个过程就叫域名劫持,这种技术已经不是爬虫技术是高级的heike技术了。
(3)钓鱼网站爬虫技术:通过域名劫持技术,很多人heike去劫持银行网站、支付宝网站、充值交易的网站等,比如他们先做一个和银行一模一样的网站,功能和长相和银行的一模一样,这个网站我们称呼钓鱼网站,用户打开银行网址时候,其实已经被劫持走了,真正访问的是他们提供的钓鱼网站,但是因为网址是一样的,网站长相也是一样的,用户压根不会识别出来,等您输入银行账号密码后,您的银行卡的钱估计就自动被转走了,因为已经知道您的账号密码了。对技术感兴趣朋友欢迎交流我扣扣:2779571288
二、网站数据采集的10个经典方法:
我们平时说的采集网站数据、数据抓取等,其实不是真正的采集数据,在我们的职业里这个最多算是正则表达式,网页源代码解析而已,谈不上爬虫采集技术难度,因为这种抓取主要是采集浏览器打开可以看到的数据,这个数据叫做html页面数据,比如您打开:www.jintancn.com这个网址,然后键盘按F12 ,可以直接看到这个网址的所有数据和源代码,这个网站主要是提供一些爬虫技术服务和定制,里面有些免费新工商数据,如果需要采集它数据,你可以写个正则匹配规则html标签,进行截取我们需要的字段信息即可。下面给大家总结一下采集类似这种工商、天眼、商标、专利、亚马逊、淘宝、app等普遍网站常用的几个方法,掌握这些访问几乎解决了90%的数据采集问题了。
方法一:用python的request方法
用python的request方法,直接原生态代码,python感觉是为了爬虫和大数据而生的,我平时做的网络分布式爬虫、图像识别、AI模型都是用python,因为python有很多现存的库直接可以调用,比如您需要做个简单爬虫,比如我想采集百度 几行代码就可以搞定了,核心代码如下:
import requests #引用reques库
respnotallow=request.get(‘https://www.tianyancha.com/’)#用get模拟请求
print(response.text) #已经采集出来了,也许您会觉好神奇!
方法二、用selenium模拟浏览器
selenium是一个专门采集反爬很厉害的网站经常使用的工具,它主要是可以模拟浏览器去打开访问您需要采集的目标网站了,比如您需要采集天眼查或者企查查或者是淘宝、58、京东等各种商业的网站,那么这种网站服务端做了反爬技术了,如果您还是用python的request.get方法就容易被识别,被封IP。这个时候如果您对数据采集速度要求不太高,比如您一天只是采集几万条数据而已,那么这个工具是非常适合的。我当时在处理商标网时候也是用selenum,后面改用JS逆向了,如果您需要采集几百万几千万怎么办呢?下面的方法就可以用上了。
方法三、用scrapy进行分布式高速采集
Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。scrapy 特点是异步高效分布式爬虫架构,可以开多进程 多线程池进行批量分布式采集。比如您想采集1000万的数据,您就可以多设置几个结点和线程。Scrapy也有缺点的,它基于 twisted 框架,运行中的 exception 是不会干掉 reactor(反应器),并且异步框架出错后 是不会停掉其他任务的,数据出错后难以察觉。我2019年在做企业知识图谱建立的时候就是用这个框架,因为要完成1.8亿的全量工商企业数据采集和建立关系,维度比天眼还要多,主要是时候更新要求比天眼快。对技术感兴趣朋友欢迎交流我扣扣:2779571288
方法四:用Crawley
Crawley也是python开发出的爬虫框架,该框架致力于改变人们从互联网中提取数据的方式。它是基于Eventlet构建的高速网络爬虫框架、可以将爬取的数据导入为Json、XML格式。支持非关系数据库、支持使用Cookie登录或访问那些只有登录才可以访问的网页。
方法五:用PySpider
相对于Scrapy框架而言,PySpider框架是一支新秀。它采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器、任务监视器、项目管理器以及结果查看器。PPySpider的特点是ython脚本控制,可以用任何你喜欢的html解析包,Web界面编写调试脚本、起停脚本、监控执行状态、查看活动历史,并且支持RabbitMQ、Beanstalk、Redis和Kombu作为消息队列。用它做个两个外贸网站采集的项目,感觉还不错。
方法六:用Aiohttp
Aiohttp 是纯粹的异步框架,同时支持 HTTP 客户端和 HTTP 服务端,可以快速实现异步爬虫。坑比其他框架少。并且 aiohttp 解决了requests 的一个痛点,aiohttp 可以轻松实现自动转码,对于中文编码就很方便了。这个做异步爬虫很不错,我当时对几个淘宝网站异步检测商城里面的商品和价格变化后处理时用过一段时间。
方法七:asks
Python 自带一个异步的标准库 asyncio,但是这个库很多人觉得不好用,甚至是 Flask 库的作者公开抱怨自己花了好长时间才理解这玩意,于是就有好事者撇开它造了两个库叫做 curio 和 trio,而这里的 ask 则是封装了 curio 和 trio 的一个 http 请求库。
方法八:vibora
号称是现在最快的异步请求框架,跑分是最快的。写爬虫、写服务器响应都可以用,用过1个月后 就很少用了。
方法九:Pyppeteer
Pyppeteer 是异步无头浏览器(Headless Chrome),从跑分来看比 Selenium + webdriver 快,使用方式是最接近于浏览器的自身的设计接口的。它本身是来自 Google 维护的 puppeteer。我经常使用它来提高selenium采集的一些反爬比较厉害的网站 比如裁判文书网,这种网站反爬识别很厉害。