Web Spider - 爬虫

相关Python 模块有urllib、BeautifulSoup、lxml、Scrapy、PdfMiner、Requests、Selenium、NLTK、Pillow、unittest、PySocks等。

理论上,网络数据采集是一种通过多种手段收集网络数据的方式,不光是通过与API 交互(或者直接与浏览器交互)的方式。最常用的方法是写一个自动化程序向网络服务器请求数据(通常是用HTML 表单或其他网页文件),然后对数据进行解析,提取需要的信息。

Web Spider - 爬虫_第1张图片

from urllib.request import urlopen
html = urlopen("http://pythonscraping.com/pages/page1.html")
print(html.read())

urlopen 用来打开并读取一个从网络获取的远程对象,可以轻松读取HTML 文件、图像文件,或其他任何文件流。

 

你可能感兴趣的:(爬虫)