如何快速入门抓取html网页数据
开发准备:
1:开发工具使用pycharm,下载点击打开链接
2 : python3.6 下载点击打开链接
配置过程百度,不做细致分析,配置完成后进入开发,pycharm破解选择License server激活即可,idea.qmanga.com可用
下面进入快速抓取数据
第一步:
定义一个chrome浏览器,这里需要先下载chromedrive.exe,这是个驱动,当python执行命令时去打开chrome浏览器, 需要配置环境变量,也可以不配置,使用chrome可以抓取到动态加载的js文件,方便了许多,不像使用webclient需要很多设置
配置好了环境变量,使用
browser = webdriver.Chrome()soup = BeautifulSoup(browser.page_source, "lxml")
第二步:
这时候已经得到网页数据并解析到soup,这里示例快速取得想要数据
一句代码即可
specification = soup.find('div', attrs={'id': 'spec_box'}).find("li", attrs={'class': 'dtl-inf-rur'}).getText()
find('div', attrs={'id': 'spec_box'}) 定位到以下
find("li", attrs={'class': 'dtl-inf-rur'}) 定位到以下
getText()获取文字内容
这样就已经快速抓到了数据,共4句代码,使用python相比较java简单了很多