(2)python+selenium第二个自动化脚本:获取猫眼电影排名前100

从猫眼电影的排行中,选出排名在前十页的电影信息,包括:
 排名:1
URL://ms0.meituan.net/mywww/image/loading_2.e3d934bf.png
片名:霸王别姬
                主演:张国荣,张丰毅,巩俐
        上映时间:1993-01-01(中国香港)
得分:9.6

      '''

主要用到request库(自己在cmd下进入python的pip目录,用pip install request命令安装),还有正则表达式的使用,最后把信息写入文件

from selenium import webdriver
import re,requests
#打开浏览器
user_agent='Mozilia(compatible;MSIE5.5;Windows NT)'
headers={'User-Agent':user_agent}
for i in range(10):
      #页数改变
      url='http://maoyan.com/board/4?offset='+str(i*10)
     
#获取网页内容,找出符合正则表达式条件的内容
f=requests.get(url)
      html=f.text
      pic_url=re.findall('
.*?board-index.*?>(.*?).*?src="(.*?)".*?

(.*?).*?star.*?>(.*?)

.*?releasetime.*?>(.*?)

.*?integer.*?>(.*?).*?fraction.*?>(.*?).*?
',html,re.S) #两个正则表达式不用任何符号相连,或者可以认为是.*?来连接。多个字符串输出时是列表的形式item[i] #法一输出:列表形式[(.....)]---->print(pic_url) #法二输出:输出多个变量值----->item[i],并写入文件保存 file=open('maoyandy.txt','ab') for item in pic_url: print("排名:%s\n\tURL:%s\n\t片名:%s%s%s\n\t得分:%s%s\n"%(item[0],item[1],item[2],item[3],item[4],item[5],item[6])) for i in range(7): file.write(item[i].encode('utf-8')) else: print('抓取成功') ''' 排名:1 URL://ms0.meituan.net/mywww/image/loading_2.e3d934bf.png 片名:霸王别姬 主演:张国荣,张丰毅,巩俐 上映时间:1993-01-01(中国香港) 得分:9.6 '''

你可能感兴趣的:(python+selenium)