需求来源:
最近想买个行车记录仪,经常在在什么值得买上搜索信息,感觉浪费的时间比较多,就想用Python写个自动搜索的功能。另外,什么值得买已经很久没有签到了,刚开始玩的时候台天天签到,乐此不疲。现在已经很久没有签到了,既然我是码农,当然得实现自动化哈。
目标:
1.实现自动登录;
2.实现自动签到;
3.实现搜索功能;
分析:
requests库应该就能实现这些功能,但是需要解析页面,我这些需求简单,没有性能要求,因此采用简单的selenium库模拟浏览器操作实现这个需求。
库文件:
selenium、BeautifulSoup
关于selenium的使用在 Python爬取煎蛋妹子图 里有介绍。
###登录
def login(self, username, password):
login_url = "https://www.smzdm.com/"
#延迟2秒
time.sleep(2)
self.chrome.get(login_url)
self.chrome.find_element_by_link_text('登录').click()
time.sleep(3)
all_windows = self.chrome.window_handles # 获取所有窗口handle name
# 切换window,如果window不是当前window,则切换到该window
for window in all_windows:
if window != self.chrome.current_window_handle:
self.chrome.switch_to.window(window)
self.chrome.switch_to.frame('J_login_iframe')
self.chrome.find_element_by_name('username').send_keys(username)
self.chrome.find_element_by_name('password').send_keys(password)
self.chrome.find_element_by_id('login_submit').click()
time.sleep(3)
print('登录成功!')
遇到的坑:
1.点击登录按钮后,弹出登录框,后续无法找到用户名、密码的element。
开始以为是点击登录后,马上就去获取这个element,此时登录框还没有弹出来,因此延迟了3秒(这个问题在模拟登录百度时碰到过)。依旧不能解决。问题原因就是没有获取到当前登录框的handle,因此获取所有的window_handle,然后切换到当前的,debug发现是始终只有一个handle。
其实什么值得买的登录框是一个frame,需要采用switch_to.frame方法定位到当前frame。
#签到
def signin(self):
try:
while self.chrome.find_element_by_link_text('签到领积分').text == '签到领积分':
self.chrome.find_element_by_link_text('签到领积分').click()
time.sleep(3)
print('签到成功!')
except EOFError:
print('已经签到过!')
#搜索
def search(self, keyword):
dizhilist = []
url = "https://www.smzdm.com/"
self.chrome.get(url)
self.chrome.find_element_by_id('J_search_input').send_keys(keyword)
time.sleep(2)
self.chrome.find_element_by_class_name('search-submit').click()
time.sleep(3)
#返回页面搜索数据
data = self.chrome.page_source
soup = BeautifulSoup(data, "html.parser")
ul = soup.find('ul', id='feed-main-list')
liList = ul.find_all('li', class_='feed-row-wide')
for item in liList:
if len(item.find('h5', class_='feed-block-title').find_all('a')) < 2:
continue
headline = item.find('h5', class_='feed-block-title').find_all('a')[0].get('title')
price = item.find('h5', class_='feed-block-title').find_all('a')[1].find('div', class_='z-highlight').get_text()
if len(item.find_all('span', class_='unvoted-wrap')) >= 2:
zhi = int(item.find_all('span', class_='unvoted-wrap')[0].find('span').get_text())
buzhi = int(item.find_all('span', class_='unvoted-wrap')[1].find('span').get_text())
if buzhi > zhi or (zhi == 0 and buzhi == 0):
continue
else:
#有效数据,需要发送
percent = str(round(zhi/(buzhi+zhi) * 100, 2)) + '%'
dizhi = item.find_all('a')[0].get('href')
msg = Message(dizhi, headline, price, percent)
dizhilist.append(msg)
return dizhilist
搜索只处理了搜索结果的第一页,如果需要更多的数据,处理分页即可。
以上三个方法即实现了三个功能需求,但是我想要每天自动实现登录、签到功能,同时搜索‘行车记录仪’处理结果能够发送到手机。实现搜索结果发送到手机,自然想到了itchat这个库。另外使用apscheduler实现了定时任务。
import itchat
from itchat.content import *
from smzdm import SMZDM, Message
import datetime
import time
from apscheduler.schedulers.background import BackgroundScheduler
timeer = datetime.datetime(2018, 3, 7, 14, 6, )
smzdm = SMZDM()
def sendMsg(items, user):
for item in items:
msg = item.headline + '\n' + item.price + '\n' + item.percent + '\n' + item.url
itchat.send_msg(msg, user)
@itchat.msg_register([TEXT, MAP, CARD, NOTE, SHARING])
def text_reply(msg):
print(msg['Text'] + msg['FromUserName'])
items = smzdm.search(msg['Text'])
sendMsg(items, msg['FromUserName'])
def do_singin():
smzdm.login('username','password')
smzdm.signin()
sendMsg('签到成功!', 'toUserName')
items = smzdm.search('行车记录仪')
sendMsg(items, 'toUserName')
print('签到成功!')
if __name__ == '__main__':
itchat.auto_login()
sched = BackgroundScheduler()
sched.add_job(do_singin,trigger='cron', hour=15, minute=0)
sched.start()
itchat.run()
下面开始列遇到的坑:
1.签到时
try:
except EOFrror:
写的时候没注意,捕获异常写了EOFrror,导致签到过后,后续不会发送微信消息。EOFrror是意味着它发现了一个不期望的文件尾时会抛出的异常,因此这里不会捕获到。
修改成:
try:
except Exception: