python爬虫第一天——入门

python爬虫第一天——入门

看过python基础知识,想学点好玩的知识,于是就想起来了爬虫.

下面是照着书上敲的第一个爬虫程序

利用requests.get()模拟get请求获取response对象
再利用BeatifulSoup进行解析
最后保存文件

import requests
from bs4 import BeautifulSoup
def main():
    #定义目标网页地址
    link = "http://www.santostang.com/"
    #定义请求头信息
    headers={
     'User-Agent' : 'Mozilla/5.0 (Window; U; Windows NT 6.1; en-Us; rv:1.9.1.6) Gecko/200912.1 Firefox/3.5.6'}
    r =requests.get(link,headers=headers) #请求网页

    soup=BeautifulSoup(r.text,"html.parser")#使用beautifulSoup解析
    title=soup.find("h1",class_="post-title").a.text.strip()
    print(title)

    filename = "CrawlerDemo.txt"
    outfile = open(filename,"w")
    outfile.write(title)
    outfile.close()
main()

你可能感兴趣的:(Python爬虫学习,Python,爬虫,python爬虫)