:如果你也对机器人、人工智能感兴趣,看来我们志同道合✨
:不妨浏览一下我的博客主页【https://blog.csdn.net/weixin_51244852】
:文章若有幸对你有帮助,可点赞 收藏 ⭐不迷路
:内容若有错误,敬请留言 指正!原创文,转载请注明出处
爬虫是一种自动获取网页内容的程序,它可以从互联网上抓取所需的信息。爬虫可以用于各种场景,如数据挖掘、信息收集等。
爬虫的基本原理是通过发送HTTP请求(如GET或POST)来获取网页内容,然后解析网页内容,提取所需信息。常用的解析方法有正则表达式、BeautifulSoup和XPath等。
常见的爬虫技术栈包括:
爬虫对象主要包括以下几个部分:
使用爬虫需要先安装相关库,如requests、BeautifulSoup等。可以使用pip进行安装:
pip install requests
pip install beautifulsoup4
目标网址:https://movie.douban.com/top250
代码实现:
import requests
from bs4 import BeautifulSoup
def get_movie_info(url):
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
movie_list = soup.find('ol', class_='grid_view')
for movie_li in movie_list.find_all('li'):
detail = movie_li.find('div', class_='hd')
movie_name = detail.find('span', class_='title').text
movie_url = detail.a['href']
print(movie_name, movie_url)
if __name__ == '__main__':
base_url = 'https://movie.douban.com/top250?start='
for i in range(0, 250, 25):
url = base_url + str(i)
get_movie_info(url)
目标网址:https://zhuanlan.zhihu.com/p/xxxx
代码实现:
import requests
from bs4 import BeautifulSoup
def get_article_title(url):
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
title = soup.find('h1', class_='Post-Title').text
print(title)
if __name__ == '__main__':
url = 'https://zhuanlan.zhihu.com/p/xxxx'
get_article_title(url)