python爬虫爬取京东商品信息

import requests

from bs4 import BeautifulSoup

import xlwt

class Excel:

当前行数

_current_row = 1

初始化,创建文件及写入title

def init(self, sheet_name=‘sheet1’):

表头,放到数组中

title_label = [‘商品编号’, ‘商品名称’, ‘图片路径’, ‘价格’, ‘商家’, ‘商品详情地址’]

self.write_work = xlwt.Workbook(encoding=‘ascii’)

self.write_sheet = self.write_work.add_sheet(sheet_name)

for item in range(len(title_label)):

self.write_sheet.write(0, item, label=title_label[item])

写入内容

def write_content(self, content):

for item in range(len(content)):

self.write_sheet.write(self._current_row, item, label=content[item])

插入完一条记录后,换行

self._current_row += 1

保存文件(这里的’./dj_data.xls’是默认路径,如果调用此函数,没有传file_url参数,则使用’./dj_data.xls’)

def save_file(self, file_url=‘./dj_data.xls’):

try:

self.write_work.save(file_url)

print(“文件保存成功!文件路径为:” + file_url)

except IOError:

print(“文件保存失败!”)

def get_html(url):

模拟浏览器访问

headers = {

‘User-Agent’: 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ’

'AppleWebKit/537.36 (KHTML, like Gecko) ’

‘Chrome/81.0.4044.138 Safari/537.36’,

‘accept-language’: ‘zh-CN,zh;q=0.9’

}

print(“–> 正在获取网站信息”)

response = requests.get(url, headers=headers) # 请求访问网站

if response.status_code == 200:

html = response.text # 获取网页源码

return html # 返回网页源码

else:

print(“获取网站信息失败!”)

if name == ‘main’:

创建文件

excel = Excel()

搜索关键字

keyword = ‘aj1’

搜索地址

search_url = ‘https://search.jd.com/Search?keyword=’ + keyword + ‘&enc=utf-8’

html = get_html(search_url)

初始化BeautifulSoup库,并设置解析器

soup = BeautifulSoup(html, ‘lxml’)

商品列表

goods_list = soup.find_all(‘li’, class_=‘gl-item’)

打印goods_list到控制台

for li in goods_list: # 遍历父节点

商品编号

自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数Python工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年Python开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。

python爬虫爬取京东商品信息_第1张图片



既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上Python开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以添加V获取:vip1024c (备注Python)
python爬虫爬取京东商品信息_第2张图片

最后

硬核资料:关注即可领取PPT模板、简历模板、行业经典书籍PDF。
技术互助:技术群大佬指点迷津,你的问题可能不是问题,求资源在群里喊一声。
面试题库:由技术群里的小伙伴们共同投稿,热乎的大厂面试真题,持续更新中。
知识体系:含编程语言、算法、大数据生态圈组件(Mysql、Hive、Spark、Flink)、数据仓库、Python、前端等等。

一个人可以走的很快,但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎扫码加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
python爬虫爬取京东商品信息_第3张图片

一个人可以走的很快,但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎扫码加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
[外链图片转存中…(img-dpRQz5fS-1712858044611)]

你可能感兴趣的:(2024年程序员学习,python,爬虫,开发语言)