Python网络爬虫入门实践教学以及填坑记录

最近一直看到网络爬虫的广告本身就有点兴趣加上一个小伙伴可能需要学习并且使用 所以就先尝试学习了一下 填填坑 这东西理论啊什么都是一大堆 我也不是专业人士 就不多加介绍了 需要去学习原理和理论的可以去Git上看一下大神的讲解
这篇博客的目的也是因为网上很少真实的入门教学 所以写一篇既能方便新人尝试又能记录自己遇到的坑 所以全部都是干货
1.首先下载配置Python环境
官网地址:在这里插入图片描述
Python网络爬虫入门实践教学以及填坑记录_第1张图片
Python网络爬虫入门实践教学以及填坑记录_第2张图片
这里有个坑需要注意一下:因为这个是较为新的版本 需要可以自动配置环境不需要自己去手动配置环境变量了 网上很多教学都还是需要去手动配置环境变量的 这里需要在一开始的地方就进行勾选
Python网络爬虫入门实践教学以及填坑记录_第3张图片
然后正常安装 Python网络爬虫入门实践教学以及填坑记录_第4张图片
安装成功后可以验证一下:win+R 输入cmd 然后输入python --version 看看是不是刚刚安装的版本Python网络爬虫入门实践教学以及填坑记录_第5张图片
2.下载配置IDEA
这里使用的是PyCharm 也就是因为这一步才坚定了我要写这个博客的 一搜PyCharm全是一些病毒已经垃圾骗人的网站 就和你去搜索破解版的PS一样 可能因为这个更多的使用者还是那些非程序员吧
官网下载网址:在这里插入图片描述

这里选择Community版 因为免费
Python网络爬虫入门实践教学以及填坑记录_第6张图片
一路安装就行了:
Python网络爬虫入门实践教学以及填坑记录_第7张图片
Python网络爬虫入门实践教学以及填坑记录_第8张图片
Python网络爬虫入门实践教学以及填坑记录_第9张图片
3.配置IDEA环境以及尝试
Python网络爬虫入门实践教学以及填坑记录_第10张图片
1.点击创建新项目
Python网络爬虫入门实践教学以及填坑记录_第11张图片
2.这里应该发现IDEA已经自动关联我们刚刚下载的Python了
然后书写第一行代码:
Python网络爬虫入门实践教学以及填坑记录_第12张图片
Python网络爬虫入门实践教学以及填坑记录_第13张图片
这里有个坑 就是按照教学的时候点击右上方的
可是总是显示的不是我创建的file的名称 后来才知道这个智障编辑器需要先手动在这个file的边上run一下才会出现在右上角这里 这里出现的只会是已经编译过的
Python网络爬虫入门实践教学以及填坑记录_第14张图片
到这里整个环境配置以及第一行代码尝试已经完成了
4.尝试爬数据
大家学这个还不是为了爬数据嘛 光写Python有什么乐趣
我也不去和网上那些大佬一样教人写代码 直接上源码 面向Git开发才是最快乐的
这里有一个坑 这个IDEA没有checkout from version control 这里改成了get from version control 弄的我刚开始不知道怎么拉代码
Python网络爬虫入门实践教学以及填坑记录_第15张图片
这里提供一个高Star的GitHub项目地址:在这里插入图片描述
Python网络爬虫入门实践教学以及填坑记录_第16张图片
然后项目就拉下来了
然后还需要导入一堆项目中使用到的包:
例如这种Python网络爬虫入门实践教学以及填坑记录_第17张图片
直接将光标放到红色的地方然后 alt+enter Python网络爬虫入门实践教学以及填坑记录_第18张图片
选择安装这个包就行了
这里有点需要说明 这里下包应该很多都是需要挂代理才行的 当然也可以配置国内的一些资源库 如果有精力的小伙伴可以去百度一下下Python怎么不挂代理下包 如果和我一样省事的直接挂代理就行了
这里分享一下我使用的代理http://www.2yun.icu/auth/register?code=kGtI
展示一下成果吧:
Python网络爬虫入门实践教学以及填坑记录_第19张图片
最后在写一下网上正常的教学小实践吧:
首先也是下包:
Python网络爬虫入门实践教学以及填坑记录_第20张图片
Python网络爬虫入门实践教学以及填坑记录_第21张图片
Python网络爬虫入门实践教学以及填坑记录_第22张图片
搜索需要的例如 requests

然后尝试加载一下百度:
Python网络爬虫入门实践教学以及填坑记录_第23张图片

你可能感兴趣的:(知识积累)