爬虫基础系列urllib(1)

u=2998242485,1841996514&fm=27&gp=0.jpg

懵懵懂懂入了Python的坑

  • 其实我想学的是java,相比于python,Java可能更具有针对性,因为我的初衷是写一个数据处理软件,目的只是想从枯燥、繁重的数据工作中解放出来,从Excel函数到透视表,再到VBA,一路走来,突然发现艰辛可能只是个人体验,通过技术改变工作现状,尤其是VBA的编程技术,让重复性的报表分析工作突然简化了一大半,从而对编程产生兴趣,萌生系统学习一门编程技术的想法,当然当时的选择是Java。
  • 然而现实的打击往往来自于开始阶段,还没有入门就放弃在配置环境变量上的Java,对于非计算机专业的个人选择了Python,Python语法简洁,而且是胶水语言(会的语言少,没怎么体会到),总之很强大就是了。

技术贴难写的原因

  • 技术有时候挺像玄幻小说中写的修真,一个阶段一个阶段的进阶,在一个较低阶段的感觉一些高阶段的技能,要么无感,要么觉得特别的难。
  • 真的很难写出创新性的东西,在夯实基础的阶段,首要目标是代码跑起来。另外技术贴要写的通俗易懂也是很难的事情,毕竟还是新手阶段,并且不以此为生。
  • 所以只作为学习笔记来写,当然能帮助到部分道友也是件开心的事。

爬虫能干什么

  • 各类教程和视频网站讲的都很高大上,作为个人体验,可能境界不够,只说说自己的体会:
  1. 爬取网站数据,能干什么只有自己体会了,比如分析今天温度比去年略低,种的芹菜估计要晚几天才能发芽。
  2. 爬取一些特色网站功能,比如翻译网站,翻译一些不懂的单词。
  3. 爬取一些电影大片,满足视觉体验。
  • 第一个爬虫
    urllib包是python内置模块,是每一个接触爬虫的道友,第一个要了解熟悉的包,爬虫从大的地方来说涉及两个方面的内容:
  1. 数据挖掘
  2. 数据清洗
    首先说说数据挖据,爬虫的目标就是网站,从网站中挖掘出数据的过程首先就是发送请求(request),然后获取网站的响应(response),然后是获取数据供第二部分数据清洗来做。
    数据清洗,就是从获取的响应网页(大都是HTML网页代码形式)中,提取出想要的信息,以各种便于分析的结构存储到文件或者各类形式的数据库中。
    简单来说和人上网其实是一样的,登录网站获取信息。
from urllib import request #从urllib包导入request模块(或者称为方法)
url=r"http://www.baidu.com/" #百度网站
reponse=request.urlopen(url).read()#发送请求.读取响应信息
print(type(reponse))#在Python中用print函数打印响应信息

返回的是二进制形式类型,去掉type函数返回的是二进制的html页面代码
................#
爬虫基础系列urllib(2)

你可能感兴趣的:(爬虫基础系列urllib(1))