一只有野心的小爬虫

爬虫入门 (1)

1.爬虫是什么

维基百科介绍:網路蜘蛛(Web spider)也叫网络爬虫(Web crawler)1,蚂蚁(ant),自动检索工具(automatic indexer),或者(在FOAF软件概念中)网络疾走(WEB scutter),是一种「自動化瀏覽網路」的程式,或者说是一种网络机器人。它们被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容,以供搜索引擎做进一步处理(分检整理下载的页面),而使得用户能更快的检索到他们需要的信息。

2.入门必须

  • python的基础使用:基本是基于python2.7.x版本的。
  • 正则表达式:在解析网页的时候,偶尔会遇到使用正则表达式的情况,你至少要知道什么叫做正则表达式。一只有野心的小爬虫_第1张图片
  • HTML:简要的HTML文档结构。推荐http://www.w3school.com.cn/
  • HTTP(超文本传输协议):推荐图解HTTP,下载地址http://down.51cto.com/data/1979859
  • 数据库:需了解SQL&NoSQL的概念。

3.python开发环境及其应用

IDE or 编辑器

这个问题在程序员中的争议很大,这里不拉开情怀与逼格的争议。对于大多数人,我的建议是:先暂时使用IDE,这可以在学习的过程中让你的精力主要集中在代码的编写上,对于运行和调试也非常方便。但是你至少应该会一点vim的基础操作,这样可以方便你在服务器部署代码。

接下来的应用中,将会使用PyCharm编写代码,可 点击这里 进入下载界面。PyCharm分为Professional和Community两个版本,其中Community版本是免费使用的,但是功能会弱一点。下载Professional版的话,可以点击这里 获取license key.

PyCharm快捷键及一些常用设置


  • 编辑(Editing)

Ctrl + Space 基本的代码完成(类、方法、属性)

Ctrl + Alt + Space 快速导入任意类

Ctrl + Shift + Enter 语句完成

Ctrl + P 参数信息(在方法中调用参数)

Ctrl + Q 快速查看文档

Shift + F1 外部文档

Ctrl + 鼠标 简介

Ctrl + F1 显示错误描述或警告信息

Alt + Insert 自动生成代码

Ctrl + O 重新方法

Ctrl + Alt + T 选中

Ctrl + / 行注释

Ctrl + Shift + / 块注释

Ctrl + W 选中增加的代码块

Ctrl + Shift + W 回到之前状态

Ctrl + Shift + ]/[ 选定代码块结束、开始

Alt + Enter 快速修正

Ctrl + Alt + L 代码格式化

Ctrl + Alt + O 优化导入

Ctrl + Alt + I 自动缩进

Tab / Shift + Tab 缩进、不缩进当前行

Ctrl+X/Shift+Delete 剪切当前行或选定的代码块到剪贴板

Ctrl+C/Ctrl+Insert 复制当前行或选定的代码块到剪贴板

Ctrl+V/Shift+Insert 从剪贴板粘贴

Ctrl + Shift + V 从最近的缓冲区粘贴

Ctrl + D 复制选定的区域或行
**
Ctrl + Y 删除选定的行**

Ctrl + Shift + J 添加智能线

Ctrl + Enter 智能线切割

Shift + Enter 另起一行

Ctrl + Shift + U 在选定的区域或代码块间切换

Ctrl + Delete 删除到字符结束

Ctrl + Backspace 删除到字符开始

Ctrl + Numpad+/- 展开折叠代码块

Ctrl + Numpad+ 全部展开

Ctrl + Numpad- 全部折叠

Ctrl + F4 关闭运行的选项卡


  • 查找/替换

F3 下一个
Shift + F3 前一个

Ctrl + R 替换

Ctrl + Shift + F 全局查找

Ctrl + Shift + R 全局替换


  • 运行(Running)

Alt + Shift + F10 运行模式配置

Alt + Shift + F9 调试模式配置

Shift + F10 运行

Shift + F9 调试

Ctrl + Shift + F10 运行编辑器配置

Ctrl + Alt + R 运行manage.py任务


  • 调试(Debugging)

F8 跳过

F7 进入

Shift + F8 退出

Alt + F9 运行游标

Alt + F8 验证表达式

Ctrl + Alt + F8 快速验证表达式

F9 恢复程序

Ctrl + F8 断点开关

Ctrl + Shift + F8 查看断点


  • 导航(Navigation)

Ctrl + N 跳转到类

Ctrl + Shift + N 跳转到符号

Alt + Right/Left 跳转到下一个、前一个编辑的选项卡

F12 回到先前的工具窗口

Esc 从工具窗口回到编辑窗口

Shift + Esc 隐藏运行的、最近运行的窗口

Ctrl + Shift + F4 关闭主动运行的选项卡

Ctrl + G 查看当前行号、字符号

Ctrl + E 当前文件弹出

Ctrl+Alt+Left/Right 后退、前进

Ctrl+Shift+Backspace 导航到最近编辑区域

Alt + F1 查找当前文件或标识

Ctrl+B / Ctrl+Click 跳转到声明

Ctrl + Alt + B 跳转到实现

Ctrl + Shift + I查看快速定义

Ctrl + Shift + B跳转到类型声明

Ctrl + U跳转到父方法、父类

Alt + Up/Down跳转到上一个、下一个方法

Ctrl + ]/[跳转到代码块结束、开始

Ctrl + F12弹出文件结构

Ctrl + H类型层次结构

Ctrl + Shift + H方法层次结构

Ctrl + Alt + H调用层次结构

F2 / Shift + F2下一条、前一条高亮的错误

F4 / Ctrl + Enter编辑资源、查看资源

Alt + Home显示导航条F11书签开关

Ctrl + Shift + F11书签助记开关

Ctrl + #[0-9]跳转到标识的书签

Shift + F11显示书签


  • 搜索相关(Usage Search)

Alt + F7/Ctrl + F7文件中查询用法

Ctrl + Shift + F7文件中用法高亮显示

Ctrl + Alt + F7显示用法


  • 重构(Refactoring)

F5复制F6剪切

Alt + Delete安全删除

Shift + F6重命名

Ctrl + F6更改签名

Ctrl + Alt + N内联

Ctrl + Alt + M提取方法

Ctrl + Alt + V提取属性

Ctrl + Alt + F提取字段

Ctrl + Alt + C提取常量

Ctrl + Alt + P提取参数


  • 控制VCS/Local History

Ctrl + K提交项目

Ctrl + T更新项目

Alt + Shift + C查看最近的变化

Alt + BackQuote(’)VCS快速弹出


  • 模版(Live Templates)

Ctrl + Alt + J当前行使用模版

Ctrl +J插入模版


  • 基本(General)

Alt + #[0-9]打开相应的工具窗口

Ctrl + Alt + Y同步

Ctrl + Shift + F12最大化编辑开关

Alt + Shift + F添加到最喜欢

Alt + Shift + I根据配置检查当前文件

Ctrl + BackQuote(’)快速切换当前计划

Ctrl + Alt + S 打开设置页

Ctrl + Shift + A查找编辑器里所有的动作

Ctrl + Tab在窗口间进行切换


丰富的第三方库

Python拥有大量第三方库,可以帮助我们完成好多复杂的功能。那么,如何使用这个巨大的宝库呢?目前普遍使用的Python包管理工具是pip。

pip的一些简单使用如下:

  • 安装: pip install 包名
  • 卸载: pip uninstall 包名
  • 升级: pip install –upgrade 包名

总结:介绍爬虫的概念,入门必须的几个技能,同时还对python最佳的开发环境PyCharm的快捷键做了汇总,接下来正式进入爬虫的世界!!!

你可能感兴趣的:(一只有野心的小爬虫)