Aka_Happy

记录我的爬虫之路1--爬虫起步的urlib.request Python写一个不用Scrapy框架的裸奔小幼儿爬爬

这几天得知保研失败了….刚好卡在保研名额外一名…虽然最近写什么东西都忍不住碎碎念叨这一句话
=。=，但是好像也觉得能找到喜欢的东西了~比如现在打算认真学的爬虫了~今天刚把小甲鱼入门python的爬虫部分学完，利用scrapy框架能顺利地爬出dmoztools的一点小东西了，所以先做个回顾，具体的写一些最近学习的知识，便于下一阶段的学习！
不管怎么样，希望能快快找到实习~新生活还是得开始的嘛！
突然想到学python之前我还跟猪文豪嚷嚷着我这辈子就走jsp html css 的网页全栈之路或者java写android APP的路….结果入门python以后…..真香！

1. 爬虫代码第一个问题： python 怎么联网？

还好我们的python自带电池： url+lib → urllib

↓

url的一般格式： protocol://hostname[:port]/path/[;parameters][?query]#fragment

protocol协议：http https ftp file(本地磁盘) ed2k电驴的专用链接

hostname：域名； port：端口号；http默认端口号80； path：路径目录或者文件名

urllib事实上是一个包，包括几个模块：

1. urllib.request 打开并且读取urls

2. urllib.error 包含了由urllib.request 抛出的异常

3. urllib.parse for parsing(回避挡开） urls

4. urllib.robotparse for parsing(robots.txt) files

使用urllib写小爬虫之前需要导入包里面的request模块

import urllib.request
import urllib.parse
import json

↓

一个方法： urlopen用于打开一个对象，会返回一个response对象

urlopen(url,data=None,[timeout,]*,cafile=None,capath=None,cadefault=False)

让我们来写第一个小爬爬来解释urlopen函数吧：

↓

【例一】：爬取百度网页http://www.baidu.com的html内容

response = urllib.request.urlopen('http://www.baidu.com')
#urlopen的url参数可以是一个request对象，也是一个网址的字符串；

html = response.read()  #读取

html = html.decode("utf-8")  #解码
# decode:把其他编码形式变成unicode形式
# encode:把unicode形式变成其他形式

print(html)    #解码后将会打印出网页文本编写的形式

urlopen函数会返回一个response对象，这里赋值给response变量 → 然后利用read方法读取字节型（bytes）数据，赋值给html变量 → html利用utf-8的格式解码以后 → 将会打印出网页文本编写的形式
效果：

【例二】：带参数爬取有道翻译的结果：

想当初我为了在APP里调用有道翻译API还费了老大劲呢咳咳…今天就用有道翻译来试试爬虫吧~
打开有道翻译的网址：有道翻译

右键点开审查元素→network→找到General：

可以看到这里有两个地址，网页搜索栏有一个地址，而General里Request好像又有一个地址，那我们到底该选哪个作为urlopen的入口参数呢？
答案是Request的网址；因为网址栏显示的地址只是当前输入页面的地址，而非真正翻译的地址；
写过网页的同学大概清楚这个流程（仅仅是大概，不做具体解释）：
当用户在当前界面输入词汇，点击提交以后 → 词汇会作为参数跳转到真正处理参数的功能页面（这个页面通常是不显示出来的）→ 当功能页面处理完毕参数以后，就会返回相应的结果给当前这个页面→ 结果由当前页面显示出来。

而我们由于爬虫是直接提交参数，需要获取结果，所以我们的目标界面应该就是真正的功能页面，也即是这个request的页面：http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule

url="http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule"

然后我们的输入参数怎么办呢？我们接着在审查元素里面搜寻有关的信息：

发现这个Data参数里的 i 竟然就是我们提交的参数！
于是可以着手编写了：
urlopen(url,data=None,[timeout,]*,cafile=None,capath=None,cadefault=False)

url已经有了，现在开始填充data参数（注意：data参数必须打包成字典输入！！）

data必须是x-www-form-urlencoded格式。

    data={}  #data是一个字典

    data['from'] = 'AUTO'
    data['to'] = 'AUTO'
    data['i'] = input  #input由用户自己输入字符串
    data['smartresult'] = 'dict'
    data['client'] = 'fanyideskweb'
    data['salt'] = '1536844484730'
    data['sign'] =  'c7be4ae1792e4c04dad0f42533387259'
    data['doctype'] = 'json'
    data['version']= '2.1'
    data['keyfrom'] = 'fanyi.web'
    data['action']= 'FY_BY_CLICKBUTTION'
    data['typoResult']= 'false'

    data = urllib.parse.urlencode(data).encode('utf-8')
    #data必须是x-www-form-urlencoded格式。所以需要用这个函数来编码成url

↓

现在url和data都准备好了，我们可以写一个urlopen来试试啦~

def Translation(input):
    input = str(input)
    url="http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule"
    data={}  #data是一个字典
    data['from'] = 'AUTO'
    data['to'] = 'AUTO'
    data['i'] = input
    data['smartresult'] = 'dict'
    data['client'] = 'fanyideskweb'
    data['salt'] = '1536844484730'
    data['sign'] =  'c7be4ae1792e4c04dad0f42533387259'
    data['doctype'] = 'json'
    data['version']= '2.1'
    data['keyfrom'] = 'fanyi.web'
    data['action']= 'FY_BY_CLICKBUTTION'
    data['typoResult']= 'false'

    data = urllib.parse.urlencode(data).encode('utf-8')
    #data必须是x-www-form-urlencoded格式。所以需要用这个函数来编码成url
    response = urllib.request.urlopen(url, data)
    response = response.read().decode('utf-8')
    # decode:把其他编码形式变成unicode形式
    # encode:把unicode形式变成其他形式

    print(response)

# 以下为调用
UserIn = str(input('请输入您要翻译的内容：\n'))
Translation(UserIn)

↓

errorcode是50：有道有反爬虫机制去掉url的_o就可以

 url="http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule"

↓

可以看到返回的结果里隐约有我们需要的翻译结果，但是整个形式是一个json格式的数据：

json结构的字符串 – json：一种轻量级的数据交换格式

所以我们来解析以下json字符串，得到我们需要的结果就好啦


    #json 解析  -- 事先导入json模块
    response= json.loads(response)  #loads的s表示字符串，载入字符串变成字典

↓

解析字典，提取需要的值：

#现在解析字典:
    print('---------------\n')
    print(response['translateResult'])  #得到两层列表
    print(response['translateResult'][0]) #得到一层列表
    print(response['translateResult'][0][0])  #得到一个字典
    print(response['translateResult'][0][0]['tgt'])  #目标结果

完善一下代码：可以把上面的过程整合为一句话:

result = str(response['translateResult'][0][0]['tgt'])
    print(input, '的翻译是:', result)

↓

上面的小爬爬是赤裸裸的小幼虫，为什么这么说呢？因为咱们的爬虫访问网站留下的useragent是pythonxxx，人一看就知道是爬虫了~万一网站采取反爬措施呢？咱们该怎么办呢？下一个笔记就介绍一下 userAgent的修改 && 代理Ip吧~

精力有限，今天就写到这吧~

java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &