python 基础知识点整理和详细应用

Python教程

Python是一种简单易学，功能强大的编程语言。它包含了高效的高级数据结构和简单而有效的方法，面向对象编程。Python优雅的语法，动态类型，以及它天然的解释能力，使其成为理想的语言，脚本和应用程序高速开发在大多数平台上的很多领域。

Python解释器及其扩展标准库的源代码和编译版本号能够从Python的Web网站，http://www.python.org/全部主要平台可自由查看，而且能够自由公布。该网站上也包括了分配和指针到非常多免费的第三方Python模块，程序，工具，以及附加的文档。

Python的解释器非常easy扩展新的功能，并在C或C ++（或由C来调用其它语言）实现的数据类型。 Python也非常适于作为定制应用的一种扩展语言。

本教程向读者介绍了非正式的Python语言和系统的基本概念和功能。它有助于理解Python和实战练习，当然全部的样例都是自包括的，所以这本手冊能够离线阅读为好。

有关标准对象和模块的具体介绍，请參见Python标准库。Python语言參考给出了语言的更正式的定义。须要编写C或C + +扩展，请阅读扩展和嵌入Python解释器和Python/C的API參考手冊。也有几本书涵盖了各个深度的Python。

本教程并不试图全面，涵盖每个功能，甚至每个经常使用功能。相反，它介绍了很多Python中最引人注目的功能，会给Python语言的韵味和风格是一个好開始。看完之后，你就能够阅读和编写Python模块和程序，将准备进一步了解Python标准库描写叙述的各种Python库模块。

Python概述

Python是一种高层次的，解释性的，交互式和面向对象的脚本语言。Python被设计成具有非常强的可读性，它使用英语如其它语言经常使用空白作为标点符号，它比其它语言语法结构更少。

Python被解析：这意味着它是在执行时由解释器处理，你并不须要在执行前编译程序。这类似于Perl和PHP。
Python是互动：这意味着你能够在Python的提示和解释器进行交互，直接写出你的程序。
Python是面向对象的：这意味着Python支持面向对象的方式或程序，它封装了对象中的代码的技术。
Python是刚開始学习的人的语言：Python是为0基础程序猿一种伟大的语言，并支持广泛的应用，从简单的文本处理，WWW浏览器，以游戏开发。

Python的历史：

Python是由Guido van Rossum在八十年代末和九十年代初在全国研究所数学与计算机科学在荷兰开发。

Python从更多语言，包含ABC，Modula-3语言，C语言，C+ +，Algol-68，Smalltalk和unix的shell等脚本语言得到參考开发。

Python是有版权的。比方Perl，Python源码如今是GNU通用公共许可证(GPL)下提供。

Python的如今是由一个核心开发团队在维护，尽管Guido van Rossum仍然持有在指导其进展至关关键的数据。

Python的特点：

Python的功能亮点包含：

易于学习：Python有相对较少的keyword，结构简单，明白的语法。这让学生学习的时间相对较短。
易于阅读：Python代码是更加明白，可见。
易于维护：Python的成功在于它的源码是相当easy维护。
广泛的标准库：Python的最大长处是体积库非常方便，在UNIX，Windows和Macintosh跨平台兼容。
交互模式：支持交互模式中，能够从终端输入结果正确的语言，让交互測试的代码片段和调试。
便携式：Python能够在多种硬件平台上执行，而且对全部的平台上使用同样的接口。
扩展：能够加入低级别的模块在Python解释器。这些模块使程序猿能够加入或自己定义自己的工具来提高效率。
数据库：Python提供接口给全部基本的商业数据库。
GUI编程：Python支持，能够创建并移植到很多系统调用，库和Windows系统，如Windows MFC，Macintosh和Unix的X Window系统的GUI应用程序。
可扩展性：Python提供了一个更好的结构，并支持比shell脚本大型程序。

除了上面提到的功能，Python也有非常好的功能，几个列举例如以下：

支持功能和结构化的编程方法，以及面向对象。
它能够作为一种脚本语言，或者能够被编译为字节码建立大型的应用程序。
很高的动态数据类型，而且支持动态类型检查。
支持自己主动垃圾收集。
它能够用C，C + +，COM和ActiveX，CORBA和Java非常easy地集成。

Python环境安装

本地环境设置

假设愿意设置您的Python环境，让我们了解怎样建立Python环境。 Python可在各种平台，包含Linux和Mac OS X，可尝试打开一个终端窗体并输入“python”，以检查是否已经安装了python，什么版本号，假设已经有安装。

Unix (Solaris, Linux, FreeBSD, AIX, HP/UX, SunOS, IRIX, etc.)
Win 9x/NT/2000
Macintosh (Intel, PPC, 68K)
OS/2
DOS (multiple versions)
PalmOS
Nokia 手机
Windows CE
Acorn/RISC OS
BeOS
Amiga
VMS/OpenVMS
QNX
VxWorks
Psion
Python也可被移植到Java和.NET 虚拟机

获得Python

最新源码，二进制文件，文档，新闻等可在Python的官方站点：

Python官方站点：http://www.python.org/

能够从下面网站下载Python文档。文件格式是HTML，PDF和PostScript。

Python文档站点： www.python.org/doc/

安装Python：

Python发行版适用于各种平台。你仅仅须要下载适用于您的平台的二进制代码并安装Python。

假设二进制代码针对您的平台无法使用，你须要一个C编译器来手动编译源码。编译源码提供了选择，为安装功能方面更大的灵活性。

这里是在各种平台上安装Python的高速概览：

UNIX和Linux的安装方式：

以下是简单的步骤，在Unix/ Linux机器上安装Python。

打开Web浏览器并转至http://www.python.org/download/
依照链接下载压缩的源码在Unix/ Linux操作系统。
下载并解压文件。
编辑模块/安装文件，假设你想自己定义一些选项。
运行./configure 脚本
make
make install

这将安装python的标准位置在 /usr/local/bin文件夹和它的库安装在/usr/local/lib/pythonXX，当中XX是Python使用的版本号。

Windows上安装:

以下是Windows机器上安装Python的步骤。

打开Web浏览器并转至 http://www.python.org/download/
依照链接到Windows安装python-XYZ.msi文件，当中XYZ是你要安装的版本号。
要使用此安装程序python-XYZ.msi，Windows系统必须支持Microsoft安装程序2.0。仅仅需安装程序文件保存到本地计算机，然后执行它，看看是否你的机器支持MSI。
通过双击它在Windows中执行下载的文件。这将出Python的安装向导，这些都非常easy使用。仅仅需接受默认设置，等到安装完毕后。

Macintosh上安装:

最新的Mac电脑配备安装了Python，但可能好几年前的机器没有安装。见http://www.python.org/download/mac/上获得的最新版本号以及额外的工具来支持在Mac上开发的指令。对于老的Mac OS的Mac OS X10.3之前（2003年推出），MacPython上是可用的。“

仅仅要到这个链接，完整Mac OS安装安装细节。

设置PATH:

程序和其它可运行文件能够住在很多文件夹，所以操作系统提供，列出文件夹的操作系统搜索可运行文件的搜索路径。

路径被存储在环境变量，这是由操作系统维护的命名字符串。这些变量包括可用于命令行解释器和其它程序的信息。

路径变量名为Path的Unix或路径在Windows（UNIX是区分大写和小写的，Windows是没有）。

在Mac OS中，安装程序处理的道路细节。调用不论什么特定文件夹Python解释器，必须Python的文件夹加入到您的路径。

设置路径，在Unix/Linux上：

将Python文件夹加入到在Unix系统中的特定会话的路径：

在csh shell：输入
SETENV PATH "$PATH:/usr/local/bin/python" 然后按回车键。
在 bash shell (Linux): 输入
export PATH="$PATH:/usr/local/bin/python" 然后按回车键。
在 sh 或 ksh shell: 输入
PATH="$PATH:/usr/local/bin/python" 然后按回车键。

注: /usr/local/bin/python 为Python文件夹的路径

设置路径Windows系统：

以Python文件夹加入到了 Windows 特定会话的路径：

在命令提示符下: 输入
path %path%;C:\Python 然后按Enter键。

注意：C:\Python 是Python文件夹的路径

Python环境变量：

这里是重要的环境变量，其能够被Python确认：

变量	描写叙述
PYTHONPATH	有类似路径的作用。这个变量告诉Python解释器在哪里能够找到导入到程序中的模块文件。 PYTHONPATH应包括Python源码库文件夹，包括Python源码的文件夹。 PYTHONPATH是由Python安装程序有时会预设。
PYTHONSTARTUP	包括了在每次启动的解释器（类似于Unix.profile或.login文件）时运行Python源码的初始化文件的路径。这个文件通常命名为.pythonrc.py。在Unix中，通常包括载入有用程序或改动PYTHONPATH命令。
PYTHONCASEOK	在Windows中使用，以指示Python找到一个import语句，第一个不区分大写和小写的匹配。将此变量设置为随意值来激活它。
PYTHONHOME	备选模块搜索路径。它通常嵌入在PYTHONSTARTUP或PYTHONPATH文件夹，以使交换模块库的简单。

执行Python:

有三种不同的方式来启动Python：

(1) 交互式解释器：

能够输入python，并在開始通过命令行启动在交互式解释器它编码的时候。从UNIX，DOS或其它系统提供了一个命令行解释器或shell窗体。

$python             # Unix/Linux

or 

python%             # Unix/Linux

or 

C:>python           # Windows/DOS

以下是全部可用的命令行选项的列表：

选项	描写叙述
-d	提供调试输出
-O	生成优化代码（结果为.pyo文件）
-S	不执行导入站点，在启动时查找Python路径
-v	具体输出（在导入语句具体的跟踪）
-X	禁止基于类内置异常（仅仅使用字符串）;開始1.6版本号过时
-c cmd	作为cmd 字符串执行Python脚本发送
file	从给定的文件执行Python脚本

(2) 脚本的命令行：

Python脚本能够在命令行中通过调用应用程序中的解释，如以下的运行：

$python  script.py          # Unix/Linux

or 

python% script.py           # Unix/Linux

or 

C:>python script.py         # Windows/DOS

注意：请确保该文件的权限模式能够运行。

(3)集成开发环境

您能够从图形用户界面（GUI）环境中执行Python。全部须要的是一个支持Python系统的GUI应用程序。

UNIX：IDLE也是早期的UNIX系统为Python的IDE。
Windows：PythonWin是第一个Windows界面的Python和一个GUI的IDE。
Macintosh：Python的的Macintosh版本号随着闲置的IDE可从主站下载，不是MACBINARY就是BinHex'd文件。

在继续到下一个章节前，请确保您的环境已正确设置及全然正常工作。假设不可以建立正常的环境，那么可以又一次安装配置。

全部在以后的章节中给出的样例已经运行了可在Linux CentOS 上的 Python2.7.3版本号。

Python基本的语法

Python与Perl，C和Java语言等有很多相似之处。只是，也有语言之间有一些明白的差别。本章的目的是让你迅速学习Python的语法。

第一个Python程序：

交互模式编程：

调用解释器不经过脚本文件作为參数，显示下面提示：

$ python
Python 2.6.4 (#1, Nov 11 2014, 13:34:43)
[GCC 4.1.2 20120704 (Red Hat 5.6.2-48)] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>>

键入下列文字在Python提示符，然后按Enter键：

>>> print "Hello, Python!";

假设您执行的是新的Python版本号，那么须要使用打印语句括号像print ("Hello, Python!");。可是在Python版本号2.6.4，这将产生下面结果：

Hello, Python!

脚本模式编程：

调用解释器及脚本作为參数，并開始运行的脚本，并一直持续到脚本完毕。当脚本完毕时，解释器不再是活动的。

让我们在脚本中编写一个简单的Python程序。全部的Python文件将具有.py扩展。所以，把以下的代码写在一个test.py文件。

print "Hello, Python!";

在这里，我如果你已经在PATH变量中设置Python解释器。如今，尝试例如以下执行这个程序：

$ python test.py

这将产生下面结果：

Hello, Python!

让我们尝试还有一种方式来运行Python脚本。以下是改动后的test.py文件：

#!/usr/bin/python

print "Hello, Python!";

在这里，如果Python解释器在/usr/bin文件夹中可用。如今，尝试例如以下执行这个程序：

$ chmod +x test.py     # This is to make file executable
$./test.py

这将产生下面结果：

Hello, Python!

Python标识符：

Python标识符是用来标识一个变量，函数，类，模块或其它对象的名称。一个标识符開始以字母A到Z或a〜z或后跟零个或多个字母下划线（_），下划线和数字（0〜9）。

Python中标识符内不同意标点符号，如@，$和％。 Python是一种区分大写和小写的编程语言。因此，Manpower 和manpower在Python中是两个不同的标识符。

这里有Python标识符命名约定：

类名以大写字母以及全部其他标识符以小写字母。
开头单个前导下划线的标识符表示由该标识符约定意思是私有的。
开头两个前导下划线的标识符表示一个强烈的私有的标识符。
假设标识符末尾还具有两个下划线结束时，该标识符是一个语言定义的特殊名称。

保留字：

以下列出了在Python中的保留字。这些保留字不能够被用作常量或变量，或不论什么其他标识符。全部Pythonkeyword仅仅包括小写字母。

and	exec	not
assert	finally	or
break	for	pass
class	from	print
continue	global	raise
def	if	return
del	import	try
elif	in	while
else	is	with
except	lambda	yield

行和缩进：

一个程序猿学习Python时，遇到的第一个须要注意的地方是，不使用括号来表示代码的类和函数定义块或流程控制。代码块是由行缩进，这是严格运行表示方式。

在缩进位的数目是可变的，可是在块中的全部语句必须缩进同样的量。在这个样例中，两个功能块都非常好使用：

if True:
    print "True"
else:
  print "False"

然而，在本实施例中的第二块将产生一个错误：

if True:
    print "Answer"
    print "True"
else:
    print "Answer"
  print "False"

因此，在Python中全部的连续线缩进的空格数相同的会结成块。下面是各种语句块中的样例：

注意：不要试图理解所使用的逻辑或不同的功能。仅仅要确定你明确，即使他们各种模块无需括号。

#!/usr/bin/python

import sys

try:
  # open file stream
  file = open(file_name, "w")
except IOError:
  print "There was an error writing to", file_name
  sys.exit()
print "Enter '", file_finish,
print "' When finished"
while file_text != file_finish:
  file_text = raw_input("Enter text: ")
  if file_text == file_finish:
    # close the file
    file.close
    break
  file.write(file_text)
  file.write("\n")
file.close()
file_name = raw_input("Enter filename: ")
if len(file_name) == 0:
  print "Next time please enter something"
  sys.exit()
try:
  file = open(file_name, "r")
except IOError:
  print "There was an error reading file"
  sys.exit()
file_text = file.read()
file.close()
print file_text

多行语句：

Python语句通经常使用一个新行结束。可是，Python同意使用续行字符（\）来表示，该行应该继续下去（跨行）。比如：

total = item_one + \
        item_two + \
        item_three

包括在[]，{}或()括号内的陈述并不须要使用续行符。比如：

days = ['Monday', 'Tuesday', 'Wednesday',
        'Thursday', 'Friday']

Python引號：

Python接受单引號（'），双引號（“）和三（''或”“”）引用，以表示字符串常量，仅仅要是同一类型的引號開始和结束的字符串。

三重引號能够用于跨越多个行的字符串。比如，全部下列是合法的：

word = 'word'
sentence = "This is a sentence."
paragraph = """This is a paragraph. It is
made up of multiple lines and sentences."""

Python凝视：

一个井号（＃），这不是一个字符串文字开头的凝视。“＃”号之后字符和到物理行是凝视的一部分，Python解释器会忽略它们。

#!/usr/bin/python

# First comment
print "Hello, Python!";  # second comment

这将产生下面结果：

Hello, Python!

凝视可能会在声明中表达或同一行之后：

name = "Madisetti" # This is again comment

你能够使用多行凝视例如以下：

# This is a comment.
# This is a comment, too.
# This is a comment, too.
# I said that already.

使用空行：

一行仅仅含有空格，可能带有凝视，假设是空行那么Python全然忽略它。

在交互式解释器会话中，必须输入一个空的物理行终止多行语句。

等待用户：

程序的以下一行显示的提示，按回车键退出，等待用户按下回车键：

#!/usr/bin/python

raw_input("\n\nPress the enter key to exit.")

在这里，“\n\n已”被用来显示实际行之前创建两个换行。一旦用户按下键时，程序结束。这是一个非常好的技巧，保持一个控制台窗体打开，直到用户完毕应用程序执行。

在一行中多个语句：

分号( ; ) 同意在单行写入多条语句，无论语句是否启动一个新的代码块。以下是使用分号演示样例：

import sys; x = 'foo'; sys.stdout.write(x + '\n')

多个语句组作为套件：

一组单独的语句，在Python单一的代码块被称为序列。复杂的语句，如if, while, def, and class，那些须要一个标题行和套件。

标题行開始的声明（与keyword），并终止与冒号（:)），接着是一个或多个线构成该套件。比如：

if expression : 
   suite
elif expression : 
   suite 
else : 
   suite

命令行參数：

我们可能已经看到了，比方，非常多程序能够执行，它们提供有关怎样执行的一些基本信息。 Python中能够使用 -h 做到这一点：

$ python -h
usage: python [option] ... [-c cmd | -m mod | file | -] [arg] ...
Options and arguments (and corresponding environment variables):
-c cmd : program passed in as string (terminates option list)
-d     : debug output from parser (also PYTHONDEBUG=x)
-E     : ignore environment variables (such as PYTHONPATH)
-h     : print this help message and exit

[ etc. ]

您也能够设定您的脚本，它应该以这种方式接受各种选项。命令行參数是一个高级主题并在以后学习，当您通过其他的Python概念后。

Python变量类型

变量是仅仅只是保留的内存位置用来存储值。这意味着，当创建一个变量，那么它在内存中保留一些空间。

依据一个变量的数据类型，解释器分配内存，并决定怎样能够被存储在所保留的内存中。因此，通过分配不同的数据类型的变量，你能够存储整数，小数或字符在这些变量中。

变量赋值：

Python的变量不必显式地声明保留的存储器空间。当分配一个值给一个变量的声明将自己主动发生。等号(=)来赋值给变量。

操作数=操作符的左边是变量，操作数=操作符的右側的名称在变量中存储的值。比如：

#!/usr/bin/python

counter = 100          # An integer assignment
miles   = 1000.0       # A floating point
name    = "John"       # A string

print counter
print miles
print name

在这里，分配值100，1000.0和“John”分别给变量counter，miles和respectively。当执行这个程序，这将产生下面结果：

100
1000.0
John

多重赋值：

Python同意您同一时候指定一个值给几个变量。比如：

a = b = c = 1

这里，整数对象创建的值1，而且全部三个变量被分配到同样的内存位置。您也能够将多个对象分别到多个变量。比如：

	a, b, c = 1, 2, "john"

这里，两个整对象用值1和2分配给变量a和b，而且值为“john”的字符串对象被分配到变量c。

标准的数据类型：

存储在内存中的数据能够是多种类型的。比如，一个人的年龄被存储为一个数字值和他的地址被存储为字母数字字符。Python用于对每一个人的操作的各种标准类型定义在存储方法。

Python有五个标准的数据类型：

数字
字符串
列表
元组
字典

Python数字：

数字数据类型存储数值。它们是不可变的数据类型，这意味着改变一个新分配的对象的数字数据类型的结果值。

当分配一个值给他们创建的对象。比如：

var1 = 1
var2 = 10

也能够使用del语句删去有关一些对象。 del语句的语法是：

del var1[,var2[,var3[....,varN]]]]

也能够使用del语句删除单个或多个对象。比如：

del var
del var_a, var_b

Python支持四种不同的数值类型：

int (有符号整数)
long (长整数[也能够以八进制和十六进制表示])
float (浮点实数值)
complex (复数)

比如：

这里是数字的一些样例：

int	long	float	complex
10	51924361L	0.0	3.14j
100	-0x19323L	15.20	45.j
-786	0122L	-21.9	9.322e-36j
080	0xDEFABCECBDAECBFBAEl	32.3+e18	.876j
-0490	535633629843L	-90.	-.6545+0J
-0x260	-052318172735L	-32.54e100	3e+26J
0x69	-4721885298529L	70.2-E12	4.53e-7j

Python同意使用一个小写L表示长整型，但建议您仅仅使用一个大写的L到避免和数字1 长得一样不easy分辨，Python显示长整数用一个大写L。
复数包括一个有序对表示为a + bj，当中，a是实部，b是复数的虚部实浮点数。

Python字符串:

在Python中的字符串被确定为一组连续的字符在引號之间。 Python同意在不论什么对单引號或双引號。串的子集，能够使用切片操作符可採用（[]和[：]），索引从0開始的字符串的開始和结束（-1）。

加号（+）符号的字符串连接操作符，而星号（*）表示反复操作。比如：

#!/usr/bin/python

str = 'Hello World!'

print str          # Prints complete string
print str[0]       # Prints first character of the string
print str[2:5]     # Prints characters starting from 3rd to 5th
print str[2:]      # Prints string starting from 3rd character
print str * 2      # Prints string two times
print str + "TEST" # Prints concatenated string

这将产生下面结果：

Hello World!
H
llo
llo World!
Hello World!Hello World!
Hello World!TEST

Python列表:

列表是最通用的Python复合数据类型。列表中包括以逗号分隔，并在方括号（[]）包括的项目。在一定程度上，列表相似C语言中的数组，它们之间的一个差别是，全部属于一个列表中的项目能够是不同的数据类型的。

存储在一个列表中的值能够使用切片操作符来訪问（[]和[：]）用索引从0開始，在列表的開始位置和结束为-1。加号（+）符号列表连接运算符，星号（*）反复操作。比如：

#!/usr/bin/python

list = [ 'abcd', 786 , 2.23, 'john', 70.2 ]
tinylist = [123, 'john']

print list          # Prints complete list
print list[0]       # Prints first element of the list
print list[1:3]     # Prints elements starting from 2nd till 3rd 
print list[2:]      # Prints elements starting from 3rd element
print tinylist * 2  # Prints list two times
print list + tinylist # Prints concatenated lists

这将产生下面结果：

['abcd', 786, 2.23, 'john', 70.200000000000003]
abcd
[786, 2.23]
[2.23, 'john', 70.200000000000003]
[123, 'john', 123, 'john']
['abcd', 786, 2.23, 'john', 70.200000000000003, 123, 'john']

Python元组：

元组是类似于列表中的序列数据类型。一个元组由数个逗号分隔的值。不同于列表，只是，元组圆括号括起来。

列表和元组之间的主要差别是：列表括在括号（[]）和它们的元素和大小是能够改变的，而元组在圆括号()，不能被更新。元组能够被觉得是仅仅读列表。比如：

#!/usr/bin/python

tuple = ( 'abcd', 786 , 2.23, 'john', 70.2  )
tinytuple = (123, 'john')

print tuple           # Prints complete list
print tuple[0]        # Prints first element of the list
print tuple[1:3]      # Prints elements starting from 2nd till 3rd 
print tuple[2:]       # Prints elements starting from 3rd element
print tinytuple * 2   # Prints list two times
print tuple + tinytuple # Prints concatenated lists

这将产生下面结果：

('abcd', 786, 2.23, 'john', 70.200000000000003)
abcd
(786, 2.23)
(2.23, 'john', 70.200000000000003)
(123, 'john', 123, 'john')
('abcd', 786, 2.23, 'john', 70.200000000000003, 123, 'john')

下面是元组无效的，由于我们尝试更新一个元组，这是不同意的。类似的操作在列表中是能够的：

#!/usr/bin/python

tuple = ( 'abcd', 786 , 2.23, 'john', 70.2  )
list = [ 'abcd', 786 , 2.23, 'john', 70.2  ]
tuple[2] = 1000    # Invalid syntax with tuple
list[2] = 1000     # Valid syntax with list

Python字典：

Python字典是一种哈希表型。他们像关联数组或哈希在Perl中一样，由键 - 值对组成。字典键差点儿能够是不论什么Python类型，但一般是数字或字符串。值能够是随意Python的对象。

字典是由花括号括号（{}），可分配值，并用方括号（[]）訪问。比如：

#!/usr/bin/python

dict = {}
dict['one'] = "This is one"
dict[2]     = "This is two"

tinydict = {'name': 'john','code':6734, 'dept': 'sales'}


print dict['one']       # Prints value for 'one' key
print dict[2]           # Prints value for 2 key
print tinydict          # Prints complete dictionary
print tinydict.keys()   # Prints all the keys
print tinydict.values() # Prints all the values

这将产生下面结果：

This is one
This is two
{'dept': 'sales', 'code': 6734, 'name': 'john'}
['dept', 'code', 'name']
['sales', 6734, 'john']

字典有元素顺序的概念。它的元素是无序的。

数据类型转换：

有时候，可能须要运行的内置类型之间的转换。类型之间的转换，仅仅需使用类名作为函数。

有几个内置的功能，从一种数据类型进行转换为还有一种。这些函数返回一个表示转换值的新对象。

函数	描写叙述
int(x [,base])	将x转换为一个整数。基数指定为base，假设x是一个字符串。
long(x [,base] )	将x转换为一个长整数。基数指定为base，假设x是一个字符串。
float(x)	将x转换到一个浮点数。
complex(real [,imag])	创建一个复数。
str(x)	转换对象x为字符串表示形式。
repr(x)	对象x转换为一个表达式字符串。
eval(str)	计算一个字符串，并返回一个对象。
tuple(s)	把s转换为一个元组。
list(s)	把s转换为一个列表。
set(s)	把s转换为一个集合。
dict(d)	创建一个字典。 d必须的（键，值）元组序列。
frozenset(s)	把s转换为冻结集。
chr(x)	整数转换为一个字符。
unichr(x)	整数转换为一个Unicode字符。
ord(x)	转换单个字符为整数值。
hex(x)	将整数转换为十六进制字符串。
oct(x)	将整数转换为以八进制的字符串。

Python 3开发网络爬虫(一)

选择Python版本号

有2和3两个版本号, 3比較新, 听说修改大. 依据我在知乎上搜集的观点来看, 我还是倾向于使用”在趋势中将会越来越火”的版本号, 而非”眼下已经非常稳定并且非常成熟”的版本号. 这是个人喜好, 并且预測不一定准确. 可是假设Python3无法像Python2那么火, 那么整个Python语言就不可避免的随着时间的推移越来越落后, 因此我想事实上选哪个的最坏风险都一样, 可是最好回报却是Python3的大. 事实上两者差别也能够说大也能够说不大, 终于都不是什么大问题. 我选择的是Python 3.

选择參考资料

因为我是一边学一边写, 而不是我全然学会了之后才開始非常有条理的写, 所以參考资料就非常重要(本来应该是个人开发经验非常重要, 但我是零基础).

Python官方文档
知乎相关资料(1) 这篇很好, 通俗易懂的总览整个Python学习框架.
知乎相关资料(2)

写到这里的时候, 上面第二第三个链接的票数第一的回答已经看完了, 他们提到的有些部分(比方爬行的路线不能有回路)我就不写了。

一个简单的伪代码

下面这个简单的伪代码用到了set和queue这两种经典的数据结构, 集与队列. 集的作用是记录那些已经訪问过的页面, 队列的作用是进行广度优先搜索.

queue Q
set S
StartPoint = "http://jecvay.com"
Q.push(StartPoint)  # 经典的BFS开头
S.insert(StartPoint)  # 訪问一个页面之前先标记他为已訪问
while (Q.empty() == false)  # BFS循环体
  T = Q.top()  # 而且pop
  for point in PageUrl(T)  # PageUrl(T)是指页面T中全部url的集合, point是这个集合中的一个元素.
    if (point not in S)
      Q.push(point)
      S.insert(point)

这个伪代码不能运行, 我认为我写的有的不伦不类, 不类Python也不类C++.. 可是我相信看懂是没问题的, 这就是个最简单的BFS结构. 我是看了知乎里面的那个伪代码之后, 自己用我的风格写了一遍. 你也须要用你的风格写一遍.

这里用到的Set其内部原理是採用了Hash表, 传统的Hash对爬虫来说占用空间太大, 因此有一种叫做Bloom Filter的数据结构更适合用在这里替代Hash版本号的set. 我打算以后再看这个数据结构怎么使用, 如今先跳过, 由于对于零基础的我来说, 这不是重点.

代码实现(一): 用Python抓取指定页面

我使用的编辑器是Idle, 安装好Python3后这个编辑器也安装好了, 小巧轻便, 按一个F5就能执行并显示结果. 代码例如以下:

#encoding:UTF-8
import urllib.request
 
url = "http://www.baidu.com"
data = urllib.request.urlopen(url).read()
data = data.decode('UTF-8')
print(data)

urllib.request是一个库, 隶属urllib. 点此打开官方相关文档. 官方文档应该怎么使用呢? 首先点刚刚提到的这个链接进去的页面有urllib的几个子库, 我们临时用到了request, 所以我们先看urllib.request部分. 首先看到的是一句话介绍这个库是干什么用的:

The urllib.request module defines functions and classes which help in opening URLs (mostly HTTP) in a complex world — basic and digest authentication, redirections, cookies and more.

然后把我们代码中用到的urlopen()函数部分阅读完.

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False)

重点部分是返回值, 这个函数返回一个 http.client.HTTPResponse 对象, 这个对象又有各种方法, 比方我们用到的read()方法, 这些方法都能够依据官方文档的链接链过去. 依据官方文档所写, 我用控制台执行完成上面这个程序后, 又继续执行例如以下代码, 以更熟悉这些乱七八糟的方法是干什么的.

>>> a = urllib.request.urlopen(full_url)
>>> type(a)
<class ‘http.client.HTTPResponse’>

>>> a.geturl()
‘http://www.baidu.com/s?word=Jecvay’

>>> a.info()
<http.client.HTTPMessage object at 0x03272250>

>>> a.getcode()
200

代码实现(二): 用Python简单处理URL

假设要抓取百度上面搜索关键词为Jecvay Notes的网页, 则代码例如以下

import urllib
import urllib.request
 
data={}
data['word']='Jecvay Notes'
 
url_values=urllib.parse.urlencode(data)
url="http://www.baidu.com/s?"
full_url=url+url_values
 
data=urllib.request.urlopen(full_url).read()
data=data.decode('UTF-8')
print(data)

data是一个字典, 然后通过urllib.parse.urlencode()来将data转换为 ‘word=Jecvay+Notes’的字符串, 最后和url合并为full_url, 其余和上面那个最简单的样例相同. 关于urlencode(), 相同通过官方文档学习一下他是干什么的. 通过查看

大概知道他是把一个通俗的字符串, 转化为url格式的字符串。

Python 3开发网络爬虫(二)

上一回, 我学会了

用伪代码写出爬虫的主要框架;
用Python的urllib.request库抓取指定url的页面;
用Python的urllib.parse库对普通字符串转符合url的字符串.

这一回, 開始用Python将伪代码中的全部部分实现. 因为文章的标题就是”零基础”, 因此会先把用到的两种数据结构队列和集合介绍一下. 而对于”正則表達式“部分, 限于篇幅不能介绍, 但给出我比較喜欢的几个參考资料.

Python的队列

在爬虫程序中, 用到了广度优先搜索(BFS)算法. 这个算法用到的数据结构就是队列.

Python的List功能已经足够完毕队列的功能, 能够用 append() 来向队尾加入元素, 能够用类似数组的方式来获取队首元素, 能够用 pop(0) 来弹出队首元素. 可是List用来完毕队列功能事实上是低效率的, 由于List在队首使用 pop(0) 和 insert() 都是效率比較低的, Python官方建议使用collection.deque来高效的完毕队列任务.

from collections import deque
queue = deque(["Eric", "John", "Michael"])
queue.append("Terry")           # Terry 入队
queue.append("Graham")          # Graham 入队
queue.popleft()                 # 队首元素出队
#输出: 'Eric'
queue.popleft()                 # 队首元素出队
#输出: 'John'
queue                           # 队列中剩下的元素
#输出: deque(['Michael', 'Terry', 'Graham'])

(以上样例引用自官方文档)

Python的集合

在爬虫程序中, 为了不反复爬那些已经爬过的站点, 我们须要把爬过的页面的url放进集合中, 在每一次要爬某一个url之前, 先看看集合里面是否已经存在. 假设已经存在, 我们就跳过这个url; 假设不存在, 我们先把url放入集合中, 然后再去爬这个页面.

Python提供了set这样的数据结构. set是一种无序的, 不包括反复元素的结构. 一般用来測试是否已经包括了某元素, 或者用来对众多元素们去重. 与数学中的集合论相同, 他支持的运算有交, 并, 差, 对称差.

创建一个set能够用 set() 函数或者花括号 {} . 可是创建一个空集是不能使用一个花括号的, 仅仅能用 set() 函数. 由于一个空的花括号创建的是一个字典数据结构. 下面相同是Python官网提供的演示样例.

>>> basket = {'apple', 'orange', 'apple', 'pear', 'orange', 'banana'}
>>> print(basket)                      # 这里演示的是去重功能
{'orange', 'banana', 'pear', 'apple'}
>>> 'orange' in basket                 # 高速推断元素是否在集合内
True
>>> 'crabgrass' in basket
False
 
>>> # 以下展示两个集合间的运算.
...
>>> a = set('abracadabra')
>>> b = set('alacazam')
>>> a                                  
{'a', 'r', 'b', 'c', 'd'}
>>> a - b                              # 集合a中包括元素
{'r', 'd', 'b'}
>>> a | b                              # 集合a或b中包括的全部元素
{'a', 'c', 'r', 'd', 'b', 'm', 'z', 'l'}
>>> a & b                              # 集合a和b中都包括了的元素
{'a', 'c'}
>>> a ^ b                              # 不同一时候包括于a和b的元素
{'r', 'd', 'b', 'm', 'z', 'l'

事实上我们仅仅是用到当中的高速推断元素是否在集合内的功能, 以及集合的并运算.

Python的正則表達式

在爬虫程序中, 爬回来的数据是一个字符串, 字符串的内容是页面的html代码. 我们要从字符串中, 提取出页面提到过的全部url. 这就要求爬虫程序要有简单的字符串处理能力, 而正則表達式能够非常轻松的完毕这一任务.

參考资料

尽管正則表達式功能异常强大, 非常多实际上用的规则也非常巧妙, 真正熟练正則表達式须要比較长的实践锻炼. 只是我们仅仅须要掌握怎样使用正則表達式在一个字符串中, 把全部的url都找出来, 就能够了. 假设实在想要跳过这一部分, 能够在网上找到非常多现成的匹配url的表达式, 拿来用就可以.

Python网络爬虫Ver 1.0 alpha

有了以上铺垫, 最终能够開始写真正的爬虫了. 我选择的入口地址是Fenng叔的Startup News, 我想Fenng叔刚刚拿到7000万美金融资, 不会介意大家的爬虫去光临他家的小站吧. 这个爬虫尽管能够勉强执行起来, 可是因为缺乏异常处理, 仅仅能爬些静态页面, 也不会分辨什么是静态什么是动态, 碰到什么情况应该跳过, 所以工作一会儿就要败下阵来.

import re
import urllib.request
import urllib
 
from collections import deque
 
queue = deque()
visited = set()
 
url = 'http://news.dbanotes.net'  # 入口页面, 能够换成别的
 
queue.append(url)
cnt = 0
 
while queue:
  url = queue.popleft()  # 队首元素出队
  visited |= {url}  # 标记为已訪问
 
  print('已经抓取: ' + str(cnt) + '   正在抓取 <---  ' + url)
  cnt += 1
  urlop = urllib.request.urlopen(url)
  if 'html' not in urlop.getheader('Content-Type'):
    continue
 
  # 避免程序异常中止, 用try..catch处理异常
  try:
    data = urlop.read().decode('utf-8')
  except:
    continue
 
  # 正則表達式提取页面中全部队列, 并推断是否已经訪问过, 然后增加待爬队列
  linkre = re.compile('href=\"(.+?)\"')
  for x in linkre.findall(data):
    if 'http' in x and x not in visited:
      queue.append(x)
      print('增加队列 --->  ' + x)

这个版本号的爬虫使用的正則表達式是

'href=\"(.+?)\"'

所以会把那些.ico或者.jpg的链接都爬下来. 这样read()了之后碰上decode(‘utf-8′)就要抛出异常. 因此我们用getheader()函数来获取抓取到的文件类型, 是html再继续分析当中的链接.

if 'html' not in urlop.getheader('Content-Type'):
    continue

可是即使是这样, 依旧有些站点执行decode()会异常. 因此我们把decode()函数用try..catch语句包围住, 这样他就不会导致程序中止. 程序执行效果图例如以下:

爬虫是能够工作了, 可是在碰到连不上的链接的时候, 它并不会超时跳过. 并且爬到的内容并没有进行处理, 没有获取对我们有价值的信息, 也没有保存到本地. 下次我们能够完好这个alpha版本号.

Python3网络爬虫(三): 伪装浏览器

上一次我自学爬虫的时候, 写了一个简陋的勉强能执行的爬虫alpha. alpha版有非常多问题. 比方一个站点上不了, 爬虫却一直在等待连接返回response, 不知道超时跳过; 或者有的站点专门拦截爬虫程序, 我们的爬虫也不会伪装自己成为浏览器正规部队; 而且抓取的内容没有保存到本地, 没有什么作用. 这次我们一个个解决这些小问题.

此外, 在我写这系列文章的第二篇的时候, 我还是一个对http的get和post以及response这些名词一无所知的人, 可是我认为这样是写不好爬虫的. 于是我參考了 <<计算机网络–自顶向下方法>> 这本书的第二章的大部分内容. 假设你也一样对http的机制一无所知, 我也推荐你找一找这方面的资料来看. 在看的过程中, 安装一个叫做Fiddler的软件, 边学边实践, 观察浏览器是怎样訪问一个站点的, 怎样发出请求, 怎样处理响应, 怎样进行跳转, 甚至怎样通过登录认证. 有句老话说得好, 越会用Fiddler, 就对理论理解更深刻; 越对理论理解深刻, Fiddler就用得越顺手. 最后我们在用爬虫去做各种各样的事情的时候, Fiddler总是最得力的助手之中的一个.

加入超时跳过功能

首先, 我简单地将

urlop = urllib.request.urlopen(url)

改为

urlop = urllib.request.urlopen(url, timeout = 2)

执行后发现, 当发生超时, 程序由于exception中断. 于是我把这一句也放在try .. except 结构里, 问题解决.

支持自己主动跳转

在爬 http://baidu.com 的时候, 爬回来一个没有什么内容的东西, 这个东西告诉我们应该跳转到 http://www.baidu.com . 可是我们的爬虫并不支持自己主动跳转, 如今我们来加上这个功能, 让爬虫在爬 baidu.com 的时候可以抓取 www.baidu.com 的内容.

首先我们要知道爬 http://baidu.com 的时候他返回的页面是怎么样的, 这个我们既能够用 Fiddler 看, 也能够写一个小爬虫来抓取. 这里我抓到的内容例如以下, 你也应该尝试一下写几行 python 来抓一抓.

<html>
<meta http-equiv=”refresh” content=”0;url=http://www.baidu.com/”>
</html>

看代码我们知道这是一个利用 html 的 meta 来刷新与重定向的代码, 当中的0是等待0秒后跳转, 也就是马上跳转. 这样我们再像上一次说的那样用一个正則表達式把这个url提取出来就能够爬到正确的地方去了. 事实上我们上一次写的爬虫已经能够具有这个功能, 这里仅仅是单独拿出来说明一下 http 的 meta 跳转.

伪装浏览器正规军

前面几个小内容都写的比較少. 如今具体研究一下怎样让站点们把我们的Python爬虫当成正规的浏览器来訪. 由于假设不这么伪装自己, 有的站点就爬不回来了. 假设看过理论方面的知识, 就知道我们是要在 GET 的时候将 User-Agent 加入到header里.

假设没有看过理论知识, 依照下面keyword搜索学习吧 :D

HTTP 报文分两种: 请求报文和响应报文
请求报文的请求行与首部行
GET, POST, HEAD, PUT, DELETE 方法

我用 IE 浏览器訪问百度首页的时候, 浏览器发出去的请求报文例如以下:

GET http://www.baidu.com/ HTTP/1.1
Accept: text/html, application/xhtml+xml, */*
Accept-Language: en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3
User-Agent: Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko
Accept-Encoding: gzip, deflate
Host: www.baidu.com
DNT: 1
Connection: Keep-Alive
Cookie: BAIDUID=57F4D171573A6B88A68789EF5DDFE87:FG=1; uc_login_unique=ccba6e8d978872d57c7654130e714abd; BD_UPN=11263145; BD

然后百度收到这个消息后, 返回给我的的响应报文例如以下(有删节):

HTTP/1.1 200 OK
Date: Mon, 29 Sep 2014 13:07:01 GMT
Content-Type: text/html; charset=utf-8
Connection: Keep-Alive
Vary: Accept-Encoding
Cache-Control: private
Cxy_all: baidu+8b13ba5a7289a37fb380e0324ad688e7
Expires: Mon, 29 Sep 2014 13:06:21 GMT
X-Powered-By: HPHP
Server: BWS/1.1
BDPAGETYPE: 1
BDQID: 0x8d15bb610001fe79
BDUSERID: 0
Set-Cookie: BDSVRTM=0; path=/
Set-Cookie: BD_HOME=0; path=/
Content-Length: 80137

<!DOCTYPE html><!–STATUS OK–><html><head><meta http-equiv=”content-type” content=”text/html;charset=utf-8″><meta http-equiv=”X-UA-Compatible” content=”IE=Edge”><link rel=”dns-prefetch” href=”//s1.bdstatic.com”/><link rel=”dns-prefetch” href=”//t1.baidu.com”/><link rel=”dns-prefetch” href=”//t2.baidu.com”/><link rel=”dns-prefetch” href=”//t3.baidu.com”/><link rel=”dns-prefetch” href=”//t10.baidu.com”/><link rel=”dns-prefetch” href=”//t11.baidu.com”/><link rel=”dns-prefetch” href=”//t12.baidu.com”/><link rel=”dns-prefetch” href=”//b1.bdstatic.com”/><title>百度一下，你就知道</title><style index=”index” > ……….这里省略两万字……………. </script></body></html>

假设可以看懂这段话的第一句就OK了, 别的可以以后再配合 Fiddler 慢慢研究. 所以我们要做的就是在 Python 爬虫向百度发起请求的时候, 顺便在请求里面写上 User-Agent, 表明自己是浏览器君.

在 GET 的时候加入 header 有非常多方法, 以下介绍两种方法.

第一种方法比較简便直接, 可是不好扩展功能, 代码例如以下:

import urllib.request
 
url = 'http://www.baidu.com/'
req = urllib.request.Request(url, headers = {
    'Connection': 'Keep-Alive',
    'Accept': 'text/html, application/xhtml+xml, */*',
    'Accept-Language': 'en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3',
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko'
})
oper = urllib.request.urlopen(req)
data = oper.read()
print(data.decode())

另外一种方法使用了 build_opener 这种方法, 用来自己定义 opener, 这样的方法的优点是能够方便的拓展功能, 比如以下的代码就拓展了自己主动处理 Cookies 的功能.

import urllib.request
import http.cookiejar
 
# head: dict of header
def makeMyOpener(head = {
    'Connection': 'Keep-Alive',
    'Accept': 'text/html, application/xhtml+xml, */*',
    'Accept-Language': 'en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3',
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko'
}):
    cj = http.cookiejar.CookieJar()
    opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
    header = []
    for key, value in head.items():
        elem = (key, value)
        header.append(elem)
    opener.addheaders = header
    return opener
 
oper = makeMyOpener()
uop = oper.open('http://www.baidu.com/', timeout = 1000)
data = uop.read()
print(data.decode())

上述代码执行后通过 Fiddler 抓到的 GET 报文例如以下所看到的:

GET http://www.baidu.com/ HTTP/1.1
Accept-Encoding: identity
Connection: close
Host: www.baidu.com
User-Agent: Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko
Accept: text/html, application/xhtml+xml, */*
Accept-Language: en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3

可见我们在代码里写的东西都加入到请求报文里面了.

保存抓回来的报文

顺便说说文件操作. Python 的文件操作还是相当方便的. 我们能够讲抓回来的数据 data 以二进制形式保存, 也能够经过 decode() 处理成为字符串后以文本形式保存. 修改一下打开文件的方式就能用不同的姿势保存文件了. 以下是參考代码:

def saveFile(data):
    save_path = 'D:\\temp.out'
    f_obj = open(save_path, 'wb') # wb 表示打开方式
    f_obj.write(data)
    f_obj.close()
 
# 这里省略爬虫代码
# ...
 
# 爬到的数据放到 dat 变量里
# 将 dat 变量保存到 D 盘下
saveFile(dat)

下回我们会用 Python 来爬那些须要登录之后才干看到的信息. 在那之前, 我已经对 Fiddler 略微熟悉了. 希望一起学习的也提前安装个 Fiddler 玩一下.

Python3网络爬虫(四): 登录

今天的工作非常有意思, 我们用 Python 来登录站点, 用Cookies记录登录信息, 然后就能够抓取登录之后才干看到的信息. 今天我们拿知乎网来做示范. 为什么是知乎? 这个非常难解释, 可是肯定的是知乎这么大这么成功的站点全然不用我来帮他打广告. 知乎网的登录比較简单, 传输的时候没有对username和password加密, 却又不失代表性, 有一个必须从主页跳转登录的过程.

不得不说一下, Fiddler 这个软件是 Tpircsboy 告诉我的. 感谢他给我带来这么好玩的东西.

第一步: 使用 Fiddler 观察浏览器行为

在开着 Fiddler 的条件下执行浏览器, 输入知乎网的网址 http://www.zhihu.com 回车后到 Fiddler 中就能看到捕捉到的连接信息. 在左边选中一条 200 连接, 在右边打开 Inspactors 透视图, 上方是该条连接的请求报文信息, 下方是响应报文信息.

当中 Raw 标签是显示报文的原文. 下方的响应报文非常有可能是没有经过解压或者解码的, 这样的情况他会在中间部位有一个小提示, 点击一下就能解码显示出原文了.

以上这个截图是在未登录的时候进入 http://www.zhihu.com 得到的. 如今我们来输入username和password登陆知乎网, 再看看浏览器和知乎server之间发生了什么.

点击登陆后, 回到 Fiddler 里查看新出现的一个 200 链接. 我们浏览器携带者我的帐号password给知乎server发送了一个 POST, 内容例如以下:

POST http://www.zhihu.com/login HTTP/1.1
Content-Type: application/x-www-form-urlencoded; charset=UTF-8
Accept: */*
X-Requested-With: XMLHttpRequest
Referer: http://www.zhihu.com/#signin
Accept-Language: en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3
Accept-Encoding: gzip, deflate
User-Agent: Mozilla/5.0 (Windows NT 6.4; WOW64; Trident/7.0; rv:11.0) like Gecko
Content-Length: 97
DNT: 1
Host: www.zhihu.com
Connection: Keep-Alive
Pragma: no-cache
Cookie: __utma=51854390.1539896551.1412320246.1412320246.1412320246.1; __utmb=51854390.6.10.1412320246; __utmc=51854390; __utmz=51854390.1412320246.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __utmv=51854390.000–|3=entry_date=20141003=1

_xsrf=4b41f6c7a9668187ccd8a610065b9718&email=此处涂黑%40gmail.com&password=此处不可见&rememberme=y

截图例如以下:

我的浏览器给 http://www.zhihu.com/login 这个网址(多了一个/login) 发送了一个POST, 内容都已经在上面列出来了, 实username, 有password, 有一个”记住我”的 yes, 当中这个 WebForms 标签下 Fiddler 可以比較井井有条的列出来 POST 的内容. 所以我们用 Python 也发送同样的内容就能登录了. 可是这里出现了一个 Name 为 _xsrf 的项, 他的值是 4b41f6c7a9668187ccd8a610065b9718. 我们要先获取这个值, 然后才干给他发.

浏览器是怎样获取的呢, 我们刚刚是先訪问了 http://www.zhihu.com/ 这个网址, 就是首页, 然后登录的时候他却给 http://www.zhihu.com/login 这个网址发信息. 所以用侦探一般的思维去思考这个问题, 就会发现肯定是首页把 _xsrf 生成发送给我们, 然后我们再把这个 _xsrf 发送给 /login 这个 url. 这样一会儿过后我们就要从第一个 GET 得到的响应报文里面去寻找 _xsrf

截图下方的方框说明, 我们不仅登录成功了, 并且server还告诉我们的浏览器怎样保存它给出的 Cookies 信息. 所以我们也要用 Python 把这些 Cookies 信息记录下来.

这样 Fiddler 的工作就基本结束了!

第二步: 解压缩

简单的写一个 GET 程序, 把知乎首页 GET 下来, 然后 decode() 一下解码, 结果报错. 细致一看, 发现知乎网传给我们的是经过 gzip 压缩之后的数据. 这样我们就须要先对数据解压. Python 进行 gzip 解压非常方便, 由于内置有库能够用. 代码片段例如以下:

import gzip
def ungzip(data):
    try:        # 尝试解压
        print('正在解压.....')
        data = gzip.decompress(data)
        print('解压完成!')
    except:
        print('未经压缩, 无需解压')
    return data

通过 opener.read() 读取回来的数据, 经过 ungzip 自己主动处理后, 再来一遍 decode() 就能够得到解码后的 str 了

第二步: 使用正則表達式获取沙漠之舟

_xsrf 这个键的值在茫茫无际的互联网沙漠之中指引我们用正确的姿势来登录知乎, 所以 _xsrf 可谓沙漠之舟. 假设没有 _xsrf, 我们也许实username和password也无法登录知乎(我没试过, 只是我们学校的教务系统确实如此) 如上文所说, 我们在第一遍 GET 的时候能够从响应报文中的 HTML 代码里面得到这个沙漠之舟. 例如以下函数实现了这个功能, 返回的 str 就是 _xsrf 的值.

import re
def getXSRF(data):
    cer = re.compile('name=\"_xsrf\" value=\"(.*)\"', flags = 0)
    strlist = cer.findall(data)
    return strlist[0]

第三步: 发射 POST !!

集齐 _xsrf, id, password 三大法宝, 我们能够发射 POST 了. 这个 POST 一旦发射过去, 我们就登陆上了server, server就会发给我们 Cookies. 本来处理 Cookies 是个麻烦的事情, 只是 Python 的 http.cookiejar 库给了我们非常方便的解决方式, 仅仅要在创建 opener 的时候将一个 HTTPCookieProcessor 放进去, Cookies 的事情就不用我们管了. 以下的代码体现了这一点.

import http.cookiejar
import urllib.request
def getOpener(head):
    # deal with the Cookies
    cj = http.cookiejar.CookieJar()
    pro = urllib.request.HTTPCookieProcessor(cj)
    opener = urllib.request.build_opener(pro)
    header = []
    for key, value in head.items():
        elem = (key, value)
        header.append(elem)
    opener.addheaders = header
    return opener

getOpener 函数接收一个 head 參数, 这个參数是一个字典. 函数把字典转换成元组集合, 放进 opener. 这样我们建立的这个 opener 就有两大功能:

自己主动处理使用 opener 过程中遇到的 Cookies
自己主动在发出的 GET 或者 POST 请求中加上自己定义的 Header

第四部: 正式执行

正式执行还差一点点, 我们要把要 POST 的数据弄成 opener.open() 支持的格式. 所以还要 urllib.parse 库里的 urlencode() 函数. 这个函数能够把字典或者元组集合类型的数据转换成 & 连接的 str.

str 还不行, 还要通过 encode() 来编码, 才干当作 opener.open() 或者 urlopen() 的 POST 数据參数来使用. 代码例如以下:

url = 'http://www.zhihu.com/'
opener = getOpener(header)
op = opener.open(url)
data = op.read()
data = ungzip(data)     # 解压
_xsrf = getXSRF(data.decode())
 
url += 'login'
id = '这里填你的知乎帐号'
password = '这里填你的知乎密码'
postDict = {
        '_xsrf':_xsrf,
        'email': id,
        'password': password,
        'rememberme': 'y'
}
postData = urllib.parse.urlencode(postDict).encode()
op = opener.open(url, postData)
data = op.read()
data = ungzip(data)
 
print(data.decode())  # 你能够依据你的喜欢来处理抓取回来的数据了!

代码执行后, 我们发现自己关注的人的动态(显示在登陆后的知乎首页的那些), 都被抓取回来了. 下一步做一个统计分析器, 或者自己主动推送器, 或者内容分级自己主动分类器, 都能够.

完整代码例如以下:

import gzip
import re
import http.cookiejar
import urllib.request
import urllib.parse
 
def ungzip(data):
    try:        # 尝试解压
        print('正在解压.....')
        data = gzip.decompress(data)
        print('解压完成!')
    except:
        print('未经压缩, 无需解压')
    return data
 
def getXSRF(data):
    cer = re.compile('name=\"_xsrf\" value=\"(.*)\"', flags = 0)
    strlist = cer.findall(data)
    return strlist[0]
 
def getOpener(head):
    # deal with the Cookies
    cj = http.cookiejar.CookieJar()
    pro = urllib.request.HTTPCookieProcessor(cj)
    opener = urllib.request.build_opener(pro)
    header = []
    for key, value in head.items():
        elem = (key, value)
        header.append(elem)
    opener.addheaders = header
    return opener
 
header = {
    'Connection': 'Keep-Alive',
    'Accept': 'text/html, application/xhtml+xml, */*',
    'Accept-Language': 'en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3',
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko',
    'Accept-Encoding': 'gzip, deflate',
    'Host': 'www.zhihu.com',
    'DNT': '1'
}
 
url = 'http://www.zhihu.com/'
opener = getOpener(header)
op = opener.open(url)
data = op.read()
data = ungzip(data)     # 解压
_xsrf = getXSRF(data.decode())
 
url += 'login'
id = '这里填你的知乎帐号'
password = '这里填你的知乎密码'
postDict = {
        '_xsrf':_xsrf,
        'email': id,
        'password': password,
        'rememberme': 'y'
}
postData = urllib.parse.urlencode(postDict).encode()
op = opener.open(url, postData)
data = op.read()
data = ungzip(data)
 
print(data.decode())

你可能感兴趣的:(python)

python输入代码_Python交互环境下实现输入代码 weixin_39680380 python输入代码
Iamlaosong文Python交互环境的提示符是“>>>”，命令行模式下输入python命令就可以进入这个交互环境进行交互会话。在windows中，除了在shell窗口中输入python，也可以通过启动IDLE的主窗口或者通过从python的start按钮菜单的菜单选项中选择"Python(commandline)"来开始类似的交互会话。在MS-DOS和Windows系统中输入Ctrl+Z退出
python调用百度语音api_python通过调用百度api实现语音识别（超详细）馍菌 python调用百度语音api
最近在学习python，做一些python练习题github上几年前的练习题有一题是这样的：使用Python实现：对着电脑吼一声,自动打开浏览器中的默认网站。例如，对着笔记本电脑吼一声“百度”，浏览器自动打开百度首页。然后开始search相应的功能需要的模块(windows10)，理一下思路：本地录音上传录音，获得返回结果组一个map，根据结果打开相应的网页所需模块：PyAudio：录音接口wav
python处理pdf中二维码图片，批量生成图片 super_ip_ pdf
比如一种pdf页面上有很多二维码，这些二维码比如是用于停车的，每次打开pdf截图或者其他模式存下来，然后扫码使用是不是感觉很麻烦，可以使用python把每个二维码生成图片，然后保存起来使用，当然想方便的话还可以写个页面进行管理。具体看自己的需求具体处理的代码如下：pipinstallfitzpillowimportfitz#这里要安装pillow库fromPILimportImageimporti
Python 调用百度api接口实现语音识别的方法 qq_40550296 语音识别百度api python
安装pycharmsetting中projectinterpreter的库管理器安装下面给出需要用到的库：pipinstallbaidu-aippipinstallwavepipinstallpyaudiopipinstallnumpypipinstallos申请百度api接口http://ai.baidu.com/让后把你申请的APPID扔到下面APP_ID='APP_ID'API_KEY='A
Python接口自动化之断言封装！小码哥说测试自动化测试技术分享软件测试 python 测试工具 postman selenium 功能测试 pytest 自动化测试
该框架支持两种断言方式，相等和包含。先看一下断言的yaml文件编写规范：validate:-equals:{status_code:200}-contains:$ddt{assert_str}其中assert_str和之前用例一样，作为变量，放在对应的datayaml文件中#DDT数据驱动yaml文件，对应的yaml测试用例文件为：user.yaml-['name','userName','pas
使用Anaconda安装指定版本的Python环境西门一刀 python学习 python anaconda
首先确保你的系统里已经安装了Conda，打开CMD窗口，执行命令：conda--version查看你的系统当前已有的Python环境，执行命令：condainfo--envs，从图中我们看到，我的机器里有两个版本的Python环境现在，我想添加一个Python3.3的环境，执行命令：condacreate--namepython33python=3.3，命令中我制定了环境名称是python33，指
Anaconda常用命令小结长青_416686950 深度学习 TensorFlow Anaconda
简介入门机器学习、深度学习，有个神器不得不了解下，最好熟练有它。这就是AnacondaAnaconda是一个开源的Python发行版本，其包含了conda、Python等180多个科学包及其依赖项.用它来管理、开发等，及其方便，里面集成了相当多的有用的吧，比如：numpy、pandas等。还有个神器也在里面，jupyternotebook，这个用来调试代码等非常方便。现在就简单介绍一些anacon
Python3 简介 Mr_One_Zhang 学习Python python
Python是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。Python的设计具有很强的可读性，相比其他语言经常使用英文关键字，其他语言的一些标点符号，它具有比其他语言更有特色语法结构。Python是一种解释型语言：这意味着开发过程中没有了编译这个环节。类似于PHP和Perl语言。Python是交互式语言：这意味着，您可以在一个Python提示符>>>后直接执行代码。Python是
使用Selenium爬取动态表格中的多语言和编码格式程序员笑笑软件测试 selenium 测试工具功能测试软件测试自动化测试程序人生职场和发展
正文Selenium是一个用于自动化Web浏览器的工具，它可以模拟用户的操作，如点击、输入、滚动等。Selenium也可以用于爬取网页中的数据，特别是对于那些动态生成的内容，如表格、图表、下拉菜单等。本文将介绍如何使用SeleniumPython爬取一个动态表格中的多语言和编码格式的数据，并将其保存为CSV文件。特点·Selenium可以处理JavaScript渲染的网页，而不需要额外的库或工具。
在代理服务器环境中配置pip源的全面指南哎呦没 pip
引言Python的包管理工具pip是开发者和系统管理员常用的工具之一，用于安装和管理Python库。然而，在某些网络环境下，如公司内网或某些国家，直接访问pip默认源可能会受到限制。此外，通过代理服务器访问可以提高访问速度并减少带宽消耗。本文将详细介绍如何在代理服务器后配置pip的源，以及如何使用代理进行包的安装和更新。pip和代理服务器概述pip：Python的包安装器，用于安装和管理Pytho
多语言环境大师：在PyCharm中管理多个Python解释器哎呦没 python pycharm rpc
多语言环境大师：在PyCharm中管理多个Python解释器PyCharm作为业界领先的Python集成开发环境（IDE），支持多种Python解释器的配置和管理，使得开发者可以针对不同项目使用不同的Python环境。本文将详细介绍如何在PyCharm中设置和使用多个Python解释器，包括详细的步骤和代码示例。1.引言在开发过程中，不同的项目可能需要不同版本的Python解释器，或者需要同时使用
通达信实时行情api接口如何获取？使用时需要注意哪些安全和合规问题财云量化 python炒股自动化量化交易程序化交易通达信实时行情 api接口安全股票量化接口股票API接口
炒股自动化：申请官方API接口，散户也可以python炒股自动化（0），申请券商API接口python炒股自动化（1），量化交易接口区别Python炒股自动化（2）：获取股票实时数据和历史数据Python炒股自动化（3）：分析取回的实时数据和历史数据Python炒股自动化（4）：通过接口向交易所发送订单Python炒股自动化（5）：通过接口查询订单，查询账户资产股票量化，Python炒股，CSDN
投资与投机在股票市场中的本质区别体现在哪些方面？如何准确判断是投资还是投机？财云量化 python炒股自动化量化交易程序化交易股票市场投资投机本质区别股票量化接口股票API接口
炒股自动化：申请官方API接口，散户也可以python炒股自动化（0），申请券商API接口python炒股自动化（1），量化交易接口区别Python炒股自动化（2）：获取股票实时数据和历史数据Python炒股自动化（3）：分析取回的实时数据和历史数据Python炒股自动化（4）：通过接口向交易所发送订单Python炒股自动化（5）：通过接口查询订单，查询账户资产股票量化，Python炒股，CSDN
TensorFlow的C#版本TensorFlow.NET初体验 yuanpan tensorflow c#.net
TensorFlow.NET是一个开源的.NET库，允许开发者使用C#或F#与TensorFlow进行交互。它为.NET开发者提供了构建、训练和部署机器学习模型的能力，同时支持TensorFlow2.x的API。主要特点支持TensorFlow2.x：完全支持TensorFlow2.x的功能和API。与PythonTensorFlow兼容：可以加载和保存与PythonTensorFlow兼容的模型
Python爬虫入门教程三：requests-html处理动态网页 NUAA丶无痕 Python爬虫
环境python:3.7.4python库:requests-htmlIDE:pycharm2019.3版本爬取网址:https://weibo.cn/pub/教程本次教程爬取的网页是微博移动端的界面，打开网页会显示如下图所示其中除了两个明星每次加载会不一样以外，其他网页的内容是固定的，也就是说利用xpath只能提取网页的其他内容，但是不能提取显示的明星相关的内容下面附上完整代码，但先不要复制运行
使用PyTorch 的神经网络模型对三维点云数据进行分类欣然～ pytorch 神经网络分类
1.概述本代码旨在构建一个基于PyTorch的神经网络模型，用于对生成的三维点云数据进行分类。通过生成数据集、数据预处理、模型训练、评估以及可视化等一系列操作，展示了一个完整的深度学习分类任务流程。最终通过绘制决策曲面和损失曲线，直观地呈现模型的性能和训练过程。2.依赖库导入pythonimportnumpyasnpimportmatplotlib.pyplotaspltfrommpl_toolk
大学生算法编程竞赛汇总冰蓝蓝 c语言 c#数据结构
计算机专业的大学生可以参加的竞赛非常丰富，以下是一些2024年的重要竞赛汇总。•第三届大学生算法大赛：这是一个面向所有在校大学生及研究生的算法竞赛，采用ACM赛制，支持C、C++、Java、Python四种编程语言。竞赛分为研究生组、大学A组、大学B组和专科组，每个组别单独评奖。•第五届全国大学生算法设计与编程挑战赛（春季赛）：这个竞赛分为A、B两个类别，A类面向社会人员、研究生及在校本科生，B类
python bokeh 控件,如何在bokeh python中捕获下拉窗口小部件的值？王萌昊 python bokeh 控件
Theofficialdocumentationofbokeh0.12.1inthelinkgivethebelowcodeforcreatingadropdown.Butitdoesn'tclearlymentionhowtocapturethevalueofthedropdownwidgetwhensomeoneclickandselectsavaluefromthedropdown.from
Python 多处理将子进程的标准输出重定向到 Tkinter 文本潮易 python linux 开发语言
Python多处理将子进程的标准输出重定向到Tkinter文本首先，我们需要使用Python的subprocess模块来创建子进程，并将标准输出重定向到Tkinter文本框。然后，我们需要在主循环中定期检查子进程的状态，如果子进程仍然在运行，我们就将它的输出添加到文本框中。以下是一个简单的示例：```pythonimporttkinterastkfromsubprocessimportPopen,
docker中怎么把docker中的python package转成conda，目前还没有conda Wwwilling docker python conda
要将Docker容器中的Python包转换为Conda环境，你可以按照以下步骤进行操作：导出当前Python依赖：进入你的Docker容器，并使用pip导出当前安装的Python包到一个requirements文件。pipfreeze>requirements.txt创建Conda环境文件：你需要将requirements.txt转换为Conda环境文件。手动创建一个environment.yml
django + oauth 开放平台 QMQ2021 java django mysql python nginx
项目使用django2.1+oauthserver搭建开放平台代码。开放给外部用户申请appid,appkey,源码地址项目说明：使用(oauth2serverdjango)django2.1+oauthserver，搭建oauthserver端，构建基础开放平台。项目亮点：使用django2.1+python3.5部署开放平台基础代码；使用anaconda搭建环境，方便部署在不同服务器上；与ba
如何在散景 python 中捕获下拉小部件的值? 潮易 python 服务器开发语言
如何在散景python中捕获下拉小部件的值?在Python的Tkinter库中，我们可以使用`StringVar()`或者`IntVar()`等变量来捕获下拉小部件（Combobox）的值。以下是一个简单的例子：```pythonimporttkinterastkdefon_combo_change(event):#当下拉框中的值改变时，这个函数会被调用print("当前选中的值为:",combo
mac 怎么配置python 环境变量花花鼓 macos python 开发语言
python相关学习资料：https://edu.51cto.com/video/4102.htmlhttps://edu.51cto.com/video/3502.htmlhttps://edu.51cto.com/video/1158.htmlMac上配置Python环境变量的详细方案在Mac操作系统上配置Python环境变量是一个常见的需求，尤其是对于开发者来说。本文将详细介绍如何在Mac上
mac安装python 并配置环境变量 SchwatzWagen python macos 开发语言
环境变量,python相关学习资料：https://edu.51cto.com/video/2083.htmlhttps://edu.51cto.com/video/1158.htmlhttps://edu.51cto.com/video/4645.htmlMac上安装Python并配置环境变量作为一名刚入行的开发者，你可能需要在Mac上安装Python并配置环境变量。别担心，这个过程并不复杂，我
python编程狮_python编程狮app UI似 python编程狮
python编程狮是一款非常不错的编程学习类手机软件，让初学者也可快速掌握编程的学习法则，感兴趣的小伙伴们快来下载python编程狮app试试吧！软件介绍python编程狮是一款专门为零基础编程爱好者打造的一款Python入门工具App，致力于帮助初学者入门，轻松迈入编程世界。学Python编程，从这里开始！软件功能【零基础】初学者无门槛，快速掌握。【海量教程】提供Python编程海量参考教程。【
Python 内存管理机制与内存泄漏防范 Fro.Heart python 开发语言
Python内存管理机制与内存泄漏防范一、Python内存管理核心机制1.引用计数（主机制）Python通过引用计数跟踪对象被引用的次数，当引用归零时立即回收内存。importsysa=[]#对象引用计数=1b=a#引用计数+1→总计数=2print(sys.getrefcount(a))#显示引用计数（临时+1）delb#引用计数-1dela#引用计数归零→内存回收2.标记-清除（处理循环引用）
Ai工作流工具有那些如Dify、coze扣子等以及他们是否开源橙-极纪元JJYCheng AI 人工智能开源
Dify（https://difycloud.com/）核心定位：专业级LLM应用开发平台，支持复杂AI工作流构建与企业级管理。典型场景：企业智能客服、数据分析系统、复杂自动化流程构建等。适合需要深度定制、企业级管理和复杂AI逻辑的开发者，强调灵活性与扩展性。技术深度：支持自定义插件开发（如Python脚本）、私有部署（Kubernetes集群），适合需要深度控制AI逻辑的企业。Dify功能模型兼
Python,Rust开婚姻关系处理大全APP Geeker-2025 python
---###Python&Rust开发婚姻关系处理大全APP技术方案---####**一、核心功能模块设计**|模块名称|功能描述|技术栈|实现要点||--------------------|--------------------------------------------|----------------|------------------------------||**情感分析引擎*
mac 配置 python 环境变量梦魇梦狸º macos python chrome
最新mac电脑，配置原理暂未研究，欢迎答疑方案一获取python的安装路径whichpython3配置环境变量open~/.bash_profile末尾添加：PATH="/Library/Frameworks/Python.framework/Versions/3.13/bin:${PATH}"exportPATHaliaspython="/Library/Frameworks/Python.fr
Python----机器学习（scikit-learn库，机器学习发展进程）蹦蹦跳跳真可爱589 机器学习 Python python 开发语言机器学习 scikit-learn 人工智能
一、scikit-learn库Scikit-learn是一个非常流行的Python库，用于机器学习和数据挖掘。它提供了一整套简单易用的工具，适用于各类机器学习任务，包括分类、回归、聚类、降维、模型选择和数据预处理。1.1、简介特点：简单高效：提供了简单高效的算法和工具，方便用户快速进行数据分析和机器学习模块化设计：采用模块化设计，使得用户可以根据需要自由组合不同的算法和工具丰富多样的算法：提供了丰
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement

python 基础知识点整理 和详细应用

Python教程

Python概述

Python的历史：

Python的特点：

Python环境安装

本地环境设置

获得Python

安装Python：

UNIX和Linux的安装方式：

Windows上安装:

Macintosh上安装:

设置PATH:

设置路径，在Unix/Linux上：

设置路径Windows系统：

Python环境变量：

执行Python:

(1) 交互式解释器：

(2) 脚本的命令行：

(3)集成开发环境

Python基本的语法

第一个Python程序：

交互模式编程：

脚本模式编程：

Python标识符：

保留字：

行和缩进：

多行语句：

Python引號：

Python凝视：

使用空行：

等待用户：

在一行中多个语句：

多个语句组作为套件：

命令行參数：

Python变量类型

变量赋值：

多重赋值：

标准的数据类型：

Python数字：

比如：

Python字符串:

Python列表:

Python元组：

Python字典：

数据类型转换：

Python 3开发网络爬虫(一)

选择Python版本号

选择參考资料

一个简单的伪代码

代码实现(一): 用Python抓取指定页面

代码实现(二): 用Python简单处理URL

Python 3开发网络爬虫(二)

Python的队列

Python的集合

Python的正則表達式

參考资料

Python网络爬虫Ver 1.0 alpha

Python3网络爬虫(三): 伪装浏览器

加入超时跳过功能

支持自己主动跳转

伪装浏览器正规军

保存抓回来的报文

Python3网络爬虫(四): 登录

第一步: 使用 Fiddler 观察浏览器行为

第二步: 解压缩

第二步: 使用正則表達式获取沙漠之舟

第三步: 发射 POST !!

第四部: 正式执行

你可能感兴趣的:(python)

python 基础知识点整理和详细应用