szu030606

python 基础知识点整理和具体应用

Python教程

Python是一种简单易学，功能强大的编程语言。它包括了高效的高级数据结构和简单而有效的方法，面向对象编程。Python优雅的语法，动态类型，以及它天然的解释能力，使其成为理想的语言，脚本和应用程序快速开发在大多数平台上的许多领域。

Python解释器及其扩展标准库的源码和编译版本可以从Python的Web站点，http://www.python.org/所有主要平台可自由查看，并且可以自由发布。该站点上也包含了分配和指针到很多免费的第三方Python模块，程序，工具，以及附加的文档。

Python的解释器很容易扩展新的功能，并在C或C ++（或由C来调用其他语言）实现的数据类型。 Python也很适于作为定制应用的一种扩展语言。

本教程向读者介绍了非正式的Python语言和系统的基本概念和功能。它有助于理解Python和实战练习，当然所有的例子都是自包含的，所以这本手册可以离线阅读为好。

有关标准对象和模块的详细介绍，请参见Python标准库。Python语言参考给出了语言的更正式的定义。需要编写C或C + +扩展，请阅读扩展和嵌入Python解释器和Python/C的API参考手册。也有几本书涵盖了各个深度的Python。

本教程并不试图全面，涵盖每一个功能，甚至每一个常用功能。相反，它介绍了许多Python中最引人注目的功能，会给Python语言的韵味和风格是一个好开始。看完之后，你就可以阅读和编写Python模块和程序，将准备进一步了解Python标准库描述的各种Python库模块。

Python概述

Python是一种高层次的，解释性的，交互式和面向对象的脚本语言。Python被设计成具有很强的可读性，它使用英语如其他语言常用空白作为标点符号，它比其他语言语法结构更少。

Python被解析：这意味着它是在运行时由解释器处理，你并不需要在执行前编译程序。这类似于Perl和PHP。
Python是互动：这意味着你可以在Python的提示和解释器进行交互，直接写出你的程序。
Python是面向对象的：这意味着Python支持面向对象的方式或程序，它封装了对象中的代码的技术。
Python是初学者的语言：Python是为初级程序员一种伟大的语言，并支持广泛的应用，从简单的文本处理，WWW浏览器，以游戏开发。

Python的历史：

Python是由Guido van Rossum在八十年代末和九十年代初在全国研究所数学与计算机科学在荷兰开发。

Python从许多其他语言，包括ABC，Modula-3语言，C语言，C+ +，Algol-68，Smalltalk和unix的shell等脚本语言得到参考开发。

Python是有版权的。比如Perl，Python源代码现在是GNU通用公共许可证(GPL)下提供。

Python的现在是由一个核心开发团队在维护，虽然Guido van Rossum仍然持有在指导其进展至关重要的作用。

Python的特点：

Python的功能亮点包括：

易于学习：Python有相对较少的关键字，结构简单，明确的语法。这让学生学习的时间相对较短。
易于阅读：Python代码是更加明确，可见。
易于维护：Python的成功在于它的源代码是相当容易维护。
广泛的标准库：Python的最大优点是体积库很方便，在UNIX，Windows和Macintosh跨平台兼容。
交互模式：支持交互模式中，可以从终端输入结果正确的语言，让交互测试的代码片段和调试。
便携式：Python可以在多种硬件平台上运行，并且对所有的平台上使用相同的接口。
扩展：可以添加低级别的模块在Python解释器。这些模块使程序员可以添加或自定义自己的工具来提高效率。
数据库：Python提供接口给所有主要的商业数据库。
GUI编程：Python支持，可以创建并移植到许多系统调用，库和Windows系统，如Windows MFC，Macintosh和Unix的X Window系统的GUI应用程序。
可扩展性：Python提供了一个更好的结构，并支持比shell脚本大型程序。

除了上面提到的功能，Python也有很好的功能，几个列举如下：

支持功能和结构化的编程方法，以及面向对象。
它可以作为一种脚本语言，或者可以被编译为字节码建立大型的应用程序。
非常高的动态数据类型，并且支持动态类型检查。
支持自动垃圾收集。
它可以用C，C + +，COM和ActiveX，CORBA和Java很容易地集成。

Python环境安装

本地环境设置

如果愿意设置您的Python环境，让我们了解如何建立Python环境。 Python可在各种平台，包括Linux和Mac OS X，可尝试打开一个终端窗口并输入“python”，以检查是否已经安装了python，什么版本，如果已经有安装。

Unix (Solaris, Linux, FreeBSD, AIX, HP/UX, SunOS, IRIX, etc.)
Win 9x/NT/2000
Macintosh (Intel, PPC, 68K)
OS/2
DOS (multiple versions)
PalmOS
Nokia 手机
Windows CE
Acorn/RISC OS
BeOS
Amiga
VMS/OpenVMS
QNX
VxWorks
Psion
Python也可被移植到Java和.NET 虚拟机

获得Python

最新源代码，二进制文件，文档，新闻等可在Python的官方网站：

Python官方网站：http://www.python.org/

可以从以下站点下载Python文档。文件格式是HTML，PDF和PostScript。

Python文档网站： www.python.org/doc/

安装Python：

Python发行版适用于各种平台。你只需要下载适用于您的平台的二进制代码并安装Python。

如果二进制代码针对您的平台无法使用，你需要一个C编译器来手动编译源代码。编译源代码提供了选择，为安装功能方面更大的灵活性。

这里是在各种平台上安装Python的快速概览：

UNIX和Linux的安装方式：

下面是简单的步骤，在Unix/ Linux机器上安装Python。

打开Web浏览器并转至http://www.python.org/download/
按照链接下载压缩的源代码在Unix/ Linux操作系统。
下载并解压文件。
编辑模块/安装文件，如果你想自定义一些选项。
执行./configure 脚本
make
make install

这将安装python的标准位置在 /usr/local/bin目录和它的库安装在/usr/local/lib/pythonXX，其中XX是Python使用的版本。

Windows上安装:

下面是Windows机器上安装Python的步骤。

打开Web浏览器并转至 http://www.python.org/download/
按照链接到Windows安装python-XYZ.msi文件，其中XYZ是你要安装的版本。
要使用此安装程序python-XYZ.msi，Windows系统必须支持Microsoft安装程序2.0。只需安装程序文件保存到本地计算机，然后运行它，看看是否你的机器支持MSI。
通过双击它在Windows中运行下载的文件。这将出Python的安装向导，这些都很容易使用。只需接受默认设置，等到安装完成后。

Macintosh上安装:

最新的Mac电脑配备安装了Python，但可能好几年前的机器没有安装。见http://www.python.org/download/mac/上获得的最新版本以及额外的工具来支持在Mac上开发的指令。对于老的Mac OS的Mac OS X10.3之前（2003年推出），MacPython上是可用的。“

只要到这个链接，完整Mac OS安装安装细节。

设置PATH:

程序和其他可执行文件可以住在许多目录，所以操作系统提供，列出目录的操作系统搜索可执行文件的搜索路径。

路径被存储在环境变量，这是由操作系统维护的命名字符串。这些变量包含可用于命令行解释器和其他程序的信息。

路径变量名为Path的Unix或路径在Windows（UNIX是区分大小写的，Windows是没有）。

在Mac OS中，安装程序处理的道路细节。调用任何特定目录Python解释器，必须Python的目录添加到您的路径。

设置路径，在Unix/Linux上：

将Python目录添加到在Unix系统中的特定会话的路径：

在csh shell：输入
SETENV PATH "$PATH:/usr/local/bin/python" 然后按回车键。
在 bash shell (Linux): 输入
export PATH="$PATH:/usr/local/bin/python" 然后按回车键。
在 sh 或 ksh shell: 输入
PATH="$PATH:/usr/local/bin/python" 然后按回车键。

注: /usr/local/bin/python 为Python目录的路径

设置路径Windows系统：

以Python目录添加到了 Windows 特定会话的路径：

在命令提示符下: 输入
path %path%;C:\Python 然后按Enter键。

注意：C:\Python 是Python目录的路径

Python环境变量：

这里是重要的环境变量，其可以被Python确认：

变量	描述
PYTHONPATH	有类似路径的作用。这个变量告诉Python解释器在哪里可以找到导入到程序中的模块文件。 PYTHONPATH应包括Python源代码库目录，包含Python源代码的目录。 PYTHONPATH是由Python安装程序有时会预设。
PYTHONSTARTUP	包含了在每次启动的解释器（类似于Unix.profile或.login文件）时执行Python源代码的初始化文件的路径。这个文件通常命名为.pythonrc.py。在Unix中，通常包含加载实用程序或修改PYTHONPATH命令。
PYTHONCASEOK	在Windows中使用，以指示Python找到一个import语句，第一个不区分大小写的匹配。将此变量设置为任意值来激活它。
PYTHONHOME	备选模块搜索路径。它通常嵌入在PYTHONSTARTUP或PYTHONPATH目录，以使交换模块库的简单。

运行Python:

有三种不同的方式来启动Python：

(1) 交互式解释器：

可以输入python，并在开始通过命令行启动在交互式解释器它编码的时候。从UNIX，DOS或其他系统提供了一个命令行解释器或shell窗口。

$python             # Unix/Linux

or 

python%             # Unix/Linux

or 

C:>python           # Windows/DOS

下面是所有可用的命令行选项的列表：

选项	描述
-d	提供调试输出
-O	生成优化代码（结果为.pyo文件）
-S	不运行导入网站，在启动时查找Python路径
-v	详细输出（在导入语句详细的跟踪）
-X	禁止基于类内置异常（只使用字符串）;开始1.6版本过时
-c cmd	作为cmd 字符串运行Python脚本发送
file	从给定的文件运行Python脚本

(2) 脚本的命令行：

Python脚本可以在命令行中通过调用应用程序中的解释，如下面的执行：

$python  script.py          # Unix/Linux

or 

python% script.py           # Unix/Linux

or 

C:>python script.py         # Windows/DOS

注意：请确保该文件的权限模式可以执行。

(3)集成开发环境

您可以从图形用户界面（GUI）环境中运行Python。所有需要的是一个支持Python系统的GUI应用程序。

UNIX：IDLE也是早期的UNIX系统为Python的IDE。
Windows：PythonWin是第一个Windows界面的Python和一个GUI的IDE。
Macintosh：Python的的Macintosh版本随着闲置的IDE可从主站下载，不是MACBINARY就是BinHex'd文件。

在继续到下一个章节前，请确保您的环境已正确设置及完全正常工作。如果不能够建立正常的环境，那么可以重新安装配置。

所有在以后的章节中给出的例子已经执行了可在Linux CentOS 上的 Python2.7.3版本。

Python基本语法

Python与Perl，C和Java语言等有许多相似之处。不过，也有语言之间有一些明确的区别。本章的目的是让你迅速学习Python的语法。

第一个Python程序：

交互模式编程：

调用解释器不经过脚本文件作为参数，显示以下提示：

$ python
Python 2.6.4 (#1, Nov 11 2014, 13:34:43)
[GCC 4.1.2 20120704 (Red Hat 5.6.2-48)] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>>

键入下列文字在Python提示符，然后按Enter键：

>>> print "Hello, Python!";

如果您运行的是新的Python版本，那么需要使用打印语句括号像print ("Hello, Python!");。但是在Python版本2.6.4，这将产生以下结果：

Hello, Python!

脚本模式编程：

调用解释器及脚本作为参数，并开始执行的脚本，并一直持续到脚本完成。当脚本完成时，解释器不再是活动的。

让我们在脚本中编写一个简单的Python程序。所有的Python文件将具有.py扩展。所以，把下面的代码写在一个test.py文件。

print "Hello, Python!";

在这里，我假设你已经在PATH变量中设置Python解释器。现在，尝试如下运行这个程序：

$ python test.py

这将产生以下结果：

Hello, Python!

让我们尝试另一种方式来执行Python脚本。下面是修改后的test.py文件：

#!/usr/bin/python

print "Hello, Python!";

在这里，假设Python解释器在/usr/bin目录中可用。现在，尝试如下运行这个程序：

$ chmod +x test.py     # This is to make file executable
$./test.py

这将产生以下结果：

Hello, Python!

Python标识符：

Python标识符是用来标识一个变量，函数，类，模块或其他对象的名称。一个标识符开始以字母A到Z或a〜z或后跟零个或多个字母下划线（_），下划线和数字（0〜9）。

Python中标识符内不允许标点符号，如@，$和％。 Python是一种区分大小写的编程语言。因此，Manpower 和manpower在Python中是两个不同的标识符。

这里有Python标识符命名约定：

类名以大写字母以及所有其它标识符以小写字母。
开头单个前导下划线的标识符表示由该标识符约定意思是私有的。
开头两个前导下划线的标识符表示一个强烈的私有的标识符。
如果标识符末尾还具有两个下划线结束时，该标识符是一个语言定义的特殊名称。

保留字：

下面列出了在Python中的保留字。这些保留字不可以被用作常量或变量，或任何其它标识符。所有Python关键字只包含小写字母。

and	exec	not
assert	finally	or
break	for	pass
class	from	print
continue	global	raise
def	if	return
del	import	try
elif	in	while
else	is	with
except	lambda	yield

行和缩进：

一个程序员学习Python时，遇到的第一个需要注意的地方是，不使用括号来表示代码的类和函数定义块或流程控制。代码块是由行缩进，这是严格执行表示方式。

在缩进位的数目是可变的，但是在块中的所有语句必须缩进相同的量。在这个例子中，两个功能块都很好使用：

if True:
    print "True"
else:
  print "False"

然而，在本实施例中的第二块将产生一个错误：

if True:
    print "Answer"
    print "True"
else:
    print "Answer"
  print "False"

因此，在Python中所有的连续线缩进的空格数同样的会结成块。以下是各种语句块中的例子：

注意：不要试图理解所使用的逻辑或不同的功能。只要确定你明白，即使他们各种模块无需括号。

#!/usr/bin/python

import sys

try:
  # open file stream
  file = open(file_name, "w")
except IOError:
  print "There was an error writing to", file_name
  sys.exit()
print "Enter '", file_finish,
print "' When finished"
while file_text != file_finish:
  file_text = raw_input("Enter text: ")
  if file_text == file_finish:
    # close the file
    file.close
    break
  file.write(file_text)
  file.write("\n")
file.close()
file_name = raw_input("Enter filename: ")
if len(file_name) == 0:
  print "Next time please enter something"
  sys.exit()
try:
  file = open(file_name, "r")
except IOError:
  print "There was an error reading file"
  sys.exit()
file_text = file.read()
file.close()
print file_text

多行语句：

Python语句通常用一个新行结束。但是，Python允许使用续行字符（\）来表示，该行应该继续下去（跨行）。例如：

total = item_one + \
        item_two + \
        item_three

包含在[]，{}或()括号内的陈述并不需要使用续行符。例如：

days = ['Monday', 'Tuesday', 'Wednesday',
        'Thursday', 'Friday']

Python引号：

Python接受单引号（'），双引号（“）和三（''或”“”）引用，以表示字符串常量，只要是同一类型的引号开始和结束的字符串。

三重引号可以用于跨越多个行的字符串。例如，所有下列是合法的：

word = 'word'
sentence = "This is a sentence."
paragraph = """This is a paragraph. It is
made up of multiple lines and sentences."""

Python注释：

一个井号（＃），这不是一个字符串文字开头的注释。“＃”号之后字符和到物理行是注释的一部分，Python解释器会忽略它们。

#!/usr/bin/python

# First comment
print "Hello, Python!";  # second comment

这将产生以下结果：

Hello, Python!

注释可能会在声明中表达或同一行之后：

name = "Madisetti" # This is again comment

你可以使用多行注释如下：

# This is a comment.
# This is a comment, too.
# This is a comment, too.
# I said that already.

使用空行：

一行只含有空格，可能带有注释，如果是空行那么Python完全忽略它。

在交互式解释器会话中，必须输入一个空的物理行终止多行语句。

等待用户：

程序的下面一行显示的提示，按回车键退出，等待用户按下回车键：

#!/usr/bin/python

raw_input("\n\nPress the enter key to exit.")

在这里，“\n\n已”被用来显示实际行之前创建两个换行。一旦用户按下键时，程序结束。这是一个很好的技巧，保持一个控制台窗口打开，直到用户完成应用程序运行。

在一行中多个语句：

分号( ; ) 允许在单行写入多条语句，不管语句是否启动一个新的代码块。下面是使用分号示例：

import sys; x = 'foo'; sys.stdout.write(x + '\n')

多个语句组作为套件：

一组单独的语句，在Python单一的代码块被称为序列。复杂的语句，如if, while, def, and class，那些需要一个标题行和套件。

标题行开始的声明（与关键字），并终止与冒号（:)），接着是一个或多个线构成该套件。例如：

if expression : 
   suite
elif expression : 
   suite 
else : 
   suite

命令行参数：

我们可能已经看到了，比如，很多程序可以运行，它们提供有关如何运行的一些基本信息。 Python中可以使用 -h 做到这一点：

$ python -h
usage: python [option] ... [-c cmd | -m mod | file | -] [arg] ...
Options and arguments (and corresponding environment variables):
-c cmd : program passed in as string (terminates option list)
-d     : debug output from parser (also PYTHONDEBUG=x)
-E     : ignore environment variables (such as PYTHONPATH)
-h     : print this help message and exit

[ etc. ]

您也可以设定您的脚本，它应该以这样的方式接受各种选项。命令行参数是一个高级主题并在以后学习，当您通过其它的Python概念后。

Python变量类型

变量是只不过保留的内存位置用来存储值。这意味着，当创建一个变量，那么它在内存中保留一些空间。

根据一个变量的数据类型，解释器分配内存，并决定如何可以被存储在所保留的内存中。因此，通过分配不同的数据类型的变量，你可以存储整数，小数或字符在这些变量中。

变量赋值：

Python的变量不必显式地声明保留的存储器空间。当分配一个值给一个变量的声明将自动发生。等号(=)来赋值给变量。

操作数=操作符的左边是变量，操作数=操作符的右侧的名称在变量中存储的值。例如：

#!/usr/bin/python

counter = 100          # An integer assignment
miles   = 1000.0       # A floating point
name    = "John"       # A string

print counter
print miles
print name

在这里，分配值100，1000.0和“John”分别给变量counter，miles和respectively。当运行这个程序，这将产生以下结果：

100
1000.0
John

多重赋值：

Python允许您同时指定一个值给几个变量。例如：

a = b = c = 1

这里，整数对象创建的值1，并且所有三个变量被分配到相同的内存位置。您也可以将多个对象分别到多个变量。例如：

	a, b, c = 1, 2, "john"

这里，两个整对象用值1和2分配给变量a和b，并且值为“john”的字符串对象被分配到变量c。

标准的数据类型：

存储在内存中的数据可以是多种类型的。例如，一个人的年龄被存储为一个数字值和他的地址被存储为字母数字字符。Python用于对每个人的操作的各种标准类型定义在存储方法。

Python有五个标准的数据类型：

数字
字符串
列表
元组
字典

Python数字：

数字数据类型存储数值。它们是不可变的数据类型，这意味着改变一个新分配的对象的数字数据类型的结果值。

当分配一个值给他们创建的对象。例如：

var1 = 1
var2 = 10

也可以使用del语句删去有关一些对象。 del语句的语法是：

del var1[,var2[,var3[....,varN]]]]

也可以使用del语句删除单个或多个对象。例如：

del var
del var_a, var_b

Python支持四种不同的数值类型：

int (有符号整数)
long (长整数[也可以以八进制和十六进制表示])
float (浮点实数值)
complex (复数)

例如：

这里是数字的一些例子：

int	long	float	complex
10	51924361L	0.0	3.14j
100	-0x19323L	15.20	45.j
-786	0122L	-21.9	9.322e-36j
080	0xDEFABCECBDAECBFBAEl	32.3+e18	.876j
-0490	535633629843L	-90.	-.6545+0J
-0x260	-052318172735L	-32.54e100	3e+26J
0x69	-4721885298529L	70.2-E12	4.53e-7j

Python允许使用一个小写L表示长整型，但建议您只使用一个大写的L到避免和数字1 长得一样不容易分辨，Python显示长整数用一个大写L。
复数包含一个有序对表示为a + bj，其中，a是实部，b是复数的虚部实浮点数。

Python字符串:

在Python中的字符串被确定为一组连续的字符在引号之间。 Python允许在任何对单引号或双引号。串的子集，可以使用切片操作符可采用（[]和[：]），索引从0开始的字符串的开始和结束（-1）。

加号（+）符号的字符串连接操作符，而星号（*）表示重复操作。例如：

#!/usr/bin/python

str = 'Hello World!'

print str          # Prints complete string
print str[0]       # Prints first character of the string
print str[2:5]     # Prints characters starting from 3rd to 5th
print str[2:]      # Prints string starting from 3rd character
print str * 2      # Prints string two times
print str + "TEST" # Prints concatenated string

这将产生以下结果：

Hello World!
H
llo
llo World!
Hello World!Hello World!
Hello World!TEST

Python列表:

列表是最通用的Python复合数据类型。列表中包含以逗号分隔，并在方括号（[]）包含的项目。在一定程度上，列表相似C语言中的数组，它们之间的一个区别是，所有属于一个列表中的项目可以是不同的数据类型的。

存储在一个列表中的值可以使用切片操作符来访问（[]和[：]）用索引从0开始，在列表的开始位置和结束为-1。加号（+）符号列表连接运算符，星号（*）重复操作。例如：

#!/usr/bin/python

list = [ 'abcd', 786 , 2.23, 'john', 70.2 ]
tinylist = [123, 'john']

print list          # Prints complete list
print list[0]       # Prints first element of the list
print list[1:3]     # Prints elements starting from 2nd till 3rd 
print list[2:]      # Prints elements starting from 3rd element
print tinylist * 2  # Prints list two times
print list + tinylist # Prints concatenated lists

这将产生以下结果：

['abcd', 786, 2.23, 'john', 70.200000000000003]
abcd
[786, 2.23]
[2.23, 'john', 70.200000000000003]
[123, 'john', 123, 'john']
['abcd', 786, 2.23, 'john', 70.200000000000003, 123, 'john']

Python元组：

元组是类似于列表中的序列数据类型。一个元组由数个逗号分隔的值。不同于列表，不过，元组圆括号括起来。

列表和元组之间的主要区别是：列表括在括号（[]）和它们的元素和大小是可以改变的，而元组在圆括号()，不能被更新。元组可以被认为是只读列表。例如：

#!/usr/bin/python

tuple = ( 'abcd', 786 , 2.23, 'john', 70.2  )
tinytuple = (123, 'john')

print tuple           # Prints complete list
print tuple[0]        # Prints first element of the list
print tuple[1:3]      # Prints elements starting from 2nd till 3rd 
print tuple[2:]       # Prints elements starting from 3rd element
print tinytuple * 2   # Prints list two times
print tuple + tinytuple # Prints concatenated lists

这将产生以下结果：

('abcd', 786, 2.23, 'john', 70.200000000000003)
abcd
(786, 2.23)
(2.23, 'john', 70.200000000000003)
(123, 'john', 123, 'john')
('abcd', 786, 2.23, 'john', 70.200000000000003, 123, 'john')

以下是元组无效的，因为我们尝试更新一个元组，这是不允许的。类似的操作在列表中是可以的：

#!/usr/bin/python

tuple = ( 'abcd', 786 , 2.23, 'john', 70.2  )
list = [ 'abcd', 786 , 2.23, 'john', 70.2  ]
tuple[2] = 1000    # Invalid syntax with tuple
list[2] = 1000     # Valid syntax with list

Python字典：

Python字典是一种哈希表型。他们像关联数组或哈希在Perl中一样，由键 - 值对组成。字典键几乎可以是任何Python类型，但通常是数字或字符串。值可以是任意Python的对象。

字典是由花括号括号（{}），可分配值，并用方括号（[]）访问。例如：

#!/usr/bin/python

dict = {}
dict['one'] = "This is one"
dict[2]     = "This is two"

tinydict = {'name': 'john','code':6734, 'dept': 'sales'}


print dict['one']       # Prints value for 'one' key
print dict[2]           # Prints value for 2 key
print tinydict          # Prints complete dictionary
print tinydict.keys()   # Prints all the keys
print tinydict.values() # Prints all the values

这将产生以下结果：

This is one
This is two
{'dept': 'sales', 'code': 6734, 'name': 'john'}
['dept', 'code', 'name']
['sales', 6734, 'john']

字典有元素顺序的概念。它的元素是无序的。

数据类型转换：

有时候，可能需要执行的内置类型之间的转换。类型之间的转换，只需使用类名作为函数。

有几个内置的功能，从一种数据类型进行转换为另一种。这些函数返回一个表示转换值的新对象。

函数	描述
int(x [,base])	将x转换为一个整数。基数指定为base，如果x是一个字符串。
long(x [,base] )	将x转换为一个长整数。基数指定为base，如果x是一个字符串。
float(x)	将x转换到一个浮点数。
complex(real [,imag])	创建一个复数。
str(x)	转换对象x为字符串表示形式。
repr(x)	对象x转换为一个表达式字符串。
eval(str)	计算一个字符串，并返回一个对象。
tuple(s)	把s转换为一个元组。
list(s)	把s转换为一个列表。
set(s)	把s转换为一个集合。
dict(d)	创建一个字典。 d必须的（键，值）元组序列。
frozenset(s)	把s转换为冻结集。
chr(x)	整数转换为一个字符。
unichr(x)	整数转换为一个Unicode字符。
ord(x)	转换单个字符为整数值。
hex(x)	将整数转换为十六进制字符串。
oct(x)	将整数转换为以八进制的字符串。

Python 3开发网络爬虫(一)

选择Python版本

有2和3两个版本, 3比较新, 听说改动大. 根据我在知乎上搜集的观点来看, 我还是倾向于使用”在趋势中将会越来越火”的版本, 而非”目前已经很稳定而且很成熟”的版本. 这是个人喜好, 而且预测不一定准确. 但是如果Python3无法像Python2那么火, 那么整个Python语言就不可避免的随着时间的推移越来越落后, 因此我想其实选哪个的最坏风险都一样, 但是最好回报却是Python3的大. 其实两者区别也可以说大也可以说不大, 最终都不是什么大问题. 我选择的是Python 3.

选择参考资料

由于我是一边学一边写, 而不是我完全学会了之后才开始很有条理的写, 所以参考资料就很重要(本来应该是个人开发经验很重要, 但我是零基础).

Python官方文档
知乎相关资料(1) 这篇非常好, 通俗易懂的总览整个Python学习框架.
知乎相关资料(2)

写到这里的时候, 上面第二第三个链接的票数第一的回答已经看完了, 他们提到的有些部分(比如爬行的路线不能有回路)我就不写了。

一个简单的伪代码

以下这个简单的伪代码用到了set和queue这两种经典的数据结构, 集与队列. 集的作用是记录那些已经访问过的页面, 队列的作用是进行广度优先搜索.

queue Q
set S
StartPoint = "http://jecvay.com"
Q.push(StartPoint)  # 经典的BFS开头
S.insert(StartPoint)  # 访问一个页面之前先标记他为已访问
while (Q.empty() == false)  # BFS循环体
  T = Q.top()  # 并且pop
  for point in PageUrl(T)  # PageUrl(T)是指页面T中所有url的集合, point是这个集合中的一个元素.
    if (point not in S)
      Q.push(point)
      S.insert(point)

这个伪代码不能执行, 我觉得我写的有的不伦不类, 不类Python也不类C++.. 但是我相信看懂是没问题的, 这就是个最简单的BFS结构. 我是看了知乎里面的那个伪代码之后, 自己用我的风格写了一遍. 你也需要用你的风格写一遍.

这里用到的Set其内部原理是采用了Hash表, 传统的Hash对爬虫来说占用空间太大, 因此有一种叫做Bloom Filter的数据结构更适合用在这里替代Hash版本的set. 我打算以后再看这个数据结构怎么使用, 现在先跳过, 因为对于零基础的我来说, 这不是重点.

代码实现(一): 用Python抓取指定页面

我使用的编辑器是Idle, 安装好Python3后这个编辑器也安装好了, 小巧轻便, 按一个F5就能运行并显示结果. 代码如下:

#encoding:UTF-8
import urllib.request
 
url = "http://www.baidu.com"
data = urllib.request.urlopen(url).read()
data = data.decode('UTF-8')
print(data)

urllib.request是一个库, 隶属urllib. 点此打开官方相关文档. 官方文档应该怎么使用呢? 首先点刚刚提到的这个链接进去的页面有urllib的几个子库, 我们暂时用到了request, 所以我们先看urllib.request部分. 首先看到的是一句话介绍这个库是干什么用的:

The urllib.request module defines functions and classes which help in opening URLs (mostly HTTP) in a complex world — basic and digest authentication, redirections, cookies and more.

然后把我们代码中用到的urlopen()函数部分阅读完.

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False)

重点部分是返回值, 这个函数返回一个 http.client.HTTPResponse 对象, 这个对象又有各种方法, 比如我们用到的read()方法, 这些方法都可以根据官方文档的链接链过去. 根据官方文档所写, 我用控制台运行完毕上面这个程序后, 又继续运行如下代码, 以更熟悉这些乱七八糟的方法是干什么的.

>>> a = urllib.request.urlopen(full_url)
>>> type(a)
<class ‘http.client.HTTPResponse’>

>>> a.geturl()
‘http://www.baidu.com/s?word=Jecvay’

>>> a.info()
<http.client.HTTPMessage object at 0x03272250>

>>> a.getcode()
200

代码实现(二): 用Python简单处理URL

如果要抓取百度上面搜索关键词为Jecvay Notes的网页, 则代码如下

import urllib
import urllib.request
 
data={}
data['word']='Jecvay Notes'
 
url_values=urllib.parse.urlencode(data)
url="http://www.baidu.com/s?"
full_url=url+url_values
 
data=urllib.request.urlopen(full_url).read()
data=data.decode('UTF-8')
print(data)

data是一个字典, 然后通过urllib.parse.urlencode()来将data转换为 ‘word=Jecvay+Notes’的字符串, 最后和url合并为full_url, 其余和上面那个最简单的例子相同. 关于urlencode(), 同样通过官方文档学习一下他是干什么的. 通过查看

urllib.parse.urlencode(query, doseq=False, safe=”, encoding=None, errors=None)
urllib.parse.quote_plus(string, safe=”, encoding=None, errors=None)

大概知道他是把一个通俗的字符串, 转化为url格式的字符串。

Python 3开发网络爬虫(二)

上一回, 我学会了

用伪代码写出爬虫的主要框架;
用Python的urllib.request库抓取指定url的页面;
用Python的urllib.parse库对普通字符串转符合url的字符串.

这一回, 开始用Python将伪代码中的所有部分实现. 由于文章的标题就是”零基础”, 因此会先把用到的两种数据结构队列和集合介绍一下. 而对于”正则表达式“部分, 限于篇幅不能介绍, 但给出我比较喜欢的几个参考资料.

Python的队列

在爬虫程序中, 用到了广度优先搜索(BFS)算法. 这个算法用到的数据结构就是队列.

Python的List功能已经足够完成队列的功能, 可以用 append() 来向队尾添加元素, 可以用类似数组的方式来获取队首元素, 可以用 pop(0) 来弹出队首元素. 但是List用来完成队列功能其实是低效率的, 因为List在队首使用 pop(0) 和 insert() 都是效率比较低的, Python官方建议使用collection.deque来高效的完成队列任务.

from collections import deque
queue = deque(["Eric", "John", "Michael"])
queue.append("Terry")           # Terry 入队
queue.append("Graham")          # Graham 入队
queue.popleft()                 # 队首元素出队
#输出: 'Eric'
queue.popleft()                 # 队首元素出队
#输出: 'John'
queue                           # 队列中剩下的元素
#输出: deque(['Michael', 'Terry', 'Graham'])

(以上例子引用自官方文档)

Python的集合

在爬虫程序中, 为了不重复爬那些已经爬过的网站, 我们需要把爬过的页面的url放进集合中, 在每一次要爬某一个url之前, 先看看集合里面是否已经存在. 如果已经存在, 我们就跳过这个url; 如果不存在, 我们先把url放入集合中, 然后再去爬这个页面.

Python提供了set这种数据结构. set是一种无序的, 不包含重复元素的结构. 一般用来测试是否已经包含了某元素, 或者用来对众多元素们去重. 与数学中的集合论同样, 他支持的运算有交, 并, 差, 对称差.

创建一个set可以用 set() 函数或者花括号 {} . 但是创建一个空集是不能使用一个花括号的, 只能用 set() 函数. 因为一个空的花括号创建的是一个字典数据结构. 以下同样是Python官网提供的示例.

>>> basket = {'apple', 'orange', 'apple', 'pear', 'orange', 'banana'}
>>> print(basket)                      # 这里演示的是去重功能
{'orange', 'banana', 'pear', 'apple'}
>>> 'orange' in basket                 # 快速判断元素是否在集合内
True
>>> 'crabgrass' in basket
False
 
>>> # 下面展示两个集合间的运算.
...
>>> a = set('abracadabra')
>>> b = set('alacazam')
>>> a                                  
{'a', 'r', 'b', 'c', 'd'}
>>> a - b                              # 集合a中包含元素
{'r', 'd', 'b'}
>>> a | b                              # 集合a或b中包含的所有元素
{'a', 'c', 'r', 'd', 'b', 'm', 'z', 'l'}
>>> a & b                              # 集合a和b中都包含了的元素
{'a', 'c'}
>>> a ^ b                              # 不同时包含于a和b的元素
{'r', 'd', 'b', 'm', 'z', 'l'

其实我们只是用到其中的快速判断元素是否在集合内的功能, 以及集合的并运算.

Python的正则表达式

在爬虫程序中, 爬回来的数据是一个字符串, 字符串的内容是页面的html代码. 我们要从字符串中, 提取出页面提到过的所有url. 这就要求爬虫程序要有简单的字符串处理能力, 而正则表达式可以很轻松的完成这一任务.

参考资料

正则表达式30分钟入门教程
w3cschool 的Python正则表达式部分
Python正则表达式指南

虽然正则表达式功能异常强大, 很多实际上用的规则也非常巧妙, 真正熟练正则表达式需要比较长的实践锻炼. 不过我们只需要掌握如何使用正则表达式在一个字符串中, 把所有的url都找出来, 就可以了. 如果实在想要跳过这一部分, 可以在网上找到很多现成的匹配url的表达式, 拿来用即可.

Python网络爬虫Ver 1.0 alpha

有了以上铺垫, 终于可以开始写真正的爬虫了. 我选择的入口地址是Fenng叔的Startup News, 我想Fenng叔刚刚拿到7000万美金融资, 不会介意大家的爬虫去光临他家的小站吧. 这个爬虫虽然可以勉强运行起来, 但是由于缺乏异常处理, 只能爬些静态页面, 也不会分辨什么是静态什么是动态, 碰到什么情况应该跳过, 所以工作一会儿就要败下阵来.

import re
import urllib.request
import urllib
 
from collections import deque
 
queue = deque()
visited = set()
 
url = 'http://news.dbanotes.net'  # 入口页面, 可以换成别的
 
queue.append(url)
cnt = 0
 
while queue:
  url = queue.popleft()  # 队首元素出队
  visited |= {url}  # 标记为已访问
 
  print('已经抓取: ' + str(cnt) + '   正在抓取 <---  ' + url)
  cnt += 1
  urlop = urllib.request.urlopen(url)
  if 'html' not in urlop.getheader('Content-Type'):
    continue
 
  # 避免程序异常中止, 用try..catch处理异常
  try:
    data = urlop.read().decode('utf-8')
  except:
    continue
 
  # 正则表达式提取页面中所有队列, 并判断是否已经访问过, 然后加入待爬队列
  linkre = re.compile('href=\"(.+?)\"')
  for x in linkre.findall(data):
    if 'http' in x and x not in visited:
      queue.append(x)
      print('加入队列 --->  ' + x)

这个版本的爬虫使用的正则表达式是

'href=\"(.+?)\"'

所以会把那些.ico或者.jpg的链接都爬下来. 这样read()了之后碰上decode(‘utf-8′)就要抛出异常. 因此我们用getheader()函数来获取抓取到的文件类型, 是html再继续分析其中的链接.

if 'html' not in urlop.getheader('Content-Type'):
    continue

但是即使是这样, 依然有些网站运行decode()会异常. 因此我们把decode()函数用try..catch语句包围住, 这样他就不会导致程序中止. 程序运行效果图如下:

爬虫是可以工作了, 但是在碰到连不上的链接的时候, 它并不会超时跳过. 而且爬到的内容并没有进行处理, 没有获取对我们有价值的信息, 也没有保存到本地. 下次我们可以完善这个alpha版本.

Python3网络爬虫(三): 伪装浏览器

上一次我自学爬虫的时候, 写了一个简陋的勉强能运行的爬虫alpha. alpha版有很多问题. 比如一个网站上不了, 爬虫却一直在等待连接返回response, 不知道超时跳过; 或者有的网站专门拦截爬虫程序, 我们的爬虫也不会伪装自己成为浏览器正规部队; 并且抓取的内容没有保存到本地, 没有什么作用. 这次我们一个个解决这些小问题.

此外, 在我写这系列文章的第二篇的时候, 我还是一个对http的get和post以及response这些名词一无所知的人, 但是我觉得这样是写不好爬虫的. 于是我参考了 <<计算机网络–自顶向下方法>> 这本书的第二章的大部分内容. 如果你也一样对http的机制一无所知, 我也推荐你找一找这方面的资料来看. 在看的过程中, 安装一个叫做Fiddler的软件, 边学边实践, 观察浏览器是如何访问一个网站的, 如何发出请求, 如何处理响应, 如何进行跳转, 甚至如何通过登录认证. 有句老话说得好, 越会用Fiddler, 就对理论理解更深刻; 越对理论理解深刻, Fiddler就用得越顺手. 最后我们在用爬虫去做各种各样的事情的时候, Fiddler总是最得力的助手之一.

添加超时跳过功能

首先, 我简单地将

urlop = urllib.request.urlopen(url)

改为

urlop = urllib.request.urlopen(url, timeout = 2)

运行后发现, 当发生超时, 程序因为exception中断. 于是我把这一句也放在try .. except 结构里, 问题解决.

支持自动跳转

在爬 http://baidu.com 的时候, 爬回来一个没有什么内容的东西, 这个东西告诉我们应该跳转到 http://www.baidu.com . 但是我们的爬虫并不支持自动跳转, 现在我们来加上这个功能, 让爬虫在爬 baidu.com 的时候能够抓取 www.baidu.com 的内容.

首先我们要知道爬 http://baidu.com 的时候他返回的页面是怎么样的, 这个我们既可以用 Fiddler 看, 也可以写一个小爬虫来抓取. 这里我抓到的内容如下, 你也应该尝试一下写几行 python 来抓一抓.

<html>
<meta http-equiv=”refresh” content=”0;url=http://www.baidu.com/”>
</html>

看代码我们知道这是一个利用 html 的 meta 来刷新与重定向的代码, 其中的0是等待0秒后跳转, 也就是立即跳转. 这样我们再像上一次说的那样用一个正则表达式把这个url提取出来就可以爬到正确的地方去了. 其实我们上一次写的爬虫已经可以具有这个功能, 这里只是单独拿出来说明一下 http 的 meta 跳转.

伪装浏览器正规军

前面几个小内容都写的比较少. 现在详细研究一下如何让网站们把我们的Python爬虫当成正规的浏览器来访. 因为如果不这么伪装自己, 有的网站就爬不回来了. 如果看过理论方面的知识, 就知道我们是要在 GET 的时候将 User-Agent 添加到header里.

如果没有看过理论知识, 按照以下关键字搜索学习吧 :D

HTTP 报文分两种: 请求报文和响应报文
请求报文的请求行与首部行
GET, POST, HEAD, PUT, DELETE 方法

我用 IE 浏览器访问百度首页的时候, 浏览器发出去的请求报文如下:

GET http://www.baidu.com/ HTTP/1.1
Accept: text/html, application/xhtml+xml, */*
Accept-Language: en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3
User-Agent: Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko
Accept-Encoding: gzip, deflate
Host: www.baidu.com
DNT: 1
Connection: Keep-Alive
Cookie: BAIDUID=57F4D171573A6B88A68789EF5DDFE87:FG=1; uc_login_unique=ccba6e8d978872d57c7654130e714abd; BD_UPN=11263145; BD

然后百度收到这个消息后, 返回给我的的响应报文如下(有删节):

HTTP/1.1 200 OK
Date: Mon, 29 Sep 2014 13:07:01 GMT
Content-Type: text/html; charset=utf-8
Connection: Keep-Alive
Vary: Accept-Encoding
Cache-Control: private
Cxy_all: baidu+8b13ba5a7289a37fb380e0324ad688e7
Expires: Mon, 29 Sep 2014 13:06:21 GMT
X-Powered-By: HPHP
Server: BWS/1.1
BDPAGETYPE: 1
BDQID: 0x8d15bb610001fe79
BDUSERID: 0
Set-Cookie: BDSVRTM=0; path=/
Set-Cookie: BD_HOME=0; path=/
Content-Length: 80137

<!DOCTYPE html><!–STATUS OK–><html><head><meta http-equiv=”content-type” content=”text/html;charset=utf-8″><meta http-equiv=”X-UA-Compatible” content=”IE=Edge”><link rel=”dns-prefetch” href=”//s1.bdstatic.com”/><link rel=”dns-prefetch” href=”//t1.baidu.com”/><link rel=”dns-prefetch” href=”//t2.baidu.com”/><link rel=”dns-prefetch” href=”//t3.baidu.com”/><link rel=”dns-prefetch” href=”//t10.baidu.com”/><link rel=”dns-prefetch” href=”//t11.baidu.com”/><link rel=”dns-prefetch” href=”//t12.baidu.com”/><link rel=”dns-prefetch” href=”//b1.bdstatic.com”/><title>百度一下，你就知道</title><style index=”index” > ……….这里省略两万字……………. </script></body></html>

如果能够看懂这段话的第一句就OK了, 别的可以以后再配合 Fiddler 慢慢研究. 所以我们要做的就是在 Python 爬虫向百度发起请求的时候, 顺便在请求里面写上 User-Agent, 表明自己是浏览器君.

在 GET 的时候添加 header 有很多方法, 下面介绍两种方法.

第一种方法比较简便直接, 但是不好扩展功能, 代码如下:

import urllib.request
 
url = 'http://www.baidu.com/'
req = urllib.request.Request(url, headers = {
    'Connection': 'Keep-Alive',
    'Accept': 'text/html, application/xhtml+xml, */*',
    'Accept-Language': 'en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3',
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko'
})
oper = urllib.request.urlopen(req)
data = oper.read()
print(data.decode())

第二种方法使用了 build_opener 这个方法, 用来自定义 opener, 这种方法的好处是可以方便的拓展功能, 例如下面的代码就拓展了自动处理 Cookies 的功能.

import urllib.request
import http.cookiejar
 
# head: dict of header
def makeMyOpener(head = {
    'Connection': 'Keep-Alive',
    'Accept': 'text/html, application/xhtml+xml, */*',
    'Accept-Language': 'en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3',
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko'
}):
    cj = http.cookiejar.CookieJar()
    opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
    header = []
    for key, value in head.items():
        elem = (key, value)
        header.append(elem)
    opener.addheaders = header
    return opener
 
oper = makeMyOpener()
uop = oper.open('http://www.baidu.com/', timeout = 1000)
data = uop.read()
print(data.decode())

上述代码运行后通过 Fiddler 抓到的 GET 报文如下所示:

GET http://www.baidu.com/ HTTP/1.1
Accept-Encoding: identity
Connection: close
Host: www.baidu.com
User-Agent: Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko
Accept: text/html, application/xhtml+xml, */*
Accept-Language: en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3

可见我们在代码里写的东西都添加到请求报文里面了.

保存抓回来的报文

顺便说说文件操作. Python 的文件操作还是相当方便的. 我们可以讲抓回来的数据 data 以二进制形式保存, 也可以经过 decode() 处理成为字符串后以文本形式保存. 改动一下打开文件的方式就能用不同的姿势保存文件了. 下面是参考代码:

def saveFile(data):
    save_path = 'D:\\temp.out'
    f_obj = open(save_path, 'wb') # wb 表示打开方式
    f_obj.write(data)
    f_obj.close()
 
# 这里省略爬虫代码
# ...
 
# 爬到的数据放到 dat 变量里
# 将 dat 变量保存到 D 盘下
saveFile(dat)

下回我们会用 Python 来爬那些需要登录之后才能看到的信息. 在那之前, 我已经对 Fiddler 稍微熟悉了. 希望一起学习的也提前安装个 Fiddler 玩一下.

Python3网络爬虫(四): 登录

今天的工作很有意思, 我们用 Python 来登录网站, 用Cookies记录登录信息, 然后就可以抓取登录之后才能看到的信息. 今天我们拿知乎网来做示范. 为什么是知乎? 这个很难解释, 但是肯定的是知乎这么大这么成功的网站完全不用我来帮他打广告. 知乎网的登录比较简单, 传输的时候没有对用户名和密码加密, 却又不失代表性, 有一个必须从主页跳转登录的过程.

不得不说一下, Fiddler 这个软件是 Tpircsboy 告诉我的. 感谢他给我带来这么好玩的东西.

第一步: 使用 Fiddler 观察浏览器行为

在开着 Fiddler 的条件下运行浏览器, 输入知乎网的网址 http://www.zhihu.com 回车后到 Fiddler 中就能看到捕捉到的连接信息. 在左边选中一条 200 连接, 在右边打开 Inspactors 透视图, 上方是该条连接的请求报文信息, 下方是响应报文信息.

其中 Raw 标签是显示报文的原文. 下方的响应报文很有可能是没有经过解压或者解码的, 这种情况他会在中间部位有一个小提示, 点击一下就能解码显示出原文了.

以上这个截图是在未登录的时候进入 http://www.zhihu.com 得到的. 现在我们来输入用户名和密码登陆知乎网, 再看看浏览器和知乎服务器之间发生了什么.

点击登陆后, 回到 Fiddler 里查看新出现的一个 200 链接. 我们浏览器携带者我的帐号密码给知乎服务器发送了一个 POST, 内容如下:

POST http://www.zhihu.com/login HTTP/1.1
Content-Type: application/x-www-form-urlencoded; charset=UTF-8
Accept: */*
X-Requested-With: XMLHttpRequest
Referer: http://www.zhihu.com/#signin
Accept-Language: en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3
Accept-Encoding: gzip, deflate
User-Agent: Mozilla/5.0 (Windows NT 6.4; WOW64; Trident/7.0; rv:11.0) like Gecko
Content-Length: 97
DNT: 1
Host: www.zhihu.com
Connection: Keep-Alive
Pragma: no-cache
Cookie: __utma=51854390.1539896551.1412320246.1412320246.1412320246.1; __utmb=51854390.6.10.1412320246; __utmc=51854390; __utmz=51854390.1412320246.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __utmv=51854390.000–|3=entry_date=20141003=1

_xsrf=4b41f6c7a9668187ccd8a610065b9718&email=此处涂黑%40gmail.com&password=此处不可见&rememberme=y

截图如下:

我的浏览器给 http://www.zhihu.com/login 这个网址(多了一个/login) 发送了一个POST, 内容都已经在上面列出来了, 有用户名, 有密码, 有一个”记住我”的 yes, 其中这个 WebForms 标签下 Fiddler 能够比较井井有条的列出来 POST 的内容. 所以我们用 Python 也发送相同的内容就能登录了. 但是这里出现了一个 Name 为 _xsrf 的项, 他的值是 4b41f6c7a9668187ccd8a610065b9718. 我们要先获取这个值, 然后才能给他发.

浏览器是如何获取的呢, 我们刚刚是先访问了 http://www.zhihu.com/ 这个网址, 就是首页, 然后登录的时候他却给 http://www.zhihu.com/login 这个网址发信息. 所以用侦探一般的思维去思考这个问题, 就会发现肯定是首页把 _xsrf 生成发送给我们, 然后我们再把这个 _xsrf 发送给 /login 这个 url. 这样一会儿过后我们就要从第一个 GET 得到的响应报文里面去寻找 _xsrf

截图下方的方框说明, 我们不仅登录成功了, 而且服务器还告诉我们的浏览器如何保存它给出的 Cookies 信息. 所以我们也要用 Python 把这些 Cookies 信息记录下来.

这样 Fiddler 的工作就基本结束了!

第二步: 解压缩

简单的写一个 GET 程序, 把知乎首页 GET 下来, 然后 decode() 一下解码, 结果报错. 仔细一看, 发现知乎网传给我们的是经过 gzip 压缩之后的数据. 这样我们就需要先对数据解压. Python 进行 gzip 解压很方便, 因为内置有库可以用. 代码片段如下:

import gzip
def ungzip(data):
    try:        # 尝试解压
        print('正在解压.....')
        data = gzip.decompress(data)
        print('解压完毕!')
    except:
        print('未经压缩, 无需解压')
    return data

通过 opener.read() 读取回来的数据, 经过 ungzip 自动处理后, 再来一遍 decode() 就可以得到解码后的 str 了

第二步: 使用正则表达式获取沙漠之舟

_xsrf 这个键的值在茫茫无际的互联网沙漠之中指引我们用正确的姿势来登录知乎, 所以 _xsrf 可谓沙漠之舟. 如果没有 _xsrf, 我们或许有用户名和密码也无法登录知乎(我没试过, 不过我们学校的教务系统确实如此) 如上文所说, 我们在第一遍 GET 的时候可以从响应报文中的 HTML 代码里面得到这个沙漠之舟. 如下函数实现了这个功能, 返回的 str 就是 _xsrf 的值.

import re
def getXSRF(data):
    cer = re.compile('name=\"_xsrf\" value=\"(.*)\"', flags = 0)
    strlist = cer.findall(data)
    return strlist[0]

第三步: 发射 POST !!

集齐 _xsrf, id, password 三大法宝, 我们可以发射 POST 了. 这个 POST 一旦发射过去, 我们就登陆上了服务器, 服务器就会发给我们 Cookies. 本来处理 Cookies 是个麻烦的事情, 不过 Python 的 http.cookiejar 库给了我们很方便的解决方案, 只要在创建 opener 的时候将一个 HTTPCookieProcessor 放进去, Cookies 的事情就不用我们管了. 下面的代码体现了这一点.

import http.cookiejar
import urllib.request
def getOpener(head):
    # deal with the Cookies
    cj = http.cookiejar.CookieJar()
    pro = urllib.request.HTTPCookieProcessor(cj)
    opener = urllib.request.build_opener(pro)
    header = []
    for key, value in head.items():
        elem = (key, value)
        header.append(elem)
    opener.addheaders = header
    return opener

getOpener 函数接收一个 head 参数, 这个参数是一个字典. 函数把字典转换成元组集合, 放进 opener. 这样我们建立的这个 opener 就有两大功能:

自动处理使用 opener 过程中遇到的 Cookies
自动在发出的 GET 或者 POST 请求中加上自定义的 Header

第四部: 正式运行

正式运行还差一点点, 我们要把要 POST 的数据弄成 opener.open() 支持的格式. 所以还要 urllib.parse 库里的 urlencode() 函数. 这个函数可以把字典或者元组集合类型的数据转换成 & 连接的 str.

str 还不行, 还要通过 encode() 来编码, 才能当作 opener.open() 或者 urlopen() 的 POST 数据参数来使用. 代码如下:

url = 'http://www.zhihu.com/'
opener = getOpener(header)
op = opener.open(url)
data = op.read()
data = ungzip(data)     # 解压
_xsrf = getXSRF(data.decode())
 
url += 'login'
id = '这里填你的知乎帐号'
password = '这里填你的知乎密码'
postDict = {
        '_xsrf':_xsrf,
        'email': id,
        'password': password,
        'rememberme': 'y'
}
postData = urllib.parse.urlencode(postDict).encode()
op = opener.open(url, postData)
data = op.read()
data = ungzip(data)
 
print(data.decode())  # 你可以根据你的喜欢来处理抓取回来的数据了!

代码运行后, 我们发现自己关注的人的动态(显示在登陆后的知乎首页的那些), 都被抓取回来了. 下一步做一个统计分析器, 或者自动推送器, 或者内容分级自动分类器, 都可以.

完整代码如下:

import gzip
import re
import http.cookiejar
import urllib.request
import urllib.parse
 
def ungzip(data):
    try:        # 尝试解压
        print('正在解压.....')
        data = gzip.decompress(data)
        print('解压完毕!')
    except:
        print('未经压缩, 无需解压')
    return data
 
def getXSRF(data):
    cer = re.compile('name=\"_xsrf\" value=\"(.*)\"', flags = 0)
    strlist = cer.findall(data)
    return strlist[0]
 
def getOpener(head):
    # deal with the Cookies
    cj = http.cookiejar.CookieJar()
    pro = urllib.request.HTTPCookieProcessor(cj)
    opener = urllib.request.build_opener(pro)
    header = []
    for key, value in head.items():
        elem = (key, value)
        header.append(elem)
    opener.addheaders = header
    return opener
 
header = {
    'Connection': 'Keep-Alive',
    'Accept': 'text/html, application/xhtml+xml, */*',
    'Accept-Language': 'en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3',
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko',
    'Accept-Encoding': 'gzip, deflate',
    'Host': 'www.zhihu.com',
    'DNT': '1'
}
 
url = 'http://www.zhihu.com/'
opener = getOpener(header)
op = opener.open(url)
data = op.read()
data = ungzip(data)     # 解压
_xsrf = getXSRF(data.decode())
 
url += 'login'
id = '这里填你的知乎帐号'
password = '这里填你的知乎密码'
postDict = {
        '_xsrf':_xsrf,
        'email': id,
        'password': password,
        'rememberme': 'y'
}
postData = urllib.parse.urlencode(postDict).encode()
op = opener.open(url, postData)
data = op.read()
data = ungzip(data)
 
print(data.decode())

你可能感兴趣的:(python 基础知识点整理和具体应用)

[QT] 断点调试天生爱打工 qt qt 开发语言
目录一设置断点二调试窗口信息2.1默认窗口2.2详细窗口属性三调试方法和技巧一设置断点在QtCreator中我们有两种方式添加断点。用鼠标直接点击代码编辑窗口中的某一行按下F9添加/取消断点(操作的是当前鼠标光标所在的代码行)二调试窗口信息2.1默认窗口这里列出几个默认的窗口红色圆点表示断点,黄色箭头表示当前程序运行位置。stack:堆栈表示当前函数之间的调用关系，比如位于哪个函数体中。Local
责任链模式原理详解和源码实例以及Spring AOP拦截器链的执行源码如何使用责任链模式？一个儒雅随和的男子 spring 设计模式责任链模式 spring java
前言本文首先介绍了责任链的基本原理，并附带一个例子说明责任链模式，确保能够理解责任链的前提下，在进行SpringAOP执行责任链的源码分析。责任链模式允许将多个处理对象连接成链，请求沿着链传递，直到被处理或结束。每个处理者可以选择处理请求或传递给下一个。 SpringAOP的拦截器链，拦截器或者过滤器链，都是典型的责任链应用。比如，当一个方法被调用时，多个拦截器按顺序执行，每个拦截器可以决定
【部署】Ktransformer是什么、如何利用单卡24GB显存部署Deepseek-R1 和 Deepseek-V3 仙人掌_lz 人工智能人工智能 AI 部署自然语言处理
简介KTransformers是一个灵活的、以Python为中心的框架，旨在通过先进的内核优化和放置/并行策略提升HuggingFaceTransformers的使用体验。它具有高度的可扩展性，用户可通过单行代码注入优化模块，获得兼容Transformers的接口、符合OpenAI和Ollama的RESTfulAPI，甚至简化的ChatGPT风格的WebUI。KTransformers的性能优化基
技术分享：MyBatis SQL 日志解析脚本￡漫步云端彡运维趣分享 sql java mybatis 日志解析
技术分享：MyBatisSQL日志解析脚本1.脚本功能概述2.实现细节2.1HTML结构2.2JavaScript逻辑3.脚本代码4.使用方法4.1示例5.总结在日常开发中，使用MyBatis作为持久层框架时，我们经常需要查看SQL日志以调试和优化查询。然而，MyBatis的日志输出通常包含占位符和参数信息，这使得直接执行这些SQL语句变得困难。为了解决这个问题，我们开发了一个简单的HTML和Ja
SMT贴片生产的发展趋势与技术创新解析安德胜SMT贴片人工智能
内容概要SMT贴片生产作为现代电子制造的重要组成部分，其发展一直颇具前景与活力。当前，行业内的技术进步与市场需求的快速变化使得SMT贴片生产面临新的机遇与挑战。尤其是在自动化技术方面，许多企业逐步引入更加智能化的设备，从而提升生产效率并降低人为错误。这不仅能够缩短生产周期，还能提高产品的一致性和可靠性。另外，材料科技的进步也促进了SMT贴片生产的变革。新型材料的应用，例如高电导率材料和环保型焊料，
C语言-回调函数的应用 woainizhongguo. C/C++c语言
什么是回调函数回调函数就是一个被作为参数传递的函数。在C语言中，回调函数只能使用函数指针实现，在C++、Python、ECMAScript等更现代的编程语言中还可以使用仿函数或匿名函数。工作机制⑴定义一个回调函数；⑵提供函数实现的一方在初始化的时候，将回调函数的函数指针注册给调用者；⑶当特定的事件或条件发生的时候，调用者使用函数指针调用回调函数对事件进行处理。应用案例（1）应用层：通过调用hal层
技术爱好者不容错过！探秘 Thrive 现代化博客管理系统秋野酱前端课程设计 java 开源 java spring boot vue.js 课程设计
探索ThriveX：现代化博客管理系统的技术与实现在当今数字化时代，知识的分享与交流变得愈发重要。对于技术爱好者和从业者而言，一个优质的博客管理系统不仅是知识输出的窗口，更是思想碰撞的平台。今天，让我们一同走进ThriveX，领略其独特的魅力。一、开源助力，点亮项目之星开源的道路充满艰辛与挑战，每一段代码都凝聚着开发者的心血。如果您在了解ThriveX的过程中有所收获，不妨花费短短10秒钟，为这个
mds_stores不能关闭 nicekwell mac mac mds_stores alfred
有次发现mds_stores占用了很高的cpu，网上有人建议把它关掉：sudomdutil-a-ioff关掉之后发现alfred不能找到新安装的应用了，所以最好还是不要关掉。sudomdutil-a-ion
ubuntu下vscode ctrl+tab松开ctrl后不自动选中文件 nicekwell ubuntu vscode linux
vscode用ctrl+tab切换文件时，松开ctrl键后会自动选中切换的文件。但是在ubuntu下发现有时不能自动选中切换的文件，需要再次按enter键才能打开文件。经过测试发现解决方法有两个：方法1：确认wayland状态，关闭wayland。（编辑/etc/gdm3/custom.conf，设置WaylandEnable=false）方法2：我用tweaks调换了capslock和ctrl，
Tomcat 8 安装包下载 m0_74824517 面试学习路线阿里巴巴 tomcat java
Tomcat8安装包下载【下载地址】Tomcat8安装包下载本仓库提供了一个包含Windows和Linux版本的Tomcat8安装包，方便用户快速下载并部署Tomcat8服务器[这里是图片001]项目地址:https://gitcode.com/open-source-toolkit/fda7c简介本仓库提供了一个包含Windows和Linux版本的Tomcat8安装包，方便用户快速下载并部署To
前端：纯前端快速实现html导出word和pdf m0_74823715 前端 html word
实现html导出word，需要使用两个库。html-docx-js和file-saver导出word的js方法>npminstallhtml-docx-js>npminstallfile-saverjs引入importFileSaverfrom“file-saver”;importhtmlDocxfrom“html-docx-js/dist/html-docx”;/**导出word方法*/expo
Python Union 联合类型注解详解人才程序员杂谈 python 服务器 java linux 后端软件工程开发语言
文章目录PythonUnion联合类型注解详解1.什么是Union联合类型？**语法（Python3.9及之前版本）**：**语法（Python3.10及之后版本）**：2.Union联合类型注解示例**(1)使用Union来表示多个类型的参数****(2)使用`|`来表示联合类型（Python3.10及之后版本）**3.使用Union进行复杂类型注解**(1)使用Union与列表结合****(2
macOS Catalina 10.15 - 新增功能及其他信息记录伊织code Apple 开发+10.15 macOS Catalina Sidecar
文章目录推荐阅读参考一、基本信息WWDC2019壁纸二、beta版本安装macOS10.15Xcode11三、新功能添加屏幕使用时间iPadOS应用可在Mac上运行APFS宗卷被拆分为只读的系统宗卷(System)和用户数据宗卷(Data)增加Findmy查找添加由Siri控制的「捷径」和「屏幕时间」AppleWatch可解锁MacSidecar：将iPad作为副显示屏四、其他变更终端shell建
PCB 打样哪家好？探寻专业猎板之选 lboyj 运维
在电子产业蓬勃发展的当下，PCB（印制电路板）作为电子产品的关键组成部分，其打样质量对于产品的研发和后续生产至关重要。对于众多电子工程师和企业而言，寻找一家可靠的PCB打样厂商是一项重要且具有挑战性的任务。那么，PCB打样究竟哪家好呢？接下来，让我们从多个维度来探讨这一问题，并深入了解猎板PCB在其中的表现。一、品质保障是基石优质的PCB打样，首先体现在品质上。从原材料的选择到生产工艺的把控，每一
猎板 PCB：HDI 技术精要解读 lboyj 人工智能
HDI技术凭借增加盲埋孔的方式，达成了高密度布局，在高端服务器、智能手机、多功能POS机以及安防摄像机等诸多领域均有广泛应用。尤其在通讯和计算机行业中，对HDI线路板有着较高的需求，这在一定程度上有力地推动了科技的持续进步，使得HDI板在国内市场展现出十分乐观的发展前景。然而，HDI技术作为一种特殊工艺，也面临诸多挑战。一方面，其成本相对较高；另一方面，对制造商的生产能力有着严格要求。倘若缺乏先进
Spring Bean 生命周期详解黑风风 java 多线程 spring java 数据库
SpringBean生命周期详解在Spring框架中，Bean的生命周期由Spring容器全权管理。了解和掌握Bean的生命周期对于使用Spring开发稳定且高效的应用程序至关重要。本文将详细介绍SpringBean生命周期的五个主要阶段：实例化、属性注入、初始化、使用和销毁，并涵盖各个阶段的关键步骤和扩展点。1.实例化（Instantiation）实例化阶段包括以下关键步骤：BeanNameAw
对于一个程序员来说，电脑的内存需要多大？ c++服务器开发电脑
1、程序员电脑内存有多大内存够用足够了，纯写代码的编程对电脑要求不高，尤其对显卡几乎没有要求，一般编程可能开的任务窗口比较多，所以只要cpu和内存大点就可以了一般来说，处理器确实比显卡来得重要一些，因为我们的电脑中只配备了一块处理器，而处理器内置正正好有内置了一个核心显卡，如果没有特别需求我们无需再次购买独立显卡，但是对于游戏玩家来说，独立显卡显得重要一些，有的人甚至不惜下血本去配备多块显卡。2、
释放 DeepSeek 的力量：像专家一样本地安装与探索！ guzhoumingyue AI python
要在本地运行DeepSeek，您需要遵循以下步骤。请确保您的计算机上已安装Python和Git，并且满足DeepSeek的依赖项。步骤1:安装依赖项安装Python和pip确保您已安装Python（建议使用Python3.6及以上版本）。您可以通过在终端/命令提示符中输入以下命令来检查Python是否已安装：bash复制代码python--version或者bash复制代码python3--ver
国鑫DeepSeek 671B本地部署方案：以高精度、高性价比重塑AI推理新标杆 Gooxi国鑫人工智能服务器
随着DeepSeek大模型应用火爆全球，官方服务器总是被挤爆。而且基于企业对数据安全、网络、算力的更高需求，模型本地化部署的需求日益增长，如何在有限预算内实现高效、精准的AI推理能力，成为众多企业的核心诉求。国鑫作为深耕AI领域的技术先锋，推出基于4台48GRTX4090或8台24GRTX4090服务器的2套DeepSeek“满血”版本地部署方案，以FP16高精度、高性价比、强扩展性三大优势，为企
FPGA设计怎么学？薪资前景好吗？博览鸿蒙 FPGA fpga开发
FPGA前端设计和各岗位之间有着很多联系，是一个薪资待遇高，前景发展好的岗位。但这个岗位的门槛也比较高，很多人不知道怎么学习，下面就和宸极教育一起来了解一下吧。数字前端设计必备技能1、熟悉数字电路设计2、熟悉Verilog或VHDL3、熟悉异步电路设计4、熟悉FIFO的设计5、熟悉UNIX系统及其工具的使用6、熟悉脚本语言Perl、Shell、Tcl等7、熟悉C/C++语言、SystemVeril
Linux：从入门到精通的全面指南 dbsnc1111 linux 运维服务器
一、引言Linux作为一种开源操作系统，犹如一座技术宝库，在当今的科技领域中占据着至关重要的地位。它以其卓越的稳定性、高度的安全性和无与伦比的灵活性，在服务器、嵌入式系统、个人计算机、超级计算机等众多领域广泛应用。无论是渴望提升技术水平的个人，还是寻求拓展职业道路的专业人士，学习Linux都无疑是开启新机遇之门的钥匙。以下是关于Linux的详细知识以及学习Linux的经验总结，希望能为正在学习或准
游戏引擎学习第112天虾球xz 游戏引擎学习 java
黑板：优化今天的内容是关于优化的，主要讨论了如何在开发中提高代码的效率，尤其是当游戏的帧率出现问题时。优化并不总是要将代码做到最快，而是要确保代码足够高效，以避免性能问题。优化的过程是一个反复迭代的过程，目标是找到一个“足够好”的解决方案，而不是追求极致优化。优化的第一步并不是直接优化代码，而是要进行测量和分析。这一步很重要，因为只有了解代码的表现和瓶颈，才能有效地进行优化。测量代码的性能，确定哪
【Tools/macOS系列】macOS终端配置：zsh+iTerm2+OhMyZsh 飞翔的鲲【实用工具专栏】macOS zsh iTerm2 终端 ohmyzsh
DATE:2021.7.17文章目录1、前言2、参考3、终端和vim配置效果图4、终端配置步骤4.1、安装iTerm24.2、安装oh-my-zsh4.3、主题和颜色4.4、插件4.5、特殊字体Hackherdfont4.6、vim配置4.7、随时唤起4.8、自定义界面壁纸1、前言macOS的终端Terminal界面非常简单，没有Linux下面的颜色设置和自动补齐等功能，用起来非常不方便。本文讲解
Kate文本编辑器 v24.12.9013 开源高级文本代码编辑器 SSASASA11 编辑器
链接：https://pan.quark.cn/s/5577e74ab648Kate是一个可以跨平台使用的免费高级文本编辑器，支持标签页、代码高亮、显示行号、显示缩略图的滚动条、多文件查找、横向或者纵向显示多个视图等众多高级特性。软件功能1、双击当前标签页创建新标签页。2、支持启用/禁用自动换行。3、强大的多文件查找和替换功能。利用这个功能可以一键查找/替换所有已打开的文本中的内容。支持正则表达式
鸿道Intewell操作系统为半导体行业打造高可靠实时控制系统一RTOS一鸿道Intewell操作系统实时操作系统半导体行业高可靠控制系统高实时控制系统
半导体行业是现代科技的核心领域，其生产过程高度依赖自动化和精确的实时控制。从芯片制造到封装测试，每一个环节都需要高精度的设备协同工作，以确保产品的质量和性能。随着半导体技术的不断进步，对实时控制系统的性能、可靠性和灵活性提出了更高的要求。传统的控制系统在集成度、扩展性和功能安全方面逐渐暴露出局限性，而国产实时操作系统的发展为半导体行业提供了新的机遇。随着半导体技术的不断演进，芯片制程日益缩小，对生
ffmpeg-python安装 neverayever 计算机 ffmpeg python linux
centos-ffmpeg-python安装安装ffmpeg一：下载并解压wgethttp://www.ffmpeg.org/releases/ffmpeg-4.2.tar.gztar-zxvfffmpeg-4.2.tar.gz若linux服务器没网，可以在windows上直接访问http://www.ffmpeg.org/releases/ffmpeg-4.2.tar.gz就可下载，然后上传至服
SMT贴片加工_锡膏的作用 CIT_PCBA PCBA pcb工艺贴片 smt 制造
随着现代电子制造业的飞速发展，表面贴装技术（SurfaceMountTechnology，简称SMT）已成为电子组装领域的核心技术。在SMT生产过程中，对于锡膏的使用是非常多的，它直接影响到电路板的质量与性能。本文旨在深入探讨锡膏在SMT中的作用及其对电子制造业的重要性。锡膏及其在SMT中的作用锡膏是一种由微细金属粒子（通常为锡和铅或无铅合金）、助焊剂和少量其他化学品组成的浆料。在SMT生产线上，
SMT贴片加工中回流焊接机的关键工艺 CIT_PCBA pcb工艺制造
SMT贴片指的是在PCB基础上进行加工的系列工艺流程的简称。PCB(PrintedCircuitBoard)意为印刷电路板。(原文:SMT贴片指的是在PCB基础上进行加工的系列工艺流程的简称PCB(PrintedCircuitBoard))SMT是表面组装技术(表面贴装技术)(SurfaceMountedTechnology的缩写)，是目前电子组装行业里最流行的一种技术和工艺。电子电路表面组装技术
形参和实参 2501_90124553 java 算法数据结构
形参（形式参数）函数定义时指定的参数，形参是用来接收数据的，函数定义时，系统不会为形参申请内存，只有当函数调用时，系统才会为形参申请内存。主要用于存储实际参数，并且当函数返回时，系统会自动回收为形参申请的内存资源。（本质上所有函数都有一个return，只不过当我们的函数返回类型是void类型的时候，return是隐式）//关于默认returnvoidfun1(){//此时return;是不建议写出
扫雷游戏升级版含递归链式展开(一次展开一片区域) 代码详细解读 C语言 C r a z y c语言游戏游戏 c语言算法 java 游戏程序 python c++
1、前言：我看了CSDN有很多小伙伴也写了扫雷小游戏但是大部分写的代码都是一次输入坐标只能展开一个位置并没有还原我们小时候最初始的游戏玩法可玩性很低我在这用函数递归链式展开一片还原最初始游戏提高可玩性先放效果图↓2、建议：一个程序代码的实现并不是只靠看能看会的而是要落实到敲代码可以先靠自己画导图根据导图敲出代码敲代码的过程中难免会有些错误解决它这都将成为你宝贵的知识*在看的过程也可以拿出稿纸和笔来
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置

python 基础知识点整理 和具体应用

Python教程

Python概述

Python的历史：

Python的特点：

Python环境安装

本地环境设置

获得Python

安装Python：

UNIX和Linux的安装方式：

Windows上安装:

Macintosh上安装:

设置PATH:

设置路径，在Unix/Linux上：

设置路径Windows系统：

Python环境变量：

运行Python:

(1) 交互式解释器：

(2) 脚本的命令行：

(3)集成开发环境

Python基本语法

第一个Python程序：

交互模式编程：

脚本模式编程：

Python标识符：

保留字：

行和缩进：

多行语句：

Python引号：

Python注释：

使用空行：

等待用户：

在一行中多个语句：

多个语句组作为套件：

命令行参数：

Python变量类型

变量赋值：

多重赋值：

标准的数据类型：

Python数字：

例如：

Python字符串:

Python列表:

Python元组：

Python字典：

数据类型转换：

Python 3开发网络爬虫(一)

选择Python版本

选择参考资料

一个简单的伪代码

代码实现(一): 用Python抓取指定页面

代码实现(二): 用Python简单处理URL

Python 3开发网络爬虫(二)

Python的队列

Python的集合

Python的正则表达式

参考资料

Python网络爬虫Ver 1.0 alpha

Python3网络爬虫(三): 伪装浏览器

添加超时跳过功能

支持自动跳转

伪装浏览器正规军

保存抓回来的报文

Python3网络爬虫(四): 登录

第一步: 使用 Fiddler 观察浏览器行为

第二步: 解压缩

第二步: 使用正则表达式获取沙漠之舟

第三步: 发射 POST !!

第四部: 正式运行

你可能感兴趣的:(python 基础知识点整理 和具体应用)

python 基础知识点整理和具体应用

你可能感兴趣的:(python 基础知识点整理和具体应用)