weixin_30914981

Effective Python之编写高质量Python代码的59个有效方法

　　这个周末断断续续的阅读完了《Effective Python之编写高质量Python代码的59个有效方法》，感觉还不错，具有很大的指导价值。下面将以最简单的方式记录这59条建议，并在大部分建议后面加上了说明和示例，文章篇幅大，请您提前备好瓜子和啤酒！

1. 用Pythonic方式思考

第一条：确认自己使用的Python版本

（1）有两个版本的python处于活跃状态，python2和python3

（2）有很多流行的Python运行时环境，CPython、Jython、IronPython以及PyPy等

（3）在开发项目时，应该优先考虑Python3

第二条：遵循PEP风格指南

　　PEP8是针对Python代码格式而编订的风格指南，参考：http://www.python.org/dev/peps/pep-0008

（1）当编写Python代码时，总是应该遵循PEP8风格指南

（2）当广大Python开发者采用同一套代码风格，可以使项目更利于多人协作

（3）采用一致的风格来编写代码，可以令后续的修改工作变得更为容易

第三条：了解bytes、str、与unicode的区别

（1）python2提供str和unicode,python3中修改为bytes和str，bytes为原始的8位值，str包含unicode字符，在进行编码转换时使用decode和encode方法

（2）从文件中读取二进制数据，或向其中写入二进制数据时，总应该以‘rb’或‘wb’等二进制模式来开启文件

第四条：用辅助函数来取代复杂的表达式

（1）开发者很容易过度运用Python的语法特性，从而写出那种特别复杂并且难以理解的单行表达式

（2）请把复杂的表达式移入辅助函数中，如果要反复使用相同的逻辑，那更应该这么做

第五条：了解切割序列的方法

（1）不要写多余的代码：当start索引为0，或end索引为序列长度时，应将其省略a[:]

（2）切片操作不会计较start与end索引是否越界，者使得我们很容易就能从序列的前端或后端开始，对其进行范围固定的切片操作，a[:20]或a[-20:]

（3）对list赋值的时候，如果使用切片操作，就会把原列表中处在相关范围内的值替换成新值，即便它们的长度不同也依然可以替换

第六条：在单词切片操作内，不要同时指定start、end和step

（1）这条的目的主要是怕代码难以阅读，作者建议将其拆解为两条赋值语句，一条做范围切割，另一条做步进切割

（2）注意：使用[::-1]时会出现不符合预期的错误，看下面的例子

msg = '谢谢'
print('msg:',msg)
x = msg.encode('utf-8')
y = x.decode('utf-8')
print('y:',y)
z=x[::-1].decode('utf-8')
print('z:', z)

　　输出：

第七条：用列表推导式来取代map和filter

（1）列表推导要比内置的map和filter函数清晰，因为它无需额外编写lambda表达式

（2）字典与集合也支持推导表达式

第八条：不要使用含有两个以上表达式的列表推导式

第九条：用生成器表达式来改写数据量较大的列表推导式

（1）列表推导式的缺点

　　在推导过程中，对于输入序列中的每个值来说，可能都要创建仅含一项元素的全新列表，当输入的数据比较少时，不会出现问题，但如果输入数据非常多，那么可能会消耗大量内存，并导致程序崩溃，面对这种情况，python提供了生成器表达式，它是列表推导和生成器的一种泛化，生成器表达式在运行的时候，并不会把整个输出序列呈现出来，而是会估值为迭代器。

　　把实现列表推导式所用的那种写法放在一对园括号中，就构成了生成器表达式

numbers = [1,2,3,4,5,6,7,8]
li = (i for i in numbers)
print(li)

>>>> at 0x0000022E7E372228>

（2）串在一起的生成器表达式执行速度很快

第十条：尽量用enumerate取代range

（1）尽量使用enumerate来改写那种将range与下表访问结合的序列遍历代码

（2）可以给enumerate提供第二个参数，以指定开始计数器时所用的值，默认为0

color = ['red','black','write','green']
#range方法
for i in range(len(color)):
    print(i,color[i])

#enumrate方法
for i,value in enumerate(color):
    print(i,value)

第11条：用zip函数同时遍历两个迭代器

（1）内置的zip函数可以平行地遍历多个迭代器

（2）Python3中的zip相当于生成器，会在遍历过程中逐次产生元组，而python2中的zip则是直接把这些元组完全生成好，并一次性地返回整份列表、

（3）如果提供的迭代器长度不等，那么zip就会自动提前终止

attr = ['name','age','sex']
values = ['zhangsan',18,'man']

people = zip(attr,values)
for p in people:
    print(p)

第12条：不要在for和while循环后面写else块

（1）python提供了一种很多编程语言都不支持的功能，那就是在循环内部的语句块后面直接编写else块

for i in range(3):
    print('loop %d' %(i))
else:
    print('else block!')

　　上面的写法很容易让人产生误解：如果循环没有正常执行完，那就执行else,实际上刚好相反

（2）不要再循环后面使用else，因为这种写法既不直观，又容易让人误解

第13条：合理利用try/except/else/finally结构中的每个代码块

try:
    #执行代码
except:
    #出现异常
else:
    #可以缩减try中代码，再没有发生异常时执行
finally:
    #处理释放操作

2. 函数

第14条：尽量用异常来表示特殊情况，而不要返回None

（1）用None这个返回值来表示特殊意义的函数，很容易使调用者犯错，因为None和0及空字符串之类的值，在表达式里都会贝评估为False

（2）函数在遇到特殊情况时应该抛出异常，而不是返回None，调用者看到该函数的文档中所描述的异常之后，应该会编写相应的代码来处理它们

第15条：了解如何在闭包里使用外围作用域中的变量

（1）理解什么是闭包

　　闭包是一种定义在某个作用域中的函数，这种函数引用了那个作用域中的变量

（2）表达式在引用变量时，python解释器遍历各作用域的顺序：

　　a. 当前函数的作用域

　　b. 任何外围作用域（例如：包含当前函数的其他函数）

　　c. 包含当前代码的那个模块的作用域（也叫全局作用域）

　　d. 内置作用域（也即是包含len及str等函数的那个作用域）

　　e. 如果上卖弄这些地方都没有定义过名称相符的变量，那么就抛出NameError异常

（3）赋值操作时，python解释器规则

　　给变量赋值时，如果当前作用域内已经定义了这个变量，那么该变量就会具备新值，若当前作用域内没有这个变量，python则会把这次赋值视为对该变量的定义

（4）nonlocal

　　nonlocal的意思：给相关变量赋值的时候，应该在上层作用域中查找该变量，nomlocal的唯一限制在于，它不能延申到模块级别，这是为了防止它污染全局作用域

（5）global

　　global用来表示对该变量的赋值操作，将会直接修改模块作用域的那个变量

第16条：考虑用生成器来改写直接返回列表的函数

　　参考第九条

第17条：在参数上面迭代时，要多加小心

（1）函数在输入的参数上面多次迭代时要当心，如果参数是迭代对象，那么可能会导致奇怪的行为并错失某些值

　　看下面两个例子：

　　例1：

def normalize(numbers):
    total = sum(numbers)
    print('total:',total)
    print('numbers:',numbers)
    result = []
    for value in numbers:
        percent = 100 * value / total
        result.append(percent)
    return result
    
numbers = [15,35,80]
print(normalize(numbers))

　　输出：

　　例2：将numbers换成生成器

def fun():
    li = [15,35,80]
    for i in li:
        yield i
        
print(normalize(fun()))

　　输出：

　　原因：迭代器只产生一轮结果，在抛出过StopIteration异常的迭代器或生成器上面继续迭代第二轮，是不会有结果的。

（2）python的迭代器协议，描述了容器和迭代器应该如何于iter和next内置函数、for循环及相关表达式互相配合

（3）想判断某个值是迭代器还是容器，可以拿该值为参数，两次调用iter函数，若结果相同，则是迭代器，调用内置的next函数，即可令该迭代器前进一步

if iter(numbers) is iter(numbers):
    raise TypeError('Must supply a container')

第18条：用数量可变的位置参数减少视觉杂讯

（1）在def语句中使用*args，即可令函数接收数量可变的位置参数

（2）调用函数时，可以采用*操作符，把序列中的元素当成位置参数，传给该函数

（3）对生成器使用*操作符，可能导致程序耗尽内存并崩溃，所以只有当我们能够确定输入的参数个数比较少时，才应该令函数接受*arg式的变长参数

（4）在已经接收*args参数的函数上面继续添加位置参数，可能会产生难以排查的错误

第19条：用关键字参数来表达可选的行为

（1）函数参数可以按位置或关键字来指定

（2）只使用位置参数来调用函数，可能会导致这些参数值的含义不够明确，而关键字参数则能够阐明每个参数的意图

（3）该函数添加新的行为时，可以使用带默认值的关键字参数，以便与原有的函数调用代码保持兼容

（4）可选的关键字参数总是应该以关键字形式来指定，而不应该以位置参数来指定

第20条：用None和文档字符串来描述具有动态默认值的参数

import datetime
import time
def log(msg,when=datetime.datetime.now()):
    print('%s:%s' %(when,msg))
    
log('hi,first')
time.sleep(1)
log('hi,second')

输出：

　　两次显示的时间一样，这是因为datetime.now()只执行了一次，也就是它只在函数定义的时候执行了一次，参数的默认值，会在每个模块加载进来的时候求出，而很多模块都在程序启动时加载。我们可以将上面的函数改成：

import datetime
import time
def log(msg,when=None):
    """
    arg when:datetime of when the message occurred
    """
    
    if when is None:
        when=datetime.datetime.now()
    print('%s:%s' %(when,msg))
    
log('hi,first')
time.sleep(1)
log('hi,second')

输出：

（1）参数的默认值，只会在程序加载模块并读到本函数定义时评估一次，对于{}或[]等动态的值，这可能导致奇怪的行为

（2）对于以动态值作为实际默认值的关键字参数来说，应该把形式上的默认值写为None，并在函数的文档字符串里面描述该默认值所对应的实际行为

第21条：用只能以关键字形式指定的参数来确保代码明确

（1）关键字参数能够使函数调用的意图更加明确

（2）对于各参数之间很容易混淆的函数，可以声明只能以关键字形式指定的参数，以确保调用者必须通过关键字来指定它们。对于接收多个Boolean标志的函数更应该这样做

3. 类与继承

第22条：尽量用辅助类来维护程序的状态，而不要用字典或元组

　　作者的意思是：如果我们使用字典或元组保存程序的某部分信息，但随着需求的不断变化，需要逐渐的修改之前定义好的字典或元组结构，会出现多次的嵌套，过分膨胀会导致代码出现问题，而且难以理解。遇到这样的情况，我们可以把嵌套结构重构为类。

（1）不要使用包含其他字典的字典，也不要使用过长的元组

（2）如果容器中包含简单而又不可变的数据，那么可以先使用namedtupe来表述，待稍后有需要时，再修改为完整的类

　　注意：namedtuple类无法指定各参数的默认值，对于可选属性比较多的数据来说，namedtuple用起来不方便

（3）保存内部状态的字典如果变得比较复杂，那就应该把这些代码拆分为多个辅组类

第23条：简单的接口应该接收函数，而不是类的实例

（1）对于连接各种python组件的简单接口来说，通常应该给其直接传入函数，而不是先定义某个类，然后再传入该类的实例

（2）Python种的函数和方法可以像类那么引用，因此，它们与其他类型的对象一样，也能够放在表达式里面

（3）通过名为__call__的特殊方法，可以使类的实例能够像普通的Python函数那样得到调用

第24条：以@classmethod形式的多态去通用的构建对象

　　在python种，不仅对象支持多态，类也支持多态

（1）在Python程序种，每个类只能有一个构造器，也就是__init__方法

（2）通过@classmethod机制，可以用一种与构造器相仿的方式来构造类的对象

（3）通过类方法机制，我们能够以更加通用的方式来构建并拼接具体的子类

　　下面以实现一套MapReduce流程计算文件行数为例来说明：

（1）思路

（2）上代码

import threading
import os

class InputData:
    def read(self):
        raise NotImplementedError

class PathInputData(InputData):
    def __init__(self,path):
        super().__init__()
        self.path = path
    
    def read(self):
        return open(self.path).read()  
        
class worker:
    def __init__(self,input_data):
        self.input_data = input_data
        self.result = None
        
    def map(self):
        raise NotImplementedError
        
    def reduce(self):
        raise NotImplementedError
        
class LineCountWorker(worker):
    def map(self):
        data = self.input_data.read()
        self.result = data.count('\n')
        
    def reduce(self,other):
        self.result += other.result
        
def generate_inputs(data_dir):
    for name in os.listdir(data_dir):
        yield PathInputData(os.path.join(data_dir,name))
        
def create_workers(input_list):
    workers = []
    for input_data in input_list:
        workers.append(LineCountWorker(input_data))
    return workers
    
def execute(workers):
    threads = [threading.Thread(target=w.map) for w in workers]
    for thread in threads:
        thread.start()
    for thread in threads:
        thread.join()
        
    first,rest = workers[0],workers[1:]
    for worker in rest:
        first.reduce(worker)
    return first.result
    
def mapreduce(data_dir):
    inputs = generate_inputs(data_dir)
    workers = create_workers(inputs)
    return execute(workers)
    
if __name__ == "__main__":
    print(mapreduce('D:\mapreduce_test'))

MapReduce

　　上面的代码在拼接各种组件时显得非常费力，下面重新使用@classmethod来改进下

import threading
import os

class InputData:
    def read(self):
        raise NotImplementedError
    
    @classmethod
    def generate_inputs(cls,data_dir):
        raise NotImplementedError

class PathInputData(InputData):
    def __init__(self,path):
        super().__init__()
        self.path = path
    
    def read(self):
        return open(self.path).read()  
        
    @classmethod
    def generate_inputs(cls,data_dir):
        for name in os.listdir(data_dir):
            yield cls(os.path.join(data_dir,name))
        
class worker:
    def __init__(self,input_data):
        self.input_data = input_data
        self.result = None
        
    def map(self):
        raise NotImplementedError
        
    def reduce(self):
        raise NotImplementedError
        
    @classmethod
    def create_workers(cls,input_list):
        workers = []
        for input_data in input_list:
            workers.append(cls(input_data))
        return workers
        
class LineCountWorker(worker):
    def map(self):
        data = self.input_data.read()
        self.result = data.count('\n')
        
    def reduce(self,other):
        self.result += other.result
        
def execute(workers):
    threads = [threading.Thread(target=w.map) for w in workers]
    for thread in threads:
        thread.start()
    for thread in threads:
        thread.join()
        
    first,rest = workers[0],workers[1:]
    for worker in rest:
        first.reduce(worker)
    return first.result
    
def mapreduce(data_dir):
    inputs = PathInputData.generate_inputs(data_dir)
    workers = LineCountWorker.create_workers(inputs)
    return execute(workers)
    
if __name__ == "__main__":
    print(mapreduce('D:\mapreduce_test'))

修改后的MapReduce

　　通过类方法实现多态机制，我们可以用更加通用的方式来构建并拼接具体的类

第25条：用super初始化父类

　　如果从python2开始详细的介绍super使用方法需要很大的篇幅，这里只介绍python3中的使用方法和MRO

（1）MRO即为方法解析顺序，以标准的流程来安排超类之间的初始化顺序，深度优先，从左至右，它也保证钻石顶部那个公共基类的__init__方法只会运行一次

（2）python3中super的使用方法

　　python3提供了一种不带参数的super调用方法，该方式的效果与用__class__和self来调用super相同

class A(Base):
    def __init__(self,value):
        super(__class__,self).__init__(value)
        
class A(Base):
    def __init__(self,value):
        super().__init__(value)

　　推荐使用上面两种方法，python3可以在方法中通过__class__变量精确的引用当前类，而Python2中则没有定义__class__方法

（3）总是应该使用内置的super函数来初始化父类

第26条：只在使用Mix-in组件制作工具类时进行多重继承

　　python是面向对象的编程语言，它提供了一些内置的编程机制，使得开发者可以适当地实现多重继承，但是，我们应该尽量避免多重继承，若一定要使用，那就考虑编写mix-in类，mix-in是一种小型的类，它只定义了其他类可能需要提供的一套附加方法，而不定义自己的实例属性，此外，它也不要求使用者调用自己的__init__函数

（1）能用mix-in组件实现的效果，就不要使用多重继承来做

（2）将各功能实现为可插拔的mix-in组件，然后令相关的类继承自己需要的那些组件，即可定制该类实例所具备的行为

（3）把简单的行为封装到mix-in组件里，然后就可以用多个mix-in组合出复杂的行为了

第27条：多用public属性，少用private属性

　　python没有从语法上严格保证private字段的私密性，用简单的话来说，我们都是成年人。

　　个人习惯：_XXX 单下划代表protected；__XXX 双下划线开始的且不以_结尾表示private；__XXX__系统定义的属性和方法

class People:
    __name="zhanglin"
    
    def __init__(self):
        self.__age = 16
    
print(People.__dict__)
p = People()
print(p.__dict__)

　　会发现__name和__age属性名都发生了变化，都变成了（_类名+属性名），只有在__XXX这种命名方式下才会发生变化，所以以这种方式作为伪私有说明

（1）python编译器无法严格保证private字段的私密性

（2）不要盲目地将属性设为private，而是应该从一开始就做好规划，并允许子类更多地访问超类内部的api

（3）应该更多的使用protected属性，并在文档中把这些字段的合理用法告诉子类的开发者，而不是试图用private属性来限制子类访问这些字段

（4）只有当子类不受自己控制时，才可以考虑用private属性来避免名称冲突

第28条：继承collections.abc以实现自定义的容器类型

　　collections.abc模块定义了一系列抽象基类，它们提供了每一种容器类型所应具备的常用方法，大家可以自己参考源码

__all__ = ["Awaitable", "Coroutine",
           "AsyncIterable", "AsyncIterator", "AsyncGenerator",
           "Hashable", "Iterable", "Iterator", "Generator", "Reversible",
           "Sized", "Container", "Callable", "Collection",
           "Set", "MutableSet",
           "Mapping", "MutableMapping",
           "MappingView", "KeysView", "ItemsView", "ValuesView",
           "Sequence", "MutableSequence",
           "ByteString",
           ]

（1）如果定制的子类比较简单，那就可以直接从Python的容器类型（如list、dict）中继承

（2）想正确实现自定义的容器类型，可能需要编写大量的特殊方法

（3）编写自制的容器类型时，可以从collections.abc模块的抽象基类中继承，那些基类能够确保我们的子类具备适当的接口及行为

4. 元类及属性

第29条：用纯属性取代get和set方法

（1）编写新类时，应该用简单的public属性来定义其接口，而不要手工实现set和get方法

（2）如果访问对象的某个属性，需要表现出特殊的行为，那就用@property来定义这种行为

　　比如下面的示例：成绩必须在0-100范围内

class Homework:
    def __init__(self):
        self.__grade = 0
        
    @property
    def grade(self):
        return self.__grade
        
    @grade.setter
    def grade(self,value):
        if not (0<=value<=100):
            raise ValueError('Grade must be between 0 and 100')
        self.__grade = value

（3）@property方法应该遵循最小惊讶原则，而不应该产生奇怪的副作用

（4）@property方法需要执行得迅速一些，缓慢或复杂的工作，应该放在普通的方法里面

（5）@property的最大缺点在于和属性相关的方法，只能在子类里面共享，而与之无关的其他类都无法复用同一份实现代码

第30条：考虑用@property来代替属性重构

　　作者的意思是：当我们需要迁移属性时（也就是对属性的需求发生变化的时候），我们只需要给本类添加新的功能，原来的那些调用代码都不需要改变，它在持续完善接口的过程中是一种重要的缓冲方案

（1）@property可以为现有的实例属性添加新的功能

（2）可以用@properpy来逐步完善数据模型

（3）如果@property用的太过频繁，那就应该考虑彻底重构该类并修改相关的调用代码

第31条：用描述符来改写需要复用的@property方法

　　首先对描述符进行说明，先看下面的例子：

class Grade:
    def __init(self):
        self.__value = 0
        
    def __get__(self, instance, instance_type):
        return self.__value
    
    def __set__(self, instance, value):
        if not (0 <= value <= 100):
            raise ValueError('Grade must be between 0 and 100')
        self.__value = value
        
class Exam:
    math_grade = Grade()
    chinese_grade = Grade()
    science_grade = Grade()

if __name__ == "__main__":
    exam = Exam()
    exam.math_grade = 99
    
    exam1 = Exam()
    exam1.math_grade = 75
    print('exam.math_grade:',exam.math_grade, 'is wrong')
    print('exam1.math_grade:',exam1.math_grade, 'is right')

　　输出：

　　会发现在两个Exam实例上面分别操作math_grade时，导致了错误的结果，出现这种情况的原因是因为该math_grade属性为Exam类的实例，为了解决这个问题，看下面的代码

class Grade:
    def __init__(self):
        self.__value = {}
        
    def __get__(self, instance, instance_type):
        if instance is None:
            return self
        return self.__value.get(instance,0)
    
    def __set__(self, instance, value):
        if not (0 <= value <= 100):
            raise ValueError('Grade must be between 0 and 100')
        self.__value[instance] = value
        
class Exam:
    math_grade = Grade()
    chinese_grade = Grade()
    science_grade = Grade()

if __name__ == "__main__":
    exam = Exam()
    exam.math_grade = 99
    exam1 = Exam()
    exam1.math_grade = 75
    print('exam.math_grade:',exam.math_grade, 'is wrong')
    print('exam1.math_grade:',exam1.math_grade, 'is right')

输出：

　　上面这种实现方式很简单，而且能够正常运作，但它仍然有个问题，那就是会泄露内存，在程序的生命期内，对于传给__set__方法的每个Exam实例来说，__values字典都会保存指向该实例的一份引用，者就导致实例的引用计数无法降为0，从而使垃圾收集器无法将其收回。使用python的内置weakref模块，可解决上述问题。

class Grade:
    def __init(self):
        self.__value = weakref.WeakKeyDictionary()

（1）如果想复用@property方法及其验证机制，那么可以自己定义描述符

（2）WeakKeyDictionary可以保证描述符类不会泄露内存

（3）通过描述符协议来实现属性的获取和设置操作时，不要纠结于__getattribute__的方法具体运作细节

第32条：用getattr、getattribute和setattr实现按需生成的属性

　　如果某个类定义了__getattr__，同时系统在该类对象的实例字典中又找不到待查询的属性，那么就会调用这个方法

　　惰性访问的概念：初次执行__getattr__的时候进行一些操作，把相关的属性加载进来，以后再访问该属性时，只需从现有的结果中获取即可　　

　　程序每次访问对象的属性时，Python系统都会调用__getattribute__，即使属性字典里面已经有了该属性，也以让会触发__getattribute__方法

（1）通过__getattr__和__setattr__，我们可以用惰性的方式来加载并保存对象的属性

（2）要理解__getattr__和__getattribute__的区别：前者只会在待访问的属性缺失时触发，，而后者则会在每次访问属性时触发

（3）如果要在__getattribute__和__setattr__方法中访问实例属性，那么应该直接通过super()来做，以避免无限递归

第33条：用元类来验证子类

　　元类最简单的一种用途，就是验证某个类定义的是否正确，构建复杂的类体系时，我们可能需要确保类的风格协调一致，确保某些方法得到了覆写，或是确保类属性之间具备某些严格的关系。

　　下例判断类属性中是否含有name属性：

#验证某个类的定义是否正确
class Meta(type):
    def __new__(meta,name,bases,class_dict):
        print('class_dict:',class_dict)
        if not class_dict.get('name',None):   #判断类属性中是否含有name属性
            raise AttributeError('must has name attribute')
        return type.__new__(meta,name,bases,class_dict)
            
class A(metaclass=Meta):
    def __init__(self):
        self.chinese_grade = 90
        self.math_grade = 99
        
if __name__ == '__main__':
    a = A()

　　输出：

（1）通过元类，我们可以在生成子类对象之前，先验证子类的定义是否合乎规范

（2）python系统把子类的整个class语句体处理完毕之后，就会调用其元类的__new__方法

第34条：用元类来注册子类

　　元类还有一个用途就是在程序中自动注册类型，对于需要反向查找（reverse lookup）的场合，这种注册操作很有用

　　看下面的例子:对对象进行序列化和反序列化

import json

register = {}
class Meta(type):
    def __new__(meta,name,bases,attr_dic):
        cls = type.__new__(meta,name,bases,attr_dic)
        print('create class in Meta:', cls)
        register[cls.__name__] = cls
        return cls
        
class Serializable(metaclass=Meta):
    def __init__(self,*args):
        self.args = args
        
    def serialize(self):
        return json.dumps({
     'class':self.__class__.__name__, 'args':self.args})
        
    def deserilize(self,json_data):
        json_dict = json.loads(json_data)
        classname = json_dict['class']
        args = json_dict['args']
        return register[classname](*args)
        
class Point2D(Serializable):
    def __init__(self,x,y):
        super().__init__(x,y)
        self.x = x
        self.y = y
        
    def add(self):
        return self.x + self.y
        
if __name__ == "__main__":
    p = Point2D(2,5)
    data = p.serialize()
    print('serialize_data:',data)
    new_point2d = p.deserilize(data)
    print('new_point2d:',new_point2d)
    print(new_point2d.add())

　　输出：

（1）通过元类来实现类的注册，可以确保所有子类就都不会泄露，从而避免后续的错误

第35条：用元类来注解类的属性

（1）借助元类，我们可以在某个类完全定义好之前，率先修改该类的属性

（2）描述符与元类能够有效的组合起来，以便对某种行为做出修饰，或在程序运行时探查相关信息

（3）如果把元类与描述符相结合，那就可以在不使用weakref模块的前提下避免内存泄漏

5. 并发与并行

　　并发和并行的关键区别在于能不能提速，若是并行，则总任务的执行时间会减半，若是并发，那么即使可以看似平行的方式分别执行多条路径，依然不会使总任务的执行速度得到提升，用Python语言编写并发程序，是比较容易的，通过系统调用、子进程和C语言扩展等机制，也可以用Python平行地处理一些事务，但是，要想使并发式的python代码以真正平行的方式来运行，却相当困难。

　　可以先阅读我之前的博客，相信会有帮组：python究竟要不要使用多线程

第36条：用subprocess模块来管理子进程

　　在多年的发展过程中，Python演化出了多种运行子进程的方式，其中包括popen、popen2和os.exec*等，然而，对于至今的Python来说，最好且最简单的子进程管理模块，应该是内置的subprocess模块

第37条：可以用线程来执行阻塞式I/O，但不要用它做平行计算

（1）因为受全局解释锁（GIL）的限制，所以多条Python线程不能在多个CPU核心上面平行地执行字节码

（2）尽管受制于GIL，但是python的多线程功能依然很有用，它可以轻松地模拟出同一时刻执行多项任务的效果

（3）通过python线程，我们可以平行地执行多个系统调用，这使得程序能够在执行阻塞式I/O操作的同时，执行一些运算操作

第38条：在线程中使用Lock来防止数据竞争

class LockingCounter:
    def __init__(self):
        self.lock = threading.Lock()
        self.count = 0
        
    def increment(self, offset):
        with self.lock:
            self.count += offset

第39条：用Queue来协调各线程之间的工作

　　作者举了一个照片处理系统的例子：

　　需求：该系统从数码相机里面持续获取照片、调整其尺寸，并将其添加到网络相册中。

　　实现：使用三阶段的管线实现，需要4个自定义的deque消息队列，第一阶段获取新照片，第二阶段把下载好的照片传给缩放函数，第三阶段把缩放后的照片交给上传函数

　　问题：该程序虽然可以正常运行，但是每个阶段的工作函数都会有差别，这使得前一阶段可能会拖慢后一阶段的进度，从而令整条管线迟滞，后一阶段会在其循环语句中，反复查询输入队列，以求获取新的任务，而任务却迟迟未到达，这将令后一阶段陷入饥饿，会白白浪费CPU时间，效率特低

　　内置的queue模块的Queue类可以解决上述问题，因为其get方法会持续阻塞，直到有新的数据加入

import threading
from queue import Queue

class ClosableQueue(Queue):
    SENTINEL = object()
    
    def close(self):
        self.put(SENTINEL)
        
    def __iter__(self):
        while True:
            item = self.get()
            try:
                if item is self.SENTINEL:
                    return 
                yield item
            finally:
                self.task_done()
                
class StoppabelWoker(threading.Thread):
    def __init__(self,func,in_queue,out_queue):
        self.func = func
        self.in_queue = in_queue
        self.out_queue = out_queue
    
    def run(self):
        for item in self.in_queue:
            result = self.func(item)
            self.out_queue.put(result)

（1）管线是一种优秀的任务处理方式，它可以把处理流程划分未若干个阶段，并使用多条python线程来同时执行这些任务

（2）构建并发式的管线时，要注意许多问题，其中包括：如何防止某个阶段陷入持续等待的状态之中，如何停止工作线程，以及如何防止内存膨胀等

（3）Queue类所提供的机制，可以cedilla解决上述问题，它具备阻塞式的队列操作，能够指定缓冲区的尺寸，而且还支持join方法，这使得开发者可以构建出健壮的管线

第40条：考虑用协程来并发地运行多个函数

（1）协程提供了一种有效的方式，令程序看上去好像能够同时运行大量函数

（2）对于生成器内的yield表达式来说，外部代码通过send方法传给生成器的那个值就是该表达式所要具备的值

（3）协程是一种强大的工具，它可以把程序的核心逻辑，与程序同外部环境交互时所使用的代码相隔离

第41条：考虑用concurrent.futures来实现真正的平行计算

　　参考之前的博客：网络爬虫必备知识之concurrent.futures库

6. 内置模块

第42条：用functools.wrap定义函数修饰器

　　为了维护函数的接口，修饰之后的函数，必须保留原函数的某些标准Python属性，例如__name__和__module__，这个时候我们需要使用functools.wraps来确保修饰后函数具备正确的行为

第43条：考虑以contextlib和with语句来改写可复用的try/finally代码

（1）可以用with语句来改写try/finally块中的逻辑，以提升复用程度，并使代码更加整洁

import threading

lock = threading.Lock()
lock.acquier()
try:
    print("lock is held")
finally:
    lock.release()

　　可以直接使用下面的语法：

import threading

lock = threading.Lock()
with lock:
    print("lock is held")

（2）内置的contextlib模块提供了名叫为contextmanager的修饰器，开发者只需要用它来修饰自己的函数，即可令该函数支持with语句

from contextlib import contextmanager

@contextmanager
def file_open(path):
    ''' file open test'''
    try:
        fp = open(path,"wb")
        yield fp
    except OSError:
        print("We had an error!")
    finally:
        print("Closing file")
        fp.close()

if __name__ == "__main__": 
    with file_open("contextlibtest.txt") as fp:
        fp.write("Testing context managers".encode("utf-8"))

（3）情景管理器可以通过yield语句向with语句返回一个值，此值会赋给由as关键字所指定的变量

第44条：用copyreg实现可靠pickle操作

（1）内置的pickle模块，只适合用来彼此信任的程序之间，对相关对象执行序列化和反序列化操作

（2）如果用法比较复杂，那么pickle模块的功能可能就会出现问题，我们可以用内置的copyreg模块和pickle结合起来使用，以便为旧数据添加缺失的属性值、进行类的版本管理、并给序列化之后的数据提供固定的引入路径

第45条：应该用datetime模块来处理本地时间，而不是time模块

（1）不要用time模块在不同时区之间进行转换

（2）如果要在不同时区之间，可靠地执行转换操作，那就应该把内置的datetime模块与开发者社区提供的pytz模块打起来使用

（3）开发者总是应该先把时间表示为UTC格式，然后对其执行各种转换操作，最后再把它转回本地时间

第46条：使用内置算法和数据结构

（1）双向队列 collections.deque

（2）有序字典 dollections.OrderDict

（3）带有默认值的有序字典 collections.defaultdict

（4）堆队列（优先级队列）heapq.heap

（5）二分查找 bisect模块中的bisect_left函数等提供了高效的二分折半搜索算法

（6）与迭代器有关的工具 itertools模块

第47条：在重视精度的场合，应该使用decimal

（1）decimal模块中的Decimal类默认提供28个小数位，以进行定点数字运算，还可以按照开发射所要求的精度及四舍五入

第48条：学会安装由Python开发者社区所构建的模块

7. 协作开发

第49条：为每个函数、类和模块编写文档字符串

第50条：用包来安排模块，并提供稳固的API

（1）只要把__init__.py文件放入含有其他源文件的目录里，就可以将该目录定义为包，目录中的文件，都将成为包的子模块，该包的目录下面，也可以含有其他的包

（2）把外界可见的名称，列在名为__all__的特殊属性里，即可为包提供一套明确的API

第51条：为自编的模块定义根异常，以便调用者与API相隔离

　　意思就是单独用个模块提供各种异常API

第52条：用适当的方式打破循环依赖关系

（1）调整引入顺序

（2）先引入、再配置、最后运行

　　只在模块中给出函数、类和常量的定义，而不要在引入的时候真正去运行那些函数

（3）动态引入：在函数或方法内部使用import语句

第53条：用虚拟环境隔离项目，并重建其依赖关系

　　参考之前的博客：Python之用虚拟环境隔离项目，并重建依赖关系

8. 部署

第54条：考虑用模块级别的代码来配置不同的部署环境

（1）可以根据外部条件来决定模块的内容，例如，通过sys和os模块来查询宿主操作系统的特性，并以此来定义本模块中的相关结构

第55条：通过repr字符串来输出调试信息

第56条：通过unittest来测试全部代码

　　这个在后面会单独写篇博客对unittest单元测试模块进行详细说明

第57条：考虑用pdb实现交互调试

第58条：先分析性能，然后再优化

（1）优化python程序之前，一定要先分析其性能，因为python程序的性能瓶颈通常很难直接观察出来

（2）做性能分析时，应该使用cProfile模块，而不要使用profile模块，因为前者能够给出更为精确的性能分析数据

第59条：用tracemalloc来掌握内存的使用及泄露情况

　　在Python的默认实现中，也就是Cpython中，内存管理是通过引用计数来处理的，另外，Cpython还内置了循环检测器，使得垃圾回收机制能够把那些自我引用的对象清除掉

（1）使用内置的gc模块进行查询，列出垃圾收集器当前所知道的每个对象，该方法相当笨拙

（2）python3.4提供了内置模块tracemalloc可以打印出Python系统在执行每一个分配内存操作时所具备的完整堆栈信息

文章到这里就全部结束了，感谢您这么有耐心的阅读！

转载于:https://www.cnblogs.com/xiaobingqianrui/p/10167398.html

你可能感兴趣的:(大数据,json,爬虫)

Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
docker igotyback eureka 云原生
Docker容器的文件系统是隔离的，但是可以通过挂载卷（Volumes）或绑定挂载（BindMounts）将宿主机的文件系统目录映射到容器内部。要查看Docker容器的映射路径，可以使用以下方法：查看容器配置：使用dockerinspect命令可以查看容器的详细配置信息，包括挂载的卷。例如：bashdockerinspect在输出的JSON格式中，查找"Mounts"部分，这里会列出所有的挂载信息
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
在Ubuntu中编译含有JSON的文件出现报错芝麻糊76 Linux kill_bug linux ubuntu json
在ubuntu中进行JSON相关学习的时候，我发现了一些小问题，决定与大家进行分享，减少踩坑时候出现不必要的时间耗费截取部分含有JSON部分的代码进行展示char*str="{\"title\":\"JSONExample\",\"author\":{\"name\":\"JohnDoe\",\"age\":35,\"isVerified\":true},\"tags\":[\"json\",\"
Xinference如何注册自定义模型玩人工智能的辣条哥人工智能 AI 大模型 Xinference
环境：Xinference问题描述：Xinference如何注册自定义模型解决方案：1.写个model_config.json，内容如下{"version":1,"context_length":2048,"model_name":"custom-llama-3","model_lang":["en","ch"],"model_ability":["generate","chat"],"model
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
更改npm镜像源为淘宝镜像骆小骆基于node.js
npm常用指令后缀*最近复习了一下node.js整理了一下跟node.js相关的指令后缀*--save、-S参数意思是把模块的版本信息保存到dependencies（生产环境依赖）中，即你的package.json文件的dependencies字段中；–--save-dev、-D参数意思是把模块版本信息保存到devDependencies（开发环境依赖）中，即你的package.json文件的de
COCO 格式的数据集转化为 YOLO 格式的数据集 QYQY77 YOLO python
"""--json_path输入的json文件路径--save_path保存的文件夹名字，默认为当前目录下的labels。"""importosimportjsonfromtqdmimporttqdmimportargparseparser=argparse.ArgumentParser()parser.add_argument('--json_path',default='./instances
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
python爬取微信小程序数据,python爬取小程序数据 2301_81900439 前端
大家好，小编来为大家解答以下问题，python爬取微信小程序数据，python爬取小程序数据，现在让我们一起来看看吧！Python爬虫系列之微信小程序实战基于Scrapy爬虫框架实现对微信小程序数据的爬取首先，你得需要安装抓包工具，这里推荐使用Charles，至于怎么使用后期有时间我会出一个事例最重要的步骤之一就是分析接口，理清楚每一个接口功能，然后连接起来形成接口串思路,再通过Spider的回调
golang获取用户输入的几种方式余生逆风飞翔 golang 开发语言后端
一、定义结构体typeUserInfostruct{Namestring`json:"name"`Ageint`json:"age"`Addstring`json:"add"`}typeReturnDatastruct{Messagestring`json:"message"`Statusstring`json:"status"`DataUserInfo`json:"data"`}二、get请求的
spring mvc @RequestBody String类型参数 zoyation spring-mvc spring mvc
通过如下配置：text/html;charset=UTF-8application/json;charset=UTF-8在springmvc的Controller层使用@RequestBody接收Content-Type为application/json的数据时，默认支持Map方式和对象方式参数@RequestMapping(value="/{code}/saveUser",method=Requ
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
大模型训练数据库Common Crawl WindyChanChan 数据集语言模型数据库
CommonCrawl介绍‌‌CommonCrawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。CommonCrawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌CommonCrawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据
Python精选200Tips：121-125 AnFany Python200+Tips python 开发语言
Spendyourtimeonself-improvement121Requests-简化的HTTP请求处理发送GET请求发送POST请求发送PUT请求发送DELETE请求会话管理处理超时文件上传122BeautifulSoup-网页解析和抓取解析HTML和XML文档查找单个标签查找多个标签使用CSS选择器查找标签提取文本修改文档内容删除标签处理XML文档123Scrapy-强大的网络爬虫框架示例
爬虫技术抓取网站数据被限制怎么处理 Bearjumpingcandy 爬虫
爬虫技术用于抓取网站数据时，可能会遇到一些限制，常见的包括反爬机制、速率限制、IP封禁等。以下是应对这些情况的一些策略：尊重robots.txt：每个网站都有robots.txt文件，遵循其中的规定可以避免触犯网站的抓取规则。设置合理频率：控制爬虫请求的速度，通过添加延迟或使用代理服务器，减少对目标网站的压力。使用代理：获取并使用代理IP地址可以更换访问来源，降低被识别的可能性。模拟用户行为：使用
网站推广爬虫 Bearjumpingcandy 爬虫
网站推广爬虫是一种用于升网站曝光度和推广效果的工具。它通过自动化地访问和收集网站信息，从而实现对目标网站的广告、关键词、排名等数据进行分析和优化。以下是网站推广爬虫的一些介绍：数据收集：网站推广爬虫可以自动访问目标网站，并收集相关的数据，如网站流量、关键词排名、竞争对手信息等。这些数据可以帮助网站推广人员了解网站的现状和竞争环境，从而制定相应的推广策略。关键词优化：通过分析搜索引擎的关键词排名情况
爬虫技术抓取网站数据 Bearjumpingcandy 爬虫
爬虫技术是一种自动化获取网站数据的技术，它可以模拟人类浏览器的行为，访问网页并提取所需的信息。以下是爬虫技术抓取网站数据的一般步骤：发起HTTP请求：爬虫首先会发送HTTP请求到目标网站，获取网页的内容。解析HTML：获取到网页内容后，爬虫会使用HTML解析器解析HTML代码，提取出需要的数据。数据提取：通过使用XPath、CSS选择器或正则表达式等工具，爬虫可以从HTML中提取出所需的数据，如文
爬虫技术抓取网站数据 Bearjumpingcandy 爬虫
爬虫技术是指通过程序自动访问网页并提取数据的技术。一般来说，爬虫技术包含以下几个步骤：确定目标网站：确定需要抓取的网站，并了解其页面结构和数据特点。分析页面结构：分析网页的结构和源代码，找到需要抓取的数据在页面中的位置和标识。编写爬虫程序：使用编程语言（如Python）编写爬虫程序，实现对目标网站的自动访问和数据提取。处理抓取数据：对抓取到的数据进行清洗、去重、整合等处理，以便后续的分析和利用。爬
爬虫之隧道代理：如何在爬虫中使用代理IP？ 2401_87251497 python 开发语言爬虫网络 tcp/ip 网络协议
在进行网络爬虫时，使用代理IP是一种常见的方式来绕过网站的反爬虫机制，提高爬取效率和数据质量。本文将详细介绍如何在爬虫中使用隧道代理，包括其原理、优势以及具体的实现方法。无论您是爬虫新手还是有经验的开发者，这篇文章都将为您提供实用的指导。什么是隧道代理？隧道代理是一种高级的代理技术，它通过创建一个加密的隧道，将数据从客户端传输到代理服务器，再由代理服务器转发到目标服务器。这样不仅可以隐藏客户端的真
UI 自动化的页面对象管理神器 PO-Manager TesterHome
原文由alex发表于TesterHome社区网站，点击原文链接可于作者直接交流。做UI自动化的同学都知道，UI自动化一个难点就是页面元素的变化，让自动化维护成为一个痛点。在此，为了减轻这个痛点，我在基于Page-Object模式的基础上开发了页面对象维护的工具。该工具为vscode的一个插件，可以通过vscode插件市场搜索PO-Manager来下载安装本文中的页面对象库文件基于json.一个元素
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam