fitzzhang

浅谈Python C扩展

很多时候，我们需要写Python的C扩展，例如为了提高速度，用一些C的库等等。本文首先整理了python调用C扩展以及在C中调用python的方法；然后重点分析了CPython API中的引用计数问题。

在python应用中，为了对性能进行优化，我们常常需要写python的C扩展，将一些关键代码用C进行重写以提高性能；同时，我们也可以用在C中调用python的方法，例如写回调函数等。不管是python调用C，还是C调用python，最重要的是引用计数的管理，这也是最容易引起问题的地方。本文首先从简单的范例开始讲解python和C的互相调用，然后重点学习CPython API的引用计数问题。对python C扩展比较熟的可以直接跳过前面两部分，只看第三部分（大神请忽视本文）。

1. Python C 扩展基础

1.1 主要步骤

首先，我们看看用C写一个python扩展需要哪些步骤：

包含头文件Python.h
你需要作为python接口的C函数
一个将你的函数映射为python接口的映射表
一个初始化函数

1.1.1 Python.h头文件

这个头文件包含了所有的用来将你的模块hook到python解析器的CPython API，而且你必须将这个头文件写在任何标准头文件之前，这是因为这个头文件可能定义了一些影响标准头文件的预处理宏。

1.1.2 C函数

python C 扩展的函数定义一般是下面的三种形式之一：

static PyObject *MyFunction( PyObject *self, PyObject *args );

static PyObject *MyFunctionWithKeywords(PyObject *self,  PyObject *args, PyObject *kw);

static PyObject *MyFunctionWithNoArgs( PyObject *self );

Python中的函数都返回PyObject类型的指针，没有像C那种返回void类型的；如果你的函数不想返回一个值的话，Python定义了一个宏Py_RETURN_NONE，它等价于在脚本层返回None。
你的C函数应该是个静态函数，名字是任意的，但一般命名为模块名_函数名的形式，所以，一个典型的函数长这样：

static PyObject *modulename_func(PyObject *self, PyObject *args) {
   /* Do something here. */
   Py_RETURN_NONE;
}

1.1.3 方法映射表

方法映射表就是PyMethodDef结构的数组，而PyMethodDef结构体长这样：

struct PyMethodDef {
   char *ml_name;
   PyCFunction ml_meth;
   int ml_flags;
   char *ml_doc;
};

其各个参数的意义如下：

ml_name: 这是暴露给python程序的函数名；
ml_meth: 这是指向1.1.2所讲的函数的指针，也就是真正函数定义的地方；
ml_flags: 这告诉python解析器想用三种函数签名的哪一种，一般来说，它的值是METH_VARARGS；如果你想传入关键字参数的话，也可以与MET_KEYWORDS进行或运算；当然，如果你不想接受任何参数的话，可以给其赋值为METH_NOARGS；
ml_doc: 这是函数的文档字符串，如果你不想写的话，直接给其赋值为NULL。

最后要注意的是，这个映射表应该以一个由NULL和0组成的结构体进行结尾。所以，一个方法映射表应该长这样：

static PyMethodDef module_methods[] = {
   { "func", (PyCFunction)module_func, METH_VARARGS, NULL },
   { NULL, NULL, 0, NULL }
};

1.1.4 初始化函数

你的扩展模块的最后一部分就是初始化函数了，它会在模块被导入时被python解析器调用。初始化函数必须被命名为initModuleName，这里ModuleName表示你的模块名。
这个初始化函数需要从你构建的库中导出，所以Python头文件里定义了PyMODINIT_FUNC来进行这项工作，你需要做的就是在定义函数时使用它；这个函数也应该是你的模块中唯一一个非static的项。这个初始化函数的原型一般是这样的：

PyMODINIT_FUNC initModuleName() {
   Py_InitModule3(ModuleName, module_methods, "docstring...");
}

py_InitModule3的参数定义如下：

module_name: 被导出的模块名；
module_methods: 上面所定义的映射表；
docstring: 你想要给你的模块的注释；

将上面的所有步骤结合在一起，一个C扩展模块看起来长这样：

#include 

static PyObject *module_func(PyObject *self, PyObject *args) {
   /* Do your stuff here. */
   Py_RETURN_NONE;
}

static PyMethodDef module_methods[] = {
   { "func", (PyCFunction)module_func, METH_VARARGS, NULL },
   { NULL, NULL, 0, NULL }
};

PyMODINIT_FUNC initModule() {
   Py_InitModule3(Module, module_methods, "docstring...");
}

1.2 Example

在1.1节我们已经覆盖了一个简单C扩展模块所需的所有知识点，现在我们通过一个实例来实践下；我们的C模块实现的功能是两个浮点数的乘法和除法，最后编译成名为example的模块。
首先，根据上面的知识点，我们写一个example.c源文件，内容如下：

#include 

static PyObject* example_mul(PyObject* self, PyObject*args)
{
    float a, b;
    if(!PyArg_ParseTuple(args, "ff", &a, &b))
    {
        return NULL;
    }
    return Py_BuildValue("f", a*b);
}

static PyObject* example_div(PyObject* self, PyObject*args)
{
    float a, b;
    if(!PyArg_ParseTuple(args, "ff", &a, &b))
    {
        return NULL;
    }
    return Py_BuildValue("f", a/b);  // to deal with b == 0
}

static char mul_docs[] = "mul(a, b): return a*b\n";
static char div_docs[] = "div(a, b): return a/b\n";

static PyMethodDef example_methods[] =
{
    {"mul", (PyCFunction)example_mul, METH_VARARGS, mul_docs},
    {"div", (PyCFunction)example_div, METH_VARARGS, div_docs},
    {NULL, NULL, 0, NULL}
};

void PyMODINIT_FUNC initexample(void)
{
    Py_InitModule3("example", example_methods, "Extension module example!");
}

这里PyArg_ParseTuple和Py_BuildValue分别用来解析python的参数和构建python的值，这两个函数将在下面讲到，这里需要注意的是因为我们要导出example这个模块，所以最后的initModuleName的ModuleName以及调用的Py_InitModule3的第一个参数的名字都是example.

1.2.1 编译和安装扩展

有了这个源文件，我们应该怎么编译和安装这个扩展，使得它成为我们可以导入的python模块的一部分呢？答案是distutils模块，它就是用来发布python模块的(官方推荐使用setuptools，但我没有去研究怎么用).
我们首先定义个setup.py脚本文件，内容如下：

from distutils.core import setup, Extension
setup(name="exampleAPP", version="1.0", ext_modules=[Extension("example", ["example.c"])])

这里需要注意的是ext_modules里的Extension的模块名必须和我们想要导出的模块名相同（这里就是exmaple)，否则会出现LINK : error LNK2001: unresolved external symbol的错误，然后我们用下面这个命令进行编译与安装：

python setup.py install

安装成功后，就会在python_path/Lib/site-packages下面生成example.pyd这个模块和exampleAPP-1.0-py2.7.egg-info这个文件，就可以导入和使用了：

注意：在windows下，使用vs进行编译的的话，可能会出错：error: Unable to find vcvarsall.bat
在StackOverflow上找到了答案：error: Unable to find vcvarsall.bat，原因是当用setup.py去安装包时，python 2.7会寻找 Visual Studio 2008(python 2.7就是用VS2008编译的)，找不到的话就会报这个错；一种trick的方法是根据你安装的VS版本，在执行setup.py之前先执行以下命令：

Visual Studio 2010 (VS10): SET VS90COMNTOOLS=%VS100COMNTOOLS%  
Visual Studio 2012 (VS11): SET VS90COMNTOOLS=%VS110COMNTOOLS%
Visual Studio 2013 (VS12): SET VS90COMNTOOLS=%VS120COMNTOOLS%
Visual Studio 2015 (VS14): SET VS90COMNTOOLS=%VS140COMNTOOLS%

但这种做法并不保险，而且用与编译python本身不同版本的编译器去编译python C扩展还可能引起不兼容问题，正确的做法是下载Visual C++ 2008或者 Microsoft Visuial C++ Compiler for Python(需要setuptools和wheel这两个python包，而且必须要用setuptools.setup()而不是distutils来进行安装。)

1.3 参数提取——PyArg_ParseTuple函数

上面的例子中，脚本层传入的参数会存在PyObject* args所指向的PyObject里面，那么我们怎么提取出参数呢？答案是使用PyArg_ParseTuple函数，它的原型是这样的：

int PyArg_ParseTuple(PyObject* tuple,char* format,...)

这个函数遇到错误返回0，返回别的数字代表正确。tuple就是C函数传进来的第二个参数，format是描述参数格式的字符串，里面的格式码意义如下：

Code	C type	Meaning
c	char	A Python string of length 1 becomes a C char
d	double	A Python float becomes a C double
f	float	A Python float becomes a C float
i	int	A Python int becomes a C int
l	long	A Python int becomes a C long.
L	long long	A Python int becomes a C long long
O	PyObject*	Gets non-NULL borrowed reference to Python argument.
s	char*	Python string without embedded nulls to C char*.
s#	char*+int	Any Python string to C address and length.
t#	char*+int	Read-only single-segment buffer to C address and length.
u	Py_UNICODE*	Python Unicode without embedded nulls to C.
u#	Py_UNICODE*+int	Any Python Unicode C address and length.
w#	char*+int	Read/write single-segment buffer to C address and length.
z	char*	Like s, also accepts None (sets C char* to NULL).
z#	char*+int	Like s#, also accepts None (sets C char* to NULL).
(…)	as per …	A Python sequence is treated as one argument per item.
\|		The following arguments are optional.
:		Format end, followed by function name for error messages.
;		Format end, followed by entire error message text.

剩余的参数就是变量的地址，而变量的类型由格式串的格式码决定。要解析带有关键字的参数的话，请使用PyArg_ParseTupleAndKeywords

int PyArg_ParseTupleAndKeywords(PyObject *args, PyObject *kw, const char *format, char *keywords[], ...)

1.4 返回值和Py_BuildValue

Python C 函数的返回值都是PyObject*类型的（错误返回NULL），如果不想返回任何值，就是用宏Py_RETURN_NONE。Py_BuildValue刚好和PyArg_ParseTuple相反，它是用来将C的变量构建为Python的PyObject*的(但这时传入的不是地址，而是值)，它的原型如下：

PyObject* Py_BuildValue(char* format,...)

这个字符串格式码和上面的类似，下面列出了常用的字节码：

Code	C type	Meaning
c	char	A C char becomes a Python string of length 1.
d	double	A C double becomes a Python float.
f	float	A C float becomes a Python float.
i	int	A C int becomes a Python int.
l	long	A C long becomes a Python int.
N	PyObject*	Passes a Python object and steals a reference.
O	PyObject*	Passes a Python object and INCREFs it as normal.
O&	convert+void*	Arbitrary conversion
s	char*	C 0-terminated char* to Python string, or NULL to None.
s#	char*+int	C char* and length to Python string, or NULL to None.
u	Py_UNICODE*	C-wide, null-terminated string to Python Unicode, or NULL to None.
u#	Py_UNICODE*+int	C-wide string and length to Python Unicode, or NULL to None.
w#	char*+int	Read/write single-segment buffer to C address and length.
z	char*	Like s, also accepts None (sets C char* to NULL).
z#	char*+int	Like s#, also accepts None (sets C char* to NULL).
(…)	as per …	Builds Python tuple from C values.
[…]	as per …	Builds Python list from C values.
{…}	as per …	Builds Python dictionary from C values, alternating keys and values.

{…} 用来从偶数个key和value隔开的C的值中构建字典，例如Py_BuildValue("{issi}", 23, "zig", "zag", 42)返回一个python的字典：{23:’zig’, ‘zag’:42}.

1.5 错误和异常处理

当一个函数失败时，Python解释器的一个重要约定是返回一个错误值（一般是NULL）并设置3个全局静态变量，分别对应Python的sys.exec_type, sys.exec_value和sys.exec_traceback. 最先检测到异常的函数应该报告并设置全局变量，其它调用它的函数应该只是返回异常值，例如：当f调用g并检测到g失败了，它应该返回一个错误值(一般是NULL或-1),它不应该调用任何一个PyErr_*()函数，这应该是g调用的。f的调用者也应该返回一个错误值，以此类推。
python API定义了一些函数来设置并检查各种异常：
(1)PyErr_SetString(PyObject* type, const char* message):
type一般是一个预定义的对象，例如PyExc_ZeroDivisionError，C字符串用来说明异常出现的原因
(2)PyErr_SetObject(PyObject* type, PyObject* value):
最常用
(3)PyErr_Occurred():
用来检查是否设置了一个异常
(4)如果想要忽视一个异常而不传递给解析器的话，可以调用PyErr_Clear()函数
(5)所有直接调用malloc()或者realloc()的函数失败的话，必须要调用PyErr_NoMemory()，并且返回失败标志

1.6 小结

本节讲解了写一个C模块的一些基本知识点和约定的异常处理流程，并用一个实例展示了如何编译与调用C模块，下一节我们讲下如何从C中调用python的方法。

2. C调用Python

C调用Python的方法也很简单，下面我们以windows+VS2015+python2.7讲解下如何用C调用Python.
首先，我们新建一个工程，并将python的包含目录和库目录设置到工程的目录里面去（注意，这里要设置release版本的，因为我们下载的python是release版本的，如果用debug的话，会在编译时出现Error: cannot open file ‘python27_d.lib’错误），如下图所示：

然后，我们新建源文件，内容如下所示：

#include 

int main(int argc, char *argv[])
{
    PyObject *pName, *pModule, *pDict, *pFunc;
    PyObject *pArgs, *pValue;
    int i;

    if (argc < 3) {
        fprintf(stderr, "Usage: call pythonfile funcname [args]\n");
        return 1;
    }

    Py_Initialize();        // Initialize the Python Interpreter
    pName = PyString_FromString(argv[1]);    // Build the name object

    pModule = PyImport_Import(pName);
    Py_DECREF(pName);

    if (pModule != NULL) {
        pFunc = PyObject_GetAttrString(pModule, argv[2]);
        /* pFunc is a new reference */

        if (pFunc && PyCallable_Check(pFunc)) {
            pArgs = PyTuple_New(argc - 3);
            for (i = 0; i < argc - 3; ++i) {
                pValue = PyInt_FromLong(atoi(argv[i + 3]));
                if (!pValue) {
                    Py_DECREF(pArgs);
                    Py_DECREF(pModule);
                    fprintf(stderr, "Cannot convert argument\n");
                    return 1;
                }
                /* pValue reference stolen here: */
                PyTuple_SetItem(pArgs, i, pValue);
            }
            pValue = PyObject_CallObject(pFunc, pArgs);
            Py_DECREF(pArgs);
            if (pValue != NULL) {
                printf("Result of call: %ld\n", PyInt_AsLong(pValue));
                Py_DECREF(pValue);
            }
            else {
                Py_DECREF(pFunc);
                Py_DECREF(pModule);
                PyErr_Print();
                fprintf(stderr, "Call failed\n");
                return 1;
            }
        }
        else {
            if (PyErr_Occurred())
                PyErr_Print();
            fprintf(stderr, "Cannot find function \"%s\"\n", argv[2]);
        }
        Py_XDECREF(pFunc);
        Py_DECREF(pModule);
    }
    else {
        PyErr_Print();
        fprintf(stderr, "Failed to load \"%s\"\n", argv[1]);
        return 1;
    }
    Py_Finalize();     // Finish the Python Interpreter
    return 0;
}

我们在工程目录下新建Mul.py，内容如下：

def multiply(a,b):
    print "Will compute", a, "times", b
    c = 0
    for i in range(0, a):
        c = c + b
    return c

运行，得到结果：

Will compute 3 times 4
Result of call: 12
请按任意键继续. . .

C调用Python的源代码还是很直观的，其中最难的部分是那些Py_DECREF()和Py_XDECREF()，这是什么？第一次看确实会一头雾水，别急，下面一节我们就要讲python C API的引用计数。

3. Reference Counts

在使用Python C API时，最容易出错的地方就是引用计数的管理。不管是内存泄露还是非法内存放访问，对于程序来说都是致命的，下面我们就简单讲讲CPython API中的引用计数。

3.1 CPython引用计数简介

在C/C++中，程序员负责动态内存的申请与释放释放，在C中，这是通过调用malloc()/free()来实现的；如果只进行了内存申请而没有手动释放就会造成内存泄露，而如果使用已释放的内存就会造成非法内存访问(use freed memory)；由于CPython大量使用malloc()和free(),所以需要一种策略来避免内存泄露和非法内存访问，CPython是通过使用引用计数(reference counting)来实现的。
CPython具有两个宏Py_INCREF(x)和Py_DECREF(x)(Py_XINCREF和Py_XDECREF的作用和它们类似，只是会检查传进去的指针是否为空)，分别用来增加和减少引用计数，此外，Py_DECREF也会在引用计数减少到0后释放对象；那么问题来了，什么时候使用Py_INCREF(x)和Py_DECREF(x)呢？
要回答前面的这个问题，我们要首先引入CPython的一些术语。在CPython中，没有人拥有一个对象，拥有的是对象的引用；引用的拥有者负责在引用不再引用这个对象时对它调用Py_DECREF,引用的拥有权也可以转移。在CPython中，使用术语”New”,”Stolen”和”Borrowed” references来表示三种引用，这些术语其实是表明谁是引用的真正拥有者，即谁负责对引用进行处理。

New References:
当新建一个PyObject对象时，就产了一个New Reference，例如当调用PyInt_FromLong时。New Reference意味着你拥有这个引用。
Stolen References:
这一般出现在函数调用时将一个引用传进去当参数时，这个函数会假设现在它拥有这个引用，即它会“偷取”这个引用，这意味着当你调用这个函数后，你就不再拥有这个参数的引用。例如当调用PyList_SetItem(PyObject* list, index, PyObject* item)后，你就不再拥有对item的引用
Borrowed References:
Borrowed Reference一般出现在查看一个PyObject时，例如从一个列表里面获取一个成员。借来的引用不应该调用Py_DECREF，而且它持有对象的时间不应该比引用的拥有者长，如果在引用的拥有者已经释放这个引用后，还是访问借来的引用，就会造成非法内存访问；借来的引用也可以通过调用Py_INCREF变为拥有的引用。

3.2 CPython 引用拥有权规则

3.2.1 拥有权规则简单概括

在3.1节我们简单介绍了Cpython的引用计数，现在我们概括下引用的拥有权的规则，主要分为调用函数时作为参数传入的引用拥有权转移规则和作为函数返回值的引用的拥有权的转移规则:

作为函数返回值时:
(1)大部分返回引用的函数都会将这个引用的拥有权转移到函数调用者(即返回新的引用)，例如PyInt_FromLong和Py_BuildValue等;
(2)然而也有少数例外，例如PyTuple_GetItem(),PyList_GetItem(),PyDIct_GetItem()和PyDict_GetItemString()，它们返回的是borrowed Reference。PyImport_AddModule()返回的也是借来的引用。
作为参数传递时:
(1)在你将一个对象的引用传递进另一个函数时，一般来说这个函数会从你借这个引用，也就是说，在函数，一般参数的引用是borrowed reference;
(2)有两个比较重要的例外，PyTuple_SetItem()和PyList_SetItem()，它们会从你这偷取引用(steal reference)，这意味着当你把引用传递给这些函数时，这些函数就会拥有这些引用，而你不再拥有这些引用。

3.2.2 引用拥有权例外总结

就像上节总结的一样，我们只要记住一般来说，作为返回值的引用是一个新的引用，我们要负责其释放；而作为参数传入的引用一般是borrowed reference，我们用完就可以了；而那些例外的函数总结如下：

从参数中steal reference的：

PyCell_SET (but not PyCell_Set)
PyList_SetItem
PyList_SET_ITEM
PyModule_AddObject
PyTuple_SetItem, PyTuple_SET_ITEM

返回borrowed reference的函数

all PyArg_Xxx functions
PyCell_GET (but not PyCell_Get)
PyDict_GetItem
PyDict_GetItemString
PyDict_Next
PyErr_Occurred
PyEval_GetBuiltins
PyEval_GetFrame
PyEval_GetGlobals
PyEval_GetLocals
PyFile_Name
PyFunction_GetClosure
PyFunction_GetCode
PyFunction_GetDefaults
PyFunction_GetGlobals
PyFunction_GetModule
PyImport_AddModule
PyImport_GetModuleDict
PyList_GetItem, PyList_GETITEM
PyMethod_Class, PyMethod_GET_CLASS
PyMethod_Function, PyMethod_GET_FUNCTION
PyMethod_Self, PyMethod_GET_SELF
PyModule_GetDict
PyObject_Init
PyObject_InitVar
PySequence_Fast_GET_ITEM
PySys_GetObject
PyThreadState_GetDict
PyTuple_GetItem, PyTuple_GET_ITEM
PyWeakref_GetObject, PyWeakref_GET_OBJECT
Py_InitModule
Py_InitModule3
Py_InitModule4

3.3 关于引用的易错点

上面两节我们介绍了引用以及引用的拥有权规则，现在我们讲讲CPython中引用中容易犯的错误，引用主要容易出两类错误:
(1)引用不再指向对象后没有减少引用计数导致内存泄露，类似于在C中调用了malloc()而没有调用free()，例如：

static PyObject *bad_incref(PyObject *pObj) {
    Py_INCREF(pObj);
    /* ... a metric ton of code here ... */
    if (error) {
        /* No matching Py_DECREF, pObj is leaked. */
        return NULL;
    }
    /* ... more code here ... */
    Py_DECREF(pObj);
    Py_RETURN_NONE;
}

(2)在对象释放后仍然通过引用去访问对象，类似于在C中free()以后去获取对象或者使用野指针(dangling pointer)，例如：

static PyObject *bad_incref(PyObject *pObj) {
    /* Forgotten Py_INCREF(pObj); here... */

    /* Use pObj... */

    Py_DECREF(pObj); /* Might make reference count zero. */
    Py_RETURN_NONE;  /* On return caller might find their object free'd. */
}

函数返回后，调用者可能会使用已经释放掉的pObj，这是一个典型的access-after-free错误。
上面举例所示的错误都是小心点就可以避免的，然而有些引用错误就比较隐蔽，也是我们需要特别注意的地方，下面我们通过举例来进行说明。

3.3.1 New References比较容易出现的错误

对于New Reference，我们最容易犯的错误就是将一个函数返回的New Reference作为临时变量传进函数的参数，由于大部分函数的参数传递都是以Borrowed Reference进行的，就会导致这个New Reference没有人对其进行引用计数管理，从而导致内存泄露。以下的函数是将两个数进行详见，我们用第一节的方法将其编译成python的扩展模块，并将example_substract导出为sub接口进行调用。

static PyObject* subtract_long(long a, long b) {
    PyObject *pA, *pB, *r;

    pA = PyLong_FromLong(a);        /* pA: New reference. */
    pB = PyLong_FromLong(b);        /* pB: New reference. */
    r = PyNumber_Subtract(pA, pB);  /*  r: New reference. */
    Py_DECREF(pA);                  /* My responsibility to decref. */
    Py_DECREF(pB);                  /* My responsibility to decref. */
    return r;                       /* Callers responsibility to decref. */
}

static PyObject* example_subtract(PyObject* self, PyObject* args)
{
    PyObject* result;
    long a, b;
    if(!PyArg_ParseTuple(args, "ll", &a, &b))
    {
        return NULL;
    }
    result = subtract_long(a, b);
    return result;
}

然而，一个很容易犯的错误就是在调用PyNumber_Subtrace时，我们直接将PyLong_FromLong(x)传进去，由于PyNumber_Substract()只会借取引用，它并不会释放引用，这时返回的New Reference并没有对其进行Py_DECREF，就会导致内存泄露，如下example_bad_subtrace，我们将其导出为bad_sub接口：

static PyObject* bad_subtract_long(long a, long b) {
    PyObject *r;
    r = PyNumber_Subtract(PyLong_FromLong(a), PyLong_FromLong(b));  /*  r: New reference. */
    return r;                       /* Callers responsibility to decref. */
}

static PyObject* example_bad_subtract(PyObject* self, PyObject* args)
{
    PyObject* result;
    long a, b;
    if(!PyArg_ParseTuple(args, "ll", &a, &b))
    {
        return NULL;
    }
    result = bad_subtract_long(a, b);
    return result;
}

用ipython_memory_usage对内存进行测量，分别调用example.sub和example.bad_sub，看是否有内存泄露：

从结果可以看到，每调用100000次左右的example.bad_sub，就会导致3M左右的内存泄露，从而印证了我们的猜想。

3.3.2 Stolen References比较容易出现的错误

CPython中Stolen Reference的情况不多，两个最重要的需要记住的就是PyList_SetItem和PyTuple_SetItem，对于Stolen Reference，我们只需要记住当引用传进这两个函数后，我们便不再拥有对引用的拥有权，也就不能再对其进行Py_DECREF了。

static PyObject *make_tuple(void) {
    PyObject *r;
    PyObject *v;

    r = PyTuple_New(3);         /* New reference. */
    v = PyLong_FromLong(1L);    /* New reference. */
    /* PyTuple_SetItem "steals" the new reference v. */
    PyTuple_SetItem(r, 0, v);
    /* This is fine. */
    v = PyLong_FromLong(2L);
    PyTuple_SetItem(r, 1, v);
    Py_DECREF(v);    /* Now we are interfering with r's internals. */
    /* More common pattern. */
    PyTuple_SetItem(r, 2, PyUnicode_FromString("three"));
    return r; /* Callers responsibility to decref. */
}

当v被传递给PyTuple_SetItem后，v的引用被偷走了，它成为了一个borrowed reference, 再对它调用Py_DECREF可能会引起未知的行为。

3.3.3 Borrowed References比较容易出现的错误

在引用出现错误的地方，最奇怪的bug常常和borrowed reference有关。
例如我们用borrowed reference来操作列表的最后一个元素，操作步骤如下：
* 从列表中得到最后一个元素的borrowed reference
* 对列表进行操作do_something()
* 操作最后一个元素的borrowed reference，这里只是简单的打印它。
代码如下：

static PyObject *pop_and_print_BAD(PyObject *pList) {
    PyObject *pLast;

    pLast = PyList_GetItem(pList, PyList_Size(pList) - 1);
    fprintf(stdout, "Ref count was: %zd\n", pLast->ob_refcnt);
    do_something(pList);
    fprintf(stdout, "Ref count now: %zd\n", pLast->ob_refcnt);
    PyObject_Print(pLast, stdout, 0);
    fprintf(stdout, "\n");
    Py_RETURN_NONE;
}

这里PLast是一个borrowed reference，这段代码看起来似乎没有问题，但让我们再仔细分析，pList拥有对它的对象的所有引用，所以在do_something中可能释放任何元素的引用，当它释放了所有元素的引用后，PLast是否还有效取决于最后一个元素是否还有别的引用。例如do_something可能如下：

void do_something(PyObject *pList) {
    while (PyList_Size(pList) > 0) {
        PySequence_DelItem(pList, 0);
    }
}

那么，调用这个函数会发生什么事情？下面是一些例子(pop_and_pring_BAD被映射为cPyRefs.popBAD)：
(1) 调用如下代码时，引用计数完全错误了，但是由于内存没有被改写，所以打印最后一个元素貌似是正确的。

>>> l = ["Hello", "World"]
>>> cPyRefs.popBAD(l)       # l will become empty
Ref count was: 1
Ref count now: 4302027608
'World'

(2) 以下代码出现了段错误，这个错误就比较明显了。

>>> l = ['abc' * 200]
>>> cPyRefs.popBAD(l)
Ref count was: 1
Ref count now: 2305843009213693952
Segmentation fault: 11

(3) 当调用下面的代码时，问题似乎又不见了,因为最后一个元素有额外的引用。

>>> l = ["Hello", "World"]
>>> a = l[-1]
>>> cPyRefs.popBAD(l)
Ref count was: 2
Ref count now: 1
'World'

上面这个例子的错误很难被发现，因为这个C函数的正确性依赖于调用者是否拥有额外的引用以及do_something的操作。当然，我们知道了引起问题的原因，解决方案也很简单，用borrowed references时，如果你对对象感兴趣，你就应该为引用计数加1，然后在不用的时候再减1。

static PyObject *pop_and_print_BAD(PyObject *pList) {
    PyObject *pLast;

    pLast = PyList_GetItem(pList, PyList_Size(pList) - 1);
    Py_INCREF(pLast);       /* Prevent pLast being deallocated. */
    /* ... */
    do_something(pList);
    /* ... */
    Py_DECREF(pLast);       /* No longer interested in pLast, it might     */
    pLast = NULL;           /* get deallocated here but we shouldn't care. */
    /* ... */
    Py_RETURN_NONE;
}

总结

在本文中，我们首先在第一节和第二节简单介绍了写Python C 扩展的方法和C调用Python的方法，然后在第三节，我们重点介绍了CPython API中的引用计数，以及引用计数中容易出现的内存泄露和非法内存访问问题，总的来说，几个比价重要的结论如下：

大部分返回引用的函数都会将这个引用的拥有权转移到函数调用者,但PyTuple_GetItem(),PyList_GetItem(),PyDIct_GetItem()和PyDict_GetItemString()返回的是borrowed Reference；
在你将一个对象的引用传递进另一个函数时，一般来说这个函数会从你借这个引用，但PyTuple_SetItem()和PyList_SetItem()们会从你这偷取引用(steal reference)；
不要将返回New Reference的函数调用作为临时变量传递给一个函数的形参，例如PyNumber_Subtract(PyLong_FromLong(a), PyLong_FromLong(b))，会引起内存泄露；
用borrowed references时，如果你对对象感兴趣，你就应该为引用计数加1，然后在不用的时候再减1

参考文献

distutils官方文档
一个python tutorial，直观的讲解怎么写C扩展并编译: Python - Extension Programming with C
Python官方文档：Extending Piython with C or C++
Python/C API，讲解Python 对象的设计层次，初始化，引用计数等：Python/C API Reference Manual
C 调用 Python: Calling a python method from C/C++, and extracting its return value
一个对borrow和steal reference的回答：Python C-API functions that borrow and steal references
详解Python reference以及可能出现的问题：PyObjects and Reference Counting

你可能感兴趣的:(Python)

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
python中的深拷贝与浅拷贝 anshejd70787 python
深拷贝和浅拷贝浅拷贝的时候，修改原来的对象，浅拷贝的对象不会发生改变。1、对象的赋值对象的赋值实际上是对象之间的引用：当创建一个对象，然后将这个对象赋值给另外一个变量的时候，python并没有拷贝这个对象，而只是拷贝了这个对象的引用。当对对象做赋值或者是参数传递或者作为返回值的时候，总是传递原始对象的引用，而不是一个副本。如下所示：>>>aList=["kel","abc",123]>>>bLis
用Python实现简单的猜数字游戏程序媛了了 python 游戏 java
猜数字游戏代码：importrandomdefpythonit():a=random.randint(1,100)n=int(input("输入你猜想的数字："))whilen!=a:ifn>a:print("很遗憾，猜大了")n=int(input("请再次输入你猜想的数字："))elifna::如果玩家猜的数字n大于随机数字a，则输出"很遗憾，猜大了"，并提示玩家再次输入。elifn
用Python实现读取统计单词个数程序媛了了 python 游戏 java
完整实例代码：fromcollectionsimportCounterdefpythonit():danci={}withopen("pythonit.txt","r",encoding="utf-8")asf:foriinf:words=i.strip().split()forwordinwords:ifwordnotindanci:danci[word]=1else:danci[word]+=
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class