正文之前

这篇文是我跟师兄协定以后写代码的一些规范，虽然麻烦，但是对于后续的复查以及代码延续都有很大的好处的。

武汉欢乐谷自己拍的图，后期也调了下。哈哈哈~

正文

必须统一的：

文件头

写入作者姓名，文件作用

"""
###################### File Introduction ######################
* Author: ZZB
* Function:这个文件主要用于定义中文拆分的一些函数和文件读写
######################*******************######################
"""

函数规范

Function: 写出该函数的作用，标准为：接受XXX的调用（可有可无，视功能而定），传入XXX参数，返回XXX
Args:列出每个参数的名字, 并在名字后使用一个冒号和一个空格, 分隔对该参数的描述.如果描述太长超过了单行80字符,使用2或者4个空格的悬挂缩进(与文件其他部分保持一致). 描述应该包括所需的类型和含义. 如果一个函数接受foo(可变长度参数列表)或者bar (任意关键字参数), 应该详细列出foo和bar.
Returns: (或者 Yields: 用于生成器)描述返回值的类型和语义. 如果函数返回None, 这一部分可以省略.
Raises:列出与接口有关的所有异常（这一部分如果有，就写清楚，没有就ignore）.

"""
###################
# * function：这个get_radical函数用于接受中文字符串，返回拆解的偏旁数组
# * args：（Chinses_string）
#   * Chinses_string：中文字符串
# * return radicals
#   * radicals是一个偏旁组成的数组[a,b,c,d,e]
# * raise:未设置异常检测
###################
"""

def get_radical(Chinses_string)
    ......
    return radicals

TODO注释

TODO注释应该在所有开头处包含”TODO”字符串, 另外必须添加后续需要做的功能及其设想，以及可选的下列信息：

TODO填写人
后续工作完成者
email

# TODO
# Submiter：张照博
# Complete：唐训祝
# Email：[email protected]

def get_radical(Chinese_string)
    pass

代码日志

在主运行程序下，把所有有意义的（篇幅不大，便于人阅读的）中间结果write到一个log的日志文件里面去。同时建议以时间和当前文件名作为log日志的文件名。示例如下：

"""
# ###################在文件开头加这些就OK了###################
import os
import time
path = os.path.basename(__file__)
time = time.strftime("%Y-%m-%d-%H-%M", time.localtime())
log = open("log/"+path[:path.find('.')]+time+".log",'w',encoding='utf8')
# ###################*************************###################
"""

ram_range=(1,1) #表示 
unigram, ngram_range=(2,2) #表示 
bigram, ngram_range=(3,3) #表示 thirgram
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd
import jieba

data = ["为了祖国，为了胜利，向我开炮！向我开炮！",
        "记者：你怎么会说出那番话",
        "我只是觉得，对准我自己打"]
data = [" ".join(jieba.lcut(e)) for e in data]         # 分词，并用" "连接
vector = CountVectorizer(min_df=1, ngram_range=(2,2))  # bigram
X = vector.fit_transform(data)                         # 将分词好的文本转换为矩阵
print(vector.vocabulary_ )                             # 得到特征
###########有些变量可以print但是无法write，这时候加个类型转换就好了###########
log.write(str(vector.vocabulary_))
###########***********************************************************###########
print(X)                                               #(句子下标, 单词特征下标)   频数
log.write(str(X))
df1 = pd.DataFrame(X.toarray(), columns=vector.get_feature_names()) # to DataFrame
df1.head()
###############记得最后要close日志文件###############
log.close()
###############************************###############

可改进的：

字符串

避免在循环中用+和+=操作符来累加字符串.


Yes: x = '%s, %s!' % (imperative, expletive)
       x = '{}, {}!'.format(imperative, expletive)
       x = 'name: %s; score: %d' % (name, n)
       x = 'name: {}; score: {}'.format(name, n)
     
 
No: x = imperative + ', ' + expletive + '!'
      x = 'name: ' + name + '; score: ' + str(n)

由于字符串是不可变的, 这样做会创建不必要的临时对象, 并且导致二次方而不是线性的运行时间. 作为替代方案, 你可以将每个子串加入列表, 然后在循环结束后用 .join 连接列表. (也可以将每个子串写入一个 cStringIO.StringIO 缓存中.)

Yes: items = ['']
     for last_name, first_name in employee_list:
         items.append('' % (last_name, first_name))
     items.append('%s, %s')
     employee_table = ''.join(items)
     
No: employee_table = ''
    for last_name, first_name in employee_list:
        employee_table += '' % (last_name, first_name)
    employee_table += '%s, %s'

无关效率但是提高代码可读性的

空格

不要在逗号, 分号, 冒号前面加空格, 但应该在它们后面加(除了在行尾). 为了美观以及IDE的规范提示

Yes: if x == 4:
           print x, y
       x, y = y, x
     
No:  if x == 4 :
           print x , y
       x , y = y , x

在二元操作符两边都加上一个空格, 比如赋值(=), 比较(==, <, >, !=, <>, <=, >=, in, not in, is, is not), 布尔(and, or, not). 至于算术操作符两边的空格该如何使用, 需要你自己好好判断. 不过两侧务必要保持一致.

分号

不要在行尾加分号, 也不要用分号将两条命令放在同一行.

行长度

每行不超过80个字符

例外: 长的导入模块语句，注释里的URL

括号

对括号进行最佳精简化，能少则少

空行

顶级定义之间空两行, 方法定义之间空一行

正文之后

搞掂走起，后期看看效果哈

Python代码编写规范（适合于小团体，低强度）