ThomasMrY

用Python统计文本文件中词汇字母短语等分布

这是MSRA的高级软件设计结对编程的作业

这篇博客讨论具体地实现方式与过程，包括效能分析与单元测试

分析的工具使用方法可以参考这两篇博客:

该项目的完整代码，请参考下面的Github:

https://github.com/ThomasMrY/ASE-project-MSRA

先看一下这个项目的要求:

用户需求：英语的26 个字母的频率在一本小说中是如何分布的？某类型文章中常出现的单词是什么？某作家最常用的词汇是什么？《哈利波特》中最常用的短语是什么，等等。我们就写一些程序来解决这个问题，满足一下我们的好奇心。

要求：程序的单元测试，回归测试，效能测试C/C++/C# 等基本语言的运用和 debug。

题目要求：

Step-0：输出某个英文文本文件中 26 字母出现的频率，由高到低排列，并显示字母出现的百分比，精确到小数点后面两位。

Step-1：输出单个文件中的前 N 个最常出现的英语单词。

Step-2:支持 stop words，我们可以做一个 stop word 文件（停词表），在统计词汇的时候，跳过这些词。

Step-3:输出某个英文文本文件中单词短语出现的频率，由高到低排列，并显示字母出现的百分比，精确到小数点后面两位。

Step-4:第四步：把动词形态都统一之后再计数。

Step-0:输出某个英文文本文件中 26 字母出现的频率，由高到低排列，并显示字母出现的百分比，精确到小数点后面两位。

最初的想法是去除掉各种乱七八糟的符号之后，使用遍历整个文本文件的每一个字母，用一个字典存储计数，每次去索引字典的值，索引到该值之后，在字典的value上加一实现。具体实现的代码如下:

#!/usr/bin/env python
#-*- coding:utf-8 -*-
#author: Enoch time:2018/10/22 0031

import time
import re
import operator
from string import punctuation           

start = time.clock()
'''function：Calculate the word frequency of each line
    input:  line : a list contains a string for a row
            counts: an empty  dictionary 
    ouput:  counts: a dictionary , keys are words and values are frequencies
    data:2018/10/22
'''
def ProcessLine(line,counts):
    #Replace the punctuation mark with a space

    line = re.sub('[^a-z]', '', line)
    for ch in line:
        counts[ch] = counts.get(ch, 0) + 1
    return counts

def main():
    file = open("../Gone With The Wind.txt", 'r')
    wordsCount = 0
    alphabetCounts = {}
    for line in file:
        alphabetCounts = ProcessLine(line.lower(), alphabetCounts)
    wordsCount = sum(alphabetCounts.values())
    alphabetCounts = sorted(alphabetCounts.items(), key=lambda k: k[0])
    alphabetCounts = sorted(alphabetCounts, key=lambda k: k[1], reverse=True)
    for letter, fre in alphabetCounts:
    	print("|\t{:15}|{:<11.2%}|".format(letter, fre / wordsCount))

    file.close()


if __name__ == '__main__':
    main()

end = time.clock()
print (end-start)

这样做的代码理论上代码是正确的，为了验证代码的正确性，我们需要使用三个文本文件做单元测试，具体就是，一个空文件，一个小样本文件，和一个样本较多的文件，分别做验证，于是可以写单元测试的代码如下:

from count import CountLetters
CountLetters("Null.txt")
CountLetters("Test.txt")
CountLetters("gone_with_the_wind.txt")

其中:

Null.txt 是一个空的文本文件
gone_with_the_wind.txt 是《乱世佳人》的文本文件
Test.txt 是一个我们自己指定的内容固定的文本文件，这样就可以统计结果的正确性

经过我们的验证，这个结果是正确的。保证了结果的正确性，经过这样的验证，但还不清楚代码的覆盖率怎么样，于是我们使用工具coverage，对代码进行分析，使用如下命令行分析代码覆盖率

coverage run my_program.py arg1 arg2

得到的结果如下:

Name                      Stmts   Exec  Cover
---------------------------------------------
CountLetters                 56     50    100%
---------------------------------------------
TOTAL                        56     50    100%

可以看到，在保证代码覆盖率为100%的时候，代码运行是正确的。

但程序的运行速度怎么样呢？为了更加了解清楚它的运行速度，我们使用cprofile分析性能，从而提升运行的性能, 使用cprofile运行的结果为

我们大致知道main，Processline，ReplacePunctuations三个模块最耗时，其中最多是ProcessLine，我们就需要看preocessLine()模块里调用了哪些函数，花费了多长时间。

最后使用图形化工具graphviz画出具体地耗时情况如下:

可以从上面的图像中看到文本有9千多行，low函数和re.sub被调用了9023次，每个字母每个字母的统计get也被调用了1765982次，这种一个字母一个字母的索引方式太慢了。我们需要寻求新的解决办法，于是想到了正则表达式，遍历字母表来匹配正则表达式，于是我们就得到了第二版的函数

###################################################################################
#Name:count_letters
#Inputs:file name
#outputs:None
#Author: Thomas
#Date:2018.10.22
###################################################################################
def CountLetters(file_name,n,stopName,verbName):
    print("File name:" + os.path.abspath(file_name))
    if (stopName != None):
        stopflag = True
    else:
        stopflag = False
    if(verbName != None):
        print("Verb tenses normalizing is not supported in this function!")
    else:
        pass
    totalNum = 0
    dicNum = {}
    t0 = time.clock()
    if (stopflag == True):
        with open(stopName) as f:
            stoplist = f.readlines()
    with open(file_name) as f:
        txt = f.read().lower()
    for letter in letters:
        dicNum[letter] = len(re.findall(letter,txt))
        totalNum += dicNum[letter]
    if (stopflag == True):
        for word in stoplist:
            word = word.replace('\n','')
            try:
                del tempc[word]
            except:
                pass
    dicNum = sorted(dicNum.items(), key=lambda k: k[0])
    dicNum = sorted(dicNum, key=lambda k: k[1], reverse=True)
    t1 = time.clock()
    display(dicNum[:n],'character',totalNum,9)
    print("Time Consuming:%4f" % (t1 - t0))

该函数把运行时间从原来的1.14s直接降到了0.2s，通过重复刚才的单元测试以及效能分析（这里我就不重复粘贴结果了），验证了在代码覆盖率为100%的情况下，代码的运行也是正确的，并且发现运行时间最长的就是其中的正则表达式，在这样的情况下，我们又寻求新的解决方案。最终我们发现了文本自带的count方法，将正则表达式用更该方法替换之后，即将上面的代码:

dicNum[letter] = len(re.findall(letter,txt))

替换为

dicNum[letter] = txt.count(letter) #here count is faster than re

成功的将时间降到了5.83e-5s可以说提高了非常多的数量级，优化到这里，基本上已经达到了优化的瓶颈，没法继续优化了。

注:后来的版本添加了许多功能，这里的代码是添加了功能之后的代码, 如需要运行最初的功能则需要将后面的参数指定成None。

Step-1：输出单个文件中的前 N 个最常出现的英语单词。

首先的了解，单词的定义是什么：

单词：以英文字母开头，由英文字母和字母数字符号组成的字符串视为一个单词。单词以分隔符分割且不区分大小写。在输出时，所有单词都用小写字符表示。

英文字母：A-Z，a-z
字母数字符号：A-Z，a-z，0-9
分割符：空格,非字母数字符号例：good123是一个单词，123good不是一个单词。good，Good和GOOD是同一个单词

最初的想法是去除掉各种乱七八糟的符号之后，是用空格分隔出单词，然后遍历文本中的每一个单词，用一个字典存储计数，每次去索引字典的值，索引到该值之后，在字典的value上加一实现。具体实现的代码如下:

#!/usr/bin/env python
#-*- coding:utf-8 -*-
#author: Eron time:2018/10/22 0022
import time
import re
start = time.time()
from string import punctuation           #Temporarily useless
 
'''function：Calculate the word frequency of each line
    input:  line : a list contains a string for a row
            counts: an empty  dictionary 
    ouput:  counts: a dictionary , keys are words and values are frequencies
    data:2018/10/22
'''
def ProcessLine(line,counts):
    #Replace the punctuation mark with a space
    #line=ReplacePunctuations(line)
    line = re.sub('[^a-z0-9]', ' ', line)
    words = line.split()
    for word in words:
        counts[word] = counts.get(word, 0) + 1
    return  counts


'''function：Replace the punctuation mark with a space
    input:  line : A list containing a row of original strings
    ouput:  line: a list whose punctuation is all replaced with spaces
    data:2018/10/22
'''
def ReplacePunctuations(line):
    for ch in line :
        #Create our own symbol list
        tags = [',','.','?','"','“','”','—']
        if ch in tags:
            line=line.replace(ch," ")
    return line

'''function：Create a taboo "stopwords.txt"
    input:  line : A list contains all the words in the "Gone With The Wind.txt"
    ouput:  nono
    data:2018/10/23
'''
def CreatStopWordsTxt(list):
    file = open('stopwords.txt', 'w')

    for  str in list:
        file.write(str+'\t')
    file.close()

'''function：Remove any words that do not meet the requirements
    input: dict : A dict whose keys are words and values are frequencies
    ouput: dictProc : A  removed undesirable words dict
    data:2018/10/23
'''
def RemoveUndesirableWords(dict):
    wordsCount = 0  # Number of words
    wordsCount = sum(dict.values())
    dictProc = dict.copy();
    for temp in list(dict):
        if temp[0].isdigit():
            del dictProc[temp]
        else:
            dictProc[temp] = round(dictProc[temp] / wordsCount, 4)
    return dictProc



def CountWords(fileName):
    file = open(fileName,'r')
    count = 10 #Show the top count  words that appear most frequently

    alphabetCountsOrg={}       # Creates an empty dictionary used to calculate word frequency

    for line in file:
        alphabetCountsOrg = ProcessLine(line.lower(), alphabetCountsOrg) #Calculate the word frequency of each line

    alphabetCounts = RemoveUndesirableWords(alphabetCountsOrg) #Remove any words that do not meet the requirements


    pairs = list(alphabetCounts.items())    #Get the key-value pairs from the dictionary
    items = [[x,y]for (y,x)in pairs]        #key-value pairs in the list exchange locations, data pairs sort
    items.sort(reverse=True)

    #Notice we didn't order words of the same frequency

    for i in range(count ):
        print(items[i][1] + "\t" + str(items[i][0]))
    file.close()
    #CreatStopWordsTxt(alphabetCounts.keys())

 
if __name__ == '__main__':
    CountWords("gone_with_the_wind.txt")

end = time.time()
print (end-start)

from count import CountWords
CountWords("Null.txt")
CountWords("Test.txt")
CountWords("gone_with_the_wind.txt")

其中:

Null.txt 是一个空的文本文件
gone_with_the_wind.txt 是《乱世佳人》的文本文件
Test.txt 是一个我们自己指定的内容固定的文本文件，这样就可以统计结果的正确性

coverage run test.py

得到的结果如下:

Name                      Stmts   Exec  Cover
---------------------------------------------
CountWords                   78     92    100%
---------------------------------------------
TOTAL                        78     92    100%

可以看到，在保证代码覆盖率为100%的时候，代码运行是正确的。因为代码做了修改，因此需要做回归测试，编写如下代码做回归测试:

from count import CountLetters
from count import CountWords
CountWords("Null.txt")
CountWords("Test.txt")
CountWords("gone_with_the_wind.txt")

CountLetters("Null.txt")
CountLetters("Test.txt")
CountLetters("gone_with_the_wind.txt")

但程序的运行速度怎么样呢？为了更加了解清楚它的运行速度，我们使用cprofile分析性能，从而提升运行的性能, 使用cprofile运行的结果为

我们大致知道sub，Split，get三个模块最耗时，其中最多是sub，我们就需要看preocessLine()模块里调用了哪些函数，花费了多长时间。

最后使用图形化工具graphviz画出具体地耗时情况如下:

可以从上面的图像中看到文本有9千多行，low函数和re.sub被调用了9023次，每个字母每个字母的统计get也被调用了1765982次，这种一个单词一个单词的索引方式太慢了。我们需要寻求新的解决办法，于是想到了正则表达式，遍历字母表来匹配正则表达式，于是我们就得到了新的的函数，我们可以使用正则表达式的findall 函数，找到所有单词，作为单词list，使用collections 的Counter去统计字典中的重复元素，得到如下代码：

###################################################################################
#Name:count_words
#Inputs:file name,the first n words, stopfile name
#outputs:None
#Author: Thomas
#Date:2018.10.22
###################################################################################
def CountWords(file_name,n,stopName,verbName):
    print("File name:" + sys.path[0] + "\\" + file_name)
    if (stopName != None):
        stopflag = True
    else:
        stopflag = False
    if(verbName != None):
        verbflag = True
    else:
        verbflag = False
    t0 = time.clock()
    with open(file_name) as f:
        txt = f.read()
    txt = txt.lower()
    if(stopflag == True):
        with open(stopName) as f:
            stoplist = f.readlines()
    pattern = r"[a-z][a-z0-9]*"
    wordList = re.findall(pattern,txt)
    totalNum = len(wordList)
    tempc = Counter(wordList)
    if (stopflag == True):
        for word in stoplist:
            word = word.replace('\n','')
            del tempc[word]
    dicNum = dict(tempc.most_common(n))
    if (verbflag == True):
        totalNum = 0
        verbDic = {}
        verbDicNum = {}
        with open(verbName) as f:
            for line in f.readlines():
                key,value = line.split(' -> ')
                verbDic[key] = value.replace('\n','').split(',')
                verbDicNum[key] = tempc[key]
                for word in verbDic[key]:
                    verbDicNum[key] += tempc[word]
                totalNum += verbDicNum[key]
        verbDicNum = sorted(verbDicNum.items(), key=lambda k: k[0])
        verbDicNum = sorted(verbDicNum, key=lambda k: k[1], reverse=True)
    dicNum = sorted(dicNum.items(), key=lambda k:k[0])
    dicNum = sorted(dicNum, key=lambda k:k[1], reverse=True)
    t1 = time.clock()
    if (verbflag == True):
        display(verbDicNum[:n], 'words',totalNum,3)
    else:
        display(dicNum,'words',totalNum,3)
    print("Time Consuming:%4f" % (t1 - t0))

修改之后，依旧需要做单元测试和回归测试，这里避免重复就不写了，成功的将时间降到了0.34s可以说提高了非常多的数量级，优化到这里，基本上已经达到了优化的瓶颈，没法继续优化了。

Step-2:支持 stop words，我们可以做一个 stop word 文件（停词表），在统计词汇的时候，跳过这些词。

停词表就没有之前实现那样需要这么麻烦去优化性能了，因为这个功能是基于之前的已经优化好的函数做的，因此要做的只是单元测试与回归测试，首先先分析一下实现的方式，因为之前已经统计得到了每一个单词出现的次数，现在需要做的是读取stopword文件中的单词，将这个单词在字典中删去，就可以到达最终所需要的效果，因为统计的时候用的是Counter类型的，因此只需要遍历stopword然后在counter中删掉就好了，这样得到的代码就是:

if(stopflag == True):
    with open(stopName) as f:
        stoplist = f.readlines()    
if (stopflag == True):
    for word in stoplist:
        word = word.replace('\n','')
        del tempc[word]

同样的，我们需要使用三个文本文件做单元测试，具体就是，一个空文件，一个小样本文件，和一个样本较多的文件，分别做验证，于是可以写单元测试的代码如下:

from count import CountWords
CountWords("Null.txt","Stopwords.txt")
CountWords("Test.txt","Stopwords.txt")
CountWords("gone_with_the_wind.txt","Stopwords.txt")

其中:

Null.txt 是一个空的文本文件
gone_with_the_wind.txt 是《乱世佳人》的文本文件
Test.txt 是一个我们自己指定的内容固定的文本文件，这样就可以统计结果的正确性

coverage run test.py

得到的结果如下:

Name                      Stmts   Exec  Cover
---------------------------------------------
CountWords                   78     92    100%
---------------------------------------------
TOTAL                        78     92    100%

可以看到，在保证代码覆盖率为100%的时候，代码运行是正确的。因为代码做了修改，因此需要做回归测试，编写如下代码做回归测试:

from count import CountLetters
from count import CountWords
CountWords("Null.txt","Stopwords.txt")
CountWords("Test.txt","Stopwords.txt")
CountWords("gone_with_the_wind.txt","Stopwords.txt")

CountLetters("Null.txt","Stopwords.txt")
CountLetters("Test.txt","Stopwords.txt")
CountLetters("gone_with_the_wind.txt","Stopwords.txt")

发现之前的counterletters不支持stopword的功能，于是我们又去修改了该函数，只不过那个函数没有用counter类型，因此为了达到stopword功能，需要从字典中删去改项，于是我们得到

if (stopflag == True):
    with open(stopName) as f:
        stoplist = f.readlines()    
if (stopflag == True):
    for word in stoplist:
        word = word.replace('\n','')
        try:
            del tempc[word]
        except:
            pass

经过单元测试，回归测试之后，结果正确。

Step-3:输出某个英文文本文件中单词短语出现的频率，由高到低排列，并显示字母出现的百分比，精确到小数点后面两位。

首先的了解，短语的定义是什么：

短语:两个或多个英语单词，它们之间只有空格分隔. 请看下面的例子：

　　hello world //这是一个短语

　　hello, world //这不是一个短语

这个会导致一个句子中有许多短语，举个例子：

I am not a good boy.

这个就有：I am, am not, not a, a good, good boy.

这就难倒了正则表达式，因为这样就不能用回溯功能，于是队友想到了办法，我们把文章先分为句子，再从句子中提出短语，用for循环去遍历一个句子，然后我们写出了下面的代码：

#!/usr/bin/env python
#-*- coding:utf-8 -*-
#author: albert time:2018/10/23 0023

import time
import re
import string
from collections import Counter

start = time.time()
from string import punctuation  # Temporarily useless

def NumWordFrequency(fileContent,number):
    fileContent = re.sub('\n|\t',' ',fileContent)
    mPunctuation = r',|;|\?|\!|\.|\:|\“|\"|\”'
    sentenceList = re.split(mPunctuation , fileContent)#Divide the text into sentences according to the punctuation marks
    wordsCounts = {}  # Creates an empty dictionary used to calculate word frequency
    for oneSentence in sentenceList:
        wordsCounts = ProcessLine(oneSentence.lower(), wordsCounts,number)  # Calculate the specified length phrase frequency
    return wordsCounts


'''function：Calculate the word frequency of each line
    input:  line : a list contains a string for a row
            countsDict: an empty  dictionary 
    ouput:  counts: a dictionary , keys are words and values are frequencies
    data:2018/10/22
'''

def ProcessLine(sentence, countsDict,number):
    # Replace the punctuation mark with a space
    # line=ReplacePunctuations(line)
    sentence = re.sub('[^a-z0-9]', ' ', sentence)
    words = sentence.split()
    if len(words) >= number:
        for i in range(len(words)-number+1):
            countsDict[" ".join(words[i:i+number])] = countsDict.get(" ".join(words[i:i+number]), 0) + 1
    else:
        if sentence.strip()=='':   #Judge if the sentence is empty
            return countsDict
        countsDict[sentence] = countsDict.get(sentence, 0) + 1
    return countsDict


'''function：Replace the punctuation mark with a space
    input:  line : A list containing a row of original strings
    ouput:  line: a list whose punctuation is all replaced with spaces
    data:2018/10/22
'''

def ReplacePunctuations(line):
    for ch in line:
        # Create our own symbol list
        tags = [',', '.', '?', '"', '“', '”', '—']
        if ch in tags:
            line = line.replace(ch, " ")
    return line


'''function：Create a taboo "stopwords.txt"
    input:  line : A list contains all the words in the "Gone With The Wind.txt"
    ouput:  nono
    data:2018/10/23
'''

def CreatStopWordsTxt(list):
    file = open('stopwords.txt', 'w')

    for str in list:
        file.write(str + '\t')
    file.close()

'''function：Remove any words that do not meet the requirements
    input: dict : A dict whose keys are words and values are frequencies
    ouput: dict : A  removed undesirable words dict
    data:2018/10/23
'''
def RemoveUndesirableWords(dict):
    '''
        wordsCount = 0  # Number of words
        wordsCount = sum(dict.values())
    '''
    listKey = list(dict)
    for temp in listKey:
        if temp[0].isdigit():
            del dict[temp]
        #else:
           # dict[temp] = round(dict[temp] , 4)
    return dict

'''function：Remove the words from the "stopwords.txt"
    input: dict : A list transformed by a dict whose keys are words and values are frequencies
    ouput: dictProc : A list after removing stopwords
    data:2018/10/23
'''

def StopWordProcessing(dict):
    fileTabu = open("stopwords1.txt", 'r')
    stopWordlist = fileTabu.read()
    fileTabu.close()

    stopWordlist = re.sub('[^a-z0-9]', ' ', stopWordlist).split(' ')
    dictProc = dict.copy()
    for temp in dict.keys():
        if temp.strip() in stopWordlist:
            del dictProc[temp]
    return dictProc

class WordFinder(object):
    '''A compound structure of dictionary and set to store word mapping'''
    def __init__(self):

        self.mainTable = {}
        for char in string.ascii_lowercase:
            self.mainTable[char] = {}
        self.specialTable = {}
        #print(self.mainTable)
        for headword, related in lemmas.items():
            # Only 3 occurrences of uppercase in lemmas.txt, which include 'I'
            # Trading precision for simplicity
            headword = headword.lower()
            try:
                related = related.lower()
            except AttributeError:
                related = None
            if related:
                for word in related.split():
                    if word[0] != headword[0]:
                        self.specialTable[headword] = set(related.split())
                        break
                    else:
                        self.mainTable[headword[0]][headword] = set(related.split())
            else:
                self.mainTable[headword[0]][headword] = None
        #print(self.specialTable)
        #print(self.mainTable)
    def find_headword(self, word):
        """Search the 'table' and return the original form of a word"""
        word = word.lower()
        alphaTable = self.mainTable[word[0]]
        if word in alphaTable:
            return word

        for headword, related in alphaTable.items():
            if related and (word in related):
                return headword

        for headword, related in self.specialTable.items():
            if word == headword:
                return word
            if word in related:
                return headword
        # This should never happen after the removal of words not in valid_words
        # in Book.__init__()
        return None

    # TODO
    def find_related(self, headword):
        pass


def VerbTableFrequency(fileContent):
    global lemmas
    global  allVerbWords
    lemmas = {}
    allVerbWords = set()
    with open('verbs.txt') as fileVerb:
        # print(fileVerb.read())
        for line in fileVerb:
            # print(line)
            line = re.sub(r'\n|\s|\,', ' ', line)
            headWord = line.split('->')[0]
            # print(headWord)
            # print(headWord)
            try:
                related = line.split('->')[1]
                # print(related)

            except IndexError:
                related = None
            lemmas[headWord] = related

    allVerbWords = set()
    for headWord, related in lemmas.items():
        allVerbWords.add(headWord)
        # print(allVerbWords)
        # print("\t")
        if related:
            allVerbWords.update(set(related.split()))
            # allVerbWords.update(related)

    tempList = re.split(r'\b([a-zA-Z-]+)\b',fileContent)
    tempList = [item for item in tempList if (item in allVerbWords)]
    finder = WordFinder()
    tempList = [finder.find_headword(item) for item in tempList]

    cnt = Counter()
    for word in tempList:
        cnt[word] += 1
    #print(type(cnt))
    return cnt

def main():
    with open("Gone With The Wind.txt") as file :
        content = file.read().lower()

    outCounts = 10  # Show the top count  words that appear most frequently
    number = 1  #Phrase length
    flag = 1


    if flag == 1:
        verbFreCount = VerbTableFrequency(content)
        #print(type(cnt))

        wordsCounts ={}
        for word in sorted(verbFreCount, key=lambda x: verbFreCount[x], reverse=True):
            wordsCounts[word] = verbFreCount[word]
        print(type(wordsCounts))
        freCountNum = sum(wordsCounts.values())

        #print (freCountNum )
        for word, fre in list(wordsCounts.items())[0:outCounts]:
            print("|\t{:15}|{:<11.2f}|".format(word,fre / freCountNum))
        print("--------------------------------")


    else:
        wordsCounts = NumWordFrequency(content,number)
        wordsCounts = RemoveUndesirableWords(wordsCounts)  # Remove any words that do not meet the requirements
        wordsCounts = StopWordProcessing(wordsCounts)  # Remove the words from the "stopwords.txt"

        pairsList = list(wordsCounts.items())  # Get the key-value pairsList from the dictionary
        items = [[x, y] for (y, x) in pairsList]  # key-value pairsList in the list exchange locations, data pairsList sort
        items.sort(reverse=True)
        # Notice we didn't order words of the same frequency
        for i in range(outCounts):
            print(items[i][1] + "\t" + str(items[i][0]))


if __name__ == '__main__':
    main()

end = time.time()
print(end - start)

from count import CountPhrase
CountPhrase("Null.txt",2)
CountPhrase("Test.txt",2)
CountPhrase("gone_with_the_wind.txt",2)

CountPhrase("Null.txt",2,"Stopwords.txt")
CountPhrase("Test.txt",2,"Stopwords.txt")
CountPhrase("gone_with_the_wind.txt",2,"Stopwords.txt")

其中:

Null.txt 是一个空的文本文件
gone_with_the_wind.txt 是《乱世佳人》的文本文件
Test.txt 是一个我们自己指定的内容固定的文本文件，这样就可以统计结果的正确性

coverage run test.py

得到的结果如下:

Name                      Stmts   Exec  Cover
---------------------------------------------
CountPhrase                  78     92    100%
---------------------------------------------
TOTAL                        78     92    100%

可以看到，在保证代码覆盖率为100%的时候，代码运行是正确的。因为代码做了修改，因此需要做回归测试，编写如下代码做回归测试:

from count import CountLetters
from count import CountWords
from count import CountPhrase

CountWords("Null.txt","Stopwords.txt")
CountWords("Test.txt","Stopwords.txt")
CountWords("gone_with_the_wind.txt","Stopwords.txt")

CountLetters("Null.txt","Stopwords.txt")
CountLetters("Test.txt","Stopwords.txt")
CountLetters("gone_with_the_wind.txt","Stopwords.txt")

CountPhrase("Null.txt",2)
CountPhrase("Test.txt",2)
CountPhrase("gone_with_the_wind.txt",2)

CountPhrase("Null.txt",2,"Stopwords.txt")
CountPhrase("Test.txt",2,"Stopwords.txt")
CountPhrase("gone_with_the_wind.txt",2,"Stopwords.txt")

发现之前的counterPhrases不支持stopword的功能，于是我们又去修改了该函数，思想和CountWords函数相同。

经过单元测试，回归测试之后，结果正确。

但程序的运行速度怎么样呢？为了更加了解清楚它的运行速度，我们使用cprofile分析性能，从而提升运行的性能, 使用cprofile运行的结果为，一共用了2.39s，为了降低时间成本。

因此需要对其进行优化，我们想到一个绝妙的办法，可以将文章看作一个巨大的句子，用句号对文中的句子进行分割，然后，用正则表达式匹配第一次，这一次就会漏掉一些，但是我们删去一个词再去用正则表达式，就可以统计到缺失的那部分，同样的，一直替换到删去n-1个词语,就得到最终版本的代码:

###################################################################################
#Name:count_words
#Inputs:file name,the first n words, stopfile name
#outputs:None
#Author: Thomas
#Date:2018.10.22
###################################################################################
def CountPhrases(file_name,n,stopName,verbName,k):
    print("File name:" + sys.path[0] + "\\" + file_name)
    totalNum = 0
    if (stopName != None):
        stopflag = True
    else:
        stopflag = False
    if(verbName != None):
        verbflag = True
    else:
        verbflag = False
    t0 = time.clock()
    with open(file_name) as f:
        txt = f.read()
    txt = txt.lower()
    txt = re.sub(r'[\s|\']+',' ',txt)
    pword = r'(([a-z]+ )+[a-z]+)'  # extract sentence
    pattern = re.compile(pword)
    sentence = pattern.findall(txt)
    txt = ','.join([sentence[m][0] for m in range(len(sentence))])
    if(stopflag == True):
        with open(stopName) as f:
            stoplist = f.readlines()
    pattern = "[a-z]+[0-9]*"
    for i in range(k-1):
        pattern += "[\s|,][a-z]+[0-9]*"
    wordList = []
    for i in range(k):
        if( i == 0 ):
            tempList = re.findall(pattern, txt)
        else:
            wordpattern = "[a-z]+[0-9]*"
            txt = re.sub(wordpattern, '', txt, 1).strip()
            tempList = re.findall(pattern, txt)
        wordList += tempList
    tempc = Counter(wordList)
    if (stopflag == True):
        for word in stoplist:
            word = word.replace('\n','')
            del tempc[word]
    dicNum = {}
    if (verbflag == True):
        verbDic = {}
        with open(verbName) as f:
            for line in f.readlines():
                key,value = line.split(' -> ')
                for tverb in value.replace('\n', '').split(','):
                    verbDic[tverb] = key
                verbDic[key] = key
        for phrase in tempc.keys():
            if (',' not in phrase):
                totalNum += 1
                verbList = phrase.split(' ')
                normPhrase = verbList[0]
                for verb in verbList[1:]:
                    if verb in verbDic.keys():
                        verb = verbDic[verb]
                    normPhrase += ' ' + verb
                if (normPhrase in dicNum.keys()):
                    dicNum[normPhrase] += tempc[phrase]
                else:
                    dicNum[normPhrase] = tempc[phrase]
    else:
        phrases = tempc.keys()
        for phrase in phrases:
            if (',' not in phrase):
                dicNum[phrase] = tempc[phrase]
                totalNum += tempc[phrase]
    dicNum = sorted(dicNum.items(), key=lambda k: k[0])
    dicNum = sorted(dicNum, key=lambda k: k[1], reverse=True)
    t1 = time.clock()
    display(dicNum[:n], 'Phrases',totalNum,3)
    print("Time Consuming:%4f" % (t1 - t0))

经过运行上面的单元测试，回归测试的代码，发现运行结果没有变化，时间降到了1.8s，已经达到优化的最终目的了。

Step-4:第四步：把动词形态都统一之后再计数。

首先，我们需要看一下动词形态在Verbs.txt中是什么样子的

abandon -> abandons,abandoning,abandoned
abase -> abases,abasing,abased
abate -> abates,abating,abated
abbreviate -> abbreviates,abbreviating,abbreviated
abdicate -> abdicates,abdicating,abdicated
abduct -> abducts,abducting,abducted
abet -> abets,abetting,abetted
abhor -> abhors,abhorring,abhorred

可以看到左边是动词原形，右边是动词的各种形式，因为目前已经对单词全部统计出来了，所以现在需要做的是，首先将verbs.txt读入字典当中，用这个字典将相同词语不同形式的加到一起，于是可以编写代码如下：

if (verbflag == True):
    totalNum = 0
    verbDic = {}
    verbDicNum = {}
    with open(verbName) as f:
        for line in f.readlines():
            key,value = line.split(' -> ')
            verbDic[key] = value.replace('\n','').split(',')
            verbDicNum[key] = tempc[key]
            for word in verbDic[key]:
                verbDicNum[key] += tempc[word]
            totalNum += verbDicNum[key]

from count import CountWords,CountPhrases
CountWords("Null.txt","Verbs.txt")
CountWords("Test.txt","Verbs.txt")
CountWords("gone_with_the_wind.txt","Verbs.txt")

CountWords("Null.txt","Verbs.txt","Verbs.txt","stopwords.txt")
CountWords("Test.txt","Verbs.txt","Verbs.txt","stopwords.txt")
CountWords("gone_with_the_wind.txt","Verbs.txt","stopwords.txt")

CountWords("Null.txt","Verbs.txt")
CountWords("Test.txt","Verbs.txt")
CountWords("gone_with_the_wind.txt","Verbs.txt")

CountWords("Null.txt","Verbs.txt","Verbs.txt""stopphrases.txt")
CountWords("Test.txt","Verbs.txt","Verbs.txt""stopphrases.txt")
CountWords("gone_with_the_wind.txt","Verbs.txt","stopphrases.txt")

其中:

Null.txt 是一个空的文本文件
gone_with_the_wind.txt 是《乱世佳人》的文本文件
Test.txt 是一个我们自己指定的内容固定的文本文件，这样就可以统计结果的正确性

对于单词来说经过我们的验证，这个结果是正确的。但发现短语不支持verbs.txt的功能，于是我们对短语的功能进行了修改，但是怎么归一化呢，想到了一个绝妙的办法，就是各种形式作为key，对应值作为value，这样的话索引各种形式都可以变换到原型，然后就有了如下的代码：

    if (verbflag == True):
        verbDic = {}
        with open(verbName) as f:
            for line in f.readlines():
                key,value = line.split(' -> ')
                for tverb in value.replace('\n', '').split(','):
                    verbDic[tverb] = key
                verbDic[key] = key
        for phrase in tempc.keys():
            if (',' not in phrase):
                totalNum += 1
                verbList = phrase.split(' ')
                normPhrase = verbList[0]
                for verb in verbList[1:]:
                    if verb in verbDic.keys():
                        verb = verbDic[verb]
                    normPhrase += ' ' + verb
                if (normPhrase in dicNum.keys()):
                    dicNum[normPhrase] += tempc[phrase]
                else:
                    dicNum[normPhrase] = tempc[phrase]

经过这样的验证，但还不清楚代码的覆盖率怎么样，于是我们使用工具coverage，对代码进行分析，使用如下命令行分析代码覆盖率

coverage run test.py

得到的结果如下:

Name                      Stmts   Exec  Cover
---------------------------------------------
CountWords                   78     92    100%
---------------------------------------------
TOTAL                        78     92    100%

可以看到，在保证代码覆盖率为100%的时候，代码运行是正确的。因为代码做了修改，因此需要做回归测试，编写如下代码做回归测试:

from count import CountLetters
from count import CountWords
CountWords("Null.txt","Verbs.txt")
CountWords("Test.txt","Verbs.txt")
CountWords("gone_with_the_wind.txt","Verbs.txt")

CountWords("Null.txt","Verbs.txt","stopwords.txt")
CountWords("Test.txt","Verbs.txt","stopwords.txt")
CountWords("gone_with_the_wind.txt","Verbs.txt","stopwords.txt")

CountWords("Null.txt")
CountWords("Test.txt")
CountWords("gone_with_the_wind.txt")

CountLetters("Null.txt","Verbs.txt","Stopwords.txt")
CountLetters("Test.txt","Verbs.txt","Stopwords.txt")
CountLetters("gone_with_the_wind.txt","Verbs.txt","Stopwords.txt")

CountLetters("Null.txt","Stopwords.txt")
CountLetters("Test.txt","Stopwords.txt")
CountLetters("gone_with_the_wind.txt","Stopwords.txt")

CountLetters("Null.txt")
CountLetters("Test.txt")
CountLetters("gone_with_the_wind.txt")

发现之前的counterletters不支持verbs.txt的功能，于是我们又去修改了该函数，但后来觉得归一化单词去统计字母的出现次数是没有意义的，于是便删去了原先代码。

Step-5:第五步：统计动介短语的次数。

首先先看一下动介短语的定义是什么:

VerbPhrase := Verb + Spaces + Preposition Spaces := Space+ Space := ' ' | '\t' | '\r' | '\n' Preposition :=  Verb :=

一开始并没有想到第5步与第4步有紧密的联系，因此我们这步的代码是从头开始写的，构造了一个非常长的正则表达式，主要就是用for循环将词语用或连起来，因为这样的用时太长了，一共花了56s，可以说根本没法用，因此直接就摒弃了这种方式，也没有做单元测试性能分析，因为时间太长了，肯定需要重新想的。后来想起来第4步不是统计了所有的短语嘛，我们可以将统计的短语拿过来使用，只要归一化再加上判断介词就可以用了。但是怎么归一化呢，想到了一个绝妙的办法，就是各种形式作为key，对应值作为value，这样的话索引各种形式都可以变换到原型，这样得到最终的代码：

###################################################################################
#Name:count_words
#Inputs:file name,the first n words, stopfile name
#outputs:None
#Author: Thomas
#Date:2018.10.22
###################################################################################
def CountVerbPre(file_name,n,stopName,verbName,preName):
    print("File name:" + sys.path[0] + "\\" + file_name)
    dicNum = {}
    totalNum = 0
    if (stopName != None):
        stopflag = True
    else:
        stopflag = False
    t0 = time.clock()
    with open(file_name) as f:
        txt = f.read()
    txt = txt.lower()
    txt = re.sub(r'[\s|\']+',' ',txt)
    pword = r'(([a-z]+ )+[a-z]+)'  # extract sentence
    pattern = re.compile(pword)
    sentence = pattern.findall(txt)
    txt = ','.join([sentence[m][0] for m in range(len(sentence))])
    if(stopflag == True):
        with open(stopName) as f:
            stoplist = f.readlines()
    pattern = "[a-z]+[0-9]*"
    for i in range(1):
        pattern += "[\s|,][a-z]+[0-9]*"
    wordList = []
    for i in range(2):
        if( i == 0 ):
            tempList = re.findall(pattern, txt)
        else:
            wordpattern = "[a-z]+[0-9]*"
            txt = re.sub(wordpattern, '', txt, 1).strip()
            tempList = re.findall(pattern, txt)
        wordList += tempList

    tempc = Counter(wordList)
    with open(preName) as f:
        preTxt = f.read()
    preList = preTxt.split('\n')
    verbDic = {}
    with open(verbName) as f:
        for line in f.readlines():
            key,value = line.split(' -> ')
            for tverb in value.replace('\n','').split(','):
                verbDic[tverb] = key
            verbDic[key] = key
    for phrase in tempc.keys():
        if(',' not in phrase):
            totalNum += 1
            verb, pre = phrase.split(' ')
            if (verb in verbDic.keys() and pre in preList):
                normPhrase = verbDic[verb] + ' ' + pre
                if (normPhrase in dicNum.keys()):
                    dicNum[normPhrase] += tempc[phrase]
                else:
                    dicNum[normPhrase] = tempc[phrase]
    if (stopflag == True):
        for word in stoplist:
            word = word.replace('\n','')
            del dicNum[word]
    dicNum = sorted(dicNum.items(), key=lambda k: k[0])
    dicNum = sorted(dicNum, key=lambda k: k[1], reverse=True)
    t1 = time.clock()
    display(dicNum[:n], 'VerbPre',totalNum, 3)
    print("Time Consuming:%4f"%(t1-t0))

经过单元测试，回归测试结果正确。但限于篇幅，这里就不赘述了。

你可能感兴趣的:(用Python统计文本文件中词汇字母短语等分布)

Python版-LeetCode 学习：438. 找到字符串中所有字母异位词 guyu1003 LeetCode算法字符串 python leetcode 算法
给定一个字符串s和一个非空字符串p，找到s中所有是p的字母异位词的子串，返回这些子串的起始索引。字符串只包含小写英文字母，并且字符串s和p的长度都不超过20100。说明：字母异位词指字母相同，但排列不同的字符串。不考虑答案输出的顺序。示例1:输入:s:"cbaebabacd"p:"abc"输出:[0,6]解释:起始索引等于0的子串是"cba",它是"abc"的字母异位词。起始索引等于6的子串是"b
充电桩 APP 开发：技术架构与核心功能一品威客网架构
随着新能源汽车的普及，充电桩APP成为连接用户与充电设施的关键枢纽。这类APP的开发需兼顾用户体验与运营效率，以下从技术实现与功能设计两方面展开分析。技术架构设计实时数据交互：采用MQTT协议实现充电桩状态（空闲/充电中/故障）的实时推送，确保用户获取最新信息。定位与地图服务：集成高德/Baidu地图SDK，通过POI搜索与路径规划算法，优化充电桩位置展示与导航体验。支付系统：对接微信/支付宝支付
SpringBoot 自定义自动配置这些知识点你需要了解一品威客网 spring boot java spring
在SpringBoot开发中，自动配置极大简化了开发流程，但有时默认配置无法满足需求，这时自定义自动配置就显得尤为重要。理解自动配置原理：SpringBoot的自动配置基于条件注解和SPI机制。条件注解如@ConditionalOnClass@ConditionalOnProperty等，可根据类路径、系统属性等条件，控制配置类是否生效。SPI（服务提供发现）机制则让SpringBoot在启动时扫
物流运输企业如何构建数字化管理系统
在数字化浪潮下，物流运输企业构建数字化管理系统成为提升竞争力的关键。当前，企业常面临信息传递滞后、资源调配低效、运输监控不足等问题，构建数字化管理系统可有效解决这些难题。系统搭建需涵盖多个核心模块。运输管理模块通过智能调度算法，根据货物信息、车辆状态、路线情况，优化运输路径，实现车辆高效调配，减少空载率；仓储管理模块利用物联网技术，实时监控货物存储状态、库存数量，结合数据分析实现智能补货，提升仓储
IP陪跑信息差揭秘：避开99%陷阱的筛选逻辑|创客匠人创客匠人老蒋网络创始人IP打造创客匠人知识付费 IP变现
一、案例时效性：月更案例为何比年度案例更可信部分机构用几年前的案例吹嘘实力，而真正有效的筛选标准是看案例更新频率。创客匠人坚持每月记录新案例，如2024年11月助力某教育IP实现150万发售营收，12月又帮助一位职场IP完成100万销售额。这种高频次的案例产出，证明其方法论能适应快速变化的市场环境，而非依赖过时经验。二、付费逻辑：结果分成模式如何重构合作关系前置付费模式让IP承担全部风险，而创客匠
情绪锚定术：雷军卖车背后的IP变现核心密码|创客匠人创客匠人老蒋创客匠人商业思维知识变现创始人IP 雷军
一、雷军的情绪操控术：35万人抢车的心理逻辑小米YU7发布会的终极杀招，是雷军通过“人生故事”引发的情绪共振——开场不讲性能讲“陪孩子成长”，结尾用“写给热爱生活的人”点燃情感，让用户从“理性比价”变为“感性买单”。创客匠人在创始人IP打造中发现：某亲子教育IP用“凌晨三点哄睡宝宝的崩溃”场景化表达，课程转化率提升5倍，印证了“情绪比数据更能驱动成交”的铁律。雷军的高明之处在于，将冰冷的产品参数转
安装部署zabbix监控ELK日志：（centos 7 ）完整文档 Liberation-army linux zabbix elk
今天接到公司领导要求，要求用zabbix能够实时的监控所有服务器的报错报警日志。但是因为服务器数量较大，日志量很大，单独做脚本分析日志来上报的话消耗资源可能会比较大，因此就使用了已经部署了的elk来把错误的日志单独整理上报，然后就在网上查询资料找到了ZABBIX+ELK的部署，经过十几个小时的尝试和测试，已经能够成功的监控到错误和告警日志了，因为部署过程中踩了很多坑，因此整理整个流程把相关的内容发
华为eNSP实战：企业级网络架构设计与仿真全攻略
一、eNSP核心功能解析与行业应用1.1eNSP在ICT行业的关键地位华为eNSP(EnterpriseNetworkSimulationPlatform)作为业界领先的网络仿真工具，已广泛应用于：华为认证体系：HCIA/HCIP/HCIE认证的标准化实验平台企业网络规划：Fortune500强中78%的企业采用eNSP进行方案验证高校教学：全球600+所高校网络工程课程指定实验环境1.2典型应用
NAT穿透 P2P通信介绍 ccCoKOll p2p 网络协议网络
NAT穿透与P2P通信是互联网通信领域中的关键技术，特别是在多点通信、实时互动以及设备间的直接连接中。NAT（网络地址转换）技术在保护网络安全和解决IP地址稀缺问题的同时，也对P2P（对等网络）通信带来了挑战。P2P通信则是一种网络架构，其中每个节点既是服务的提供者也是消费者，它们之间可以直接交换数据，无需通过中央服务器。在P2P网络中，每个节点都有自己的唯一标识，通常是IP地址和端口号。但在NA
AI人工智能中LSTM在视频行为识别的应用
AI人工智能中LSTM在视频行为识别的应用关键词：LSTM、视频行为识别、深度学习、时序建模、计算机视觉、神经网络、动作识别摘要：本文将深入探讨LSTM（长短期记忆网络）在视频行为识别领域的应用。我们将从基础概念出发，逐步讲解LSTM如何解决视频时序建模的挑战，分析其核心算法原理，并通过实际代码示例展示LSTM在行为识别中的具体实现。文章还将探讨当前的应用场景、工具资源以及未来发展趋势，为读者提供
深入了解大数据领域Zookeeper的ACL权限管理 AGI大模型与大数据研究院大数据 zookeeper wpf ai
深入了解大数据领域Zookeeper的ACL权限管理关键词：Zookeeper、ACL权限管理、大数据安全、分布式系统、访问控制、权限模型、数据保护摘要：本文深入探讨了Zookeeper中的ACL(AccessControlList)权限管理系统。作为分布式协调服务的核心组件，Zookeeper的ACL机制对于保障大数据环境中的数据安全至关重要。文章将从基础概念出发，详细解析ZookeeperAC
小程序学习笔记：判断分页数据边界，优化性能 you4580 学习笔记小程序
在小程序开发过程中，数据分页展示是常见的功能需求。但如果处理不当，可能会出现无效的数据请求，影响程序性能。今天咱们就来深入探讨如何在小程序开发里精准判断是否还有下一页数据，并避免发起多余请求。一、问题引入假设有80条美食数据，每页展示10条，理论上8页就能展示完。但在实际操作时，你有没有想过，会不会出现请求第9页、第10页数据这种情况呢？答案是肯定的。就像在开发美食类小程序时，用户不断上拉加载新数
小程序学习笔记：实现分页加载商铺列表数据并渲染 UI you4580 学习笔记小程序
在微信小程序开发中，实现分页加载指定分类下的商铺列表数据，并进行UI渲染是常见的功能需求。本文将详细介绍这一功能的实现过程，包括API接口调用、数据请求、数据处理以及UI渲染和样式美化，同时附上相应代码，帮助大家更好地理解和实践。一、API接口与数据请求（一）API接口地址我们要调用的API接口地址包含一个动态参数:cat_id，这个参数用于指定分类的ID。例如，如果要请求美食分类下的所有商铺列表
Mac 安装 Xcode工具软件
安装Xcode工具软件1.安装Xcode有2种方式1）直接在Appstore中搜索xcode，下载安装。这种方式比较简单粗暴，推荐2）官方的网址下载2.安装不当可能出现的问题1.安装Xcode有2种方式1）直接在Appstore中搜索xcode，下载安装。这种方式比较简单粗暴，推荐2）官方的网址下载链接奉上：https://developer.apple.com/download/more/这个过
微信小程序实现下拉刷新首页数据、上拉加载下一页数据花铛微信小程序微信小程序
下拉刷新首页数据：使用页面的下拉，刷新首页数据：首先需要在页面对应的JSON文件中配置"enablePullDownRefresh":true。然后在页面对应的JS文件中使用微信小程序提供的onPullDownRefresh(){}监听用户下拉动作。//本质是获取首页的数据onPullDownRefresh(){this.setData({pageNum:1},this.getList)},get
国米夏窗豪赌：奥纳纳回归+锋线强援剑指双线复兴花开半谢笔记
国际米兰在刚刚结束的世俱杯1/8决赛中0-2完败于弗鲁米嫩塞，冲击冠军梦想戛然而止。这场失利不仅暴露了球队的临场状态问题，更揭示了阵容的关键短板。门将位置成为焦点，高龄的索默本场表现挣扎，赛后评分仅5.9分。球迷虽认为失利非他一人之责，但其状态下滑已是不争事实。夏窗换血势在必行。一个令人瞩目的潜在选项浮出水面——回购旧将奥纳纳。媒体消息显示，曼联正积极追求维拉门神大马丁，有意出售奥纳纳腾出薪资空间
python 使用 pyenv 管理 python 版本时空无限 Python python 开发语言
安装pyenv并使用pyenv安装不同版本的pythonbrewinstallpyenvpyenvinstall3.11.9pyenvinstall3.10.9设置pyenvecho'exportPYENV_ROOT="$HOME/.pyenv"'>>~/.bash_profileecho'exportPATH="$PYENV_ROOT/bin:$PATH"'>>~/.bash_profileec
Python正式课11_关于cookie和session 时寒的笔记 python 开发语言
一、概念"""http,无连接,无状态.我们在淘宝上买东西.用户登陆的状态是必须要有的...工作当中是需要这个状态的.但是http协议是不负责维持这个状态的.loginusernamepassword浏览器想了一个办法.弄了一个本地化的存储.来保持这个状态.本地保存的这个东西.每次发请求的时候.浏览器都会自动携带该信息.这个本地化的存储.我们叫它cookiecookie的生成过程:1.cookie
【PaddleOCR】快速集成 PP-OCRv5 的 Python 实战秘籍--- PaddleOCR实例化 OCR 对象的参数介绍云天徽上 PaddleOCR python ocr 开发语言人工智能文字识别
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
解决Xcode16.0编译报错 Showing Recent Messages Command SwiftCompile failed with a nonzero exit code 程序员大龙虾移动端 ios xcode
修改下HandyJSON库的编译模式即可。详情请看图CompilationMode接着在Xcode顶部菜单栏中，选择Product>CleanBuildFolder（可以使用快捷键Shift+Command+K）清理项目的编译文件
提高 Xcode 编译速度方法大总结 SwiftFun ios ios开发 xcode swift ios objective-c
怎样测量编译时间消耗在最新版本的Xcode中，编译后查看ReportNavigator面板，点击刚刚的那次编译，即可查看到整个编译流程，以及每一步的耗时。右键点击任意一个步骤，选择ShowInTimeline可打开一个时间线面板，在实现面板中，可以查看到编译的各个步骤，包括PreparePackages、Planbuild、Createbuilddescription等，可以通过每个条目的长度直观
python开发|yaml用法知识介绍川石课堂软件测试 python 数据库功能测试开发语言人工智能单元测试 linux
随着互联网技术的快速发展，服务器编程变得越来越重要。Python作为一种强大的编程语言，越来越受到开发者的青睐。而PyYAML则是Python中最常用的YAML格式解析器之一，本文将系统介绍yaml知识01yaml介绍YAML(YAMLAin'tMarkupLanguage)是一种直观的数据序列化格式，它旨在以易于人类阅读和编写的方式表达数据。尽管名称中包含“不是标记语言”的表述，YAML在实际应
猎板十二层 PCB 在汽车电子中的应用：应对复杂环境的挑战。 lboyj PCB PCBA pcb
一、汽车电子环境挑战与十二层PCB的优势定位汽车电子系统正面临多重复杂环境挑战：高温高湿环境下（85℃/85%RH）传统PCB材料易出现分层失效，复杂电磁环境导致信号干扰，高振动场景（50g加速度）对结构可靠性提出严苛要求。猎板PCB研发的十二层PCB，通过材料优化、工艺创新与结构强化，为汽车动力控制系统、ADAS等核心模块提供可靠解决方案。相比常规多层板，十二层结构可实现更复杂的信号分层布局，电
第210天：node、nvm、npm和gulp的安装和使用详解 lelara node
一、node1、什么是node？它不是JS文件，也不是JS框架，而是ServersideJavaScriptruntime，当服务端的一个JS文件运行时，会被NODE拦截，在NODE中运行JS代码。JS由ES（ECMAScript），DOM，BOM组成，目前运行在浏览器内核中，NODE中只能运行ECMAScript，无法使用DOM，BOM。NODE就是一个JS运行环境。主要用于开发WEB应用程序开
Python如何调用港股行情接口 kk_stoper python 开发语言 java javascript 数据结构
1.接口信息接口类型：实时综合行情接口支持品种：贵金属，商品期货，外汇，A股，港股，美股查询方式：HTTP,WebSocket申请密钥：https://infoway.io官方对接文档：https://infoway.readme.io/reference/ws-subscription2.获取股票清单这个接口用来查询股票的名单，比如我可以获取美股清单：importrequestsurl="htt
C++必看：C++构造函数的初始化顺序 Littlewith C++的那些事儿 c++开发语言服务器 c语言
关键规则如果派生类有基类（单继承或多继承），基类的构造函数会首先被调用。1.对基类进行处理多继承时，按照派生类继承列表中声明的顺序（从左到右）依次调用基类的构造函数。如果有虚继承，虚基类的构造函数优先于非虚基类调用，且只调用一次。虚基类只在最远派生类中进行处理，并且只有最远派生类调用，其他虚继承的派生类调用被忽略，并且只执行一次2.对成员对象进行处理在基类构造函数调用完成后，派生类中声明的成员对象
镍钯金 vs 电金工艺：猎板PCB如何以技术创新重塑高端电子制造？猎板PCB黄浩人工智能
在高端电子制造领域，PCB表面处理工艺的可靠性直接决定了产品的性能和寿命。镍钯金（ENEPIG）与电金（ElectroplatedGold）作为两种核心工艺，长期占据行业技术制高点。猎板PCB凭借在特殊工艺领域的深耕，通过镍钯金与电金的精准匹配，解决了5G通信、汽车电子等场景的痛点问题。本文将从性能对比、技术突破与行业实践三大维度，解析猎板PCB如何以工艺创新推动产业升级。一、性能对比：镍钯金与电
最新人工智能硬件培训AI基础入门学习课程参考2025版（离线AI语音视觉识别篇）聆思科技AI芯片聆思大模型开发板实践分享语音识别人机交互人工智能视觉检测嵌入式硬件 mcu AI编程
前言端侧离线AI智能硬件作为AI技术的重要载体之一，凭借其无需依赖网络即可实现智能功能的特性，在一些网络条件受限或对数据隐私有较高要求的场景中，发挥着不可或缺的作用。本章基于CSK6大模型语音视觉开发板开箱即用的离线AI能力，分类列出学习课程知识点和实操参考，希望能够帮助大家快速掌握离线AI智能硬件的基础知识与实战技能，同时了解相关AI技术在实际场景的应用情况。正文按入下框架展开，相关理论和实操除
全网最全学习Zephyr开发中文教程资料汇总-从基础文档视频到上手实操示例聆思科技AI芯片 Zephyr保姆级上手教程 zephyr AIGC 多模态嵌入式硬件 iot 硬件工程驱动开发
Zephyr作为一款开源且极具灵活性与可扩展性的实时操作系统（RTOS），拥有原生的BLE协议栈、完整的Net协议栈，涵盖TCP/IP与应用层协议，具备出色的实时性，支持硬实时任务调度，确保系统响应的确定性延迟，并且内存占用极小。丰富的通信机制、深度集成的电源管理模式等，也进一步提升了其在嵌入式领域的竞争力。然而，要深入掌握Zephyr开发并非一蹴而就之事。为了方便大家顺利踏上Zephyr开发之路
macos 安装 xcode
在macOS上安装Xcode（或者XcodeCommandLineTools）的方法如下：1.安装XcodeCommandLineTools（轻量级，满足大部分编译需求）终端命令：xcode-select--install会弹出安装提示，点击“安装”即可。安装完成后，会包括clang、clang++、make等编译工具。适合大部分编译和开发需求，不用装完整Xcode。2.安装完整Xcode（体积较
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓