背景介绍:
清洗数据:
大概意思就是由于错误的标点符号、大小写字母不一致、断行和拼写错误等问题,零乱的数据(dirtydata),然后我们通过改变代码的编写方式,从源头控制数据零乱的问题甚至对已经进入数据库的数据也可以进行清洗。
1:代码
# coding=utf-8
"""
@author: jiajiknag
程序功能: 返回维基百科词条“Python programming language”的2-gram列表:
"""
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
import string
from collections import OrderedDict
# 定义一个函数(清洗任务)
def cleanInput(input):
# re.sub功能是对于一个输入的字符串,利用正则表达式,来实现字符串替换处理的功能返回处理后的字符串
input = re.sub('\n+', " ", input)
input = re.sub('\[[0-9]*\]', "", input)
input = re.sub(' +', " ", input)
input = bytes(input, "UTF-8")
input = input.decode("ascii", "ignore")
# 定义一个清洗输入空列表
cleanInput = []
input = input.split(' ')
for item in input:
# string.punctuation:包含所有标点的字符串
item = item.strip(string.punctuation)
if len(item) > 1 or (item.lower() == 'a' or item.lower() == 'i'):
cleanInput.append(item)
return cleanInput
def getNgrams(input, n):
# 调用函数celanInput()
input = cleanInput(input)
# dict()函数用于创建一个字典
output = dict()
for i in range(len(input)-n+1):
# 以" "作为分隔符,将" "所有的元素合并成一个新的字符串
newNGram = " ".join(input[i:i+n])
if newNGram in output:
output[newNGram] += 1
else:
output[newNGram] = 1
return output
# 维基百科词条
html = urlopen("http://en.wikipedia.org/wiki/Python_(programming_language)")
bsObj = BeautifulSoup(html, "html.parser")
content = bsObj.find("div", {"id":"mw-content-text"}).get_text()
#ngrams = getNgrams(content, 2)
#print(ngrams)
#print("2-grams count is: "+str(len(ngrams)))
ngrams = getNgrams(content, 2)
# 将排序过的字典的值复制到其他类型中进行排序
ngrams = OrderedDict(sorted(ngrams.items(), key=lambda t: t[1], reverse=True))
print(ngrams)
2:结果