taoshouzheng

TextRank算法的基本原理及textrank4zh使用实例

TextRank算法是一种文本排序算法，由谷歌的网页重要性排序算法PageRank算法改进而来，它能够从一个给定的文本中提取出该文本的关键词、关键词组，并使用抽取式的自动文摘方法提取出该文本的关键句。其提出论文是： Mihalcea R, Tarau P. TextRank: Bringing order into texts[C]. Association for Computational Linguistics, 2004. 论文的百度学术下载地址为：点击打开链接。本文将首先介绍TextRank算法的基本原理，然后给出Python中TextRank算法的中文文本实现模块textrank4zh的使用实例。

1 TextRank算法的基本原理

TextRank算法是由网页重要性排序算法PageRank算法迁移而来：PageRank算法根据万维网上页面之间的链接关系计算每个页面的重要性；TextRank算法将词视为“万维网上的节点”，根据词之间的共现关系计算每个词的重要性，并将PageRank中的有向边变为无向边。所以，在介绍TextRank算法之前，先介绍一下PageRank算法。

1.1 PageRank算法的基本概念和原理

PageRank算法的起源要从搜索引擎的发展讲起。早期的搜索引擎普遍采用分类目录方法，即通过人工对网页进行分类，整理出高质量的网站。随着网页的增多，人工分类的方法变得不现实，人们开始尝试使用文本检索的方法，即通过计算用户查询的关键词与网页内容的相关程度来返回搜索结果。这种方法突破了网页数量的限制，但是这种方法的效果并不总是很好，因为某些网站会刻意“操作”某些关键词从而使自己的搜索排名靠前。这一问题在1998年4月的第七届国际万维网大会上得以解决——Larry Page和Sergey Brin提出了PageRank算法。该算法通过计算网页链接的数量和质量来粗略估计网页的重要性，算法创立之初即应用在谷歌的搜索引擎中，对网页进行排名。

PageRank算法的核心思想如下：

如果一个网页被很多其他网页链接到，说明这个网页比较重要，即该网页的PR值（PageRank值）会相对较高；
如果一个PR值很高的网页链接到一个其他网页，那么被链接到的网页的PR值会相应地因此而提高。

以投票机制的观点来看，一个网页的得票数由所有链向它的网页的得票数经过递归算法来得到，有到一个网页的超链接相当于对该网页投了一票。

为了便于理解，考虑以下情境：

1）如上左图，假设一个只由4个网页组成的集合：A、B、C和D，如果网页B、C、D都链向网页A，且网页B、C、D均没有链出，那么网页A的PR值将是网页B、C、D的PR值之和:

2）如上右图，继续假设在上述情境下，网页B有链接链向网页C，网页D有链接链向网页A、B、C，一个网页不能多次投票，所以网页B投给它链向的网页1/2票，网页D投给它链向的网页1/3票，计算此情境下网页A的PR值为：

即，在一个网页为其他网页投票时，根据链出总数平分该网页的PR值，将其作为该网页为其链向网页所投票数，即：

3）再抽象一下，建立一个简化模型，对于任意的网页i，它的PR值可以表示如下：

：网页i的PR值

：网页j的PR值

：所有链接到网页i的网页集合

：网页j的对外链出数

以上讲的是PageRank算法的简单模型，但是简单模型并不适用于只链出自己的网页或几个网页的链出形成一个循环的情况，所以考虑更具普遍性的PageRank算法模型——随机浏览模型。

随机浏览模型的假设是这样的：假定一个网页浏览者从一个随机页面开始浏览，浏览者不断点击当前网页的链接开始下一次浏览。但是，浏览者会逐渐厌倦并开始随机浏览网页。随机浏览的方式更符合用户的真实浏览行为，避免了上述情况的发生，由此产生了随机浏览模型，随机浏览模型中每个网页的PR值通过以下公式计算：

：网页i的PR值

：网页j的PR值

：网页j的对外链出数

：所有链接到网页i的网页集合

：网络中网页的总数

：阻尼系数，即按照超链接进行浏览的概率，一般取经验值为0.85

：浏览者随机跳转到一个新网页的概率

一个网页的PR值是由其他网页的PR值计算得到的。由于PR=A*PR（A为概率转移矩阵）满足马尔科夫链的性质，那么通过迭代可以得到所有网页的PR值。经过重复计算，这些网页的PR值会趋于正常和稳定。

随着研究的深入，目前PageRank算法被广泛应用于众多方面，例如学术论文的重要性排名、学术论文作者的重要性排序、网络爬虫、关键词与关键句的抽取等。

1.2 从PageRank算法到TextRank算法

TextRank算法是由PageRank算法改进而来的，二者的思想有相同之处，区别在于：PageRank算法根据网页之间的链接关系构造网络，而TextRank算法根据词之间的共现关系构造网络；PageRank算法构造的网络中的边是有向无权边，而TextRank算法构造的网络中的边是无向有权边。TextRank算法的核心公式如下，其中用于表示两个节点之间的边连接具有不同的重要程度：

为了便于理解，给出使用TextRank算法提取关键词和关键词组的具体步骤如下：

1）将给定的文本按照整句进行分割，即；

2）对于每个句子，对其进行分词和词性标注，然后剔除停用词，只保留指定词性的词，如名词、动词、形容词等，即，其中为句子i中保留下的词；

3）构建词图，其中V为节点集合，由以上步骤生成的词组成，然后采用共现关系构造任意两个节点之间的边：两个节点之间存在边仅当它们对应的词在长度为K的窗口中共现，K表示窗口大小，即最多共现K个单词，一般K取2；

4）根据上面的公式，迭代计算各节点的权重，直至收敛；

5）对节点的权重进行倒序排序，从中得到最重要的t个单词，作为top-t关键词；

6）对于得到的top-t关键词，在原始文本中进行标记，若它们之间形成了相邻词组，则作为关键词组提取出来。

从给定文本中提取关键句时，将文本中的每个句子分别看作一个节点，如果两个句子有相似性，则认为这两个句子对应的节点之间存在一条无向有权边，衡量句子之间相似性的公式如下：

：两个句子

：句子中的词

分子部分的意思是同时出现在两个句子中的同一个词的数量，分母是对句子中词的个数求对数后求和，这样设计可以遏制较长的句子在相似度计算上的优势。

根据以上相似度计算公式循环计算任意两个节点之间的相似度，设置阈值去掉两个节点之间相似度较低的边连接，构建出节点连接图，然后迭代计算每个节点的TextRank值，排序后选出TextRank值最高的几个节点对应的句子作为关键句。

1.3 textrank4zh模块源码解读

textrank4zh模块是针对中文文本的TextRank算法的python算法实现，该模块的下载地址为：点击打开链接

对其源码解读如下：

util.py：textrank4zh模块的工具包，TextRank算法的核心思想在该文件中实现。

# -*- encoding:utf-8 -*-
"""
@author:   letian
@homepage: http://www.letiantian.me
@github:   https://github.com/someus/
"""
from __future__ import (absolute_import, division, print_function,
						unicode_literals)

import os
import math
import networkx as nx
import numpy as np
import sys

try:
	reload(sys)
	sys.setdefaultencoding('utf-8')
except:
	pass

sentence_delimiters = ['?', '!', ';', '？', '！', '。', '；', '……', '…', '\n']
allow_speech_tags = ['an', 'i', 'j', 'l', 'n', 'nr', 'nrfg', 'ns', 'nt', 'nz', 't', 'v', 'vd', 'vn', 'eng']

PY2 = sys.version_info[0] == 2
if not PY2:
	# Python 3.x and up
	text_type = str
	string_types = (str,)
	xrange = range


	def as_text(v):  ## 生成unicode字符串
		if v is None:
			return None
		elif isinstance(v, bytes):
			return v.decode('utf-8', errors='ignore')
		elif isinstance(v, str):
			return v
		else:
			raise ValueError('Unknown type %r' % type(v))


	def is_text(v):
		return isinstance(v, text_type)

else:
	# Python 2.x
	text_type = unicode
	string_types = (str, unicode)
	xrange = xrange


	def as_text(v):
		if v is None:
			return None
		elif isinstance(v, unicode):
			return v
		elif isinstance(v, str):
			return v.decode('utf-8', errors='ignore')
		else:
			raise ValueError('Invalid type %r' % type(v))


	def is_text(v):
		return isinstance(v, text_type)

__DEBUG = None


def debug(*args):
	global __DEBUG
	if __DEBUG is None:
		try:
			if os.environ['DEBUG'] == '1':
				__DEBUG = True
			else:
				__DEBUG = False
		except:
			__DEBUG = False
	if __DEBUG:
		print(' '.join([str(arg) for arg in args]))


class AttrDict(dict):
	"""Dict that can get attribute by dot"""

	def __init__(self, *args, **kwargs):
		super(AttrDict, self).__init__(*args, **kwargs)
		self.__dict__ = self


def combine(word_list, window=2):
	"""构造在window下的单词组合，用来构造单词之间的边。

	Keyword arguments:
	word_list  --  list of str, 由单词组成的列表。
	windows    --  int, 窗口大小。
	"""
	if window < 2: window = 2
	for x in xrange(1, window):
		if x >= len(word_list):
			break
		word_list2 = word_list[x:]
		res = zip(word_list, word_list2)
		for r in res:
			yield r


def get_similarity(word_list1, word_list2):
	"""默认的用于计算两个句子相似度的函数。

	Keyword arguments:
	word_list1, word_list2  --  分别代表两个句子，都是由单词组成的列表
	"""
	words = list(set(word_list1 + word_list2))
	vector1 = [float(word_list1.count(word)) for word in words]
	vector2 = [float(word_list2.count(word)) for word in words]

	vector3 = [vector1[x] * vector2[x] for x in xrange(len(vector1))]
	vector4 = [1 for num in vector3 if num > 0.]
	co_occur_num = sum(vector4)

	if abs(co_occur_num) <= 1e-12:
		return 0.

	denominator = math.log(float(len(word_list1))) + math.log(float(len(word_list2)))  # 分母

	if abs(denominator) < 1e-12:
		return 0.

	return co_occur_num / denominator


def sort_words(vertex_source, edge_source, window=2, pagerank_config={'alpha': 0.85, }):
	"""将单词按关键程度从大到小排序

	Keyword arguments:
	vertex_source   --  二维列表，子列表代表句子，子列表的元素是单词，这些单词用来构造pagerank中的节点
	edge_source     --  二维列表，子列表代表句子，子列表的元素是单词，根据单词位置关系构造pagerank中的边
	window          --  一个句子中相邻的window个单词，两两之间认为有边
	pagerank_config --  pagerank的设置
	"""
	sorted_words = []
	word_index = {}
	index_word = {}
	_vertex_source = vertex_source
	_edge_source = edge_source
	words_number = 0
	for word_list in _vertex_source:
		for word in word_list:
			if not word in word_index:
				word_index[word] = words_number
				index_word[words_number] = word
				words_number += 1

	graph = np.zeros((words_number, words_number))

	for word_list in _edge_source:
		for w1, w2 in combine(word_list, window):
			if w1 in word_index and w2 in word_index:
				index1 = word_index[w1]
				index2 = word_index[w2]
				graph[index1][index2] = 1.0
				graph[index2][index1] = 1.0

	debug('graph:\n', graph)

	nx_graph = nx.from_numpy_matrix(graph)
	scores = nx.pagerank(nx_graph, **pagerank_config)  # this is a dict
	sorted_scores = sorted(scores.items(), key=lambda item: item[1], reverse=True)
	for index, score in sorted_scores:
		item = AttrDict(word=index_word[index], weight=score)
		sorted_words.append(item)

	return sorted_words


def sort_sentences(sentences, words, sim_func=get_similarity, pagerank_config={'alpha': 0.85, }):
	"""将句子按照关键程度从大到小排序

	Keyword arguments:
	sentences         --  列表，元素是句子
	words             --  二维列表，子列表和sentences中的句子对应，子列表由单词组成
	sim_func          --  计算两个句子的相似性，参数是两个由单词组成的列表
	pagerank_config   --  pagerank的设置
	"""
	sorted_sentences = []
	_source = words
	sentences_num = len(_source)
	graph = np.zeros((sentences_num, sentences_num))

	for x in xrange(sentences_num):
		for y in xrange(x, sentences_num):
			similarity = sim_func(_source[x], _source[y])
			graph[x, y] = similarity
			graph[y, x] = similarity

	nx_graph = nx.from_numpy_matrix(graph)
	scores = nx.pagerank(nx_graph, **pagerank_config)  # this is a dict
	sorted_scores = sorted(scores.items(), key=lambda item: item[1], reverse=True)

	for index, score in sorted_scores:
		item = AttrDict(index=index, sentence=sentences[index], weight=score)
		sorted_sentences.append(item)

	return sorted_sentences


if __name__ == '__main__':
	pass

Segmentation.py：包含用于分词和分句的类。

# -*-coding:utf-8-*-

# 把新版本的特性引入当前版本
from __future__ import (absolute_import, division, print_function, unicode_literals)
# 导入结巴分词的词性标注组件
import jieba.posseg as pseg
# 导入编码转换模块
import codecs
# 导入操作系统模块
import os
# 导入工具包组件
from textrank4zh import util


# 获取停用词文件的路径
def get_default_stop_words_file():
	# 获取当前脚本所在的路径
	d = os.path.dirname(os.path.realpath(__file__))
	# 返回停用词表所在路径，os.path.join方法用于将多个路径组合后返回
	return os.path.join(d, 'stopwords.txt')


"""分词类"""


class WordSegmentation(object):

	"""初始化函数，获取词性列表和停用词表"""
	def __init__(self, stop_words_file=None, allow_speech_tags=util.allow_speech_tags):
		"""
		:param stop_words_file：保存停用词表的文件路径，使用utf-8编码方式，每行存放一个停用词，若不是str类型，则使用默认的停用词
		:param allow_speech_tags：默认的词性列表，用于过滤某些词性的词
		:return:无
		"""
		# 词性列表
		allow_speech_tags = [util.as_text(item) for item in allow_speech_tags]
		# 将词性列表设置为默认的词性列表
		self.default_speech_tags_filter = allow_speech_tags

		# 使用set方法创建空集合
		self.stop_words = set()
		# 获取停用词文件的路径
		self.stop_words_file = get_default_stop_words_file()
		# 若停用词文件路径不是str类型，则使用默认的停用词
		if type(stop_words_file is str):
			self.stop_words_file = stop_words_file
		# 打开并读取停用词文件，将其中的停用词加入停用词集合
		for word in codecs.open(self.stop_words_file, 'r', 'utf-8', 'ignore'):
			self.stop_words.add(word.strip())

	"""对文本进行分词，返回的分词结果以列表方式存储"""
	def segment(self, text, lower=True, user_stop_words=True, use_speech_tags_filter=False):
		"""
		:param text: 要进行分词的文本
		:param lower: 是否要将单词小写，针对英文
		:param user_stop_words: 若为True，表示使用停用词集合进行过滤，去掉停用词
		:param use_speech_tags_filter:是否基于词性进行过滤，若为True，则使用默认的词性列表进行过滤
		:return:词性过滤后的词列表
		"""
		# 待分词的文本
		text = util.as_text(text)
		# 词性标注结果列表
		jieba_result = pseg.cut(text)

		if use_speech_tags_filter == True:
			# 进行词性过滤后的词性标注结果
			jieba_result = [w for w in jieba_result if w.flag in self.default_speech_tags_filter]
		else:
			# 不进行词性过滤的词性标注结果
			jieba_result = [w for w in jieba_result]

		# 去除特殊符号

		# 去除非语素字和词两端的空格
		# 非语素字只是一个符号，字母x通常用于代表未知数、符号
		word_list = [w.word.strip() for w in jieba_result if w.flag != 'x']
		# 去除空字符
		word_list = [word for word in word_list if len(word) > 0]

		# 是否将英文单词小写
		if lower:
			word_list = [word.lower() for word in word_list]

		# 是否使用停用词集合进行过滤
		if user_stop_words:
			word_list = [word.strip() for word in word_list if word.strip() not in self.stop_words]

		# 返回词性过滤后的词列表
		return word_list

	"""将列表sentences中的每个元素/句子转换为由单词构成的列表"""
	def segment_sentences(self, sentences, lower=True, user_stop_words=True, user_speech_tags_filter=False):
		"""
		:param sentences: 句子列表
		:return: 以词性过滤后的词列表为元素的列表
		"""
		res = []
		for sentence in sentences:
			# 调用segment方法，将词性过滤后的词列表加入到列表中
			res.append(self.segment(text=sentences, lower=lower, user_stop_words=user_stop_words, use_speech_tags_filter=user_speech_tags_filter))
		# 返回以词性过滤后的词列表为元素的列表
		return res


"""分句类"""


class SentenceSegmentation(object):

	"""初始化函数，获取用于分句的分隔符集合"""
	def __init__(self, delimiters=util.sentence_delimiters):
		"""
		:param delimiters: 可迭代对象，用于拆分句子
		"""
		self.delimiters = set([util.as_text(item) for item in delimiters])

	"""将文本划分为句子，返回句子列表"""
	def segment(self, text):
		# 获取文本
		res = [util.as_text(text)]
		# 调试
		util.debug(res)
		util.debug(self.delimiters)

		# 分句，使用了两层循环
		# 遍历分隔符对象
		for sep in self.delimiters:
			# res表示分句结果
			text, res = res, []
			# 遍历文本对象
			for seq in text:
				# 分句操作
				res += seq.split(sep)
		# 去除句子两端空格，并滤除空句
		res = [s.strip() for s in res if len(s.strip() > 0)]
		# 返回句子列表
		return res


"""分割类"""


class Segmentation(object):

	"""初始化函数"""
	def __init__(self, stop_word_file=None, allow_speech_tags=util.allow_speech_tags, delimiters=util.sentence_delimiters):
		"""
		:param stop_word_file: 停用词文件
		:param allow_speech_tags: 词性列表，用于过滤某些词性的词
		:param delimiters: 用于拆分句子的分隔符
		"""
		# 创建分词类的实例
		self.ws = WordSegmentation(stop_word_file=stop_word_file, allow_speech_tags=allow_speech_tags)
		# 创建分句类的实例
		self.ss = SentenceSegmentation(delimiters=delimiters)

	def segment(self, text, lower=False):
		# 获取文本
		text = util.as_text(text)
		# 拆分文本，得到句子列表
		sentences = self.ss.segment(text)
		# 未进行词性过滤后的词列表
		words_no_filter = self.ws.segment_sentences(sentences=sentences, lower=lower, user_stop_words=False, user_speech_tags_filter=False)
		# 去掉停用词后的词列表
		words_no_stop_words = self.ws.segment_sentences(sentences=sentences, lower=lower, user_stop_words=True, user_speech_tags_filter=False)
		# 进行词性过滤并去掉停用词后的词列表
		words_all_filters = self.ws.segment_sentences(sentences=sentences, lower=lower, user_stop_words=True, user_speech_tags_filter=True)
		# 返回以上结果
		return util.AttrDict(sentences=sentences, words_no_filter=words_no_filter, words_no_stop_words=words_no_stop_words, words_all_filters=words_all_filters)


# 主模块
if __name__ == '__main__':
	# 空语句，保持程序结构的完整性
	pass

TextRank4Keyword.py：包含用于提取关键词和关键词组的类。

#-*-coding:utf-8-*-

# 把新版本的特性引入当前版本
from __future__ import (absolute_import, division, print_function, unicode_literals)
# 导入操作复杂网络的模块
import networkx as nx
# 导入数值计算模块
import numpy as np
# 导入工具包组件
from textrank4zh import util
# 导入Segmentation文件
from textrank4zh.Segmentation import Segmentation


class TextRank4Keyword(object):

	"""初始化函数"""
	def __init__(self, stop_words_file=None, allow_speech_tags=util.allow_speech_tags, delimiters=util.sentence_delimiters):
		"""
		:param stop_words_file:str类型，指定停用词文件的路径，若为其他类型，则使用默认的停用词文件
		:param allow_speech_tags:词性列表，用于过滤某些词性的词
		:param delimiters:用于拆分句子的分隔符，默认值为`?!;？！。；…\n`
		"""
		self.text = ''
		self.Keywords = None
		# 创建分割类的实例
		self.seg = Segmentation(stop_words_file=stop_words_file, allow_speech_tags=allow_speech_tags, delimiters=delimiters)
		# 句子列表
		self.sentences = None
		# 对sentences中每个句子分词而得到的两维列表
		self.words_no_filter = None
		# 去掉words_no_filter中的停止词而得到的两维列表
		self.word_no_stop_words = None
		# 保留words_no_stop_words中指定词性的单词而得到的两维列表
		self.words_all_filters = None

	"""分析文本的函数，体现算法思想的部分"""
	def analyze(self, text, window=2, lower=False, vertex_source='all_filters', edge_source='no_stop_words', pagerank_config={'alpha': 0.85,}):
		"""
		:param text: 文本内容
		:param window: 窗口大小，整型，用于构造单词之间的边，去默认值为2
		:param lower: 是否将英文文本转换为小写，默认值为False
		:param vertex_source: 选择使用words_no_filter, words_no_stop_words, words_all_filters中的哪一个来构造pagerank对应的图中的节点。默认值为`'all_filters'`，可选值为`'no_filter', 'no_stop_words', 'all_filters'`。关键词也来自`vertex_source`
		:param edge_source:选择使用words_no_filter, words_no_stop_words, words_all_filters中的哪一个来构造pagerank对应的图中的节点之间的边。默认值为`'no_stop_words'`，可选值为`'no_filter', 'no_stop_words', 'all_filters'`。边的构造要结合`window`参数。
		:param pagerank_config:pagerank算法参数配置，阻尼系数为0.85
		"""
		self.text = text
		self.word_index = {}
		self.index_word = {}
		# 关键词列表
		self.keywords = []
		self.graph = None

		result = self.seg.segment(text=text, lower=lower)
		self.sentences = result.sentences
		self.words_no_filter = result.words_no_filter
		self.word_no_stop_words = result.word_no_stop_words
		self.words_all_filters = result.words_all_filters

		# 调试
		util.debug(20 * '*')
		util.debug('self.sentences in TextRank4Keyword:\n', ' || '.join(self.sentences))
		util.debug('self.words_no_filter in TextRank4Keyword:\n', self.words_no_filter)
		util.debug('self.words_no_stop_words in TextRank4Keyword:\n', self.words_no_stop_words)
		util.debug('self.words_all_filters in TextRank4Keyword:\n', self.words_all_filters)

		# 选项，几种模式
		options = ['no_filter', 'no_stop_words', 'all_filters']
		# 模式选择
		if vertex_source in options:
			_vertex_source = result['words_' +vertex_source]
		else:
			_vertex_source = result['words_all_filters']
		if edge_source in options:
			_edge_source = result['words_' + edge_source]
		else:
			_edge_source = result['words_no_stop_words']

		self.keywords = util.sort_words(_vertex_source, _edge_source, window=window, pagerank_config=pagerank_config)


	"""获取最重要的num个长度大于等于word_min_len的关键词"""
	def get_keywords(self, num=6, word_min_len=1):
		"""
		:param num: 返回的关键词个数
		:param word_min_len: 最小关键词长度
		:return: 关键词列表
		"""
		result = []
		count = 0
		for item in self.keywords:
			if count >= num:
				break
			if len(item.word) >= word_min_len:
				result.append(item)
				count += 1
		return result

	"""获取 keywords_num 个关键词构造的可能出现的短语，要求这个短语在原文本中至少出现的次数为min_occur_num"""
	def get_keyphrases(self, keywords_num=12, min_occur_num=2):
		"""
		:param keywords_num: 返回的关键词短语个数
		:param min_occur_num: 短语在文本中的最小出现次数
		:return: 关键词短语列表
		"""
		# 关键词集合
		keywords_set = set([item.word for item in self.get_keywords(num=keywords_num, word_min_len=1)])
		# 关键词短语集合
		keyphrases = set()
		for sentence in self.words_no_filter:
			one = []
			for word in sentence:
				if word in keywords_set:
					one.append(word)
				else:
					if len(one) > 1:
						# 将关键词组成关键词短语
						keyphrases.add(''.join(one))
					if len(one) == 0:
						continue
					else:
						one = []
			# 兜底
			if len(one) > 1:
				keyphrases.add(''.join(one))
		# 在原文本中至少出现min_occur_num词
		return [phrase for phrase in keyphrases if self.text.count(phrase) >= min_occur_num]

# 主模块
if __name__ == '__main__':
	# 空语句，保持程序结构的完整性
	pass

TextRank4Sentence.py：包含用于提取关键句的类。

# -*- encoding:utf-8 -*-
"""
@author:   letian
@homepage: http://www.letiantian.me
@github:   https://github.com/someus/
"""
from __future__ import (absolute_import, division, print_function,
						unicode_literals)

import networkx as nx
import numpy as np

from . import util
from .Segmentation import Segmentation


class TextRank4Sentence(object):

	def __init__(self, stop_words_file=None,
				 allow_speech_tags=util.allow_speech_tags,
				 delimiters=util.sentence_delimiters):
		"""
		Keyword arguments:
		stop_words_file  --  str，停止词文件路径，若不是str则是使用默认停止词文件
		delimiters       --  默认值是`?!;？！。；…\n`，用来将文本拆分为句子。

		Object Var:
		self.sentences               --  由句子组成的列表。
		self.words_no_filter         --  对sentences中每个句子分词而得到的两级列表。
		self.words_no_stop_words     --  去掉words_no_filter中的停止词而得到的两级列表。
		self.words_all_filters       --  保留words_no_stop_words中指定词性的单词而得到的两级列表。
		"""
		self.seg = Segmentation(stop_words_file=stop_words_file,
								allow_speech_tags=allow_speech_tags,
								delimiters=delimiters)

		self.sentences = None
		self.words_no_filter = None  # 2维列表
		self.words_no_stop_words = None
		self.words_all_filters = None

		self.key_sentences = None

	def analyze(self, text, lower=False,
				source='no_stop_words',
				sim_func=util.get_similarity,
				pagerank_config={'alpha': 0.85, }):
		"""
		Keyword arguments:
		text                 --  文本内容，字符串。
		lower                --  是否将文本转换为小写。默认为False。
		source               --  选择使用words_no_filter, words_no_stop_words, words_all_filters中的哪一个来生成句子之间的相似度。
								 默认值为`'all_filters'`，可选值为`'no_filter', 'no_stop_words', 'all_filters'`。
		sim_func             --  指定计算句子相似度的函数。
		"""

		self.key_sentences = []

		result = self.seg.segment(text=text, lower=lower)
		self.sentences = result.sentences
		self.words_no_filter = result.words_no_filter
		self.words_no_stop_words = result.words_no_stop_words
		self.words_all_filters = result.words_all_filters

		options = ['no_filter', 'no_stop_words', 'all_filters']
		if source in options:
			_source = result['words_' + source]
		else:
			_source = result['words_no_stop_words']

		self.key_sentences = util.sort_sentences(sentences=self.sentences,
												 words=_source,
												 sim_func=sim_func,
												 pagerank_config=pagerank_config)

	def get_key_sentences(self, num=6, sentence_min_len=6):
		"""获取最重要的num个长度大于等于sentence_min_len的句子用来生成摘要。

		Return:
		多个句子组成的列表。
		"""
		result = []
		count = 0
		for item in self.key_sentences:
			if count >= num:
				break
			if len(item['sentence']) >= sentence_min_len:
				result.append(item)
				count += 1
		return result


if __name__ == '__main__':
	pass

2 textrank4zh模块的使用

2.1 textrank4zh模块的安装

这里介绍几种安装Python模块的方法，仅供参考。

    1）python setup.py install --user
    2）sudo python setup.py install
    3）pip install textrank4zh --user
    4）sudo pip install textrank4zh

textrank4zh模块在python2或python3中均可使用，它所依赖的其他模块要求满足：

jieba >= 0.35； numpy >= 1.7.1；networkx >= 1.9.1

2.2 textrank4zh的使用实例

因为操作比较简单，所有直接以代码的形式展示例子，代码在python3环境下亲测可用。

1）提取关键词、关键短语和关键句

#-*-coding:utf-8-*-
"""
@author:taoshouzheng
@time:2018/5/18 8:20
@email:[email protected]
"""
# 导入系统模块
import sys
# imp模块提供了一个可以实现import语句的接口
from imp import reload

# 异常处理
try:
	# reload方法用于对已经加载的模块进行重新加载，一般用于原模块有变化的情况
	reload(sys)
	# 设置系统的默认编码方式，仅本次有效，因为setdefaultencoding函数在被系统调用后即被删除
	sys.setdefaultencoding('utf-8')
except:
	pass

"""
展示textrank4zh模块的主要功能：
提取关键词
提取关键短语（关键词组）
提取摘要（关键句）
"""

# 导入编码转换模块
import codecs
# 从textrank4zh模块中导入提取关键词和生成摘要的类
from textrank4zh import TextRank4Keyword, TextRank4Sentence

# 待读取的文本文件，一则新闻
file = r'C:\Users\Tao Shouzheng\Desktop\01.txt'
# 打开并读取文本文件
text = codecs.open(file, 'r', 'utf-8').read()

# 创建分词类的实例
tr4w = TextRank4Keyword()
# 对文本进行分析，设定窗口大小为2，并将英文单词小写
tr4w.analyze(text=text, lower=True, window=2)

"""输出"""
print('关键词为：')
# 从关键词列表中获取前20个关键词
for item in tr4w.get_keywords(num=20, word_min_len=1):
	# 打印每个关键词的内容及关键词的权重
	print(item.word, item.weight)
print('\n')

print('关键短语为：')
# 从关键短语列表中获取关键短语
for phrase in tr4w.get_keyphrases(keywords_num=20, min_occur_num=2):
	print(phrase)
print('\n')

# 创建分句类的实例
tr4s = TextRank4Sentence()
# 英文单词小写，进行词性过滤并剔除停用词
tr4s.analyze(text=text, lower=True, source='all_filters')

print('摘要为：')
# 抽取3条句子作为摘要
for item in tr4s.get_key_sentences(num=3):
	# 打印句子的索引、权重和内容
	print(item.index, item.weight, item.sentence)

结果如下：

关键词为：
媒体 0.02155864734852778
高圆圆 0.020220281898126486
微 0.01671909730824073
宾客 0.014328439104001788
赵又廷 0.014035488254875914
答谢 0.013759845912857732
谢娜 0.013361244496632448
现身 0.012724133346018603
记者 0.01227742092899235
新人 0.01183128428494362
北京 0.011686712993089671
博 0.011447168887452668
展示 0.010889176260920504
捧场 0.010507502237123278
礼物 0.010447275379792245
张杰 0.009558332870902892
当晚 0.009137982757893915
戴 0.008915271161035208
酒店 0.00883521621207796
外套 0.008822082954131174


关键短语为：
微博


摘要为：
0 0.07097195571711616 中新网北京12月1日电(记者 张曦) 30日晚，高圆圆和赵又廷在京举行答谢宴，诸多明星现身捧场，其中包括张杰(微博)、谢娜(微博)夫妇、何炅(微博)、蔡康永(微博)、徐克、张凯丽、黄轩(微博)等
6 0.05410372364148859 高圆圆身穿粉色外套，看到大批记者在场露出娇羞神色，赵又廷则戴着鸭舌帽，十分淡定，两人快步走进电梯，未接受媒体采访
27 0.04904283129838876 记者了解到，出席高圆圆、赵又廷答谢宴的宾客近百人，其中不少都是女方的高中同学

2）展示textrank4zh模块的三种分词模式的效果

三种分词模式分别为：

words_no_filter模式：简单分词，不剔除停用词，不进行词性过滤

words_no_stop_words模式：剔除停用词

words_all_filters模式（默认）：即剔除停用词，又进行词性过滤

#-*-coding:utf-8-*-
"""
@author:taoshouzheng
@time:2018/5/18 14:52
@email:[email protected]
"""

import codecs
from imp import reload

from textrank4zh import TextRank4Keyword, TextRank4Sentence

import sys
try:
	reload(sys)
	sys.setdefaultencoding('utf-8')
except:
	pass

"""测试3类分词的效果"""

text = '这间酒店位于北京东三环，里面摆放很多雕塑，文艺气息十足。答谢宴于晚上8点开始。'
tr4w = TextRank4Keyword()

tr4w.analyze(text=text, lower=True, window=2)
# 将文本划分为句子列表
print('sentences:')
for s in tr4w.sentences:
	print(s)
print('\n')

# 对句子列表中的句子进行分词，不进行词性过滤
print('words_no_filter:')
# words为词列表，tr4w.words_no_filter为由词列表组成的列表
for words in tr4w.words_no_filter:
	print('/'.join(words))
print('\n')

# 打印去掉停用词的词列表
print('words_no_stop_words:')
for words in tr4w.words_no_stop_words:
	print('/'.join(words))
print('\n')

# 打印去掉停用词并进行词性过滤之后的词列表
print('words_all_filters:')
for words in tr4w.words_all_filters:
	print('/'.join(words))

结果如下：

sentences:
这间酒店位于北京东三环，里面摆放很多雕塑，文艺气息十足
答谢宴于晚上8点开始


words_no_filter:
这/间/酒店/位于/北京/东三环/里面/摆放/很多/雕塑/文艺/气息/十足
答谢/宴于/晚上/8/点/开始


words_no_stop_words:
间/酒店/位于/北京/东三环/里面/摆放/很多/雕塑/文艺/气息/十足
答谢/宴于/晚上/8/点


words_all_filters:
酒店/位于/北京/东三环/摆放/雕塑/文艺/气息
答谢/宴于/晚上

在本文的写作过程中，参考了一些文章或帖子，附上链接如下：

1）python中jieba分词快速入门：点击打开链接

2）jieba（结巴）分词种词性简介：点击打开链接

3）TextRank算法：点击打开链接

4）PageRank算法到 textRank：点击打开链接

5）PageRank排序算法详细介绍：点击打开链接

6）PageRank：点击打开链接

7）PageRank算法--从原理到实现：点击打开链接

8）Textrank算法介绍：点击打开链接

9）关键词提取算法-TextRank：点击打开链接

10）最全中文停用词表整理（1893个）：点击打开链接

11）中文文本提取关键词、关键词组、关键句(textrank4zh使用)--python学习：点击打开链接

12）谷歌背后的数学：点击打开链接

不足之处，敬请指正！

你可能感兴趣的:(Python)

python期末题库和答案,python 期末卷及答案 www55597 人工智能
大家好，给大家分享一下python期末题库和答案，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！6.foriinrange(2,n):ifn%i==0:breakifi==n-1:print('是素数')else:print('不是素数')7.'abcabcabc'.count('abc')的值为__3__。8.对于有else子句的for循环和while循环，但循环因循环条件不成立而自
python的schedule模块 weijiuzhu007 python
这里写自定义目录标题一，schedule模块1.什么是schedule模块2.具体应用二，详细源码一，schedule模块1.什么是schedule模块schedule模块进行job管理，具体可以执行定时任务，schedule方法是串行的，也就是说，如果各个任务之间时间不冲突，那是没问题的；如果时间有冲突的话，会串行的执行命令2.具体应用1，安装方法pipinstallschedule2，使用im
华为OD机试C卷--手机App防沉迷系统（Java & JS & Python & C）飞码创造者华为OD机试题库华为od c语言 java javascript python
获取题库不需要订阅专栏，可直接私信我进入CSDN领军人物top1博主的华为OD交流圈观看完整题库、最新面试实况、考试报告等内容以及大佬一对一答疑。题目描述智能手机方便了我们生活的同时，也侵占了我们不少的时间。“手机App防沉迷系统”能够让我们每天合理地规划手机App使用时间，在正确的时间做正确的事。它的大概原理是这样的：1.在一天24小时内，可以注册每个App的允许使用时段2.一个时间段只能使用一
【Django DRF Apps】从零搭建一个Django SSE app应用患得患失949 Django DRF 封装功能类 django sqlite python SSE app
一、从零开始搭建DjangoSSE应用（一）创建Django项目安装Django首先确保已经安装Django。如果没有安装，可以使用以下命令进行安装：pipinstalldjango创建Django项目创建一个新的Django项目：django-adminstartprojectsse_projectcdsse_project创建Django应用创建一个新的应用来处理SSE：pythonmanag
华为OD机试 - 手机App防沉迷系统（Python/JS/C/C++ 2024 D卷 100分）哪吒华为od python javascript 算法七日集训
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述智能手机方便了我们生活的同时，也侵占了我们不少的时间。“手机Ap
对于编程零基础，第一个语言是 Python 的人有什么建议？ cda2024 python 开发语言
在当今数字化时代，编程已成为一项必备技能。无论你是想成为一名专业的软件开发人员，还是希望在数据分析、人工智能等领域有所建树，掌握一门编程语言都是至关重要的第一步。对于许多初学者来说，Python是一个理想的选择。它不仅语法简洁易懂，而且拥有强大的社区支持和丰富的库资源。那么，对于编程零基础且选择Python作为第一门语言的人，有哪些实用的建议呢？1.建立正确的学习心态1.1持之以恒学习编程并不是一
通达信Python语言接口：如何轻松获取并高效利用？ cda2024 python 开发语言
在量化投资和股票分析领域，Python已经成为不可或缺的工具。然而，如何将Python与国内最流行的股票交易软件之一——通达信相结合，成为许多投资者和开发者关心的问题。本文将详细介绍如何获取通达信的Python语言接口，并提供一些实用的技巧和示例代码，帮助你在量化交易中更上一层楼。什么是通达信Python接口？通达信Python接口是通达信官方提供的一个API，允许用户通过Python脚本调用通达
华为OD机试E卷 - 手机App防沉迷系统（Java & Python& JS & C++ & C ）算法大师最新华为OD机试华为od java python c语言 c++javascript 华为OD机试E卷
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述智能手机方便了我们生活的同时，也侵占了我们不少的时间。“手机App防沉迷系统”能够让我们每天合理地规划手机App使用时间，在正确的时间做正确的事。它的大概原理是这样的：在一天24小时内，可以注册每个App的允许使用时段一个时间段只能使用一个AppApp有优先级，数值越高，优先级越高。注册使用时段时，如果高优先级的App
PyCharm安装PyQt5及工具详细教程 JustLikeRun pycharm qt ide pyqt
PyCharm安装PyQt5及工具详细教程PyCharm是一款功能强大的Python集成开发环境（IDE），而PyQt5是一个用于创建GUI应用程序的流行Python库。在本教程中，我将指导您如何在PyCharm中安装PyQt5及其相关工具，并提供相应的源代码示例。步骤1：安装PyCharm首先，您需要下载并安装PyCharm。您可以从JetBrains官方网站（https://www.jetbr
Python从0到100（七十三）：Python OpenCV-OpenCV实现手势虚拟拖拽是Dream呀 python opencv 开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
华为OD机试E卷 --第k个排列 --24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript c语言 python
文章目录题目描述输入描述输出描述用例题目解析JS算法源码java算法源码python算法源码c算法源码c++算法源码题目描述给定参数n，从1到n会有n个整数:1,2,3,…,n,这n个数字共有nl种排列。按大小顺序升序列出所有排列的情况，并——标记，当n=3时,所有排列如下:“123"“132”“213”“231"“312"“321”给定n和k，返回第k个排列。输入描述输入两行，第一行为n，第二行
期末python试卷（1）泰山小张只吃荷园 python 网络开发语言开源汇编程序人生学习方法
目录一、判断题二、选择题三、填空题一、判断题1.Python是一种解释型、面向对象的编程语言。2.Python中的变量名只能由字母、下划线、数字组成，且不能以数字开头。3.Python中多分支可使用IF-ELIF和SWITCH-CASE语句来实现。4.表达式中包含多个运算符时，计算顺序取决于运算符的结合顺序和优先级。5.x=’Tom’，那么执行语句x+=’Tom’之后，x的id不变。6.Pytho
Python调用另一个py文件并传递参数的全面解析 cda2024 python java 服务器
在Python编程的世界里，模块化和代码复用是提高开发效率的重要手段。当你面对复杂的项目时，将功能拆分成多个文件不仅有助于团队协作，还能提升代码的可读性和可维护性。然而，如何在一个py文件中调用另一个py文件，并且能够传递参数呢？这正是本文要探讨的核心问题。通过本文，你将了解到几种常见的方法及其应用场景，帮助你在实际开发中更加游刃有余。1.使用import语句1.1基本用法最直观的方法就是使用im
使用Python开发SolidWorks API SolidWorksAPI SolidWorks 二次开发 Solidworks API python
使用Python开发SolidWorksAPI介绍本文介绍了如何使用Python与SolidWorksAPI进行交互，创建零件草图、特征及插入文本。我们将通过一个简单的示例，展示如何在SolidWorks中进行自动化操作，利用Python脚本创建一个带有矩形特征的零件，并向草图中插入文本。前提条件安装了SolidWorks和Python。配置了pywin32库来与SolidWorks进行交互。可以
库存python whl文件免费下载（2）科技小游侠 python python
库存pythonwhl文件免费下载（1）库存pythonwhl文件免费下载（2）库存pythonwhl文件免费下载（3）库存pythonwhl文件免费下载（4）库存pythonwhl文件免费下载（5）最近发现收藏的whl下载链接https://www.lfd.uci.edu/~gohlke/pythonlibs/已经走丢了，网上检索了下，还可以下载到历史的whl文件，为了防止下载链接再次失效，索性
Python处理Excel数据王肇朋 excel Excel EXCEL office python Python
Python处理Excel数据2012-08-0210:07:32我来说两句收藏我要投稿前段时间做了个小项目，帮个海洋系的教授做了个数据处理的软件。基本的功能很简单，就是对Excel里面的一些数据进行过滤，统计，对多个表的内容进行合并等。之前没有处理Excel数据的经验，甚至于自己都很少用到Excel。记得《Python核心编程》的最后一章里有讲到用Win32COM操作office，看了一下讲的不
python正则表达式re关于数字、字母、特殊字符、汉字的匹配方式乙龙 python 开发语言
在Python中，正则表达式是通过re模块来实现的。正则表达式是一种强大的文本处理工具，用于匹配、搜索、替换或分割字符串。以下是一些基本的正则表达式模式，用于筛选不同类型的字符：数字(\d):匹配任意数字（0-9）。示例：\d可以匹配“123”中的每个‘1’,‘2’,‘3’。字母([a-zA-Z]):匹配任意大小写的英文字母。示例：[a-zA-Z]可以匹配“HelloWorld”中的每个‘H’,‘
python中的两种循环怎么昵称都被占用啊 python 练习 python
python中的两种循环for循环（计数循环）while循环（条件循环）两种循环的区别range函数跳出循环break示例continue示例循环嵌套循环练习循环，三大语言结构之一，当它满足条件时反复执行某一段代码的过程，在python中有两种循环命令，分别为for循环和while循环for循环（计数循环）python中常用的循环结构之一，可以遍历一个可迭代对象中的元素。因为for循环的循环次数是
《python基于时间序列分析的降雨量预测系统》毕业设计项目陈辰学长 python 课程设计开发语言
大家好，我是陈辰学长，一名在Java圈辛勤劳作的码农。今日要和大家分享的是一款《python基于时间序列分析的降雨量预测系统》毕业设计项目。项目源码以及部署相关事宜，请联系陈辰学长，文末会附上联系信息哦。作者：陈辰学长个人简介：在Java领域已沉浸十余年，对Java、微信小程序、Python、Android等技术颇为精通。若大家在这些领域有任何问题，欢迎一起交流探讨！各类成品Java毕业设计丰富多
dlib库的whl文件下载杭林菲
dlib库的whl文件下载【下载地址】dlib库的whl文件下载dlib库的whl文件下载项目地址:https://gitcode.com/open-source-toolkit/f2aaf资源文件介绍本仓库提供了一个dlib库的whl文件下载，文件名为：dlib-19.7.0-cp36-cp36m-win_amd64.rar。该文件适用于Windows64位系统，Python版本为3.6。文件描
chatgpt赋能python：用Python安装Jupyter：让数据科学变得更加高效！ aijinglingchat ChatGpt python chatgpt jupyter 计算机
用Python安装Jupyter：让数据科学变得更加高效！对于数据科学家而言，jupyter是不可或缺的工具之一。它是一个基于web的交互式计算环境，可以帮助我们在Python中以一种轻松、方便、可交互的方式进行编程和数据分析。今天，我们将向您介绍在Python中如何安装jupyter。安装Python要安装jupyter，首先需要安装Python。如果您已经安装了Python，请跳到下一步。您可
[dlib][python]dlib所有whl文件下载地址汇总 Xiao张不会深度学习 python 开发语言深度学习
dlib库的wheel文件3.7-3.12GitHub-z-mahmud22/Dlib_Windows_Python3.x:Dlibcompiledbinary(.whl)forPython3.7-3.12andWindowsx64这里存储了适用于python3.7-3.12的wheel文件下载wheel文件之后，比如：dlib-19.22.99-cp310-cp310-win_amd64.whl
Python剪辑视频小妙招（moivepy库）对不起，我辜负了你 python
起因最近一直在b站上投稿喜羊羊与灰太狼的视频，但是苦于需要手动裁剪视频的片头和片尾，裁剪的多了就发现喜羊羊与灰太狼的视频片头几乎都是1分25秒结束，也就是持续85秒，片尾也差不多是持续1分02秒差不多也就是62秒，于是开始思考有没有什么方法可以替代人类进行自动化批量裁剪？思路发展迭代与确定一开始是想使用Premier里面的预设来做的，结果发现Premier里面高版本的导出变成了各种网站的标准，相比
Python 实战-优化排班表节省成本奔向理想的星辰大海技术研发 python ios objective-c
1.基础概念：理解排班表排班表，顾名思义，就是安排员工工作时间的表格。在餐馆中，它通常需要考虑员工的可用性、工作时间限制、用餐高峰时段等因素。2.使用列表存储员工信息首先，我们需要一个数据结构来存储员工信息。Python中的列表是一个不错的选择。#员工信息列表，包括姓名、可用时间段employees=[{"name":"张三","available":[(9,17),(20,23)]},{"nam
No module named ‘moviepy.editor‘ weixin_66009678 python
python3.7版本后不支持frommoviepy.editor引用方式，由于是moviepy2.0.0版本修改方法：frommoviepy.editorimportVideoFileClip,clips_array改为frommoviepyimport*
安装python3.12.2环境（实验机器银河麒麟高级服务器） Red丶哞桌面运维 Python linux 运维服务器
1.下载官网Python安装包wgethttps://www.python.org/ftp/python/3.12.2/Python-3.12.2.tar.xz1.1解压tar-xfPython-3.12.2.tar.xz解压完后切换到Python-3.12.2文件夹(这里根据自己解压的文件夹路径)cd/usr/packages/Python-3.12.2/1.2升级软件包管理器CentOS系统：
自己动手写CPU - 6 qq85058522 自己动手写CPU fpga开发
自己动手写CPU_qq85058522的博客-CSDN博客CPU不加功能了，但汇编器可以有。下面写一个把汇编（助记符）翻译成机器码的小工具。Python熟些，就用它了。很简单，就是字符串替换。直接上代码。importsysiflen(sys.argv)!=2:print("usage:pythonassemblerxxx.asm")exit(0)code_path=sys.argv[1]print
如何安装python3.7.4_银河麒麟安装Python3.7.4以及升级自带OpenSSL weixin_39873191 如何安装python3.7.4
银河麒麟安装Python3.7.4以及升级自带OpenSSL升级OpenSSL1.下载opensslwgethttps://www.openssl.org/source/openssl-1.1.1a.tar.gztar-zxvfopenssl-1.1.1a.tar.gzcdopenssl-1.1.1a2.编译安装./config--prefix=/usr/local/opensslno-zlib#
python多进程编程_深入理解python多进程编程 weixin_39620001 python多进程编程
1、python多进程编程背景python中的多进程最大的好处就是充分利用多核cpu的资源，不像python中的多线程，受制于GIL的限制，从而只能进行cpu分配，在python的多进程中，适合于所有的场合，基本上能用多线程的，那么基本上就能用多进程。在进行多进程编程的时候，其实和多线程差不多，在多线程的包threading中，存在一个线程类Thread，在其中有三种方法来创建一个线程，启动线程，
python多进程编程实例_Python多进程编程multiprocessing代码实例 weixin_39791386 python多进程编程实例
在多线程与多进程的比较这一篇中记录了多进程编程的一种方式.下面记录一下多进程编程的别一种方式,即使用multiprocessing编程importmultiprocessingimporttimedefget_html(n):time.sleep(n)print('subprocess%s'%n)returnnif__name__=='__main__':#多进程编程process=multipr
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio