郭畅小渣渣

TextRank算法的基本原理及textrank4zh使用实例

原地址：https://blog.csdn.net/wotui1842/article/details/80351386

TextRank算法是一种文本排序算法，由谷歌的网页重要性排序算法PageRank算法改进而来，它能够从一个给定的文本中提取出该文本的关键词、关键词组，并使用抽取式的自动文摘方法提取出该文本的关键句。其提出论文是： Mihalcea R, Tarau P. TextRank: Bringing order into texts[C]. Association for Computational Linguistics, 2004. 论文的百度学术下载地址为：点击打开链接。本文将首先介绍TextRank算法的基本原理，然后给出Python中TextRank算法的中文文本实现模块textrank4zh的使用实例。

1 TextRank算法的基本原理

TextRank算法是由网页重要性排序算法PageRank算法迁移而来：PageRank算法根据万维网上页面之间的链接关系计算每个页面的重要性；TextRank算法将词视为“万维网上的节点”，根据词之间的共现关系计算每个词的重要性，并将PageRank中的有向边变为无向边。所以，在介绍TextRank算法之前，先介绍一下PageRank算法。

1.1 PageRank算法的基本概念和原理

PageRank算法的起源要从搜索引擎的发展讲起。早期的搜索引擎普遍采用分类目录方法，即通过人工对网页进行分类，整理出高质量的网站。随着网页的增多，人工分类的方法变得不现实，人们开始尝试使用文本检索的方法，即通过计算用户查询的关键词与网页内容的相关程度来返回搜索结果。这种方法突破了网页数量的限制，但是这种方法的效果并不总是很好，因为某些网站会刻意“操作”某些关键词从而使自己的搜索排名靠前。这一问题在1998年4月的第七届国际万维网大会上得以解决——Larry Page和Sergey Brin提出了PageRank算法。该算法通过计算网页链接的数量和质量来粗略估计网页的重要性，算法创立之初即应用在谷歌的搜索引擎中，对网页进行排名。

PageRank算法的核心思想如下：

如果一个网页被很多其他网页链接到，说明这个网页比较重要，即该网页的PR值（PageRank值）会相对较高；
如果一个PR值很高的网页链接到一个其他网页，那么被链接到的网页的PR值会相应地因此而提高。

以投票机制的观点来看，一个网页的得票数由所有链向它的网页的得票数经过递归算法来得到，有到一个网页的超链接相当于对该网页投了一票。

为了便于理解，考虑以下情境：

1）如上左图，假设一个只由4个网页组成的集合：A、B、C和D，如果网页B、C、D都链向网页A，且网页B、C、D均没有链出，那么网页A的PR值将是网页B、C、D的PR值之和:

2）如上右图，继续假设在上述情境下，网页B有链接链向网页C，网页D有链接链向网页A、B、C，一个网页不能多次投票，所以网页B投给它链向的网页1/2票，网页D投给它链向的网页1/3票，计算此情境下网页A的PR值为：

即，在一个网页为其他网页投票时，根据链出总数平分该网页的PR值，将其作为该网页为其链向网页所投票数，即：

3）再抽象一下，建立一个简化模型，对于任意的网页i，它的PR值可以表示如下：

：网页i的PR值

：网页j的PR值

：所有链接到网页i的网页集合

：网页j的对外链出数

以上讲的是PageRank算法的简单模型，但是简单模型并不适用于只链出自己的网页或几个网页的链出形成一个循环的情况，所以考虑更具普遍性的PageRank算法模型——随机浏览模型。

随机浏览模型的假设是这样的：假定一个网页浏览者从一个随机页面开始浏览，浏览者不断点击当前网页的链接开始下一次浏览。但是，浏览者会逐渐厌倦并开始随机浏览网页。随机浏览的方式更符合用户的真实浏览行为，避免了上述情况的发生，由此产生了随机浏览模型，随机浏览模型中每个网页的PR值通过以下公式计算：

：网页i的PR值

：网页j的PR值

：网页j的对外链出数

：所有链接到网页i的网页集合

：网络中网页的总数

：阻尼系数，即按照超链接进行浏览的概率，一般取经验值为0.85

：浏览者随机跳转到一个新网页的概率

一个网页的PR值是由其他网页的PR值计算得到的。由于PR=A*PR（A为概率转移矩阵）满足马尔科夫链的性质，那么通过迭代可以得到所有网页的PR值。经过重复计算，这些网页的PR值会趋于正常和稳定。

随着研究的深入，目前PageRank算法被广泛应用于众多方面，例如学术论文的重要性排名、学术论文作者的重要性排序、网络爬虫、关键词与关键句的抽取等。

1.2 从PageRank算法到TextRank算法

TextRank算法是由PageRank算法改进而来的，二者的思想有相同之处，区别在于：PageRank算法根据网页之间的链接关系构造网络，而TextRank算法根据词之间的共现关系构造网络；PageRank算法构造的网络中的边是有向无权边，而TextRank算法构造的网络中的边是无向有权边。TextRank算法的核心公式如下，其中用于表示两个节点之间的边连接具有不同的重要程度：

为了便于理解，给出使用TextRank算法提取关键词和关键词组的具体步骤如下：

1）将给定的文本按照整句进行分割，即；

2）对于每个句子，对其进行分词和词性标注，然后剔除停用词，只保留指定词性的词，如名词、动词、形容词等，即，其中为句子i中保留下的词；

3）构建词图，其中V为节点集合，由以上步骤生成的词组成，然后采用共现关系构造任意两个节点之间的边：两个节点之间存在边仅当它们对应的词在长度为K的窗口中共现，K表示窗口大小，即最多共现K个单词，一般K取2；

4）根据上面的公式，迭代计算各节点的权重，直至收敛；

5）对节点的权重进行倒序排序，从中得到最重要的t个单词，作为top-t关键词；

6）对于得到的top-t关键词，在原始文本中进行标记，若它们之间形成了相邻词组，则作为关键词组提取出来。

从给定文本中提取关键句时，将文本中的每个句子分别看作一个节点，如果两个句子有相似性，则认为这两个句子对应的节点之间存在一条无向有权边，衡量句子之间相似性的公式如下：

：两个句子

：句子中的词

分子部分的意思是同时出现在两个句子中的同一个词的数量，分母是对句子中词的个数求对数后求和，这样设计可以遏制较长的句子在相似度计算上的优势。

根据以上相似度计算公式循环计算任意两个节点之间的相似度，设置阈值去掉两个节点之间相似度较低的边连接，构建出节点连接图，然后迭代计算每个节点的TextRank值，排序后选出TextRank值最高的几个节点对应的句子作为关键句。

1.3 textrank4zh模块源码解读

textrank4zh模块是针对中文文本的TextRank算法的python算法实现，该模块的下载地址为：点击打开链接

对其源码解读如下：

util.py：textrank4zh模块的工具包，TextRank算法的核心思想在该文件中实现。

# -*- encoding:utf-8 -*-
"""
@author:   letian
@homepage: http://www.letiantian.me
@github:   https://github.com/someus/
"""
from __future__ import (absolute_import, division, print_function,
						unicode_literals)
 
import os
import math
import networkx as nx
import numpy as np
import sys
 
try:
	reload(sys)
	sys.setdefaultencoding('utf-8')
except:
	pass
 
sentence_delimiters = ['?', '!', ';', '？', '！', '。', '；', '……', '…', '\n']
allow_speech_tags = ['an', 'i', 'j', 'l', 'n', 'nr', 'nrfg', 'ns', 'nt', 'nz', 't', 'v', 'vd', 'vn', 'eng']
 
PY2 = sys.version_info[0] == 2
if not PY2:
	# Python 3.x and up
	text_type = str
	string_types = (str,)
	xrange = range
 
 
	def as_text(v):  ## 生成unicode字符串
		if v is None:
			return None
		elif isinstance(v, bytes):
			return v.decode('utf-8', errors='ignore')
		elif isinstance(v, str):
			return v
		else:
			raise ValueError('Unknown type %r' % type(v))
 
 
	def is_text(v):
		return isinstance(v, text_type)
 
else:
	# Python 2.x
	text_type = unicode
	string_types = (str, unicode)
	xrange = xrange
 
 
	def as_text(v):
		if v is None:
			return None
		elif isinstance(v, unicode):
			return v
		elif isinstance(v, str):
			return v.decode('utf-8', errors='ignore')
		else:
			raise ValueError('Invalid type %r' % type(v))
 
 
	def is_text(v):
		return isinstance(v, text_type)
 
__DEBUG = None
 
 
def debug(*args):
	global __DEBUG
	if __DEBUG is None:
		try:
			if os.environ['DEBUG'] == '1':
				__DEBUG = True
			else:
				__DEBUG = False
		except:
			__DEBUG = False
	if __DEBUG:
		print(' '.join([str(arg) for arg in args]))
 
 
class AttrDict(dict):
	"""Dict that can get attribute by dot"""
 
	def __init__(self, *args, **kwargs):
		super(AttrDict, self).__init__(*args, **kwargs)
		self.__dict__ = self
 
 
def combine(word_list, window=2):
	"""构造在window下的单词组合，用来构造单词之间的边。
	Keyword arguments:
	word_list  --  list of str, 由单词组成的列表。
	windows    --  int, 窗口大小。
	"""
	if window < 2: window = 2
	for x in xrange(1, window):
		if x >= len(word_list):
			break
		word_list2 = word_list[x:]
		res = zip(word_list, word_list2)
		for r in res:
			yield r
 
 
def get_similarity(word_list1, word_list2):
	"""默认的用于计算两个句子相似度的函数。
	Keyword arguments:
	word_list1, word_list2  --  分别代表两个句子，都是由单词组成的列表
	"""
	words = list(set(word_list1 + word_list2))
	vector1 = [float(word_list1.count(word)) for word in words]
	vector2 = [float(word_list2.count(word)) for word in words]
 
	vector3 = [vector1[x] * vector2[x] for x in xrange(len(vector1))]
	vector4 = [1 for num in vector3 if num > 0.]
	co_occur_num = sum(vector4)
 
	if abs(co_occur_num) <= 1e-12:
		return 0.
 
	denominator = math.log(float(len(word_list1))) + math.log(float(len(word_list2)))  # 分母
 
	if abs(denominator) < 1e-12:
		return 0.
 
	return co_occur_num / denominator
 
 
def sort_words(vertex_source, edge_source, window=2, pagerank_config={'alpha': 0.85, }):
	"""将单词按关键程度从大到小排序
	Keyword arguments:
	vertex_source   --  二维列表，子列表代表句子，子列表的元素是单词，这些单词用来构造pagerank中的节点
	edge_source     --  二维列表，子列表代表句子，子列表的元素是单词，根据单词位置关系构造pagerank中的边
	window          --  一个句子中相邻的window个单词，两两之间认为有边
	pagerank_config --  pagerank的设置
	"""
	sorted_words = []
	word_index = {}
	index_word = {}
	_vertex_source = vertex_source
	_edge_source = edge_source
	words_number = 0
	for word_list in _vertex_source:
		for word in word_list:
			if not word in word_index:
				word_index[word] = words_number
				index_word[words_number] = word
				words_number += 1
 
	graph = np.zeros((words_number, words_number))
 
	for word_list in _edge_source:
		for w1, w2 in combine(word_list, window):
			if w1 in word_index and w2 in word_index:
				index1 = word_index[w1]
				index2 = word_index[w2]
				graph[index1][index2] = 1.0
				graph[index2][index1] = 1.0
 
	debug('graph:\n', graph)
 
	nx_graph = nx.from_numpy_matrix(graph)
	scores = nx.pagerank(nx_graph, **pagerank_config)  # this is a dict
	sorted_scores = sorted(scores.items(), key=lambda item: item[1], reverse=True)
	for index, score in sorted_scores:
		item = AttrDict(word=index_word[index], weight=score)
		sorted_words.append(item)
 
	return sorted_words
 
 
def sort_sentences(sentences, words, sim_func=get_similarity, pagerank_config={'alpha': 0.85, }):
	"""将句子按照关键程度从大到小排序
	Keyword arguments:
	sentences         --  列表，元素是句子
	words             --  二维列表，子列表和sentences中的句子对应，子列表由单词组成
	sim_func          --  计算两个句子的相似性，参数是两个由单词组成的列表
	pagerank_config   --  pagerank的设置
	"""
	sorted_sentences = []
	_source = words
	sentences_num = len(_source)
	graph = np.zeros((sentences_num, sentences_num))
 
	for x in xrange(sentences_num):
		for y in xrange(x, sentences_num):
			similarity = sim_func(_source[x], _source[y])
			graph[x, y] = similarity
			graph[y, x] = similarity
 
	nx_graph = nx.from_numpy_matrix(graph)
	scores = nx.pagerank(nx_graph, **pagerank_config)  # this is a dict
	sorted_scores = sorted(scores.items(), key=lambda item: item[1], reverse=True)
 
	for index, score in sorted_scores:
		item = AttrDict(index=index, sentence=sentences[index], weight=score)
		sorted_sentences.append(item)
 
	return sorted_sentences
 
 
if __name__ == '__main__':
	pass

Segmentation.py：包含用于分词和分句的类。

# -*- encoding:utf-8 -*-
"""
@author:   letian
@homepage: http://www.letiantian.me
@github:   https://github.com/someus/
"""
from __future__ import (absolute_import, division, print_function,
						unicode_literals)
 
import os
import math
import networkx as nx
import numpy as np
import sys
 
try:
	reload(sys)
	sys.setdefaultencoding('utf-8')
except:
	pass
 
sentence_delimiters = ['?', '!', ';', '？', '！', '。', '；', '……', '…', '\n']
allow_speech_tags = ['an', 'i', 'j', 'l', 'n', 'nr', 'nrfg', 'ns', 'nt', 'nz', 't', 'v', 'vd', 'vn', 'eng']
 
PY2 = sys.version_info[0] == 2
if not PY2:
	# Python 3.x and up
	text_type = str
	string_types = (str,)
	xrange = range
 
 
	def as_text(v):  ## 生成unicode字符串
		if v is None:
			return None
		elif isinstance(v, bytes):
			return v.decode('utf-8', errors='ignore')
		elif isinstance(v, str):
			return v
		else:
			raise ValueError('Unknown type %r' % type(v))
 
 
	def is_text(v):
		return isinstance(v, text_type)
 
else:
	# Python 2.x
	text_type = unicode
	string_types = (str, unicode)
	xrange = xrange
 
 
	def as_text(v):
		if v is None:
			return None
		elif isinstance(v, unicode):
			return v
		elif isinstance(v, str):
			return v.decode('utf-8', errors='ignore')
		else:
			raise ValueError('Invalid type %r' % type(v))
 
 
	def is_text(v):
		return isinstance(v, text_type)
 
__DEBUG = None
 
 
def debug(*args):
	global __DEBUG
	if __DEBUG is None:
		try:
			if os.environ['DEBUG'] == '1':
				__DEBUG = True
			else:
				__DEBUG = False
		except:
			__DEBUG = False
	if __DEBUG:
		print(' '.join([str(arg) for arg in args]))
 
 
class AttrDict(dict):
	"""Dict that can get attribute by dot"""
 
	def __init__(self, *args, **kwargs):
		super(AttrDict, self).__init__(*args, **kwargs)
		self.__dict__ = self
 
 
def combine(word_list, window=2):
	"""构造在window下的单词组合，用来构造单词之间的边。
	Keyword arguments:
	word_list  --  list of str, 由单词组成的列表。
	windows    --  int, 窗口大小。
	"""
	if window < 2: window = 2
	for x in xrange(1, window):
		if x >= len(word_list):
			break
		word_list2 = word_list[x:]
		res = zip(word_list, word_list2)
		for r in res:
			yield r
 
 
def get_similarity(word_list1, word_list2):
	"""默认的用于计算两个句子相似度的函数。
	Keyword arguments:
	word_list1, word_list2  --  分别代表两个句子，都是由单词组成的列表
	"""
	words = list(set(word_list1 + word_list2))
	vector1 = [float(word_list1.count(word)) for word in words]
	vector2 = [float(word_list2.count(word)) for word in words]
 
	vector3 = [vector1[x] * vector2[x] for x in xrange(len(vector1))]
	vector4 = [1 for num in vector3 if num > 0.]
	co_occur_num = sum(vector4)
 
	if abs(co_occur_num) <= 1e-12:
		return 0.
 
	denominator = math.log(float(len(word_list1))) + math.log(float(len(word_list2)))  # 分母
 
	if abs(denominator) < 1e-12:
		return 0.
 
	return co_occur_num / denominator
 
 
def sort_words(vertex_source, edge_source, window=2, pagerank_config={'alpha': 0.85, }):
	"""将单词按关键程度从大到小排序
	Keyword arguments:
	vertex_source   --  二维列表，子列表代表句子，子列表的元素是单词，这些单词用来构造pagerank中的节点
	edge_source     --  二维列表，子列表代表句子，子列表的元素是单词，根据单词位置关系构造pagerank中的边
	window          --  一个句子中相邻的window个单词，两两之间认为有边
	pagerank_config --  pagerank的设置
	"""
	sorted_words = []
	word_index = {}
	index_word = {}
	_vertex_source = vertex_source
	_edge_source = edge_source
	words_number = 0
	for word_list in _vertex_source:
		for word in word_list:
			if not word in word_index:
				word_index[word] = words_number
				index_word[words_number] = word
				words_number += 1
 
	graph = np.zeros((words_number, words_number))
 
	for word_list in _edge_source:
		for w1, w2 in combine(word_list, window):
			if w1 in word_index and w2 in word_index:
				index1 = word_index[w1]
				index2 = word_index[w2]
				graph[index1][index2] = 1.0
				graph[index2][index1] = 1.0
 
	debug('graph:\n', graph)
 
	nx_graph = nx.from_numpy_matrix(graph)
	scores = nx.pagerank(nx_graph, **pagerank_config)  # this is a dict
	sorted_scores = sorted(scores.items(), key=lambda item: item[1], reverse=True)
	for index, score in sorted_scores:
		item = AttrDict(word=index_word[index], weight=score)
		sorted_words.append(item)
 
	return sorted_words
 
 
def sort_sentences(sentences, words, sim_func=get_similarity, pagerank_config={'alpha': 0.85, }):
	"""将句子按照关键程度从大到小排序
	Keyword arguments:
	sentences         --  列表，元素是句子
	words             --  二维列表，子列表和sentences中的句子对应，子列表由单词组成
	sim_func          --  计算两个句子的相似性，参数是两个由单词组成的列表
	pagerank_config   --  pagerank的设置
	"""
	sorted_sentences = []
	_source = words
	sentences_num = len(_source)
	graph = np.zeros((sentences_num, sentences_num))
 
	for x in xrange(sentences_num):
		for y in xrange(x, sentences_num):
			similarity = sim_func(_source[x], _source[y])
			graph[x, y] = similarity
			graph[y, x] = similarity
 
	nx_graph = nx.from_numpy_matrix(graph)
	scores = nx.pagerank(nx_graph, **pagerank_config)  # this is a dict
	sorted_scores = sorted(scores.items(), key=lambda item: item[1], reverse=True)
 
	for index, score in sorted_scores:
		item = AttrDict(index=index, sentence=sentences[index], weight=score)
		sorted_sentences.append(item)
 
	return sorted_sentences
 
 
if __name__ == '__main__':
	pass

TextRank4Sentence.py：包含用于提取关键句的类。

# -*- encoding:utf-8 -*-

"""

@author: letian

@homepage: http://www.letiantian.me

@github: https://github.com/someus/

"""

from __future__ import (absolute_import, division, print_function,

unicode_literals)


import networkx as nx

import numpy as np


from . import util

from .Segmentation import Segmentation



class TextRank4Sentence(object):


def __init__(self, stop_words_file=None,

allow_speech_tags=util.allow_speech_tags,

delimiters=util.sentence_delimiters):

"""

Keyword arguments:

stop_words_file -- str，停止词文件路径，若不是str则是使用默认停止词文件

delimiters -- 默认值是`?!;？！。；…\n`，用来将文本拆分为句子。


Object Var:

self.sentences -- 由句子组成的列表。

self.words_no_filter -- 对sentences中每个句子分词而得到的两级列表。

self.words_no_stop_words -- 去掉words_no_filter中的停止词而得到的两级列表。

self.words_all_filters -- 保留words_no_stop_words中指定词性的单词而得到的两级列表。

"""

self.seg = Segmentation(stop_words_file=stop_words_file,

allow_speech_tags=allow_speech_tags,

delimiters=delimiters)


self.sentences = None

self.words_no_filter = None # 2维列表

self.words_no_stop_words = None

self.words_all_filters = None


self.key_sentences = None


def analyze(self, text, lower=False,

source='no_stop_words',

sim_func=util.get_similarity,

pagerank_config={'alpha': 0.85, }):

"""

Keyword arguments:

text -- 文本内容，字符串。

lower -- 是否将文本转换为小写。默认为False。

source -- 选择使用words_no_filter, words_no_stop_words, words_all_filters中的哪一个来生成句子之间的相似度。

默认值为`'all_filters'`，可选值为`'no_filter', 'no_stop_words', 'all_filters'`。

sim_func -- 指定计算句子相似度的函数。

"""


self.key_sentences = []


result = self.seg.segment(text=text, lower=lower)

self.sentences = result.sentences

self.words_no_filter = result.words_no_filter

self.words_no_stop_words = result.words_no_stop_words

self.words_all_filters = result.words_all_filters


options = ['no_filter', 'no_stop_words', 'all_filters']

if source in options:

_source = result['words_' + source]

else:

_source = result['words_no_stop_words']


self.key_sentences = util.sort_sentences(sentences=self.sentences,

words=_source,

sim_func=sim_func,

pagerank_config=pagerank_config)


def get_key_sentences(self, num=6, sentence_min_len=6):

"""获取最重要的num个长度大于等于sentence_min_len的句子用来生成摘要。


Return:

多个句子组成的列表。

"""

result = []

count = 0

for item in self.key_sentences:

if count >= num:

break

if len(item['sentence']) >= sentence_min_len:

result.append(item)

count += 1

return result



if __name__ == '__main__':

pass

2 textrank4zh模块的使用

2.1 textrank4zh模块的安装

这里介绍几种安装Python模块的方法，仅供参考。

    1）python setup.py install --user
    2）sudo python setup.py install
    3）pip install textrank4zh --user
    4）sudo pip install textrank4zh

textrank4zh模块在python2或python3中均可使用，它所依赖的其他模块要求满足：

jieba >= 0.35； numpy >= 1.7.1；networkx >= 1.9.1

2.2 textrank4zh的使用实例

因为操作比较简单，所有直接以代码的形式展示例子，代码在python3环境下亲测可用。

1）提取关键词、关键短语和关键句


#-*-coding:utf-8-*-

"""

@author:taoshouzheng

@time:2018/5/18 8:20

@email:[email protected]

"""

# 导入系统模块

import sys

# imp模块提供了一个可以实现import语句的接口

from imp import reload


# 异常处理

try:

# reload方法用于对已经加载的模块进行重新加载，一般用于原模块有变化的情况

reload(sys)

# 设置系统的默认编码方式，仅本次有效，因为setdefaultencoding函数在被系统调用后即被删除

sys.setdefaultencoding('utf-8')

except:

pass


"""

展示textrank4zh模块的主要功能：

提取关键词

提取关键短语（关键词组）

提取摘要（关键句）

"""


# 导入编码转换模块

import codecs

# 从textrank4zh模块中导入提取关键词和生成摘要的类

from textrank4zh import TextRank4Keyword, TextRank4Sentence


# 待读取的文本文件，一则新闻

file = r'C:\Users\Tao Shouzheng\Desktop\01.txt'

# 打开并读取文本文件

text = codecs.open(file, 'r', 'utf-8').read()


# 创建分词类的实例

tr4w = TextRank4Keyword()

# 对文本进行分析，设定窗口大小为2，并将英文单词小写

tr4w.analyze(text=text, lower=True, window=2)


"""输出"""

print('关键词为：')

# 从关键词列表中获取前20个关键词

for item in tr4w.get_keywords(num=20, word_min_len=1):

# 打印每个关键词的内容及关键词的权重

print(item.word, item.weight)

print('\n')


print('关键短语为：')

# 从关键短语列表中获取关键短语

for phrase in tr4w.get_keyphrases(keywords_num=20, min_occur_num=2):

print(phrase)

print('\n')


# 创建分句类的实例

tr4s = TextRank4Sentence()

# 英文单词小写，进行词性过滤并剔除停用词

tr4s.analyze(text=text, lower=True, source='all_filters')


print('摘要为：')

# 抽取3条句子作为摘要

for item in tr4s.get_key_sentences(num=3):

# 打印句子的索引、权重和内容

print(item.index, item.weight, item.sentence)

结果如下：

关键词为：
媒体 0.02155864734852778
高圆圆 0.020220281898126486
微 0.01671909730824073
宾客 0.014328439104001788
赵又廷 0.014035488254875914
答谢 0.013759845912857732
谢娜 0.013361244496632448
现身 0.012724133346018603
记者 0.01227742092899235
新人 0.01183128428494362
北京 0.011686712993089671
博 0.011447168887452668
展示 0.010889176260920504
捧场 0.010507502237123278
礼物 0.010447275379792245
张杰 0.009558332870902892
当晚 0.009137982757893915
戴 0.008915271161035208
酒店 0.00883521621207796
外套 0.008822082954131174
 
 
关键短语为：
微博
 
 
摘要为：
0 0.07097195571711616 中新网北京12月1日电(记者 张曦) 30日晚，高圆圆和赵又廷在京举行答谢宴，诸多明星现身捧场，其中包括张杰(微博)、谢娜(微博)夫妇、何炅(微博)、蔡康永(微博)、徐克、张凯丽、黄轩(微博)等
6 0.05410372364148859 高圆圆身穿粉色外套，看到大批记者在场露出娇羞神色，赵又廷则戴着鸭舌帽，十分淡定，两人快步走进电梯，未接受媒体采访
27 0.04904283129838876 记者了解到，出席高圆圆、赵又廷答谢宴的宾客近百人，其中不少都是女方的高中同学

2）展示textrank4zh模块的三种分词模式的效果

三种分词模式分别为：

words_no_filter模式：简单分词，不剔除停用词，不进行词性过滤

words_no_stop_words模式：剔除停用词

words_all_filters模式（默认）：即剔除停用词，又进行词性过滤

#-*-coding:utf-8-*-
"""
@author:taoshouzheng
@time:2018/5/18 14:52
@email:[email protected]
"""
 
import codecs
from imp import reload
 
from textrank4zh import TextRank4Keyword, TextRank4Sentence
 
import sys
try:
	reload(sys)
	sys.setdefaultencoding('utf-8')
except:
	pass
 
"""测试3类分词的效果"""
 
text = '这间酒店位于北京东三环，里面摆放很多雕塑，文艺气息十足。答谢宴于晚上8点开始。'
tr4w = TextRank4Keyword()
 
tr4w.analyze(text=text, lower=True, window=2)
# 将文本划分为句子列表
print('sentences:')
for s in tr4w.sentences:
	print(s)
print('\n')
 
# 对句子列表中的句子进行分词，不进行词性过滤
print('words_no_filter:')
# words为词列表，tr4w.words_no_filter为由词列表组成的列表
for words in tr4w.words_no_filter:
	print('/'.join(words))
print('\n')
 
# 打印去掉停用词的词列表
print('words_no_stop_words:')
for words in tr4w.words_no_stop_words:
	print('/'.join(words))
print('\n')
 
# 打印去掉停用词并进行词性过滤之后的词列表
print('words_all_filters:')
for words in tr4w.words_all_filters:
	print('/'.join(words))

结果如下：

sentences:
这间酒店位于北京东三环，里面摆放很多雕塑，文艺气息十足
答谢宴于晚上8点开始
 
 
words_no_filter:
这/间/酒店/位于/北京/东三环/里面/摆放/很多/雕塑/文艺/气息/十足
答谢/宴于/晚上/8/点/开始
 
 
words_no_stop_words:
间/酒店/位于/北京/东三环/里面/摆放/很多/雕塑/文艺/气息/十足
答谢/宴于/晚上/8/点
 
 
words_all_filters:
酒店/位于/北京/东三环/摆放/雕塑/文艺/气息
答谢/宴于/晚上

在本文的写作过程中，参考了一些文章或帖子，附上链接如下：

1）python中jieba分词快速入门：点击打开链接

2）jieba（结巴）分词种词性简介：点击打开链接

3）TextRank算法：点击打开链接

4）PageRank算法到 textRank：点击打开链接

5）PageRank排序算法详细介绍：点击打开链接

6）PageRank：点击打开链接

7）PageRank算法--从原理到实现：点击打开链接

8）Textrank算法介绍：点击打开链接

9）关键词提取算法-TextRank：点击打开链接

10）最全中文停用词表整理（1893个）：点击打开链接

11）中文文本提取关键词、关键词组、关键句(textrank4zh使用)--python学习：点击打开链接

12）谷歌背后的数学：点击打开链接

你可能感兴趣的:(本科混乱摸鱼学习经历,TextRank,NLP,Python,算法)

python 数据可视化matplotib库安装与使用范哥来了信息可视化 python 开发语言
要使用matplotlib库进行数据可视化，首先你需要确保已经安装了该库。如果你还没有安装，可以通过Python的包管理器pip来安装它。在你的命令行工具中运行以下命令来安装matplotlib：pipinstallmatplotlib安装完成后，你就可以开始使用matplotlib来创建图表了。下面是一个简单的例子，演示如何使用matplotlib绘制一个基本的折线图。这个例子可以被添加到你当前
python读取配置参数的多种方式 WYRM_GOLD python
使用多个配置文件：根据不同的环境（如开发、测试、生产）使用不同的配置文件。使用环境变量：利用操作系统的环境变量来获取参数。使用命令行参数：根据传入的命令行参数选择配置。使用JSON或YAML文件：配置文件可以使用JSON或YAML格式，支持多种环境的变量。方法1、使用多个配置文件假设有两个配置文件：config_dev.ini和config_prod.ini。config_dev.ini:[DEF
python 数据可视化TVTK库安装与使用范哥来了信息可视化 python 开发语言
TVTK（Traits-basedVisualizationToolKit）是一个基于Python的可视化库，它为VTK（VisualizationToolkit）提供了一个更易于使用的接口。VTK本身是非常强大的可视化工具，但使用起来可能稍微复杂一些，而TVTK通过简化API来提高易用性。下面我将指导您如何安装TVTK以及一个简单的示例来展示其基本用法。安装TVTKTVTK可以通过pip轻松安装
python web开发flask库安装与使用范哥来了 python 前端 flask
要在Python中使用Flask进行Web开发，首先需要安装Flask库。Flask是一个轻量级的Web框架，它使开发者能够快速构建网站或web服务。下面是安装Flask和创建一个简单的Flask应用程序的基本步骤。安装Flask确保您的环境中已经安装了Python（推荐版本3.7或更高）。接着，您可以通过pip来安装Flask。打开命令行工具（如终端或命令提示符），然后执行以下命令：pipins
Pytorch使用手册—扩展 TorchScript 使用自定义 C++ 操作符（专题五十三） AI专题精讲 Pytorch入门到精通 pytorch c++人工智能
提示本教程自PyTorch2.4起已弃用。有关PyTorch自定义操作符的最新指南，请参阅PyTorch自定义操作符。PyTorch1.0版本引入了一种名为TorchScript的新编程模型。TorchScript是Python编程语言的一个子集，可以被TorchScript编译器解析、编译和优化。此外，编译后的TorchScript模型可以选择序列化为磁盘文件格式，随后你可以从纯C++（以及Py
AI 大模型应用数据中心的数据清洗工具 SuperAGI2025 计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
1.背景介绍在人工智能大模型应用的浪潮中，数据清洗作为数据预处理的重要环节，对于提升模型性能和可靠性具有至关重要的作用。数据中心作为人工智能模型的运行环境，面临着海量数据流和多样化的数据类型，如何高效、准确地进行数据清洗，成为应用大模型的关键问题之一。本文将详细介绍AI大模型应用数据中心的数据清洗工具，包括核心概念、算法原理、具体操作步骤、应用场景等，旨在为AI大模型的实际应用提供参考。2.核心概
Pybind11教程：从零开始打造 Python 的 C++ 小帮手 Yc9801 c++开发语言
参考官网文档：https://pybind11.readthedocs.io/en/stable/index.html一、Pybind11是什么？想象你在Python里写了个计算器，但跑得太慢，想用C++提速，又不想完全抛弃Python。Pybind11就像一座桥，把C++的高性能代码“嫁接”到Python里。你可以用Python调用C++函数，就像请了个跑得飞快的帮手来干活。主要功能：绑定函数：
python自定义函数的参数有多种类型_python自定义函数的参数之四种表现形式 weixin_39860755
(1)defa(x,y):printx,y这是最常见的定义方式，调用该函数，a(1,2)则x取1，y取2，形参与实参相对应，如果a(1)或者a(1,2,3)则会报错(2)defa(x,y=3):printx,y提供了默认值，调用该函数，a(1,2)同样还是x取1，y取2，但是如果a(1)，则不会报错了。上面这俩种方式，还可以更换参数位置，比如a(y=4,x=3)用这种形式也是可以的如果是defa(
Python文件操作红虾程序员 Python python
在Python中文件操作是一项基础且重要的功能，它主要包括打开、读写、关闭等操作。1.打开文件使用open()函数来打开文件，其基本语法如下： f=open(file_path,mode,encoding=None)f：是open函数的文件对象，拥有属性和方法。file_path：文件的路径，可以是相对路径或绝对路径。mode：打开文件的模式，常见的模式有：r：以只读模式打开文件，文件指针会放在文
Windows使用Browser Use笔记人工智能ai开发
相关文档：https://docs.browser-use.com/quickstart首先安装UV命令行cmdpowershell-ExecutionPolicyByPass-c"irmhttps://astral.sh/uv/install.ps1|iex"设置环境变量setPath=C:\xx\.local\bin;%Path%查看版本uv-V查看可用和已安装的Python版本uvpytho
gralloc usage flags Damon_X gralloc
下面这些示例主要说明了grallocusageflags在图像处理和多媒体应用中如何影响性能和正确性。让我们逐个详细分析每个问题的根因和修复方案，并深入解析gralloc标志对缓存管理和数据流的影响。✅Example1:长曝光快照耗时异常问题描述症状：长曝光快照（longexposuresnapshot）在某些内存优化后，拍摄时间异常变长。根因：第三方算法在多个快照帧上执行，耗时约1.2秒。Buf
查看 CUDA cudnn 版本查看Navicat GPU版本 FergusJ 备份 python 开发语言
查看显卡型号：lspci|grepVGA（lspci是linux查看硬件信息的命令），屏幕会打印出主机的集显几独显信息python中查看显卡型号fromtensorflow.python.clientimportdevice_libdevice_lib.list_local_devices()
python函数的多种参数使用形式红虾程序员 Python python 开发语言 pycharm
目录1.位置参数（PositionalArguments）2.关键字参数（KeywordArguments）3.默认参数（DefaultArguments）4.可变参数（VariablePositionalArguments）5.关键字可变参数（VariableKeywordArguments）6.特殊用法：传递列表或字典作为参数Python中函数的参数使用形式非常灵活，主要包括以下几种类型：位置
【附JS、Python、C++题解】Leetcode面试150题（7） moz与京 leetcode整理 javascript python c++
一、题目167.两数之和II-输入有序数组给你一个下标从1开始的整数数组numbers，该数组已按非递减顺序排列，请你从数组中找出满足相加之和等于目标数target的两个数。如果设这两个数分别是numbers[index1]和numbers[index2]，则1targetIndex(vectornums,inttarget){intlength=nums.size();if(length<2){
基于知识图谱的个性化智能教学推荐系统(文档+源码) 「已注销」 python 知识图谱人工智能 python pygame pyqt dash
目录摘要Abstract目录第1章绪论1.1研究背景及意义1.2国内外研究现状1.2.1知识图谱1.2.2个性化推荐系统1.3本文研究内容及创新点1.4全文组织结构第2章相关理论与技术概述2.1知识图谱2.1.1知识图谱的介绍与发展2.1.2知识图谱的构建2.3协同过滤推荐算法2.2.1推荐算法概述2.2.2Pearson相关系数2.2.3Spearman相关系数2.4Bert模型和Albert模
量化交易api有哪些类型？如何选择适合自己的量化交易api？股票程序化交易接口量化交易股票API接口 Python股票量化交易区块链量化交易 api类型选择数据获取股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>量化交易API的主要类型量化交易依赖大量数据，数据获取型API就显得尤为重要。这种类型的API能够连接到各种数据源，如股票市场数据、期货数据等。它可以为交易者提供实时价格数据、历史数据等。一些API能从各大证券交易所获取股票的最新成交
暗光增强技术研究进展与产品落地综合分析（2023-2025） AndrewHZ 深度学习新浪潮图像处理算法动态范围计算机视觉深度学习 transformer 暗光增强
一、引言暗光增强技术作为计算机视觉与移动影像领域的核心研究方向之一，近年来在算法创新、硬件适配及产品落地方面取得了显著进展。本文从技术研究与产业应用两个维度，系统梳理近三年（2023-2025）该领域的关键突破，并对比分析主流手机厂商的影像技术优劣势。二、暗光增强技术研究进展1.算法创新：从传统模型到深度学习（1）Retinex理论的深度结合清华与ETH联合提出的Retinexformer（202
JVM垃圾回收器详解高锰酸钾_ jvm 测试工具 java
JVM垃圾回收器详解年轻代与老年代我们知道在分代GC算法中，将我们的堆内存分为了年轻代与老年代，那为什么要将内存分为年轻代和老年代呢？可以通过调整年轻代和老年代的比例来适应不同类型的应用程序，提高内存的利用率和性能.新生代和老年代使用不同的垃圾回收算法，新生代一般选择复制算法，老年代可以选择标记-清除和标记-整理算法，由程序员来选择灵活度较高。分代的设计中允许只回收新生代(minorgc)，如果能
python读取excel数据和提取图片我就是全世界 python excel 开发语言
1.引言1.1日常工作中Excel的使用在现代办公环境中，Excel（电子表格软件）是数据管理和分析的重要工具之一。无论是财务报表、销售数据、项目管理还是日常报告，Excel都扮演着不可或缺的角色。其强大的数据处理能力、灵活的格式设置以及丰富的图表功能，使得Excel成为各行各业专业人士的首选工具。Excel的主要功能包括：数据录入与管理：用户可以轻松输入、编辑和管理大量数据。数据分析：通过内置的
从 0 开始使用 cursor 开发一个移动端跨平台应用程序沐怡旸 react native
1.安装必要的工具和环境在开始之前，确保你的开发环境已经安装了以下工具：a.安装Node.js和npmReactNative依赖Node.js和npm（NodePackageManager）。你可以从Node.js官网下载并安装最新版本。b.安装PythonReactNative的Android开发需要Python。确保你已经安装了Python2.7或Python3.x。c.安装Java环境Rea
自动驾驶AVM环视算法--鱼眼相机的畸变矫正原理和实测（图片和视频测试）金书世界手撸AVM全景代码数码相机
参考：金书世界测试工程和视频：链接：https://pan.baidu.com/s/11GNLuIxcONGCeobp0MbXFQ?pwd=0z6l提取码：0z6l1、平面相机的成像和坐标系如下所示说明1、f（ud，vd）就是以图像中心为原点坐标(和p(x，y)坐标相对，就是坐表原点不同)。2、p（x，y）就是在图像坐标系下的坐标点，坐标点的为图像的左上角点，这个和世界图像的保存数据的坐标一直。3
华为OD机试九日集训第2期 - 按算法分类，由易到难，循序渐进，提升编程能力和解题技巧，从而提高机试通过率哪吒搬砖工逆袭Java架构师华为od 算法九日集训 Java
目录一、适合人群二、本期训练时间三、如何参加四、数据结构与算法大纲五、华为OD九日集训第1期第1天、逻辑分析第2天、队列第3天、双指针第4天栈第5天滑动窗口第6天、二叉树第7天、并查集第8天、矩阵第9天、贪心算法六、国内直接使用满血ChatGPT4o、o1、o3-mini-high、Claude3.7Sonnet、满血DeepSeekR11、纯原版ChatGPT、Claude2、技术支持3、支持所
2020年第十一届蓝桥杯python组省赛 Ruoki~ 蓝桥杯python真题蓝桥杯职场和发展
前言：python最简单的一套题了，适合小白入门练手目录填空题门牌制作寻找2020跑步锻炼蛇形填数排序编程大题成绩统计单词分析数字三角形平面切分装饰珠填空题门牌制作题目：小蓝要为一条街的住户制作门牌号。这条街一共有2020位住户，门牌号从1到2020编号。小蓝制作门牌的方法是先制作0到9这几个数字字符，最后根据需要将字符粘贴到门牌上，例如门牌1017需要依次粘贴字符1、0、1、7，即需要1个字符0
芒格的“思维格栅“：构建全面的投资分析框架 AGI大模型与大数据研究院 DeepSeek ai
芒格的"思维格栅"：构建全面的投资分析框架关键词：芒格、思维格栅、投资分析框架、跨学科思维、投资决策摘要：本文深入探讨了芒格的“思维格栅”理论及其在构建全面投资分析框架中的应用。首先介绍了“思维格栅”理论的背景和重要性，接着阐述了其核心概念与联系，包括跨学科思维的原理和架构。通过详细讲解核心算法原理和具体操作步骤，结合数学模型和公式进行举例说明，帮助读者理解如何运用这一理论进行投资分析。随后通过项
算力技术演进与多场景融合路径智能计算研究中心其他
内容概要算力技术的演进正经历从异构计算到量子计算的范式跃迁。当前技术图谱中，芯片制程突破与架构创新持续推动算力密度提升，如5nm以下先进工艺与存算一体设计显著增强运算单元效率。与此同时，模型压缩、数据预处理等算法优化手段使单位算力产出提高30%以上。典型应用场景中，工业互联网通过自适应计算实现毫秒级实时控制，医疗影像领域借助分布式计算完成TB级数据处理，而智能安防系统依托边缘计算降低端到端时延至5
金融风控算法透明度与可解释性优化智能计算研究中心其他
内容概要金融风控算法的透明化研究面临模型复杂性提升与监管合规要求的双重挑战。随着深度学习框架在特征提取环节的广泛应用，算法可解释性与预测精度之间的平衡成为核心议题。本文从联邦学习架构下的数据协作机制出发，结合特征工程优化与超参数调整技术，系统性分析逻辑回归、随机森林等传统算法在召回率、F1值等关键指标上的表现差异。研究同时探讨数据预处理流程对风控决策鲁棒性的影响，并提出基于注意力机制的特征权重可视
联邦学习算法安全优化与可解释性研究智能计算研究中心其他
内容概要本研究围绕联邦学习算法的安全性优化与模型可解释性增强展开系统性探索。首先，针对联邦学习中数据隐私泄露与模型性能损耗的固有矛盾，提出一种融合差分隐私与动态权重聚合的协同优化框架，通过分层加密机制降低敏感信息暴露风险。其次，引入可解释性算法（如LIME与SHAP）构建透明化决策路径，结合注意力机制实现特征贡献度的可视化映射，有效提升模型在医疗影像异常检测与金融欺诈识别场景中的可信度。此外，研究
算力融合创新与多场景应用生态构建智能计算研究中心其他
内容概要算力作为数字经济的核心驱动力，正经历从单一计算范式向融合架构的跨越式演进。随着异构计算、光子计算等底层技术的突破，算力资源逐步形成跨架构协同、多模态联动的智能供给体系，支撑工业互联网、医疗影像、智能安防等场景实现效率跃升。与此同时，量子计算与神经形态计算的前沿探索，正在重塑科学计算与实时决策的技术边界。建议行业关注算力可扩展性与安全标准的协同设计，通过动态调度算法与分布式架构优化，构建弹性
详解如何通过Python的BeautifulSoup爬虫+NLP标签提取+Dijkstra规划路径和KMeans聚类分析帮助用户规划旅行路线 mosquito_lover1 python beautifulsoup 爬虫 kmeans 自然语言处理
系统模块：数据采集模块（爬虫）：负责从目标网站抓取地点数据（如名称、经纬度、描述等）数据预处理模块（标签算法）：对抓取到的地点数据进行清洗和分类。根据地点特征（如经纬度、描述文本）打上标签（如“适合家庭”、“适合冒险”）。地理数据处理模块（地图API）：使用地图API获取地点的详细信息（如地址、距离、路径等）。计算地点之间的距离或路径。路径规划模块：根据用户输入的起点和终点，规划最优路径。支持多种
C语言的回溯算法苏墨瀚包罗万象 golang 开发语言后端
C语言中的回溯算法引言回溯算法（Backtracking）是一种通过搜索所有可能的候选解，找到符合条件的解的算法。它常用于解决一些组合问题、约束满足问题和优化问题。回溯算法的核心思想是通过尝试并逐步构建解的过程，在发现某个解不能继续时，从当前解的最后一个决策点“回溯”到之前的状态，进行其他可能性的探索。在这篇文章中，我们将探讨回溯算法的基本思想、基本框架及其在C语言中的具体实现，应用实例等。回溯算
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。