BrainEditor

Recipe 5-5. Clustering Documents

Unlocking Text Data with Machine Learning and Deep Learning using Python-Apress (2019)

Document clustering yet again includes similar steps, so let’s have a look at
them:

Tokenization
Stemming and lemmatization
Removing stop words and punctuation
Computing term frequencies or TF-IDF
Clustering: K-means/Hierarchical; we can then use
any of the clustering algorithms to cluster different
documents based on the features we have generated
Evaluation and visualization: Finally, the clustering
results can be visualized by plotting the clusters into
a two-dimensional space

Step 5-1 Import data and libraries
Here are the libraries, then the data:
!pip install mpld3
import numpy as np
import pandas as pd
import nltk
from nltk.stem.snowball import SnowballStemmer
from bs4 import BeautifulSoup
import re
import os
import codecs
from sklearn import feature_extraction
import mpld3
from sklearn.metrics.pairwise import cosine_similarity
import os
import matplotlib.pyplot as plt
import matplotlib as mpl
from sklearn.manifold import MDS

Data = pd.read_csv("/Consumer_Complaints.
csv",encoding=‘latin-1’)
#selecting required columns and rows
Data = Data[[‘consumer_complaint_narrative’]]
Data = Data[pd.notnull(Data[‘consumer_complaint_narrative’])]

lets do the clustering for just 200 documents. Its easier to

interpret.
Data_sample=Data.sample(200)
Step 5-2 Preprocessing and TF-IDF feature engineering
Now we preprocess it:

Remove unwanted symbol

Data_sample[‘consumer_complaint_narrative’] = Data_
sample[‘consumer_complaint_narrative’].str.replace(‘XXXX’,")

Convert dataframe to list

complaints = Data_sample[‘consumer_complaint_narrative’].tolist()

create the rank of documents – we will use it later

ranks = []
for i in range(1, len(complaints)+1):
ranks.append(i)

Stop Words

stopwords = nltk.corpus.stopwords.words(‘english’)

Load ‘stemmer’

stemmer = SnowballStemmer(“english”)

Functions for sentence tokenizer, to remove numeric tokens

and raw #punctuation
def tokenize_and_stem(text):
tokens = [word for sent in nltk.sent_tokenize(text) for
word in nltk.word_tokenize(sent)]
filtered_tokens = []
for token in tokens:
if re.search(’[a-zA-Z]’, token):
filtered_tokens.append(token)
stems = [stemmer.stem(t) for t in filtered_tokens]
return stems
def tokenize_only(text):
tokens = [word.lower() for sent in nltk.sent_tokenize(text)
for word in nltk.word_tokenize(sent)]
filtered_tokens = []
for token in tokens:
if re.search(’[a-zA-Z]’, token):
filtered_tokens.append(token)
return filtered_tokens

from sklearn.feature_extraction.text import TfidfVectorizer

tfidf vectorizer

tfidf_vectorizer = TfidfVectorizer(max_df=0.8, max_features=200000,
min_df=0.2, stop_words=‘english’,
use_idf=True, tokenizer=tokenize_
and_stem, ngram_range=(1,3))

#fit the vectorizer to data
tfidf_matrix = tfidf_vectorizer.fit_transform(complaints)
terms = tfidf_vectorizer.get_feature_names()
print(tfidf_matrix.shape)
(200, 30)
Step 5-3 Clustering using K-means
Let’s start the clustering:

Import Kmeans

from sklearn.cluster import KMeans
#Define number of clusters
num_clusters = 6
#Running clustering algorithm
km = KMeans(n_clusters=num_clusters)
km.fit(tfidf_matrix)
#final clusters
clusters = km.labels_.tolist()
complaints_data = { ‘rank’: ranks, ‘complaints’: complaints,
‘cluster’: clusters }
frame = pd.DataFrame(complaints_data, index = [clusters] ,
columns = [‘rank’, ‘cluster’])
#number of docs per cluster
frame[‘cluster’].value_counts()

0 42
1 37
5 36
3 36
2 27
4 22

quite disappointing， isn’t it?

Step 5-4 Identify cluster behavior

Identify which are the top 5 words that are nearest to the cluster centroid.
totalvocab_stemmed = []
totalvocab_tokenized = []
for i in complaints:
allwords_stemmed = tokenize_and_stem(i)
totalvocab_stemmed.extend(allwords_stemmed)
allwords_tokenized = tokenize_only(i)
totalvocab_tokenized.extend(allwords_tokenized)
vocab_frame = pd.DataFrame({‘words’: totalvocab_tokenized},
index = totalvocab_stemmed)
#sort cluster centers by proximity to centroid
order_centroids = km.cluster_centers_.argsort()[:, ::-1]
for i in range(num_clusters):
print(“Cluster %d words:” % i, end=")
for ind in order_centroids[i, :6]:
print(’ %s’ % vocab_frame.ix[terms[ind].split(’ ‘)].
values.tolist()[0][0].encode(‘utf-8’, ‘ignore’), end=’,’)
print()
Cluster 0 words: b’needs’, b’time’, b’bank’, b’information’, b’told’
Cluster 1 words: b’account’, b’bank’, b’credit’, b’time’, b’months’
Cluster 2 words: b’debt’, b’collection’, b’number’, b’credit’, b"n’t"
Cluster 3 words: b’report’, b’credit’, b’credit’, b’account’,
b’information’
Cluster 4 words: b’loan’, b’payments’, b’pay’, b’months’, b’state’
Cluster 5 words: b’payments’, b’pay’, b’told’, b’did’, b’credit’

Step 5-5 Plot the clusters on a 2D graph
Finally, we plot the clusters:
#Similarity
similarity_distance = 1 - cosine_similarity(tfidf_matrix)

Convert two components as we’re plotting points in a

two- dimensional plane
mds = MDS(n_components=2, dissimilarity=“precomputed”,
random_state=1)
pos = mds.fit_transform(similarity_distance) # shape
(n_components, n_samples)
xs, ys = pos[:, 0], pos[:, 1]
#Set up colors per clusters using a dict
cluster_colors = {0: ‘#1b9e77’, 1: ‘#d95f02’, 2: ‘#7570b3’,
3: ‘#e7298a’, 4: ‘#66a61e’, 5: ‘#D2691E’}
#set up cluster names using a dict
cluster_names = {0: ‘property, based, assist’,
1: ‘business, card’,
2: ‘authorized, approved, believe’,
3: ‘agreement, application,business’,
4: ‘closed, applied, additional’,
5: ‘applied, card’}

Finally plot it

%matplotlib inline
#Create data frame that has the result of the MDS and the cluster
df = pd.DataFrame(dict(x=xs, y=ys, label=clusters))
groups = df.groupby(‘label’)

Set up plot

fig, ax = plt.subplots(figsize=(17, 9)) # set size
for name, group in groups:
ax.plot(group.x, group.y, marker=‘o’, linestyle=", ms=20,
label=cluster_names[name], color=cluster_colors[name],
mec=‘none’)
ax.set_aspect(‘auto’)
ax.tick_params(
axis= ‘x’,
which=‘both’,
bottom=‘off’,
top=‘off’,
labelbottom=‘off’)
ax.tick_params(
axis= ‘y’,
which=‘both’,
left=‘off’,
top=‘off’,
labelleft=‘off’)
ax.legend(numpoints=1)
plt.show()

That’s it. We have clustered 200 complaints into 6 groups using
K-means clustering. It basically clusters similar kinds of complaints to 6
buckets using TF-IDF. We can also use the word embeddings and solve this
to achieve better clusters. 2D graphs provide a good look into the cluster’s
behavior and if we look, we will see that the same color dots (docs) are
located closer to each other.

wordnet to give each cluster a name?

你可能感兴趣的:(Recipe 5-5. Clustering Documents)

聚类分析 | Python密度聚类（DBSCAN）天天酷科研聚类分析算法（CLA）python 聚类机器学习 DBSCAN
密度聚类是一种无需预先指定聚类数量的聚类方法，它依赖于数据点之间的密度关系来自动识别聚类结构。本文中，演示如何使用密度聚类算法，具体是DBSCAN（Density-BasedSpatialClusteringofApplicationswithNoise）来对一个实际的数据集进行聚类分析。一、基本介绍密度聚类的核心思想是将数据点分为高密度区域和低密度区域。高密度区域内的数据点被认为属于同一簇，而低
图计算：基于SparkGrpahX计算聚类系数妙龄少女郭德纲 Spark 图算法 Scala 聚类数据挖掘机器学习
图计算：基于SparkGrpahX计算聚类系数文章目录图计算：基于SparkGrpahX计算聚类系数一、什么是聚类系数二、基于SparkGraphX的聚类系数代码实现总结一、什么是聚类系数聚类系数（ClusteringCoefficient）是图计算和网络分析中的一个重要概念，用于衡量网络中节点的局部聚集程度。它有助于理解网络中节点之间的紧密程度和网络的结构特性。这是一种用来衡量图中节点聚类程度的
Swift - 常用文件目录路径获取（Home目录，文档目录，缓存目录等）小驴拉磨
iOS应用程序只能在自己的目录下进行文件的操作，不可以访问其他的存储空间，此区域被称为沙盒。下面介绍常用的程序文件夹目录：1、Home目录./整个应用程序各文档所在的目录//获取程序的Home目录lethomeDirectory=NSHomeDirectory()2、Documnets目录./Documents用户文档目录，苹果建议将程序中建立的或在程序中浏览到的文件数据保存在该目录下，iTune
ActiveMQ集群、负载均衡、消息回流星星都没我亮 ActiveMQ activemq
文章目录集群配置主备集群SharedFileSystemMasterSlavefailover故障转移协议TransportOptions负载均衡静态网络配置可配置属性URI的几个属性NetworkConnectorProperties动态网络配置消息回流消息副本集群配置官方文档http://activemq.apache.org/clustering主备集群http://activemq.apa
数学建模统计题中常用的聚类分类皆过客，揽星河数学建模大赛数学建模算法 k-means 数据处理 Python numpy
聚类分类K均值聚类（K-MeansClustering）是一种广泛使用的聚类算法，旨在将数据点分成K个簇，使得簇内的数据点尽可能相似，而簇间的数据点差异尽可能大。以下是对K均值聚类的详细介绍：算法原理K均值聚类算法通过迭代的方式优化簇的划分，步骤如下：1.初始化：选择K个初始簇中心（也称为质心）。这些初始簇中心可以通过随机选择K个数据点，或使用更高级的方法（如K均值++初始化）来确定。2.分配阶段
Spark入门：KMeans聚类算法 17111_Chaochao1984a 算法 spark kmeans
聚类（Clustering）是机器学习中一类重要的方法。其主要思想使用样本的不同特征属性，根据某一给定的相似度度量方式（如欧式距离）找到相似的样本，并根据距离将样本划分成不同的组。聚类属于典型的无监督学习（UnsupervisedLearning）方法。与监督学习（如分类器）相比1，无监督学习的训练集没有人为标注的结果。在非监督式学习中，数据并不被特别标识，学习模型是为了推断出数据的一些内在结构。
论文阅读：scHybridBERT dundunmm 论文阅读机器学习人工智能神经网络深度学习单细胞基因测序
ZhangWei,WuChenjun,XingFeiyang,JiangMingfeng,ZhangYixuan,LiuQi,ShiZhuoxing,DaiQi,scHybridBERT:integratinggeneregulationandcellgraphforspatiotemporaldynamicsinsingle-cellclustering,BriefingsinBioinform
CLIQUE算法原理及Python实践 doublexiao79 数据分析与挖掘算法 python 机器学习
CLIQUE（ClusteringInQUEst）算法是一种基于网格的聚类方法，其主要目的是在数据集中发现子空间中基于密度的簇。以下是CLIQUE算法原理的详细解释：一、空间划分CLIQUE算法首先将数据对象的整个嵌入空间划分成多个单元（通常是超矩形）。这是通过将每个维度划分成不重叠的区间来实现的。每个单元代表数据空间中的一个特定区域，其大小由划分的区间决定。这种划分方式使得算法能够高效地处理大规
机器学习第9章-聚类 Rin__________ 机器学习笔记机器学习聚类支持向量机
机器学习第9章-聚类9.1聚类任务在“无监督学习”(unsupervisedlearning)中，训练样本的标记信息是未知的，目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律，为进一步的数据分析提供基础。此类学习任务中研究最多、应用最广的是“聚类”(clustering)。聚类试图将数据集中的样本划分为若干个通常是不相交的子集，每个子集称为一个“簇”(cluster)。通过这样的划分，每
机器学习：DBSCAN算法（内有精彩动图）吃什么芹菜卷机器学习机器学习算法人工智能
目录前言一、DBSCAN算法1.动图展示（图片转载自网络）2.步骤详解3.参数配置二、代码实现1.完整代码2.代码详解1.导入数据2.通过循环确定参数最佳值总结前言DBSCAN（Density-BasedSpatialClusteringofApplicationswithNoise）是一种基于密度的聚类算法。它可以发现任意形状的簇并能够处理噪声数据。一、DBSCAN算法1.动图展示（图片转载自网
PCL LCCP点云分割大鱼BIGFISH c++PCL LCCP点云分割
文章目录一、简介二、实现代码三、实现效果参考资料一、简介与CPC点云分割算法类似，LCCP（LocallyConvexConnectedPatches）也是一种基于超体素的点云分割算法。它结合了几何特征和拓扑关系，用于在三维点云数据中提取具有语义意义的区域或对象。1.超体素生成：首先，点云通过SupervoxelClustering被划分成多个超体素。每个超体素代表一个局部区域，具有类似的颜色、空
跟着Cell学单细胞转录组分析(十二):转录因子分析 KS科研分享与服务
转录因子分析可以了解细胞异质性背后的基因调控网络的异质性。转录因子分析也是单细胞转录组常见的分析内容，R语言分析一般采用的是SCENIC包，具体原理可参考两篇文章。1、《SCENIC:single-cellregulatorynetworkinferenceandclustering》。2、《AscalableSCENICworkflowforsingle-cellgeneregulatoryne
Windows系统命令 Bruce_Liuxiaowei 总结经验笔记 Windows系统命令 windows 系统命令
Windows系统命令Windows系统中的命令行工具是指令式编程语言，可以用来执行各种任务、管理文件和目录、监控系统状态等。下面是一个Windows命令应用实例：1.文件操作cd：用于改变当前目录。例如，cdDocuments将当前目录更改到“Documents”目录。mkdir：用于创建新的目录。例如，mkdirMyFolder将创建一个名为“MyFolder”的新目录。rmdir：用于删除目
Nginx 服务之location及rewrite kid00013 nginx 运维 https
目录1.location和rewrite的区别2.location2.1location分类2.2location匹配规则2.3location优先级2.4示例1.location=/{}2.location/{}3.location/documents/{}4.location/documents/abc{}5.location^~/images/{}6.location~*\.(gif|jpg
PCL CPC点云分割算法大鱼BIGFISH C++PCL CPC点云分割算法
文章目录一、简介二、实现代码三、实现效果参考资料一、简介CPC是PCL库中的一种点云分割算法，主要用于在点云中提取平面（或接近平面的结构）点云。其中，CPC是“ConnectedPlanarComponents”的缩写，它是一种基于连接性和几何特性的方法，用于在点云中分离出多个平面。其计算过程如下所述：1.超体素生成：首先，点云通过SupervoxelClustering被划分成多个超体素。每个超
2022-03-14 毕欣
Part11，从本单元中我学到的最重要的理念（精读和视听说分别总结）精读：父母做的事都是为孩子好，只是可能方法不太恰当视听说：我们要努力克服自己的薄弱科目2，我在本片文章／音频／视频中学到的怦然心动的单词（精读和视听说分别总结）精读：location，address，dumb，fade，typical，clench视听说：trumpet，goldmine，recipe，sticky，intrigu
每天一个数据分析题（五百）- 关联规则跟着紫枫学姐学CDA 数据分析题库数据分析数据挖掘
广为流传的“啤酒与尿布”的故事，其背后的模型实际上是哪一类？A.分类（Classification）B.分群（Clustering）C.关联（Association）D.预测（Prediction）数据分析认证考试介绍：点击进入题目来源于CDA模拟题库点击此处获取答案数据分析专项练习题库内容涵盖Python，SQL，统计学，数据分析理论，深度学习，可视化，机器学习，Spark八个方向的专项练习题库
python-OpenCV常见操作我真的爱发明 python opencv python 深度学习
用OpenCV读取图片importcv2ascvpath='E:/Documents/Desktop/DSC_0001.JPG'img=cv.imread(path)cv.imshow('img',img)cv.waitKey(0)
opencv常用操作 jlhx_NET 机器学习 OPENCV 计算机视觉
1.读图片：img=cv2.imread('D:\\Documents\\vscodedoc\\facenetproject\\timg.jpg',0)1：cv2.IMREAD_COLOR，默认值，读入彩色图片，忽略透明度0：cv2.IMREAD_GRAYSCALE，以灰度模式读取图片-1：cv2.IMREAD_UNCHANGED，读入彩色图片，并保持透明度信息调试过程中如出现：OpenCV(3.
python操作word文件_利用PYTHON操作WORD文档 weixin_39685578 python操作word文件
office2007中不能直接打开VB编辑器，请按Alt+F11打开。importwin32com.client#导入脚本模块WordApp=win32com.client.Dispatch("Word.Application")#载入WORD模块WordApp.Visible=True#显示Word应用程序1、新建Word文档doc=WordApp.Documents.Add()#新建空文件do
node基础APIBuffer(二) violet_syls
global对象__filename：返回当前模块文件的解析后的绝对路径，该属性其实并非全局，而是模块作用域下的注意：__filename：是当前模块下的，不是全局的console.log(__filename);///Users/vlolet/Documents/study/node/module/6.js//不能使用全局变量访问console.log(global.__filename)//u
【网络安全】漏洞挖掘：IDOR实例秋说网络安全 web安全漏洞挖掘
未经许可，不得转载。文章目录正文正文某提交系统，可以选择打印或下载passport。点击Documents>Download后，应用程序将执行HTTPGET请求：/production/api/v1/attachment?id=4550381&enamemId=123888id为文件id，enameID为用户身份id。更改id为4550380，发现能够未授权下载他人passport，因此，遍历即可
【Spring连载】使用Spring Data访问 MongoDB----Template API之保存、更新和删除Documents 85程序员老王 MongoDB spring mongodb 数据库
【Spring连载】使用SpringData访问MongoDB----TemplateAPI之保存、更新和删除Documents一、Insert/Save1.1_id字段在映射层是如何处理的1.2我的Documents保存在哪个集合中?1.3插入或保存单个对象1.4在批中插入多个对象二、Update2.1运行Documents更新的方法2.2Update类中的方法2.3AggregationPip
documents4j：Java文档格式转换开发库 weixin_33694620 java
为什么80%的码农都做不了架构师？>>>http://hao.jobbole.com/documents4j/documents4j：Java文档格式转换开发库documents4j,Java,文档处理工具本资源由伯乐在线-凝枫整理document4j是一个用来进行文档格式转换的Java工具库，它通过借助本机中支持指定文件格式到目标文件格式转换的应用，来实现整个转换的过程。document4j实现
documents4j 实现word转pdf 韶关是我家 Java java
注意：documents4j使用的是本地的软件，linux上无法安装https://blog.csdn.net/weixin_52540274/article/details/121653860
documents4j-word excel ..转pdf格式 GreetWinter pdf java
官网地址:documents4j-Java的文档格式转换器本文中使用的是本地转换器草率的看了一眼文档，说明使用本地转换器需要在本机有mswork、msexcel（此处部署在linux时需要安装）。本文使用的documents4j依赖（若有其他格式的文件需要转换则需要引入其他转换器）com.documents4jdocuments4j-local1.1.1com.documents4jdocumen
java实现Word文件转换成PDF @Ciano Java java 开发语言
使用document4j将Word文档转换成PDF首先当然是导入maven坐标com.documents4jdocuments4j-local1.0.3com.documents4jdocuments4j-api1.0.3com.documents4jdocuments4j-transformer-msoffice-word1.0.3第二步：后台代码@GetMapping("/wordToPdf"
Java 实现 WORD转PDF，用Documents4j 总有刁民想害朕啊 Documents4j word转pdf java
window系统，安装有MSoffice可以使用参考地址：https://stackoverflow.com/a/59624576依赖：com.documents4jdocuments4j-local1.0.3com.documents4jdocuments4j-transformer-msoffice-word1.0.3Java代码：importjava.io.File;importjava.i
Java使用Documents4j实现Word转PDF(知识点+案例) 长路 ㅤ java word pdf
文章目录前言源码获取一、认识Documents4j二、快速集成2.1、pom.xml依赖2.2、word转PDF实现项目目录WordUtils.javaDemo6.java测试效果参考文章资料获取前言博主介绍：✌目前全网粉丝2W+，csdn博客专家、Java领域优质创作者，博客之星、阿里云平台优质作者、专注于Java后端技术领域。涵盖技术内容：Java后端、算法、分布式微服务、中间件、前端、运维、
php命令行运行 & 逻辑运算符 & 多维数组 boy快快长大 PHP php 开发语言
php命令行运行1.命令行的使用2.逻辑运算符3.多维数组1.命令行的使用查看php的版本php-v执行php代码➜~php/Users/fanzhen/Documents/phpStudy/hd.phpbool(false)2.逻辑运算符3.多维数组三维数组取第零个元素第0个元素的第一个数组
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他