数据分析案例实战：贝叶斯-新闻分类

学习唐宇迪《python数据分析与机器学习实战》视频

一、数据分析

每一条包括:

theme：新闻关键内容

category：新闻种类

URL：链接

content：新闻内容

额，看着很不舒适……

二、数据预处理

（一）读入数据

import pandas as pd
import jieba#结巴分词模块
import numpy
df_news=pd.read_table('./data/val.txt',names=['category','theme','URL','content'],encoding='utf-8')
df_news=df_news.dropna()
print(df_news.shape)
df_news.head()

（二）使用jieba分词器进行分词

content=df_news.content.values.tolist()
#df_news的content列中，用.values拿到该列值，.tolist代表转换成list格式。
print(content[1000])
content_S=[]
#对每条新闻进行分词
for line in content:
    current_segment=jieba.lcut(line)
    if len(current_segment)>1 and current_segment!='\r\n':
        content_S.append(current_segment)
content_S[1000]

输出索引为1000的该条新闻

输出索引为1000的该条新闻分词后的结果

将分词的结果转换成DateFrame表格形式

#将分词结果转换成DataFrame表格，只有content列
df_content=pd.DataFrame({'content_S':content_S})
df_content.head()

（三）停用词处理

pandas.read_csv(...)

·filepath_or_buffer ： str，path对象或类文件对象
·sep ： str，默认'，'分隔符使用。
·index_col ： int，sequence或bool，可选。用作DataFrame的行标签的列。
·names ：类似数组，可选。要使用的列名列表。
·quoting ： int或csv.QUOTE_ *实例，默认为0。当文本文件中带有英文双引号时，直接用pd.read_csv进行读取会导致行数减少，此时应该对read_csv设置参数quoting=3或者quoting=csv.QUOTE_NONE
·encoding ： str，可选。编码以在读/写时使用UTF（例如'utf-8'）。

读入停用词文本

#读入停用词文本
stopwords=pd.read_csv('stopwords.txt',index_col=False,sep='\t',quoting=3,names=['stopwords'],encoding='utf-8')
stopwords.head(20)

去除停用词

#去除停用词
def drop_stopwords(contents,stopwords):
    contents_clean=[]
    all_words=[]
    for line in contents:
        line_clean=[]
        for word in line:
            if word in stopwords:
                continue
            line_clean.append(word)
            all_words.append(str(word))
        contents_clean.append(line_clean)
    return contents_clean,all_words

contents=df_content.content_S.values.tolist()
stopwords=stopwords.stopwords.values.tolist()
contents_clean,all_words=drop_stopwords(contents,stopwords)
df_content=pd.DataFrame({'contents_clean':contents_clean})
df_content.head()
#可以看到一些停用词被去掉了，如果想去掉字母的话，将字母加入停用词文本即可

df_all_words=pd.DataFrame({'all_words':all_words})
print(len(df_all_words))
df_all_words.head()

（四）关键词提取

计算所有词语出现的次数

# groupby 以什么为基本。agg() 可以加函数，字符串，字典或字符串/函数列表
# words_count = df_all_words['all_words'].groupby(by=df_all_words['all_words']).agg({'count': numpy.size})
words_count=df_all_words.groupby(by=['all_words'])['all_words'].agg({'count':numpy.size})
# 重置索引,旧索引将作为列添加,可以使用drop参数来避免将旧索引添加为列
words_count=words_count.reset_index().sort_values(by=['count'],ascending=False)
words_count.head()

制作词云

from wordcloud import WordCloud
import matplotlib.pyplot as plt
%matplotlib inline
import matplotlib
matplotlib.rcParams['figure.figsize'] = (10.0, 5.0)

wordcloud=WordCloud(font_path="./data/simhei.ttf",background_color="white",max_font_size=80)
#字体和颜色
word_frequence = {x[0]:x[1] for x in words_count.head(100).values} #前100个词
wordcloud=wordcloud.fit_words(word_frequence)
plt.imshow(wordcloud)
plt.show()

提取关键词

#使用jieba 和 sklearn都可以进行关键词提取
import jieba.analyse
index=2400
print(df_news['content'][index])
# str.join(sequence)  sequence中用str连接
content_S_str=''.join(content_S[index])
#jieba.analyse.extract_tags 找出关键词。
print(' '.join(jieba.analyse.extract_tags(content_S_str,topK=5,withWeight=False)))

（五）LDA主题模型

from gensim import corpora,models,similarities
import gensim
# 做映射，相当于词袋  输入为ist of list形式
# 单词及其整数id之间的映射。可以理解为python中的字典对象, 
# 其Key是字典中的词，其Val是词对应的唯一数值型ID
dictionary=corpora.Dictionary(contents_clean)
# 将文档转换为词袋（BoW）格式= （token_id，token_count）元组的列表。
# doc2bow（document，allow_update = False，return_missing = False ） 
# 输入为list of str
corpus=[dictionary.doc2bow(sentence) for sentence in contents_clean]
#类似Kmeans自己指定K值
lda = gensim.models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=20) 
#第一类主题，显示频率最高的5个
#print(lda.print_topic(1,topn=5))
#20个分类结果
for topic in lda.print_topics(num_topics=20,num_words=5):
    print(topic[1])

三、用贝叶斯算法进行分类

（一）数据准备

#contents列和category列
df_train=pd.DataFrame({'contents_clean':contents_clean,'label':df_news['category']})
df_train.tail()

#标签种类
df_train.label.unique()

#将标签转换成数值
label_mapping = {"汽车": 1, "财经": 2, "科技": 3, "健康": 4, "体育":5, "教育": 6,"文化": 7,"军事": 8,"娱乐": 9,"时尚": 0}
df_train['label'] = df_train['label'].map(label_mapping)
df_train.head()

（二）划分训练集和测试集

#划分训练集和测试集
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test=train_test_split(df_train['contents_clean'].values,df_train['label'].values,random_state=1)
x_train[0][1]

（三）list文本转换成string格式（训练集）

#将list文本转换成string格式
words=[]
for line_index in range(len(x_train)):
    try:
        words.append(' '.join(x_train[line_index]))
    except:
        print(line_index,word_index)
words[0]

（四）使用CountVectorizer转换成向量形式

#使用CountVectorizer
from sklearn.feature_extraction.text import CountVectorizer

vec = CountVectorizer(analyzer='word', max_features=4000,  lowercase = False)
vec.fit(words)

（五）贝叶斯分类器进行分类

#用于多项式模型的朴素贝叶斯分类器
from sklearn.naive_bayes import MultinomialNB
classifier = MultinomialNB()
classifier.fit(vec.transform(words), y_train)
'''
transform（raw_documents ）
将文档转换为文档术语矩阵,使用符合fit的词汇表或提供给构造函数的词汇表，从原始文本文档中提取令牌计数。
返回为：文档术语矩阵
'''

测试集数据处理

test_words = []
for line_index in range(len(x_test)):
    try:
        #x_train[line_index][word_index] = str(x_train[line_index][word_index])
        test_words.append(' '.join(x_test[line_index]))
    except:
         print (line_index,word_index)
test_words[0]

分类结果准确率

#返回给定测试数据和标签的平均准确度
classifier.score(vec.transform(test_words), y_test)

（六）使用tdidf矢量器转换成向量形式

#使用tdidf矢量器
#TfidfVectorizer：多个词组可以不同組合，词库数量变多
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(analyzer='word', max_features=4000,  lowercase = False)
vectorizer.fit(words)

from sklearn.naive_bayes import MultinomialNB
classifier = MultinomialNB()
classifier.fit(vectorizer.transform(words), y_train)

分类结果

classifier.score(vectorizer.transform(test_words), y_test)

你可能感兴趣的:(数据分析)

数据分析：低代码平台助力大数据时代的飞跃发展快乐非自愿数据分析低代码大数据
随着信息技术的突飞猛进，我们身处于一个数据量空前增长的时代——大数据时代。在这个时代背景下，数据分析已经成为企业决策、政策制定、科学研究等众多领域不可或缺的重要工具。然而，面对海量的数据和日益复杂多变的分析需求，传统的数据分析方法往往捉襟见肘，难以应对。幸运的是，低代码平台的兴起为大数据分析注入了新的活力，成为推动大数据时代发展的重要力量。低代码平台，顾名思义，是一种通过少量甚至无需编写代码，就能
数据挖掘|数据预处理|基于Python的数据标准化方法皖山文武数据挖掘数据建模与分析 python 数据挖掘开发语言
基于Python的数据标准化方法1.z-score方法2.极差标准化方法3.最大绝对值标准化方法在数据分析之前，通常需要先将数据标准化（Standardization），利用标准化后的数据进行数据分析，以避免属性之间不同度量和取值范围差异造成数据对分析结果的影响。1.z-score方法Z-score方法是基于原始数据的均值和标准差来进行数据标准化的，处理后的数据均值为0，方差为1，符合标准正态分布
Ai插件脚本合集安装包，免费教程视频网盘分享全网优惠分享君
随着人工智能技术的不断发展，越来越多的插件脚本涌现出来，为我们的生活和工作带来了便利。然而，如何快速、方便地获取和使用这些插件脚本呢？今天，我将为大家分享一个非常实用的资源——AI插件脚本合集安装包，以及免费教程视频网盘分享。首先，让我们来了解一下这个AI插件脚本合集安装包。它是一个集合了众多AI插件脚本的资源包，涵盖了各种领域，如数据分析、自动化办公、智能客服等等。通过这个安装包，用户可以轻松地
数据管理知识体系指南（第二版）-第五章——数据建模和设计-学习笔记键盘上的五花肉数据治理数据库数据仓库数据治理
目录5.1引言5.1.1业务驱动因素5.1.2目标和原则5.1.3基本概念5.2活动5.2.1规划数据建模5.2.2建立数据模型5.2.3审核数据模型5.2.4维护数据模型5.3工具5.3.1数据建模工具5.3.2数据血缘工具5.3.3数据分析工具5.3.4元数据资料库5.3.5数据模型模式5.3.6行业数据模型5.4方法5.4.1命名约定的最佳实践5.4.2数据库设计中的最佳实践5.5数据建模和
使用Python读取Excel文件并计算平均分嘻嘻爱编码 Python从入门到放弃 python excel 开发语言
在这篇博客中，我们将探讨如何使用Python的pandas库来读取Excel文件，并计算其中数据的平均分。pandas是一个强大的数据分析工具，它允许我们以简单直观的方式处理表格数据。安装必要的库在开始之前，确保你的环境中安装了pandas和openpyxl库。可以使用以下命令进行安装：pipinstallpandasopenpyxl读取Excel文件首先，我们需要读取Excel文件。假设我们有一
RNA-seq数据分析_未完成子诚之组学数据分析数据分析
目录基础分析1.质控（reads）2.比对3.质控（alignment）4.定量5.样本合并差异表达1.质控（cohort）2.差异分析3.可视化（差异）富集分析肿瘤免疫1.免疫组库2.免疫浸润3.免疫响应4.新抗原预测微生物组参考本文主要覆盖了肿瘤样本bulkRNA-seq数据常见的分析步骤，并从实践角度出发，较为具体地介绍了每一步骤依赖的工具和数据集。另外，尽管本文适用于肿瘤样本，但其中的一些
3.Python数据分析—数据分析入门知识图谱&索引(知识体系中篇) 以山河作礼。 Python数据分析项目数据分析知识图谱数据挖掘 python 开发语言
3.Python数据分析—数据分析入门知识图谱&索引-知识体系中篇一·个人简介二·数据获取和处理2.1数据来源：2.2数据清洗：2.2.1缺失值处理：2.2.2异常值处理：2.3数据转换：2.3.1数据类型转换：2.3.2数据编码：2.4数据合并与重塑：2.4.1数据合并：2.4.2数据拼接：2.4.3数据重塑：三·数据探索与分析3.1描述性统计分析3.2数据可视化原则和技巧3.3探索性数据分析（
【Hadoop】使用Scala与Spark连接ClickHouse进行数据处理音乐学家方大刚 Scala Hadoop hadoop scala spark
风不懂不懂得叶的梦月不听不听闻窗里琴声意难穷水不见不曾见绿消红霜不知不知晓将别人怎道珍重落叶有风才敢做一个会飞的梦孤窗有月才敢登高在夜里从容桃花有水才怕身是客身是客此景不能久TieYann(铁阳)、薄彩生《不知晓》在大数据分析和处理领域，ApacheSpark是一个广泛使用的高性能、通用的计算框架，而ClickHouse作为一个高性能的列式数据库，特别适合在线分析处理（OLAP）。结合Scala语
让数据说话：人工智能与六西格玛的完美结合张驰课堂人工智能六西格玛
当人工智能与六西格玛结合，企业可以充分利用人工智能技术的数据处理、预测分析和智能决策支持能力，实现数据驱动的决策、质量控制和流程优化，从而提高企业的效率和竞争力。下面张驰咨询给大家具体的介绍：1、数据驱动决策六西格玛侧重于数据分析和决策制定，而人工智能可以提供更强大的数据处理和分析能力。通过人工智能技术，可以自动收集和整理大量的数据，并进行有效的数据挖掘和模式识别。这些数据分析结果可以为六西格玛项
ELK离线安装和配置流程 GB9125 运维开发 elasticsearch elk linux 运维开发
ELK离线安装和配置流程一、介绍ELK是一个开源的数据分析和可视化工具，由三个开源项目组成：Elasticsearch、Logstash和Kibana。Elasticsearch是一个基于Lucene库的分布式搜索和分析引擎；Logstash是一个用于收集、处理和转换数据的数据管道，它可以从各种来源读取数据，包括日志文件、系统事件、网络流量等；Kibana则是一个数据可视化平台，可以对从Elast
深度分析 | 2024年四川大学信息资源管理考研初试成绩数据分析是希望川大667信息管理导论川大972信息检索信息资源管理复试数据分析 667 972 四川大学考研复试考研成绩
摘要本文深入分析了2024年四川大学信息资源管理考研复试成绩，提供了关于考生成绩分布、各科目成绩表现以及科目成绩与总分之间的相关性的详细见解。分析显示，复试考生的平均总分为380.63分，标准差为12分，反映出成绩分布相对集中且波动适中。特别地，专业课972与总分的相关性最高，达到了0.82，明显影响了考生的总分表现。此外，通过比较高分组和低分组的表现，我们发现专业课成绩是区分高低分考生的关键因素
如何评估一个需求值不值得做？木灵V
如何评估一个需求值不值得做？以下阐述我评估的过程：1、首先，应了解清楚一个需求最基础的问题用户：这个需求要满足的用户是谁？场景：用户是什么情况下提出来的？问题：要解决的核心问题是什么？动机：用户要解决这个问题的目的和动机是什么？原方案：用户原来解决这个问题的方案是怎样的？2、然后，通过调研或数据分析验证需求/问题是否存在然后，如果有条件，我会开展简单的调研，回到用户产生需求的现场，确认一下要满足的
R语言microeco:一个用于微生物群落生态学数据挖掘的R包（构建microeco对象。还是要前进啊 R语言 r语言数据挖掘
我以前写过临床微生物组的文章，其中数据分析用过microeco包，在这里，将我学到的资源分享给大家。R语言microeco:一个用于微生物群落生态学数据挖掘的R包。主要功能R6类;分类群丰度图，维恩图，Alpha多样性，Beta多样性，差异丰度分析，环境数据分析，零模型分析，网络分析，功能分析。install.packages("microeco")library(microeco)library
Pandas教程15：多个DataFrame数据（保存+追加）为Excel表格数据我的Python教程我的Python教程 #Pandas pandas excel Python教程
---------------pandas数据分析集合---------------Python教程71：学习Pandas中一维数组SeriesPython教程74：Pandas中DataFrame数据创建方法及缺失值与重复值处理Pandas数据化分析，DataFrame行列索引数据的选取，增加，修改和删除操作Pandas教程05：DataFrame数据常用属性和方法汇总Pandas教程06：Da
挑战杯大数据商城人流数据分析与可视化 - python 大数据分析 laafeer python
0前言优质竞赛项目系列，今天要分享的是基于大数据的基站数据分析与可视化该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：3分创新点：3分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate课题背景随着当今个人手机终端的普及，出行群体中手机拥有率和使用率已达到相当高的比例，手
Python新手入门教程 | 如何用Python进行数据分析(超详细）田野猫咪 python 数据分析 windows
有小伙伴在学Python新手教程的时候说学Python比较复杂的地方就是资料太多了，比较复杂。很多网上的资料都是从语法教起的，花了很多时间还是云里雾里，摸不清方向。今天就给大家来捋一捋思路！帮助大家提高学习效率！三大板块：两组Python基础术语如何实现爬虫如何做数据分析1.两大Python基础术语A.变量和赋值Python可以直接定义变量名字并进行赋值的，例如我们写出a=4时，Python解释器
让数据在业务间高效流转，镜舟科技与NineData完成产品兼容互认镜舟科技数据库云计算
近日，镜舟科技与NineData完成产品兼容测试。在经过联合测试后，镜舟科技旗下产品与NineData云原生智能数据管理平台完全兼容，整体运行高效稳定。镜舟科技致力于帮助中国企业构建卓越的数据分析系统，打造独具竞争力的“数据护城河”，其基于全球领先的开源项目StarRocks研发了两款企业级软件——镜舟分析型数据库和镜舟湖仓加速引擎，在用户画像分析、指标平台建设、固定报表加速、实时数据查询分析等领
每天一个数据分析题（二百零一）紫色沙数据分析题库数据分析数据挖掘
以下关于线性回归模型的经典假设，描述正确的是（）。A.自变量与因变量必须有线性关系B.正交假定:扰动项与自变量不相关，期望值为0C.扰动项之间相互独立且服从方差相等的同一个正态分布D.多元线性回归中，自变量之间不能有强共线性题目来源于CDA模拟题库点击此处获取答案
11/21 日精进刘磊stely
晚上数据分析会进入年底了为年底做准备检查好每一辆检查出的项目跟客户沟通好避免客户因为没有检查到位大冬天的车辆出现问题造成客户不满意
python从入门到精通（十五）：python爬虫完整学习大纲 HACKNOE python 爬虫学习
一、基础知识爬虫的基本概念和工作原理。HTTP协议和网页结构。Python爬虫开发的基础库，如requests、BeautifulSoup等。常见的反爬虫机制和应对方法。二、爬虫逆向的技术代理服务器和IP封锁突破。用户代理和请求头模拟。JavaScript解析和执行。验证码识别和破解。动态网页抓取和爬虫框架。三、数据抓取和处理数据抓取的技巧和策略。数据清洗和预处理。数据存储和数据库操作。数据分析和
Python入门指南：从基础到应用袁公白 python 开发语言
引言：在这个数据驱动的时代，Python已经成为最受欢迎的编程语言之一。它以其简洁的语法、强大的库支持和广泛的应用领域而闻名。无论你是编程新手还是希望扩展你的技能集，学习Python都是一个明智的选择。在这篇博客中，我们将深入探讨Python的基础知诀，并通过实际代码示例来展示其在数据分析、网络爬虫和机器学习等领域的应用。I.Python基础知识A.数据类型Python提供了多种内置的数据类型，包
ChatGPT GPT4科研应用、数据分析与机器学习、论文高效写作、AI绘图技术夏日恋雨人工智能 chatgpt 数据分析 AI大数据机器学习 python 数据挖掘
原文链接：ChatGPTGPT4科研应用、数据分析与机器学习、论文高效写作、AI绘图技术https://mp.weixin.qq.com/s?__biz=MzUzNTczMDMxMg==&mid=2247596849&idx=3&sn=111d68286f9752008bca95a5ec575bb3&chksm=fa823ad6cdf5b3c0c446eceb5cf29cccc3161d746bd
numpy和matplotlib小例子 Roy Teng numpy matplotlib
最近准备学《Python数据分析与挖掘实战》这本书，刚看到第二章numpy和matplotlib这一部分，发现这个图挺有意思的，就做个笔记记录一下，日后发现有意思的继续更。importnumpyasnpimportmatplotlib.pyplotaspltx=np.linspace(0,10,1000)y=np.sin(x)+1z=np.cos(x**2)+1plt.figure(figsize
MYSQL的读写扩展 hailang86 mysql 数据库
1.分布式数据库有很多种：采用分库分表方式将数据路由拆分到多个数据库上；以greenplum未代表的mpp数据库架构；以tidb为代表的newSQl数据库架构。2.mpp数据架构是一种处理大规模数据分析任务的分布式数据架构，大规模并行处理。当执行一条SQL语句时，会将语句发送到所有数据节点进行查询处理，利用多节点的计算能力进行计算。3.分库分表主要用于简单的业务场景，OLTP场景，onlinetr
计算机设计大赛疫情数据分析与3D可视化 - python 大数据 iuerfee python
文章目录0前言1课题背景2实现效果3设计原理4部分代码5最后0前言优质竞赛项目系列，今天要分享的是大数据全国疫情数据分析与3D可视化该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：2分工作量：3分创新点：4分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1课题背景基于大数据的新
为什么要使用ElasticSearch？ z.jiaminf ElasticSearch elasticsearch 大数据搜索引擎
ElasticSearch是一个开源的分布式搜索和分析引擎，主要适用于以下场景：1.搜索引擎：用于快速检索文档，商品，新闻等。2.日志分析：通过分析日志数据，帮助企业了解其业务的性能情况。3.数据分析：帮助数据科学家和数据分析师进行数据分析，以获取有价值的信息。4.商业智能：帮助企业制定数据驱动的决策，以实现商业上的成功。5.实时监控：帮助企业实时监测系统性能，监控数据变化，以保证系统正常运行。6
Hive SQL 开发指南（三）优化及常见异常大数据_苡~ 003-数据开发 hive Hive优化数据倾斜 Hive常见异常 hive join
在大数据领域，HiveSQL是一种常用的查询语言，用于在Hadoop上进行数据分析和处理。为了确保代码的可读性、维护性和性能，制定一套规范化的HiveSQL开发规范至关重要。本文将介绍HiveSQL的基础知识，并提供一些规范化的开发指南，帮助您高效地编写HiveSQL查询。本系列分为HiveSQL开发指南（一）数据类型及函数HiveSQL开发指南（二）使用（DDL、DML，DQL）HiveSQL开
数据分析Pandas专栏---第十一章＜Pandas数据聚合与分组(1)＞晦涩男董先生数据分析pandas 数据分析 pandas 数据挖掘
前言:数据聚合和分组操作是数据处理过程中不可或缺的一部分。它们允许我们根据特定的条件对数据进行分组，并对每个组进行聚合计算。这对于统计分析、汇总数据以及生成报告和可视化非常有用。无论是市场营销数据分析、销售业绩评估还是金融数据建模，数据聚合和分组操作都起着关键的作用。正文:数据聚合操作定义数据聚合在数据分析中，聚合是指将多个数据元素合并为更高级别的结果表示。数据聚合可以通过对数据集应用统计函数来实
数据分析业务面试题 Lowe-小码数据分析数据挖掘
目录Q1：请简述数据分析的工作流程？Q2：你经常用到的数据分析方法有哪些，举例说明？Q3：公司最近一周的销售额下降了，你如何分析下降原因？Q4：店铺销售额降低如何分析？Q5：若用户留存率下降如何分析？Q6：店铺商品销售情况分布后Q7：如何描述店铺经营状况？
49Kaggle 数据分析项目入门实战--绝地求生游戏最终排名预测 Jachin111
绝地求生介绍相信很多都玩过绝地求生这款游戏，其游戏规则主要是将100名玩家空手被扔到一个岛上，这些玩家必须探索、寻找、消灭其他玩家，直到只剩下一个玩家活着。绝地求生很受欢迎。这款游戏销量目前超过5000万份，是有史以来销量排名前五的游戏，每月有数百万活跃玩家。而我们本次实验的任务就是根据玩家在游戏中的种种表现来预测出其在最终的排名。导入数据并预览首先安装实验需要的statsmodels包。!pip
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他