李豪呀

探索性数据分析（EDA）基本框架

文章目录

0 写在前面
1 EDA概述
2 读取数据

2.1 大数据读取
2.2 编码
2.3 多文件读取

3 数据探索

3.1 初步探索
3.2 多变量探索
3.3 时间空间上的探索

4 EDA实例

0 写在前面

参考资料：

pandas分批读取大数据集
智慧海洋建设baseline——wbbhcb
Comprehensive data exploration with Python

1 EDA概述

EDA (Exploratory Data Analysis)，也就是对数据进行探索性的分析，从而为之后的数据预处理和特征工程提供必要的结论。
主要的步骤是：

理解问题；
读取数据；
数据预预处理（处理成易于分析的格式）
初步探索；
多变量探索；
数据预处理；
建立假设，并检验。

在分析数据的过程中，还必须要弄清楚的以下数据相关的问题：

数据量是否充分，是否有外部数据可以进行补充；
训练集和测试集的数据分布是否有差异;

2 读取数据

核心方法是使用pandas.read_csv和pandas.read_table等方法读取数据。

有多个文件组成数据则将他们连接，也经常把训练集和测试集合并起来处理，可用pandas.concat等方法，如df = pd.concat([train.assign(is_train=1), test.assign(is_train=0)])。

2.1 大数据读取

分批读取
例如可以用到read_csv里的chunksize参数读取部分数据用于train，如

chunks = pd.read_csv('train.csv',iterator = True)
chunk = chunks.get_chunk(5)

也可以合并各个chunk，如

def get_df(file):
	mylist=[]
	for chunk in pd.read_csv(file,chunksize=1000000):
		mylist.append(chunk)
	temp_df=pd.concat(mylist,axis=0)
	del mylist
	return temp_df

h5
df to hdf

2.2 编码

注意下pandas读取数据时的编码方法要和原始数据对应。

2.3 多文件读取

def get_data(path, get_type=True):
    features = []
    for file in tqdm(os.listdir(path)):
        file_path = os.path.join(path, file)
        df = pd.read_csv(file_path)
        if get_type:
            features.append([df['x'].std(), df['x'].mean(),
                             df['y'].std(), df['y'].mean(),
                             df['速度'].mean(), df['速度'].std(), 
                             df['方向'].mean(), df['方向'].std(),
                             file,
                             df['type'][0]])
        else:
            features.append([df['x'].std(), df['x'].mean(),
                             df['y'].std(), df['y'].mean(),
                             df['速度'].mean(), df['速度'].std(), 
                             df['方向'].mean(), df['方向'].std(),
                             file])
    df = pd.DataFrame(features)
    if get_type:
        df = df.rename(columns={len(features[0])-1:'label'})
        df = df.rename(columns={len(features[0])-2:'filename'})
        label_dict = {'拖网':0, '刺网':1, '围网':2}
        df['label'] = df['label'].map(label_dict)
    else:
        df = df.rename(columns={len(features[0])-1:'filename'})
    

    return df
df_train = get_data(trn_path)
df_test = get_data(test_path, False)

3 数据探索

3.1 初步探索

完成以下几点任务：

记录现有数据集的shape
记录各个变量的type
了解各个变量简单的统计信息
熟悉各个变量的取值
各个变量的数据质量分析（缺失值、重复值、异常值、歧义值）
如果是分类问题还需要分析下正负样本比例（样本不平衡问题）

df.info()
df.columns：显示所有的变量名
df.shape：shape
df.head()：给前几个样本
df.tail()：给后几个样本
df.sample(10)：随机给几个样本
df.describe()：连续变量的一些描述信息，如基本统计量、分布等。
df.describe(include=['O'])：分类变量的一些描述信息。
df.describe(include='all')：全部变量的一些描述信息。
Y_train.value_counts()：观察取值数量

3.2 多变量探索

# 列表汇总
train_df[['Pclass', 'Survived']].groupby(['Pclass'], as_index=False).mean().sort_values(by='Survived', ascending=False)

# 对比，直方图
g = sns.FacetGrid(train_df, col='Survived')
g.map(plt.hist, 'Age', bins=20)

# 散点图
var = 'GrLivArea'
data = pd.concat([df_train['SalePrice'], df_train[var]], axis=1)
data.plot.scatter(x=var, y='SalePrice', ylim=(0,800000));

# 分类变量，箱图
var = 'OverallQual'
data = pd.concat([df_train['SalePrice'], df_train[var]], axis=1)
f, ax = plt.subplots(figsize=(8, 6))
fig = sns.boxplot(x=var, y="SalePrice", data=data)
fig.axis(ymin=0, ymax=800000);

# 相关分析，热度图heatmaps1
corrmat = df_train.corr()
f, ax = plt.subplots(figsize=(12, 9))
sns.heatmap(corrmat, vmax=.8, square=True);
# 选出和目标变量最相关的k个变量
k = 10 #number of variables for heatmap
cols = corrmat.nlargest(k, 'SalePrice')['SalePrice'].index
cm = np.corrcoef(df_train[cols].values.T)

3.3 时间空间上的探索

4 EDA实例

跨境电商智能算法大赛-数据探索与可视化

你可能感兴趣的:(机器学习和数据挖掘)

特征缩放：统一量纲，提高模型性能 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
特征缩放：统一量纲，提高模型性能1.背景介绍在机器学习和数据挖掘领域，我们经常会遇到不同特征之间量纲差异很大的情况。比如，一个数据集中可能包含年龄（0-100）、收入（0-100000）、身高（150-200cm）等不同尺度的特征。这种量纲不统一会给许多机器学习算法（如梯度下降）带来问题，导致收敛速度慢、模型性能差等。特征缩放（FeatureScaling）就是一种用于解决这个问题的常用数据预处理
【数据挖掘】ARFF格式与数据收集布鲁惠比寿数据挖掘数据挖掘人工智能
【数据挖掘】ARFF格式与数据收集三级目录1.ARFF格式与数据收集2.稀疏数据3.属性类型4.缺失值与不正确的值5.了解数据6.知识表达7.聚类机器学习算法训练数据挖掘分析数据共享与交换三级目录1.ARFF格式与数据收集ARFF（Attribute-RelationFileFormat）是一种用于存储数据集的文本文件格式，常用于机器学习和数据挖掘领域。它可以表示结构化数据，包括属性定义、关系信息
Python：第三方库衍生星球 python 第三方库
1.第三方Python库库名用途pip安装指令NumPy矩阵运算pipinstallnumpyMatplotlib产品级2D图形绘制pipinstallmatplotlibPIL图像处理pipinstallpillowsklearn机器学习和数据挖掘pipinstallsklearnRequestsHTTP协议访问pipinstallrequestsJieba中文分词pipinstalljieba
机器学习里的逻辑回归Logistic Regression基本原理与应用硅基创想家 AI-人工智能与大模型机器学习逻辑回归人工智能
LogisticRegression即逻辑回归，是一种广泛应用于机器学习和数据挖掘领域的有监督学习算法，以下从原理、应用、算法优缺点等方面进行介绍：基本原理线性回归基础：逻辑回归基于线性回归模型，其基本形式为：z=w1x1+w2x2+⋯+wnxn+bz=w_1x_1+w_2x_2+\cdots+w_nx_n+bz=w1x1+w2x2+⋯+wnxn+b其中xix_ixi是特征变量，wiw_iwi是对
Python环境下基于深度判别迁移学习网络的轴承故障诊断哥廷根数学学派故障诊断信号处理深度学习 python 迁移学习开发语言
目前很多机器学习和数据挖掘算法都是基于训练数据和测试数据位于同一特征空间、拥有相同数据分布的假设。然而在现实应用中，该假设却未必存在。一方面，如果将利用某一领域数据训练得到的模型直接应用于新的目标领域，领域之间切实存在的数据差异可能会导致模型效果的骤然下降。另一方面，如果直接在新的目标领域中进行模型的训练，其数据的稀缺和标注的不完整可能会导致监督学习出现严重的过拟合问题，难以达到令人满意的学习效果
机器学习系列——（十九）层次聚类飞影铠甲机器学习机器学习聚类人工智能
引言在机器学习和数据挖掘领域，聚类算法是一种重要的无监督学习方法，它试图将数据集中的样本分组，使得同一组内的样本相似度高，不同组间的样本相似度低。层次聚类（HierarchicalClustering）是聚类算法中的一种，以其独特的层次分解方式，在各种应用场景中得到广泛应用，如生物信息学、图像分析、社交网络分析等。一、概述层次聚类算法主要分为两大类：凝聚的层次聚类（AgglomerativeHie
机器学习：朴素贝叶斯笔记 Ningbo_JiaYT 机器学习机器学习笔记分类算法
朴素贝叶斯（NaiveBayes）是一种基于贝叶斯定理的简单概率分类算法，广泛应用于机器学习和数据挖掘中。“朴素”体现在对特征之间的独立性做出了假设，即一个特征或者一个属性的出现不依赖于其他特征的出现。目录基本原理1.贝叶斯定理2.朴素的独立性假设贝叶斯定理1.简介2.贝叶斯公式算法过程1.训练模型2.预测类别类型注意事项基本原理1.贝叶斯定理朴素贝叶斯算法的核心是贝叶斯定理，即对于给定的样本数据
【转】机器学习--- 分类算法详解奔狼的春晓转载机器学习算法数据挖掘
原文链接：http://blog.csdn.net/china1000/article/details/48597469感觉狼厂有些把机器学习和数据挖掘神话了，机器学习、数据挖掘的能力其实是有边界的。机器学习、数据挖掘永远是给大公司的业务锦上添花的东西，它可以帮助公司赚更多的钱，却不能帮助公司在与其他公司的竞争中取得领先优势，所以小公司招聘数据挖掘/机器学习不是为了装逼就是在自寻死路。可是相比JA
DoubleEnsemble：基于样本重加权和特征选择的金融数据分析方法 tzc_fly 论文阅读笔记金融数据分析人工智能
现代机器学习模型（如深度神经网络和梯度提升决策树）由于其提取复杂非线性模式的优越能力，在金融市场预测中越来越受欢迎。然而，由于金融数据集的信噪比非常低，并且是非平稳的，复杂的模型往往很容易过拟合。此外，随着各种机器学习和数据挖掘工具在量化交易中的应用越来越广泛，许多交易公司已经提取了越来越多的特征（也称为因子factors）。因此，如何自动选择有效特征成为一个迫在眉睫的问题。为了解决这些问题，作者
矩阵乘法的分布式计算架构 OpenChat 矩阵架构线性代数
1.背景介绍矩阵乘法是线性代数的基本运算，在许多计算机算法和应用中都有着重要的作用。随着数据规模的不断增加，如大规模的图像处理、机器学习和数据挖掘等应用场景，矩阵乘法的计算量也随之增加，这导致了传统的中心化计算方式无法满足实际需求。因此，研究矩阵乘法的分布式计算架构变得尤为重要。本文将从以下几个方面进行阐述：背景介绍核心概念与联系核心算法原理和具体操作步骤以及数学模型公式详细讲解具体代码实例和详细
[Python] scikit-learn - accuracy_score(准确率分数)函数介绍和使用场景（案例）老狼IT工作室 python python scikit-learn
Scikit-learn是一个用于机器学习和数据挖掘的Python库，提供了大量的机器学习算法和工具，使得机器学习任务更加便捷和高效。其中一个非常常用的函数是accuracy_score，用于计算分类器的准确率。本文将介绍accuracy_score函数的具体功能、函数原型和使用场景，并提供一个使用案例来说明其用法和作用。函数介绍accuracy_score函数是scikit-learn库中用于计
文本数据与分析方法的介绍与讨论亦旧sea 机器学习人工智能
什么是文本数据文本数据是指由各种字符或字母组成的数据，可以包括文字、数字、符号等。文本数据通常用于表示文字信息，如文章、新闻、网页内容、聊天记录等。文本数据可以在计算机系统中进行存储、处理和分析，也可以用于自然语言处理、机器学习和数据挖掘等领域的研究和应用。如何获得文本数据获得文本数据可以有多种途径。1.网络爬虫：使用爬虫工具，如Python中的BeautifulSoup或Scrapy库，可以寻找
机器学习简单概念和pytorch代码-2 Persistence is gold 机器学习 pytorch 人工智能
机器学习简单概念和pytorch代码-2学习率的选择和调校特征工程特征工程是数据预处理和分析过程中的一个关键步骤，主要用于机器学习和数据挖掘。它涉及到从原始数据中选择、修改和创建新的特征（即数据的属性或变量），以便提高模型的性能。在机器学习中，特征工程对于提高模型的准确性和效率至关重要。它包括以下几个主要步骤：特征选择：从现有的特征集中选择最重要的特征，以减少维度并提高模型的效率。特征提取：将原始
大数据技术原理与应用期末考试题无敌海苔咪大数据开源框架期末大数据
大数据技术原理与应用期末考试题一、单选题1.下面哪个选项属于大数据技术的“数据存储和管理”技术层面的功能?A、利用分布式文件系统、数据仓库、关系数据库等实现对结构化、半结构化和非结构化海量数据的存储和管理B、利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析C、构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全D、把实时采集的数据作为流计算系统的输
DBSCAN聚类算法原理（含C++代码） RobotsRuning DBSCAN 聚类 c++人工智能
概述DBSCAN（density-basedspatialclustering）是一种基于密度的聚类算法，在机器学习和数据挖掘领域有广泛的应用，其聚类原理通俗点讲是每个簇类的密度高于该簇类周围的密度，噪声点的密度小于任一簇类的密度。如下图簇类ABC的密度大于周围的密度，噪声的密度低于任一簇类的密度，因此DBSCAN算法也能用于异常点检测。本文对DBSCAN算法进行了详细总结。1.DBSCAN算法的
【风控业务分析模型】 Oo_Amy_oO python pandas numpy scipy
预测类评分卡模型(ScoreCardModel)评分卡模型是一种用于评估客户信用风险的分析模型，广泛用于金融、保险、电商等领域。通过对客户个人信息、历史交易记录等数据进行统计分析，构建出一个客户信用得分用于评估其信用风险水平。欺诈检测模型(FraudDetectionModel)欺诈检测模型是一种用于识别可疑交易或行为的分析模型，可以帮助企业及时发现和阻止欺诈行为。通常使用机器学习和数据挖掘技术，
使用粒子群算法和引力搜索算法优化前向反馈神经网络进行数据分类天使问过的键盘算法神经网络分类 Matlab
使用粒子群算法和引力搜索算法优化前向反馈神经网络进行数据分类在机器学习和数据挖掘领域，神经网络是一种常用的模型，可用于数据分类任务。为了提高神经网络的性能，可以使用优化算法对其进行训练和优化。本文介绍了如何使用粒子群算法（ParticleSwarmOptimization，PSO）和引力搜索算法（GravitationalSearchAlgorithm，GSA）优化前向反馈神经网络（Feedfor
人工智能增强的全流程测试在需求理解分析阶段和单元测试阶段的提效手段超级大超越人工智能
AIGC（人工智能增强的全流程测试）在需求理解分析阶段和单元测试阶段的提效手段如下：1.需求理解分析阶段：(1)引入自然语言处理（NLP）技术，将需求文档转化为语义模型，以更好地理解需求，发现需求中的潜在问题。(2)使用机器学习和数据挖掘技术，对需求文档进行自动分类、聚类、过滤等处理，提高需求分析的效率和准确性。(3)引入知识图谱，将需求信息进行链接和整合，辅助需求分析人员更好地理解需求与相关信息
【特征选择】基于二进制粒子群算法的特征选择方法（PNN概率神经网络分类）【Matlab代码#33】天`南 Matlab #特征选择 matlab 神经网络分类算法
文章目录【可更换其他算法，`获取资源`请见文章第6节：资源获取】1.特征选择问题2.二进制粒子群算法3.概率神经网络（PNN）分类4.部分代码展示5.仿真结果展示6.资源获取【可更换其他算法，获取资源请见文章第6节：资源获取】1.特征选择问题特征选择是指从原始数据中选择最具有代表性和有用性的特征子集，以用于建模和预测任务。它是机器学习和数据挖掘中的重要步骤，可以提高模型的性能和解释能力，并降低计算
正负样本不均衡的解决办法 weixin_33834910 人工智能大数据数据结构与算法
转载自：http://blog.csdn.net/lujiandong1/article/details/52658675这几年来，机器学习和数据挖掘非常火热，它们逐渐为世界带来实际价值。与此同时，越来越多的机器学习算法从学术界走向工业界，而在这个过程中会有很多困难。数据不平衡问题虽然不是最难的，但绝对是最重要的问题之一。一、数据不平衡在学术研究与教学中，很多算法都有一个基本假设，那就是数据分布是
机器学习常见问题及解决方案——正负样本不均衡荒野13 Machine Learning Machine Learning
转载自：http://blog.csdn.net/lujiandong1/article/details/52658675这几年来，机器学习和数据挖掘非常火热，它们逐渐为世界带来实际价值。与此同时，越来越多的机器学习算法从学术界走向工业界，而在这个过程中会有很多困难。数据不平衡问题虽然不是最难的，但绝对是最重要的问题之一。一、数据不平衡在学术研究与教学中，很多算法都有一个基本假设，那就是数据分布是
机器学习/数据挖掘之中国大牛 xuyanan3 机器学习数据挖掘机器学习数据挖掘
机器学习/数据挖掘之中国大牛推荐几个机器学习和数据挖掘领域相关的中国大牛：李航：http://research.microsoft.com/en-us/people/hangli/，是MSRAWebSearchandMiningGroup高级研究员和主管，主要研究领域是信息检索，自然语言处理和统计学习。近年来，主要与人合作使用机器学习方法对信息检索中排序，相关性等问题的研究。曾在人大听过一场他的讲
写作——如何写摘要 RebeccaCute 写作经验分享
菜鸟版本。很八股，但是不会翻车。第一句：背景。考虑只写主谓宾。切忌不可以写“在机器学习和数据挖掘中”这种毫无营养凑字数的句子。第二句：研究主题的现状。现状：当前用什么方法去解决了什么问题。第三句：用However,指出“现状”中还存在的问题或者尚未考虑的问题。例如：However,theyhavenotconsidered______。第四句：用“Inthispaper,wepropose____
基于MATLAB的人脸识别系统（包含传统/深度学习方法） KAU的云实验台 MATLAB 人脸识别 matlab 深度学习机器学习
基于MATLABGUI的人脸识别系统（包含传统/深度学习方法）人脸检测与识别作为计算机视觉研究的核心内容之一，是一个不断发展的领域，并且还是模式识别、机器学习和数据挖掘等相关学科交叉研究的热点，已经发展成为计算智能的重要研究课题。本文是作者人脸识别系统V1.0，基于MATLAB平台，主要实现人脸识别功能，包含3种人脸识别算法，PCA-最近邻、PCA-SVM、以及深度学习的方法，都在ORL数据集上取
Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱 thomashtq 机器学习数据挖掘机器学习自然语言处理 numpy python
曾经因为NLTK的缘故开始学习Python，之后渐渐成为我工作中的第一辅助脚本语言，虽然开发语言是C/C++，但平时的很多文本数据处理任务都交给了Python。离开腾讯创业后，第一个作品课程图谱也是选择了Python系的Flask框架，渐渐的将自己的绝大部分工作交给了Python。这些年来，接触和使用了很多Python工具包，特别是在文本处理，科学计算，机器学习和数据挖掘领域，有很多很多优秀的Py
《机器学习与数据挖掘》学习笔记（一）产品扫地僧
从刚注册时强迫自己写文章时的拖延，到现在有了想法不自觉的想记录下来，是好的转变。最近开始对数据挖掘很感兴趣，在网易公开课上开始学加州理工的《机器学习和数据挖掘》，还可以顺便练练英语听力。第一课《学习问题》只要从问题引入，介绍什么是机器学习，以及常见的学习分类。在人类的认知中一些显而易见的结论，对机器而言是一个却是无限靠近的过程，比如婴儿可以快速识别一张脸的情绪等。课中介绍了银行信贷审批的例子。阐述
[Python]第三方库居家龙龙
一些第三方库NumPy:N维数据表示和运算pipinstallnumpyMatplotlib：二维数据可视化PIL：图像处理Scikit-Learn:机器学习和数据挖掘Requests:HTTP协议访问及网络爬虫Jieba：中文分词BeautifulSoup:HTML和XML解析器Wheel:Python第三方库文件打包文具PyInstaller:打包Python源文件为可执行文件Django:P
【人工智能】—_维度灾难、降维、主成分分析PCA、获取旧数据、非线性主成分分析 Runjavago 机器学习深度学习人工智能人工智能
文章目录高维数据与维度灾难维度灾难降维为什么需要降维？PRINCIPLECOMPONENTANALYSIS主成分的几何图像最小化到直线距离的平方和举例主成分的代数推导优化问题计算主成分（PrincipalComponents,PCs）的主要步骤获取旧数据的方法？主成分分析的最优性性质主要的理论结果PCA图像压缩使用核的非线性主成分分析评价高维数据与维度灾难大多数机器学习和数据挖掘技术对于高维数据可
深度神经网络+聚类的概述风度78 dnn 聚类人工智能神经网络深度学习
【导读】本篇介绍了深度神经网络表示学习+聚类的方法（深度聚类）综述，有帮助的话，文末点个赞吧~聚类分析在机器学习和数据挖掘中非常重要。深度聚类利用深度神经网络学习适用于聚类的表示，已广泛应用于各种聚类任务。然而，现有研究主要集中在单视图领域和网络架构上，忽略了聚类的复杂应用场景。为解决这一问题，本文从数据源的角度对深度聚类进行了全面的调查。针对不同的数据源和初始条件，我们从方法论、先验知识和架构方
机器学习和数据挖掘04-PowerTransformer与 MinMaxScaler 丰。。机器学习与数据挖掘大数据数据分析人机交互笔记学习
概念PowerTransformer（幂变换器）PowerTransformer是用于对数据进行幂变换（也称为Box-Cox变换）的预处理工具。幂变换可以使数据更接近正态分布，这有助于某些机器学习算法的性能提升。它支持两种常用的幂变换：Yeo-Johnson变换和Box-Cox变换。代码实现fromsklearn.preprocessingimportPowerTransformerimportn
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他