点火三周

十分钟了解pandas（总结）

这里是官网上的原文。每次都还链接到最新版本。这篇文章，对于不是英语母语的，10分钟，我觉得绝逼是看不完的。网上已经有很多翻译了。我只是把文章的结构组织以下，死记硬背一下它提到的知识点。

- 对象创建
  - 创建Series
  - 创建基于时间的index
  - 创建DataFrame
- 查看数据
  - 首尾数据
  - 查看索引列值
  - 查看统计数据
  - 转置
  - 索引排序
  - 按列值排序
- 选取
  - 取列
  - 取行
  - 通过标签来选取 loc
  - 通过位置来选取 iloc
  - 布尔索引匹配
- 设值
- 缺值处理
- 操作
  - 统计
  - 函数应用
  - string方法
- merge
  - contact
  - join
  - Append
  - Grouping
- Reshaping
  - stack
  - Pivot Tables
- TimeSeries
- Categoricals
- Plotting

对象创建

创建Series

s = pd.Series([1,3,5,np.nan,6,8])

创建基于时间的index

dates = pd.date_range('20130101', periods=6)

创建DataFrame

df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))

查看数据

首尾数据

df.head()
df.tail(5)

查看索引，列，值

df.index
df.columns
df.values

查看统计数据

df.describe()

转置

df.T

索引排序

df.sort_index(axis=1, ascending=False)

按列值排序

df.sort_values(by='B')

选取

[]取列

df['A']
df[['A','B']]

[]取行

df[0:3]
df['20130102':'20130104']

'20130102':'20130104'可自动转化为dateIndex
单值’20130102’会尝试匹配列

通过标签来选取 loc

df.loc[dates[0]]
df.loc[:,['A','B']]
df.loc['20130102':'20130104',['A','B']]
df.loc[dates[0],'A']
df.at[dates[0],'A']

通过标签，既通过具体的值，而不是位置来取值（语义：’A’列的’2013-01-02’行）
at比loc更快（取单值）

通过位置来选取 iloc

df.iloc[3]
df.iloc[3:5,0:2]
df.iloc[[1,2,4],[0,2]]
df.iloc[1:3,:]
df.iloc[:,1:3]
df.iloc[1,1]
df.iat[1,1]

位置永远都是integer类型，iloc[]只接受整数（语义：第4列的第3行）
iat比iloc要快（取单值）
如果index是整数索引，loc和iloc在取行的时候是一样的，但iloc要快，不需要做key的匹配（语义：第4列的第3行和’4‘列的’3‘行的区别）

布尔索引匹配

df[df.A > 0] #过滤
df[df > 0] #填充NaN
df2[df2['E'].isin(['two','four'])]

设值

df['F'] = pd.Series([1,2,3,4,5,6], index=pd.date_range('20130102', periods=6))

df.at[dates[0],'A'] = 0
df.iat[0,1] = 0
df.loc[:,'D'] = np.array([5] * len(df))
df[df > 0]=-df #将所有大于0的值，设为负数

缺值处理

df.dropna(how='any')
df.fillna(value=5)
pd.isnull(df)

操作

统计

df.mean()
df.mean(1) #axis
s = pd.Series([1,3,5,np.nan,6,8], index=dates).shift(2) 
df.sub(s, axis='index')

函数应用

默认按axis=0的方向，对整列数据使用函数，也可以设置axis

df.apply(np.cumsum)
df.apply(lambda x: x.max()-x.min()

string方法

仅针对Series

s.str.lower()

merge

contact

pieces = [df[:3], df[3:7], df[7:]]
df.contat(pieces)

join

pd.merge(left, right, on='key')

Append

s = df.iloc[3]
df.append(s,ignore_index=True)

Grouping

groupby()返回的不是DataFrame，而是DataFrameGroupBy，需要调用额外的步骤来返回需要的值：
- Splitting，基于应用场景，将值划分到不同的group
- Applying，对每个group上的数据，独立的应用函数来处理
- Combining ，将每个group的数据合并到特定的数据结构中

df.groupby('A').sum()
df.groupby(['A','B']).sum()

Reshaping

stack

In [95]: tuples = list(zip(*[['bar', 'bar', 'baz', 'baz',
   ....:                      'foo', 'foo', 'qux', 'qux'],
   ....:                     ['one', 'two', 'one', 'two',
   ....:                      'one', 'two', 'one', 'two']]))
   ....: 

In [96]: index = pd.MultiIndex.from_tuples(tuples, names=['first', 'second'])

In [97]: df = pd.DataFrame(np.random.randn(8, 2), index=index, columns=['A', 'B'])

In [98]: df2 = df[:4]

In [99]: df2
Out[99]: 
                     A         B
first second                    
bar   one     0.029399 -0.542108
      two     0.282696 -0.087302
baz   one    -1.575170  1.771208
      two     0.816482  1.100230

In [100]: stacked = df2.stack()

In [101]: stacked
Out[101]: 
first  second   
bar    one     A    0.029399
               B   -0.542108
       two     A    0.282696
               B   -0.087302
baz    one     A   -1.575170
               B    1.771208
       two     A    0.816482
               B    1.100230
dtype: float64
In [102]: stacked.unstack()
Out[102]: 
                     A         B
first second                    
bar   one     0.029399 -0.542108
      two     0.282696 -0.087302
baz   one    -1.575170  1.771208
      two     0.816482  1.100230

In [103]: stacked.unstack(1)
Out[103]: 
second        one       two
first                      
bar   A  0.029399  0.282696
      B -0.542108 -0.087302
baz   A -1.575170  0.816482
      B  1.771208  1.100230

In [104]: stacked.unstack(0)
Out[104]: 
first          bar       baz
second                      
one    A  0.029399 -1.575170
       B -0.542108  1.771208
two    A  0.282696  0.816482
       B -0.087302  1.100230

Pivot Tables

In [105]: df = pd.DataFrame({'A' : ['one', 'one', 'two', 'three'] * 3,
   .....:                    'B' : ['A', 'B', 'C'] * 4,
   .....:                    'C' : ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'] * 2,
   .....:                    'D' : np.random.randn(12),
   .....:                    'E' : np.random.randn(12)})
   .....: 

In [106]: df
Out[106]: 
        A  B    C         D         E
0     one  A  foo  1.418757 -0.179666
1     one  B  foo -1.879024  1.291836
2     two  C  foo  0.536826 -0.009614
3   three  A  bar  1.006160  0.392149
4     one  B  bar -0.029716  0.264599
5     one  C  bar -1.146178 -0.057409
6     two  A  foo  0.100900 -1.425638
7   three  B  foo -1.035018  1.024098
8     one  C  foo  0.314665 -0.106062
9     one  A  bar -0.773723  1.824375
10    two  B  bar -1.170653  0.595974
11  three  C  bar  0.648740  1.167115
In [107]: pd.pivot_table(df, values='D', index=['A', 'B'], columns=['C'])
Out[107]: 
C             bar       foo
A     B                    
one   A -0.773723  1.418757
      B -0.029716 -1.879024
      C -1.146178  0.314665
three A  1.006160       NaN
      B       NaN -1.035018
      C  0.648740       NaN
two   A       NaN  0.100900
      B -1.170653       NaN
      C       NaN  0.536826

TimeSeries

Time Series section

In [108]: rng = pd.date_range('1/1/2012', periods=100, freq='S')

In [109]: ts = pd.Series(np.random.randint(0, 500, len(rng)), index=rng)

In [110]: ts.resample('5Min').sum()
Out[110]: 
2012-01-01    25083
Freq: 5T, dtype: int64

Categoricals

categorical introduction

Plotting

Plotting docs.

你可能感兴趣的:(数据挖掘与机器学习)

python 数据挖掘与机器学习科研的力量人工智能 ChatGPT python 数据挖掘机器学习神经网络随机森林决策树贝叶斯
近年来，Python编程语言受到越来越多科研人员的喜爱，在多个编程语言排行榜中持续夺冠。同时，伴随着深度学习的快速发展，人工智能技术在各个领域中的应用越来越广泛。机器学习是人工智能的基础，因此，掌握常用机器学习算法的工作原理，并能够熟练运用Python建立实际的机器学习模型，是开展人工智能相关研究的前提和基础。模块一：课前准备Python编程基础与进阶Python编程入门1、Python环境搭建（
大数据之Spark 进击的-小胖子大数据 spark big data scala 大数据实时大数据
Spark介绍什么是Spark专为大规模数据处理而设计的快速通用的计算引擎类HadoopMapReduce的通用并行计算框架拥有HadoopMapReduce所具有的优点但不同于MapReduce的是Job中间输出结果可以缓存在内存中，从而不再需要读写HDFS，减少磁盘数据交互因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的算法Spark是Scala编写，方便快速编程Spark与MR的区
高可用分布式部署Spark、完整详细部署教程一座野山 spark bigdata hadoop 分布式 spark 大数据 linux
前言Spark是UCBerkeleyAMPLab开源的通用分布式并行计算框架。Spark基于mapreduce算法实现的分布式计算，拥有HadoopMapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的mapreduce的算法。spark是基于内存计算框架，计算速度非常
Python数据挖掘与机器学习实践技术应用思考的小猴子机器学习 python 数据挖掘机器学习
近年来，Python编程语言受到越来越多科研人员的喜爱，在多个编程语言排行榜中持续夺冠。同时，伴随着深度学习的快速发展，人工智能技术在各个领域中的应用越来越广泛。机器学习是人工智能的基础，因此，掌握常用机器学习算法的工作原理，并能够熟练运用Python建立实际的机器学习模型，是开展人工智能相关研究的前提和基础。为各领域人员量身定制课程内容，让你畅学Python编程及机器学习理论与代码实现方法，从“
Spark相关知识点（期末复习集锦）夜をむかえる spark 大数据分布式
嗨喽，最近小伙伴们快要期末考试了吧，下面是我对《Spark零基础实战》的总结，希望能帮助到你们。一、Spark简介Spark，拥有hadoopMR所具有的优点，但不同于MR的是job中监测结果可以保存在内存中，从而不再需要读写HDFS，因此spark能够更好的适用于数据挖掘与机器学习等需要迭代的mr的算法。1.Spark，使用scala语言实现，这是一种面向对象函数式编程语言，能够像操作本地集合对
1.5 The Leaming Problem-Machine Leaming and other Fields|机器学习基石（林轩田）-学习笔记努力奋斗的durian
文章原创,最近更新：2018-06-27学习链接:1.5TheLeamingProblem-MachineLeamingandotherFields1.MachineLearningandDataMining(机器学习与数据挖掘)讲完了机器学习完整的流程,下面将一下机器学习与其他相关领域的关系第一个讲的领域就是数据挖掘,数据挖掘与机器学习有什么不一样,如下:机器学习是用资料找出一个假说g,然后跟我
Python数据挖掘与机器学习实践技术应用思考的小猴子机器学习遥感 python 数据挖掘机器学习
近年来，Python编程语言受到越来越多科研人员的喜爱，在多个编程语言排行榜中持续夺冠。同时，伴随着深度学习的快速发展，人工智能技术在各个领域中的应用越来越广泛。机器学习是人工智能的基础，因此，掌握常用机器学习算法的工作原理，并能够熟练运用Python建立实际的机器学习模型，是开展人工智能相关研究的前提和基础。掌握Python编程的基础知识与技巧、特征工程（数据清洗、变量降维、特征选择、群优化算法
学习笔记：数据挖掘与机器学习 howard2005 数据挖掘基础学习笔记数据挖掘
文章目录一、数据挖掘、机器学习、深度学习的区别（一）数据挖掘（二）机器学习（三）深度学习（四）总结二、数据挖掘体系三、数据挖掘的流程四、典型的数据挖掘系统一、数据挖掘、机器学习、深度学习的区别（一）数据挖掘数据挖掘，或者说DataMining，是一个涵盖广泛且充满活力的学术领域，其核心目标在于揭示隐藏在海量数据背后的有价值信息和知识。这一过程涵盖了多种方法和技术，包括但不限于商业智能（BI）、统计
大数据和智能数据应用架构系列教程之：大数据挖掘与机器学习禅与计算机程序设计艺术 AI实战大数据AI人工智能 Python实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.背景介绍大数据概述2006年，Google推出了GoogleMap，2009年推出了Google搜索引擎，2012年发布的谷歌雅虎成为了互联网公司里面的霸主。到今日，谷歌已经成为最大的搜索引擎网站，其搜索结果量也超过一千亿。在这个过程中产生的数据也越来越多，这些数据的价值正在被更多的人所认识、重视和关注。如今，信息爆炸的时代已经过去，收集、处理、分析海量数据已成为人
Spark是什么？以及它有哪些应用场景呢？陈影鸿在进步大数据处理 WhatsApp技术容器
首先说说Spark的起源：Spark是UCBerkeleyAMPlab所开源的类HadoopMapReduce的通用的并行计算框架，Spark基于mapreduce算法实现的分布式计算，拥有HadoopMapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的mapredu
数据挖掘与机器学习——weka应用技术与实践 maggie_J 机器学习数据挖掘机器学习
第一章weka介绍1.1weka简介weka是怀卡托智分析环境（WaikatoEnvironmentforKnowledgeAnalysis）的英文缩写，官方网址为：，在该网站可以免费下载可运行软件和代码，还可以获得说明文档、常见问题解答、数据集和其他文献等资源。1.1.1Weka的历史团队宣称：我们的目标是要建立最先进的软件开发机器学习技术，并将其应用于解决现实世界的数据挖掘问题。目标：是机器学
Python 数据挖掘与机器学习技术应用 Yolo566Q python python 机器学习深度学习
近年来，Python编程语言受到越来越多科研人员的喜爱，在多个编程语言排行榜中持续夺冠。同时，伴随着深度学习的快速发展，人工智能技术在各个领域中的应用越来越广泛。机器学习是人工智能的基础，因此，掌握常用机器学习算法的工作原理，并能够熟练运用Python建立实际的机器学习模型，是开展人工智能相关研究的前提和基础。采用“理论讲解+案例实战+动手实操+讨论互动”相结合的方式，抽丝剥茧、深入浅出分析机器学
Python 数据挖掘与机器学习实践技术应用天青色等烟雨.. Python 机器学习机器学习 python 人工智能
近年来，Python编程语言受到越来越多科研人员的喜爱，在多个编程语言排行榜中持续夺冠。同时，伴随着深度学习的快速发展，人工智能技术在各个领域中的应用越来越广泛。机器学习是人工智能的基础，因此，掌握常用机器学习算法的工作原理，并能够熟练运用Python建立实际的机器学习模型，是开展人工智能相关研究的前提和基础。采用“理论讲解+案例实战+动手实操+讨论互动”相结合的方式，抽丝剥茧、深入浅出分析机器学
大数据和智能数据应用架构系列教程之：大数据挖掘与机器学习禅与计算机程序设计艺术禅与计算机程序设计艺术大数据AI人工智能大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.背景介绍随着互联网、移动互联网和物联网等新一代信息技术的飞速发展，以及人工智能、大数据分析、云计算、云存储、人工智能（AI）模型等的迅猛发展，使得数据的获取、存储、处理、分析等环节变得越来越复杂、越来越高效。如今，越来越多的企业和个人都开始把注意力转移到数据采集、处理、分析、挖掘等领域。这是一个“数据驱动时代”，数据科学正在成为一个全新的核心技术。同时，也出现了数据
大数据和智能数据应用架构系列教程之：大数据挖掘与机器学习禅与计算机程序设计艺术禅与计算机程序设计艺术大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.简介1.1论文背景随着互联网的普及、移动互联网的爆炸性增长以及电子商务的兴起，传统的基于数据库的数据分析已不能满足当前信息社会对海量数据的处理需求。如何有效地进行大数据分析已经成为众多行业面临的共同难题。而数据挖掘和机器学习（MachineLearning）技术在处理海量数据方面的作用也越来越重要。近年来，随着云计算、大数据技术的迅速发展，大数据研究的热潮逐渐升温。
数据挖掘与机器学习：机器学习 --- 决策树 Shining0596 机器学习学习数据挖掘决策树数据挖掘学习其他
目录第一关：什么是决策树任务描述：相关知识：一、引例二、决策树的相关资源编程要求：测试说明：第二关：信息熵与信息增益任务描述：相关知识：一、信息熵二、条件熵三、信息增益编程要求：测试说明：第3关：使用ID3算法构建决策树任务描述：相关知识：一、ID3算法二、使用决策树进行预测编程要求：测试说明：第四关：信息增益率任务描述：相关知识：信息增益率：编程要求：测试说明：第五关：基尼系数任务描述：相关知识
Python 数据分析学习路线以山河作礼。活动文章 python 数据分析学习
Python数据分析学习路线第一阶段：Python语言基础第二阶段：数据采集和持久化第三阶段：数据分析第四阶段：数据挖掘与机器学习书籍介绍参与方式第一阶段：Python语言基础在学习数据分析之前，首先需要掌握Python语言的基础知识，包括语法、常用数据结构、函数以及面向对象编程等。同时，还需要熟悉Python的标准库，如math、random、datetime等。此外，文件操作和异常处理也是必不
Python数据挖掘与机器学习科研小白新人上路 python 数据挖掘机器学习
近年来，Python编程语言受到越来越多科研人员的喜爱，在多个编程语言排行榜中持续夺冠。同时，伴随着深度学习的快速发展，人工智能技术在各个领域中的应用越来越广泛。机器学习是人工智能的基础，因此，掌握常用机器学习算法的工作原理，并能够熟练运用Python建立实际的机器学习模型，是开展人工智能相关研究的前提和基础。因此，中科资环推出全新的Python数据挖掘与机器学习课程，为各领域人员量身定制课程内容
Python 数据挖掘与机器学习教程夏日恋雨人工智能生态学遥感 python 数据挖掘机器学习人工智能开发语言
详情点击链接：Python数据挖掘与机器学习教程模块一：Python编程Python编程入门1、Python环境搭建（下载、安装与版本选择）。2、如何选择Python编辑器？（IDLE、Notepad++、PyCharm、Jupyter…）3、Python基础（数据类型和变量、字符串和编码、list和tuple、条件判断、循环、函数的定义与调用等）4、常见的错误与程序调试5、第三方模块的安装与使用
python文本数据挖掘_Python数据挖掘与机器学习实战__前言 weixin_39606118 python文本数据挖掘
Python是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。作为一门编程语言，其魅力远超C#、Java、C和C++等编程语言，被昵称为“胶水语言”，更被热爱它的程序员誉为“最美丽的”编程语言。从云端和客户端，再到物联网终端，Python应用无处不在，同时它还是人工智能（AI）首选的编程语言。近年来，人工智能在全世界掀起了新的科技浪潮，各行各业都在努力涉足人工智能技术。而机器学习是人
Python 数据挖掘与机器学习 xiao5kou4chang6kai4 农业生态气象 python 数据挖掘机器学习
近年来，Python编程语言受到越来越多科研人员的喜爱，在多个编程语言排行榜中持续夺冠。同时，伴随着深度学习的快速发展，人工智能技术在各个领域中的应用越来越广泛。机器学习是人工智能的基础，因此，掌握常用机器学习算法的工作原理，并能够熟练运用Python建立实际的机器学习模型，是开展人工智能相关研究的前提和基础。畅学Python编程及机器学习理论与代码实现方法，从“基础编程→机器学习→代码实现”逐步
Python 数据挖掘与机器学习教程夏日恋雨人工智能 python 数据挖掘机器学习开发语言人工智能
详情点击链接：Python数据挖掘与机器学习一：Python编程Python编程入门1、Python环境搭建（下载、安装与版本选择）。2、如何选择Python编辑器？（IDLE、Notepad++、PyCharm、Jupyter…）3、Python基础（数据类型和变量、字符串和编码、list和tuple、条件判断、循环、函数的定义与调用等）4、常见的错误与程序调试5、第三方模块的安装与使用6、文件
（西瓜书）《机器学习-周志华》-学习笔记：（1）第一章 --- 假设空间与版本空间等 JingYuJingYuJingYu 学习笔记机器学习
（西瓜书）《机器学习-周志华》-学习笔记：（1）第一章—假设空间与版本空间等文章目录（西瓜书）《机器学习-周志华》-学习笔记：（1）第一章---假设空间与版本空间等简述1.2基本术语独立同分布理解**示例——抛骰子****为什么需要满足i.i.d.假设？****扩展**1.3假设空间版本空间1.4归纳偏好NFL定理数据挖掘与机器学习关系机器学习领域期刊简述开始一种新的学习方式，顺便帮助总结，方便之
python数据挖掘与机器学习实践技术科研小白新人上路机器学习 python 数据挖掘
分析机器学习在应用时需要掌握的经验及编程技巧。通过实际案例的形式，介绍如何提炼创新点，以及如何发表高水平论文等相关经验。旨在掌握Python编程的基础知识与技巧、特征工程（数据清洗、变量降维、特征选择、群优化算法）、回归拟合（线性回归、BP神经网络、极限学习机）、分类识别（KNN、贝叶斯分类、支持向量机、决策树、随机森林、AdaBoost、XGBoost与LightGBM等）、聚类分析（K均值、D
如何快速掌握Python 数据挖掘与机器学习 zmjia111 python 机器学习深度学习 python 数据挖掘机器学习线性回归模型 Numpy模块
PythonPython由荷兰数学和计算机科学研究学会的吉多·范罗苏姆于1990年代初设计，作为一门叫做ABC语言的替代品。Python提供了高效的高级数据结构，还能简单有效地面向对象编程。Python语法和动态类型，以及解释型语言的本质，使它成为多数平台上写脚本和快速开发应用的编程语言，随着版本的不断更新和语言新功能的添加，逐渐被用于独立的、大型项目的开发。Python在各个编程语言中比较适合新
面向非平衡数据的过采样方法研究紫钺-高山仰止论文机器学习数据挖掘人工智能
文章目录1.绪论1.1研究背景及意义1.2非平衡数据分类问题的难点1.2.1样本稀少1.2.2样本边界重叠1.2.3类内不平衡1.2.4噪音数据2SMOTE算法及其评价指标2.1SMOTE算法2.3评价指标1.绪论1.1研究背景及意义随着科学技术的发展，数据量呈爆炸性增长。为了使这些数据更好地服务于各行各业，数据挖掘与机器学习应运而生。顾名思义，数据挖掘就是要从海量数据中发现有用的信息，从而指
数据挖掘与机器学习：NumPy基础及取值操作 Shining0596 机器学习学习数据挖掘数据挖掘其他学习
目录第一关：ndarray对象任务描述：相关知识：一、如何安装NumPy：二、什么是ndarray对象：三、如何实例化ndarray对象：编程要求：测试说明：第二关：形状操作任务描述：相关知识：怎样改变ndarray对象的形状：编程要求：测试说明：第三关：基础操作任务描述：相关知识：一、算术运算：二、矩阵运算：三、简单统计：编程要求：测试说明：第四关：随机数生成任务描述：相关知识：简单随机数生成：
大数据开发-分布式文件系统HDFS jason_syf
HDFS,全称HadoopDistributedFileSystem,意思是分布式文件系统。Hadoop分布式文件系统是指被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统。大数据处理的主要应用场景包括数据分析、数据挖掘与机器学习。数据分析主要使用Hive、SparkSQL等SQL引擎完成；数据挖掘与机器学习则有专门的机器学习框架TensorFlow、Mahout以
【GNN报告】北邮石川组静静喜欢大白随记北邮 GNN
石川：GAMMALab介绍简介实验室简介北邮图数据挖掘与机器学习实验室（GAMMALab,GraphdAtaMiningandMAchinelearningLaboratory）长期从事人工智能和数据科学的核心方向：数据挖掘和机器学习的研究，特别专注于图数据的挖掘与学习，在异质图分析和图表示学习等方向处于国内领先水平，相关成果应用于华为、阿里、腾讯等企业。培养了北邮第一个“阿里星”和“腾讯犀牛鸟精
数据挖掘与机器学习好用的网站照希
数据源下载网站http://archive.ics.uci.edu/ml最有名的机器学习数据资源，来自美国加州大学欧文分校。该数据库提供了200多个可用的数据集，其中很多数据常被用来比较算法的性能，基于这些资源，研究人员可以得到相对客观的性能比较结果。https://registry.opendata.aws/这是Amazon的开放数据，包括美国人口普查数据、人类基因组注释数据......http
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他