数据分析学习总结笔记04：异常值处理

异常值-百度百科 ↩︎

数据清洗中异常值如何处理 ↩︎

数据分析学习总结笔记16：NLP自然语言处理与文本探索性分析 Lynn Wen 数据分析学习总结笔记
文章目录1引言2数据集3文本统计信息分析4Ngram模型探索5基于pyLDAvis的主题模型探索6绘制词云图7情感分析7.1TextBlob7.2VaderSentimentAnalysis8命名实体识别NER9词性标签探索分析10文本可读性分析11结语1引言探索性数据分析是所有机器学习工作流程中最重要的部分之一，自然语言处理也不例外。但是应该选择哪些工具来进行有效地探索，及对文本数据进行可视化呢
数据分析学习总结笔记14：A/B Test及Python实现 Lynn Wen 数据分析学习总结笔记
文章目录1引言2A/BTest的必要性3统计形式主义的必要性4假设检验入门4.1z检验评估平均花费时间4.2z检验评估平均花费时间4.3Z检验评估转化率5总结1引言A/BTest，又称为对比测试，指的是一种实验技术，以确定根据一个选定的指标，新的设计是否带来改进。在Web分析和UI用户体验中，这个想法是通过随机分割流量并比较每个分割点的指标，来比较现有网站(a)和新网站(b)的区别。举个例子说明：
数据分析学习总结笔记10：网络分析 Lynn Wen 数据分析学习总结笔记
数据分析学习总结笔记10：网络分析1网络分析概述1.1三大社会科学理论1.2网络分析内容2网络的基本概念与特征量2.1网络的发展2.2网络的表达形式2.3网络基本概念与特征量2.3.1网络整体指标2.3.2网络节点指标3社会网络分析3.1社会网络分析法概述3.2微博传播简介3.3社会网络分析工具——Cytoscape简介3.4社会网络分析的应用4社交网络4.1社交网络传播4.2社交网络营销4.2.
数据分析学习总结笔记07：方差分析 Lynn Wen 数据分析学习总结笔记
数据分析学习总结笔记07：方差分析1方差分析概述1.1方差分析简介1.2方差分析基本思想和原理1.3方差分析的基本假设2单因素方差分析（One-wayANOVA）2.1单因素方差分析概念2.2单因素方差分析的原理2.3单因素方差分析的基本假设3双因素方差分析（Two-wayANOVA）3.1无交互作用的双因素方差分析3.2有交互作用的双因素方差分析4方差分析实践操作4.1Excel4.2SPSS4
数据分析学习总结笔记07：回归分析概述 Lynn Wen 数据分析学习总结笔记
数据分析学习总结笔记07：回归分析概述1什么是回归分析1.1回归分析概述1.2“回归”的由来1.3回归分析归纳1.3.1回归分析的主要内容1.3.2回归分析的一般模型2统计学中的回归模型2.1相关分析与回归分析2.2回归模型的具体化2.3回归类型的判断2.4回归分析中的统计问题3机器学习角度看回归3.1数据分析问题的不同视角3.2机器学习分类3.3机器学习的流程1什么是回归分析1.1回归分析概述回
数据分析学习总结笔记08：数据分类典型方法及其R语言实现 Lynn Wen 数据分析学习总结笔记
数据分析学习总结笔记08：数据分类典型方法及其R语言操作1判别分析1.1判别分析简介1.1.1判别分析概念1.1.2判别分析的种类1.2距离判别法1.2.1两总体距离判别1.2.2多总体距离判别1.3Fisher判别法1.3.1Fisher判别法原理1.3.2Fisher判别法步骤1.4Bayes判别法1.4.1Bayes判别法概念1.4.2概率判别1.4.3损失判别1.5几种判别方法总结1.6F
数据分析学习总结笔记09：文本分析 Lynn Wen 数据分析学习总结笔记
数据分析学习总结笔记09：文本分析1文本分析1.1文本分析概述1.2结构/非结构化数据1.3文本数据特点1.4自然语言处理——NLP1.5文本挖掘的应用2文本分词2.1英文分词——KNIME2.2中文分词2.2.1中文分词工具2.2.2分词的方法2.2.3中文分词实操——pynlpir2.2.3.1pynlpir准备2.2.3.1操作步骤3中文关键词提取3.1关键词提取概述3.2关键词提取方法3.
数据分析学习总结笔记04：异常值处理 Lynn Wen 数据分析学习总结笔记
数据分析学习总结笔记04：异常值处理1异常值概述2如何判断异常值2.1简单的统计分析2.23δ原则2.3四分位数检验/箱型图分析2.4格拉布斯检验2.5基于模型检测2.6基于距离检测2.7基于密度检测3如何处理异常值1异常值概述数据存在异常值、缺失值和重复值是数据清洗工作中主要可能遇到的三个问题。异常值是数据中的极端的观测值，即在数据集中存在不合理的值，又称离群点。在统计学中异常值（outlier
数据分析学习总结笔记03：数据降维经典方法 Lynn Wen 数据分析学习总结笔记
数据分析学习总结笔记03：数据降维经典方法1.数据降维概述2.数据降维的应用3.数据降维经典方法3.1主成分分析（PCA）3.1.1PCA概述3.1.2PCA原理3.1.3PCA&LDA3.1.4基于标准化变量的主成分分析3.1.5主成分个数的选择3.1.6主成分分析的用途3.1.7PCA实现3.2因子分析（FactorAnalysis）3.2.1因子分析概述3.2.2因子分析原理3.2.3因子分
数据分析学习总结笔记05：缺失值分析及处理 Lynn Wen 数据分析学习总结笔记
数据分析学习总结笔记05：缺失值分析及处理1缺失值概念2缺失值分析的类别2.1按数据缺失形式划分2.2按缺失机制与方式划分3缺失值的处理方法3.1删除缺失值3.2缺失值替代3.3缺失值分析1缺失值概念在数据收集过程中，由于各种原因可能导致数据收集不全，就会产生缺失值，且这种情况往往无法避免。因此，缺失值分析是数据处理工作中常见的问题之一，如果处理不当，会导致部分分析过程简单地从分析中丢弃这些有缺失
数据分析学习总结笔记17：文本分析入门案例实战 Lynn Wen 数据分析学习总结笔记
文章目录1数据准备2分词3统计词频4词云5提取特征6用sklearn进行训练1数据准备数据样例如下，数据总量为7.7万+：本节通过一个实战的例子来展示文本分析的最简单流程。首先设定因变量为原始数据中的"评分"。自变量是"评价内容"，这里根据评价内容提取TF-IDF特征。之后，通过评价内容的特征建模预测下整体评分。importjieba#导入分词模块importpandasaspd#导入Pandas
数据分析学习总结笔记13：生存分析及Python实现 Lynn Wen 数据分析学习总结笔记
文章目录1引言2定义3数学直观4Kaplan-Meier估计5Cox比例风险模型6总结1引言生存分析是一套统计方法，用来解决诸如“多长时间后，某个特定事件发生”这样的问题;换句话说，也可以称之为事件时间分析。这种方法被称为生存分析，是由于主要是由医学研究人员开发的，他们更感兴趣的是寻找不同群体患者的预期寿命(例如:用药物a治疗的组群1和用药物b治疗的组群2)。这种分析不仅可以应用于传统的死亡事件，
数据分析学习总结笔记11：空间复杂度和时间复杂度 Lynn Wen 数据分析学习总结笔记
文章目录1算法与程序2算法复杂度概述3时间复杂度3.1时间复杂度记号O3.2时间复杂度的计算3.3时间复杂度的类别3.4时间复杂度分析实例4空间复杂度5O(1),O(n),O(logn),O(nlogn)的区别本文较简略，具体可参照：算法的时间复杂度和空间复杂度-总结1算法与程序（1）算法：是解决问题的方法或过程，严格的讲是满足下述性质的指令序列：输入：有零个或多个外部量作为算法的输入；输出：算法
数据分析学习总结笔记15：时间序列分析及Python实现 Lynn Wen 数据分析学习总结笔记
文章目录1引言2时间序列的特性2.1自相关2.2季节性2.3平稳性3时间序列建模3.1移动平均法3.2指数平滑法3.3双指数平滑法3.4三重指数平滑法3.5周期性差分自动平滑回归模型(SARIMA)4实例——股票价格的预测5结论1引言本篇主要帮助大家理解移动平均，指数平滑，平稳性，自相关，SARIMA，通过案例和Python编程实现时间序列的预测技术。无论我们是预测金融市场或股票趋势，或是电能耗费
数据分析学习总结笔记02：聚类分析及其R语言实现 Lynn Wen 数据分析学习总结笔记
数据分析学习总结笔记02：聚类分析及其R语言实现1.聚类分析概述1.1聚类分析简介1.2聚类分析原理1.3聚类&分类1.4如何刻画相似度？2.聚类分析的方法2.1层次聚类2.1.1层次聚类步骤2.1.2简介2.1.3层次聚类的类型2.1.4层次聚类族群个数的选择2.1.5层次聚类R语言实践2.2非层次聚类——K-Means2.2.1K-means聚类简介2.2.2K-means聚类步骤2.2.3k
数据分析学习总结笔记06：T检验的原理和步骤 Lynn Wen 数据分析学习总结笔记
数据分析学习总结笔记06：T检验的原理和步骤1单样本T检验1.1单样本T检验概念1.2单样本T检验步骤2独立样本T检验2.1独立样本T检验概念2.2独立样本T检验步骤1单样本T检验1.1单样本T检验概念目的：利用来自某总体的样本数据，推断该总体的均值是否与指定的检验值之间存在显著性差异。前提：样本来自的总体服从正态分布。基本思想：首先，计算出样本均值；其次，根据经验或以往的调查结果，对总体的均值提
数据分析学习总结笔记12：空间自相关——空间位置与相近位置的指标测度 Lynn Wen 数据分析学习总结笔记
文章目录1空间地理相关性2技术性定义3空间相关类型4Moran’sI（莫兰系数）5空间自相关的应用6案例研究:意大利人口迁移分析7总结8实现工具1空间地理相关性地理空间自相关是指一个物体与附近其他物体的相似程度。通俗地说，它度量的是相近物体与其他相近物体的相似程度。地理信息系统的第一规则:一切事物都与其他事物相关联。但是相近事物比较远事物更相关(Waldor.Tobler，1970)。为了理解这个
数据分析学习总结笔记01：情感分析 Lynn Wen 数据分析学习总结笔记
数据分析学习总结笔记01：情感分析1.情感分析概述1.1什么是情感分析1.2情感分析的范畴1.3细粒度情感分析1.4情感分析的实际应用2.情感分析方法2.1情感分析基本步骤2.2情感分析分类2.2.1基于情感词典2.2.2基于机器学习2.2.3混合方法2.3情感分析评价标准[^1]3.情感分析工具3.1可能用到的软件3.2情感分析网站3.2Python情感分析APIs3.3情感分析资源[^4]3.
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f

数据分析学习总结笔记04：异常值处理

数据分析学习总结笔记04：异常值处理

1 异常值概述

2 如何判断异常值

2.1 简单的统计分析

2.2 3δ原则

2.3 四分位数检验/箱型图分析

2.4 格拉布斯检验

2.5 基于模型检测

2.6 基于距离检测

2.7 基于密度检测

3 如何处理异常值

你可能感兴趣的:(数据分析学习总结笔记)