- 数据分析学习总结笔记16:NLP自然语言处理与文本探索性分析
Lynn Wen
数据分析学习总结笔记
文章目录1引言2数据集3文本统计信息分析4Ngram模型探索5基于pyLDAvis的主题模型探索6绘制词云图7情感分析7.1TextBlob7.2VaderSentimentAnalysis8命名实体识别NER9词性标签探索分析10文本可读性分析11结语1引言探索性数据分析是所有机器学习工作流程中最重要的部分之一,自然语言处理也不例外。但是应该选择哪些工具来进行有效地探索,及对文本数据进行可视化呢
- 数据分析学习总结笔记14:A/B Test及Python实现
Lynn Wen
数据分析学习总结笔记
文章目录1引言2A/BTest的必要性3统计形式主义的必要性4假设检验入门4.1z检验评估平均花费时间4.2z检验评估平均花费时间4.3Z检验评估转化率5总结1引言A/BTest,又称为对比测试,指的是一种实验技术,以确定根据一个选定的指标,新的设计是否带来改进。在Web分析和UI用户体验中,这个想法是通过随机分割流量并比较每个分割点的指标,来比较现有网站(a)和新网站(b)的区别。举个例子说明:
- 数据分析学习总结笔记10:网络分析
Lynn Wen
数据分析学习总结笔记
数据分析学习总结笔记10:网络分析1网络分析概述1.1三大社会科学理论1.2网络分析内容2网络的基本概念与特征量2.1网络的发展2.2网络的表达形式2.3网络基本概念与特征量2.3.1网络整体指标2.3.2网络节点指标3社会网络分析3.1社会网络分析法概述3.2微博传播简介3.3社会网络分析工具——Cytoscape简介3.4社会网络分析的应用4社交网络4.1社交网络传播4.2社交网络营销4.2.
- 数据分析学习总结笔记07:方差分析
Lynn Wen
数据分析学习总结笔记
数据分析学习总结笔记07:方差分析1方差分析概述1.1方差分析简介1.2方差分析基本思想和原理1.3方差分析的基本假设2单因素方差分析(One-wayANOVA)2.1单因素方差分析概念2.2单因素方差分析的原理2.3单因素方差分析的基本假设3双因素方差分析(Two-wayANOVA)3.1无交互作用的双因素方差分析3.2有交互作用的双因素方差分析4方差分析实践操作4.1Excel4.2SPSS4
- 数据分析学习总结笔记07:回归分析概述
Lynn Wen
数据分析学习总结笔记
数据分析学习总结笔记07:回归分析概述1什么是回归分析1.1回归分析概述1.2“回归”的由来1.3回归分析归纳1.3.1回归分析的主要内容1.3.2回归分析的一般模型2统计学中的回归模型2.1相关分析与回归分析2.2回归模型的具体化2.3回归类型的判断2.4回归分析中的统计问题3机器学习角度看回归3.1数据分析问题的不同视角3.2机器学习分类3.3机器学习的流程1什么是回归分析1.1回归分析概述回
- 数据分析学习总结笔记08:数据分类典型方法及其R语言实现
Lynn Wen
数据分析学习总结笔记
数据分析学习总结笔记08:数据分类典型方法及其R语言操作1判别分析1.1判别分析简介1.1.1判别分析概念1.1.2判别分析的种类1.2距离判别法1.2.1两总体距离判别1.2.2多总体距离判别1.3Fisher判别法1.3.1Fisher判别法原理1.3.2Fisher判别法步骤1.4Bayes判别法1.4.1Bayes判别法概念1.4.2概率判别1.4.3损失判别1.5几种判别方法总结1.6F
- 数据分析学习总结笔记09:文本分析
Lynn Wen
数据分析学习总结笔记
数据分析学习总结笔记09:文本分析1文本分析1.1文本分析概述1.2结构/非结构化数据1.3文本数据特点1.4自然语言处理——NLP1.5文本挖掘的应用2文本分词2.1英文分词——KNIME2.2中文分词2.2.1中文分词工具2.2.2分词的方法2.2.3中文分词实操——pynlpir2.2.3.1pynlpir准备2.2.3.1操作步骤3中文关键词提取3.1关键词提取概述3.2关键词提取方法3.
- 数据分析学习总结笔记04:异常值处理
Lynn Wen
数据分析学习总结笔记
数据分析学习总结笔记04:异常值处理1异常值概述2如何判断异常值2.1简单的统计分析2.23δ原则2.3四分位数检验/箱型图分析2.4格拉布斯检验2.5基于模型检测2.6基于距离检测2.7基于密度检测3如何处理异常值1异常值概述数据存在异常值、缺失值和重复值是数据清洗工作中主要可能遇到的三个问题。异常值是数据中的极端的观测值,即在数据集中存在不合理的值,又称离群点。在统计学中异常值(outlier
- 数据分析学习总结笔记03:数据降维经典方法
Lynn Wen
数据分析学习总结笔记
数据分析学习总结笔记03:数据降维经典方法1.数据降维概述2.数据降维的应用3.数据降维经典方法3.1主成分分析(PCA)3.1.1PCA概述3.1.2PCA原理3.1.3PCA&LDA3.1.4基于标准化变量的主成分分析3.1.5主成分个数的选择3.1.6主成分分析的用途3.1.7PCA实现3.2因子分析(FactorAnalysis)3.2.1因子分析概述3.2.2因子分析原理3.2.3因子分
- 数据分析学习总结笔记05:缺失值分析及处理
Lynn Wen
数据分析学习总结笔记
数据分析学习总结笔记05:缺失值分析及处理1缺失值概念2缺失值分析的类别2.1按数据缺失形式划分2.2按缺失机制与方式划分3缺失值的处理方法3.1删除缺失值3.2缺失值替代3.3缺失值分析1缺失值概念在数据收集过程中,由于各种原因可能导致数据收集不全,就会产生缺失值,且这种情况往往无法避免。因此,缺失值分析是数据处理工作中常见的问题之一,如果处理不当,会导致部分分析过程简单地从分析中丢弃这些有缺失
- 数据分析学习总结笔记17:文本分析入门案例实战
Lynn Wen
数据分析学习总结笔记
文章目录1数据准备2分词3统计词频4词云5提取特征6用sklearn进行训练1数据准备数据样例如下,数据总量为7.7万+:本节通过一个实战的例子来展示文本分析的最简单流程。首先设定因变量为原始数据中的"评分"。自变量是"评价内容",这里根据评价内容提取TF-IDF特征。之后,通过评价内容的特征建模预测下整体评分。importjieba#导入分词模块importpandasaspd#导入Pandas
- 数据分析学习总结笔记13:生存分析及Python实现
Lynn Wen
数据分析学习总结笔记
文章目录1引言2定义3数学直观4Kaplan-Meier估计5Cox比例风险模型6总结1引言生存分析是一套统计方法,用来解决诸如“多长时间后,某个特定事件发生”这样的问题;换句话说,也可以称之为事件时间分析。这种方法被称为生存分析,是由于主要是由医学研究人员开发的,他们更感兴趣的是寻找不同群体患者的预期寿命(例如:用药物a治疗的组群1和用药物b治疗的组群2)。这种分析不仅可以应用于传统的死亡事件,
- 数据分析学习总结笔记11:空间复杂度和时间复杂度
Lynn Wen
数据分析学习总结笔记
文章目录1算法与程序2算法复杂度概述3时间复杂度3.1时间复杂度记号O3.2时间复杂度的计算3.3时间复杂度的类别3.4时间复杂度分析实例4空间复杂度5O(1),O(n),O(logn),O(nlogn)的区别本文较简略,具体可参照:算法的时间复杂度和空间复杂度-总结1算法与程序(1)算法:是解决问题的方法或过程,严格的讲是满足下述性质的指令序列:输入:有零个或多个外部量作为算法的输入;输出:算法
- 数据分析学习总结笔记15:时间序列分析及Python实现
Lynn Wen
数据分析学习总结笔记
文章目录1引言2时间序列的特性2.1自相关2.2季节性2.3平稳性3时间序列建模3.1移动平均法3.2指数平滑法3.3双指数平滑法3.4三重指数平滑法3.5周期性差分自动平滑回归模型(SARIMA)4实例——股票价格的预测5结论1引言本篇主要帮助大家理解移动平均,指数平滑,平稳性,自相关,SARIMA,通过案例和Python编程实现时间序列的预测技术。无论我们是预测金融市场或股票趋势,或是电能耗费
- 数据分析学习总结笔记02:聚类分析及其R语言实现
Lynn Wen
数据分析学习总结笔记
数据分析学习总结笔记02:聚类分析及其R语言实现1.聚类分析概述1.1聚类分析简介1.2聚类分析原理1.3聚类&分类1.4如何刻画相似度?2.聚类分析的方法2.1层次聚类2.1.1层次聚类步骤2.1.2简介2.1.3层次聚类的类型2.1.4层次聚类族群个数的选择2.1.5层次聚类R语言实践2.2非层次聚类——K-Means2.2.1K-means聚类简介2.2.2K-means聚类步骤2.2.3k
- 数据分析学习总结笔记06:T检验的原理和步骤
Lynn Wen
数据分析学习总结笔记
数据分析学习总结笔记06:T检验的原理和步骤1单样本T检验1.1单样本T检验概念1.2单样本T检验步骤2独立样本T检验2.1独立样本T检验概念2.2独立样本T检验步骤1单样本T检验1.1单样本T检验概念目的:利用来自某总体的样本数据,推断该总体的均值是否与指定的检验值之间存在显著性差异。前提:样本来自的总体服从正态分布。基本思想:首先,计算出样本均值;其次,根据经验或以往的调查结果,对总体的均值提
- 数据分析学习总结笔记12:空间自相关——空间位置与相近位置的指标测度
Lynn Wen
数据分析学习总结笔记
文章目录1空间地理相关性2技术性定义3空间相关类型4Moran’sI(莫兰系数)5空间自相关的应用6案例研究:意大利人口迁移分析7总结8实现工具1空间地理相关性地理空间自相关是指一个物体与附近其他物体的相似程度。通俗地说,它度量的是相近物体与其他相近物体的相似程度。地理信息系统的第一规则:一切事物都与其他事物相关联。但是相近事物比较远事物更相关(Waldor.Tobler,1970)。为了理解这个
- 数据分析学习总结笔记01:情感分析
Lynn Wen
数据分析学习总结笔记
数据分析学习总结笔记01:情感分析1.情感分析概述1.1什么是情感分析1.2情感分析的范畴1.3细粒度情感分析1.4情感分析的实际应用2.情感分析方法2.1情感分析基本步骤2.2情感分析分类2.2.1基于情感词典2.2.2基于机器学习2.2.3混合方法2.3情感分析评价标准[^1]3.情感分析工具3.1可能用到的软件3.2情感分析网站3.2Python情感分析APIs3.3情感分析资源[^4]3.
- HttpClient 4.3与4.3版本以下版本比较
spjich
javahttpclient
网上利用java发送http请求的代码很多,一搜一大把,有的利用的是java.net.*下的HttpURLConnection,有的用httpclient,而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。
httpclient又可分为
httpclient3.x
httpclient4.x到httpclient4.3以下
httpclient4.3
- Essential Studio Enterprise Edition 2015 v1新功能体验
Axiba
.net
概述:Essential Studio已全线升级至2015 v1版本了!新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件,还有其他一些控件功能升级,精彩不容错过,让我们一起来看看吧!
syncfusion公司是世界领先的Windows开发组件提供商,该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
- [宇宙与天文]微波背景辐射值与地球温度
comsci
背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢?
如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢?
&nbs
- lvs-server
男人50
server
#!/bin/bash
#
# LVS script for VS/DR
#
#./etc/rc.d/init.d/functions
#
VIP=10.10.6.252
RIP1=10.10.6.101
RIP2=10.10.6.13
PORT=80
case $1 in
start)
/sbin/ifconfig eth2:0 $VIP broadca
- java的WebCollector爬虫框架
oloz
爬虫
WebCollector主页:
https://github.com/CrawlScript/WebCollector
下载:webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。
接下来看demo
package org.spider.myspider;
import cn.edu.hfut.dmic.webcollector.cra
- jQuery append 与 after 的区别
小猪猪08
1、after函数
定义和用法:
after() 方法在被选元素后插入指定的内容。
语法:
$(selector).after(content)
实例:
<html>
<head>
<script type="text/javascript" src="/jquery/jquery.js"></scr
- mysql知识充电
香水浓
mysql
索引
索引是在存储引擎中实现的,因此每种存储引擎的索引都不一定完全相同,并且每种存储引擎也不一定支持所有索引类型。
根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引,总索引长度至少为256字节。
大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种:BTREE和HASH,具体和表的存储引擎相关;
MYISAM和InnoDB存储引擎
- 我的架构经验系列文章索引
agevs
架构
下面是一些个人架构上的总结,本来想只在公司内部进行共享的,因此内容写的口语化一点,也没什么图示,所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全,希望抛砖引玉,大家互相讨论。
要注意,我这些文章是一个总体的架构经验不针对具体的语言和平台,因此也不一定是适用所有的语言和平台的。
(内容是前几天写的,现附上索引)
前端架构 http://www.
- Android so lib库远程http下载和动态注册
aijuans
andorid
一、背景
在开发Android应用程序的实现,有时候需要引入第三方so lib库,但第三方so库比较大,例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验,发现通过远程下载so文件,然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。
二、主要
- linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法
baalwolf
option
在客户端访问subversion版本库时出现这个错误:
svnserve.conf:12: Option expected
为什么会出现这个错误呢,就是因为subversion读取配置文件svnserve.conf时,无法识别有前置空格的配置文件,如### This file controls the configuration of the svnserve daemon, if you##
- MongoDB的连接池和连接管理
BigCat2013
mongodb
在关系型数据库中,我们总是需要关闭使用的数据库连接,不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制,如果正对此有疑惑的朋友可以看一下。
通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧,mongoDB中当我们new一个Mongo的时候,会发现它也
- AngularJS使用Socket.IO
bijian1013
JavaScriptAngularJSSocket.IO
目前,web应用普遍被要求是实时web应用,即服务端的数据更新之后,应用能立即更新。以前使用的技术(例如polling)存在一些局限性,而且有时我们需要在客户端打开一个socket,然后进行通信。
Socket.IO(http://socket.io/)是一个非常优秀的库,它可以帮你实
- [Maven学习笔记四]Maven依赖特性
bit1129
maven
三个模块
为了说明问题,以用户登陆小web应用为例。通常一个web应用分为三个模块,模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web,
user-service依赖于user-core
user-web依赖于user-core和user-service
依赖作用范围
Maven的dependency定义
- 【Akka一】Akka入门
bit1129
akka
什么是Akka
Message-Driven Runtime is the Foundation to Reactive Applications
In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
- zabbix_api之perl语言写法
ronin47
zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java--http://bossr.iteye.com/blog/2195679,这次用perl。for example: #!/usr/bin/perl
use 5.010 ;
use strict ;
use warnings ;
use JSON :: RPC :: Client ;
use
- 比优衣库跟牛掰的视频流出了,兄弟连Linux运维工程师课堂实录,更加刺激,更加实在!
brotherlamp
linux运维工程师linux运维工程师教程linux运维工程师视频linux运维工程师资料linux运维工程师自学
比优衣库跟牛掰的视频流出了,兄弟连Linux运维工程师课堂实录,更加刺激,更加实在!
-----------------------------------------------------
兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1
链接:http://pan.baidu.com/s/1i3GQtGL 密码:bl65
兄弟连Lin
- bitmap求哈密顿距离-给定N(1<=N<=100000)个五维的点A(x1,x2,x3,x4,x5),求两个点X(x1,x2,x3,x4,x5)和Y(
bylijinnan
java
import java.util.Random;
/**
* 题目:
* 给定N(1<=N<=100000)个五维的点A(x1,x2,x3,x4,x5),求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5),
* 使得他们的哈密顿距离(d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|)最大
- map的三种遍历方法
chicony
map
package com.test;
import java.util.Collection;
import java.util.HashMap;
import java.util.Iterator;
import java.util.Map;
import java.util.Set;
public class TestMap {
public static v
- Linux安装mysql的一些坑
chenchao051
linux
1、mysql不建议在root用户下运行
2、出现服务启动不了,111错误,注意要用chown来赋予权限, 我在root用户下装的mysql,我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf)
chown -R cc /etc/init.d/mysql
- Sublime Text 3 配置
daizj
配置Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项:no_bold不显示粗体字,no_italic不显示斜体字,no_antialias和
- MySQL server has gone away 问题的解决方法
dcj3sjt126com
SQL Server
MySQL server has gone away 问题解决方法,需要的朋友可以参考下。
应用程序(比如PHP)长时间的执行批量的MYSQL语句。执行一个SQL,但SQL语句过大或者语句中含有BLOB或者longblob字段。比如,图片数据的处理。都容易引起MySQL server has gone away。 今天遇到类似的情景,MySQL只是冷冷的说:MySQL server h
- javascript/dom:固定居中效果
dcj3sjt126com
JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml&
- 使用 Spring 2.5 注释驱动的 IoC 功能
e200702084
springbean配置管理IOCOffice
使用 Spring 2.5 注释驱动的 IoC 功能
developerWorks
文档选项
将打印机的版面设置成横向打印模式
打印本页
将此页作为电子邮件发送
将此页作为电子邮件发送
级别: 初级
陈 雄华 (
[email protected]), 技术总监, 宝宝淘网络科技有限公司
2008 年 2 月 28 日
&nb
- MongoDB常用操作命令
geeksun
mongodb
1. 基本操作
db.AddUser(username,password) 添加用户
db.auth(usrename,password) 设置数据库连接验证
db.cloneDataBase(fromhost)
- php写守护进程(Daemon)
hongtoushizi
PHP
转载自: http://blog.csdn.net/tengzhaorong/article/details/9764655
守护进程(Daemon)是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。
1、基本概念
&nbs
- spring整合mybatis,关于注入Dao对象出错问题
jonsvien
DAOspringbeanmybatisprototype
今天在公司测试功能时发现一问题:
先进行代码说明:
1,controller配置了Scope="prototype"(表明每一次请求都是原子型)
@resource/@autowired service对象都可以(两种注解都可以)。
2,service 配置了Scope="prototype"(表明每一次请求都是原子型)
- 对象关系行为模式之标识映射
home198979
PHP架构企业应用对象关系标识映射
HELLO!架构
一、概念
identity Map:通过在映射中保存每个已经加载的对象,确保每个对象只加载一次,当要访问对象的时候,通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射,Mapper类的getFromMap方法就是实现标识映射的实现。
二、为什么要使用标识映射?
在数据源架构模式之数据映射器中
//c
- Linux下hosts文件详解
pda158
linux
1、主机名: 无论在局域网还是INTERNET上,每台主机都有一个IP地址,是为了区分此台主机和彼台主机,也就是说IP地址就是主机的门牌号。 公网:IP地址不方便记忆,所以又有了域名。域名只是在公网(INtERNET)中存在,每个域名都对应一个IP地址,但一个IP地址可有对应多个域名。 局域网:每台机器都有一个主机名,用于主机与主机之间的便于区分,就可以为每台机器设置主机
- nginx配置文件粗解
spjich
javanginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
- 数学函数
w54653520
java
public
class
S {
// 传入两个整数,进行比较,返回两个数中的最大值的方法。
public
int
get(
int
num1,
int
nu