apropos(‘tab’)
http://finzi.psych.upenn.edu/search.html
双击tab键将返回所有可能的补全命令列表
options(digits = ) #参数为1至22,默认7
options(show.error.messages=T)
remove.packages(c('pkg1','pkg2'), lib = file.path('path','to','library'))
detach('package:pkg')
search()
.packages(all.available = T)
#le10=10*10^9
#1.2e-4=0.00012
library(openxlsx)
file <- file.choose()
a <- read.xlsx(xlsxFile =file,sheet = 1)
library(pdftools) #加载PDF包
library(tidyverse)
#file <- file.choose()
file <- "C:\\Users\\检验结果1.pdf"
pdf <- pdf_text(file) %>% readr::read_lines()
head(pdf)
data(iris)
data()
data(package = .packages(all.available = TRUE))
#packages(all.available = TRUE)表示可用的安装包
choose.dir()
(fread是真的很快)
library(data.table)
data<-fread("附件 1.csv")
ls()
#手动选择清华镜像
options(repos=structure(c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/")))
install.packages("RCurl")
library(caret)
confusionMatrix(actual, predicted)
unlist(dataframename)
cut(x = value,breaks =c(-Inf,20,40,60,Inf),labels =c("(-Inf,20)","[20,40)","[40-60)","[60,Inf)"),right = F)
#right默认为T,即(a,b],表示右边是为闭,是包含b值的,整个区间是左开右闭
#right改为F,表示不包含b值
library(car)
leveneTest(y = newdata$总费用,group=newdata$costtype)
答:集成学习中,他们属于抽样的方式,bagging是等概率抽样,boosting是根据错误率进行抽样
答:分类,估值,预测,聚类,描述,可视化,文本分析,复杂数据挖掘(爬虫)txt、web、图形图像、视频、音频
答:层次聚类(凝聚的层次聚类和分裂的层次聚类),k中心聚类/k均值聚类,BIRCH,DBSCAN
需要事先确定k,类别数,以此来确定随机点的个数, 这一分类的思想是,人为确定类别数k后,系统设定k个随机点,作为类别中心,其他点根据距离最近被分配到这k个中心中,再计算k个类别的中心/均值作为新的类别中心,循环,只至迭代一定次数后,每个类别趋于稳定
答:获得同等大小的k个数据集,将k-1作为训练集构建出训练模型,剩下的那个作为测试集,得到性能指标的测试值,重复k次,得到k个性能指标值,取平均.一般k取10
答:
abline的使用(一般做回归线)
在图上加水平直线
abline(h=)
在图上加垂直直线
abline(v=x)
在图上加y=a+bx的直线
abline(a,b)
在图上绘出线性方程y=a+bx
abline(lm.obj)
lines的使用(一般做连线图)
lines(x,y)