binggorun

第四章排序：智能收件箱

library(tm)
library(ggplot2)
library(dplyr)
library(reshape2)
library(tidyr)
library(lubridate)

data.path<-'D:\\ML_for_Hackers-master\\03-Classification\\data\\'
easyham.path<-paste0(data.path,'easy_ham\\')

easyham.path

‘D:\ML_for_Hackers-master\03-Classification\data\easy_ham\’

提取邮件有用信息（发送者、主题、日期、内容等）

parse.email<-function(path){
    full.msg<-msg.full(path)
    date<-get.date(full.msg)
    from<-get.from(full.msg)
    subj<-get.subject(full.msg)
    msg<-get.msg(full.msg)
    return(c(date,from,subj,msg,path))
}

读取一封邮件

msg.full<-function(path){
    con<-file(path,'r')
    msg<-readLines(con,encoding='latin1')
    close(con)
    return(msg)
}

提取邮件地址

get.from<-function(msg.vec){
     from<-msg.vec[grepl('From: ',msg.vec)]
     from<-strsplit(from,'[":<> ]')[[1]]
     from<-from[which(from != "" & from != " ")]
     return(from[grepl('@',from)][1])
}

提取邮件正文

get.msg<-function(msg.vec){
    msg <- msg.vec[seq(which(msg.vec == "")[1]+1,length(msg.vec))]
    return(paste(msg,collapse='\n'))
}

提取邮件主题

get.subject<-function(msg.vec){
    subj<-msg.vec[grepl('Subject: ',msg.vec)]
    if(length(subj)>0){
        return(strsplit(subj,'Subject: ')[[1]][2])
    }
    else{
        return('')
    }
}

邮件接收日期

get.date<-function(msg.vec){
    date.grep<-grepl('^Date: ',msg.vec)
    date.grep<-which(date.grep == TRUE)
    date<-msg.vec[date.grep[1]]
    date<-strsplit(date,'\\+|\\-|: ')[[1]][2]
    date<-gsub('^\\s+|\\s+$','',date)
    return(strtrim(date,25))
}

easyham.docs<-dir(easyham.path)
easyham.docs<-easyham.docs[which(easyham.docs!='cmds')]

easyham.parse<-lapply(easyham.docs,function(p) parse.email(paste0(easyham.path,p))) ## lapply函数分别对各个邮件进行处理

ehparse.matrix<-do.call(rbind,easyham.parse)
allparse.df<-data.frame(ehparse.matrix,stringsAsFactors=F)
names(allparse.df)<-c('Date','From.Email','Subject','Message','Path')

head(allparse.df[,1:3])

Date	From.Email	Subject
Thu, 22 Aug 2002 18:26:25	[email protected]	Re: New Sequences Window
Thu, 22 Aug 2002 12:46:18	[email protected]	[zzzzteana] RE: Alexander
Thu, 22 Aug 2002 13:52:38	[email protected]	[zzzzteana] Moscow bomber
Thu, 22 Aug 2002 09:15:25	[email protected]	[IRR] Klez: The Virus That Won’t Die
Thu, 22 Aug 2002 14:38:22	[email protected]	Re: [zzzzteana] Nothing like mama used to make
Thu, 22 Aug 2002 14:50:31	[email protected]	Re: [zzzzteana] Nothing like mama used to make

日期格式转化

date.converter<-function(dates,pattern1,pattern2){
    pattern1.convert<-strptime(dates,pattern1)
    pattern2.convert<-strptime(dates,pattern2)
    pattern1.convert[is.na(pattern1.convert)]<-pattern2.convert[is.na(pattern1.convert)]
    return(pattern1.convert)
}

Sys.setlocale("LC_TIME", "C")
pattern1 <- "%a,%d %b %Y %H:%M:%S"
pattern2 <- "%d %b %Y %H:%M:%S"

‘C’

head(priority.df[,c(1,2,3,5)])

	Date	From.Email	Subject	Path
1061	2002-01-31 22:44:14	[email protected]	please help a newbie compile mplayer :-)	D:\ML_for_Hackers-master\03-Classification\data\easy_ham\01061.6610124afa2a5844d41951439d1c1068
1062	2002-02-01 00:53:41	[email protected]	re: please help a newbie compile mplayer :-)	D:\ML_for_Hackers-master\03-Classification\data\easy_ham\01062.ef7955b391f9b161f3f2106c8cda5edb
1063	2002-02-01 02:01:44	[email protected]	re: please help a newbie compile mplayer :-)	D:\ML_for_Hackers-master\03-Classification\data\easy_ham\01063.ad3449bd2890a29828ac3978ca8c02ab
1064	2002-02-01 10:29:23	[email protected]	re: please help a newbie compile mplayer :-)	D:\ML_for_Hackers-master\03-Classification\data\easy_ham\01064.9f4fc60b4e27bba3561e322c82d5f7ff
1070	2002-02-01 12:42:02	[email protected]	prob. w/ install/uninstall	D:\ML_for_Hackers-master\03-Classification\data\easy_ham\01070.6e34c1053a1840779780a315fb083057
1072	2002-02-01 13:39:31	[email protected]	re: prob. w/ install/uninstall	D:\ML_for_Hackers-master\03-Classification\data\easy_ham\01072.81ed44b31e111f9c1e47e53f4dfbefe3

allparse.df$Date<-date.converter(allparse.df$Date,pattern1,pattern2)
allparse.df$Subject<-tolower(allparse.df$Subject)
allparse.df$From.Email<-tolower(allparse.df$From.Email)

选取前一半时间的数据（训练数据）进行测试

priority.df<-allparse.df[with(allparse.df,order(Date)),]

priority.train<-priority.df[1:(round(nrow(priority.df)/2)),]

计算各个发送者发送邮件的数量

from.weight<-select(priority.train,-Date) %>% group_by(From.Email) %>% summarise(Freq=length(Subject))

head(from.weight)

From.Email	Freq
[email protected]	1
[email protected]	1
[email protected]	1
[email protected]	1
[email protected]	1
[email protected]	6

from.weight_map <-subset(from.weight,Freq>6)
from.weight_map<-from.weight_map[order(from.weight_map$Freq),]

tail(from.weight_map)

From.Email	Freq
[email protected]	24
[email protected]	25
[email protected]	29
[email protected]	34
[email protected]	37
[email protected]	45

取次数大于6的数据画图

ggplot(from.weight_map,aes(x=reorder(From.Email,Freq),y=Freq))+geom_bar(stat="identity",color='green')+coord_flip()

取不同对数类型的差异

test1<-data.frame(y=from.weight[order(from.weight$Freq),]$Freq,x=1:nrow(from.weight),type=rep(1,nrow(from.weight)))
test2<-data.frame(y=log(from.weight[order(from.weight$Freq),]$Freq),x=1:nrow(from.weight),type=rep(2,nrow(from.weight)))
test3<-data.frame(y=log10(from.weight[order(from.weight$Freq),]$Freq),x=1:nrow(from.weight),type=rep(3,nrow(from.weight)))

test<-rbind(test1,test2,test3)

ggplot(test,aes(x,y,color=type,group = type))+geom_line()+ylab('接收邮件数')+xlab('')

from.weight<-transform(from.weight,Weight=log(Freq+1))

找出回复他人的邮件

find.threads<-function(email.df){
    response.threads<-strsplit(email.df$Subject,'re: ')
    is.thread<-sapply(response.threads,function(subj) ifelse(subj[1]=='',TRUE,FALSE))

        threads<-response.threads[is.thread]
        senders<-email.df$From.Email[is.thread]
        threads<-sapply(threads,function(t) paste(t[2:length(t)],collapse='re: '))
        return(cbind(senders,threads))
}

threads.matrix<-find.threads(priority.train)

head(threads.matrix)

senders	threads
[email protected]	please help a newbie compile mplayer :-)
[email protected]	please help a newbie compile mplayer :-)
[email protected]	please help a newbie compile mplayer :-)
[email protected]	prob. w/ install/uninstall
[email protected]	prob. w/ install/uninstall
[email protected]	http://apt.nixia.no/

计算每个邮件回复他人的数量及构建权重

email.thread<-function(thread.matrix){
    sender<-threads.matrix[,1]
    senders.freq<-table(sender)
    senders.matrix<-cbind(names(senders.freq),senders.freq,log(senders.freq+1))
    senders.df<-data.frame(senders.matrix,stringsAsFactors=FALSE)
    row.names(senders.df)<-1:nrow(senders.df)
    names(senders.df)<-c('From.Email','Freq','Weight')
    senders.df$Freq<-as.numeric(senders.df$Freq)
    senders.df$Weight<-as.numeric(senders.df$Weight)
    return(senders.df)
}

senders.df<-email.thread(threads.matrix)

head(senders.df)

From.Email	Freq	Weight
[email protected]	1	0.6931472
[email protected]	5	1.7917595
[email protected]	1	0.6931472
[email protected]	1	0.6931472
[email protected]	1	0.6931472
[email protected]	1	0.6931472

计算同一主题的线程时间差，并赋值

get.threads<-function(threads.matrix,email.df){
    threads<-unique(threads.matrix[,2])
    thread.counts<-lapply(threads,function(t) thread.counts(t,email.df))
        thread.matrix<-do.call(rbind,thread.counts)
        return(cbind(threads,thread.matrix))
}

thread.counts<-function(thread,email.df){
    thread.times<-email.df$Date[which(email.df$Subject==thread|email.df$Subject==paste('re:',thread))]
    freq<-length(thread.times)
    min.times<-min(thread.times)
    max.times<-max(thread.times)
    time.span<-as.numeric(difftime(max.times,min.times,units='secs'))
    if(freq<2){
        return(c(NA,NA,NA))
    }
    else{
        trans.weight<-freq/time.span
        log.trans.weight<-10+log(trans.weight,base=10)
        return(c(freq,time.span,log.trans.weight))
    }
}

thread.weights<-get.threads(threads.matrix,priority.train)

thread.weights<-data.frame(thread.weights,stringsAsFactors=FALSE)

names(thread.weights)<-c('Thread','Freq','Response','Weight')

thread.weights$Freq<-as.numeric(thread.weights$Freq)
thread.weights$Response<-as.numeric(thread.weights$Response)
thread.weights$Weight<-as.numeric(thread.weights$Weight)
thread.weights<-subset(thread.weights,is.na(thread.weights$Freq)==FALSE)

head(thread.weights)

Thread	Freq	Response	Weight
please help a newbie compile mplayer :-)	4	42309	5.975627
prob. w/ install/uninstall	4	23745	6.226488
http://apt.nixia.no/	10	265303	5.576258
problems with ‘apt-get -f install’	3	55960	5.729244
problems with apt update	2	6347	6.498461
about apt, kernel updates and dist-upgrade	5	240238	5.318328

计算主题的词频

term.counts<-function(term.vec,control){
    vec.corpus<-Corpus(VectorSource(term.vec))
    vec.tdm<-TermDocumentMatrix(vec.corpus,control=control)
    return(rowSums(as.matrix(vec.tdm)))
}

thread.terms<-term.counts(thread.weights$Thread,control=list(strpwords=stopwords()))

head(thread.terms)

compile: 2
help: 2
mplayer: 2
newbie: 2
please: 2
install: 2

thread.terms<-names(thread.terms)

term.weights<-sapply(thread.terms,function(t) mean(thread.weights$Weight[grepl(t,thread.weights$Thread,fixed=TRUE)])) ##计算存在关键词的主题的权重的均值

term.weights<-data.frame(list(Term=names(term.weights),Weight=term.weights),stringsAsFactors=FALSE,row.names=1:length(term.weights))

head(term.weights)

Term	Weight
compile	5.803255
help	5.427126
mplayer	6.724644
newbie	5.444172
please	6.309005
install	5.977866

计算邮件内容的词频，并据此赋权重

msg.terms<-term.counts(priority.train$Message,control=list(stopwords=stopwords(),removePunctuation=TRUE,removeNumbers=TRUE))

msg.weights<-data.frame(list(Term=names(msg.terms),Weight=log(msg.terms,base=10)),stringsAsFactors=FALSE,row.names=1:length(msg.terms))

msg.weights<-subset(msg.weights,Weight>0)

head(msg.weights)

Term	Weight
anyway	1.875061
appreciated	1.176091
apt	2.255273
can	3.077004
directory	2.056905
document	1.278754

最终的训练数据

head(from.weight)                    ##社交特征
head(senders.df)                    ##发件人在线程内的活跃度(re:)
head(thread.weights)                ##线程（一个主题存在多个邮件）的活跃度
head(term.weights)                 ##活跃线程的词项
head(msg.weights)                  ##所有邮件共有词项

From.Email	Freq	Weight
[email protected]	1	0.6931472
[email protected]	1	0.6931472
[email protected]	1	0.6931472
[email protected]	1	0.6931472
[email protected]	1	0.6931472
[email protected]	6	1.9459101

From.Email	Freq	Weight
[email protected]	1	0.6931472
[email protected]	5	1.7917595
[email protected]	1	0.6931472
[email protected]	1	0.6931472
[email protected]	1	0.6931472
[email protected]	1	0.6931472

Thread	Freq	Response	Weight
please help a newbie compile mplayer :-)	4	42309	5.975627
prob. w/ install/uninstall	4	23745	6.226488
http://apt.nixia.no/	10	265303	5.576258
problems with ‘apt-get -f install’	3	55960	5.729244
problems with apt update	2	6347	6.498461
about apt, kernel updates and dist-upgrade	5	240238	5.318328

Term	Weight
compile	5.803255
help	5.427126
mplayer	6.724644
newbie	5.444172
please	6.309005
install	5.977866

Term	Weight
anyway	1.875061
appreciated	1.176091
apt	2.255273
can	3.077004
directory	2.056905
document	1.278754

训练和测试排序算法

get.weights<- function(search.term,weight.df,term=TRUE){
    if(length(search.term)>0){
        if(term){
            term.match<-match(names(search.term),weight.df$Term)
        }
        else{
            term.match<-match(search.term,weight.df$Thread)
        }
        match.weights<-weight.df$Weight[which(!is.na(term.match))]
        if(length(match.weights)<1){
            return(1)
        }
        else{
            return(mean(match.weights))
        }
    }
    else{
        return(1)
    }
}

计算每封邮件的的权重（相乘）

rank.message<-function(path){
    msg<-parse.email(path)
    #Weighting based on message author  return(c(date,from,subj,msg,path))

    #First  is just on the total frequency
    from <- ifelse(length(which(from.weight$From.Email==msg[2]))>0,from.weight$Weight[which(from.weight$From.Email==msg[2])],1)

    #Second is based on senders in threads ,and threads themselves
    thread.from<-ifelse(length(which(senders.df$From.Email==msg[2]))>0,senders.df$Weight[which(senders.df$From.Email==msg[2])],1)

    subj<-strsplit(tolower(msg[3]),'re: ')
    is.thread<-ifelse(subj[[1]][1]=='',TRUE,FALSE)
    if(is.thread){
        activity<-get.weights(subj[[1]][2],thread.weights,term=FALSE)
    }
    else{
        activity=1
    }
    #Next,weight based on terms
    #Weight based on terms in threads
    thread.terms <- term.counts(msg[3],control=list(stopwords=stopwords()))
    thread.terms.weights<-get.weights(thread.terms,term.weights)

    #Weight baesd term in all messages
    msg.terms<-term.counts(msg[4],control=list(stopwords=stopwords(),removePunctuation=TRUE,removeNumbers=TRUE))
    msg.weights<-get.weights(msg.terms,msg.weights)

    #Calcuate rank by interacting all weights
    rank <- prod(from,thread.from,activity,thread.terms.weights,msg.weights)##连乘

    return(c(msg[1],msg[2],msg[3],rank))
}

训练集和测试集

##拆分训练集和测试集
train.paths<-priority.df$Path[1:(round(nrow(priority.df)/2))]
test.paths<-priority.df$Path[((round(nrow(priority.df)/2))+1):nrow(priority.df)]

训练数据集结果

train.ranks<-lapply(train.paths,rank.message)##计算评分
train.ranks.matrix<-do.call(rbind,train.ranks)
train.ranks.matrix<-cbind(train.paths,train.ranks.matrix,'TRAINING')
train.ranks.df<-data.frame(train.ranks.matrix,stringsAsFactors=FALSE)
names(train.ranks.df)<-c('Message','Date','From','Subj','Rank','Type')
train.ranks.df$Rank<-as.numeric(train.ranks.df$Rank)

priority.threshold<-median(train.ranks.df$Rank)##评分的中位数

train.ranks.df$Priority<-ifelse(train.ranks.df$Rank>=priority.threshold,1,0)
train.ranks.df$Date<-date.converter(train.ranks.df$Date,pattern1,pattern2)

nrow(priority.df)

2500

train.ranks.df[15,]

	Message	Date	From	Subj	Rank	Type	Priority
15	D:\ML_for_Hackers-master\03-Classification\data\easy_ham\01078.e83af8e93466283be2ba03e34854682e	2002-02-02 08:11:08	[email protected]	Re: problems with ‘apt-get -f install’	371.1476	TRAINING	1

priority.threshold

59.2488866334203

ggplot(train.ranks.df,aes(x=Rank))+stat_density(aes(fill="darkred"))+geom_vline(aes(xintercept=priority.threshold),color="green",linetype="dashed")+geom_text(aes(x=priority.threshold,y=0,label=round(priority.threshold,3)))

sd(train.ranks.df$Rank)

227.684723068453

测试数据集

test.ranks<-lapply(test.paths,rank.message)##计算评分
test.ranks.matrix<-do.call(rbind,test.ranks)
test.ranks.matrix<-cbind(test.paths,test.ranks.matrix,'TEST')
test.ranks.df<-data.frame(test.ranks.matrix,stringsAsFactors=FALSE)
names(test.ranks.df)<-c('Message','Date','From','Subj','Rank','Type')
test.ranks.df$Rank<-as.numeric(test.ranks.df$Rank)
test.ranks.df$Date<-date.converter(test.ranks.df$Date,pattern1,pattern2)

head(test.ranks.df)

Message	Date	From	Subj	Rank	Type
D:\ML_for_Hackers-master\03-Classification\data\easy_ham\00696.767a9ee8575785978ea5174d3ad3ee26	2002-09-21 19:13:52	[email protected]	Re: sed /s/United States/Roman Empire/g	573.38792	TEST
D:\ML_for_Hackers-master\03-Classification\data\easy_ham\00697.edd28212eb2b368046311fd1918aae7d	2002-09-21 20:37:43	[email protected]	E-Textiles Come into Style	16.69912	TEST
D:\ML_for_Hackers-master\03-Classification\data\easy_ham\00698.09cdefd75c1242540db1183f9fc54461	2002-09-21 22:59:23	[email protected]	flavor cystals	13.14839	TEST
D:\ML_for_Hackers-master\03-Classification\data\easy_ham\00702.bf064c61d1ba308535d0d8af3bcb1789	2002-09-22 03:00:48	[email protected]	Re: Oh my…	97.93984	TEST
D:\ML_for_Hackers-master\03-Classification\data\easy_ham\00699.29e599983f044aee500f3a58c34acffc	2002-09-22 03:13:08	[email protected]	Re: sed /s/United States/Roman Empire/g	453.67502	TEST
D:\ML_for_Hackers-master\03-Classification\data\easy_ham\00700.7eee792482a5a8cf20f1e4225f905f6b	2002-09-22 03:20:22	[email protected]	[vox] Anarchist ‘Scavenger Hunt’ Raises D.C. Police Ire (fwd)	22.28577	TEST

ggplot(train.ranks.df,aes(x=Rank))+geom_density(aes(color='green'))+geom_density(data=test.ranks.df,aes(x=Rank,color='red'))

列出排序靠前的40个

reslut <-test.ranks.df[order(test.ranks.df$Rank,decreasing=TRUE),][1:40,c(2,3,4,5)]
row.names(reslut)<-1:nrow(reslut)

reslut

Date	From	Subj	Rank
2002-09-23 18:02:05	[email protected]	Re: sylpheed-claws	660.0621
2002-09-23 17:41:20	[email protected]	Re: sylpheed-claws	648.4520
2002-09-21 19:13:52	[email protected]	Re: sed /s/United States/Roman Empire/g	573.3879
2002-09-22 15:53:43	[email protected]	RE: sed /s/United States/Roman Empire/g	484.4433
2002-09-23 15:09:46	[email protected]	Re: sed /s/United States/Roman Empire/g	470.8348
2002-09-22 03:13:08	[email protected]	Re: sed /s/United States/Roman Empire/g	453.6750
2002-09-22 22:11:03	[email protected]	Re: bad focus/click behaviours	426.6982
2002-09-22 22:21:49	[email protected]	Re: bad focus/click behaviours	423.0334
2002-09-22 22:00:37	[email protected]	Re: bad focus/click behaviours	417.7473
2002-09-22 12:03:36	[email protected]	Re: sed /s/United States/Roman Empire/g	407.2638
2002-09-22 22:08:16	[email protected]	Re: bad focus/click behaviours	404.7715
2002-09-23 11:18:16	[email protected]	Re: [VoID] a new low on the personals tip…	333.9248
2002-09-30 07:14:31	[email protected]	Re: New testing packages	320.5003
2002-09-27 12:33:23	[email protected]	RE: The Big Jump	282.4799
2002-09-25 23:09:39	[email protected]	Re: Exmh && speed	232.7133
2002-09-23 19:22:24	[email protected]	Not just like a virgin…a virgin…birth	154.8486
2002-09-30 21:46:08	[email protected]	Re: New testing packages	142.9437
2002-09-24 10:04:06	[email protected]	Re: 2002.06.00.00	141.7460
2002-09-28 19:37:42	[email protected]	Re: EBusiness Webforms: cluetrain has left the station	130.8743
2002-10-03 21:58:55	[email protected]	Re: Living Love - Another legacy of the 60’s	130.7779
2002-10-05 18:17:53	[email protected]	Re: [SAtalk] razor2 auth?	127.4101
2002-09-23 10:43:01	[email protected]	Re: sed /s/United States/Roman Empire/g	127.2770
2002-10-03 21:23:04	[email protected]	Re: [SAtalk] 2.42: est release?	126.8429
2002-09-25 18:45:29	[email protected]	Re: Digital radio playlists are prohibited?!	126.7640
2002-09-23 21:51:03	[email protected]	Re: How about subsidizing SSL access to Google?	125.8781
2002-10-02 11:12:42	[email protected]	Polit-spam	124.6367
2002-10-07 20:18:15	[email protected]	Re: [SAtalk] Re: AWL bug in 2.42?	123.8745
2002-09-23 12:48:34	[email protected]	Re: [SAtalk] Spam host?	123.7719
2002-10-09 18:23:20	[email protected]	Re: [SAtalk] Re: fully-public corpus of mail available	119.9497
2002-09-28 15:54:42	[email protected]	Re: EBusiness Webforms: cluetrain has left the station	117.8278
2002-09-30 22:59:46	[email protected]	Re: apt 0.5.7 on RH 7.x	115.8525
2002-09-23 18:48:24	[email protected]	Re: [Razor-users] razor unblessed reference	115.6458
2002-10-02 11:45:33	[email protected]	freshrpms.net resources (was Re: use new apt to do null to RH8	114.8119
2002-10-02 10:53:24	[email protected]	Re: use new apt to do null to RH8 upgrade?	114.5680
2002-09-30 23:28:59	[email protected]	Re: Internet Archive bookmobile	114.2242
2002-10-01 12:12:44	[email protected]	Re: use new apt to do null to RH8 upgrade?	114.1910
2002-09-30 22:00:02	[email protected]	Re: apt 0.5.7 on RH 7.x	113.4832
2002-09-26 16:08:14	[email protected]	Re: dumb question: X client behind a firewall?	112.4602
2002-09-30 21:50:46	[email protected]	Re: ALSA Problem with Null kernel	111.9554
2002-10-02 18:57:28	[email protected]	Re: use new apt to do null to RH8 upgrade?	110.3828

你可能感兴趣的:(优化算法,机器学习)

人工智能动画展示人类的特征 AGI大模型与大数据研究院 AI大模型应用开发实战 java python javascript kotlin golang 架构人工智能
人工智能，动画，人类特征，情感识别，行为模拟，机器学习，深度学习，自然语言处理1.背景介绍人工智能（AI）技术近年来发展迅速，已渗透到生活的方方面面。从智能语音助手到自动驾驶汽车，AI正在改变着我们的世界。然而，尽管AI技术取得了令人瞩目的成就，但它仍然难以完全模拟人类的复杂行为和特征。人类的特征是多方面的，包括情感、认知、社交和创造力等。这些特征是人类区别于其他生物的重要标志，也是人类社会文明发
《支持向量机（SVM）在医疗领域的变革性应用》 CodeJourney. 支持向量机算法机器学习
在医疗科技日新月异的今天，先进的数据分析与机器学习技术正逐渐成为提升诊疗水平、助力医学研究的关键力量。支持向量机（SVM），凭借其独特的优势，在医疗这片复杂且对精准度要求极高的领域崭露头角，带来诸多令人瞩目的应用成果。一、疾病诊断：癌症早期筛查的“火眼金睛”癌症，作为全球健康的“头号杀手”，早期诊断对提升患者生存率意义非凡。在乳腺癌筛查领域，SVM发挥着重要作用。医疗科研人员收集大量乳腺组织的影像
机器学习20-线性网络思考坐吃山猪机器学习机器学习人工智能线性网络
机器学习20-线性网络思考针对线性网络的基础问题，使用基础示例进行解释1-核心知识点1-线性模型家族的线性回归和逻辑回归分别是什么，线性模型家族还有没有其他的模型线性模型家族是一系列基于线性假设的统计模型，它们假设因变量和自变量之间存在线性关系。线性模型家族中的两个最常见模型是线性回归和逻辑回归。线性回归（LinearRegression）:线性回归是一种用于预测连续因变量的模型。它假设因变量yy
机器学习18-强化学习RLHF 坐吃山猪机器学习机器学习人工智能
机器学习18-强化学习RLHF1-什么是RLHFRLHF（ReinforcementLearningfromHumanFeedback）即基于人类反馈的强化学习算法，以下是详细介绍：基本原理RLHF是一种结合了强化学习和人类反馈的机器学习方法。传统的强化学习通常依赖于预定义的奖励函数来指导智能体的学习，而RLHF则通过引入人类的反馈来替代或补充传统的奖励函数。在训练过程中，人类会对智能体的行为或输
机器学习19-Transformer和AlexNet思考坐吃山猪机器学习机器学习 transformer 人工智能
Transformer和AlexNet思考关于Transformer和AlexNet发展的一些思考1-核心知识点Word2Vec的作用是什么，和Transformer的诞生有什么关系吗？AlexNet的主要核心思路是什么，为什么表现那么好？现在有什么比AlexNet更优秀的算法2-思路整理1-Word2Vec的作用是什么，和Transformer的诞生有什么关系吗？Word2Vec的作用Word2
机器学习21-线性网络思考坐吃山猪机器学习机器学习人工智能线性网络
机器学习21-线性网络思考针对线性网络的发展问题，进行补充学习1-核心知识点1-传统机器学习针对线性分类算法求解的方式有哪些？请详细列举不同的算法对应的损失函数和计算思路在传统机器学习中，线性分类算法是一种非常重要的方法，用于将数据划分为不同的类别。以下是几种常见的线性分类算法，包括它们的损失函数和计算思路：1.感知机（Perceptron）损失函数感知机的损失函数是基于误分类点的，其目标是最小化
Spring AI 第二讲之 Chat Model API 第五节HuggingFace Chat
HuggingFaceInferenceEndpoints允许您在云中部署和提供机器学习模型，并通过API对其进行访问。开始使用有关HuggingFaceInferenceEndpoints的更多详细信息，请访问此处。前提条件添加spring-ai-huggingface依赖关系：org.springframework.aispring-ai-huggingface获取HuggingFaceAPI
Python设置国内镜像教程 wh3933 python 开发语言
####引言Python是一种广泛使用的高级编程语言，用于各种编程任务，从简单的脚本到复杂的机器学习算法。在安装Python包时，通常需要从Python包索引（PyPI）下载。由于网络原因，直接从PyPI下载可能速度较慢，因此，使用国内的镜像源可以显著提高下载速度。本文将详细介绍如何在Python中设置国内镜像。####文章目的本篇文章旨在指导用户如何将Python的包管理工具`pip`的默认源切
机器学习宝典——第6章爱看烟花的码农机器学习人工智能
第6章：聚类算法(Clustering)你好，同学！欢迎来到无监督学习的世界。与监督学习不同，这里的我们没有“标准答案”（标签），我们的目标是在数据中发现隐藏的、内在的结构。聚类算法就是实现这一目标的核心工具，它试图将数据集中的样本划分为若干个不相交的子集，我们称之为“簇”(cluster)。本章我们将深入探讨三种最具代表性的聚类算法：K-均值(K-Means)、层次聚类(Hierarchical
基于条件风险价值CVaR的微网动态定价与调度策略（Matlab代码实现） Ps.729 matlab 开发语言
‍个人主页欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述一、CVaR的理论基础及其在微网中的适用性1.CVaR的定义与优势2.微网应用场景适配性二、动态定价与调度模型的联合优化框架1.目标函数设计2.动态定价机制3.不确定性处理方法三、关键算法与求解策略1.随机规划与CVaR集成2.智能优化算法对比四、实证
结构型智能科技的关键可行性——信息型智能向结构型智能的转变（修改提纲）刘海东刘海东人工智能机器学习算法
结构型智能科技的关键可行性——信息型智能向结构型智能的转变1.信息型智能科技概述1.1传统计算机科技的信息型继承者1.2信息型智能环境1.3信息型智能主体1.4机器学习创造的智能1.5信息型智能科技的缺陷2.结构型智能科技概述2.1传统计算机科技向生命结构的发展2.2结构型智能科技的环境2.3结构型智能科技创造的机器生命2.4结构型智能科技的科学性3.结构型智能科技的关键可行性——信息型智能向结构
多模态大模型：技术原理与实战看清GPT的进化史和创新点 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
多模态大模型：技术原理与实战看清GPT的进化史和创新点1.背景介绍1.1人工智能的发展历程1.1.1早期人工智能1.1.2机器学习时代1.1.3深度学习的崛起1.2自然语言处理的演进1.2.1基于规则的方法1.2.2统计机器学习方法1.2.3深度学习方法1.3大语言模型的出现1.3.1Transformer架构的提出1.3.2GPT系列模型的发展1.3.3多模态大模型的兴起2.核心概念与联系2.1
【机器学习|学习笔记】组合特征（Feature Combinations）是提升模型性能、挖掘特征交互信息、增强非线性表达能力的有效手段。努力毕业的小土博^_^ 机器学习学习笔记机器学习学习笔记人工智能神经网络深度学习
【机器学习|学习笔记】组合特征（FeatureCombinations）是提升模型性能、挖掘特征交互信息、增强非线性表达能力的有效手段。【机器学习|学习笔记】组合特征（FeatureCombinations）是提升模型性能、挖掘特征交互信息、增强非线性表达能力的有效手段。文章目录【机器学习|学习笔记】组合特征（FeatureCombinations）是提升模型性能、挖掘特征交互信息、增强非线性表达
R语言的软件开发工具纪霁然包罗万象 golang 开发语言后端
R语言的软件开发工具引言R语言因其强大的数据分析能力和丰富的统计包，自发布以来便广受欢迎。随着数据科学和分析的迅猛发展，R语言也逐渐成为数据分析、机器学习和统计建模领域的重要工具。为了更好地利用R语言进行软件开发，许多软件开发工具和环境应运而生。本文将深入探讨R语言的主要开发工具，帮助开发者更高效地进行数据处理和分析。1.R和RStudio基础R语言本身是一个用于统计计算和图形绘制的编程语言，而R
结合创新idea：机器学习+运筹优化=CCF高端局 Ai多利机器学习人工智能
2024深度学习发论文&模型涨点之——机器学习+运筹优化机器学习是人工智能的一个分支，它使计算机系统能够从数据中学习并改进其性能，而无需进行明确的编程。运筹优化，也称为运筹学或运营管理，是应用数学的一个分支，它使用数学模型和算法来支持复杂决策过程的制定。机器学习与运筹优化的结合是一个前沿且活跃的研究领域，它们相互补充，为解决复杂问题提供了新的思路和方法。小编整理了一些机器学习+运筹优化【论文+代码
Jupyter安装指南及Python配置 CodeWG python jupyter ide Python
Jupyter是一个非常流行的交互式计算环境，广泛用于数据分析、机器学习和科学计算等领域。本文将详细介绍如何安装Jupyter并配置Python环境。步骤1：安装Python首先，我们需要安装Python。请按照以下步骤进行操作：打开Python官方网站（https://www.python.org）并下载适用于您操作系统的最新版本的Python。运行下载的安装程序，并按照向导的指示进行安装。在安
Python scikit-learn 【机器学习库】全面讲解
让AI成为我们的得力助手：《用Cursor玩转AI辅助编程——不写代码也能做软件开发》scikit-learn（简称sklearn）是Python最流行的机器学习库之一，提供简单高效的数据挖掘和数据分析工具。它基于NumPy、SciPy和Matplotlib构建，广泛应用于工业界和学术界。核心优势统一API设计：所有模型使用一致的接口（fit()、predict()、score()）丰富的算法：覆
供应链管理：MES制造执行系统与APS高级排程系统解析快雪时晴-初晴融雪供应链管理供应链管理
一、MES制造执行系统与APS高级排程系统解析维度MES制造执行系统APS高级排程系统定义制造执行系统，用于管理和监控制造过程，实现生产过程的实时监控、数据采集、质量管理、工艺执行等功能。高级计划与排程系统，通过优化算法和模型，在有限资源条件下制定最优生产计划，提高生产效率和灵活性。核心功能-生产计划与调度：细化ERP计划为可执行工单，动态调整生产进度。-生产过程管理：记录工序执行情况，实时监控异
供应链风险管理：AI预测潜在风险 AI智能应用 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
供应链风险管理,AI预测,机器学习,深度学习,自然语言处理,风险评估,供应链可视化1.背景介绍在当今全球化经济体系中，供应链的复杂性和脆弱性日益凸显。供应链风险是指任何可能对供应链正常运行造成负面影响的事件或因素。这些风险可能来自自然灾害、政治动荡、经济波动、技术故障、供应商违约等方面。一旦供应链风险爆发，可能会导致生产中断、产品短缺、成本飙升、品牌形象受损等严重后果。传统供应链风险管理方法主要依
供应链风险管理：AI如何预测供应链风险 AI大模型应用之禅 java python javascript kotlin golang 架构人工智能
供应链风险管理,AI预测,机器学习,深度学习,自然语言处理,时间序列分析,风险评估1.背景介绍在当今全球化经济体系中，供应链风险已成为企业面临的重大挑战。供应链的复杂性和不可预测性使得企业更容易受到各种风险的影响，例如自然灾害、政治动荡、经济波动、疫情爆发等。这些风险可能导致供应中断、成本增加、交付延迟，甚至损害企业声誉。传统供应链风险管理方法主要依赖于经验和专家判断，缺乏数据驱动和预测能力。随着
【极光优化算法+分解对比】VMD-PLO-Transformer-LSTM多变量时间序列光伏功率预测Matlab代码 matlab科研助手算法 transformer lstm
✅作者简介：热爱数据处理、建模、算法设计的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍光伏发电作为一种清洁能源，其功率预测对于电网稳定运行和电力系统调度至关重要。然而，光伏功率具有高度的非线性和波动性，传统的预测方法难以准确捕捉其动态特性。近年来，深度学习技术在时间序列预测领域取得了显著进展，为提高光伏功率预测精度提供了新的途径
2024大模型秋招LLM相关面试题整理 AGI大模型资料分享官人工智能深度学习机器学习自然语言处理语言模型 easyui
0一些基础术语大模型：一般指1亿以上参数的模型，但是这个标准一直在升级，目前万亿参数以上的模型也有了。大语言模型（LargeLanguageModel，LLM）是针对语言的大模型。175B、60B、540B等：这些一般指参数的个数，B是Billion/十亿的意思，175B是1750亿参数，这是ChatGPT大约的参数规模。强化学习：（ReinforcementLearning）一种机器学习的方法，
【python实用小脚本-127】基于 Python 的 Google 图片爬取工具：实现高效图片数据收集 Kyln.Wu Python python 开发语言
引言在数据科学、机器学习和多媒体应用中，图片数据的收集是一个常见且重要的任务。Google图片是一个丰富的图片资源库，能够为各种项目提供大量的图片数据。本文将介绍一个基于Python的Google图片爬取工具，它能够自动化地从Google图片搜索结果中下载图片。该工具主要利用了Python的selenium、BeautifulSoup、urllib和argparse库，结合了网页自动化和数据解析技
【Python爬虫进阶】从网页抓取到数据清洗与存储——完整实战教程 Python爬虫项目 python 爬虫开发语言 javascript 自然语言处理 selenium
1.为什么网页抓取后需要数据清洗？在实际项目中，抓取的原始数据往往是杂乱的、不完整的、格式各异的。如果不清洗，直接用来建模、分析，会导致：脏数据干扰（如乱码、重复数据）异常值影响结果（如薪资异常高）格式不统一（比如地点有中文名和英文名混杂）所以，抓取数据后，必须进行系统清洗与标准化，才能用于后续的：数据分析可视化展示机器学习建模2.项目概览：从抓取到存储的完整流程本项目流程如下：确定抓取目标（某招
验证码破解的可能与不可能：用Python处理图片验证码的原理与限制程序员威哥 python 开发语言
前言验证码（CAPTCHA）是当前互联网防护机制中的重要组成部分，用于区分真人与自动程序。近年来，随着自动化技术发展，验证码破解成为自动化测试、爬虫及安全研究领域的热点。然而，从技术层面来看，验证码破解既有可行之处，也存在根本限制。本文将结合Python图像处理与机器学习技术，深度剖析图片验证码破解的原理、实践与瓶颈。一、验证码的分类及破解难点1.验证码类型字符型验证码纯数字、字母或混合，最常见。
flask部署机器学习_如何开发端到端机器学习项目并使用Flask将其部署到Heroku cumichun6193 大数据 python 机器学习人工智能深度学习
flask部署机器学习There'sonequestionIalwaysgetaskedregardingDataScience:关于数据科学，我经常被问到一个问题：WhatisthebestwaytomasterDataScience?Whatwillgetmehired?掌握数据科学的最佳方法是什么？什么会雇用我？Myanswerremainsconstant:Thereisnoalterna
人工智能赋能气象气候：从数据智能到预测创新的融合之路慌ZHANG 人工智能人工智能
个人主页：慌ZHANG-CSDN博客期待您的关注一、引言：气象气候与AI的“天然耦合”气象与气候系统是典型的复杂、多尺度、强非线性的自然系统，其建模、分析与预测依赖庞大观测数据和高性能计算资源。传统方法以数值天气预报（NWP）与物理建模为核心，虽然取得重要成就，但也面临计算代价大、精度不足、长期预测偏差大等瓶颈。与此同时，人工智能（AI），尤其是以深度学习为代表的机器学习方法，近年来在图像识别、自
【机器学习|学习笔记】类别特征（Categorical Features）处理方法，附代码。努力毕业的小土博^_^ 机器学习学习笔记机器学习学习笔记神经网络人工智能深度学习
【机器学习|学习笔记】类别特征（CategoricalFeatures）处理方法，附代码。【机器学习|学习笔记】类别特征（CategoricalFeatures）处理方法，附代码。文章目录【机器学习|学习笔记】类别特征（CategoricalFeatures）处理方法，附代码。前言✅为什么要处理类别特征？原因1：大多数模型不能处理字符串原因2：避免“错误的顺序假设”原因3：方便模型泛化与特征交互✅
Python中使用Graphviz绘制决策树图解黃昱儒
本文还有配套的精品资源，点击获取简介：Graphviz是一款用于数据可视化和算法流程展示的图形绘制软件，特别适用于Python中绘制决策树和其他图形类型。本安装包包含Graphviz安装程序和配置指南，以及如何在Python中利用pydot库等第三方库进行图形绘制的详细步骤。通过配置环境变量和利用DOT语言，用户可以将决策树模型转换为可视化图形，加深对机器学习模型的理解和调试。1.Graphviz
深度学习前置知识全面解析：从机器学习到深度学习的进阶之路
一、引言：人工智能时代的核心技术在当今这个数据爆炸的时代，人工智能(AI)已经成为推动社会进步的核心技术之一。作为AI领域最重要的分支，深度学习(DeepLearning)在计算机视觉、自然语言处理、语音识别等领域取得了突破性进展，彻底改变了我们与机器交互的方式。本教案将从机器学习的基础知识出发，系统性地介绍深度学习的核心概念、数学基础、网络架构和训练方法，为读者构建完整的知识体系框架。无论你是刚
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s

第四章 排序：智能收件箱

提取邮件有用信息（发送者、主题、日期、内容等）

读取一封邮件

提取邮件地址

提取邮件正文

提取邮件主题

邮件接收日期

日期格式转化

选取前一半时间的数据（训练数据）进行测试

计算各个发送者发送邮件的数量

取次数大于6的数据画图

取不同对数类型的差异

找出回复他人的邮件

计算每个邮件回复他人的数量及构建权重

计算同一主题的线程时间差，并赋值

计算主题的词频

计算邮件内容的词频，并据此赋权重

最终的训练数据

训练和测试排序算法

计算每封邮件的的权重（相乘）

训练集和测试集

训练数据集结果

测试数据集

列出排序靠前的40个

你可能感兴趣的:(优化算法,机器学习)

第四章排序：智能收件箱