一个通用html抽取类

首先先放正文,我把换行去掉了为了省正则的写法.下面以新浪微博为例子


然后就是我的代码了

package com.ansj.sun.pojo;

import java.util.ArrayList;
import java.util.Iterator;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class AnsjPaser {

private String beginRegex;

private String endRegex;

private Matcher matcher;

public final static String TEXTTEGEX = ".*?";

public final static String W = "\\W*?" ;

public final static String N = "" ;

private List filterRegexList = new ArrayList();

/**
*
* @param beginRegex 起始正则
* @param endRegex 结束正则
* @param content 需要解析的正文(如果没有此项必须为rest设置)
* @param textRegex 其实和结束正则中间的部分,默认为.*?
*/
public AnsjPaser(String beginRegex, String endRegex, String content,
String textRegex) {

this.beginRegex = beginRegex;

this.endRegex = endRegex;

StringBuilder sb = new StringBuilder();

sb.append(beginRegex);

sb.append(textRegex);

sb.append(endRegex);

matcher = Pattern.compile(sb.toString()).matcher(content);
}

/**
*
* @param beginRegex 起始正则
* @param endRegex 结束正则
* @param textRegex 其实和结束正则中间的部分,默认为.*?
*/
public AnsjPaser(String beginRegex, String endRegex, String textRegex) {

this.beginRegex = beginRegex;

this.endRegex = endRegex;

StringBuilder sb = new StringBuilder();

sb.append(beginRegex);

sb.append(textRegex);

sb.append(endRegex);

matcher = Pattern.compile(sb.toString()).matcher(N);
}


/**
* @param beginRegex 起始正则
* @param endRegex 结束正则
*/
public AnsjPaser(String beginRegex, String endRegex) {

this.beginRegex = beginRegex;

this.endRegex = endRegex;

StringBuilder sb = new StringBuilder();

sb.append(beginRegex);

sb.append(TEXTTEGEX);

sb.append(endRegex);

matcher = Pattern.compile(sb.toString()).matcher(N);
}

/**
* @创建人:Ansj -创建时间:2011-8-16 下午09:30:56
* @方法描述: @return 返回正则内的内容去除了开始和结束标签,和需要过滤的正则返回用户需要的真正的内容
*/
public String getText() {
if (matcher.find()) {
String str = matcher.group().trim().replaceFirst(beginRegex, N)
.replaceAll(endRegex, N);
Iterator it = filterRegexList.iterator() ;
while(it.hasNext()){
str = str.replaceAll(it.next(), N) ;
}
return str ;
}
return null;
}

/*
* 得到下一个
*/
public String getNext() {
return matcher.group();
}

/*
* 是否包含下一个
*/
public boolean hasNext() {
return matcher.find();
}

/**
* @创建人:Ansj -创建时间:2011-8-17 上午12:11:12
* @方法描述: @param content 需要解析的正文
* @方法描述: @return 返回本身
* 这个方法是将此解析器重置,相当于重头开始.但是一些正则配置给予保留
*/
public AnsjPaser reset(String content) {
this.matcher.reset(content);
return this ;
}

/*
* 添加getText的正则过滤条件
*/
public AnsjPaser addFilterRegex(String filterRegex){
filterRegexList.add(filterRegex) ;
return this ;
}

}




这里是调用例子


package com.ansj.sun.impl;

import java.io.BufferedReader;
import java.io.IOException;

import com.ansj.sun.pojo.AnsjPaser;
import com.ansj.sun.util.IOUtil;

public class HtmlPaser{

public static void main(String[] args) throws IOException {
//阅读正文
BufferedReader br = IOUtil.getReader(
"C:\\Users\\caiqing\\Desktop\\ajax采集\\zhanghuaping.html",
"UTF-8");
StringBuilder sb = new StringBuilder();
String temp = null;
while ((temp = br.readLine()) != null) {
sb.append(temp);
}

System.out.println(sb);
// 模块抽取
String beginRegex = "
\\W*?

String endRegex = "

\\W*?
";
AnsjPaser ansjHtml = new AnsjPaser(beginRegex, endRegex, sb.toString(),
AnsjPaser.TEXTTEGEX);
// 正文抽取
beginRegex = "

";
endRegex = "

";
AnsjPaser ansjContent = new AnsjPaser(beginRegex, endRegex).addFilterRegex("<.*?>");
// 时间抽取
beginRegex = "onclick=\"GB_SUDA._S_uaTrack\\('weibo_transmit','time_origin'\\);\"> endRegex = "\">";
AnsjPaser ansjPubTime = new AnsjPaser(beginRegex, endRegex);
// 来源抽取
beginRegex = "来自";
endRegex = "";
AnsjPaser ansjFrom = new AnsjPaser(beginRegex, endRegex);
// 转发抽取
beginRegex = "转发\\(";
endRegex = "\\)
";
AnsjPaser ansjRepeat = new AnsjPaser(beginRegex, endRegex);
// 评论抽取
beginRegex = "评论\\(";
endRegex = "\\)
";
AnsjPaser ansjComment = new AnsjPaser(beginRegex, endRegex);

//开始抽取
while (ansjHtml.hasNext()) {

String c1 = ansjHtml.getNext();

System.out
.println("=========================================================================");

System.out.println("时间:" + ansjPubTime.reset(c1).getText());

System.out.println("来源:" + ansjFrom.reset(c1).getText());

String str = ansjRepeat.reset(c1).getText();
System.out.println("转发:"
+ ((str == null || "".equals(str)) ? "0" : str));

str = ansjComment.reset(c1).getText();
System.out.println("评论:"
+ ((str == null || "".equals(str)) ? "0" : str));

System.out.println("正文:" + ansjContent.reset(c1).getText());

}

}

}




这个是返回结果


=========================================================================
时间:2011-08-15 10:19:24
来源:iPhone客户端
转发:0
评论:4
正文:云南石林奇景,难忘云南昆明的#yssnlp#
=========================================================================
时间:2011-08-12 09:23:37
来源:新浪微博
转发:2
评论:1
正文:#YSSNLP#听上海交大刘功申副教授的报告“面向内容安全的自然语言关键技术研究”,敢说话,尺度很大,佩服!回想差不多十年在内容安全领域内的研究和工程经验,从初始的神秘感觉很酷,到最后的做了不敢说不愿说。
=========================================================================
时间:2011-08-11 15:58:05
来源:iPhone客户端
转发:3
评论:7
正文:听哈工大刘挺教授的报告:从语言计算到社会计算,社会网络的兴起促进了计算社会科学的兴趣,很有见地!
=========================================================================
时间:2011-08-11 13:16:30
来源:iPhone客户端
转发:1
评论:0
正文:这个资源是我们采用自动采集抽取得到的,然后经过邮政发达的连锁网络进行数据校对。有需要的可以联系我
=========================================================================
时间:2011-08-11 11:35:02
来源:新浪微博
转发:2
评论:0
正文:听富士通的报告,看到富士通生成的互联网企业信息监控系统,和网络舆情的企业化应用一致,有意思。
=========================================================================
时间:2011-08-11 10:03:14
来源:新浪微博
转发:8
评论:1
正文:听百度高级科学家王海峰的报告“面向互联网的泛自然语言处理”,新数据新资源:海量网页资源,用户行为数据,用户产生数据;新思路新方法:贴近真实需求与数据、平衡数据与算法、模拟真实应用的实验平台,基于实际需求的研究,基于最终应用的开发,一直是我所推崇的自然语言研究方法和思路。很有共鸣。
=========================================================================
时间:2011-08-11 08:39:37
来源:iPhone客户端
转发:1
评论:1
正文:第八届全国自然语言处理青年学者研讨会 #yssnlp2011#
=========================================================================
时间:2011-08-10 22:38:02
来源:新浪微博
转发:2
评论:2
正文:云南滇池温泉花园国际大酒店,夜游滇池,很美,晚上聆听床边的虫鸣,远离了北京每夜的喧嚣,难得的清净
=========================================================================
时间:2011-08-10 21:20:37
来源:iPhone客户端
转发:0
评论:1
正文:夕阳,滇池,余正涛教授组织得很精细
=========================================================================
时间:2011-08-10 18:21:55
来源:iPhone客户端
转发:1
评论:0
正文:我在这里:#昆明市区#参加全国青年学者自然语言学术会议,受邀制的会议,不发论文纯研讨会,交流更充分更单纯,见到好多老朋友了。
=========================================================================
时间:2011-08-06 11:12:40
来源:新浪微博
转发:3
评论:4
正文:推理结论:1)说明博士老板很给力,好像科学院没这么多过,一直是2K以内;2)没有经济基础的高校“青椒”必须先解决生存问题才能解决生产问题,高校改革的核心思路不在于花美国的价召唤海归女婿的华丽报国,而在于用中国的价码给土鳖缓解菜色之忧,毕竟他们才是高校教育的一线火枪手,决定教育质量。
=========================================================================
时间:2011-08-04 09:52:26
来源:新浪新闻中心
转发:1
评论:1
正文:#郭美美#1.头一回听郎教授采访,有些磕巴,问得没有那么一针见血,炫耀背书准备工作,他还是写书条理清晰,比较潮的话题把握得不如娱乐或者时事主持人;2.郭美美比想象中的还要无知无畏,如果没有幕后人,很快就能问出真相;3.郭妈妈是个有故事不简单的人,整个事件的突破口所在 http://t.cn/a82Y2Q
=========================================================================
时间:2011-08-02 11:16:40
来源:新浪微博
转发:0
评论:0
正文:祝贺师弟获此殊荣,以后改称于领军了。//@白硕sse:同祝贺。 //@景伟NLP:祝贺! @ICTCLAS张华平博士 @白硕sse @
=========================================================================
时间:2011-07-31 17:41:14
来源:新浪微博
转发:3
评论:2
正文:ICTCLAS张华平博士:#红十字信息公开#测试续:作为程序控和测试控,必须得说红十字会能公开一些数据有进步,值得肯定,但是错漏百出,如果需要,我们团队愿意协助做数据的纠错与系统的测试,该系统的再次查询老是错误,我们愿意帮助免费测试或者研发。支持的请转发 @中国红十字会总会
=========================================================================
时间:2011-07-29 12:49:44
来源:新浪微博
转发:4
评论:2
正文:【温州动车追尾】用对救援铺天盖地的歌功颂德来掩饰严重失职,用天灾抹去人祸的痕迹,5-12后的今天才能从境外媒体聆听到受难者悲怆控诉。**在温州的危机公关吸纳了很多微博等网络媒体的舆情民意,这是庶民的胜利,也是政府危机处理的一次胜利转型。但愿成为常态化,我们还要继续呐喊。
=========================================================================
时间:2011-07-28 13:31:18
来源:关联博客
转发:3
评论:1
正文:ICTCLAS2011 0728在Win7下C与C#调用的升级包 http://t.cn/aj30qU
=========================================================================
时间:2011-07-26 17:26:03
来源:iPhone客户端
转发:1
评论:0
正文:与sigir2011组委会**,国际信息检索知名学者聂建芸老师交流。
=========================================================================
时间:2011-07-26 11:43:55
来源:iPhone客户端
转发:1
评论:0
正文:参加#sigir2011#
=========================================================================
时间:2011-07-25 14:37:28
来源:新浪微博
转发:1
评论:1
正文:【温州动车脱轨】我们都坐在这条快速而不安全的高速火车上,不知道什么时候什么地点会有什么神奇的遭遇,但愿火车上的人互助呐喊,破窗改变。奇迹小女孩伊伊让我们莫名的悲痛酸楚,让我们这些人更要坚强!一路走好,祝福你们,但愿那个世界没有这些草菅人命的恶心人恶心是
=========================================================================
时间:2011-07-24 15:18:47
来源:新浪微博
转发:11
评论:3
正文:【温州动车追尾】中午CCTV对铁道部盛光祖部长采访,部长表示已经在调集最好的医生,还有周边的医疗救护小组正在赶来,最后记者说了一句:谢谢部长,然后礼貌离开。铁道部已然是救命的恩主,部长已然成了救世主了?不奢望部长引咎辞职,但感觉不到起码的歉意。记者敢直面声讨的动车才是真正的和谐号。
=========================================================================
时间:2011-07-24 10:55:20
来源:新浪新闻中心
转发:18
评论:8
正文:温州动车追尾的报道还在延续悲催的中国特色:多报道英勇救援的感人事迹,少报道受害者的哭天抢地;多报道市民排队献血,少报道满地遇难者的流血;多强调天灾,少分析人祸;多报道遇难后的领导关切批示,不挖领导之前的不作为制造豆腐渣的内幕;灾难不怕,怕的是不挖内幕不反思,怕大团圆后灾难依然。
=========================================================================
时间:2011-07-23 22:06:10
来源:新浪微博
转发:1
评论:1
正文:做任何一件大事情,好的领导者心中必须有大局,同时设立一个个小的里程碑,每天一点小进步,三天有局部成果,才会激励我辈小人物做进一步的钻研。目标越远大越抽象,落实越要小而可行。他几天完成了比较难的初步工作,在此基础上已经开始进一步的挑战,必须得肯定。
=========================================================================
时间:2011-07-23 15:43:17
来源:新浪微博
转发:15
评论:5
正文:最近在做微博相关的研究,安排其中一个同学做电影评论分析,半年叮嘱下来语料库都没有收集齐全,说一直很忙;另外一个同学一声不吭花了三天的时间做了个微博关键词分析,效率很高健壮性也不错。两位我都觉得很聪明,偷懒的那个尤其聪明,结论:现在上过大学的人都很聪明,后续的成就多半靠爱好与勤奋。
=========================================================================
时间:2011-07-21 09:37:35
来源:新浪微博
转发:0
评论:0
正文:广西贡院对联:十年寒窗诵四书言五经习六艺只为龙门一跃, 三考得志官七品威八面竭九尊全因河鲤重生。
=========================================================================
时间:2011-07-18 15:52:42
来源:iPhone客户端
转发:2
评论:9
正文:在北理工听普度大学计算机教授luo si 报告machine learning approach in information retrieval
=========================================================================
时间:2011-07-18 11:31:22
来源:iPhone客户端
转发:2
评论:2
正文:回复 @白硕sse:佛度众生,幻化万象,再好的精神也要以老百姓喜闻乐见的形式才能引人向善,甚至是不惜低俗化,先请君入瓮,再润物无声,最后大师再予以提升。毛**将马列主义在农村具体为打土豪分田地。华罗庚要去工厂推广统筹法? //@白硕sse:这个劝学篇,非常典型地体现了中国人对待知识的实用主义态
=========================================================================
时间:2011-07-18 11:13:13
来源:iPhone客户端
转发:13
评论:6
正文:宋真宗劝学篇:男儿欲遂平生志,五经勤向窗前读。
=========================================================================
时间:2011-07-14 14:17:13
来源:新浪微博
转发:7
评论:9
正文:刚从最高检所属的正义网http://t.cn/hM8is 回来,拜会了技术总监以及舆情研究院执行副院长,一起吃饭交流。总算知道:原来网上曝光和举报的各类信息就是这个Team在收集管理并给政法领导汇报,领导还是很清楚网络的,网络的各类举报不是没人理,不是不报时候未到。但愿嚣张跋扈者都会有报应。
=========================================================================
时间:2011-07-13 16:30:52
来源:新浪微博
转发:13
评论:30
正文:刚从桂林开一个学术会议回来,团队的一个小伙悄悄告诉我,新浪微博的登录、采集与抽取,咱搞定了。亲自测试一番,果然如此,好兴奋,以后几乎没有我们获取不了的网络内容了,facebook,校内,都不在话下,之后的进一步研究就轻松多了
=========================================================================
时间:2011-07-13 11:33:08
来源:iPhone客户端
转发:6
评论:0
正文:想起老家父母似乎一直都在这样激励自己自立、为人、勇敢。感动
=========================================================================
时间:2011-07-13 11:18:42
来源:iPhone客户端
转发:0
评论:1
正文:回复 @kristy珍子:有点闲工夫做点公民教育:Cctv拿的是纳税人的钱,商业广告收入有我的贡献,电视台是公共场合,在自家客厅撒泼光膀子叫爷爷装爹别人管不着,但是公共场所和公共人物就必须有禁忌,不能伤风化,这是公共道德。你很喜欢张涵韵,但是你父母辈的可以不喜欢也可以批评。保留不同观念之自由
=========================================================================
时间:2011-07-12 19:50:01
来源:iPhone客户端
转发:0
评论:0
正文:老外着中国皇帝装致晚宴欢迎辞。
=========================================================================
时间:2011-07-12 19:44:30
来源:iPhone客户端
转发:1
评论:15
正文:哈哈哈,不小心捅了张涵韵粉丝的马蜂窝。看得懂的人都知道我在批评cctv以及我要上春晚,鄙人不是任何人的粉丝,就算是也绝不放弃冷静观察与独立批评公众媒体与公众人物之权力。
=========================================================================
时间:2011-07-12 18:17:44
来源:新浪微博
转发:5
评论:17
正文:[CCTV不是你家客厅]昨晚回宾馆手欠,不小心看到了2011第一期我要上春晚,刘德华韩红闫肃三位评委干爹干哥干妹的乱叫一气,张含韵上台后认刘德华干爹认董卿干妈认韩红干姑认闫肃干爷爷,肿么了?这是CCTV吗,CCTV是你家客厅吗?一地鸡皮疙瘩,低俗无聊之极!
=========================================================================
时间:2011-07-12 15:29:58
来源:iPhone客户端
转发:3
评论:5
正文:香港中文大学黄锦辉教授演讲,查询驱动的自动摘要。
=========================================================================
时间:2011-07-12 09:47:39
来源:iPhone客户端
转发:1
评论:1
正文:桂林象鼻山
=========================================================================
时间:2011-07-11 15:51:30
来源:iPhone客户端
转发:0
评论:3
正文:进入了桂林,参加明天的一个小型国际会议。
=========================================================================
时间:2011-07-10 20:17:47
来源:iPhone客户端
转发:1
评论:3
正文:读南方周末编的"晚清变局与民国乱象",感觉在借古讽今:以富国强兵为目的的行政制度改革,说到底是朝廷的私事。如果政府权力不被限制,即使国富民强了,也只能增加统治者侵犯个人自由的能力,增加统治者骄傲自满的情绪,进一步败坏民族精神。历史反复证明,这样的政治改革也未必能促进国家的强盛
=========================================================================
时间:2011-07-10 10:57:01
来源:新浪微博
转发:4
评论:3
正文:昨天跟一拨朋友在海棠红私人餐厅聚会,结识了@牛魔王的珍满福拉面 ,一个27年的资深IT人,在1年半时间扩张到100多家连锁店,采用IT垂直管理的模式,实现了标准化管理与经营;同时,建立规范的工会凝聚员工之间的向心力,其独到的管理以及对餐饮连锁的细节打造,着实让人佩服。
=========================================================================
时间:2011-07-08 18:48:07
来源:新浪微博
转发:4
评论:2
正文:【郭美美背后金主:历史文化之谜】破解要点:1)爱马仕等名包属于郭MM之母,郭母或许才是真正的卖主;2)为什么深圳王军愿意顶包,翁涛爆料,天略老板送豪车;3)红十字会能捞钱,但是起对网络管控的能量尚不具备?美国《越狱》的编剧告诉我们:屁民看到的不过是皮毛,Company幕后真正boss可以操控国家。
=========================================================================
时间:2011-07-08 18:34:25
来源:新浪微博
转发:2
评论:3
正文:【郭美美背后金主:历史文化之谜】:悲催的郭美美事件,跟踪了10来天,将我的研究方向引入了历史文化之谜,研究内容主要包括:《圣经》中都藏有什么秘密,谁是日本第一代天皇,耶稣是人还是神,拿破仑死亡之谜,希特勒的性别之谜,郭美美背后金主是谁?
=========================================================================
时间:2011-07-05 11:23:01
来源:新浪微博
转发:4
评论:10
正文:ICTCLAS2011切分标注结果:儿子/n 生/v 性病/n 母/ng 倍感/v 安慰/an 悲催的,切分不算错误,但是不合语义逻辑。
=========================================================================
时间:2011-07-03 19:46:19
来源:iPhone客户端
转发:0
评论:1
正文:孩子的即兴作品,太阳下的兔子
=========================================================================
时间:2011-07-02 11:57:41
来源:iPhone客户端
转发:5
评论:3
正文:最牛校长叶志平只能在汶川地震三年得病去世后得到官方的表彰,否则三年前会有太多的校长及背后的长官因为豆腐渣被唾弃。社会表彰活着的顺从者和死去的叛逆者,文人不过是时代的点缀。
=========================================================================
时间:2011-07-02 11:49:58
来源:iPhone客户端
转发:1
评论:0
正文:我和谁都不争,和谁争我都不屑 《生与死》——英国诗人兰德暮年之作 Walter Savage Landor I strove with none; for none was worth my strife;
=========================================================================
时间:2011-06-30 11:26:24
来源:iPhone客户端
转发:0
评论:4
正文:网络搜索挖掘与安全实验室每周四开例会,实验室很快就壮大到了十几个人,最近还要加入新人,可以做很多研究工作了,今天由翟岩龙博士报告云计算报告,以后例会欢迎周边的同志参加。例会通知与报告发布均可以访问www.nlpir.org。
=========================================================================
时间:2011-06-28 16:30:56
来源:新浪微博
转发:0
评论:1
正文:回复@不会缝衣服的厨子:你说的有些道理,从另外一个角度辩证地看,大公司的狼性管理是把公司当成狼,把员工变成绵羊,从而缺乏创新,甚至逼得跳楼;真正的狼性管理是向《亮剑》李云龙一样带队伍,让每个成员都是有血性讲团结有牺牲精神开拓精神的狼,打造一支狼群,一支更有战斗力和创新精神的队伍。
=========================================================================
时间:2011-06-28 11:12:37
来源:新浪微博
转发:4
评论:7
正文:读完《狼图腾》:一部写民族性格的奇书,草原文化与农耕文化的强烈对比,狼生存的草原环境恶劣铸就了几万年以来狼有自己断骨的坚毅、卓越的军事素养,为了自由胜利不惜粉身碎骨的精神;越来越多的国人在人民内部是狼,遇到强敌即揭开画皮变成驯服的羊,国民性中的羊性与奴性值得我们反思。
=========================================================================
时间:2011-06-26 06:23:16
来源:iPhone客户端
转发:0
评论:4
正文:早起赶六点四十五的班车去良乡校区准备2010级的c语言的考试,总共五场,约2000人。起得比狗早,静谧的校园也是一景。





ICTCLAS张华平博士的微博 新浪微博-随时随地分享身边的新鲜事儿
北京理工大学副研究员,硕导,实验室主任张华平

举报身份 申请认证>>

  • 勋章:三好学生
  • 勋章:一言九顶
  • 勋章:语惊四座
  • 勋章:斗酒百篇
  • 勋章:七步成诗
  • 勋章:同城纪念
  • 勋章:MSN潮人
  • 勋章:谈笑风生
  • 勋章:如来神掌
  • 欢迎使用新浪微博并提出宝贵建议。请点击这里提交微博意见反馈。
ICTCLAS张华平博士
(设置备注)

http://weibo.com/drkevinzhang

北京,

博客:http://www.nlpir.org/

张华平博士的微博,专注于中文自然语言处理、信息检索、信息安全的学术交流与产业应用。欢迎访问自然语言处理与信息检索共享平台www.nlpir.org

快捷键列表:1 微博输入框 2 微博内容列表 3 搜索输入框 4 新消息
  • 云南石林奇景,难忘云南昆明的#yssnlp#

  • #YSSNLP#听上海交大刘功申副教授的报告“面向内容安全的自然语言关键技术研究”,敢说话,尺度很大,佩服!回想差不多十年在内容安全领域内的研究和工程经验,从初始的神秘感觉很酷,到最后的做了不敢说不愿说。

  • 听哈工大刘挺教授的报告:从语言计算到社会计算,社会网络的兴起促进了计算社会科学的兴趣,很有见地!

  • 这个资源是我们采用自动采集抽取得到的,然后经过邮政发达的连锁网络进行数据校对。有需要的可以联系我

    @张敏THU#YSSNLP#问答中有同行提到的数据:中国街道有300+万,企业名址库规模应有2000+万。有在做或使用类似资源的可以参考一下。

  • 听富士通的报告,看到富士通生成的互联网企业信息监控系统,和网络舆情的企业化应用一致,有意思。

  • 听百度高级科学家王海峰的报告“面向互联网的泛自然语言处理”,新数据新资源:海量网页资源,用户行为数据,用户产生数据;新思路新方法:贴近真实需求与数据、平衡数据与算法、模拟真实应用的实验平台,基于实际需求的研究,基于最终应用的开发,一直是我所推崇的自然语言研究方法和思路。很有共鸣。

  • 第八届全国自然语言处理青年学者研讨会 #yssnlp2011#

  • 云南滇池温泉花园国际大酒店,夜游滇池,很美,晚上聆听床边的虫鸣,远离了北京每夜的喧嚣,难得的清净

  • 夕阳,滇池,余正涛教授组织得很精细

  • 我在这里:#昆明市区#参加全国青年学者自然语言学术会议,受邀制的会议,不发论文纯研讨会,交流更充分更单纯,见到好多老朋友了。

  • 推理结论:1)说明博士老板很给力,好像科学院没这么多过,一直是2K以内;2)没有经济基础的高校“青椒”必须先解决生存问题才能解决生产问题,高校改革的核心思路不在于花美国的价召唤海归女婿的华丽报国,而在于用中国的价码给土鳖缓解菜色之忧,毕竟他们才是高校教育的一线火枪手,决定教育质量。

    @于东in北语:来北语之后领到了第一笔薪水,mark一下。但是从数量上来看,的确不敢恭维啊。虽然已经有很充分的思想准备了,但仍然有些发懵——这是半个月的吗?——竟然比读博士时的科研津贴还要低许多许多。。。

  • #郭美美#1.头一回听郎教授采访,有些磕巴,问得没有那么一针见血,炫耀背书准备工作,他还是写书条理清晰,比较潮的话题把握得不如娱乐或者时事主持人;2.郭美美比想象中的还要无知无畏,如果没有幕后人,很快就能问出真相;3.郭妈妈是个有故事不简单的人,整个事件的突破口所在 http://t.cn/a82Y2Q

  • 祝贺师弟获此殊荣,以后改称于领军了。//@白硕sse:同祝贺。 //@景伟NLP:祝贺! @ICTCLAS张华平博士 @白硕sse @

    @灵玖中科软件 热烈庆祝@NLP-于满泉 博士2011年舟山创新创业领军人才http://t.cn/aTzNvj

  • ICTCLAS张华平博士:#红十字信息公开#测试续:作为程序控和测试控,必须得说红十字会能公开一些数据有进步,值得肯定,但是错漏百出,如果需要,我们团队愿意协助做数据的纠错与系统的测试,该系统的再次查询老是错误,我们愿意帮助免费测试或者研发。支持的请转发 @中国红十字会总会

  • 【温州动车追尾】用对救援铺天盖地的歌功颂德来掩饰严重失职,用天灾抹去人祸的痕迹,5-12后的今天才能从境外媒体聆听到受难者悲怆控诉。**在温州的危机公关吸纳了很多微博等网络媒体的舆情民意,这是庶民的胜利,也是政府危机处理的一次胜利转型。但愿成为常态化,我们还要继续呐喊。

  • ICTCLAS2011 0728在Win7下C与C#调用的升级包 http://t.cn/aj30qU

  • 与sigir2011组委会**,国际信息检索知名学者聂建芸老师交流。

  • 【温州动车脱轨】我们都坐在这条快速而不安全的高速火车上,不知道什么时候什么地点会有什么神奇的遭遇,但愿火车上的人互助呐喊,破窗改变。奇迹小女孩伊伊让我们莫名的悲痛酸楚,让我们这些人更要坚强!一路走好,祝福你们,但愿那个世界没有这些草菅人命的恶心人恶心是

    @一一成长回忆录:人小脾气大,小宝贝,你什么时候才能长大懂事啊。

  • 【温州动车追尾】中午CCTV对铁道部盛光祖部长采访,部长表示已经在调集最好的医生,还有周边的医疗救护小组正在赶来,最后记者说了一句:谢谢部长,然后礼貌离开。铁道部已然是救命的恩主,部长已然成了救世主了?不奢望部长引咎辞职,但感觉不到起码的歉意。记者敢直面声讨的动车才是真正的和谐号。

  • 温州动车追尾的报道还在延续悲催的中国特色:多报道英勇救援的感人事迹,少报道受害者的哭天抢地;多报道市民排队献血,少报道满地遇难者的流血;多强调天灾,少分析人祸;多报道遇难后的领导关切批示,不挖领导之前的不作为制造豆腐渣的内幕;灾难不怕,怕的是不挖内幕不反思,怕大团圆后灾难依然。

  • 做任何一件大事情,好的领导者心中必须有大局,同时设立一个个小的里程碑,每天一点小进步,三天有局部成果,才会激励我辈小人物做进一步的钻研。目标越远大越抽象,落实越要小而可行。他几天完成了比较难的初步工作,在此基础上已经开始进一步的挑战,必须得肯定。

    @ICTCLAS张华平博士:最近在做微博相关的研究,安排其中一个同学做电影评论分析,半年叮嘱下来语料库都没有收集齐全,说一直很忙;另外一个同学一声不吭花了三天的时间做了个微博关键词分析,效率很高健壮性也不错。两位我都觉得很聪明,偷懒的那个尤其聪明,结论:现在上过大学的人都很聪明,后续的成就多半靠爱好与勤奋。

  • 最近在做微博相关的研究,安排其中一个同学做电影评论分析,半年叮嘱下来语料库都没有收集齐全,说一直很忙;另外一个同学一声不吭花了三天的时间做了个微博关键词分析,效率很高健壮性也不错。两位我都觉得很聪明,偷懒的那个尤其聪明,结论:现在上过大学的人都很聪明,后续的成就多半靠爱好与勤奋。

  • 广西贡院对联:十年寒窗诵四书言五经习六艺只为龙门一跃, 三考得志官七品威八面竭九尊全因河鲤重生。

  • 在北理工听普度大学计算机教授luo si 报告machine learning approach in information retrieval

  • 回复 @白硕sse:佛度众生,幻化万象,再好的精神也要以老百姓喜闻乐见的形式才能引人向善,甚至是不惜低俗化,先请君入瓮,再润物无声,最后大师再予以提升。***将马列主义在农村具体为打土豪分田地。华罗庚要去工厂推广统筹法? //@白硕sse:这个劝学篇,非常典型地体现了中国人对待知识的实用主义态

    @ICTCLAS张华平博士:宋真宗劝学篇:男儿欲遂平生志,五经勤向窗前读。

  • 宋真宗劝学篇:男儿欲遂平生志,五经勤向窗前读。

  • 刚从最高检所属的正义网http://t.cn/hM8is 回来,拜会了技术总监以及舆情研究院执行副院长,一起吃饭交流。总算知道:原来网上曝光和举报的各类信息就是这个Team在收集管理并给政法领导汇报,领导还是很清楚网络的,网络的各类举报不是没人理,不是不报时候未到。但愿嚣张跋扈者都会有报应。

  • 刚从桂林开一个学术会议回来,团队的一个小伙悄悄告诉我,新浪微博的登录、采集与抽取,咱搞定了。亲自测试一番,果然如此,好兴奋,以后几乎没有我们获取不了的网络内容了,facebook,校内,都不在话下,之后的进一步研究就轻松多了

  • 想起老家父母似乎一直都在这样激励自己自立、为人、勇敢。感动

    @最实用百科收罗:【农民三句话培养好孩子】:1、孩子,爸妈没本事,你要靠自己;2、孩子,做事先做人,一定不能做伤害别人的事;3、孩子,撒开手闯吧,实在不行,回家还有饭吃。【城里人三句话害孩子】:1.宝贝,好好学习就行,其他爸爸妈妈来办;2、宝贝,记住不能吃亏;3、我告诉你,再不好好学习,长大没饭吃...

  • 回复 @kristy珍子:有点闲工夫做点公民教育:Cctv拿的是纳税人的钱,商业广告收入有我的贡献,电视台是公共场合,在自家客厅撒泼光膀子叫爷爷装爹别人管不着,但是公共场所和公共人物就必须有禁忌,不能伤风化,这是公共道德。你很喜欢张涵韵,但是你父母辈的可以不喜欢也可以批评。保留不同观念之自由

    @ICTCLAS张华平博士:[CCTV不是你家客厅]昨晚回宾馆手欠,不小心看到了2011第一期我要上春晚,刘德华韩红闫肃三位评委干爹干哥干妹的乱叫一气,张含韵上台后认刘德华干爹认董卿干妈认韩红干姑认闫肃干爷爷,肿么了?这是CCTV吗,CCTV是你家客厅吗?一地鸡皮疙瘩,低俗无聊之极!

  • 老外着中国皇帝装致晚宴欢迎辞。

  • 哈哈哈,不小心捅了张涵韵粉丝的马蜂窝。看得懂的人都知道我在批评cctv以及我要上春晚,鄙人不是任何人的粉丝,就算是也绝不放弃冷静观察与独立批评公众媒体与公众人物之权力。

    @ICTCLAS张华平博士:[CCTV不是你家客厅]昨晚回宾馆手欠,不小心看到了2011第一期我要上春晚,刘德华韩红闫肃三位评委干爹干哥干妹的乱叫一气,张含韵上台后认刘德华干爹认董卿干妈认韩红干姑认闫肃干爷爷,肿么了?这是CCTV吗,CCTV是你家客厅吗?一地鸡皮疙瘩,低俗无聊之极!

  • [CCTV不是你家客厅]昨晚回宾馆手欠,不小心看到了2011第一期我要上春晚,刘德华韩红闫肃三位评委干爹干哥干妹的乱叫一气,张含韵上台后认刘德华干爹认董卿干妈认韩红干姑认闫肃干爷爷,肿么了?这是CCTV吗,CCTV是你家客厅吗?一地鸡皮疙瘩,低俗无聊之极!

  • 香港中文大学黄锦辉教授演讲,查询驱动的自动摘要。

  • 进入了桂林,参加明天的一个小型国际会议。

  • 读南方周末编的"晚清变局与民国乱象",感觉在借古讽今:以富国强兵为目的的行政制度改革,说到底是朝廷的私事。如果政府权力不被限制,即使国富民强了,也只能增加统治者侵犯个人自由的能力,增加统治者骄傲自满的情绪,进一步败坏民族精神。历史反复证明,这样的政治改革也未必能促进国家的强盛

  • 昨天跟一拨朋友在海棠红私人餐厅聚会,结识了@牛魔王的珍满福拉面 ,一个27年的资深IT人,在1年半时间扩张到100多家连锁店,采用IT垂直管理的模式,实现了标准化管理与经营;同时,建立规范的工会凝聚员工之间的向心力,其独到的管理以及对餐饮连锁的细节打造,着实让人佩服。

  • 【郭美美背后金主:历史文化之谜】破解要点:1)爱马仕等名包属于郭MM之母,郭母或许才是真正的卖主;2)为什么深圳王军愿意顶包,翁涛爆料,天略老板送豪车;3)红十字会能捞钱,但是起对网络管控的能量尚不具备?美国《越狱》的编剧告诉我们:屁民看到的不过是皮毛,Company幕后真正boss可以操控国家。

  • 【郭美美背后金主:历史文化之谜】:悲催的郭美美事件,跟踪了10来天,将我的研究方向引入了历史文化之谜,研究内容主要包括:《圣经》中都藏有什么秘密,谁是日本第一代天皇,耶稣是人还是神,拿破仑死亡之谜,希特勒的性别之谜,郭美美背后金主是谁?

  • ICTCLAS2011切分标注结果:儿子/n 生/v 性病/n 母/ng 倍感/v 安慰/an 悲催的,切分不算错误,但是不合语义逻辑。

    @全球时尚:第一次都会读错的报纸

  • 孩子的即兴作品,太阳下的兔子

  • 最牛校长叶志平只能在汶川地震三年得病去世后得到官方的表彰,否则三年前会有太多的校长及背后的长官因为豆腐渣被唾弃。社会表彰活着的顺从者和死去的叛逆者,文人不过是时代的点缀。

  • 我和谁都不争,和谁争我都不屑 《生与死》——英国诗人兰德暮年之作 Walter Savage Landor I strove with none; for none was worth my strife;

  • 网络搜索挖掘与安全实验室每周四开例会,实验室很快就壮大到了十几个人,最近还要加入新人,可以做很多研究工作了,今天由翟岩龙博士报告云计算报告,以后例会欢迎周边的同志参加。例会通知与报告发布均可以访问www.nlpir.org。

  • 回复@不会缝衣服的厨子:你说的有些道理,从另外一个角度辩证地看,大公司的狼性管理是把公司当成狼,把员工变成绵羊,从而缺乏创新,甚至逼得跳楼;真正的狼性管理是向《亮剑》李云龙一样带队伍,让每个成员都是有血性讲团结有牺牲精神开拓精神的狼,打造一支狼群,一支更有战斗力和创新精神的队伍。

    @ICTCLAS张华平博士:读完《狼图腾》:一部写民族性格的奇书,草原文化与农耕文化的强烈对比,狼生存的草原环境恶劣铸就了几万年以来狼有自己断骨的坚毅、卓越的军事素养,为了自由胜利不惜粉身碎骨的精神;越来越多的国人在人民内部是狼,遇到强敌即揭开画皮变成驯服的羊,国民性中的羊性与奴性值得我们反思。

  • 读完《狼图腾》:一部写民族性格的奇书,草原文化与农耕文化的强烈对比,狼生存的草原环境恶劣铸就了几万年以来狼有自己断骨的坚毅、卓越的军事素养,为了自由胜利不惜粉身碎骨的精神;越来越多的国人在人民内部是狼,遇到强敌即揭开画皮变成驯服的羊,国民性中的羊性与奴性值得我们反思。

  • 早起赶六点四十五的班车去良乡校区准备2010级的c语言的考试,总共五场,约2000人。起得比狗早,静谧的校园也是一景。

1 2 3 4 5 6 ... 9 下一页


你可能感兴趣的:(算法讨论,JAVASE)