chentingpc

用python做网页抓取与解析入门笔记

(from http://chentingpc.me/article/?id=961)

事情的起因是，我做survey的时候搜到了这两本书：Computational Social Network Analysis和Computational Social Network，感觉都蛮不错的，想下载下来看看，但是点开网页发现这个只能分章节下载，晕，我可没时间一章一章下载，想起了迅雷的下载全部链接，试试看，果真可以把他们一网打尽，但是，sadly，迅雷下载的时候，文件名没办法跟章节名对应起来，晕，我可没时间一章一章去改名字，怎么办呢？由于做过网站，我看着它那“整洁”的页面就笑了，因为这种规整的页面是有规律可循的，虽然下载PDF的每个链接都含有用HASH随机生成的数字码，但是HTML+CSS的排版是规整的，就可以用正则等方法来把title和PDF都挖出来并且一一对应上。想到下一步是要用到网页分析、抓取、下载的技术的，所以，今天就把这个技术给拿下吧。由于python似乎是我知道的这方面的“利器”，有比较好的原生和社区支持，简单明了以及良好的跨平台性，所以就用python来做这个工作了。

S1.目标

抓取一个网页并分析，从而：
- 得到半结构化数据，如抓取新浪微博一个页面中的内容。
- 得到其他网页的指针，如抓取新浪微博中下一个页面。
- 下载文件，如这次要下载PDF的任务。
多线程抓取与分布式抓取。
自动密钥破解。

S2.方法概述

有多少种方法可以用的呢？

1.自己写

urllib2+urlparse+re

最原始的办法，其中urllib2是python的web库、urlparse能处理url、re是正则库，这种方法写起来比较繁琐，但也比较“实在”，具体可以参考[4].

urllib2+beautifulsoup

这里的得力干将是beautifulsoup[5]，beautifulsoup可以非常有效的解析HTML页面，就可以免去自己用re去写繁琐的正则等。我比较喜欢这种方法，在下面具体讲解部分会详解。

Mechanize+BeautifulSoup

Mechanize是对于urllib2的部分功能的替换，使得除了http以外其他任何连接也都能被打开，也更加动态可配置，具体参考[6].

PycURL，据说速度非常快，具体方法可以参考[1][2].

2.公开库

Scrapy

这个暂且未尝试，这种公开的库的有点应该就是速度快、更强大，好像是可以并行的，所以以后有时间再尝试下。

其他更多的开源库参考[3].

S3.具体讲解

假设你已经把python安装好了（我用的版本是python2.7），现在我们用urllib2+BeautifulSoup的方法来抓取springerlink网站上的Computational Social Network Analysis和Computational Social Network，也就是上面提到的，这两本书。

BeautifulSoup的安装，我是在Windows下安装的，官网上没有window下安装的教程，我是凭感觉装上的。它有一个setup.py，我就用"python.exe setup.py install"运行了，但提示"error: package directory 'bs4' does not exist"，原来是默认python执行路径不在当前目录，而是在C盘下面的用户目录中，所以把bs4文件移动过去就好了。跑完好，生成一个build文件夹，我知道它肯定要放到Python文件下的LIB文件夹里面去，所以就把下面的bs4移到LIB中去，就可以了。以后要用，直接import即可。如果是linux用户装起来应该会更顺利些。

用urllib2抓取网页/下载文件，urllib中最关键的可能就是urlopen这个函数了，返回的就是这个webpage/文件对象，可以用read等方法将其读出来。urlopen这个函数的参数可以是url也可以是Request，如下：

req = urllib2.Request(url, headers={'User-Agent' : "Magic Browser"})

webpage= urllib2.urlopen(req)

webpage.read()...

这里要注意的一点是headers={‘User-Agent’:'Magic Browser'}，这个最好加上，否则的话，由于内部信息默认显示为机器代理，可能被服务器403 Forbidden拒绝访问，在抓取springelink.com上数据的时候不加上一定会被403毙掉的。

用BeautifulSoup处理解析网页，import后，一切从soup = BeautifulSoup(webpage.read( ))开始，你可以用python的终端自己玩玩这个产生的soup对象。我这里就说下一种我比较喜欢的用法，详细具体的API参考[9].我喜欢用嵌套的方式来提取内容，什么意思呢，其实我认为大多数解析定位问题，其实就是下面这样一个问题：

假设有一个页面如下：

并且你已经用soup = BeautifulSoup()初始过了，现在你要根据

这样的结构把下面所有的链接抽取出来，怎么做呢？比较简单的做法，就是一层一层向下分析，具体如下：

top_div = soup.find('div', {'id':'a'}) #注意：返回的是list对象

aa_div = top_div.findAll('div', {'class':'aa'}) #同样是list对象

links = [div.findAll('a') for div in aa_div] #还是list对象

links[0].get('href') ##

links[0].contents #ff

除了链接以外，其他内容也是通过类似的方法解析得到。（PS，我发现我若干个小时前自己还没解决这个问题的时候在SO上发的一个问题已经有人回答了，真好，那时候其实是困在了对list对象直接用find_all出错）

S4.Ending

好吧，最后看看我们的战利品：

声明1，其实有一个2M多的文件下载失败了，今天网络确实有点慢，其实用chrome下载它也差点失败了，因此，其实还是有可改进的地方。当然，可改进地方多了，多线程啥的，暂不讨论了。

声明2，由于是用T学校的网来下的，并且没有复制扩散内容，所以没有侵权！

最后感叹下，最近多以看论文为主，好久没学“技术”了，今天用了一些时间搞搞这种敏捷学习，重新体验那种多线程、开N个窗口、各种任务并发的感觉，真舒服，哈哈:-D

Reference

[1] http://stackoverflow.com/questions/419235/anyone-know-of-a-good-python-based-web-crawler-that-i-could-use#answer-8310728

[2] http://pycurl.sourceforge.net/

[3] http://en.wikipedia.org/wiki/Web_crawler#Open-source_crawlers

[4] http://ryanmerl.com/2009/02/14/python-web-crawler-in-less-than-50-lines/

[5] http://www.crummy.com/software/BeautifulSoup/

[6] http://wwwsearch.sourceforge.net/mechanize/

[7] http://scrapy.org/

[8] https://github.com/scrapy/dirbot

[9] http://www.crummy.com/software/BeautifulSoup/bs4/doc/

源代码下载：code

(from http://chentingpc.me/article/?id=961)

你可能感兴趣的:(原创心得)

C++类型转换问题系统学习元亨利贞代码 C++温习笔记 c++开发语言
写在前面面向初学者撰写专栏，个人原创的学习C/C++笔记（干货）所作源代码输出内容为中文，便于理解如有错误之处请各位读者指正请读者评论回复、参与投票，反馈给作者，我会获得持续更新笔记干货的动力。致粉丝：可以在阅读完我的文章后，自己尝试写一点原创心得（哪怕一行字也好）。希望众（尽管800个）粉丝多多支持、浏览、自我创作@_@知识点概览写在前面知识点概览一.为什么进行类型转换1.C++数值类型丰富2.
工作中如何评价一个人#原创心得原创总结
工作中，如何有效评价一个人呢？我们经常是不是会陷入某一方面评价，或者带上主观的情感？可想而知，这样是没办法做到客观、合理，且有价值。那么工作中，我们应如何去客观有效评价一个人呢？可以从以下五个方面去涉及：一、态度。自不用多说，是对待工作、开展好工作的前提，工作成效始于态度，态度有问题，工作肯定是不能有效开展的；态度没问题，其他四个方面即使有欠缺，但都可以弥补。二、习惯。每个人都有不同的习惯，对于工
C++结构（OOP的基石）元亨利贞代码 C++温习笔记 c++开发语言
写在前面面向初学者撰写专栏，个人原创的学习C/C++笔记（干货）所作源代码输出内容为中文，便于理解如有错误之处请各位读者指正请读者评论回复、参与投票，反馈给作者，我会获得持续更新笔记干货的动力。致粉丝：可以在阅读完我的文章后，自己尝试写一点原创心得（哪怕一行字也好）。希望众（尽管590个）粉丝多多支持、浏览、自我创作@_@知识点概览目录写在前面知识点概览一.结构简介二.结构的创建、描述、声明与赋值
C++学习/温习笔记：新型源码学编程（二）元亨利贞代码 C++跟着源码学编程 c++学习
写在前面面向初学者撰写专栏，个人原创的学习C/C++笔记（干货）编程练习所作源代码输出内容为中文，便于理解如有错误之处请各位读者指正请读者评论回复、参与投票，反馈给作者，我会获得持续更新笔记干货的动力。致粉丝：可以在阅读完我的文章后，自己尝试写一点原创心得（哪怕一行字也好）。希望众（尽管82个）粉丝多多支持、浏览、自我创作@_@接专栏上一篇内容：C++学习/温习笔记：源码学编程（一）知识点概览写在
C++学习/温习：新型源码学编程（三）元亨利贞代码 C++跟着源码学编程 c++开发语言
写在前面(祝各位新春大吉！兔年如意！)【本文持续更新中】面向初学者撰写专栏，个人原创的学习C/C++笔记（干货）所作源代码输出内容为中文，便于理解如有错误之处请各位读者指正请读者评论回复、参与投票，反馈给作者，我会获得持续更新笔记干货的动力。致粉丝：可以在阅读完我的文章后，自己尝试写一点原创心得（哪怕一行字也好）。希望众（尽管617个）粉丝多多支持、浏览、自我创作@_@知识点概览写在前面(祝各位新
C语言求幂运算——奇特中文变量命名元亨利贞代码 C/C++趣味编程 c语言开发语言
写在前面主要涉及C/C++趣味编程应用及解析面向初学者撰写专栏，个人代码原创如有错误之处请各位读者指正，各位可以类比做自己的编程作业请读者评论回复、参与投票，反馈给作者，我会获得持续更新各类干货的动力。致粉丝：可以在阅读完我的文章后，自己尝试写一点原创心得（哪怕一行字也好）。希望众（尽管400个）粉丝多多支持、浏览、自我创作@_@本文源代码及生成程序下载链接C语言求幂运算（尽大支持）-中文式奇特命
学习C++基本数值类型元亨利贞代码 C++温习笔记 c++开发语言
写在前面正在学习C/C++/Javascript，面向初学者撰写专栏博主原创C/C++笔记（干货），如有错误之处请各位读者指正请读者评论回复、参与投票，反馈给作者，我会获得持续更新各类干货的动力。致粉丝：可以在阅读完我的文章后，自己尝试写一点原创心得（哪怕一行字也好）。希望众（尽管400个）粉丝多多支持、浏览、自我创作@_@知识点概览目录写在前面知识点概览一.整型（指没有小数部分的数，惯称整数）（
简洁易懂地介绍C++参数元亨利贞代码 C++温习笔记 c++开发语言
写在前面个人原创，面向初学者撰写专栏，自学C/C++笔记（干货）如有错误之处请各位读者指正，本文只代表个人理解，内容解释不够权威，但易于理解如有需要做C语言或其他C++程序评论区回复请读者评论回复反馈给作者，与作者互动，我会获得持续更新各类干货的动力。致粉丝：可以在阅读完我的文章后，自己尝试写一点原创心得（哪怕一行字也好）。希望众（尽管37个）粉丝多多支持、浏览、自我创作@_@一.参数参数就是函数
C++学习/温习：新型源码学编程（一）元亨利贞代码 C++温习笔记 C++跟着源码学编程 c++开发语言
写在前面本文约15页，如觉得文章过长请通过左侧边栏或知识点概览目录浏览食用面向初学者撰写专栏，个人原创的学习C/C++笔记（干货）编程练习所作源代码输出内容为中文，便于理解如有错误之处请各位读者指正请读者评论回复、参与投票，反馈给作者，我会获得持续更新笔记干货的动力。致粉丝：可以在阅读完我的文章后，自己尝试写一点原创心得（哪怕一行字也好）。希望众（尽管617个）粉丝多多支持、浏览、自我创作@_@本
绘本讲师训练营第【76期】21/21 21天打卡原创心得武丽君
76026武丽君时间过得好快啊，21天转眼之间就过去了，未来的路还很长。在这21天实践活动中，第一单元:是阅读原创读后感，很实在的说，对于我们上班族，又带娃的宝妈，时间都是在中午挤出来的。然后有时候就是灵感来了，提前把文章先准备好了待发。有很多优秀的绘本故事，有待于自己好好的一起带着儿子去看，去体会，去享受绘本带给我们的快乐和思考，这将会是绵绵不绝，一路读下去。第二单元:是实践活动，平时自己每天在
じ☆ve弦－OpenSpace 2.5D游戏引擎（原创心得） leopard0825 as游戏
摘抄http://play.clubpenguin.com/http://flash.9ria.com/thread-48544-1-5.html
【原创心得】学习Lua（1）-- 准备工作 FreeKid 学习啊学习 lua tools extension file 工作 command
既然开始学习Lua，就应该对它有个一个大体的了解，对于Lua语言的介绍可以看这里http://baike.baidu.com/view/416116.htm【百度百科】英文好的朋友也可以直接到Lua官方网站去了解更多的内容http://www.lua.org【Lua官方网站】这次主要介绍一下学习Lua之前的准备工作。（1）下载Lua压缩包，下载页面是http://www.lua.org/downl
绘本讲师训练营【46期】21/21打卡心得体会睿妈_双如月
46014黄娟娟21天打卡，今天已经是最后一天了，时间真的很快，就像一段旅程，刚开始期待，然后融入丰富的过程，还在流连忘返时，已经是接近尾声。图片发自App回想三天的学习期间，时间紧张，内容充实，课程结束后开启阅读打卡。刚开始前五天看工具书心得，每天下班饭后立即关门认真看书划重点然后总结；学习到如何给孩子讲绘本以及重要性。接下来是每天的阅读绘本原创心得，每天让孩子选择绘本，我来讲给他听，互动沟通感
笔记｜学习《宁向东的管理学课》原创笔记系列1 为学志
公司内训要求学习《宁向东的管理学课》，今天开始写原创心得笔记。第2课资源关系汉语里的“局”字果真博大精深，听完宁教授关于人与资源的整合重组“破局”之道，对职场商战中“组局”、“饭局”、“牌局”等等又多了一点领会。这个字眼如此精妙，甚至超越了钱锺书先生围城之于婚姻的形容。三个破局之道，我的理解是三个层次：太极、穿越和无为。太极之道是将正负资源进行阴阳转化平衡。个人在优劣资源之间游刃有余。穿越之道是从
绘本讲师训练营【41期】1/21原创心得回眸…… 绿窗幽梦_
41026肖黎时间如白驹过隙，转眼，“绘本讲师训练营”已经过去一个多月了。回眸瞬间，感慨万分：繁忙岁月，带走了许多美好，却留下了一串串踏实的脚印；匆匆步履，忽视了美丽风景，却领略了一次次远航的乐趣！点点滴滴关于绘本和讲述故事的知识和技巧我已然忘却了大半，但是，三天里听过的感人故事却印在我的生命里。绘本的“开山之作”比阿特丽克丝波特创作的《彼得兔的故事》中那个敢于探索的彼得让人羡慕不已。因为，我们常
2020-01-26感恩并祝福朋友圈每一位朋友康永盛
截止此时，8小时阅读量超过888+，已经达到了我的预期[胜利][胜利]毕竟，这是首篇+单渠道，仅仅靠个人朋友圈宣传，为避免不必要打扰+打算暂作圈中朋友分享，仅仅发了5个亲友群（都是不超过15人的超亲友群），暂时未通过其他更多网络渠道宣传。感谢各位亲们，能抽出过年团聚的宝贵时刻，给予我支持与鼓励。后续，我去一定系统分享更多原创心得、干货文章[抱拳][抱拳][抱拳]备注：很多朋友问到＂康永盛＂，这个只
2017首战告捷！每日一画～附心得体会叶幺儿
2017年送自己的礼物(*˘︶˘*).｡.:*老幺原创心得体会：承诺的每日一画并没有拖沓，而是“浓缩精华”——昨天，16年最后一天，今天，17年的首日，一直在画这副，耗时近10小时。知道自己画的不像，有很多很多不足。但幺儿未成想过自己真的能画出来。为何这么说，且听始末：先po对比图老幺原创对比图能看出：1,人不像，一眼就能看出来，学习绘画的过程，像不像很重要，型要抓得准，考验作者的功底。2,明暗拿
人性的弱点day01 序、前言放下完美
《人性的弱点》day01序、前言格书方法：第1步：阅读导师提供的资料，找出金句，找出对自己有共鸣或者有打动的话，数量不限，至少一句。第2步：根据找出的金句，自己原创心得体会文字，20字起，没有上限，在群内提交文字作业。导师可以免作业。第3步：导师对大家的作业进行点评，可以全部也可部分，看导师的时间。每天中午之前群主会在群内通报前一天写的最好的小伙伴，并把ta的作业再公示一遍。20170806《人性
修炼滋养力，给自闭孩子最好的对待家庭教育丽平
【小编注】这篇文章是林文采博士的学员苏玲的原创心得分享，经同意分享在林文采分享微信公众平台。下面是原文，内容未做任何修改，仅为方便阅读进行了格式排版。配图来自网络。图片发自App这是来自林文采老师某次课程后的感悟分享。经由这个案例，我特别想要表达的，就是心理营养的滋养对一个自闭儿家庭（以下称星儿家庭）的重要性。一个有2岁多被诊断“自闭症”的孩子走到了十几岁，一个极为努力、付出极多，也需要特别多情感
原创心得怦然心动的人生从整理开始——读《怦然心动的人生整理魔法》感想陈言著诗随云飞
怦然心动的人生从整理开始——读《怦然心动的人生整理魔法》感想不知从何时，拉开鞋橱，越来越喜欢一双不起眼的黑布鞋，不再犹豫的穿上，快乐的去上班。或许通过聆听《怦然心动的人生整理魔法》，心里开始学习和感触到一些东西了。这本书分两部，第一部基本听完了，主要感触(比起学习，我更喜欢感触这个词)到以下三点:第一，整理先从学会舍弃开始。有人形容人生是一团乱麻，当你感觉到这句话有道理的时候，就需要开始舍弃和整理
小六壬--马前课初学者精选口诀及原创心得（补修版）神算指
前言小六壬，古代中国占卜法之一，俗称报时起课法。以大安、留连、速喜、赤口、小吉、空亡六位分列食指、中指及无名指上；占时按月、日、时顺序求之；得大安、速喜、小吉者为吉，其余为凶。是中国传统历法中的一种注文，用以标示每日的凶吉。后来传至日本，并于当地流行。小六壬预测方法南方称六宫掌打时法，特别在湘中地区，此法应用长盛不衰，十分活跃和灵验。图片发自App简介小六壬，古代中国占卜法之一，俗称报时起课法。以
这一年，我不断试错，获得了毕业5年来的最大财富 Tina徐玉环
经历了测试转岗产品之后，在2017年年初，我给自己定了一个全年的基调：尽情发挥，全面总结。这一年，围绕“尽情”二字，我试着去做在做自己喜欢的事情，并不断尝试我可能会喜欢的方向；围绕“总结”二字，我输出了接近5万字的原创心得和技能分享。下面复盘这一年的实践项目以及获得的经验教训。图片发自App运营公众号“Tina说”，建立个人自媒体IP我从测试转岗到产品前，经过了很长时间的准备，阅读了很多产品方面的
iphone 4 程序开发：真机测试（免费无99刀） iPhone
分类：原创心得 iphone iphone4 移动开发编程 xcode 真机测试 2011-08-29 21:15 1210人阅读评论(3) 收藏举报要给iphone开发程序，我们需要一个mac系统（我是用pc机装的lion10.7），以及xcode（我用的是xcode4.1和ios4
软件公司 - 核心技术缺失 backspace 技术
这篇文章和广大程序员非常有关，大局决定每个程序员的生活开心与否。文章内容是我自己的原创心得，非抄袭。 GO 问问大家，你认为你是在写代码还是软件研发？问问大家，你在软件公司上班快乐吗？问问大家，你是打算走管理呢还是走技术道路？问问大家，你认为自己所在的公司有技术实力吗？问问大家，你认为你在工作中，创造性的百分比多吗？问问大家，你认为公司
Android 4.1 与 4.2 在"强制拍照摄像音"处理上的区别分析 yzhang8703
一晃接触Android已经2年多，从上层APK到底层HAL都算是小有了解，所以一直都在考虑是不是应该写些自己的原创心得。最近正好碰到了个问题，帮忙看了下，表示有些东西可以写了。大家将就看看就行了。--------------在Android4.1之前上（也包括它自己）使用一个系统属性“ro.camera.sound.forced”来判断是否需要强制在静音模式下拍照摄像仍然发声。这个属性作为一个只
SEO最高境界就是做好内容脱离SEO 谷旭旭百度文章的是 SEO博客
福清SEO最近很忙，没时间写SEO原创心得。前几天发布的文章，属于伪原创，百度当天收录后第二天就删除，然后第三天再放出。对于百度最近的K站风波，多数是围绕低内容质量站点展开，提醒站长未来网站要取得好排名的前提是要有高质量的内容。今天下午公司电力出了故障，和同事闲聊起来。同事目前在一个网络上比较火的培训机构学习，谈论的比较有意思的话题是关于新站做站内链接是否有弊端?外链和内容哪个重要?外链是不是属于
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他