SunsCheung

大数据抓取采集框架

随着BIG DATA大数据概念逐渐升温，如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项目经验谈一下。

我们来看一下作为人是怎么获取网页数据的呢？

1、打开浏览器，输入网址url访问页面内容。
2、复制页面内容的标题、作者、内容。
3、存储到文本文件或者excel。

从技术角度来说整个过程主要为网络访问、扣取结构化数据、存储。我们看一下用java程序如何来实现这一过程。

 
           import  
           java.io.IOException; 
          
           import  
           org.apache.commons.httpclient.HttpClient; 
          
           import  
           org.apache.commons.httpclient.HttpException; 
          
           import  
           org.apache.commons.httpclient.HttpStatus; 
          
           import  
           org.apache.commons.httpclient.methods.GetMethod; 
          
           import  
           org.apache.commons.lang.StringUtils; 
          
           public  
           class  
           HttpCrawler { 
          
           public  
           static  
           void  
           main(String[] args) { 
          
           String content =  
           null  
           ; 
          
           try  
           { 
          
           HttpClient httpClient =  
           new  
           HttpClient(); 
          
           //1、网络请求 
          
           GetMethod method =  
           new  
           GetMethod( 
           "http://www.baidu.com"  
           ); 
          
           int  
           statusCode = httpClient.executeMethod(method); 
          
           if  
           (statusCode == HttpStatus. SC_OK) { 
          
           content = method.getResponseBodyAsString(); 
          
           //结构化扣取 
          
           String title = StringUtils.substringBetween(content,  
           ""</code>  
           <code class="java plain" style="background:none !important;border:0px !important;line-height:1.8em !important;overflow:visible !important;vertical-align:baseline !important;font-family:Consolas, 'Bitstream Vera Sans Mono', 'Courier New', Courier, monospace !important;min-height:auto !important;">, </code> 
           <code class="java string" style="background:none !important;border:0px !important;line-height:1.8em !important;overflow:visible !important;vertical-align:baseline !important;font-family:Consolas, 'Bitstream Vera Sans Mono', 'Courier New', Courier, monospace !important;min-height:auto !important;color:#0000FF !important;">""  
           ); 
          
           //存储 
          
           System. out .println(title); 
          
           } 
          
           }  
           catch  
           (HttpException e) { 
          
           e.printStackTrace(); 
          
           }  
           catch  
           (IOException e) { 
          
           e.printStackTrace(); 
          
           }  
           finally  
           { 
          
           } 
          
           } 
          
           }

通过这个例子，我们看到通过httpclient获取数据，通过字符串操作扣取标题内容，然后通过system.out输出内容。大家是不是感觉做一个爬虫也还是蛮简单呢。这是一个基本的入门例子，我们再详细介绍怎么一步一步构建一个分布式的适用于海量数据采集的爬虫框架。

整个框架应该包含以下部分，资源管理、反监控管理、抓取管理、监控管理。看一下整个框架的架构图：

资源管理指网站分类体系、网站、网站访问url等基本资源的管理维护；
反监控管理指被访问网站（特别是社会化媒体）会禁止爬虫访问，怎么让他们不能监控到我们的访问时爬虫软件，这就是反监控机制了；

一个好的采集框架，不管我们的目标数据在哪儿，只要用户能够看到都应该能采集到。所见即所得的无阻拦式采集，无论是否需要登录的数据都能够顺利采集。现在大部分社交网站都需要登录，为了应对登录的网站要有模拟用户登录的爬虫系统，才能正常获取数据。不过社会化网站都希望自己形成一个闭环，不愿意把数据放到站外，这种系统也不会像新闻等内容那么开放的让人获取。这些社会化网站大部分会采取一些限制防止机器人爬虫系统爬取数据，一般一个账号爬取不了多久就会被检测出来被禁止访问了。那是不是我们就不能爬取这些网站的数据呢？肯定不是这样的，只要社会化网站不关闭网页访问，正常人能够访问的数据，我们也能访问。说到底就是模拟人的正常行为操作，专业一点叫“反监控”。

那一般网站会有什么限制呢？

一定时间内单IP访问次数，没有哪个人会在一段持续时间内过快访问，除非是随意的点着玩，持续时间也不会太长。可以采用大量不规则代理IP来模拟。

一定时间内单账号访问次数，这个同上，正常人不会这么操作。可以采用大量行为正常的账号，行为正常就是普通人怎么在社交网站上操作，如果一个人一天24小时都在访问一个数据接口那就有可能是机器人了。

如果能把账号和IP的访问策略控制好了，基本可以解决这个问题了。当然对方网站也会有运维会调整策略，说到底这是一个战争，躲在电脑屏幕后的敌我双方，爬虫必须要能感知到对方的反监控策略进行了调整，通知管理员及时处理。未来比较理想应该是通过机器学习算法自动完成策略调整，保证抓取不间断。

抓取管理指通过url，结合资源、反监控抓取数据并存储；我们现在大部分爬虫系统，很多都需要自己设定正则表达式，或者使用htmlparser、jsoup等软件来硬编码解决结构化抓取的问题。不过大家在做爬虫也会发现，如果爬取一个网站就去开发一个类，在规模小的时候还可以接受，如果需要抓取的网站成千上万，那我们不是要开发成百上千的类。为此我们开发了一个通用的抓取类，可以通过参数驱动内部逻辑调度。比如我们在参数里指定抓取新浪微博，抓取机器就会调度新浪微博网页扣取规则抓取节点数据，调用存储规则存储数据，不管什么类型最后都调用同一个类来处理。对于我们用户只需要设置抓取规则，相应的后续处理就交给抓取平台了。

整个抓取使用了 xpath、正则表达式、消息中间件、多线程调度框架（参考）。xpath 是一种结构化网页元素选择器，支持列表和单节点数据获取，他的好处可以支持规整网页数据抓取。我们使用的是google插件 XPath Helper，这个玩意可以支持在网页点击元素生成xpath，就省去了自己去查找xpath的功夫，也便于未来做到所点即所得的功能。正则表达式补充xpath抓取不到的数据，还可以过滤一些特殊字符。消息中间件，起到抓取任务中间转发的目的，避免抓取和各个需求方耦合。比如各个业务系统都可能抓取数据，只需要向消息中间件发送一个抓取指令，抓取平台抓完了会返回一条消息给消息中间件，业务系统在从消息中间件收到消息反馈，整个抓取完成。多线程调度框架之前提到过，我们的抓取平台不可能在同一时刻只抓一个消息的任务；也不可能无限制抓取，这样资源会耗尽，导致恶性循环。这就需要使用多线程调度框架来调度多线程任务并行抓取，并且任务的数量，保证资源的消耗正常。

不管怎么模拟总还是会有异常的，这就需要有个异常处理模块，有些网站访问一段时间需要输入验证码，如果不处理后续永远返回不了正确数据。我们需要有机制能够处理像验证码这类异常，简单就是有验证码了人为去输入，高级一些可以破解验证码识别算法实现自动输入验证码的目的。

扩展一下 ：所见即所得我们是不是真的做到？规则配置也是个重复的大任务？重复网页如何不抓取？

1、有些网站利用js生成网页内容，直接查看源代码是一堆js。可以使用mozilla、webkit等可以解析浏览器的工具包解析js、ajax，不过速度会有点慢。
2、网页里有一些css隐藏的文字。使用工具包把css隐藏文字去掉。
3、图片flash信息。如果是图片中文字识别，这个比较好处理，能够使用ocr识别文字就行，如果是flash目前只能存储整个url。
4、一个网页有多个网页结构。如果只有一套抓取规则肯定不行的，需要多个规则配合抓取。
5、html不完整，不完整就不能按照正常模式去扣取。这个时候用xpath肯定解析不了，我们可以先用htmlcleaner清洗网页后再解析。
6、如果网站多起来，规则配置这个工作量也会非常大。如何帮助系统快速生成规则呢？首先可以配置规则可以通过可视化配置，比如用户在看到的网页想对它抓取数据，只需要拉开插件点击需要的地方，规则就自动生成好了。另在量比较大的时候可视化还是不够的，可以先将类型相同的网站归类，再通过抓取的一些内容聚类，可以统计学、可视化抓取把内容扣取出几个版本给用户去纠正，最后确认的规则就是新网站的规则。这些算法后续再讲。这块再补充一下（多谢zicjin建议）：

背景：如果我们需要抓取的网站很多，那如果靠可视化配置需要耗费大量的人力，这是个成本。并且这个交给不懂html的业务去配置准确性值得考量，所以最后还是需要技术做很多事情。那我们能否通过技术手段可以帮助生成规则减少人力成本，或者帮助不懂技术的业务准确的把数据扣取下来并大量复制。

方案：先对网站分类，比如分为新闻、论坛、视频等，这一类网站的网页结构是类似的。在业务打开需要扣取的还没有录入我们规则库的网页时，他先设定这个页面的分类（当然这个也可以机器预先判断，他们来选择，这一步必须要人判断下），有了分类后，我们会通过“统计学、可视化判断”识别这一分类的字段规则，但是这个是机器识别的规则，可能不准确，机器识别完后，还需要人在判断一下。判断完成后，最后形成规则才是新网站的规则

7、对付重复的网页，如果重复抓取会浪费资源，如果不抓需要一个海量的去重判断缓存。判断抓不抓，抓了后存不存，并且这个缓存需要快速读写。常见的做法有bloomfilter、相似度聚合、分类海明距离判断。

监控管理指不管什么系统都可能出问题，如果对方服务器宕机、网页改版、更换地址等我们需要第一时间知道，这时监控系统就起到出现了问题及时发现并通知联系人。

目前这样的框架搭建起来基本可以解决大量的抓取需求了。通过界面可以管理资源、反监控规则、网页扣取规则、消息中间件状态、数据监控图表，并且可以通过后台调整资源分配并能动态更新保证抓取不断电。不过如果一个任务的处理特别大，可能需要抓取24个小时或者几天。比如我们要抓取一条微博的转发，这个转发是30w，那如果每页线性去抓取耗时肯定是非常慢了，如果能把这30w拆分很多小任务，那我们的并行计算能力就会提高很多。不得不提的就是把大型的抓取任务hadoop化，废话不说直接上图：

提到如何搭建一个社会化采集系统架构，讲架构一般都比较虚，这一篇讲一下如何实战用低成本服务器做到日流水千万级数据的分布式采集系统。

有这样一个采集系统的需求，达成指标：需要采集30万关键词的数据、微博必须在一个小时采集到、覆盖四大微博（新浪微博、腾讯微博、网易微博、搜狐微博）。为了节约客户成本，硬件为普通服务器：E5200 双核 2.5G cpu， 4 G DDR3 1333内存，硬盘 500G SATA 7200转硬盘。数据库为mysql。在这样的条件下我们能否实现这个系统目标？当然如果有更好的硬件不是这个文章阐述的内容。现通过采集、存储来说明一下如何实现：

一、采集，目标是在一个小时内把30万关键词对应的数据从四大微博采集下来，能够使用的机器配置就是上面配置的普通服务器。采集服务器对硬盘没有太多要求，属于cpu密集型运算，需耗费一些内存。评估下来硬件资源不是瓶颈，看下获取数据的接口有什么问题？

1、通过各大微博的搜索api。就比如新浪微博API针对一个服务器IP的请求次数，普通权限限制是一个小时1w次，最高权限合作授权一个小时 4w次。使用应用时还需要有足够的用户，单用户每个应用每小时访问1000次，最高权限4w次需要40个用户使用你的应用。达到30w关键词，至少需要8 个应用，如果每个关键词需要访问3页，总共需要24个合作权限的应用。实际操作我们是不可能为这个项目做到开发24个合作权限的应用，所以这个方式不是很合适。新浪微博API限制参考链接。
2、通过各大微博的最新微博收集数据，微博刚推出的时候，各大微博都有微博广场，可以把最新的微博都收集下来，然后通过分词，如果出现了30万关键词中的一个就留下，其他就丢弃掉。不过现在除了腾讯微博和搜狐微博有微博广场类似的功能，新浪微博和网易微博已经没有这项功能了。另按照新浪微博之前公布的数据，注册用户已经超过5亿，每小时超过1亿条微博，如果全量采集对数据存储是个大的考验，也需要大量的系统资源，实际采集了一亿条，也许就1000w条有用，浪费了9000w条数据的资源。
3、通过各大微博的网页搜索，可见即可抓的方式，结合反监控系统模块模拟人的正常行为操作，搜索30万关键词数据，使资源最大化利用。为了保证在一个小时采集到，需要采用分布式多线程模式抓取，并发采集。并发的时候不能从同一个ip或者同一个ip网段出去，保证对方不会监测到我们的爬虫。

我们最后采用了第三种方式，目前运行状况为通过30w关键词搜索得到的所有微博加在一起总量1000多w条每天，新浪和腾讯最多，新浪微博略胜一筹。使用了6台普通PC服务器，就算一台机器7000元，总共4万元硬件设备解决采集硬件问题。整体部署图为：

二、存储，采集下来的数据如何处理？首先存储采集数据是个密集写的操作，普通硬盘是否能够支持，mysql数据库软件能否支持，未来量突然增加如何应对？再就是评估存储空间，每天增量这么多需要耗费大量的存储资源，如何存放并且易扩展。

1、如何存储。正常来说我们上面配置的服务器，mysql使用myisam引擎一张表最多20w，使用 innodb引擎最多400w，如果超过这个数量，查询更新速度奇慢。这里我们采用一个比较取巧的做法，使用mysql的innodb存储引擎做了一层缓存库，这个缓存库有两个缓存表，每个表只存储少于300w的数据，有一张表多于300w的数据就切换到另一张表插入直到超过300w再切换回去。切换成功后，把多于300w数据的表truncate掉，记得一定要没有数据插入的时候再truncate，防止数据丢失。这里一定要用truncate，不能使用delete，因为delete需要查询，要用到索引读写，并且delete还会写数据库log耗费磁盘IO，存储空间也没有释放。truncate和 drop是操作数据库删除数据比较好的做法。由于有两个表作为数据插入表，使用数据库表的自增id并不太合适，需要一个高速的唯一自增Id服务器提供生成分布式ID。另数据库完全可以关闭写事务日志，提高性能，因为抓取的数据当时丢失再启动抓取就可以了，这样数据库可以保持在一个比较高性能的情况完成插入操作。抓取缓存表结果如图：

2、存储空间。插入后的数据需要保存下来，不能在超过300w后被truncate掉了。我们需要有个程序在达到300万时被truncate掉之前把数据同步走，存放到另外一个库上（我们叫做结果库，结果库也是使用innodb引擎）。不过我们每天采集的数据 1000多万，按天递增，mysql一张表一天就撑爆了，我们这个表不是写操作密集型，所以结果库可以存储多点数据，设定上限500w，但是500万还是存不下1000万数据。我们需要对mysql最终结果分库分表。将数据先按照时间分机器分库，再按照数据源分表，比如201301通过hash计算的数据存放在一个机器，201302通过hash计算在另一个机器。到了机器后再按照天或者半天分表，比如表名为 weibo_2013020101 、weibo_2013020112。weibo_2013020101表示2月1日上午一个表，weibo_2013020112表示2月1日下午一个表。光这样分了还是不够，1000w/2=500w，经不起压力扩展。我们还需要把表再拆分，比如weibo_2013020101 拆成 weibo_2013020101_1（新浪微博）、weibo_2013020101_2（腾讯微博）、weibo_2013020101_3（网易微博）、weibo_2013020101_4（搜狐微博）。这样一张表平均就存放 500w/4 = 125w 条数据，远远小于500w上限，还可以应对未来突发的增长。再从存储空间来算，就算一条微博数据为1k，一天 1000w*1k=10G，硬盘500G最多存放50天的数据，所以我们规划机器的时候可以挂接多一点硬盘，或者增加机器。结果库分表如图：

按照这样的架构，我们使用开源免费软件、低成本服务器搭建的千万级数据采集系统在生产运转良好。

http://www.cnblogs.com/aspnethot/p/3284656.html

半途而废！为何？ waterHBO 经验总结心得体会
1.把需求，动机，起因，痛点，喜爱，理想的情况，都下来，写为一篇文章。单独存放。2.因为总是做到一半，感到无聊，自我怀疑，轻易放弃。这个现象，请帮我解释一下原因。第一部分：我们的多页式Excalidraw增强应用V1.0的故事这份文档，不是冰冷的PRD，而是我们这次旅程的“心情日记”和“宣言”。当你未来某天感到迷茫或怀疑时，可以随时打开它，重温我们最初的火花和胜利的喜悦。我们的宣言：解放思想，一次
打造一个互动式心情日记页面前端
快乐源泉：打造一个互动式心情日记页面在现代社会中，情绪管理已经成为了人们日常生活的一部分。无论是职场压力、家庭琐事，还是个人情感，我们都需要一个平台来表达、记录并管理自己的情绪。今天，我将带大家开发一个互动式心情日记页面，它不仅仅是一个简单的日记本，更是一个能够帮助你更好了解自己情绪的工具。我们的目标是构建一个网页应用，允许用户记录他们的心情，分析情绪，并通过互动贴纸和有趣的视觉效果进行表达。这不
微信云开发小程序音频播放踩坑记录 - 从熄屏播放到iOS静音京河小蚁微信小程序 AI编程 cursor 微信小程序音视频
在开发小程序冥想功能时,我们遇到了几个棘手的问题:用户反馈手机熄屏后音频停止、iOS设备播放没声音、冥想音频没有访问计数和CDN缓存优化等。本文将分享这些问题的解决过程和实践经验。微信小程序简称：Moodo微信小程序全程：AIMoodo心情日记系统简介：一款在线的心情记录小程序，同时开通了心情鼓励师、冥想和助眠、心情社区（在建）模块，欢迎大家体验和交流。问题分析1.熄屏停止播放这是最常见的反馈。用
心情日记（6月16日）陪你今生来世
早上不是太忙，送了小宝顺便去医院取检查报告。没有拿到结果之前，心里是有那么一点忐忑的。拿到之后，反而镇定了许多。医生再次给我做了检查，说是好多了。报告显示有点病毒感染，需要继续用药治疗一段时间。医生叮嘱其间要多运动，增强免疫力。回来的路上，心里充满了庆幸和感恩。庆幸机缘巧合，让我做到了早发现，早治疗。更庆幸一直以来，自己的良善，感恩之心换来了老天的眷顾，让我总是有惊无险。感恩老天的庇护，感恩国家先
心情日记8 楼南未
久未放晴的天空连驻两天的图书馆夜晚的没有星星的黑每天都练却依然弹不好的吉他昨夜操场吹的风去年发出去的消息与没说出口的那句再见好久没有收到的好友的信件没说的都在心里的都懂的所以我很好昨天是我今天也是我未来希望是我
我的心情日记3.29 Jenny睫凌
哦准备开始一场废话唠叨那个言语断断续续不清不楚，请原谅，已经得了神经衰弱加抑郁五年了，现在能吐出一个字我已经很开心了说什么好呢？其实我也不知道说什么，写什么，刚刚在抖音看到别人说“如果你什么也不做，你选择摆烂，那么你就容易内分泌失调，所以哪怕你去扫地洗澡看书，你也得动起来”为了我的身体健康，我还是主动找点事来做吧,而我的第一心愿就是想为这几年发生的事情写个感想，因为就像做了一场梦可能我说出来，写出
心情日记之运动会易枯荣
2018年5月25日，心情平静开心。图片发自App每年的5月末，我的母校都开展运动会，我们学院按人数算不算学校的大院，但却尤其重视运动会，每年在运动会上也的确表现突出。我上大学第一年，只是抱着好玩的心态参加，这一参加就持续了3年，最初是喜欢，是爱好，后来变成了任务，是压力，后来的后来还有点害怕。当时也一直告诉自己重在参与，但看到所以人都认为只要你上场，就好像看到了结果，把所有希望压在自己身上时，真
1/16心情日记果檬
摸到手机的时候，心里一阵拔凉，我断更了！！！尤其是我快拿到日更50的勋章的时候！！！天天陪着两只神兽闹腾，其中一只还生病了，心情烦闷更不敢明目张胆的玩手机了，怕挨批。结果就是松懈了，忘记更了。虽然也不是什么大作，只是日常枯燥无味的唠叨，但能有一个地方能让我毫无顾忌地记录唠叨，还是挺解压的。
心情日记34：授人以鱼，不如授人以渔@三七会写作营三七会萍海临风
和青青小伙伴运营心理学读书会，运营期间的难度和无力感，都是事先不可预知的。想着怎样做好服务工作，能更好提升读书会会员参与度与新鲜感，我俩提前分组进行一对一沟通，看看大家对我们的发展有什么建设性意见。经调查发现，大家的想法与我发起沟通的想法相差有点远。伙伴们有的因个人原因，书没时间参与阅读讨论。有的说想重新定位，不能因自己爱好，分散对家庭的关注度。有的说内容挺好，不用变。有的说时间能不能减少啊，一周
我的心情日记已未晓
今天挺开心的，上午去邮局交的保险费，而且今天能笑出来了。脸上的肌肉不那么僵硬了，笑了好几次呢！下午想我爱人了，给他发个视频，我的眼泪就止不住了……我为什么流泪呢？可能是想他了！？也可能是想我们两地分居而流泪吧！？也可能是看他脸上的皱纹，一道一道的，为我们逝去的青春而流泪吧……我的眼泪不由自主的流下来了！有科学证明，眼泪是毒素，多流泪多排毒。偶尔排排毒也是好的哟！无声的泪水，尽管流吧！好好释放一下这
去冰雪大世界玩小乙哥
大家好，我是小乙哥，今天天气晴天，这是我在写的第47篇心情日记。昨天我去舅舅家附近的一个冰雪大世界玩了。我还以为是哈尔滨的冰雪大世界，然后他们说是杭州的。冰雪大世界，我们在外面的时候穿上了棉袄外套，很热很热很热很热。等到了冰雪大世界里面，我们又快要冻僵了。我们一进门就看到了冰雕，冰雕是一些北极熊什么的。很快，我们看到了冰雪滑滑梯，我们就去买了一个滑雪板，然后从滑滑梯上滑下来，很刺激，姐姐说里面还有
1/14心情日记果檬
幼儿园放假第二天，大小两只神兽在家里，真实体验了一把什么叫左拥右抱，齐人之福，唯一的感觉就是，为什么学校要放假？？？可爱的神兽人人爱，调皮的神兽还能接受，话唠又调皮还争宠的神兽，让我去死一死吧！别说什么摆威严出来，大神兽还好说，能吼能骂能打，可是对着一个无齿小儿，不敢吼哇⊙ω⊙
心情日记花花世界和我
两天前，跑步回来的路上，遇到一个小哥哥！虽然小哥哥小妹儿小妹儿的叫我，可是我们两的年龄，也指不定是谁大一些！小哥哥说，看我每天都在跑步，激起了他的斗志！嗯～蛮开心，因为自己好的行为或者习惯，带动了就算一个人，成为更好的自己，也很不错！第二天，跑步时间天还在下雨，地面也是湿的！第三天，没有看到小哥哥身影，嗯，也许真的也就是心血来潮！第四天，跑步的一路上多了很多叔叔阿姨散步！另外也看到了一个小哥哥跑会
心情日记 4 向日葵呀
1.真心换真心，对世界保持乐观2.没有人可以接受你无止境的抱怨3.既然自己无可奈何，无法改变，那就顺其自然
1/31心情日记果檬
大年除夕的日子，心情却放松不起来。没办法，孩子反复发烧，看着心疼又没法子替他承受。另一方面，就是烦死老公和婆婆了，死要面子活受罪，我都把自家爸妈请下来，打算带孩子去娘家过夜了，晚上也有人看护，让他们睡个好觉不好吗？非要端着，端着就端着吧，特么的孩子发烧，除了知道多喝开水，就没点别的法子吗？手机拿来干什么的？脑子拿来干什么的？就是摆设吗？好气，想自己接手，偏偏手上还有一只更小的神兽，小神兽又不乐意他
更新心情日记 3沁墨
今天星期三，天气晴，心情不好不坏，刚刚好。因为昨天晚上和男朋友聊了很多。他说他以前很渣，我就问他有多渣，他说他伤害爱他最深的人。很花心，不相信前女友的话，不信任。跟他聊了很多。希望他能改变一些对我的态度吧。现在他跟我讲理，他是说不过我的，死的都能说成活的，但是很多的事，是因为他理亏，所以说不过我。
今日份心情日记小棋
说真的奶茶不加糖，真的不好喝！不甜不说，还喝的我有些想吐？以前我就吐槽，这喝奶茶加不加糖没啥区别，反正喝了都长肉，就除了味道好不好一样。然而晚上心情不好的时候，点奶茶的时候，我却鬼使神差地选择了无糖，因为什么，我也不清楚！可能是因为无糖喝了不长肉，还是因为心情不好，所以虐待一下自己的胃呢！可能是因为我一心情不好就用美食安慰自己的方法，被打破了！所以最近美食在我嘴里都开始变得没有味道了！以前我一心情
88的心情日记-16- Because潘蕊
我想分析这样一个问题，这段时间效率奇差，所有的开端都不得善终，我仔细想想有以下几个原因，首先此次疫情的影响是有的，再来是经验不足在摸索阶段，最后是精力有限，顾此失彼。想打破僵局。唯有不断尝试。策划方案方向没有问题，实际操作有问题，因该结合市场形势作出相应调整。加强售后服务管理，重新调整运营路线。第一步就是制定可行性路线（模式➕制度），第二步，加强售后管理跟进。第三步，控制体制自行运转。我现在集中精
2020-12-05 时间与你
最近总感觉很累，困得睁不开眼，人也变得越来越慵懒不想做饭，于是就点外卖不想给宝宝做辅食，就天天让他喝奶粉不想记录心情日记感觉自己就非常奇怪，突然就对什么都不感兴趣了，消沉一段时间后才又慢慢恢复有时候自己都不理解自己了
日更第十章（心情日记）霸气侧漏小清梦
今天本来可以把昨天写了一半的那篇文章写完，毕竟写了一半，但由于不确定会不会算在今天，我又开了个坑。我今天主要想要记录一下我的心情。说老实话，昨天晚上我是3点多才睡的，而今天7点就要爬起来，然后就可以准备上班，今天一天我都觉得很神奇，我竟然都没怎么觉得困！今天我还觉得奇怪呢，自己什么时候变得如此精力充沛了？直到今天，一个微博热搜跳了出来，我好像。。。。有点明白自己为什么一点都不困了。那个热搜叫“一杯
2020新春疫情心情日记一一喜忧参半邬玲子青晓溪
喜忧参半2月17日(正月二十四)2020新春新冠肺炎感染之前呈爆炸式增长，最多一天的新增确诊病例为一万多，让人不忍卒读。终于在2月16日，雷神山医院院长王行环在接受央视专访时称疫情拐点已经到来。看数据无论新增确诊病例还是新增疑似病例都在大幅下降。原因大家普遍认为主要有四点:一是因为毒性减弱;二是因为增援人手的到来，医护人员可以从容工作;三是医用物资不再窘迫，有了自我保护的条件;认识医生们通过这么多
心情日记5.10 贝字旁的赚
早起第三天。昨天一天整体过得还不错，没有发怒和吼叫，即使女儿对我大吼大叫我也控制住了自己的情绪。女儿说完成了当天的作业任务，还帮妹妹搭好了玩具轨道车，感觉很棒！晚上女儿说自己的作业都写完了，能不能看电影，我同意了，表现好时一定要给与鼓励好奖赏。打开电脑，让爸爸给她找，她想了一会就说还是想看《哪吒之魔童降世》，这个电影已经看过至少四遍了，爸爸就说你换个电影吧，看看别的电影也行，她不同意，很是坚持，爸
1/25心情日记果檬
今天是腊月二十三，婆家祭灶的日子，大早上早早的就收拾好行李，让人开车送回了婆家。之后就是收整行李，铺床叠被，外加看着一堆孩子玩乐，一系列事情忙活完，就到了晚上睡觉时间，真正空闲的时间，估计就是神兽睡着后吧！至于自己，能睡觉了吗？答案是不能。不为别的，隔壁一户人家喝酒喧哗，不闹到满意，怕是不肯散席。至于让他们控制下音量，我觉得自己没有那么大的能耐，所以只能听着，醒着，预防神兽被突然的噪音吵醒。
2020新春心情日记一一五味杂陈过新年邬玲子青晓溪
希望2月4日(正月十一，立春，大吉)风暖和煦迎春开，春已归来满枝漾，待到春暖花开时，笑向阳光共景赏。今日立春，大吉！果然，听到的都是好消息！习近平总书记昨日主持召开中共中央政治局常务委员会议，对防控新冠疫情工作进行了全面部署，涉及包括疫情防控的方方面面，周密详尽严谨，打响了全国疫情防控的人民战争！昨日钟南山团队发布新冠肺炎居家康复及防控策略，从而大幅度缓解医院资源紧张局面，能使更多人得到更有效的救
2019-03-13 雪秀_728f
写完，我竟然不敢回头看自己写下的真话，这大概是我喜欢的原因吧，因为这里没人认识自己，自己可以肆无忌惮地写下自己的真实感受，这也是我不再朋友圈，QQ空间更新心情日记的其中之一，那里面设计自己的真实生活圈，自己总会有所顾忌，不敢说实话。
心情日记余梦人生
夜，一片漆黑，南风习习，倘佯在充满泥土气息的小堤上，黑黑的天空挂着一轮弯弯的半月，和肉眼所见的几颗疏星，偶尔一束亮光闪过，猛然以为是流星坠落下来，一阵呼啸而过的声音把我从惊喜中拽回，身旁早掠过一晚行的小车，无情地绝尘而去。夜，又陷入寂静之中。南风依旧习习，早春的夜晚只略略些许凉意，鳞鳞河水在两边堤岸村舍的灯光映照下，配着阵阵微风轻拂，竟诡异地闪着一波波的光晕，一串连接一串，渐次荡漾开来，河对面偶有
心情日记静Eaven
前段时间疫情肆虐，没想到在春节之际，一切都恢复了往日祥和热闹的景象，真让人喜出望外。过年的那几天，著名景区人山人海，网红饭店水泄不通，大街上车水马龙，人们喜笑颜开，大包小包地购物消费，真是一片祥和。今天是春节长假后的第一天开工日，没有假期综合征，精神饱满地投入到了工作中。假期虽然有休闲的时光，不过熬夜、大吃大喝，不到一周的时间就让自己油腻了起来。现在开始工作学习了，生活反而有了规律。新的一年，希望
心情日记★211029 忆洛书
泰式脆皮鸡今天周五，女儿今天上新东方英语课。老友霞美妞是个热心而且暖心的理工女。为家庭放弃工作，跟我之前一样做全职妈妈多年。但是，我一直很欣赏她的为人和她对生活的态度。我俩是从孩子们上幼儿园小班认识。都是园家委会成员，每次幼儿园开会都会遇见。闲暇攀谈加了微信。那时聊得不多，没想到孩子们上小学竟然又是一个班。开启了我俩铁杆式老友模式。她是个妥妥的文艺女青年。爱在家宅着，爱看书，爱收拾，爱弄花花草草，
孤独时的心情日记吉古吉
在新疆，不是所有的雪山都叫天山。新疆境内，可以看见雪的山，真的非常多。昨晚一场秋雨，细雨淋淋，寒风瑟瑟，早上起来时，迎着朝霞，就可看见山尖上覆了一层白白的雪。闪着白光的雪，在清新的空气里，越发显得洁白。山尖往上看去，就是蔚蓝的天空，不带一丝云彩。蓝和白的对比如此分明，单纯的色彩，是大自然的馈赠，不可多见的场面，至少在城市里很少看到。难得一见的纯色天幕，引得很多人拿起手机拍照。深邃的蓝色，像沉静的大
心情日记--2019.7.7 Brave_yyqx_7982
有时候感觉自己很颓废，明知道自己的不足，也明知道自己的懒惰，但是，就是不愿意去改变。嘴上一直说着不愿意随遇而安、随波逐流，可是，自己的行为却是在执行着这两个词语。一直说自己是个怎么样不服输不低头的人，但却是在等待别人把机会给自己送上来。每一次都是三分热度，刚开始是多么的昂扬，到后来就是多么的颓废。给自己安排的计划，没有一个是去认真执行的了，没有一个是认真坚持了的。自己心里很清楚自己所欠缺的东西还有
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f

大数据抓取采集框架

你可能感兴趣的:(心情日记)