Hadoop技术博文

干货 | 携程机票大数据架构最佳实践

本文转载自 携程技术中心（ctriptech） 公众号，本文PPT请点击下面 阅读原文 获取

作者简介

许鹏，携程机票大数据基础平台Leader，负责平台的构建和运维。深度掌握各种大数据开源产品，如Spark、Presto及Elasticsearch。著有《Apache Spark源码剖析》一书。本文来自许鹏在〖DAMS 2017中国数据资产管理峰会〗上的分享，首发DBAplus社群（ID：dbaplus）。

现如今大数据一块有很多的开源项目，因此首先搭建平台的难点其实在于如何选择一个合适的技术来做整个平台的架构，第二，因为有业务数据，用了平台之后的话，如何用平台把数据分析出来让用户有很好的交互性的体验。第三个层面就是理工科喜欢建模，而在这整个过程当中，我们会形成一种非数据建模，而主要是我们如何分不同层面的人员搭配，进而做成这样一个大数据团队。

一、数据平台技术选型

1、整体框架

这个框架应该是一种大路货，或者更认为是一种比较常见的架构。前面也就是从数据源到消息队列到数据的清理、数据呈现等这些大家容易想到的东西，而在这样一个大帽子下面，所不一样的东西是具体选用什么样的组件来填这个空，在不同的场景下，每个人的选择是不大相同的。

像消息队列这一层，我们选用了Kafka，这是目前大家普遍用到的，因为它有高吞吐量，采用Push和Pull结合的方式，消费端主动拉取数据。ETL这块，目前大家都希望采用一种可以自定义的方式，一般来说比较流行的是用LinkedIn提供的Camus来做从Kafka到HDFS的数据同步。这应该是一种较为流行的架构。

那么放到HDFS上面的数据，基本上是为了批处理做准备的，那么在批处理分析的时候，我们选择一个什么样的分析引擎，可能就是一个值得争议的焦点，也就是说，也许在这个分析引擎的下面，有Hive，有Spark，有Presto，有Impala，还有其它的东西。在这些引擎当中的选择或者实践，需要结合具体使用场景。

下面讲讲为什么会选择Presto而不是其它。假设在座的各位有Presto使用经验的话，会发觉Presto它是一个CLI的用户界面，并没有好的一种Web UI，对一般用户来说，CLI的使用会有难度，不管这是感觉上的还是实际上的，所以需要有个好的Web UI来增加易用性。

当前在GitHub上面能找到的Presto webui的就是Airbnb提供的AirPal，但根据我们的使用经验，不怎么友好，特别在UTC的时间设置上，同时它的社区维护已停滞在两年前，这一块我们做了适配，然后用Presto的StatementClient做了Web UI。前端采用的是jquery的easyui, 像刚才讲的批处理这一条线，就是用在了批处理这一块上。下面这一条线就是说有些数据可能是希望立马存储，立即被搜索到，或者做简要的分析。

作为搜索引擎，社区这一块，大家耳熟能详的应该是Elasticsearch，Elasticsearch的社区非常活跃，而且它的推广速度，应用型上面易都很好。但是Elasticsearch的难点在于如何对它进行好的维护，后面我会讲到它可能存在的维护痛点。

那么，Elasticsearch有非常强大的搜索能力，响应时间也是非常快的，但是它的用户接口，有自己的一套基于Lucene的搜索语法，当然Lucene的这一套语法本身是非常极客的，很简洁，但是一般的人不愿意去学这个东西，因为对于分析师来讲去学，就意味着以前的武功，几十年功夫白费了。

于是我们就采用了一个插件Elastisearch-SQL，这样就可以采用SQL语句对Elasticsearch进行点查询或者范围查询。而且在Elasticsearch的演进路径当中，也会支持SQL，按照之前看到的ES roadmap, 应该在17年最迟不超过18年发布6.×，重要的特性之一是对SQL的支持，大家可以看到如果不支持SQL，就等于是自废武功，或者拒客户于千里之外。

WebUI是人机交互的部分，我们会进行Ad-hoc查询，但在整个部门当中有不少程序希望调用查询，也就是应用的接口，采用SOA的架构，我们自己开发实现了 BigQuery API，可以通过这种调Restful 接口方式，进行取数或者分析。那么我们会自动判别到底是到ES这一侧还是到Presto进行取数。

在很多公司的使用当中，数据分析这一块是需要报表的，就是要有很好的Dashboard。

2、ETLPipeLine -- Gobblin

这个是ETL相对比较细节的一些东西。快速过一下这个图。在ETL的时间当中，比如说为什么不直接用像Spark或者流的方式，最常见的问题就是小文件的问题，到时候需要清理合并小文件，这很麻烦。如果采用Zeus去调度，然后设定一定数目的Partition，就有一个Map Task对应，尽可能的写满一个Block，以64M或者128M为主。在存储的时候我们除了考虑它的大小之外，存储格式的选择也应该是必须考量的范围。

从我们当前的选择来看，建议使用ORC这样的文件格式，采用这个文件格式是由于它已经内嵌了一定级别的索引，尽管索引不是非常细粒度，但是在某些层面是能够急速地提高检索，跳过不符合条件的数据块，避免不必要的数据传输。目前相对比较有希望的，或者大力推广的一个格式就是华为公司在推的CarbonData，它含有的索引粒度，索引信息比ORC更加细致。他们目前也出了1.×的版本，是相对来讲较为成熟一个版本。

3、分析引擎 -Presto

这里讲的是Presto的内部机理。为什么不用Hive和Spark？Hive相当于是俄国的武器，特点就是傻大黑粗，绝对的稳定，稳定到什么程度？稳定到就是它是最慢的一个，有一个笑话就是我的成绩一直很稳定，因为老考倒数第一，没人可以比过，所以一直很稳定，而正数第一不见得很稳定，Hive就是这个特点，绝对可以出来结果，但是会让你觉得人生没有指望。

Spark的特点就是它名头绝对的够响，但是会发觉Spark具体的使用过程当中有些问题？资源共享是一个问题，如果说你光用Spark，肯定Concurrent Query出现问题的，要前置一个东西，比如Livy或者什么东西来解决掉你的资源共享问题。而且Spark的雄心很大，几乎想把所有东西都吃下去，所有东西都吃，就很难，因为你要涉及很多的领域。

Presto只专注于数据的分析，只关注SQL查询层面，只做一件事，这个充分体现了Unix的哲学，遵循只干一件活，不同的活通过Pipeline的方式串起来。而且Presto是基于流水线的，只要有一个块当中结果出来了，然后比如说我们最典型的就是后面加一个后置的条件，然后limit 10或者Limit 1，你会发觉很快出来结果，用Spark会发现它Where条件的搜索会经历多个Stage，必须到前面的Stage都完成了才可以跑下一个Stage，那个Limit 1的结果要到后面才过滤。

从Presto后面给出的这些数据可以看到，这种层面上的一个提升。基于ORC的文件存储，它的提升应该是5倍或者10倍，10倍到20倍的提升。它的架构简单来说是有一个Client，然后这个Client提交SQL语句过来，前面有一个Planner和Scheduler，会把相应的SQL的东西分层，分成不同的Stage，每一个Stage有多个Task，这些真正的Task是运行在不同的Workers上面，利用这些Workers去数据源读取数据。

也就是说Presto是专注于在数据分析这侧，具体数据的存储在外面，这个当中肯定要去解决哪些东西是值得去拉取的，有哪些东西可以直接推到数据源侧去搞定，不需要傻乎乎地把很多东西拉上来。

分析引擎比较——Presto与MapReduce

大家可以看到我刚才提到一个基于Stage的方式，一个基于Pipeline的方式，Pipeline的方式就是整个过程中，处理没有停顿，整个是交叉的，它不会等上一个Stage完成后再进行下一个Stage，Spark的特点就是等到一个Stage结束了，数据吐到Disk中，下一个Stage再去拉数据，然后再进行下一个。Pipeline就是说我有一个Task处理完，直接将数据吐到下一个Task，直到Aggregator节点。

那么在这个过程当中，你也会看到Presto的一个最大特点就在于所有的计算就在内存当中，你会想到人的大脑，机器的内存都是有限的，会崩掉了，崩掉就崩掉了，早死早超生，大不了再跑一趟，这就是Presto的一个基本原则。

MapReduce会重启，如果成功了还好，重启很多次崩掉是不是三观尽毁？通过这种特点也表明Presto适用的场景，适用于交互式查询，如果是批量的，你晚上要做那种定期报表的话，把整个交给Presto是不负责任的表现，因为有大量的时间，应该给Hive比较好。

4、近实时搜索 –Elasticsearch

下面讲讲ES层面的东西，也就是近实时的搜索引擎，它所有的东西都是基于Lucene上面进行一个包裹，对JSON支持的非常好。同时Elasticsearch支持横向、水平扩展，高可用，易于管理，社区很活跃，背后有专门的商业公司。它的竞品就是Solr，Solr的Cloud，SolrCloud安装较为复杂，引入了独立的第三方东西，对ZooKeeper集群有极大的依赖，这样使得Solr Cloud的管理变得复杂。

SolrCloud的发展也很活跃，现在是到了6.×，后续就是到7.×，而且SolrCloud的6.×当中引入了对SQL的支持，ES和SolrCloud是同门师兄弟，通过同门师兄弟的相互竞争可以看到发展的趋势——SQL一定是会支持的。

如果大家做搜索这一块东西的话，上面这张图其实是很常见的，它肯定会在某一个节点上面有相应的一个主分区，有一个Primary partition，而在另外一个节点上面它有一个Replicas，而且Replica可能不只一个，如果这些没有，这张图就没有太多好讲的。问题是该分几个Replica，在每台机器上分几个不同的partition，如果在从事维护工作的话，上述问题是值得去分析和考究的。

ES调优和运维

下面讲ES的调优和运维，从两个层面出发。

第一个层面就是OS，讲到Linux，调优过程中自然会考虑到它的文件句柄数，然后它的Memory，它的I/O的调度，I/O的调度线如果在座各位对内核比较感兴趣的话，你会发现基本使用CFQ，因为在生产环节上大多会采用Redhat或者CentOS来部署，不会部署到像自己玩的Archlinux或者Gentoo上面，不可能这样做的。

还有就是它的Virtual memory DirtyRatio，这个东西是会极大地影响响应时间，或者说有时你会发觉I/O操作，而且CPU一直比较高，因为有文件缓存，缓存足够多的话就一直往磁盘去写，所以我们的办法就是把原来设置比较高的vm.dirty_ratio，由默认20%调小到10%。意思就是说缓存内容一旦超过系统内存的10%其它活不要干了，专心致志吐这个缓存内容。 Vm.dirty_background_ratio是说如果达到这个阀值，就开始将文件缓存内容写入到磁盘。OS层面的调优和数据库的系统调优有相似性。

另一个层面的调优是ES本身，首先就是说我在一个Cluster上，Shard的数目要均匀分布。

我这里放了一张截图，这个截图大家可以看到所有的节点上面，Shard数目上来讲是非常均匀的。有相应的参数调整可以达到这样的效果。第二个就是会有一个Replica的过程，比如新加一台机器或者说我是减少一台机器，要做相应的维护，机器的集群会做动态的扩容和缩减。那么这时如果都来做Shard的转移，整个集群的写入和查询会受很大影响，所以做一定的均衡，两者之间要有一定的Balance。这些讲的都是集群级别，下面讲索引级别的优化。

索引级别的优化就是我要对Shard的数目，到底是这个Index是分十个Shard存还是5个来存，refresh的频率，Refresh就是说这个数据写入多久之后可以被搜索到。Refresh时间拉得越长，数据吞吐量越大，但是可以被搜索到的时间越滞后。还有Merge的过程，因为分片，为了减少对文件句柄使用，所以需要进行Merge。有人讲就是因为ES支持Schemaless了，所以不需要fixed的Schema。但在实际的使用过程中发觉，如果不做一定限制的话，每个人都认为是自由的，就会出现一个Field的急速膨胀，在某个索引下面成千上万的字段，这样一来索引的写入速度就下来了。

下图是我们自己写的Dashboard，说到ES，可能在座的也有不少在用，如果说你们升级到5.×后发现一点，1.×比较好的插件Marvel，5.×里面就没有，提供的就是X-pack，X-pack是要收钱的，那么它同时提供了一个所谓的basic版本，Free的东西大家都知道，便宜无好货，就是说它的功能是对比了1.×的版本，很多信息都是没有的。

我们的话就是自力更生，因为你所有的内容都是可以通过Rest API读取到，只不过是需要在前端可视化一下。那么这张图就是我们做的工作，可以很方便地看到当前节点的写入量、查询量，当前节点的索引，Shard数目还有当前集群的状态，如果一旦状态变为red，可以邮件通知，在页面上还可以进一步点下去了解每一个节点和索引的详细信息。

稍微总结一下，一般来说在调优上考量的不外乎四个维度：一个CPU的维度，一个Memory的角度，还有就是Disk的I/O角度，另外一个是网络。比如从原来的百M网卡升级到千M网卡，从千M到万M，查询的响应速度会有很大提升。

这是前面提到我们统一的一个SQL查询的接口，大家可以看到这挺简陋的，很傻很天真的样子，我就是上面输入一个SQL，下面很快就出来一个结果。但就是因为采用了这种方式，因为后面是它采用了Presto这个引擎，在部门内部，我们有不少同事都在使用这个进行数据查询，目前的日常使用量应该是在近8K的样子，因为最近还升级了一下网卡，升级到万M网卡，使得速度更加快。多余的时间喝喝咖啡抽抽烟生活多美好，比等在那里焦虑有意思多了。

5、数据可视化——Zeppelin

在做数据可视化这一块时，可以借鉴竞争对手或者竞品，看看别人在做什么，如果说大家去看Hue， Hue的话，其实就是上面输入查询语句之后，后续就把结果很好地显示出来。我们目前所考虑的就是说如何做到Data visualize的，目前尝试用Zeppelin，这个可以通过JDBC接口对接Presto，把数据查询出来，通过简单的拖拽，直接把报表以图形化的方式展现出来。

补充一下，Zeppelin这个如果要对接Spark，如果只是一个Spark集群，直接对接这个Spark集群，资源利用率是非常非常低的，但是你在前置一个Livy Server的话，通过Livy来进行资源调度，资源共享会比较好。目前有两个这一方面的竞品，一个Livy，另外一个就是Oyala它提供的SparkJob ServerS，干的活其实都是一样。Zeppelin是对Livy Server做了整合。

6、数据微服务 –Rest查询接口

微服务这一块，我们提供了一个BigQuery API，这样的好处是有一个统一的查询入口，有统一的权限管理。因为查询时不是所有人都应该看到所有的数据，这很容易出问题，可能有比较实实在在的数据，它不像一般的日志数据，特别像机票或者我们这边的酒店，它的数据有不少的一些敏感信息，这需要做相应的权限管理。

这个入口统一之后，做权限管理就比较方便了，出问题的话只要查相应的日志就OK了。而且使用的是统一的查询语言，都用的是大家比较熟知的这种SQL语句，不是说用了一个新的东西就要学习一套新的知识，这样子的话原有知识不容易得到传承，这是大家都应尽量去避免的。

7、任务调度器 –Job Scheduler

Zeus-https://github.com/ctripcorp/dataworks-zeus

其实在做一套大数据的平台时，少不了任务调度这一块。任务调度这一块我们使用的是Zeus系统，携程在这一块开源出来，由我们公司Ops的团队专门来负责开发和维护个平台。但是你想，通过这个平台递交的任务包括，ETL和定时任务，可以实现将数据从Kafka放入到HDFS或者是把SQL Server和MySQLDB里面的数据同步到HDFS。调度这一块目前市面上的竞品还有AirFlow和其它。

二、数据团队能力建设

这部分讲的是我们团队的建设。目前我把它分成五个不同的角度，第一个是引擎的开发，这一块是相对较难的，它对后台的技术要求比较高。

第二是交互界面设计，整个东西做出来，如果只是做了引擎，或者对引擎做了，但是没有实际的人用，老板肯定也会叫滚蛋的，肯定要一环套一环，形成有效的传动，不是单点，只讲发动机没有任何意义的，要讲整车。所以有引擎，引擎的要求也比较高，会有一个交互界面的设计，就是我如何用这些引擎的东西。

把这些东西都弄上后，可以转起来了，整个可以转起来之后，我们还有个运维，其实大家可以逐步发现一个趋势，就是无论大数据也好，云平台也好，对运维的要求都是比较高的，一个好的运维不仅要掌握一个基础的OS层面的东西，对后台也得有一个较好的概念或者好的研究。无论是从后台服务开发转到运维还是从运维转后台服务器开发，两者都需要去交叉学习。

那么，一个平台规划相对来说就是一个架构师或相对更高层一点人员的工作范畴，视野可以更高一点，这样的角色肩负了架构和产品经理这两个概念的东西，因为像这种东西最主要是内部使用，比较难以独立出来。

语言这一块就是见仁见智，我只是把我们现在采用到的，使用到的东西列了一下，有上述这么多。

大体我们的实践的就是这些。我们所有的部分应该就在这一张图里，这张图的内容看起来比较平淡，但是如果需要把这张图弄好，确实花了不少时间。

回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
下一站深圳默琊
昨天已经买好3/15到深圳的机票了，原本上周还有点拖延症发作，不太积极，所以昨天就直接逼迫自己买机票，然后在订房，下周就是确认行业和把具体的面谈日程定下来。行业的选择上目前没有太大的偏好，上一份工作主要是风控和客服，客服部分也算是个小组长，有负责培训和一些案件SOP流程的制定等工作。总感觉客服这个职位的职涯发展只能是垂直的往更高的管理层走，对于横向发展似乎不容易，而鉴于做客服1年的感受，我不太喜欢
母亲节如何做小红书营销美橙传媒
小红书的一举一动引起了外界的高度关注。通过爆款笔记和流行话题，我们可以看到“干货”类型的内容在小红书中偏向实用的生活经验共享和生活指南非常受欢迎。根据运营社的分析，这种现象是由小红书用户心智和内容社区背后机制共同决定的。首先，小红书将使用“强搜索”逻辑为用户提供特定的“搜索场景”。在“我必须这样生活”中，大量使用了满足小红书站用户喜好和需求的内容。内容社区自制的高质量内容也吸引了寻找营销新途径的品
干货|自我介绍这三个坑，99%的概率你踩过！夏麦生命的魔术师
自我介绍——每个人都需要的一张名片。图片源自网络从2018年到现在，在做演讲俱乐部的2年时间里，我在演讲活动现场听过1000+人的自我介绍，自我介绍做得超棒的人真不多！最近，我花了近几个月时间，仔细研究了500+人线上场景的自我介绍，发现优秀的自我介绍也不多！为什么做一张优秀的自我介绍就这么难呢？这个问题，在我帮几十个人打造了自我介绍的过程一直困扰着我。经过了几个月的时间思考与实践，终于发现三个—
《HTML 与 CSS—— 响应式设计》陈在天box html css 前端
一、引言在当今数字化时代，人们使用各种不同的设备访问互联网，包括智能手机、平板电脑、笔记本电脑和台式机等。为了确保网站在不同设备上都能提供良好的用户体验，响应式设计成为了网页开发的关键。HTML和CSS作为网页开发的基础技术，在实现响应式设计方面发挥着重要作用。本文将深入探讨HTML与CSS中的响应式设计原理、方法和最佳实践。二、响应式设计的概念与重要性（一）概念响应式设计是一种网页设计方法，旨在
小学科学课堂管理规培有感 31c6a3d23d4e
今天进行了这学期的第一次新教师规培，又是干货满满的一次学习，两位有经验的老教师分享了自己很多年来有关科学教学的经验。苏老师的语言风趣幽默，通过他的课堂管理规则，懂得了语言的艺术。艳姐分享的培养小助手，对我的帮助很多，小组长，（做记录、整理材料、管理卫生）。既培养了学生，又减轻老师的工作量，还有评价表，学起来学起来！
app推广一手资源在哪里找？盘点2024年必备的八大app拉新渠道 U客直谈APP
在2024年即将来临之际，还是有许多小伙伴表示不知道app推广一手资源在哪里找，又要从哪里去了解各个资源渠道的不同特性。好消息来啦，本篇文章就将带大家盘点24年必备的八大app拉新渠道，全文干货，拆解分析点评一步到位，还不快快收藏起来~1.app推广一手资源来源：U客直谈U客直谈是一个资源对接平台，专注于为推广人员提供海量丰富的app拉新任务。其具有数量丰富且类型多样的app拉新任务，使得U客直谈
平衡计分卡从4个维度，让你的员工从管理思维，转变为经营思维思想会
关注【本号】更多关于企业管理、员工激励、薪酬制度、绩效激励等内容免费与你分享！私信“绩效”送您关于员工管理、绩效薪酬的干货视频。作者：刁老师（CQZHHC1980）基于平衡计分卡的考核体系截至2000年年底，美国、英国和斯堪的纳维亚地区（瑞典、丹麦、挪威、冰岛的泛称）的许多公司都在使用平衡计分卡，而且还有许多公司打算很快使用平衡计分卡。多种数据显示，平衡计分卡自产生以来，已经成为绩效管理领域较为主
MATLAB中的函数编写有哪些最佳实践 2401_85812053 matlab 算法人工智能
在MATLAB中，函数是执行特定任务的代码块，可以通过自定义函数来提高代码的可重用性和模块化。以下是一些关于MATLAB函数编写的最佳实践：函数结构和语法：MATLAB函数由函数名、参数列表和函数体组成。函数名必须以字母开头，后面可以跟字母、数字或下划线。参数列表包含函数接收的输入变量，用逗号分隔。函数体包含要执行的代码。functiony=my_function(x)%函数体y=x^2;end参
HTTPS 安全最佳实践（一）之SSLTLS部署 SHENHUANJIE HTTPS SSL TLS
SSL/TLS是一种简单易懂的技术，它很容易部署及运行。但想要部署的安全通常是不容易的。这也使系统管理员和开发者不得不去了解SSL和TLS相关的技术，掌握如何配置一个安全的web服务器或应用。无疑会耗费很大的精力去看相关的技术文档，乏味且宽泛。受理SSL数字证书客户问题，包括产品咨询、技术支持、投诉受理、建议反馈，以及购买帮助等。1证书和私钥在TLS中，所有的安全性都从服务器的密码标识开始；需要一
新媒体人#自媒体魂！新手到入门|一篇足矣 ph萝卜
最近已学习《新媒体写作平台策划与运营》课程，先梳理梳理学习感悟，后上满满的干货！希望阅读文章的你可以带来一丝想法，目的就达到了！想干成一件事，最靠谱的就是去认识一个已经做成了这件事情的人，或是认识与这件事情相关的人。做到不耻下问，足或有所长，你找他们聊天一小时，足以比你看多少书来的实际，就打个比方，我想利用我的空余时间做微信公众平台，我想到的是学习相关知识，包括编辑，美化，排版，运营，与其同时，我
mysql case 干货 lack倪酱
这是我舍友@某人提供的是为了做酒店时判断每个楼栋有几间空房子的。房间表与数据楼栋表与数据查询楼栋房间总数查询空房间数当时就在想怎么把后一个单列的数据合并到前面那三列的数据里呢？又是百度，又是谷歌，都是什么“unitall”。。表示我要的不是这个。有点难为我小脑瓜，实在是对数据库不了解，只会日常操作。最后是我舍友想出了解决办法直接贴图好了，如果想要了解case是什么，你可以自行查资料。学习查东西也是
职场内卷，太累了！7个方法让你“破局”（收藏）张涔汐
文|张涔汐上上个周，涔汐做了一场直播，关于个人如何快速成长的话题。涔汐实力宠粉，把直播干货分享给大家了。话不多说，上干货。我们先思考一个问题，为什么有些人在职场三年五载，还是老样子呢？因为他们总是指望别人能教他，就如同《天道》的王庙村村民，没事儿往教堂跑，指望上帝保佑发财，期待高人指点脱贫致富一个道理。如果你想要在短短时间内，获得成长。01摒弃指望别人教你成长的观念，保持成长思维很多人面试的过程中
容易陷入的两性误区：男女恋爱，女人有哪些雷区不能踩？清晨白鹿
在知乎看到有人讨论：男女交往时最忌讳的恋爱误区。对这个话题我觉得有必要好好聊一聊。很多人都追求过喜欢的人，或者谈过恋爱。但谈过恋爱并不代表就获得了爱情，也不是每个人都能拥有甜甜的恋爱。由于很多人对两性关系的认知存在偏差，导致了错失喜欢的人，糟糕的恋爱体验，或者分手。那么，男女恋爱，有哪些雷区不能踩？男女交往时，恋爱误区都有哪些呢？今天就为大家献上男女相处的干货分享。希望能帮到你们，走出一些误区，收
5条实操干货有效打造你的个人品牌长安行动派
这是ZerK的第46篇原创相信大家对个人品牌这个词已经不在陌生。尤其是在知识付费的年代，你的个人品牌，就是你的标签！在《深度工作》中说到，在未来有三种人会越来越贵第一种人:能与机器对话，操纵机器的人。人工智能时代的到来，机器毕竟部分取代人类。第二种人:IP，知识产权或者文学潜在财产就像有些网上课程一周卖出的钱和一个机构卖一年一样多。价值99元的课程，10万人购买，是很常见的。爱产出大概就是10万✖
鲨鱼线锻炼方法，全是干货无可替代的everytime
图片发自App图片发自App图片发自App图片发自App图片发自App图片发自App图片发自App图片发自App图片发自App图片发自App图片发自App图片发自App图片发自App
深入理解LangChain中的Callback机制：如何为Runnable添加回调函数 aehrutktrjk langchain python
深入理解LangChain中的Callback机制：如何为Runnable添加回调函数引言在LangChain中，回调（Callbacks）是一种强大的机制，允许开发者在运行过程中监控和干预各种操作。本文将深入探讨如何为Runnable对象添加回调函数，这对于调试、日志记录和性能监控等任务至关重要。我们将通过实际的代码示例来演示这一过程，并讨论一些常见的应用场景和最佳实践。理解Callback机制
全面指南：用户行为从前端数据采集到实时处理的最佳实践数字沉思营销流量运营系统架构前端内容运营大数据
引言在当今的数据驱动世界，实时数据采集和处理已经成为企业做出及时决策的重要手段。本文将详细介绍如何通过前端JavaScript代码采集用户行为数据、利用API和Kafka进行数据传输、通过Flink实时处理数据的完整流程。无论你是想提升产品体验还是做用户行为分析，这篇文章都将为你提供全面的解决方案。设计一个通用的ClickHouse表来存储用户事件时，需要考虑多种因素，包括事件类型、时间戳、用户信
如何搭建一个ip池用来做数据抓取用 KookeeyLena4 tcp/ip 网络服务器
在当今的数据驱动时代，数据抓取成为了获取网络信息的重要手段。然而，频繁的数据抓取活动可能会触发网站的安全机制，导致IP被封禁。为了维持数据抓取的持续性和稳定性，构建一个有效的IP池变得至关重要。本文将详细介绍如何搭建一个用于数据抓取的IP池，以及相关的策略和最佳实践。一、IP池的概念IP池是一个包含多个IP地址的集合，这些IP地址可以是动态的，也可以是静态的，用于在数据抓取过程中轮换使用，以避免因
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
我想你了，老朋友 yi小爷丫头
我想你了，短短的四个字，是异地恋的爱情中最常用的句子。女孩发来一条信息：我想你了，你买机票飞到她的城市出现在她的面前。这可能是爱情中的想念。我想你了，老朋友。我想你了，你会为了朋友的一句我想你了，在她需要你的时候，会出现她面前吗？我的回答：我会。我很珍惜对我好的朋友，我会在心里记着她对我的好，然后把我好的东西分享都会给她，她对我好，恨不得把心掏出给她。她需要我的帮忙，我会义不容辞的跑去帮她，甚至觉
“深圳红树林外国语小学”教育戏剧的师资培训我爱教育戏剧
2020年8月17日-18日，骑士教育戏剧为红树林外国语小学的老师们进行了一场师训，这篇文章由红树林外国语小学官方微信公众号撰写，骑士转载，以期更多学校了解教育戏剧走进校园的情况。暑假研修教育戏剧专场2020年8月16日-21日，红树林举行了为期六天的入职研修培训各位教育大咖空降来袭，带来了满满的干货讲座你以为红树林的培训只是听讲座吗？NO！NO！NO！在这里，红树林的培训还是这样的：还有这样的！
如何找到自己的优势小小世界大大精彩
今天来跟大家聊一聊如何寻找自我优势的话题！首先发现优势有什么意义呢？如果只是弥补自己的短板只是会让自己成为一个普通人，而如果发掘自己的优势并将它发挥到极致的时候才能够脱颖而出。那么问题来了，在职场中很多时候我们不清楚自己擅长什么，优势到底在哪？今天就来帮助大家解决如何寻找自己的优势的问题，闲话少叙，直接来干货！1.成就事件法。首先在纸上记下曾经你觉自己做过的有成就或者别人认可的三件事。然后问自己为
2018-03-22 D6_李晓红Dorothy
【昨日三只青蛙】己检视读书听录音各半小时，目标声明2遍+备课+打三个电话+【今日三只青蛙】读书、听录音各半小时，目标声明2遍备课打三个电话【易效能90天目标】锻练60天两个合伙人建立10个新客户，保证每月固定销售【其他要做的事】【感恩分享】老公又开始早起进花了，有些心痛，也有些无奈！说的是人不能为钱而活，但要生活的基本需求你还必须得满足，心里堵着，有压力了！咋日图紙完成不错，孩子也好积极，订了机票
如何通过学习经典，写出一篇优质的情感爆款文【续集】小夭读书
昨天文章中说到的都是如何通过阅读经典后，再对比自我写作中总结出的盲点，今天就要详细说说爆款文的干货内容了。首先是爆款文的选题：如果你大量去阅读一些类似的文章，你就会发现所有的文章都有套路，只要你能用心去归类总结，就一定能找到你想要写的主题。
把时间花在刀刃上方糖0427
上周读了《小强升职记》，里面讲述了不少时间管理术，简称“GTD方法”，告诉我们如何才能既出色地完成工作，又快乐地享受生活，可谓干货满满，所以有了这期文章，来归纳一些提高人生效率和质量的锦囊。首先，提出一个概念“时间黑洞”，指的是，我们无意识浪费时间的情况，比如工作累了想休息一下，开始刷手机，刷完了朋友圈，又忍不住刷微博，刷豆瓣，刷抖音，不知不觉时间就流失了一大半。如果我们做事情不够主动，目的性不强
土巴兔“兔友约” 落地中原共商数字化发展大计快消日日谈
10月13日，土巴兔联合大自然家居举办的“兔友约·精英汇”装企学习交流活动在郑州举办，当地近百名装企代表报名参加，全国知名家居建材与家电品牌代表出席并进行了干货满满的分享。活动采取“线上直播+线下交流”的方式。首先，土巴兔电商运营负责人彭惠清为大家带来《后疫情时代装企行业的变与不变》主题演讲，以用户角度为切入点，深入分析了解用户过去和现在需求的不同，装企需要以用户为基础，以市场为导向，转变为互联网
回莞了柒月MissHuang
今天，从49回来了，一路畅通，2小时到莞小子，一路对各种车充满好奇和激情大叫truck，bus，car,ninonino...早早起来，妈妈做好了腊鸭粉葛粥，还有发糕，Earnest很喜欢吃，路上带了一些，路上和E爸聊了很多过年的一些感悟，2021还是努力高质量带好娃和好好奋斗，对比弟弟，我们一家人都在东莞，儿子陪在身边，幸福了每次回来路上，都是五味杂瓶的时候，妈妈把家里能带的干货都带上了过年，回
Java-后端程序员个人知识总结金肴羽 java 开发语言
文章目录概要1.编程语言2.数据结构与算法3.数据库知识4.框架和库5.服务器管理6.网络知识7.版本控制8.测试9.安全知识10.系统设计11.编码规范与最佳实践12.持续学习和适应能力概要后端程序员，主要负责应用程序的逻辑、数据库交互、服务器配置以及应用的性能优化等。成为一名优秀的后台程序员，需要掌握以下技能：1.编程语言掌握至少一种后台编程语言JavaPythonHtmlJavaScript
芝龙源说在恋爱中怎么让女生满脑子都是你？芝龙源说男题
怎么让女生满脑子都是你呢？一定要学会这三个法则啊。特别是最后一个，能让女生对你念念不忘的。这篇文章干货满满，点赞收藏加关注第一要学会适当的拒绝，你可以对他热情私活，但绝对不能有求必应，卑微的去讨好对方。在很多的时候，这种做法最多也只能让他感觉到你确实有价值，但他远远不能让他产生好感度。那么应该怎么办呢？如果说你没有能够让他一见钟情的能力，那你就要学会制造吸引力，适当的拒绝他的请求，做回原本的自己。
html页面js获取参数值 0624chenhong html
1.js获取参数值js function GetQueryString(name) { var reg = new RegExp("(^|&)"+ name +"=([^&]*)(&|$)"); var r = windo
MongoDB 在多线程高并发下的问题 BigCat2013 mongodb DB 高并发重复数据
最近项目用到 MongoDB , 主要是一些读取数据及改状态位的操作. 因为是结合了最近流行的 Storm进行大数据的分析处理，并将分析结果插入Vertica数据库，所以在多线程高并发的情境下, 会发现 Vertica 数据库中有部分重复的数据. 这到底是什么原因导致的呢？笔者开始也是一筹莫展，重复去看 MongoDB 的 API , 终于有了新发现： com.mongodb.DB 这个类有
c++ 用类模版实现链表(c++语言程序设计第四版示例代码) CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T> class Node { private: Node<T> * next; public: T data;
最近情况麦田的设计者感慨考试生活
在五月黄梅天的岁月里，一年两次的软考又要开始了。到目前为止，我已经考了多达三次的软考，最后的结果就是通过了初级考试（程序员）。人啊，就是不满足，考了初级就希望考中级，于是，这学期我就报考了中级，明天就要考试。感觉机会不大，期待奇迹发生吧。这个学期忙于练车，写项目，反正最后是一团糟。后天还要考试科目二。这个星期真的是很艰难的一周，希望能快点度过。
linux系统中用pkill踢出在线登录用户被触发 linux
由于linux服务器允许多用户登录，公司很多人知道密码，工作造成一定的障碍所以需要有时踢出指定的用户 1/#who 查出当前有那些终端登录（用 w 命令更详细） # who root pts/0 2010-10-28 09:36 (192
仿QQ聊天第二版肆无忌惮_ qq
在第一版之上的改进内容: 第一版链接: http://479001499.iteye.com/admin/blogs/2100893 用map存起来号码对应的聊天窗口对象,解决私聊的时候所有消息发到一个窗口的问题. 增加ViewInfo类,这个是信息预览的窗口,如果是自己的信息,则可以进行编辑. 信息修改后上传至服务器再告诉所有用户,自己的窗口
java读取配置文件知了ing
1，java读取.properties配置文件 InputStream in; try { in = test.class.getClassLoader().getResourceAsStream("config/ipnetOracle.properties");//配置文件的路径 Properties p = new Properties()
__attribute__ 你知多少？矮蛋蛋 C++gcc
原文地址: http://www.cnblogs.com/astwish/p/3460618.html GNU C 的一大特色就是__attribute__ 机制。__attribute__ 可以设置函数属性（Function Attribute ）、变量属性（Variable Attribute ）和类型属性（Type Attribute ）。 __attribute__ 书写特征是：
jsoup使用笔记 alleni123 java 爬虫 JSoup
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.7.3</version> </dependency> 2014/08/28 今天遇到这种形式，
JAVA中的集合 Collectio 和Map的简单使用及方法百合不是茶 list map set
List ,set ,map的使用方法和区别 java容器类类库的用途是保存对象，并将其分为两个概念： Collection集合：一个独立的序列，这些序列都服从一条或多条规则;List必须按顺序保存元素，set不能重复元素；Queue按照排队规则来确定对象产生的顺序（通常与他们被插入的
杀LINUX的JOB进程 bijian1013 linux unix
今天发现数据库一个JOB一直在执行，都执行了好几个小时还在执行，所以想办法给删除掉系统环境： ORACLE 10G Linux操作系统操作步骤如下：第一步.查询出来那个job在运行，找个对应的SID字段 select * from dba_jobs_running--找到job对应的sid &n
Spring AOP详解 bijian1013 java spring AOP
最近项目中遇到了以下几点需求，仔细思考之后，觉得采用AOP来解决。一方面是为了以更加灵活的方式来解决问题，另一方面是借此机会深入学习Spring AOP相关的内容。例如，以下需求不用AOP肯定也能解决，至于是否牵强附会，仁者见仁智者见智。 1.对部分函数的调用进行日志记录，用于观察特定问题在运行过程中的函数调用
[Gson六]Gson类型适配器(TypeAdapter) bit1129 Adapter
TypeAdapter的使用动机 Gson在序列化和反序列化时，默认情况下，是按照POJO类的字段属性名和JSON串键进行一一映射匹配，然后把JSON串的键对应的值转换成POJO相同字段对应的值，反之亦然，在这个过程中有一个JSON串Key对应的Value和对象之间如何转换(序列化/反序列化)的问题。以Date为例，在序列化和反序列化时，Gson默认使用java.
【spark八十七】给定Driver Program，如何判断哪些代码在Driver运行，哪些代码在Worker上执行 bit1129 driver
Driver Program是用户编写的提交给Spark集群执行的application，它包含两部分作为驱动： Driver与Master、Worker协作完成application进程的启动、DAG划分、计算任务封装、计算任务分发到各个计算节点(Worker)、计算资源的分配等。计算逻辑本身，当计算任务在Worker执行时，执行计算逻辑完成application的计算任务
nginx 经验总结 ronin47 nginx 总结
　　　深感nginx的强大，只学了皮毛，把学下的记录。　　　获取Header 信息，一般是以$http_XX（ＸＸ是小写）获取body,通过接口，再展开，根据Ｋ取Ｖ　　　获取uri,以$arg_XX &n
轩辕互动-1.求三个整数中第二大的数2.整型数组的平衡点 bylijinnan 数组
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class ExoWeb { public static void main(String[] args) { ExoWeb ew=new ExoWeb(); System.out.pri
Netty源码学习-Java-NIO-Reactor bylijinnan java 多线程 netty
Netty里面采用了NIO-based Reactor Pattern 了解这个模式对学习Netty非常有帮助参考以下两篇文章： http://jeewanthad.blogspot.com/2013/02/reactor-pattern-explained-part-1.html http://gee.cs.oswego.edu/dl/cpjslides/nio.pdf
AOP通俗理解 cngolon spring AOP
1.我所知道的aop 初看aop,上来就是一大堆术语，而且还有个拉风的名字，面向切面编程，都说是OOP的一种有益补充等等。一下子让你不知所措，心想着：怪不得很多人都和我说aop多难多难。当我看进去以后，我才发现：它就是一些java基础上的朴实无华的应用，包括ioc，包括许许多多这样的名词，都是万变不离其宗而已。 2.为什么用aop&nb
cursor variable 实例 ctrain variable
create or replace procedure proc_test01 as type emp_row is record( empno emp.empno%type, ename emp.ename%type, job emp.job%type, mgr emp.mgr%type, hiberdate emp.hiredate%type, sal emp.sal%t
shell报bash: service: command not found解决方法 daizj linux shell service jps
今天在执行一个脚本时，本来是想在脚本中启动hdfs和hive等程序，可以在执行到service hive-server start等启动服务的命令时会报错，最终解决方法记录一下：脚本报错如下： ./olap_quick_intall.sh: line 57: service: command not found ./olap_quick_intall.sh: line 59
40个迹象表明你还是PHP菜鸟 dcj3sjt126com 设计模式 PHP 正则表达式 oop
你是PHP菜鸟，如果你：1. 不会利用如phpDoc 这样的工具来恰当地注释你的代码2. 对优秀的集成开发环境如Zend Studio 或Eclipse PDT 视而不见3. 从未用过任何形式的版本控制系统，如Subclipse4. 不采用某种编码与命名标准，以及通用约定，不能在项目开发周期里贯彻落实5. 不使用统一开发方式6. 不转换（或）也不验证某些输入或SQL查询串（译注：参考PHP相关函
Android逐帧动画的实现 dcj3sjt126com android
一、代码实现： private ImageView iv; private AnimationDrawable ad; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout
java远程调用linux的命令或者脚本 eksliang linux ganymed-ssh2
转载请出自出处： http://eksliang.iteye.com/blog/2105862 Java通过SSH2协议执行远程Shell脚本(ganymed-ssh2-build210.jar) 使用步骤如下： 1.导包官网下载: http://www.ganymed.ethz.ch/ssh2/ ma
adb端口被占用问题 gqdy365 adb
最近重新安装的电脑，配置了新环境，老是出现： adb server is out of date. killing... ADB server didn't ACK * failed to start daemon * 百度了一下，说是端口被占用，我开个eclipse，然后打开cmd，就提示这个，很烦人。一个比较彻底的解决办法就是修改
ASP.NET使用FileUpload上传文件 hvt .net C#hovertree asp.net webform
前台代码： <asp:FileUpload ID="fuKeleyi" runat="server" /> <asp:Button ID="BtnUp" runat="server" onclick="BtnUp_Click" Text="上传" />
代码之谜（四）- 浮点数（从惊讶到思考） justjavac 浮点数精度代码之谜 IEEE
在『代码之谜』系列的前几篇文章中，很多次出现了浮点数。浮点数在很多编程语言中被称为简单数据类型，其实，浮点数比起那些复杂数据类型（比如字符串）来说，一点都不简单。单单是说明 IEEE浮点数就可以写一本书了，我将用几篇博文来简单的说说我所理解的浮点数，算是抛砖引玉吧。一次面试记得多年前我招聘 Java 程序员时的一次关于浮点数、二分法、编码的面试，多年以后，他已经称为了一名很出色的
数据结构随记_1 lx.asymmetric 数据结构笔记
第一章 1.数据结构包括数据的逻辑结构、数据的物理/存储结构和数据的逻辑关系这三个方面的内容。 2.数据的存储结构可用四种基本的存储方法表示，它们分别是顺序存储、链式存储、索引存储和散列存储。 3.数据运算最常用的有五种，分别是查找/检索、排序、插入、删除、修改。 4.算法主要有以下五个特性：输入、输出、可行性、确定性和有穷性。 5.算法分析的
linux的会话和进程组网络接口 linux
会话：一个或多个进程组。起于用户登录，终止于用户退出。此期间所有进程都属于这个会话期。会话首进程：调用setsid创建会话的进程1.规定组长进程不能调用setsid，因为调用setsid后，调用进程会成为新的进程组的组长进程.如何保证？先调用fork，然后终止父进程，此时由于子进程的进程组ID为父进程的进程组ID，而子进程的ID是重新分配的，所以保证子进程不会是进程组长，从而子进程可以调用se
二维数组元素的连续求解 1140566087 二维数组 ACM
import java.util.HashMap; public class Title { public static void main(String[] args){ f(); } // 二位数组的应用 //12、二维数组中，哪一行或哪一列的连续存放的0的个数最多，是几个0。注意，是“连续”。 public static void f(){
也谈什么时候Java比C++快 windshome java C++
刚打开iteye就看到这个标题“Java什么时候比C++快”，觉得很好笑。你要比，就比同等水平的基础上的相比，笨蛋写得C代码和C++代码，去和高手写的Java代码比效率，有什么意义呢？我是写密码算法的，深刻知道算法C和C++实现和Java实现之间的效率差，甚至也比对过C代码和汇编代码的效率差，计算机是个死的东西，再怎么优化，Java也就是和C

干货 | 携程机票大数据架构最佳实践

你可能感兴趣的:(干货 | 携程机票大数据架构最佳实践)