人月神话

SQL on Hadoop最新进展-转载

原文：http://yanbohappy.sinaapp.com/?p=381

为什么非要把SQL放到Hadoop上？ SQL易于使用。那为什么非得基于Hadoop呢？

目前SQL on Hadoop产品主要有以下几种：Hive, Tez/Stinger, Impala, Shark/Spark, Phoenix, Hawq/Greenplum, HadoopDB, Citusdata等。本文主要讨论Hive, Tez/Stinger, Impala, Shark以及传统开源数据仓库brighthouse的特点和最新进展；下一篇文章会讨论Hawq/Greenplum, Phoenix, HadoopDB, Citusdata。

在互联网企业中一般的基于Hadoop的数据仓库的数据来源主要有以下几个：

1，通过Flume/Scribe/Chukwa这样的日志收集和分析系统把来自Apache/nginx等Server cluster的日志收集到HDFS上，然后通过Hive创建Table时指定SerDe把非结构化的日志数据转化成结构化数据。
2，通过Sqoop这样的工具把用户和业务维度数据（一般存储在Oracle/MySQL中）定期导入Hive，那么OLTP数据就有了一个用于OLAP的副本了。
3，通过ETL工具从其他外部DW数据源里导入的数据。

目前所有的SQL on Hadoop产品其实都是在某个或者某些特定领域内适合的，没有silver bullet。像当年Oracle/Teradata这样的满足几乎所有企业级应用的产品在现阶段是不现实的。所以每一种SQL on Hadoop产品都在尽量满足某一类应用的特征。

典型需求：
1，interactive query (ms~3min)
2，data analyst, reporting query (3min~20min)
3，data mining, modeling and large ETL (20 min ~ hr ~ day)
4，机器学习需求（通过MapReduce/MPI/Spark等计算模型来满足）

Hive：Hive是目前互联网企业中处理大数据、构建数据仓库最常用的解决方案，甚至在很多公司部署了Hadoop集群不是为了跑原生MapReduce程序，而全用来跑Hive SQL的查询任务。

对于有很多data scientist和analyst的公司，会有很多相同table的查询需求。那么显然每个人都从hive中查数据速度既慢又浪费资源。 我们在 online的数据库系统部署的时候都会在DB前面部署Redis或者memcache用于缓存用户经常访问的数据。那么OLAP应用也可以参考类似的方法，把经常访问的数据放到内存组成的集群中供用户查询。

Facebook针对这一需求开发了Presto，一个把热数据放到内存中供SQL查询的系统。这个设计思路跟Impala和Stinger非常类似了。使用Presto进行简单查询只需要几百毫秒，即使是非常复杂的查询，也只需数分钟即可完成，它在内存中运行，并且不会向磁盘写入。Facebook有超过850名工程师每天用它来扫描超过320TB的数据，满足了80%的ad-hoc查询需求。

目前Hive的主要缺点：

1，data shuffle时网络瓶颈，Reduce要等Map结束才能开始，不能高效利用网络带宽
2，一般一个SQL都会解析成多个MR job，Hadoop每次Job输出都直接写HDFS，性能差
3，每次执行Job都要启动Task，花费很多时间，无法做到实时
4，由于把SQL转化成MapReduce job时，map,shuffle和reduce所负责执行的SQL功能不同。那么就有Map->MapReduce或者 MapReduce->Reduce这样的需求。这样可以降低写HDFS的次数，从而提高性能。

目前Hive主要的改进：

1，同一条hive sql解析出的多个MR任务的合并。

由Hive解析出来的MR jobs中有非常多的Map->MapReduce类型的job，可以考虑把这个过程合并成一个MRjob。https://issues.apache.org/jira/browse/HIVE-3952

2，Hive query optimizer

http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.0.0.2/ds_Hive/optimize-joins.html

    Joins where one side fits in memory
    Star schema join的改进，就是原来一个大表和多个小表在不同column匹配的条件下join需要解析成多个map join + MR job，现在可以合并成一个MR job

这个改进方向要做的就是用户不用给太多的hint，hive可以自己根据表的大小、行数等，自动选择最快的join的方法（小表能装进内存的话就用 map join，Map join能和其他MR job合并的就合并）。这个思路跟cost-based query optimizer有点类似了，用户写出来的SQL在翻译成执行计划之前要计算那种执行方式效率更高。

3，ORCFile

ORCFile是一种列式存储的文件，对于分析型应用来说列存有非常大的优势。
http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.0.0.2/ds_Hive/orcfile.html

原来的RCFile中把每一列看成binary blob，没有任何语义，所以只能用通用的zlib,LZO,Snappy等压缩方法。
ORCFile能够获取每一列的类型(int还是string)，那么就可以使用诸如dictionary encoding, bit packing, delta encoding, run-length encoding等轻量级的压缩技术。这种压缩技术的优势有两点：一是提高压缩率；二是能够起到过滤无关数据的效果。

现在ORCFile中主要有三种编码：

    bit编码，所有数据类型都可以用。Google’s protocol buffers and uses the high bit to represent whether this byte is not the last and the lower 7 bits to encode data
    run-length encoding(行程长度压缩算法)，int类型专用。
    dictionary encoding，string类型专用。同时这个dictionary还能帮助过滤查询中的predicate条件。

Run length Encoding对某些列压缩会减少存储3-4个数量级，对内存提升也有2-3个数量级，Dictionary Encoding一般对磁盘空间减少大概20倍，对内存空间大概减少5倍，根据Google PowerDrill的实验，在常见的聚合查询中这些特殊的编码方式会对查询速度有2-3个数量级的提升.

Predicate Pushdown:原来的Hive是把所有的数据都读到内存中，然后再判断哪些是符合查询需求的。在ORCFile中数据以Stripe为单元读取到内存，那么ORCFile的RecordReader会根据Stripe的元数据(Index Data，常驻内存)判断该Stripe是否满足这个查询的需求，如果不满足直接略过不读，从而节省了IO。

关于ORCFile的压缩效果，使用情况和性能可以参考hortonworks的博客

http://hortonworks.com/blog/orcfile-in-hdp-2-better-compression-better-performance/

未来ORCFile还会支持轻量级索引，就是每一列中以1W行作为一组的最大值和最小值。

通过对ORCFile的上述分析，我想大家已经看到了brighthouse的影子了吧。都是把列数据相应的索引、统计数据、词典等放到内存中参与查询条件的过滤，如果不符合直接略过不读，大量节省IO。关于brighthouse大家可以参考下面的分析。

4，HiveServer2的Security和Concurrency特性

http://blog.cloudera.com/blog/2013/07/how-hiveserver2-brings-security-and-concurrency-to-apache-hive/

HiveServer2能够支持并发客户端(JDBC/ODBC)的访问。
Cloudera还搞了个Sentry用于Hadoop生态系统的的安全性和授权管理方面的工作。
这两个特点是企业级应用Hadoop/Hive主要关心的。

5，HCatalog Hadoop的统一元数据管理平台

目前Hive存储的表格元数据和HDFS存储的表格数据之间在schema上没有一致性保证，也就是得靠管理员来保证。目前Hive对列的改变只会修改 Hive 的元数据，而不会改变实际数据。比如你要添加一个column，那么你用hive命令行只是修改了了Hive元数据，没有修改HDFS上存储的格式。还得通过修改导入HDFS的程序来改变HDFS上存储的文件的格式。而且还要重启Hive解析服务，累坏了系统管理员。

    Hadoop系统目前对表的处理是’schema on read’，有了HCatlog就可以做到EDW的’schema on write’。
    HCatlog提供REST接口提供元数据服务，有利于不同平台(HDFS/HBase/Oracle/MySQL)上的不同数据(unstructured/semi-structured/structured)共享。能够把Hadoop和EDW结合起来使用。
    HCatlog对用户解耦了schema和storage format。举个例子吧，在写MR任务的时候，目前是把所有的行数据都当成Text来处理，Text一点点解析出各个Column需要编程人员来控制。有个HCatlog之后编程人员就不用管这事了，直接告诉它是哪个Database->Table，然后schema可以通过查询HCatlog来获得。也省得数据存储格式发生变化之后，原来的程序不能用的情况发生。

6，Vectorized Query Execution in Hive

    https://issues.apache.org/jira/browse/HIVE-4160 。目前Hive中一行一行的处理数据，然后调用lazy deserialization解析出该列的Java对象，显然会严重影响效率。
    多行数据同时读取并处理（基本的比较或者数值计算），降低了一行一行处理中过多的函数调用的次数，提高了CPU利用率和cache命中率。需要实现基于向量的vectorized scan, filter, scalar aggregate, group-by-aggregate, hash join等基本操作单元。

Tez/Stinger

    底层执行引擎不再使用MR，而是使用基于YARN的更加通用的DAG执行引擎
    MR是高度抽象的Map和Reduce两个操作，而Tez则是在这两个操作的基础上提供了更丰富的接口。把Map具体到Input, Processor, Sort, Merge, Output，而Reduce也具体化成Input, Shuffle, Sort, Merge, Processor, Output。在MR程序里，编程人员只需编写对应的Processor逻辑，其他的是通过指定几种具体实现来完成的；而在Tez里面给我们更大的自由度。其实这个跟Spark有点类似了，都是提供更丰富的可操作单元给用户。
    传统的Reduce只能输出到HDFS，而Tez的Reduce Processor能够输出给下一个Reduce Processor作为输入。
    Hot table也放到内存中cache起来
    Tez service：预启动container和container重用，降低了每次Query执行计划生成之后Task启动的时间，从而提高实时性。
    Tez本身只是YARN框架下得一个library，无需部署。只需指定mapreduce.framework.name=yarn-tez

http://dongxicheng.org/mapreduce-nextgen/apache-tez-newest-progress/

未来工作方向：

Cost-based optimizer，基于统计选择执行策略，多表JOIN时按照怎样的顺序执行效率最高。
统计执行过程中每个中间表的Row/Column等数目，从而决定启动多少个MR执行

Impala： Impala可以看成是Google Dremel架构和MPP (Massively Parallel Processing)结构的混合体。

https://github.com/cloudera/impala
Dremel论文： http://research.google.com/pubs/pub36632.html

优点：

目前支持两种类型的JOIN：broadcast join和partition join。对于大表JOIN时由于内存限制，装不下时就要dump部分数据到磁盘，那样就会比较慢
Parguet列存格式，同时能够处理嵌套数据。通过嵌套数据以及扩展的SQL查询语义，在某些特定的场景上避开了JOIN从而解决了一部分性能的bottleneck。
Cloudera Manager 4.6以后会有slow query的分析功能
Runtime Code Generation http://blog.cloudera.com/blog/2013/02/inside-cloudera-impala-runtime-code-generation/
impala可以直接使用硬盘上的数据而不经过hdfs

缺点：

impala不会按照group by的列排序
目前不支持UDF，impala 1.2即将支持Hive UDFs(Java写的)和Impala native UDFs and UDAs(接口类似PosgreSQL)
不支持像Hive的Serializer/Deserializer，从而使得它做从非结构化到结构化数据的ETL工作比较麻烦。
不支持线上查询容错，如果参与查询的某个node出错，Impala将会丢弃本次查询。
安全方面的支持还比较差。impalad之间传输的数据没有加密，不支持表或者列级别的授权。
每个PlanFragment执行尽量并行化，但是有的时候并不是很容易。例如Hash Join需要等到其中一个表完全Scan结束才能开始。

不过虽然有这么多缺点，但是很多公司还是开始尝试Impala了。以百度为例，百度尝试把MySQL接入Impala的后端作为存储引擎，同时实现相应操作对应的PlanFragment，那么用户来的query还是按照原来的解析方法解析成各种PlanFragment，然后直接调度到对应的节点 (HDFS DataNode/HBase RegionServer/MySQL)上执行。会把某些源数据或者中间数据放到MySQL中，用户的query涉及到使用这部分数据时直接去MySQL 里面拿。

Shark/Spark

由于数据能放到内存尽量放到内存，使用内存非常aggressive。优点是做JOIN时会比较快，缺点是占用内存太大，且自行管理内存，占用内存后不会释放。

性能：特别简单的select…where查询，shark性能的提升不明显。（因为hive也不怎么费时间）
但是如果查询比较复杂select…join…where…group by，hive的job数目会比较多，读写HDFS次数增多，时间自然会变长。当内存还足够大的时候shark性能是最好的，如果内存不够装下所有的数据时性能会下降，但还是会比Hive好很多。

SQL on Hadoop产品需要向传统数据仓库学习的地方

以开源数据仓库brighthouse(基于MySQL的数据仓库存储引擎)为例。
VLDB 2008 论文 <<Brighthouse: An Analytic Data Warehouse for Ad-hoc Queries>>

brighthouse的SQL解析用的是MySQL的代码，开发了brighthouse专用的optimizer,executor以及storage engine;brighthouse的数据存储通过三层来组织：Data Pack, Data Pack Node, Knowledge Node

DP(Data Pack):brighthouse是列存储的，每个DP存储一列中64K个单元的数据。
DPN(Data Pack Node):DPN和DP是一对一的关系，DPN中记录每个DP数据对应的一些统计值(max,min,count,sum)
KN(Knowledge Node):DP的更详细的数据信息和DP之间关系的信息

KN又分为一下三个部分：

HISTs(Histograms):数值类型列的统计直方图，能够快速判断这个DP是否符合查询条件。
CMAPs(Character Maps):文本类型的位图，用于快速查找字符。(优化关键字like)
Pack-To-Pack:等值JOIN操作时产生的两个列(DP)之间关系的位图。

DPN和KN相当于DP的一些统计信息，占整个DP的1%的存储空间，所以可以轻松装入内存。他们是为了快速定位哪些DP是跟这个query相关 (relevant)的，哪些是不相关(irrelevant)的，哪些是可能相关(suspect)的。从而减小IO读取的数据量，提高性能。

性能测试：http://www.fuchaoqun.com/tag/brighthouse/ 从这个性能测试中可以看出：

1，压缩率：infobright比MyISAM/tar.gz的压缩率都要高很多
2，查询性能：跟建了索引的MyISAM表相比，查询速度也要快3-6倍

总之，大家都缺少的是：

1，workload management or query optimization
多个表的JOIN如何执行，例如3个表的JOIN会有6种执行策略，那么哪一种才是效率最高的呢。显然要通过计算每种执行顺序的开销来获得。在传统数据库或者数据仓库领域(Oracle/Teradata/PostgreSQL)都有非常好的查询优化器，而在分布式系统中该如何衡量这些指标(磁盘IO，网络带宽，内存)与最后查询效率之间的关系是个需要认真研究的问题。

2，关联子查询correlated sub-queries还是没有谁能够实现。
在TPC-H中又很多关联子查询的例子，但是现在的SQL on Hadoop产品都不支持。听Impala的人说，他们客户对这个的需求不是很强烈，大部分关联子查询可以转化成JOIN操作。但是目前的商业产品像Hawq/Greenplum都是支持关联子查询的。

青春就应该这样绽放游戏测试：三国时期谁是你最好的兄弟！！你不得不信的星座秘密

OpenGL ES 如何渲染 16bit 图像？字节流动 OpenGL ES 3.0 OpenGLES 音视频图形渲染 Android c++
未经作者（微信ID：Byte-Flow）允许，禁止转载文章首发于公众号：字节流动最近有不少读者私信问OpenGLES如何处理16bit图像（P010）？然后我直接贴给他们一段在OpenGL环境下验证过的上传16bit图像数据的代码glTexImage2D(GL_TEXTURE_2D,0,GL_R16UI,width,height,0,GL_RED_INTEGER,GL_UNSIGNED_SHORT
CSDN快速转载文章的技巧（2025年最新方法）日薪月亿 CSDN工具指南学习方法
文章目录一、问题描述1.1排版杂乱1.2浏览器崩溃二、原因分析2.1HTML内容复杂2.2编辑器兼容性2.3性能问题三、解决办法3.1解决思路3.2解决办法一、问题描述最近尝试了多种网上流传的文章转载方法，多数是通过浏览器的DevTool工具找到网页的id值为article_content或content_views的内容，然后右键点击选择CopyouterHTML来获取文章的完整HTML内容。接
基于 Verilog 的经典数字电路设计（1）加法器新芯设计 1 专栏革新中禁止订阅！！！FPGA Verilog 加法器数字 IC 设计 IC
基于Verilog的经典数字电路设计（1）加法器版权所有，新芯设计，转载文章，请注来源引言一、半加器的Verilog代码实现和RTL电路实现一、全加器的Verilog代码实现和RTL电路实现引言加法器是非常重要的，它不仅是其它复杂算术运算的基础，也是CPU中ALU的核心部件（全加器）。两个二进制数之间的算术逻辑运算例如加减乘除，在数字计算机中都是化为若干步加法操作进行的，因此，学好数字电路，从
linux 权限的设置与查看 chmod 与 ls -l 等相关命令 drebander 脚本
本文为转载文章出处：http://blog.csdn.net/sinchb/article/details/11746427本文着重介绍与Linux文件权限相关等问题，比如用户与用户组，文件权限，文件默认权限和文件特殊权限等。Linux为什么需要那么多的权限限制呢？其实这些都是为了“安全起见”啊！如果你的Linux系统里存了你给心上人写的情书，或者是某亚洲岛国的动作大片，你总不希望谁都可以翻翻看吧
CSDN怎么获取积分？ CN.LG CSDN csdn
发布原创或转载文章‌：每发布一篇原创或翻译文章可以获得10分，每发布一篇转载文章可以获得2分。这意味着通过创作和分享有价值的内容，可以快速积累积分‌。参与论坛活动‌：参与论坛活动，如回复相关帖子，每天可以获得10积分，第二天入账。这鼓励用户积极参与社区讨论，提高自己的积分‌。评论他人博客‌：每评论一次他人的博客可以获得1分。通过积极参与评论，不仅可以提升自己的积分，还能促进社区的互动和交流‌。上传
mybatis xml文件中用 if 标签判断字符串是否相等斯南 mybatis xml java
方法一：推荐推荐a.del_flag=#{delFlag}方法二：a.del_flag=#{delFlag}注意test后面跟的是双引号（""）还是单引号（''）ps：用equals()亲测也可以方法三：a.del_flag=#{delFlag}注意：使用如下方式是错的12a.del_flag=#{delFlag}3转载文章关联查询删除表中指定的数据deleteafrombasic_mainale
不为昨天叹息，只为今天更好坚持星球小汤哥
【本文为转载文章】岁月，从来都是悄然无声，不问冷暖，不言悲喜，一天一天地往前走，它从不回头。山河广阔，烟火袅袅，蓦然回首，半生已过。生命，如同一场旅行，每段路都是风景，每段经历都是财富。感谢荆棘赠予的坚韧与饱满，感谢光阴赠予的豁达与明亮。人生本无常，何必苦强求生活就像万花筒，色彩斑斓，但不确定。每个人都在不确定中成长，成长，是一次次蜕变的阅历，阅历越深越明白，人生总是充满着分离、失去、悲痛欲绝，但
nRF52832 — ANCS协议介绍文化人Sugar nRF52832 ANCS nRF52832
文章出处：可不可以不取名（转载文章，如有不妥，通知后我会立即删除）1ANCS综述ANCS即AppleNotificationCenterService。是IOS系统中的一个通知服务。设备连接手机后，设备首先需要先使能IOS系统的通知功能，具体即设备上的GATT客户端发现IOS上的ANCS，并且使能其通知源Characteristics的notify功能。之后IOS系统就会通过ble推送消息给设备了
技术积累 — 函数可变形参整理：vsprintf和vs_list详解文化人Sugar 技术积累 list
写在前面：（转载文章，若有不妥，通知后我会立即删除）一、我们先来看几个宏：va_list、va_start、va_arg及va_end（va的意思应该是variable），在Linux-2.6.24.7内核源码里，其定义（内核里的定义与C语言库的定义是类似的）如下/**UselocaldefinitionsofClibrarymacrosandfunctions*NOTE:Thefunctioni
中国人为什么总比外国人活得累？（转载）小毛sunan293
2013-04-1820:22:35|分类：转载文章|字号订阅文/心悦白云前日看到一条微博说中国人为什么活着很累：1）贫富不均，增加心里压力2）一生只做三件事：培养孩子+供房子+存钱养老防病3）工作时间长，压力大，怕丢工作4）心思慎密，彼此缺乏信任感5）治安差，没有安全感6）个*力和财产没有保障7）对未来充满忧虑8）应酬太多9）虚情假意，违心做事。由此我很想全面地探讨一下中国人为何活得这么累？一、
晨行简得飞兔
图｜简得飞兔文｜简得飞兔朝阳斜照晨风暖行人匆匆车马行缓行踏步至班室开启平和又一天☞☞☞☞☞☞☞☞☞☞☞☞☞☞☞☞｜美源于发现，生活需要我们体味。｜用思考让自己成长，用写作记录生活！｜再回首，我们会为自己感动！｜我是一只热爱生活的兔子，｜在这里，期待与你相遇，一起记录美好生活！☞☞☞☞☞☞☞☞☞☞☞☞☞☞☞☞｜若非征得作者同意，禁止转载文章｜
OpenGL ES 如何实现图像锐化? 字节流动 OpenGL ES 3.0 计算机视觉人工智能 OpenGLES 图形渲染着色器 Android
未经作者（微信ID：Byte-Flow）允许，禁止转载文章首发于公众号：字节流动什么是图像锐化？图像锐化是一种图像处理技术，其目的是增强图像中的细节和边缘，使图像看起来更加清晰。这一过程通常涉及到突出图像中的高频信息，特别是强调像素之间的灰度变化。通过增强图像的高频细节，图像锐化可以改善图像在人类视觉系统和计算机视觉系统中的感知效果。图像锐化处理的目的是为了使图像的边缘、轮廓线以及图像的细节变得清
几种常用的卷积操作原理（标准卷积、深度卷积、组卷积、扩张卷积和反卷积 Never_Jiao DeepLearning 深度学习原理
本文为转载文章，原文链接0、标准卷积默认你已经对卷积有一定的了解，此处不对标准卷积细讲。举个例子，假设有一个3×3大小的卷积层，其输入通道为16、输出通道为32。那么一般的操作就是用32个3×3的卷积核来分别同输入数据卷积，这样每个卷积核需要3×3×16个参数，得到的输出是只有一个通道的数据。之所以会得到一通道的数据，是因为刚开始3×3×16的卷积核的每个通道会在输入数据的每个对应通道上做卷积，然
没有福德，你所得到的一切,都容易失去善财有茶
没有福德，你所得到的一切,都容易失去转载文章：《国语·晋语六》中说：“吾闻之，唯厚德者能受多福，无福而服者众，必自伤也。”由此可见，君子以厚德载物，少德无福者是无法载物的，甚至会导致严重的灾难。清华大学把“自强不息，厚德载物”作为其校训，就是因为厚福德者能更好地立足于社会，更好地完善自我。今天，我们来谈论一下福德对我们为人处事的作用与影响。第一：没有福德无法载物，很多事情付诸东流我们的福德从何而来
Ubuntu安装nodejs环境 CcaozzZ Ubuntu/Ros nodejs
转载博客园：feiquan此文是转载文章，此篇文章的版权归原创作者所属，如果侵权请与我联系，我会删除此文第一步，去nodejs官网https://nodejs.org看最新的版本号；也就是说此时此刻，12.6.0是最新的版本，不过你求稳的话建议选10.16.0的LTS版。第二步，添加源后安装，重点来了，nodejs的每个大版本号都有相对应的源，比如这里的10.x.x版本的源是https://deb
Introduction to Deterministic Policy Gradient (DPG) taoqick 机器学习人工智能
转载文章：https://medium.com/geekculture/introduction-to-deterministic-policy-gradient-dpg-e7229d5248e2论文正文：http://proceedings.mlr.press/v32/silver14.pdf论文补充材料：http://proceedings.mlr.press/v32/silver14-sup
CSDN中如何快速转载文章花草123 编辑器
在CSDN中如何快速转载文章：解决步骤：1.在CSDN中找到想要转载的文章，右击点击"检查"（或者快捷键F12）出现以下界面（图下图右侧所示）2.按住Ctrl+F快捷键，寻找"article_content"3.选中divid="article_content"那一行，如下图所示右击"Copy"—"CopyHTML"4.打开CSDN，依次点击’’‘管理博客’–’’‘博客设置’–MarkDown编辑
强烈推荐！15 个 Github 顶级 Java 教程类开源项目推荐！ yunzhonghefei 转载
转载文章：https://blog.csdn.net/qq_34337272/article/details/104423823
清华大学2023年毕业生去向数据公开！官方辟谣 80% 出国率夕小瑶人工智能
今天，清华官微的一则“辟谣”冲上微博热搜榜第一！清华大学官方发声！2023年清华毕业生出国（境）深造比例为8.0%，其中本科生出国（境）深造比例为15.6%，硕士生为5.9%。并且，根据清华校友会的统计，近20年出国留学的清华校友大部分都已归国工作，在各行各业发挥中坚力量。而这不是清华大学第一次关于这个数据进行辟谣，去年九月，清华大学学生记者团也转载文章，指出清华毕业生有80%都出国的消息为谣言。
洋吉随笔，生活2022.6.9 洋吉日记
今日工作很忙，上班时间几乎没有空余，昨晚在思考一些问题，所以比平时还晚睡了半个小时，十二点半睡，五点起。今日午休时间，没有午睡，利用午休时间拍了跳绳视频，用洗衣机洗了两次衣服，然后洗漱，整理下衣服，时间转眼即瞬，晚上下班后已是接近七点，坐在电脑前准备所有gzh转载文章，用手机补发了两个平台的昨日未发视频，正操作中，困意来叫我睡觉了，便躺床上小睡了一个小时，醒来赶紧完成跳绳5000个。发现上个礼拜去
面试你之前，我希望在简历上看到这些！程晓媛闯天涯
请各位读者添加一下作者的微信号，以后有新的文章，你最先接收哦！图片发自App另附：最近很多编辑私自将本文进行演绎，转载却并未获得任何授权。故现在本人将拒绝以任何方式的转载和演绎，请之前转载的机构即使将转载文章进行下架。计划进行转载的机构也就请勿打扰了。好多人问我，我的思维导图是怎么做的。这个是我用MAC上的MindNode书写的，用MAC的朋友可以点击下面的链接进行下载。MindNode那好，咱们
DA14531之基本介绍小武编程单片机嵌入式硬件物联网 mcu
基础入门版权归作者所有、未经允许、请勿转载文章目录基础入门版权归作者所有、未经允许、请勿转载前言一、DA14531简述二、DA14531技术特性三.DA14531应用场合四、DA14531基本架构4.1.芯片内部架构图4.2.最小系统图4.3.系统图5.DA14531开发工具5.1.硬件工具5.2.软件工具前言项目选择了DA14531这款芯片，首先需要对它有整体的认识，如芯片的技术特性、应用场合、
idea整合springboot+redis（转） sumingyou springBoot redis
以下转载文章经过本人亲测，具有可行性。转载地址：https://www.jianshu.com/p/19628db2e7ef1.前言这篇文章主要整合一下springboot和redis的框架，redis也是目前使用较多的nosql数据库。2.redis简介与环境搭建2.1redis简介redis是一个key-value。和Memcached类似，它支持存储的value类型相对更多，包括string
闭眼梦就来……… 简得飞兔
文｜简得飞兔图｜简得飞兔昨夜星辰入梦庵周游四海黎明归天亮鸟鸣催人醒两眼稀松起身来图片发自App昏花双眼蹒跚步小跑急扶去踏班强打精神撑开眼头重欲将桌砸穿熬到班点往回奔坐上车来游龙归双耳不问身边事回笼一觉梦春归美源于发现，生活需要我们体味。｜用思考让自己成长，用写作记录生活！｜再回首，我们会为自己感动！｜我是一只热爱生活的兔子，｜在这里，期待与你相遇，一起记录美好生活！若非征得作者同意，禁止转载文章
听力真的需要练好几年吗？提高听力的关键在哪里？一只向上爬的蜗牛
本篇为转载文章，我是为了收藏，而存在自己的文章了，最近打算慢慢开始实践起来。听力真的需要练好几年吗？提高听力的关键在哪里？回过头来看，答案很简单。我却走过了许多弯路，浪费了青春年华的大量时光。起初我的听力用了好几年的时间也没有明显提高，原因很简单，我靠的是耳濡目染。听各种英文歌、电影精彩片段、名人演讲等等。我幻想通过多听，听力自然会提高。多听自然会提高，这个没毛病，关键是性价比太低。提高的幅度和效
上善.小知——（1）公众号白名单怎么设置？上善seo
作者：上善SEO周三写了一篇《一次神奇的seo运营培训——上善seo有感》的文章，得到了白杨师傅的鼓励，超级高兴，刚刚师傅说可以帮我们转载文章到他的公众号，要开通一下白名单才行。瞬间蒙的一下，白名单是啥？经过师傅耐心的指点，设置完毕了。那么分享一下我是怎么设置的，如果你也碰巧刚开通公众号，也许会用的上。还要悄悄说一句，要是有厉害的人找你开通白名单，那么你要迅速去设置一下，这么好的机会怎么能错过呢。
廉江新闻数字报转载文章不署作者名，致抄袭者吴帅帅抄袭《记得自己是一朵花》麦淇琳
抄袭者猖獗，与报刊的不道德转载麦淇琳很久没有把发表杂志的文章贴上来，偶见之前的文章《记得自己是一朵花》被两家报纸抄袭。对于抄袭文章的鼠辈，我已经说烦说厌了。抄袭者把我写的一些小屁文，有全篇抄的，有抄片段的，有抄到公众号的，有抄到报纸副刊的。我就想问一句抄袭者，你们难道没有自己的脑子吗，这么舔不知耻，脸都不要了吗！把别人的作品随手拿来，然后妄称作者，这是不道德的抄袭行为。文贼与文人，一字之差，谬之千
如何获取积分 codeloverr servlet javascript java
相信不少新手都因为积分而困扰，那么接下来先给大家介绍一下最新的积分获取规则：积分规则具体如下：1、每发布一篇原创或者翻译文章：可获得10分2、每发布一篇转载文章：可获得2分3、博主的文章每被评论一次：可获得1分4、每发表一次评论：可获得1分（自己给自己评论、博主回复评论不获得积分）；5、每篇博文阅读次数每超过100次：可获得1分，阅读加分最高加到100分，即每篇文章点击上万次截止6、文章被投票：顶
如何获得CSDN积分 iPrints 分类
转载方法一http://blog.csdn.net/u013476542/article/details/53257806博客积分是衡量博客水平的重要标准，博客的排名也将按照积分排列。积分规则具体如下：1、每发布一篇原创或者翻译文章：可获得10分2、每发布一篇转载文章：可获得2分3、博主的文章每被评论一次：可获得1分4、每发表一次评论：可获得1分（自己给自己评论、博主回复别人对自己博文的评论不获得
Arduino 串口通讯参考笔记 - Serial 类库及相关函数介绍 saner686 单片机 stm32 物联网嵌入式硬件
@TOArduino串口通讯参考笔记-Serial类库及相关函数介绍C声明：本ID发布的所有文章及随笔均为原创，可随意转载，单转载文章必须注明作者saner686及包含原文出处地址https://editor.csdn.net/md？not_checkout=1&articleId=128343606未经本人许可，所有文章均不得用于商业用途。前言Arduino板通过串口（称为UART或USART串
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key

SQL on Hadoop最新进展-转载

你可能感兴趣的:(转载文章)