WotChin

中小型企业基于大数据技术的项目实践

前言

ps. 此片博客来源于很久以前的一次gitchat分享，现在搬运到blog中，由于时间久远，里面已经有一些思想和技术已经现在不主流了，供大家参考借鉴。

我们这次 Chat 主要交流的主题是：中小型企业基于大数据技术的项目实践,笔者将就大数据技术栈开始说起，同时，在后面的内容中，将涉及笔者在工程实践中的一些具体经验。

下面，我们将从大数据技术的干货介绍开始，这部分内容对于有基础的童鞋来说，可以快速略过。

大数据技术初探

准确来说“大数据”这个概念并不存在，其就是在曾经我们提到过的“海量数据”的基础上，数据量级再一次增大，导致传统的处理手段无法进行及时、有效的处理。为了表征与传统数据处理手段的区别，表明技术的先进性，提出来了一个新词——“大数据”。

作为 DT 时代的代表技术之一，大数据紧紧地与人工智能，云计算技术相结合，三者相辅相成，共同促进产业变革，技术进步。无论在学术界还是工业界，这“三驾马车”无疑都是最热门和前沿的。

大数据技术是近几年火起来的一项技术，主要应用场景是日志收集与处理，数据分析，机器学习模型的训练等。基于这些，我们可以实现商业智能（BI）、科学决策等。
我们所谓的大数据技术栈，主要就是 Hadoop 生态系统。

大数据技术主要表现在：

大规模数据存储
弹性计算
集群资源调度
数据收集
集群一致性保证

笔者，将针对上面的内容，逐步展开探讨。

#大规模数据存储

网盘就是一个典型的大数据存储应用。毫无疑问，网盘上存储的数据量是海量的，这需要一个集群去存储，也就是我们说的云存储。

类似地，我们在工业实践中，也会遇到各种各样数据，这些数据有些是冷数据，也有的是热数据。但是，无论是冷的还是热的，只要是存储意义的数据我们必然要给他存储起来，以便后续使用。

举个例子，一个访问量大的网站，每天产生的日质量是很大的，这些数据我们可以存储起来，以便后续使用。

Hadoop 的 HDFS 可以认为是实际上的工业标准，其存储模式是文件分块存储，多机备份（冗余），通过 standby 节点来进行心跳探测，保证可用性。

除了 HDFS，我们使用云产品的时候，可能也会用亚马逊的公有云产品，也即是 AWS 的 S3 存储系统。

由于笔者所在公司的业务是面向海外市场的，云服务选择的是 AWS，用的云存储是亚马逊的 S3，免去了自己部署 Hadoop HDFS 的过程。Hadoop 的HDFS是自带读取AWS S3的API的。

但是，值得说明的是，Hadoop 的 HDFS 并不太适合频繁更改，或者是海量的小文件存储，毕竟一个文件块就很大了，有的版本默认是 128M，有的是64M，海量小文件，一般使用的是 FastDFS 或者淘宝开源的 TFS。

弹性计算

所谓弹性计算，也就是之前学术界所说的网格计算，现在很流行的分布式计算。我们知道，单节点的算力是有限的，包括超级计算机的架构也是上千个 CPU 和 GPU 们组成的。

我们在平时使用的时候，自然不会设计出超级计算机这样复杂的硬件基础设施，我们通过 TCP/IP 协议来传送数据，在不同的节点上进行并行计算，最后再讲结果汇总，这种算法我们叫做 map/reduce 算法。

这种理念是 Google 提出来的，有兴趣的大家可以去 Google 学术下载一下 Google 大数据三篇论文。其是大数据技术的一个奠基。

Hadoop 有三个组件，用于大规模数据存储的 HDFS，用于分布式计算的 Map/Reduce 引擎，和资源调度 Yarn。

只不过 Hadoop 的同名计算引擎 MapReduce 在涉及到中间数据缓存的时候，要写入 HDFS 上，我们知道 HDFS 本身就是建立在外存上的，而且还要有冗余备份，整个读取和写入速度都比较慢，所以，现在真正使用的就是 Spark 计算引擎，MR（MapReduce）引擎都快被废掉了。

Spark 是一个通用的计算引擎，其除了核心 Core，为应用层封装了机器学习，图计算，流式计算框架和 SparkSQL 即席查询四个模块，用起来很是方便，我们在实际工程中，用的最多的也就是 Spark 了。

Spark 与 Hadoop 的 MR 引擎不同的是，Spark 的中间数据存储在内存中，所以速度特别快。但是，Spark 的内存要求比较大，不过，内存毕竟也不算太贵嘛。

集群资源调度

所谓的资源调度，主要指的就是 CPU 和内存资源的调度，集群中哪台节点比较闲，就给他多点任务，这样，可以使整体的集群负载均衡，这对于分布式集群来说是十分重要的，直接影响了集群的计算性能。

Hadoop 自带的模块是 Yarn，Spark 也自带一个，叫做 mesos，不过，我们说，Spark 是 Hadoop 生态系统中的成员，自然而然 Spark 也可以使用 Hadoop 的 Yarn 资源调度引擎，避免了部署上的麻烦。

数据收集

数据分为流式数据和批处理数据。

所谓的流式数据是像流水一样的数据，通常用的计算引擎是Spark Streaming和Storm，我们公司主要用到的是Spark Streaming。

二者的区别就是，Spark Streaming不是严格意义的实时，是一种准实时，每隔一段时间来对收集到的数据运算一次，这样达到一种流式计算的效果，而Storm是严格意义的实时，来一条数据处理一条。

对于我们公司来讲，不需要这么实时的效果，同时Spark streaming直接就用Spark框架编写就ok了，团队成员的技术栈比较吻合，避免了再次学习Storm的成本，也减少了版本发布和维护上的苦难。

但是具体的选型，还要结合公司的实际情况。

说到流式数据的收集，我们不得不提到 Kafka 这个消息中间件。其是发布/订阅模式的，可以用来做流式数据收集的消息队列，起到缓存与缓冲的作用，详细介绍请单击这里。

这是一整套流式数据处理的架构，在网上找到这几篇博文，感觉还可以，推荐给大家：

http://shiyanjun.cn/archives/1097.html

http://spark.apache.org/docs/latest/streaming-kafka-integration.html

除此之外，再介绍一个叫做flume的东西，他的官方介绍是：

Apache Flume is a distributed, reliable, and available system for efficiently collecting, aggregating and moving large amounts of log data from many different sources to a centralized data store.

The use of Apache Flume is not only restricted to log data aggregation. Since data sources are customizable, Flume can be used to transport massive quantities of event data including but not limited to network traffic data, social-media-generated data, email messages and pretty much any data source possible.

flume多用作日志的收集，常用来收集诸如nginx日志等等，其配合kafka使用，可以做到数据的流式收集。

具体的架构使用，请单击这里参见博文介绍。

集群一致性保证
我们知道作为一个集群，一致性是应高考虑的一个重要因素。

例如，我们在一个集群上两个不同节点读取到的数据不一样，那么我们是相信谁的？很容易就无法做出下一步的处理。

所以，我们在上面的Hadoop生态系统的图示中可以看到一个贯穿始终的叫做zookeeper的东西，这个东西就是用来保障集群一致性的。

Zookeeper主要提供的是Java API，他是通过观察者模式来实现的，不同节点注册一个watcher，来监听事件。

它实现了paxos算法，paxos算法是一个比较复杂的算法，整个算法的推倒与证明过程一页A4纸都写不下。

Zookeeper实现的paxos算法也是fast paxos，或者说是paxos算法的精简版本。通过zookeeper我们可以保证整个集群的一致性，也就为后来基于zookeeper的应用提供了高可用（HA）的基础。

大数据技术工程实践

笔者以大数据技术使用的一个典型场景为例，展开探讨，场景描述：

应用场景是针对一款app的日志分析，该app的架构方式是基于HTTP的微服务，app算是典型的社交软件。包括聊天，更新状态，群组讨论，更新个人信息等都是通过调用HTTP接口来实现的，当然，这些内容都是加密过的，包括服务器之间的通讯也都是通过证书来验证的。

这样的微服务架构就为我们的日志分析提供了方便，可以认为，日志上的url路径包含了很多的信息，基于不同的url我们可以发现用户的行为，并针对用户的行为进行数据分析。

数据的收集

如果是做离线计算的，可以直接把日志下载到本机，然后再对本机上的所有日志进行统一的计算；

Spark是支持AWS S3的，不过这得基于Hadoop来实现，还得安装Hadoop,在实际使用中坑很多。Spark 读取S3数据可以使用亚马逊官方的Java driver来做，相对来说坑比较少。

不过，Spark直接读取HDFS上的数据相对容易很多，坑也没有多少；在实际使用的时候，可以尝试用流式日志下载的方式，在下载的同时，进行数据的分析，实际上还是比较高效的。

数据的 ETL

ETL（ Extract-Transform-Load ）用来描述将数据从来源端经过抽取（extract）、转换（transform）、加载（load）至目的端的过程。

ETL的方式有很多，有基于现有用具进行ETL的，也有自己编写代码进行ETL的。

笔者所采用的ETL方式是基于Spark的ETL，基于Spark的ETL有诸如灵活快速等特点，这里有几篇博文，介绍了Spark的ETL，总的来说，用Spark来做ETL还是比较高大上的。

http://blog.csdn.net/u011204847/article/details/51247306

http://blog.csdn.net/zbc1090549839/article/details/54407876

上面说到，笔者的日志数据存储在AWS 的S3上，故而介绍写AWS S3的日志格式: 原文链接请单击这里。

s3文件的路径格式：

bucket[/prefix]/AWSLogs/aws-account-id/elasticloadbalancing/region/yyyy/mm/dd/aws-account-idelasticloadbalancingregionload-balancer-nameend-timeip-addressrandom-string.log

日志的存储格式：

timestamp elb client:port backend:port requestprocessingtime backendprocessingtime responseprocessingtime elbstatuscode backendstatuscode receivedbytes sentbytes "request" "useragent" sslcipher ssl_protocol

总之，就是包括了用户的请求IP，请求设备，时间，请求方法，请求路径和服务器的相应和处理时间等等。

这里居然还有专门针对AWS 日志的分析系统的博文，详见这里。

我们的目标是利用spark将这种存储于亚马逊S3的原始日志格式进行转换，存储在数据仓库中。

对于数据仓库，比较著名的应该是HBase了，HBase是基于HDFS的一个NoSQL列式数据库，存储容量大。

不过，对我我的业务场景来说，选用HBase并不太适合，因为很多数据存储很长时间并没有必要，最多只需要存储最近一个月的经过ETL后的数据就可以了，没有必要存储那么多冷数据，所以，我选择了MongoDB进行数据的存储。

那么我们就明确了ETL的目标，将来自于AWS S3的原始数据（raw log）经过ETL，存储在MongoDB中，MongoDB中存储的格式类似于:

{
    "time":"2017-2-1-26 UTC xx:xx:xx",
    "url":"http://foo.com/ab?c=d&e=f",
    "uri":"ab",
    "uid":"10000"
}

MongoSpark

MongoDB和Spark之间是可以用来做高速地数据传输的，我们使用MongoDB来作为Spark的数据持久层，MongoDB的Spark driver名称就叫做MonogSpark。

HDFS VS MongoDB

既然我们说MongoDB可以用在HDFS的地方，那我们来详细看看两者之间的差异性。

在说区别之前，其实我们可以先来注意一下两者的共同点。HDFS和MongoDB都是基于廉价x86服务器的横向扩展架构，都能支持到TB到PB级的数据量。数据会在多节点自动备份，来保证数据的高可用和冗余。两者都支持非结构化数据的存储，等等。

HDFS和MongoDB的区别

如在存储方式上 HDFS的存储是以文件为单位，每个文件64MB到128MB不等。而MongoDB则是细颗粒化的、以文档为单位的存储。
HDFS不支持索引的概念，对数据的操作局限于扫描性质的读，MongoDB则支持基于二级索引的快速检索。
MongoDB可以支持常见的增删改查场景，而HDFS一般只是一次写入后就很难进行修改。
从响应时间上来说，HDFS一般是分钟级别而MongoDB对手请求的响应时间通常以毫秒作为单位。
MongoDB-Spark架构

什么时候选用MongoDB

涉及到快速读取数据
建立索引
对数据的存储粒度要求较细（文档形式）
能够对数据进行修改的场合。
什么时候选用HDFS
HDFS数据存储节点不要求就有较大的内存，而MongoDB要想保证读写迅速的前提是要占据较大的内存空间；
对数据修改的要求不高，例如图片，音视频文件，一般写入后不需要再次修改；
HDFS被设计部署在低廉的硬件设备上，对硬件的要求不苛刻，能够保证高可用性，集群的数据吞吐量也很高；相比之下，MongoDB对CPU和内存的要求要高得多。
MongoDB的地理位置搜索
MongoDB具有很多高级搜索功能，譬如微信搜索附近的人，我们可以通过MongoDB的GEO搜索来完成，这是MongoDB的又一大好处，有关地理位置搜索，推荐这篇博文：

http://blog.csdn.net/wang7807564/article/details/78863591

数据的分析

我们首先来回顾一下，日志中主要包括的内容有：

在我们的日志url中记录了用户的id，用户的行为，用户的行为属性，用户的设备，用户的IP，用户访问时间，服务器处理时间，服务器响应时间等等。

上述数据是来自日志的原始数据，经过ETL后，被存储到MongoDB的raw数据库中，以K-V对文档的形式存储起来，下面，我们将要对存储到MongoDB中，经过整理后的数据进行分析。

宏观分析

宏观分析是最基础也是最简单的，例如：

我们可以统计一天24Hour，那个小时用户的活跃量最多；
我们可以根据用户的IP来判断哪个区域的用户最多；
我们可以根据使用设备，来判断使用什么终端的用户最多；
同样，我们也可以用服务器的响应时间来判断服务器的运转情况。
宏观分析，在用Spark进行编程的时候，首先经过map过程，转换成我们想要的形式，例如：我们要统计24小时，分时统计用户活跃量。这样，我们经过map后，就可以形成这样的一个形式：

//我们假设,rdd的存储格式是一个Document,Document是MongoDB driver的存储格式，它实现了Map接口。

val rdd = MongoSpark.load(...)
//从MongoDB中直接加载某个table，也就是说，rdd的类型是 RDD[Document].这里用到的是scala编程，与Java类似
val count = 
rdd.map(x=>{
    (parse2Hour(x.getString("time")),1)
}).reduceByKey(_+_)
//得到了分时统计结果，与写wordcount是类似的。
//parse2Hour()是一个函数，实现了将存储的UTC 格式的time提取出小时，这个其实自己实现一个简单的文本分割就搞定了。
count.foreach(println)
//打印出统计的结果

微观分析

所谓微观分析，就是粒度更细致的分析了。

我们在上面只是分析出所有的用户群体，在那个时间段更加活跃。现在，我们再看另外一个例子：

我们想要分析uid为 1000的用户，在一天24小时中，哪个小时活动最频繁。统计出来的结果，可以直接用做给他推送消息的推送时间点来使用。

其实，这个编程与上面的宏观统计类似，只不过，我们要将所有的rdd进行一个group分组，把所有uid相同的全都放到一起去。

之后，再在这个子rdd中分析该用户在哪个时间段最活跃即可。

示例代码如下：

val rdd = MongoSpark.load(...)
//从MongoDB中直接加载某个table
val user = rdd.groupBy(_.getString("uid"))
//通过用户的uid不同，来划分为不同的子rdd
val count = user.map(x=>{
    //每个划分出来的子rdd的格式是这样的：
    // ("uid",[Document1,Document2,...])
    /*
    我们可以看出来，划分出来的结果实际上是一个元组，元组的第一个元素就是我们划分的依据，元组的第二个元素就是一个List,这个List把所有属于这个元组的Document都包括进去了。
    */
    //后面，我们再对这个List进行一个暴力扫描，扫描出其中我们想要的结果就ok了,这里根据业务不同，代码省略，如果不会分布式并行编程，就给collect()到本地，编写相关的业务代码也Ok.
    ...
    //最后返回结果:
    (uid,某个小时)
})

机器学习

其实，在我们实践当中，最常用到的机器学习算法恐怕就是聚类算法了。

聚类是一种无监督学习，我们最常用到的聚类算法就是kmeans算法，Spark的MLlib库为我们实现了kmeans算法，我们直接调用就OK了。

通过聚类算法，我们可以实现：

因为我们在日志中是包含用户的行为特征的，根据这些行为特征，我们可以通过聚类算法来实现用户的分群。

这里简单介绍下kmeans算法的原理：

kmeans算法需要指定参数 k ，用来告诉算法需要分成几个类别；然后将事先输入的n个数据对象划分为 k个聚类以便使得所获得的聚类满足以下条件：同一聚类中的对象相似度较高；不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”来进行计算的。聚类算法是一种迭代算法，通过反复迭代，来使得结果趋向于最优。这个迭代次数也是可以指定的，不过也不是越多越好，因为越往后改变就越小，效果不理想，反而浪费时间，这个需要具体去调试。

那么，我们在进行聚类的时候，我们可以统计某个用户，我们就叫他小明吧，下面我举个例子，假设下面的数据都是针对小明童鞋行为产生的日志情况，进行统计分析的结果：

小明的基本用户信息：

{ "name":"小明"， "age":"18", "gender":"male", "country":"china", ... }

日志统计信息：

{ "发送聊天记录":250, "陌生人聊天":200, "好友聊天":25, "群组聊天":25, "给别人照片点赞":100, "浏览别人发的说说"：100， "给别人说说点赞"，52, "搜索附近的人",100, "勾搭过几个陌生人":50, "阅读推荐文章":0, ... }

当然了，上面的日志统计结果我只是举个例子，我们可以选择其中的某几个具有代表性的作为特征向量，根据这些特征向量来对用户进行聚类。

譬如，我们可以选择：

聊天记录，陌生人聊天比例，搜索陌生人次数，勾搭过几个陌生人等等来衡量某些人对陌生人交友的喜好程度。

这里，顺便说一下归一化的问题。

归一化

在上面的例子中，我们可以看到，如果某个人搜索附近的人频次特别高，而且只有这个人的水平特别高，可能达到了100000000这个量级，而除他之外的所有人可能都是200一下的量级。

这样，在进行数据计算的时候，直接用100000000这个数字带进去算很容易对结果造成干扰，训练难以收敛，甚至还会导致预测结果的出错。

我们想办法，将这些数字映射到[0,1]的区间中，用小数来表示，这样，我们叫做归一化，或者采用并非映射到０－１之间的标准化。
通常的归一化方法有min-max归一化，标准化方法有z-score标准化等。

这个当做了解就行了，实际上在一些分工明确的公司里，会有专门的算法组来进行优化和设计的。

不用参考wiki百科了，这个百度百科虽然Low一点，但是说得已经够用了，详见这里。

通过Kmeans算法，我们可以对用户进行聚类，相同类型的人，会被聚类到一起，可以供我们进行统计分析，科学决策和相似用户推荐等等。

任务调度系统

大数据的任务调度系统主要有hadoop 的oozie，不过相对而言，笔者更喜欢用领英开源的任务调度系统——azkaban，azkaban的官方简介是：

azkaban was implemented at LinkedIn to solve the problem of Hadoop job dependencies.We had jobs that needed to run in order, from ETL jobs to data analytics products.

Initially a single server solution, with the increased number of Hadoop users over the years, Azkaban has evolved to be a more robust solution.

可以看到，领英官方就用它来做大数据相关的任务调度使用，这里推荐一篇博文，详细介绍了 azkaban 用作大数据领域任务调度系统的配置和应用方法。

通过azkaban就可以做到解放人力：任务的自动调用和执行，而且可以指定调用顺序，定时触发还有报错功能，的确是件神器。

经验之谈

合理架构

在考虑实现大数据平台的时候，要对需要实现的产品做一个全方位的衡量，选择适合自己业务需要的方式针对性地架构，不应直接从网上copy一种方案便开始实施。

举一个例子，某种场合下，我们可以提出多级ETL的方式，来实现数据的复用，这些数据之间的关系呈现出金字塔状，如图所示：

越在金字塔上部分的数据量越小，经过ETL也变得更加细粒度，这部分数据的冗余部分相对较少，越在下面的数据冗余越大，越是冷数据。假设这样不同层的数据，我们可以对其进行复用，那么我们就有必要进行多级的ETL，如果这种复用情况很没有必要，我们也没有必要进行多级的ETL.具体是否适合我们的应用场景，要依据我们具体的业务情况来进行分析，不能按图索骥。

保证任务调度顺序

任务调度系统我们使用Azkaban而不使用croncat（Linux自带的工具），是因为azkaban可以让我们自行指定任务之间的依赖关系。这些依赖是一个DAG，我们在azkaban中配置任务之间顺序的时候，一定要把握好任务之间的关系，当涉及到并行事务的时候，要考虑到二者之间的执行顺序和耦合关系，否则将会造成任务的失败。

保证集群的高负载

一个计算集群不能浪费掉，集群的价格比较昂贵，我们往往都是使用的云服务。对于不是按量付费的云服务，我们要保证集群的高负载。也就是让集群始终处于一种工作状态，不要将集群空着，这样比较浪费资源。对于流式数据处理来讲，集群自然是保证一直在工作。但是，对于离线计算来讲，可能当我们提交完一个作业之后，很快任务就执行结束，如果确定没有什么额外的计算任务，请选择按量付费，这样能节约很大一笔开销。

对于很多云服务商来讲，他们往往提供了MapReduce的云服务，在有条件的情况下，也可以购买这种云服务，避免配置的繁琐，也能够合理地按量付费。

充分挖掘节点能力

spark的默认设置，每个节点都有内存使用上的限制，我们可以通过修改conf目录中的配置文件，来修改spark使用的内存量。譬如spark-env.sh文件中的参数SPARK_WORKER_MEMORY 可以设置工作节点的内存使用，这个使用值尽可能设的大一些，可以提高集群性能。

考虑批调用HTTP API

由于spark是一种并行编程思想，在某些调用上是并行地取执行。例如我们通过HTTP微服务的方式，查询一个用户的性别：

http://foo.com/getGender/10001

每一个并行的执行操作都会去调用一次HTTP请求，来查询某个用户的性别。实际上，对于查询这种操作，远程的服务器是通过扫描数据库中的内容来完成的，多次反复扫描和一次批量地扫描效率相比是要差很多的。以MongoDB为例，执行两次findOne()和执行一次findMany()相比，开销可能要达到1.8倍左右，这还不算远程服务器响应并发时的性能消耗。对于这些操作，可以合并执行，将HTTP API改成：

http://foo.com/getGender/100001,100002,1111,112333

降低耦合

通过分析日志中的URL请求来完成大数据分析，避免修改现有的代码，可以实现大数据平台与现有平台之间的分离，实现松耦合。大数据平台的数据源来源于日志文件，避免对现有的业务代码侵犯，可以对现有数据采用读取的方式丰富数据来源，但是，尽量不要取修改业务系统中的数据。这样，把大数据平台作为一个单独的系统来实现，可以避免修改现有的业务系统。

总结

在本次的Chat中，我们谈到了中小型企业基于大数据技术的项目实践，其实，对于中小型企业来讲，可能数据量并没有大型公司相向得那么多，一般一天产生的日志条数几千万到一亿的居多，对于这种离线计算场景，其实并不一定就非得用分布式集群去消费数据，如果公司尚有闲置的单节点内存容量达到16G，双核心及以上的一台机器，实际上在做离线计算的时候，也够用了。

囿于时间仓促，笔者水平有限，如有疏漏在所难免，敬请不吝指教。同时，有关本次文本没有涉及到的内容，或者不懂之处，我们将在后续的交流中展开讨论。具体交流形式是微信群交流，错过群讨论的用户也可以下载交流记录文档，或者添加笔者的微信号wotchin，或者在笔者的微信公众号（cn92geek）后台留言.

你可能感兴趣的:(大数据技术杂谈,大数据)

TaskManager的JVM OOM退出配置艾丽丝的爱情 jvm 大数据
在大数据领域中，TaskManager是执行并行任务的关键组件之一。它负责管理任务的执行和资源分配。在处理大规模数据时，内存管理是一个重要的考虑因素。当TaskManager的Java虚拟机（JVM）遇到内存不足的情况时，可以通过配置相应的参数来控制其行为。本文将介绍如何配置TaskManager的JVM，以便在OOM（内存溢出）发生时退出。OOM（OutofMemory）是指在程序运行过程中，J
JVM垃圾回收器的原理和调优详解！喵手零基础学Java jvm
全文目录：开篇语前言摘要概述垃圾回收器分类及原理1.Serial垃圾回收器2.Parallel垃圾回收器3.CMS垃圾回收器4.G1垃圾回收器源码解析示例代码使用案例分享案例1：Web服务的GC调优案例2：大数据任务的GC优化应用场景案例垃圾回收调优策略优缺点分析优点缺点核心类方法介绍测试用例小结总结文末开篇语哈喽，各位小伙伴们，你们好呀，我是喵手。运营社区：C站/掘金/腾讯云/阿里云/华为云/5
EmEditort v24.5.3世界上最快的文本编辑器 jiamianAA 经验分享电脑
下载：https://pan.quark.cn/s/16d827576a06EmEditor–支持大文件和Unicode的最佳Windows文本编辑器。号称世界上最快的文本编辑器！EmEditor是一款快速，轻巧，可扩展，使用方便的Windows代码编辑器。支持宏，Unicode，代码段插件，还能处理大数据以及CSV文件，无需Excel，堪称最强CSV编辑器。软件自带简体中文，支持32位和64位版
Crawl4AI：用几行代码打造强大的网页爬虫海豹工匠爬虫
Crawl4AI：用几行代码打造强大的网页爬虫在人工智能和大数据时代，数据的获取和处理变得尤为重要。尤其是在大型语言模型（LLM）的研究和应用中，如何高效地抓取和整理网络数据成为了一个关键的挑战。为了解决这一问题，一个名为Crawl4AI的开源网页爬虫工具应运而生，它专为LLM优化，提供了一种简单易用且功能强大的数据抓取解决方案。什么是Crawl4AI？Crawl4AI是一个基于LLM的开源网页爬
大数据技术之MapReduce wespten Hadoop Hive Spark 大数据安全大数据 mapreduce hadoop
一、MapReduce概述1、MapReduce简介MapReduce是一个分布式运算程序的编程框架，是基于Hadoop的数据分析计算的核心框架。MapReduce处理过程分为两个阶段：Map和Reduce。Map负责把一个任务分解成多个任务，Reduce负责把分解后多任务处理的结果汇总。2、MapReduce优缺点MapReduce优点：MapReduce易于编程：它简单的实现一些接口，就可以完
非凸科技荣登脉脉2024“年度职得去雇主”榜单招聘
近日，2024脉脉MAX年度职场力量盛典暨年度“职得去”公司颁奖典礼在深圳举行，非凸科技受邀出席盛会并荣登脉脉2024“年度职得去雇主”榜单。本届评选依据脉脉独有的“雇主指数”以及专家评审意见综合评选而出，综合考量了企业在脉脉社区广场、同事圈、行业圈等多个频道口碑，并基于职场大数据训练的专属大模型，客观反映企业在职场人心中的口碑。非凸科技获此殊荣，也意味着在发展前景、工作氛围、薪酬福利等方面极具竞
2024第五届全球数字经济产业大会：前沿技术引领未来 javascript
随着数字化浪潮的不断推进，全球数字经济产业大会已成为展示最新技术成果和探讨未来发展趋势的重要平台。2024年8月，第五届全球数字经济产业大会在深圳会展中心盛大召开，汇聚了全球顶尖的科技企业和行业领袖，共同探讨和展示数字经济领域的最新技术成果与发展趋势。云计算与大数据云计算和大数据技术作为数字经济的基石，一直是大会的焦点。本届大会上，众多企业展示了他们在云计算平台的创新和大数据应用方面的最新进展。通
anaconda中pyspark_自学大数据——9 Anaconda安装与使用pyspark 步六孤陆
首先从Anaconda官网上下载Anaconda。一、解压安装包sudobashAnaconda3-2020.07-Linux-x86_64.shchown-Rhadoop:hadoop/opt/anaconda/vi/etc/profileexportANACONDA_HOME=/opt/anacondaexportPATH=$PATH:$ANACONDA_HOME/bin:source/etc
2022-02-09大数据学习日志——PySpark——Spark快速入门&Standalone集群王络不稳定 spark big data 大数据
第一部分Spark快速入门01_Spark快速入门【Anaconda软件安装】[掌握]使用Python编写Spark代码，首先需要安装Python语言包，此时安装Anaconda科学数据分析包。Anaconda指的是一个开源的Python发行版本，其包含了conda、Python等180多个科学包及其依赖项。Anaconda是跨平台的，有Windows、MacOS、Linux版本。#下载地址：ht
大数据之Spark运行流程「已注销」 Spark 大数据 spark hadoop
文章目录前言（一）SparkOnYarn集群的Client模式运行流程（二）SparkOnYarn集群的Cluster模式运行流程总结前言上篇文章有讨论到SparkOnYarn的两种部署模式，如果有不清楚的地方，可以再看看，附上对应文章的链接：Spark的部署模式，本篇文章主要讨论SparkOnYarn两种部署模式的运行流程。（一）SparkOnYarn集群的Client模式运行流程该模式的Dri
R语言学习笔记6-数据框 Colin♛ r语言学习笔记开发语言信息可视化
R语言学习笔记6-数据框数据框(DataFrame)介绍数据框用途创建数据框从矩阵创建数据框索引和切片添加和修改列数据框的预处理数据框的排序数据框的筛选处理缺失值应用函数处理数据重塑数据框使用dplyr进行数据框的管道操作数据框的时间序列操作大数据框的处理数据框的绘图数据框的文本处理数据框的连接与关联按行或列连接数据框按键值关联数据框数据框的条件处理与逻辑操作条件筛选逻辑操作数据框的汇总与统计分析
华为OD机试C卷-- 精准核酸检测（Java & JS & Python & C）飞码创造者华为OD机试题库华为od c语言 java javascript python
获取题库不需要订阅专栏，可直接私信我进入CSDN领军人物top1博主的华为OD交流圈观看完整题库、最新面试实况、考试报告等内容以及大佬一对一答疑。题目描述为了达到新冠疫情精准防控的需要，为了避免全员核酸检测带来的浪费，需要精准圈定可能被感染的人群。现在根据传染病流调以及大数据分析，得到了每个人之间在时间、空间上是否存在轨迹交叉。现在给定一组确诊人员编号（X1,X2,X3,…,Xn），在所有人当中，
matlab大数据计算技巧（持续更新中） tina_lulu_21 matlab matlab string 存储
在matlab中，当数据比较大时，运算起来就困难了，有时候还会outofmemory（例如4000*4000的矩阵，要算矩阵乘法都比较吃力）。此文会记录我学到的一些解决办法：1.将数据的存储类型从double转换成single在matlab中double数据类型占8个字节，single类型占4个字节。把数据类型从double类型转换成single类型可以节省一半的空间。单精度浮点数single的取
Matlab：读取和处理大数据表格文本文件追逐程序梦想者 matlab 大数据开发语言
Matlab：读取和处理大数据表格文本文件在实际的数据分析应用中，往往需要处理海量数据。针对大型数据文件，Matlab提供了快速高效的读取和处理工具，可以便捷地完成数据处理任务。本文将介绍如何使用Matlab读取和处理大型表格文本文件。第一步：读取数据文件Matlab内置了readtable函数，可以便捷地读取各种格式的表格数据文件。对于大型数据文件，我们可以采取分块读取的方式，提高运行效率。下面
赛事 Q＆A × 培训预告：2024 年（第 17 届）中国大学生计算机设计大赛大数据主题赛正式开赛！ ModelWhale 中国大学生计算机设计大赛大数据人工智能编程竞赛
中国大学生计算机设计大赛（下简称“大赛”）是由教育部认证、我国面向高校本科生最早的赛事之一，自2008年开赛起，至今已是第十七届。大赛属于全国普通高校大学生竞赛排行榜榜单赛事，始终贯彻“以赛促学、以赛促教、以赛促创”，为国家培养全面发展的创新型、复合型、应用型人才。大赛下设不同领域的十一个大类，和鲸科技自2021年起，连续四年作为大数据应用大类中大数据主题赛的协办方倾力配合大赛组委会与各承办单位，
大数据StarRocks(六) ：Catalog_starroccks支持oracle外部表了吗(1) 2401_84181975 程序员大数据 oracle 数据库
StarRocks自2.3版本起支持Catalog（数据目录）功能，实现在一套系统内同时维护内、外部数据，方便您轻松访问并查询存储在各类外部源的数据。1.基本概念内部数据：指保存在StarRocks中的数据。外部数据：指保存在外部数据源（如ApacheHive™、ApacheIceberg、ApacheHudi、DeltaLake、JDBC）中的数据。2.Catalog当前StarRocks提供两
基于SpringBoot+Vue码头船只货柜管理系统 qq_469603589 Java项目实战信息管理类项目 spring boot vue.js 后端
作者简介：Java领域优质创作者、CSDN博客专家、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、多年校企合作经验，被多个学校常年聘为校外企业导师，指导学生毕业设计并参与学生毕业答辩指导，有较为丰富的相关经验。期待与各位高校教师、企业讲师以及同行交流合作主要内容：Java项目、Python项目、前端项目、PHP、ASP.NET、人工智能与大数据、单片机开
推荐开源项目：WeDataSphere - 智慧数据服务平台劳泉文Luna
推荐开源项目：WeDataSphere-智慧数据服务平台去发现同类优质开源项目:https://gitcode.com/是一款由微众银行金融科技团队开发的开源大数据处理和应用框架，旨在简化数据分析流程，提高数据驱动决策的效率。该项目将复杂的数据集成、治理、分析和应用任务封装为模块化服务，让用户可以更加专注于业务逻辑，而非底层数据处理的技术细节。技术解析模块化设计：WeDataSphere提供了一套
Java 大视界 -- Java 大数据中的隐私增强技术全景解析（64）青云交大数据新视界 Java 大视界 java
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
使用Pyecharts绘制地理图表前端设计家信息可视化 python 数据分析 Python
Pyecharts是一个基于Python的强大数据可视化库，它提供了丰富的图表类型和交互功能。其中，Pyecharts能够轻松绘制地理图表，帮助我们展示地理数据的分布和变化趋势。本文将介绍如何使用Pyecharts在Python中绘制地理图表，并提供相应的源代码示例。首先，我们需要安装Pyecharts库。可以使用pip命令进行安装，如下所示：pipinstallpyecharts安装完成后，我们
大数据平台建设整体架构设计方案 AI天才研究院 ChatGPT AI大模型企业级应用开发实战大数据AI人工智能大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
《大数据平台建设整体架构设计方案》关键词：大数据平台、分布式存储、分布式计算、数据仓库、数据湖、数据安全、数据质量管理、数据治理、数据挖掘、机器学习、图计算、自然语言处理、Hadoop、Spark、Flink、项目规划、运维管理、最佳实践。摘要：本文将深入探讨大数据平台建设整体架构设计方案，从概述与核心概念、技术栈、建设实践、运维管理以及经验展望等多个方面进行详细阐述。通过梳理大数据平台的核心组成
企业信息化5：后勤管理系统 mosquito_lover1 制造业企业全业务流程信息化 python flask 开源
前言：随着企业各业务板块在信息化的浪潮中积极转型升级，后勤板块往往成为了一个企业信息化的短板，后勤业务大数据无法融入企业信息化数据湖，进而影响企业整体运营的效率和质量。后勤运营信息化管理对于企业后勤管理的提升、成本控制、信息管理和业务水平的提升都将起到积极促进作用。业务需求：后勤管理系统业务需求报告1.项目概述1.1项目背景随着企业规模的不断扩大，传统的后勤管理方式已无法满足现代企业的管理需求。为
大数据Lambda架构奋进学堂系统架构设计师考试架构
Lambda架构介绍Lambda是用于同时处理离线和实时数据，可容错、可扩展的分布式系统架构。有批处理层、加速层、服务层。同时以流计算和批处理计算合并视图。Lambda架构的批处理层采用不可变存储模型，不断地往主数据集后追加新的数据。Lambda架构优缺点<
Lambda架构 leveretz 大数据 lambda
原文地址：https://www.cnblogs.com/xiaodf/p/11642555.html首先我们来看一个典型的互联网大数据平台的架构，如下图所示：在这张架构图中，大数据平台里面向用户的在线业务处理组件用褐色标示出来，这部分是属于互联网在线应用的部分，其他蓝色的部分属于大数据相关组件，使用开源大数据产品或者自己开发相关大数据组件。你可以看到，大数据平台由上到下，可分为三个部分：数据采集
ES聚合分析原理与代码实例讲解 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
ES聚合分析原理与代码实例讲解作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着大数据时代的到来，企业级应用需要处理的数据量呈爆炸式增长。如何从海量数据中快速、高效地提取有价值的信息，成为了数据分析和处理领域的重要课题。Elasticsearch（简称ES）作为一种高性能、可扩展的全文搜索引擎，在处理海量数据、进行高效数
大数据技术4：Lambda和Kappa架构区别_lambda架构和kappa架构区别 2401_84181501 大数据架构
Lambda架构缺点：虽然Lambda架构使用起来十分灵活，并且可以适用于很多的应用场景，但在实际应用的时候，Lambda架构也存在着一些不足，主要表现在它的维护很复杂。（1）同样的需求需要开发两套一样的代码：这是Lambda架构最大的问题，两套代码不仅仅意味着开发困难（同样的需求，一个在批处理引擎上实现，一个在流处理引擎上实现，还要分别构造数据测试保证两者结果一致），后期维护更加困难，比如需求变
Redis线上阻塞要如何排查思静鱼 #Redis-缓存 redis 数据库缓存
一、指令阻塞其他指令因为Redis执行指令是单线程的，因为单次执行速度会非常快，但是如果你让单次执行变慢了，那么也会阻塞后续的指令执行。哪些情况会让指令变慢：1.指令获取的数据很多，比如大数据量下执行keys、hgetall、smembers等指令。我们可以通过查看Redis的慢查找到问题，不要去执行慢查操作2.大Key，我单次查询的的数据过大，也会导致单次执行变慢。所以我们需要拆分大key。ke
Apache Hive 聚合函数与 OVER 窗口函数：从基础到高级应用大鳥 sql hive apache hive hadoop
在大数据时代，ApacheHive是处理和分析海量数据的强大工具。Hive提供了丰富的聚合函数和强大的OVER窗口函数，能够帮助我们高效地进行数据分析。本文将综合介绍Hive的聚合函数和OVER窗口函数，结合实际使用场景和代码示例，帮助读者深入理解这些功能，尤其是它们在时间序列分析中的应用。一、Hive聚合函数基础聚合函数是Hive中用于对一组数据进行计算并返回单个值的函数。它们在数据分析中非常常
大数据治理实战指南：数据质量、合规与治理架构一ge科研小菜鸡大数据大数据
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注引言随着企业数字化转型的加速，大数据已成为驱动业务决策的核心资产。然而，数据治理的缺失或不完善，可能导致数据质量问题、合规风险以及业务价值的流失。大数据治理的目标在于确保数据的可用性、完整性、安全性和合规性，支撑企业的智能化发展。本教程将系统讲解大数据治理的关键概念、技术方法，并提供实际应用案例，帮助企业构建高效的数据治理体系。1.大数据治理概述
Redis学习笔记 csdn_bobo_6 redis 学习数据库
认识NoSQLNoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在处理web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，出现了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，特别是大数据应用难题。NoSQL特点方便扩展（
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl