首席撩妹指导官

Storm: DRPC简介

Storm里面引入DRPC主要是利用storm的实时计算能力来并行化CPU intensive的计算。DRPC的storm topology以函数的参数流作为输入，而把这些函数调用的返回值作为topology的输出流。

DRPC其实不能算是storm本身的一个特性，它是通过组合storm的原语spout，bolt， topology而成的一种模式(pattern)。本来应该把DRPC单独打成一个包的，但是DRPC实在是太有用了，所以我们我们把它和storm捆绑在一起。

概览

Distributed RPC是由一个”DPRC Server”协调的(storm自带了一个实现)。

DRPC服务器协调

1) 接收一个RPC请求。

2) 发送请求到storm topology

3) 从storm topology接收结果。

4) 把结果发回给等待的客户端。

从客户端的角度来看一个DRPC调用跟一个普通的RPC调用没有任何区别。比如下面是客户端如何调用RPC： reach方法的,方法的参数是: http://twitter.com。

DRPCClient client = new DRPCClient("drpc-host", 3772);
String result = client.execute("reach",
                           "http://twitter.com");

DRPC的工作流大致是这样的:

客户端给DRPC服务器发送要执行的方法的名字，以及这个方法的参数。实现了这个函数的topology使用 DRPCSpout 从DRPC服务器接收函数调用流。每个函数调用被DRPC服务器标记了一个唯一的id。这个topology然后计算结果，在topology的最后一个叫做 ReturnResults 的bolt会连接到DRPC服务器，并且把这个调用的结果发送给DRPC服务器(通过那个唯一的id标识)。DRPC服务器用那个唯一id来跟等待的客户端匹配上，唤醒这个客户端并且把结果发送给它。

LinearDRPCTopologyBuilder

Storm自带了一个称作 LinearDRPCTopologyBuilder 的topology builder, 它把实现DRPC的几乎所有步骤都自动化了。这些步骤包括:

设置spout
把结果返回给DRPC服务器
给bolt提供有限聚合几组tuples的能力

让我们看一个简单的例子。下面是一个把输入参数后面添加一个”!”的DRPC topology的实现:

public static class ExclaimBolt implements IBasicBolt {
    public void prepare(Map conf, TopologyContext context) {
    }

    public void execute(Tuple tuple, BasicOutputCollector collector) {
        String input = tuple.getString(1);
        collector.emit(new Values(tuple.getValue(0), input + "!"));
    }

    public void cleanup() {
    }

    public void declareOutputFields(OutputFieldsDeclarer declarer) {
        declarer.declare(new Fields("id", "result"));
    }

}

public static void main(String[] args) throws Exception {
    LinearDRPCTopologyBuilder builder
        = new LinearDRPCTopologyBuilder("exclamation");
    builder.addBolt(new ExclaimBolt(), 3);
    // ...
}

可以看出来，我们需要做的事情非常的少。创建 LinearDRPCTopologyBuilder 的时候，你需要告诉它你要实现的DRPC函数的名字。一个DRPC服务器可以协调很多函数，函数与函数之间靠函数名字来区分。你声明的第一个bolt会接收两维tuple，tuple的第一个field是request-id，第二个field是这个请求的参数。 LinearDRPCTopologyBuilder 同时要求我们topology的最后一个bolt发射一个二维tuple：第一个field是request-id，第二个field是这个函数的结果。最后所有中间tuple的第一个field必须是request-id。

在这里例子里面 ExclaimBolt 简单地在输入tuple的第二个field后面再添加一个”!”，其余的事情都由 LinearDRPCTopologyBuilder 帮我们搞定：链接到DRPC服务器，并且把结果发回。

本地模式DRPC

DRPC可以以本地模式运行。下面就是以本地模式运行上面例子的代码:

LocalDRPC drpc = new LocalDRPC();
LocalCluster cluster = new LocalCluster();

cluster.submitTopology(
    "drpc-demo",
    conf,
    builder.createLocalTopology(drpc)
);

System.out.println("Results for 'hello':"
    + drpc.execute("exclamation", "hello"));

cluster.shutdown();
drpc.shutdown();

首先你创建一个 LocalDRPC 对象。这个对象在进程内模拟一个DRPC服务器，跟 LocalClusterLinearTopologyBuilder 有单独的方法来创建本地的topology和远程的topology。在本地模式里面LocalDRPC 对象不和任何端口绑定，所以我们的topology对象需要知道和谁交互。这就是为什么createLocalTopology 方法接受一个 LocalDRPC 对象作为输入的原因。

把topology启动了之后，你就可以通过调用 LocalDRPC 对象的 execute 来调用RPC方法了。

远程模式DRPC

在一个真实集群上面DRPC也是非常简单的，有三个步骤:

启动DRPC服务器
配置DRPC服务器的地址
提交DRPC topology到storm集群里面去。

我们可以通过下面的 storm 脚本命令来启动DRPC服务器:

bin/storm drpc

接着，你需要让你的storm集群知道你的DRPC服务器在哪里。 DRPCSpout 需要这个地址从而可以从DRPC服务器来接收函数调用。这个可以配置在 storm.yaml 或者通过代码的方式配置在topology里面。通过 storm.yaml 配置是这样的:

drpc.servers:
  - "drpc1.foo.com"
  - "drpc2.foo.com"

最后，你通过 StormSubmitter 对象来提交DRPC topology — 跟你提交其它topology没有区别。如果要以远程的方式运行上面的例子，用下面的代码:

StormSubmitter.submitTopology(
    "exclamation-drpc",
    conf,
    builder.createRemoteTopology()
);

我们用 createRemoteTopology 方法来创建运行在真实集群上的DRPC topology。

一个更复杂的例子

上面的DRPC例子只是为了介绍DRPC概念的一个简单的例子。下面让我们看一个复杂的、确实需要storm的并行计算能力的例子, 这个例子计算twitter上面一个url的reach值。

首先介绍一下什么是reach值，要计算一个URL的reach值，我们需要:

获取所有微薄里面包含这个URL的人
获取这些人的粉丝
把这些粉丝去重
获取这些去重之后的粉丝个数 — 这就是reach

一个简单的reach计算可能会有成千上万个数据库调用，并且可能设计到百万数量级的微薄用户。这个确实可以说是CPU intensive的计算了。你会看到的是，在storm上面来实现这个是非常非常的简单。在单台机器上面，一个reach计算可能需要花费几分钟。而在一个storm集群里面，即时是最难的URL，也只需要几秒。

一个reach topolgoy的例子可以在这里找到(storm-starter)。reach topology是这样定义的:

LinearDRPCTopologyBuilder builder
    = new LinearDRPCTopologyBuilder("reach");
builder.addBolt(new GetTweeters(), 3);
builder.addBolt(new GetFollowers(), 12)
        .shuffleGrouping();
builder.addBolt(new PartialUniquer(), 6)
        .fieldsGrouping(new Fields("id", "follower"));
builder.addBolt(new CountAggregator(), 2)
        .fieldsGrouping(new Fields("id"));

这个topology分四步执行:

GetTweeters 获取所发微薄里面包含制定URL的所有用户。它接收输入流: [id, url] , 它输出: [id, tweeter] . 每一个URL tuple会对应到很多 tweeter tuple。
GetFollowers 获取这些tweeter的粉丝。它接收输入流: [id, tweeter] , 它输出: [id, follower]
PartialUniquer 通过粉丝的id来group粉丝。这使得相同的粉丝会被引导到同一个task。因此不同的task接收到的粉丝是不同的 — 从而起到去重的作用。它的输出流： [id, count] 即输出这个task上统计的粉丝个数。
最后， CountAggregator 接收到所有的局部数量，把它们加起来就算出了我们要的reach值。

我们来看一下 PartialUniquer 的实现:

public static class PartialUniquer
        implements IRichBolt, FinishedCallback {

    OutputCollector _collector;
    Map> _sets
                = new HashMap>();

    public void prepare(Map conf,
                        TopologyContext context,
                        OutputCollector collector) {
        _collector = collector;
    }

    public void execute(Tuple tuple) {
        Object id = tuple.getValue(0);
        Set curr = _sets.get(id);
        if(curr==null) {
            curr = new HashSet();
            _sets.put(id, curr);
        }
        curr.add(tuple.getString(1));
        _collector.ack(tuple);
    }

    public void cleanup() {
    }

    public void finishedId(Object id) {
        Set curr = _sets.remove(id);
        int count;
        if(curr!=null) {
            count = curr.size();
        } else {
            count = 0;
        }
        _collector.emit(new Values(id, count));
    }

    public void declareOutputFields(OutputFieldsDeclarer declarer) {
        declarer.declare(new Fields("id", "partial-count"));
    }
}

当 PartialUniquer 在 execute 方法里面接收到一个 粉丝tuple 的时候，它把这个tuple添加到当前request-id对应的 Set 里面去。

PartialUniquer 同时也实现了 FinishedCallback 接口, 实现这个接口是告诉 LinearDRPCTopologyBuilder 它想在接收到某个request-id的所有tuple之后得到通知，回调函数则是finishedId 方法。在这个回调函数里面 PartialUniquer 发射当前这个request-id在这个task上的粉丝数量。

在这个简单接口的背后，我们是使用 CoordinatedBolt 来检测什么时候一个bolt接收到某个request的所有的tuple的。 CoordinatedBolt 是利用direct stream来实现这种协调的。

这个topology的其余部分就非常的明了了。我们可以看到的是reach计算的每个步骤都是并行计算出来的，而且实现这个DRPC的topology是那么的简单。

非线性DRPC Topology

LinearDRPCTopologyBuilder 只能搞定"线性"的DRPC topology。所谓的线性就是说你的计算过程是一步接着一步，串联。我们不难想象还有其它的可能 -- 并联（回想一下初中物理里面学的并联电路吧), 现在你如果想解决这种这种并联的case的话，那么你需要自己去使用 CoordinatedBolt 来处理所有的事情了。如果真的有这种use case的话，在mailing list上大家讨论一下吧。

LinearDRPCTopologyBuilder的工作原理

DRPCSpout发射tuple: [args, return-info] 。 return-info 包含DRPC服务器的主机地址，端口以及当前请求的request-id
DRPC Topology包含以下元素：
- DRPCSpout
- PrepareRequest(生成request-id, return info以及args)
- CoordinatedBolt
- JoinResult -- 组合结果和return info
- ReturnResult -- 连接到DRPC服务器并且返回结果
LinearDRPCTopologyBuilder是利用storm的原语来构建高层抽象的很好的例子。

高级特性

如何利用KeyedFairBolt来同时处理多个请求
如何直接使用CoordinatedBolt

一个更复杂的例子的全部代码

/**
 * Licensed to the Apache Software Foundation (ASF) under one
 * or more contributor license agreements.  See the NOTICE file
 * distributed with this work for additional information
 * regarding copyright ownership.  The ASF licenses this file
 * to you under the Apache License, Version 2.0 (the
 * "License"); you may not use this file except in compliance
 * with the License.  You may obtain a copy of the License at
 *
 * http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */
package cn.ljh.storm.drpc;

import org.apache.storm.Config;
import org.apache.storm.LocalCluster;
import org.apache.storm.LocalDRPC;
import org.apache.storm.StormSubmitter;
import org.apache.storm.coordination.BatchOutputCollector;
import org.apache.storm.drpc.LinearDRPCTopologyBuilder;
import org.apache.storm.task.TopologyContext;
import org.apache.storm.topology.BasicOutputCollector;
import org.apache.storm.topology.OutputFieldsDeclarer;
import org.apache.storm.topology.base.BaseBasicBolt;
import org.apache.storm.topology.base.BaseBatchBolt;
import org.apache.storm.tuple.Fields;
import org.apache.storm.tuple.Tuple;
import org.apache.storm.tuple.Values;

import java.util.*;

/**
 * This is a good example of doing complex Distributed RPC on top of Storm. This program creates a topology that can
 * compute the reach for any URL on Twitter in realtime by parallelizing the whole computation.
 * 
 * Reach is the number of unique people exposed to a URL on Twitter. To compute reach, you have to get all the people
 * who tweeted the URL, get all the followers of all those people, unique that set of followers, and then count the
 * unique set. It's an intense computation that can involve thousands of database calls and tens of millions of follower
 * records.
 * 

 * This Storm topology does every piece of that computation in parallel, turning what would be a computation that takes
 * minutes on a single machine into one that takes just a couple seconds.
 * 

 * For the purposes of demonstration, this topology replaces the use of actual DBs with in-memory hashmaps.
 *
 * @see http://storm.apache.org/documentation/Distributed-RPC.html">Distributed RPC
 */
public class ReachTopology {
  public static Map> TWEETERS_DB = new HashMap>() {{
    put("foo.com/blog/1", Arrays.asList("sally", "bob", "tim", "george", "nathan"));
    put("engineering.twitter.com/blog/5", Arrays.asList("adam", "david", "sally", "nathan"));
    put("tech.backtype.com/blog/123", Arrays.asList("tim", "mike", "john"));
  }};

  public static Map> FOLLOWERS_DB = new HashMap>() {{
    put("sally", Arrays.asList("bob", "tim", "alice", "adam", "jim", "chris", "jai"));
    put("bob", Arrays.asList("sally", "nathan", "jim", "mary", "david", "vivian"));
    put("tim", Arrays.asList("alex"));
    put("nathan", Arrays.asList("sally", "bob", "adam", "harry", "chris", "vivian", "emily", "jordan"));
    put("adam", Arrays.asList("david", "carissa"));
    put("mike", Arrays.asList("john", "bob"));
    put("john", Arrays.asList("alice", "nathan", "jim", "mike", "bob"));
  }};

  public static class GetTweeters extends BaseBasicBolt {
    public void execute(Tuple tuple, BasicOutputCollector collector) {
      Object id = tuple.getValue(0);
      String url = tuple.getString(1);
      List tweeters = TWEETERS_DB.get(url);
      if (tweeters != null) {
        for (String tweeter : tweeters) {
          collector.emit(new Values(id, tweeter));
        }
      }
    }

    public void declareOutputFields(OutputFieldsDeclarer declarer) {
      declarer.declare(new Fields("id", "tweeter"));
    }
  }

  public static class GetFollowers extends BaseBasicBolt {
    public void execute(Tuple tuple, BasicOutputCollector collector) {
      Object id = tuple.getValue(0);
      String tweeter = tuple.getString(1);
      List followers = FOLLOWERS_DB.get(tweeter);
      if (followers != null) {
        for (String follower : followers) {
          collector.emit(new Values(id, follower));
        }
      }
    }

    public void declareOutputFields(OutputFieldsDeclarer declarer) {
      declarer.declare(new Fields("id", "follower"));
    }
  }

  public static class PartialUniquer extends BaseBatchBolt {
    BatchOutputCollector _collector;
    Object _id;
    Set _followers = new HashSet();

    public void prepare(Map conf, TopologyContext context, BatchOutputCollector collector, Object id) {
      _collector = collector;
      _id = id;
    }

    public void execute(Tuple tuple) {
      //利用set的特性来去重。
      _followers.add(tuple.getString(1));
    }

    public void finishBatch() {
      //同一个task处理完了相同id的tuple之后调用。
      _collector.emit(new Values(_id, _followers.size()));
    }

    public void declareOutputFields(OutputFieldsDeclarer declarer) {
      declarer.declare(new Fields("id", "partial-count"));
    }
  }

  public static class CountAggregator extends BaseBatchBolt {
    BatchOutputCollector _collector;
    Object _id;
    int _count = 0;

    public void prepare(Map conf, TopologyContext context, BatchOutputCollector collector, Object id) {
      _collector = collector;
      _id = id;
    }

    public void execute(Tuple tuple) {
      _count += tuple.getInteger(1);
    }

    public void finishBatch() {
      _collector.emit(new Values(_id, _count));
    }

    public void declareOutputFields(OutputFieldsDeclarer declarer) {
      declarer.declare(new Fields("id", "reach"));
    }
  }

  public static LinearDRPCTopologyBuilder construct() {
    LinearDRPCTopologyBuilder builder = new LinearDRPCTopologyBuilder("reach");
    builder.addBolt(new GetTweeters(), 1);
    builder.addBolt(new GetFollowers(), 1).shuffleGrouping();
    builder.addBolt(new PartialUniquer(), 2).fieldsGrouping(new Fields("id", "follower"));
    builder.addBolt(new CountAggregator(), 1).fieldsGrouping(new Fields("id"));
    return builder;
  }

  public static void main(String[] args) throws Exception {
    LinearDRPCTopologyBuilder builder = construct();


    Config conf = new Config();

    if (args == null || args.length == 0) {
      conf.setMaxTaskParallelism(3);
      LocalDRPC drpc = new LocalDRPC();
      LocalCluster cluster = new LocalCluster();
      cluster.submitTopology("reach-drpc", conf, builder.createLocalTopology(drpc));

      String[] urlsToTry = new String[]{ "foo.com/blog/1", "engineering.twitter.com/blog/5", "notaurl.com" };
      for (String url : urlsToTry) {
        System.out.println("Reach of " + url + ": " + drpc.execute("reach", url));
      }

      cluster.shutdown();
      drpc.shutdown();
    }
    else {
      conf.setNumWorkers(6);
      StormSubmitter.submitTopologyWithProgressBar(args[0], conf, builder.createRemoteTopology());
    }
  }
}

storm命令topoloy提交

storm jar /home/test/storm-helloworld-0.0.1-SNAPSHOT-jar-with-dependencies.jar cn.ljh.storm.drpc.ReachTopology ReachTopology

客户端代码

package cn.ljh.storm.drpc;

import org.apache.storm.Config;
import org.apache.storm.utils.DRPCClient;

public class DRPCReachClient {
    public static void main(String[] args) throws Exception {
        Config conf = new Config();
        conf.setDebug(false);
        conf.put("storm.thrift.transport", "org.apache.storm.security.auth.SimpleTransportPlugin");
        conf.put(Config.STORM_NIMBUS_RETRY_TIMES, 3);
        conf.put(Config.STORM_NIMBUS_RETRY_INTERVAL, 10);
        conf.put(Config.STORM_NIMBUS_RETRY_INTERVAL_CEILING, 20);
        conf.put(Config.DRPC_MAX_BUFFER_SIZE, 1048576);
        DRPCClient drpcClient = new DRPCClient(conf, "192.168.137.180", 3772);
        System.out.println(drpcClient.execute("reach", "foo.com/blog/1"));
    }
}

解析大数据领域结构化数据的管理模式大数据洞察大数据 ai
解码结构化数据：大数据时代的高效管理模式与实践指南关键词结构化数据、大数据管理、数据建模、分布式数据库、数据仓库、数据治理、性能优化摘要在大数据的洪流中，结构化数据犹如隐藏在波涛之下的磐石，虽然不如非结构化数据那般引人注目，却是企业决策的基石。本文深入剖析了大数据环境下结构化数据的管理模式，从传统关系型数据库到现代分布式系统，从数据建模到存储架构，全面解读了结构化数据管理的核心技术与实践方法。通过
ClickHouse【理论篇】01：什么是ClickHouse
ClickHouse是一款开源的列式数据库管理系统（Column-OrientedDBMS），专为高性能实时数据分析（OLAP,OnlineAnalyticalProcessing）场景设计。它由俄罗斯搜索引擎公司Yandex开发（2016年开源），目前由独立基金会ClickHouse,Inc.维护，广泛应用于大数据分析、日志处理、用户行为洞察等领域。一、核心定位：OLAP场景的“性能标杆”传统关
【大数据入门核心技术-DolphinScheduler】（二）DolphinScheduler安装部署-集群模式 forest_long 大数据技术入门到21天通关大数据 spark hive hadoop 交互 flink mapreduce
目录一、部署模式1、单机模式2、伪集群模式3、集群模式二、部署安装1、下载2、创建mysql元数据库3、配置一键部署脚本4、初始化数据库5、一键部署DolphinScheduler6、访问DolphinSchedulerUI三、启停命令一、部署模式DolphinScheduler支持多种部署模式，包括单机模式（Standalone）、伪集群模式（PseudoCluster）、集群模式（Cluste
利用已有的 PostgreSQL 和 ZooKeeper 服务，启动dolphinscheduler-standalone-server3.1.9 镜像云游大数据平台 zookeeper docker postgresql 工作流任务调度
ApacheDolphinScheduler是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景，提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。ApacheDolphinScheduler旨在解决复杂的大数据任务依赖关系，并为应用程序提供数据和各种OPS编排中的关系。解决数据研发ETL依赖错综复杂，无法监控任务健康状态的问题。DolphinSchedule
Alpha系统联结大数据、GPT两大功能，助力律所管理降本增效资讯分享周大数据 gpt
如何通过AI工具实现法律服务的提质增效,是每一位法律人都积极关注和学习的课题。但从AI技术火爆一下,法律人一直缺乏系统、实用的学习资料,来掌握在法律场景下AI的使用技巧。今年5月,iCourt携手贵阳律协大数据与人工智能专业委员会,联合举办了《人工智能助力律师行业高质量发展巡回讲座》,超过100家律所的律师参与活动。讲座上,iCourtAIGC研究员、AlphaGPT产品研发负责人兰洋,为贵州律协
电商API性能优化：策略体系与实施要点 Joe13265449558 性能优化电商返回值淘宝 API 接口京东
电商API性能优化策略介绍在电商领域，API（应用程序编程接口）作为连接电商平台与外部系统、服务或应用的关键桥梁，其性能直接关系到用户体验、业务效率以及系统的整体稳定性。随着电商业务的快速发展，API接口面临着高并发、大数据量处理等挑战，因此，对电商API进行性能优化显得尤为重要。本文将从多个维度探讨电商API性能优化的策略。一、数据库优化策略数据库是电商API接口的核心组件之一，其性能直接影响A
ECharts 智慧医疗大屏制作实例详解
在大数据时代，数据可视化已成为信息传递和决策支持的重要手段。ECharts作为一款功能强大、易于上手的开源可视化库，凭借其丰富的图表类型、灵活的配置项和良好的跨平台兼容性，广泛应用于企业级数据大屏、BI报表、实时监控等场景。本教程以“智慧医疗大屏”为例，完整演示了从页面搭建、图表配置到动态交互与响应式适配的全过程。通过循序渐进的讲解，读者将掌握如何使用ECharts构建专业、美观、可交互的数据可视
大数据 ETL 工具 Sqoop 深度解析与实战指南
一、Sqoop核心理论与应用场景1.1设计思想与技术定位Sqoop是Apache旗下的开源数据传输工具，核心设计基于MapReduce分布式计算框架，通过并行化的Map任务实现高效的数据批量迁移。其特点包括：批处理特性：基于MapReduce作业实现导入/导出，适合大规模离线数据迁移，不支持实时数据同步。异构数据源连接：支持关系型数据库（如MySQL、Oracle）与Hadoop生态（HDFS、H
Python（28）Python循环语句指南：从语法糖到CPython字节码的底层探秘一个天蝎座白勺程序猿 Python爬虫入门到高阶实战 python 开发语言
目录引言一、推导式家族全解析1.1基础语法对比1.2性能对比测试二、CPython实现揭秘2.1字节码层面的秘密2.2临时变量机制三、高级特性实现3.1嵌套推导式优化3.2条件表达式处理四、性能优化指南4.1内存使用对比4.2执行时间优化技巧五、最佳实践建议六、总结Python爬虫相关文章（推荐）引言在Python编程中，循环语句是控制流程的核心工具。传统for循环虽然直观，但在处理大数据时往往面
大数据分析技术的学习路径，不是绝对的，仅供参考水云桐程序员学习大数据数据分析学习方法
阶段一：基础筑基（1-3个月）1.编程语言：Python：掌握基础语法、数据结构、流程控制、函数、面向对象编程、常用库（NumPy,Pandas）。SQL：精通SELECT语句（过滤、排序、分组、聚合、连接）、DDL/DML基础。理解关系型数据库概念（表、主键、外键、索引）。MySQL或PostgreSQL是很好的起点。Java/Scala：深入理解Hadoop/Spark等框架会更有优势。初学者
React金融数据分析应用性能优化实战：借助AI辅助解决18万数据量栈溢出Bug 马特说 REACT react.js 金融数据分析
React金融数据分析应用性能优化实战：借助AI辅助解决18万数据量栈溢出Bug前言在现代前端开发中，处理大数据量的实时金融应用已成为常态。最近我在开发一个React-based金融数据分析应用时，遇到了典型的"Maximumcallstacksizeexceeded"错误。通过AI辅助分析和系统性优化，最终成功解决了这个复杂的性能问题。这篇文章将分享从问题发现到最终解决的完整过程。项目背景这是一
python模拟内置函数reversed_Python内置函数reversed weixin_39594895
{"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],"search_count":[{"count_phone":4,"count":4}]},"card":[{"des":"阿里技术人对外发布原创技术内容的最大平台；社区覆盖了云计算、大数据、人工智能、IoT、云原生、数据库、微服务、安全、开发与运维9大技术领域。","link1":
RabbitMQ消息队列在大数据系统中的实战应用案例 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据 rabbitmq 分布式 ai
RabbitMQ消息队列在大数据系统中的实战应用案例关键词：RabbitMQ、消息队列、大数据系统、实战案例、高并发处理、分布式架构、数据管道摘要：本文深入探讨RabbitMQ消息队列在大数据系统中的核心应用场景，结合具体技术实现和实战案例，详细解析其在数据采集、实时处理、异步解耦等关键环节的技术优势。通过架构设计原理、核心算法实现、数学模型分析和项目实战，展示如何利用RabbitMQ构建高可靠、
大数据开发高频面试题：Spark与MapReduce解析
被招网约司机的盯上了好几天实习了六个月，到期被通知不能转正。外包裁员让我去友商我该去吗？offer比较华为状态码浏览器插件嵌入式项目推荐2019秋招总结+云从语音算法面经+银行群面面经科大讯飞语音算法面经语音算法美团一面已挂科大讯飞智能语音方向值得去吗？语音算法oc科大讯飞语音算法二面荣耀一面语音算法面经，已挂荣耀_语音算法工程一面科大讯飞语音一面凉经8.18携程机器学习（语音方向）一面【vivo
HTML表格导出为Excel文件的实现方案 ~风清扬~ 前端技术 html excel 前端
1、前端javascript可通过mime类型、blob对象或专业库（如sheetjs）实现html表格导出excel，适用于中小型数据量；2、服务器端方案利用后端语言（如python的openpyxl、java的apachepoi）处理复杂报表和大数据，确保安全性与格式控制；3、常见问题包括数据类型识别错误、样式丢失、大文件卡顿、浏览器兼容性及乱码，需通过设置单元格类型、使用后端样式api、分页
数据库锁等待时间过长问题的深度解析与大数据解决方案百态老人数据库大数据
一、锁等待问题的核心原因与日志特征锁等待超时是数据库高并发场景下的典型瓶颈问题，其根本原因与日志特征可归纳为以下维度：事务管理缺陷原因：未提交的长事务（如代码分支遗漏提交）、隐式事务（自动提交关闭）导致锁持有时间过长。日志特征：information_schema.innodb_trx表中存在trx_started时间早于当前时间数分钟的事务。错误日志中频繁出现Lockwaittimeoutexc
科学的第五范式：人工智能如何重塑发现之疆田园Coder 人工智能科普人工智能科普
在人类探索未知的壮阔史诗中，科学方法的演进如同照亮迷雾的灯塔。从基于经验的第一范式（描述自然现象），到以理论推演为核心的第二范式（牛顿定律、麦克斯韦方程），再到以计算机模拟为标志的第三范式（气候模型、分子动力学），直至以大数据挖掘为驱动的第四范式（基因组学、高能物理），每一次范式跃迁都极大地拓展了认知的疆界。如今，我们正站在一个更恢弘转折的门槛上——第五范式：人工智能驱动的科学（AIforScie
数据结构与算法中外部排序的详细剖析数据结构与算法学习网络 ai
数据结构与算法中外部排序的详细剖析关键词：外部排序、归并排序、多路归并、置换选择排序、败者树、磁盘I/O优化、大数据处理摘要：本文将深入探讨外部排序技术，这是处理大规模数据时不可或缺的算法。我们将从基本概念出发，逐步解析多路归并、置换选择排序等核心技术，并通过实际代码示例展示如何实现高效的外部排序。文章还将分析外部排序在现代大数据处理中的应用场景和优化策略。背景介绍目的和范围本文旨在全面介绍外部排
阿里云Flink：开启大数据实时处理新时代云资源服务商阿里云大数据云计算
走进阿里云Flink在大数据处理的广袤领域中，阿里云Flink犹如一颗璀璨的明星，占据着举足轻重的地位。随着数据量呈指数级增长，企业对数据处理的实时性、高效性和准确性提出了前所未有的挑战。传统的数据处理方式逐渐难以满足这些严苛的需求，而阿里云Flink凭借其卓越的特性和强大的功能，成为众多企业实现数据价值挖掘与业务创新的关键技术。它不仅继承了开源Flink的优秀基因，还融入了阿里云自主研发的创新技
java毕业设计-基于java的电商网购平台，网购商城管理系统(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿八哥 spring boot vue jave java 课程设计开发语言
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
Python机器学习实战——逻辑回归（附完整代码和结果）小白熊XBX 机器学习机器学习 python 逻辑回归
Python机器学习实战——逻辑回归（附完整代码和结果）关于作者作者：小白熊作者简介：精通c#、Halcon、Python、Matlab，擅长机器视觉、机器学习、深度学习、数字图像处理、工业检测识别定位、用户界面设计、目标检测、图像分类、姿态识别、人脸识别、语义分割、路径规划、智能优化算法、大数据分析、各类算法融合创新等等。联系邮箱：[email protected]科研辅导、知识付费答疑、个性化定制
计算机毕业设计Python知识图谱中华古诗词可视化古诗词情感分析古诗词智能问答系统 AI大模型自动写诗大数据毕业设计(源码+LW文档+PPT+讲解) B站计算机毕业设计大学大数据毕业设计人工智能课程设计知识图谱 python 大数据深度学习爬虫
温馨提示：文末有CSDN平台官方提供的学长联系方式的名片！温馨提示：文末有CSDN平台官方提供的学长联系方式的名片！温馨提示：文末有CSDN平台官方提供的学长联系方式的名片！信息安全/网络安全大模型、大数据、深度学习领域中科院硕士在读，所有源码均一手开发！感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人介绍资料《Python知识图谱中华古诗
计算机毕业设计Python知识图谱中华古诗词可视化古诗词情感分析古诗词智能问答系统 AI大模型自动写诗大数据毕业设计(源码+LW文档+PPT+讲解)
温馨提示：文末有CSDN平台官方提供的学长联系方式的名片！温馨提示：文末有CSDN平台官方提供的学长联系方式的名片！温馨提示：文末有CSDN平台官方提供的学长联系方式的名片！信息安全/网络安全大模型、大数据、深度学习领域中科院硕士在读，所有源码均一手开发！感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人介绍资料Python知识图谱中华古诗词
自动驾驶技术研发适用Infortrend普安存储IEC平台
Infortrend普安存储IEC私有云平台，轻松高效应用无人驾驶技术自动驾驶汽车（例如自动驾驶出租车、无人驾驶公交）和无人驾驶飞行器（UAV）依靠摄像头、物联网传感器、雷达、GPS采集的实时数据瞬间做出决策。自动驾驶系统作为核心部分，不间断分析环境条件，应对潜在风险，确保乘客和货物运输安全。Autopilot应用程序在开发和模拟中，大数据、AI（人工智能）、ML（机器学习）等技术能否高速发挥作用
大数据系列 | 日志数据采集工具Filebeat的架构分析及应用降世神童大数据技术专栏大数据架构
大数据系列|日志数据采集工具Filebeat的架构分析及应用1.Filebeat的由来2.Filebeat原理架构分析3.Filebeat的应用3.1.安装Filebeat3.2.实战采集应用程序日志1.Filebeat的由来在介绍Filebeat之前，先介绍一下Beats。Beats是一个家族的统称，Beats家族有8个成员，早期的ELK架构中使用Logstash收集、解析日志，但是Logs
基于SpringBoot+Vue+大学校园图书管理系统设计和实现(源码+LW+部署讲解) 阿勇学长大数据项目实战案例 Java精品毕业设计实例微信小程序项目实战案例 spring boot vue.js 后端大学校园图书管理系统 Java毕业设计
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
Java爬虫技术详解：原理、实现与优势 cyc&阿灿 Java 多线程 java 爬虫开发语言
一、什么是网络爬虫？网络爬虫（WebCrawler），又称网络蜘蛛或网络机器人，是一种自动化程序，能够按照一定的规则自动浏览和抓取互联网上的信息。爬虫技术是大数据时代获取网络数据的重要手段，广泛应用于搜索引擎、数据分析、价格监控等领域。Java作为一种稳定、高效的编程语言，凭借其强大的网络编程能力和丰富的生态库，成为开发网络爬虫的热门选择。二、Java爬虫核心组件一个完整的Java爬虫通常包含以下
如何学习才能更好地理解人工智能工程技术专业和其他信息技术专业的关联性？人工智能教学实践 python编程实践人工智能学习人工智能
要深入理解人工智能工程技术专业与其他信息技术专业的关联性，需要跳出单一专业的学习框架，通过“理论筑基-实践串联-跨学科整合”的路径构建系统性认知。以下是分阶段、可落地的学习方法：一、建立“专业关联”的理论认知框架绘制知识关联图谱操作方法：用XMind或Notion绘制思维导图，以AI为中心，辐射关联专业的核心技术节点。例如：AI（机器学习）├─数据支撑：大数据技术（Hadoop/Spark）+数据
Anconda环境下Vscode安装Python Java后时代程序员 python 学习面试
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
新华妙笔：AI智能写作助手，让高效写作触手可及东风西巷 AI写作 android 软件需求智能手机
在当今快节奏的时代，无论是职场人士、学生还是创作者，都面临着大量的写作任务。从工作总结、调研报告到公文写作、商业文案，高效且高质量的写作能力成为了提升个人竞争力的关键。然而，写作不仅需要丰富的知识储备和扎实的文字功底，还需要大量的时间和精力去打磨。为了帮助用户更高效地完成写作任务，新华妙笔APP应运而生。它是一款功能强大的AI智能写作助手，依托自然语言处理（NLP）和大数据分析技术，能够快速生成各
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比