zbf8441372

Storm可靠性及事务性相关设计: Acker及Trident State

Storm可靠性相关

Storm可靠性的设计与它的Acker有很大关系，先让我用比较拙劣的语句简单描述下。

Storm的tuple，被OutputCollector emit的时候——这个称为archoring(生成新的tuples)，需要指定和它相关的之前的tuple，并且要指定executor完之后ack之类的api，这样就能建立一颗可追踪的tuple树。如：

public class SplitSentence extends BaseRichBolt {
        OutputCollector _collector;
        
        public void prepare(Map conf, TopologyContext context, OutputCollector collector) {
            _collector = collector;
        }

        public void execute(Tuple tuple) {
            String sentence = tuple.getString(0);
            for(String word: sentence.split(" ")) {
                _collector.emit(tuple, new Values(word));
            }
            _collector.ack(tuple);
        }

        public void declareOutputFields(OutputFieldsDeclarer declarer) {
            declarer.declare(new Fields("word"));
        }        
    }

上面这件事一般IBasicBolt可以罩住，更多的方法可以使用IRichBolt。
一个topology里面的acker数量是可以设置的，然后tuple比较多的话可以多设置几个acker，提高效率。每个tuple有一个64位的id，acker利用这个id来追踪tuple，且会知道这个tuple他的祖宗们，也就是只要继续跟踪新的tuple就可以了，因为祖宗的id会被传递下去。
storm用一致性哈希来把spout-tuple-id对应给acker，因为tuple知道自己的祖宗，所以他可以算出通知哪个acker来ack(所有的根tuple是知道的，hash好了之后，以后的子tuple去对应的地方ack)。acker会维护tuple树上的各个tuple，当他知道这个树完成处理了，就会通知某个对应的task。
acker task不显示跟踪整个tuple树，不然会占据很多内存，acker使用一个恒定的20 bytes来针对每个spout tuple。一个acker存一个spout-tuple-id的时候，存两个值：一个是task id，用于关联task；第二个是 ack val，一个64位的数。ack val是整个树状态的一个表示，把所有的tuple id异或起来，当ack val=0，就知道整棵tuple树成功完成了，否则失败，然后就可以通知task了。
在以上的可靠性之下，如果：

task fail了，tuple没有被ack。超时机制保证这个tuple以后再被重新处理
Acker挂。这个acker跟踪的tuple都超时，都会重新处理
Spout挂了。消息源重新发送消息。

所以，storm的可靠性机制是完全分布式的，可伸缩的并且高度容错的。

以上内容可以具体参考wiki：Guaranteeing-message-processing

Acker更多设计可以参考： twitter-storm-code-analysis-acker-merchanism

Storm事务性相关

State in Trident

Trident在读写有状态的数据源方面是有着一流的抽象封装的。状态即可以保留在topology的内部，比如说内存和HDFS，也可以放到外部存储当中，比如说Memcached或者Cassandra。这些都是使用同一套Trident API。

Trident以一种容错的方式来管理状态以至于当你在更新状态的时候你不需要去考虑错误以及重试的情况。这种保证每个消息被处理有且只有一次的原理会让你更放心的使用Trident的topology。

在进行状态更新时，会有不同的容错级别。在外面一起来讨论这点之前，让我们先通过一个例子来说明一下如果想要坐到有且只有一次处理的必要的技巧。假定你在做一个关于某stream的计数聚合器，你想要把运行中的计数存放到一个数据库中。如果你在数据库中存了一个值表示这个计数，每次你处理一个tuple之后，就将数据库存储的计数加一。

当错误发生，truple会被重播。这就带来了一个问题：当状态更新的时候，你完全不知道你是不是在之前已经成功处理过这个tuple。也许你之前从来没处理过这个tuple，这样的话你就应该把count加一。另外一种可能就是你之前是成功处理过这个tuple的，但是这个在其他的步骤处理这个tuple的时候失败了，在这种情况下，我们就不应该将count加一。再或者，你接受到过这个tuple，但是上次处理这个tuple的时候在更新数据库的时候失败了，这种情况你就应该去更新数据库。

如果只是简单的存计数到数据库的话，你是完全不知道这个tuple之前是否已经被处理过了的。所以你需要更多的信息来做正确的决定。Trident提供了下面的语义来实现有且只有一次被处理的目标。

Tuples 是被分成小的集合被批量处理的 (see the tutorial)
每一批tuples被给定一个唯一ID作为事务ID (txid). 当这一批tuple被重播时, txid不变.
批与批之间的状态更新时严格顺序的。比如说第三批tuple的状态的更新必须要等到第二批tuple的状态更新成功之后才可以进行.

有了这些定义，你的状态实现可以检测到当前这批tuple是否以前处理过，并根据不同的情况进行不同的处理。你需要才去的行动取决于你的输入spout。有三种不同类型的可以容错的spout: 非事务的，事务的，以及不透明事务的spout。对应的，也有3种容错的状态：非事务的，事务的，以及不透明事务的状态。让我们一起来看看每一种spout类型能够支持什么样的容错类型。

Transactional spouts

记住，Trident是以小批量（batch）的形式在处理tuple，并且每一批都会分配一个唯一的transaction id。不同的spout会根据他们可以给予不同的批量tuple的guarantee的能力有不同的属性。一个transactional spout会有如下这些属性：

有着同样txid的batch一定是一样的。当重播一个txid对应的batch时，一定会重播和之前对应txid的batch中同样的tuples。
各个batch之间是没有交集的。每个tuple只能属于一个batch
每一个tuple都属于一个batch，无一例外

这是一类非常容易理解的spout， tuple 流被划分为固定的batch并且永不改变。trident-kafka 有一个 transactional spout的实现。

你也许会问：为什么我们不总是使用transactional spout？这很容易理解。一个原因是并不是所有的地方都需要容错的。举例来说，TransactionalTridentKafkaSpout 工作的方式是给定一个txid的batch所包含的一个属于一个topic的来自于所有Kafka partition的tuple序列。一旦这个batch被发出，在任何时候如果这个batch被重新发出时，它必须包含原来所有的tuple以满足 transactional spout的语义。现在我们假定一个batch被TransactionalTridentKafkaSpout所发出，这个batch没有被成功处理，并且同时kafka的一个节点也down掉了。你就无法像之前一样重播一个完全一样的batch（因为kakfa的节点down掉，该topic的一部分partition可能会无法使用），整个处理会被中断。

这也就是"opaque transactional" spouts（不透明事务spout）存在的原因- 他们对于丢失源节点这种情况是容错的，仍然能够帮你达到有且只有一次处理的语义。后面会对这种spout有所介绍。

(当然，在Kafka开启replication功能时， transactional spout也是可以做到容错的)

在外面来讨论"opaque transactional" spout之前，我们先来看看你应该怎样设计一个State来实现transactional spout的有且只有一次执行的语义。这个State的类型是"transactional state" 并且它利用了任何一个txid总是对应同样的tuple序列这个语义。

假如说你有一个用来计算单词出现次数的topology，你想要将单词的出现次数以key/value对的形式存储到数据库中。key就是单词，value就是这个这个单词出现的次数。你已经看到只是存储一个数量是不足以知道你是否已经处理过一个batch的。你可以通过将value和txid一起存储到数据库中。这样的话，当更新这个count之前，你可以先去比较数据库中存储的txid和现在要存储的txid。如果一样，就跳过什么都不做，因为这个value之前已经被处理过了。如果不一样，就执行存储。这个逻辑可以工作的前提就是txid永不改变，并且Trident保证状态的更新是在batch之间严格顺序进行的。

考虑下面这个例子的运行逻辑，假定你在处理一个txid为3的包含下面tuple的batch：

["man"]  
["man"]  
["dog"]

假定数据库中当前保存了下面这样的key/value 对:

man => [count=3, txid=1]  

dog => [count=4, txid=3]  

apple => [count=10, txid=2]

单词“man”对应的txid是1. 因为当前的txid是3，你可以确定你还没有为这个batch中的tuple更新过这个单词的数量。所以你可以放心的给count加2并更新txid为3. 与此同时，单词“dog”的txid和当前的txid是相同的，因此你可以跳过这次更新。此时数据库中的数据如下：

man => [count=5, txid=3]  

dog => [count=4, txid=3]  

apple => [count=10, txid=2]

接下来我们一起再来看看 opaque transactional spout已经怎样去为这种spout设计相应的state。

Opaque transactional spouts

#xhe_tmpurl正如之前说过的，opaque transactional spout并不能确保一个txid所对应的batch的一致性。一个opaque transactional spout有如下属性：

每个tuple只在一个batch中被成功处理。然而，一个tuple在一个batch中被处理失败后，有可能会在另外的一个batch中被成功处理

OpaqueTridentKafkaSpout 是一个拥有这种属性的spout，并且它是容错的，即使Kafak的节点丢失。当OpaqueTridentKafkaSpout 发送一个batch的时候, 它会从上个batch成功结束发送的位置开始发送一个tuple序列。这就确保了永远没有任何一个tuple会被跳过或者被放在多个batch中被多次成功处理的情况.

使用opaque transactional spout，再使用和 transactional spout相同的处理方式：判断数据库中存放的txid和当前txid去做对比已经不好用了。这是因为在state的更新过程之间，batch可能已经变了。

你只能在数据库中存储更多的信息。除了value和txid，你还需要存储之前的数值在数据库中。让我们还是用上面的例子来说明这个逻辑。假定你当前batch中的对应count是“2”，并且我们需要进行一次状态更新。而当前数据库中存储的信息如下：

{ 
  value = 4,  

  prevValue = 1,  

  txid = 2  
}

如果你当前的txid是3，和数据库中的txid不同。那么就将value中的值设置到prevValue中，根据你当前的count增加value的值并更新txid。更新后的数据库信息如下：

{ 
  value = 6,  

  prevValue = 4,  

  txid = 3  
}

现在外面再假定你的当前txid是2，和数据库中存放的txid相同。这就说明数据库里面value中的值包含了之前一个和当前txid相同的batch的更新。但是上一个batch和当前这个batch可能已经完全不同了，以至于我们需要无视它。在这种情况下，你需要在prevValue的基础上加上当前count的值并将结果存放到value中去。数据库中的信息如下所示:

{ 
  value = 3,  

  prevValue = 1,  

  txid = 2  
}

因为Trident保证了batch之间的强顺序性，因此这种方法是有效的。一旦Trident去处理一个新的batch，它就不会重新回到之前的任何一个batch。并且由于opaque transactional spout确保在各个batch之间是没有共同成员的，每个tuple只会在一个batch中被成功处理，你可以安全的在之前的值上进心更新。

Non-transactional spouts

Non-transactional spout(非事务spout)不确保每个batch中的tuple的规则。所以他可能是最多被处理一次的，如果tuple被处理失败就不重发的话。同时他也可能会是至少处理一次的，如果tuple在不同的batch中被多次成功处理的时候。无论怎样，这种spout是不可能实现有且只有一次被成功处理的语义的。

Summary of spout and state types

Opaque transactional state有着最为强大的容错性。但是这是以存储更多的信息作为代价的。Transactional states 需要存储较少的状态信息，但是仅能和 transactional spouts协同工作. Finally, non-transactional state所需要存储的信息最少，但是却不能实现有且只有一次被成功处理的语义。

State和Spout类型的选择其实是一种在容错性和存储消耗之间的权衡，你的应用的需要会决定那种组合更适合你。

State APIs

你已经看到一些错综复杂的方法来实现有且只有一次被执行的语义。Trident这样做的好处把所有容错想过的逻辑都放在了State里面。作为一个用户，你并不需要自己去处理复杂的txid，存储多余的信息到数据库中，或者是任何其他类似的事情。你只需要写如下这样简单的code：

TridentTopology topology = new TridentTopology();          

TridentState wordCounts =  

      topology.newStream("spout1", spout)  

        .each(new Fields("sentence"), new Split(), new Fields("word"))  

        .groupBy(new Fields("word"))  

        .persistentAggregate(MemcachedState.opaque(serverLocations), new Count(), new Fields("count"))                  

        .parallelismHint(6);

所有管理opaque transactional state所需的逻辑都在MemcachedState.opaque方法的调用中被涵盖了，除此之外，数据库的更新会自动以batch的形式来进行以避免多次访问数据库。

State的基本接口只包含下面两个方法：

public interface State {  

    void beginCommit(Long txid); // can be null for things like partitionPersist occurring off a DRPC stream  

    void commit(Long txid);  

}

当一个State更新开始时，以及当一个State更新结束时你都会被告知，并且会告诉你该次的txid。Trident并没有对你的state的工作方式有任何的假定。

假定你自己搭了一套数据库来存储用户位置信息，并且你想要在Trident中去访问这个数据。你的state的实现应该有用户信息的set、get方法

public class LocationDB implements State {  

    public void beginCommit(Long txid) {      

    }  

    public void commit(Long txid) {      

    }
      
    public void setLocation(long userId, String location) {  

      // code to access database and set location  

    }  

    public String getLocation(long userId) {  

      // code to get location from database  

    }  
}

然后你还需要提供给Trident一个StateFactory来在Trident的task中创建你的State对象。LocationDB 的 StateFactory可能会如下所示：

public class LocationDBFactory implements StateFactory {  
   public State makeState(Map conf, int partitionIndex, int numPartitions) {  
      return new LocationDB();  
   }   
}

Trident提供了一个QueryFunction接口用来实现Trident中在一个source state上查询的功能。同时还提供了一个StateUpdater来实现Trident中更新source state的功能。比如说，让我们写一个查询地址的操作，这个操作会查询LocationDB来找到用户的地址。让我们以怎样在topology中实现该功能开始，假定这个topology会接受一个用户id作为输入数据流。

TridentTopology topology = new TridentTopology();  

TridentState locations = topology.newStaticState(new LocationDBFactory());  

topology.newStream("myspout", spout)  
        .stateQuery(locations, new Fields("userid"), new QueryLocation(), new Fields("location"))

接下来让我们一起来看看QueryLocation 的实现应该是什么样的:

public class QueryLocation extends BaseQueryFunction<LocationDB, String> {  

    public List<String> batchRetrieve(LocationDB state, List<TridentTuple> inputs) {  

        List<String> ret = new ArrayList();  

        for(TridentTuple input: inputs) {  

            ret.add(state.getLocation(input.getLong(0)));  

        }  
        return ret;  
    }  

    public void execute(TridentTuple tuple, String location, TridentCollector collector) {  
        collector.emit(new Values(location));  
    }      
}

QueryFunction的执行分为两部分。首先Trident收集了一个batch的read操作并把他们统一交给batchRetrieve。在这个例子中，batchRetrieve会接受到多个用户id。batchRetrieve应该返还一个和输入tuple数量相同的result序列。result序列中的第一个元素对应着第一个输入tuple的结果，result序列中的第二个元素对应着第二个输入tuple的结果，以此类推。
你可以看到，这段代码并没有想Trident那样很好的利用batch的优势，而是为每个输入tuple去查询了一次LocationDB。所以一种更好的操作LocationDB方式应该是这样的：

public class LocationDB implements State {  

    public void beginCommit(Long txid) {     
 
    }  

    public void commit(Long txid) {      

    }  

    public void setLocationsBulk(List<Long> userIds, List<String> locations) {  

      // set locations in bulk  

    }  
      
    public List<String> bulkGetLocations(List<Long> userIds) {  

      // get locations in bulk  

    }  
}

接下来，你可以这样改写上面的QueryLocation:

public class QueryLocation extends BaseQueryFunction<LocationDB, String> {  

    public List<String> batchRetrieve(LocationDB state, List<TridentTuple> inputs) {  

        List<Long> userIds = new ArrayList<Long>();  

        for(TridentTuple input: inputs) {  
            userIds.add(input.getLong(0));  
        }  

        return state.bulkGetLocations(userIds);  
    }  

    public void execute(TridentTuple tuple, String location, TridentCollector collector) {  
        collector.emit(new Values(location));  
    }  
}

通过有效减少访问数据库的次数，这段代码比上一个实现会高效的多。如何你要更新State，你需要使用StateUpdater接口。下面是一个StateUpdater的例子用来将新的地址信息更新到LocationDB当中。

public class LocationUpdater extends BaseStateUpdater<LocationDB> {  

    public void updateState(LocationDB state, List<TridentTuple> tuples, TridentCollector collector) {  

        List<Long> ids = new ArrayList<Long>();  

        List<String> locations = new ArrayList<String>();  

        for(TridentTuple t: tuples) {  

            ids.add(t.getLong(0));  

            locations.add(t.getString(1));  
        }  
        state.setLocationsBulk(ids, locations);  
    }  
}

下面列出了你应该如何在Trident topology中使用上面声明的LocationUpdater：

TridentTopology topology = new TridentTopology();  

TridentState locations =   
    topology.newStream("locations", locationsSpout)  
        .partitionPersist(new LocationDBFactory(), new Fields("userid", "location"), new LocationUpdater())

partitionPersist 操作会更新一个State。其内部是将 State和一批更新的tuple交给StateUpdater，由StateUpdater完成相应的更新操作。

在这段代码中，只是简单的从输入的tuple中提取处userid和对应的location，并一起更新到State中。

partitionPersist 会返回一个TridentState对象来表示被这个Trident topoloy更新过的location db。然后你就可以使用这个state在topology的任何地方进行查询操作了。

同时，你也可以看到我们传了一个TridentCollector给StateUpdaters。 emit到这个collector的tuple就会去往一个新的stream。在这个例子中，我们并没有去往一个新的stream的需要，但是如果你在做一些事情，比如说更新数据库中的某个count，你可以emit更新的count到这个新的stream。然后你可以通过调用TridentState#newValuesStream方法来访问这个新的stream来进行其他的处理。

persistentAggregate

Trident有另外一种更新State的方法叫做persistentAggregate。你在之前的word count例子中应该已经见过了，如下：

TridentTopology topology = new TridentTopology();          

TridentState wordCounts =  

      topology.newStream("spout1", spout)  

        .each(new Fields("sentence"), new Split(), new Fields("word"))  

        .groupBy(new Fields("word"))  

        .persistentAggregate(new MemoryMapState.Factory(), new Count(), new Fields("count"))

persistentAggregate是在partitionPersist之上的另外一层抽象。它知道怎么去使用一个Trident 聚合器来更新State。在这个例子当中，因为这是一个group好的stream，Trident会期待你提供的state是实现了MapState接口的。用来进行group的字段会以key的形式存在于State当中，聚合后的结果会以value的形式存储在State当中。MapState接口看上去如下所示：

public interface MapState<T> extends State {  

    List<T> multiGet(List<List<Object>> keys);  

    List<T> multiUpdate(List<List<Object>> keys, List<ValueUpdater> updaters);  

    void multiPut(List<List<Object>> keys, List<T> vals);  

}

当你在一个未经过group的stream上面进行聚合的话，Trident会期待你的state实现Snapshottable接口：

public interface Snapshottable<T> extends State {  

    T get();  

    T update(ValueUpdater updater);  

    void set(T o);  

}

MemoryMapState 和 MemcachedState 都实现了上面的2个接口。

Implementing Map States

在Trident中实现MapState是非常简单的，它几乎帮你做了所有的事情。OpaqueMap, TransactionalMap, 和 NonTransactionalMap 类实现了所有相关的逻辑，包括容错的逻辑。你只需要将一个IBackingMap 的实现提供给这些类就可以了。IBackingMap接口看上去如下所示：

public interface IBackingMap<T> {  

    List<T> multiGet(List<List<Object>> keys);   

    void multiPut(List<List<Object>> keys, List<T> vals);   

}

OpaqueMap's会用OpaqueValue的value来调用multiPut方法，TransactionalMap's会提供TransactionalValue中的value，而NonTransactionalMaps只是简单的把从Topology获取的object传递给multiPut。
Trident还提供了一种 CachedMap类来进行自动的LRU cache。

另外，Trident 提供了 SnapshottableMap 类将一个MapState 转换成一个 Snapshottable 对象。

大家可以看看 MemcachedState的实现，从而学习一下怎样将这些工具组合在一起形成一个高性能的MapState实现。MemcachedState是允许大家选择使用opaque transactional, transactional, 还是 non-transactional 语义的。

以上内容可以具体参考wiki： Trident-state

(全文完)

深入解析：Storm配置项详解喵手零基础学Java storm 大数据
全文目录：开篇语前言摘要概述Storm配置项详解1.集群配置项1.1`storm.zookeeper.servers`1.2`storm.zookeeper.port`1.3`nimbus.seeds`1.4`supervisor.slots.ports`1.5`storm.local.dir`1.6`worker.childopts`2.拓扑配置项2.1`topology.name`2.2`to
探索数据流处理的利器：Pyleus 宋韵庚
探索数据流处理的利器：PyleuspyleusPyleusisaPythonframeworkfordevelopingandlaunchingStormtopologies.项目地址:https://gitcode.com/gh_mirrors/py/pyleus项目介绍Pyleus，一个基于Python2.6以上的框架，专为构建和启动ApacheStorm拓扑而设计。它以Pythonic的方式
Streamparse：Python实时数据流处理的利器黎杉娜Torrent
Streamparse：Python实时数据流处理的利器streamparseRunPythoninApacheStormtopologies.PythonicAPI,CLItooling,andatopologyDSL.项目地址:https://gitcode.com/gh_mirrors/st/streamparse1、项目介绍Streamparse是一个开源项目，它允许你通过ApacheSt
探索大数据处理的利器：Trident实战教程纪亚钧
探索大数据处理的利器：Trident实战教程trident-tutorialApracticalStormTridenttutorial项目地址:https://gitcode.com/gh_mirrors/tr/trident-tutorial在大数据的浩瀚海洋中，ApacheStorm以其强大的实时计算能力独树一帜。而Trident作为Storm中的高级API，更是简化了复杂数据流处理的难题。
实时数据流处理利器：Apache Storm 在大数据中的应用 Echo_Wish 大数据高阶实战秘籍大数据 apache storm
实时数据流处理利器：ApacheStorm在大数据中的应用引言在如今的数据驱动时代，企业和开发者们面临的一个核心挑战是如何高效处理实时数据流。传统的批处理框架（如Hadoop）在面对海量数据时表现优秀，但其高延迟的缺点使其难以满足实时场景的需求。这时，ApacheStorm作为一个低延迟、高吞吐、分布式的流式处理框架，成为了实时数据分析、日志监控、欺诈检测等场景的理想选择。今天，我们就来深入探讨A
PHP 应用&留言板功能&超全局变量&数据库操作&第三方插件引用我最厉害。，。 php 数据库开发语言
服务器用来处理脚本数据库用来存储数据#开发环境：DW+PHPStorm+PhpStudy+NavicatPremiumDW:HTML&JS&CSS开发PHPStorm:专业PHP开发IDEPhpStudy：ApacheMYSQL环境NavicatPremium:全能数据库管理工具#数据导入-mysql架构&库表列1、数据库名，数据库表名，数据库列名2、数据库数据，格式类型，长度，键等#数据库操作-
[附源码]Python计算机毕业设计SSM基于B-S的心理健康管理系统（程序+LW) Python、JAVA毕设程序源码 java 开发语言
环境配置：Jdk1.8+Tomcat7.0+Mysql+HBuilderX（Webstorm也行）+Eclispe（IntelliJIDEA,Eclispe,MyEclispe,Sts都支持）。项目技术：SSM+mybatis+Maven+Vue等等组成，B/S模式+Maven管理等等。环境需要1.运行环境：最好是javajdk1.8，我们在这个平台上运行的。其他版本理论上也可以。2.IDE环境：
UNI-APP+VUE3+VITE+VSCode开发经验及填坑记录（持续更新ING）集成显卡前端项目实践 uni-app vscode ide
uni-app是一个使用Vue.js开发所有前端应用的框架，开发者编写一套代码，可发布到iOS、Android、Web（响应式）、以及各种小程序（微信/支付宝/百度/头条/飞书/QQ/快手/钉钉/淘宝）、快应用等多个平台。快速开发模板unibest：最好的uniapp开发框架，由uniapp+Vue3+Ts+Vite5+UnoCss+VSCode(可选webstorm)+uni插件+wot-ui（
【Apache Storm】茉菇 apache storm 大数据
一、Storm简介1、概述官网地址：https://storm.apache.org/index.htmlApacheStorm是一个开源的、分布式的实时计算系统，专为处理流式数据而设计。它能够处理大量数据流并在极低的延迟下提供实时的结果。相比于传统的批处理系统，Storm具有处理无限数据流的能力，支持非常高的可扩展性和容错机制。Storm可以适用于多种编程语言，具有高度的灵活性。2、核心功能分布
Apache storm 赵世炎 storm hadoop
Apachestorm是一个分布式的实时大数据处理系统。用于在容错和水平可拓展方法中处理大量数据。它是一个流数据框架，具有很高的摄取率，无状态。通过zk管理分布式环境和集群状态，并行地对实时数据执行各种操作。storm易于设置和操作，并且它保证每个消息将通过拓扑至少处理一次。基本上Hadoop和Storm框架用于分析大数据。两者互补，在某些方面有所不同。ApacheStorm执行除持久性之外的所有
Apache Storm实时流处理的核心技术 Hello.Reader 大数据 apache storm 大数据
1.引言ApacheStorm是一个开源的、分布式的实时计算系统，专为处理流式数据而设计。它能够处理大量数据流并在极低的延迟下提供实时的结果。相比于传统的批处理系统，Storm具有处理无限数据流的能力，支持非常高的可扩展性和容错机制。Storm可以适用于多种编程语言，具有高度的灵活性。1.1什么是ApacheStorm？ApacheStorm是一个流处理引擎，它可以持续处理不断到来的数据流（str
Storm实战常见问题及解决方案 Lzy失控的 storm-分布式流式计算 bigdata-大数据
原文seehttp://blog.sina.com.cn/s/blog_8c243ea30101k0k1.html1关于Storm集群1.1关于storm集群的环境变量配置问题安装好JDK后，需要配置环境变量，通常情况下出于经验，我们往往会修改/etc/profile的值进行环境变量配置，但这在安装JDK以及后面安装的storm集群、zookeeper集群以及metaq集群时会出问题，这时候我们需
Apache Storm：实时数据处理的闪电战 Aaron_945 Java apache storm 大数据
文章目录ApacheStorm原理拓扑结构数据流处理容错机制官网链接基础使用安装与配置编写拓扑提交与运行高级使用状态管理窗口操作多语言支持优点高吞吐量低延迟可扩展性容错性总结ApacheStorm是一个开源的分布式实时计算系统，它允许你以极高的吞吐量处理无界数据流。Storm被广泛用于实时分析、在线机器学习、连续计算等多种场景。本文将深入探讨ApacheStorm的原理、基础使用、高级特性及其优点
中电金信25/3/18面前笔试（需求分析岗+数据开发岗）苍曦需求分析前端 javascript
部分相同题目在第二次数据开发岗中不做解析，本次解析来源于豆包AI，正确与否有待商榷，本文只提供一个速查与知识点的补充。一、需求分析第1题，单选题,Hadoop的核心组件包括HDFS和以下哪个？MapReduceSparkStormFlink解析：Hadoop的核心组件是HDFS（分布式文件系统）和MapReduce（分布式计算框架）。Spark、Storm、Flink虽然也是大数据处理相关技术，但
Node.js入门(学习笔记) 唐小艾学习笔记 node.js
文章目录简介NodeJS下载安装下载安装NodeJS与WebStorm整合JS文件运行CommonJS规范模块模块化定义模块引用模块标识node中的对象globalexports和module.exports属性方法引用包packageNPM(NodePackageManager)NPM命令NPM包引用NPM注意下载速度慢Nodejs核心模块Buffer模块buffer类方法buffer实例的属性
JetBrains（全家桶: IDEA、WebStorm、GoLand、PyCharm） 2024.3+ 2025 版免费体验方案 qq251708339 intellij-idea webstorm pycharm 免费非破解 2025
JetBrains（全家桶:IDEA、WebStorm、GoLand、PyCharm）2024.3+2025版免费体验方案前言JetBrainsIDE是许多开发者的主力工具，但从2024.02版本起，JetBrains调整了试用政策，新用户不再享有默认的30天免费试用，这对想要体验新版功能的用户带来了一定限制。本指南介绍如何合理获取JetBrains的最新体验权限，并提供一些解决方案，帮助你顺利使
【推荐】爽，在 IDE 中做 LeetCode 题目的插件 ideleetcode
大家好，我是V哥。今天给大家推荐一款神器插件，废话不多说，马上开整。leetcode-editor是一个可以在IDE中做LeetCode题目的插件仓库，以下是对该仓库的详细介绍：来看一下这个神器是啥基本信息名称：LeetcodeEditor支持平台：理论上支持IntelliJIDEA、PhpStorm、WebStorm、PyCharm、RubyMine、AppCode、CLion、GoLand、D
mt4j android,Brainstorming und Mind-Mapping im Multi-Device-Kontext. Konzeption und prototypische Im... Oxygenfia mt4j android
摘要：DievorliegendeArbeitbeschreibtdieKonzeptionundprototypischeImplementierungeinerAnwendungzurelektronischenUnterstützungvonBrainstorming-undMind-Mapping-SitzungenaneinemmultitouchfhigenTabletopmitSma
conda运行python_python conda操作方法 weixin_39747975 conda运行python
conda虚拟环境安装Listitemcondaenvlist#查看已安装虚拟环境下面以storm_control的安装为例1.查看已安装虚拟环境condaenvlist可以发现已经安装的虚拟环境都是默认在Anaconda3/envs/“my_name”里面2.安装新的虚拟环境：condacreate--namemyenvpython=3.6myenv是我们自己取的名字3.激活虚拟环境：activ
网络安全工具汇总 Hacker_Fuchen web安全安全
网络安全工具汇总漏洞及渗透练习平台WebGoat漏洞练习环境https://github.com/WebGoat/WebGoathttps://github.com/WebGoat/WebGoat-LegacyDamnVulnerableWebApplication（漏洞练习平台）https://github.com/RandomStorm/DVWA数据库注入练习平台https://github.
大数据Flink（六十四）：Flink运行时架构介绍_flink中涉及到的大数据组件 2401_84181942 程序员大数据 flink 架构
于是人们提出了“不共享任何东西”（share-nothing）的分布式架构。从以Greenplum为代表的MPP（MassivelyParallelProcessing，大规模并行处理）架构，到Hadoop、Spark为代表的批处理架构，再到Storm、Flink为代表的流处理架构，都是以分布式作为系统架构的基本形态的。我们已经知道，Flink就是一个分布式的并行流处理系统。简单来说，它会由多个进
phpstorm重复试用 Sword-Holy PHPStorm 试用期重置清理缓存注册表开发者指南
phpstorm重复试用1.关闭软件（建议先导出设置配置，操作会重置配置）2.删除文件（一般AppData会被隐藏，需要通过查看选项里面打开查看隐藏文件，不懂自行百度）删除目录C:\Users\用户名\AppData\Roaming\JetBrains\PhpStorm2020.2\eval删除文件C:\Users\用户名\AppData\Roaming\JetBrains\PhpStorm202
使用WebStorm开发Vue3项目 web18285997089 面试学习路线阿里巴巴 webstorm rust ide
记录一下使用WebStorm开发Vu3项目时的配置现在WebStorm可以个人免费使用啦！??基本配置打包工具：Vite前端框架：ElementPlus开发语言：Vue3、TypeScript、Sass代码检查：ESLint、PrettierIDE：WebStorm2024.2首先说一下版本兼容问题，ElementPlus>=2.8.5需要Sass>=1.79.0，但是升级了Sass后，会导致El
Java基于SpringBoot的校园心声墙小程序（附源码，文档） stormjun 小程序毕业设计 java spring boot 小程序校园心声墙小程序
基于SpringBoot的校园心声墙小程序博主介绍：✌stormjun、8年大厂程序员经历。全网粉丝15w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟Java项目精品实战案例《100套》Java微信小程序项目实战《100套》Python项目实战《100套》感兴趣的可以先收藏起来，还有大家
基于web在线餐饮网站的设计与实现——蛋糕甜品店铺(HTML+CSS+JavaScript) html网页制作网页设计前端 javascript html dreamweaver网页设计 web网页设计期末课程大作业
‍静态网站的编写主要是用HTMLDIV+CSSJS等来完成页面的排版设计‍,常用的网页设计软件有Dreamweaver、EditPlus、HBuilderX、VScode、Webstorm、Animate等等，用的最多的还是DW，当然不同软件写出的前端Html5代码都是一致的，本网页适合修改成为各种类型的产品展示网页，比如美食、旅游、摄影、电影、音乐等等多种主题，希望对大家有所帮助。精彩专栏推荐❤
daily-02 Arbori_26215 daily
August11thSundaycloudyYesterdayafternoon,abigstormhitshanghai.Manyroadsarefloodedwithwater.it’snicedaytoday.Asusual,therearestillalotofpeopleinthelibrary.
华为MRS产品组件 QianJin_zixuan hadoop hive 大数据数据库架构 gaussdb
MRS：MRS是一个在华为云上部署和管理Hadoop系统的服务，一键即可部署Hadoop集群。MRS提供租户完全可控的一站式企业级大数据集群云服务（全栈大数据平台），轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件。集群管理：使用MRS的首要操作就是购买集群，MRS的扩容不论在存储还是计算能力上，都可以简单地通过增加Core节点或者Task节点来完成。集群Core节
IntelliJ IDEA 2024.3.X最新版补丁，亲测全系可用！！！彼岸的包子 java java idea intellij idea ide
●本教程适用于JetBrains全系列产品，包括IDEA、Pycharm、WebStorm、Phpstorm、Datagrip、RubyMine、CLion、AppCode等。●本教程适用Windows/Mac/Linux系统，文中以Windows系统为例做讲解，其他系统同样参考着本教程来就行。申明：本教程IntelliJIDEA工具均收集于网络，请勿商用，仅供个人学习使用，如有侵权，请联系作者删
springboot毕设项目自驾旅游网站的设计与实现gah85（java+VUE+Mybatis+Maven+Mysql）计算机程序设计源哥 java spring boot 旅游
springboot毕设项目自驾旅游网站的设计与实现gah85（java+VUE+Mybatis+Maven+Mysql）项目运行环境配置：Jdk1.8+Tomcat8.5+Mysql+HBuilderX（Webstorm也行）+Eclispe（IntelliJIDEA,Eclispe,MyEclispe,Sts都支持）。项目技术：Springboot+mybatis+Maven+Vue等等组成，
webstorm Emma_Maria 工具 webstorm
很久以前积累的webstorm操作，有需要的可以看一下一.关于webstorm1.webstorm更新需要激活webstorm更新需要激活,需要在服务器上激活选licenseserver,然后将后面这串代码贴进去就好了.http://jetbrains.tencent.click/.2.webstorm设置本地服务器file->settings->development->+->FTPHOST
矩阵求逆（JAVA）利用伴随矩阵 qiuwanchi 利用伴随矩阵求逆矩阵
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(利用伴随矩阵) * @author 邱万迟
单例（Singleton）模式 aoyouzi 单例模式 Singleton
3.1 概述如果要保证系统里一个类最多只能存在一个实例时，我们就需要单例模式。这种情况在我们应用中经常碰到，例如缓存池，数据库连接池，线程池，一些应用服务实例等。在多线程环境中，为了保证实例的唯一性其实并不简单，这章将和读者一起探讨如何实现单例模式。 3.2
[开源与自主研发]就算可以轻易获得外部技术支持,自己也必须研发 comsci 开源
现在国内有大量的信息技术产品，都是通过盗版，免费下载，开源，附送等方式从国外的开发者那里获得的。。。。。。虽然这种情况带来了国内信息产业的短暂繁荣，也促进了电子商务和互联网产业的快速发展，但是实际上，我们应该清醒的看到，这些产业的核心力量是被国外的
页面有两个frame,怎样点击一个的链接改变另一个的内容 Array_06 UI XHTML
<a src="地址" targets="这里写你要操作的Frame的名字" />搜索然后你点击连接以后你的新页面就会显示在你设置的Frame名字的框那里 targerts="",就是你要填写目标的显示页面位置 ===================== 例如： <frame src=&
Struts2实现单个/多个文件上传和下载 oloz 文件上传 struts
struts2单文件上传：步骤01:jsp页面  　　<form action="fileUplo
推荐10个在线logo设计网站 362217990 logo
在线设计Logo网站。 1、http://flickr.nosv.org（这个太简单） 2、http://www.logomaker.com/?source=1.5770.1 3、http://www.simwebsol.com/ImageTool 4、http://www.logogenerator.com/logo.php?nal=1&tpl_catlist[]=2 5、ht
jsp上传文件香水浓 jsp fileupload
1. jsp上传 Notice： 1. form表单 method 属性必须设置为 POST 方法，不能使用 GET 方法 2. form表单 enctype 属性需要设置为 multipart/form-data 3. form表单 action 属性需要设置为提交到后台处理文件上传的jsp文件地址或者servlet地址。例如 uploadFile.jsp 程序文件用来处理上传的文
我的架构经验系列文章 - 前端架构 agevs JavaScript Web 框架 UI jQuer
框架层面：近几年前端发展很快，前端之所以叫前端因为前端是已经可以独立成为一种职业了，js也不再是十年前的玩具了，以前富客户端RIA的应用可能会用flash/flex或是silverlight，现在可以使用js来完成大部分的功能，因此js作为一门前端的支撑语言也不仅仅是进行的简单的编码，越来越多框架性的东西出现了。越来越多的开发模式转变为后端只是吐json的数据源，而前端做所有UI的事情。MVCMV
android ksoap2 中把XML(DataSet) 当做参数传递 aijuans android
我的android app中需要发送webservice ，于是我使用了 ksop2 进行发送，在测试过程中不是很顺利,不能正常工作.我的web service 请求格式如下 [html] view plain copy <Envelope xmlns="http://schemas.
使用Spring进行统一日志管理 + 统一异常管理 baalwolf spring
统一日志和异常管理配置好后，SSH项目中，代码以往散落的log.info() 和 try..catch..finally 再也不见踪影！统一日志异常实现类： [java] view plain copy package com.pilelot.web.util; impor
Android SDK 国内镜像 BigBird2012 android sdk
一、镜像地址： 1、东软信息学院的 Android SDK 镜像，比配置代理下载快多了。配置地址， http://mirrors.neusoft.edu.cn/configurations.we#android 2、北京化工大学的： IPV4:ubuntu.buct.edu.cn IPV4:ubuntu.buct.cn IPV6:ubuntu.buct6.edu.cn
HTML无害化和Sanitize模块 bijian1013 JavaScript AngularJS Linky Sanitize
一.ng-bind-html、ng-bind-html-unsafe AngularJS非常注重安全方面的问题，它会尽一切可能把大多数攻击手段最小化。其中一个攻击手段是向你的web页面里注入不安全的HTML，然后利用它触发跨站攻击或者注入攻击。考虑这样一个例子，假设我们有一个变量存
[Maven学习笔记二]Maven命令 bit1129 maven
mvn compile compile编译命令将src/main/java和src/main/resources中的代码和配置文件编译到target/classes中，不会对src/test/java中的测试类进行编译 MVN编译使用 maven-resources-plugin:2.6:resources maven-compiler-plugin:2.5.1:compile &nbs
【Java命令二】jhat bit1129 Java命令
jhat用于分析使用jmap dump的文件，，可以将堆中的对象以html的形式显示出来，包括对象的数量，大小等等，并支持对象查询语言。 jhat默认开启监听端口7000的HTTP服务，jhat是Java Heap Analysis Tool的缩写 1. 用法： [hadoop@hadoop bin]$ jhat -help Usage: jhat [-stack <bool&g
JBoss 5.1.0 GA:Error installing to Instantiated: name=AttachmentStore state=Desc ronin47
进到类似目录 server/default/conf/bootstrap，打开文件 profile.xml找到： Xml代码<bean name="AttachmentStore" class="org.jboss.system.server.profileservice.repository.AbstractAtta
写给初学者的6条网页设计安全配色指南 brotherlamp UI ui自学 ui视频 ui教程 ui资料
网页设计中最基本的原则之一是，不管你花多长时间创造一个华丽的设计，其最终的角色都是这场秀中真正的明星——内容的衬托我仍然清楚地记得我最早的一次美术课，那时我还是一个小小的、对凡事都充满渴望的孩子，我摆放出一大堆漂亮的彩色颜料。我仍然记得当我第一次看到原色与另一种颜色混合变成第二种颜色时的那种兴奋，并且我想，既然两种颜色能创造出一种全新的美丽色彩，那所有颜色
有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。写一个函数实现。复杂度是什么。 bylijinnan java 算法面试
import java.util.Random; import java.util.Set; import java.util.TreeSet; /** * http://weibo.com/1915548291/z7HtOF4sx * #面试题#有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。 * 写一个函数实现。复杂度是什么
struts2获得request、session、application方式 chiangfai application
1、与Servlet API解耦的访问方式。 a.Struts2对HttpServletRequest、HttpSession、ServletContext进行了封装，构造了三个Map对象来替代这三种对象要获取这三个Map对象，使用ActionContext类。 -----> package pro.action; import java.util.Map; imp
改变python的默认语言设置 chenchao051 python
import sys sys.getdefaultencoding() 可以测试出默认语言，要改变的话，需要在python lib的site-packages文件夹下新建： sitecustomize.py，这个文件比较特殊，会在python启动时来加载，所以就可以在里面写上： import sys sys.setdefaultencoding('utf-8') &n
mysql导入数据load data infile用法 daizj mysql 导入数据
我们常常导入数据！mysql有一个高效导入方法，那就是load data infile 下面来看案例说明基本语法： load data [low_priority] [local] infile 'file_name txt' [replace | ignore] into table tbl_name [fields [terminated by't'] [OPTI
phpexcel导入excel表到数据库简单入门示例 dcj3sjt126com PHP Excel
跟导出相对应的，同一个数据表，也是将phpexcel类放在class目录下，将Excel表格中的内容读取出来放到数据库中 <?php error_reporting(E_ALL); set_time_limit(0); ?> <html> <head> <meta http-equiv="Content-Type"
22岁到72岁的男人对女人的要求 dcj3sjt126com
22岁男人对女人的要求是：一，美丽，二，性感，三，有份具品味的职业，四，极有耐性，善解人意，五，该聪明的时候聪明，六，作小鸟依人状时尽量自然，七，怎样穿都好看，八，懂得适当地撒娇，九，虽作惊喜反应，但看起来自然，十，上了床就是个无条件荡妇。 32岁的男人对女人的要求，略作修定，是：一，入得厨房，进得睡房，二，不必服侍皇太后，三，不介意浪漫蜡烛配盒饭，四，听多过说，五，不再傻笑，六，懂得独
Spring和HIbernate对DDM设计的支持 e200702084 DAO 设计模式 spring Hibernate 领域模型
A：数据访问对象 DAO和资源库在领域驱动设计中都很重要。DAO是关系型数据库和应用之间的契约。它封装了Web应用中的数据库CRUD操作细节。另一方面，资源库是一个独立的抽象，它与DAO进行交互，并提供到领域模型的“业务接口”。资源库使用领域的通用语言，处理所有必要的DAO，并使用领域理解的语言提供对领域模型的数据访问服务。
NoSql 数据库的特性比较 geeksun NoSQL
Redis 是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。目前由VMware主持开发工作。 1. 数据模型作为Key-value型数据库，Redis也提供了键（Key）和值（Value）的映射关系。除了常规的数值或字符串，Redis的键值还可以是以下形式之一： Lists （列表） Sets
使用 Nginx Upload Module 实现上传文件功能 hongtoushizi nginx
转载自： http://www.tuicool.com/wx/aUrAzm 普通网站在实现文件上传功能的时候，一般是使用Python，Java等后端程序实现，比较麻烦。Nginx有一个Upload模块，可以非常简单的实现文件上传功能。此模块的原理是先把用户上传的文件保存到临时文件，然后在交由后台页面处理，并且把文件的原名，上传后的名称，文件类型，文件大小set到页面。下
spring-boot-web-ui及thymeleaf基本使用 jishiweili spring thymeleaf
视图控制层代码demo如下： @Controller @RequestMapping("/") public class MessageController { private final MessageRepository messageRepository; @Autowired public MessageController(Mes
数据源架构模式之活动记录 home198979 PHP 架构活动记录数据映射
hello!架构一、概念活动记录（Active Record）：一个对象，它包装数据库表或视图中某一行，封装数据库访问，并在这些数据上增加了领域逻辑。对象既有数据又有行为。活动记录使用直截了当的方法，把数据访问逻辑置于领域对象中。二、实现简单活动记录活动记录在php许多框架中都有应用，如cakephp。 <?php /** * 行数据入口类 *
Linux Shell脚本之自动修改IP pda158 linux centos Debian 脚本
作为一名 Linux SA，日常运维中很多地方都会用到脚本，而服务器的ip一般采用静态ip或者MAC绑定，当然后者比较操作起来相对繁琐，而前者我们可以设置主机名、ip信息、网关等配置。修改成特定的主机名在维护和管理方面也比较方便。如下脚本用途为：修改ip和主机名等相关信息，可以根据实际需求修改，举一反三！ #!/bin/sh #auto Change ip netmask ga
开发环境搭建独浮云 eclipse jdk tomcat
最近在开发过程中，经常出现MyEclipse内存溢出等错误，需要重启的情况，好麻烦。对于一般的JAVA+TOMCAT项目开发，其实没有必要使用重量级的MyEclipse，使用eclipse就足够了。尤其是开发机器硬件配置一般的人。 &n