尹绪森

探寻从HDFS到Spark的高效数据通道：以小文件输入为案例

为了保证高效的数据移动，locality是大数据栈以及分布式应用程序所必须保证的性质，这一点在Spark中尤为明显。如果数据集大到不能保证完全放入内存，那就不能贸然使用cache()将数据固化到内存中。如果读取数据不能保证较好的locality性质的话，不论是对即席查询还是迭代计算都将面临输入瓶颈。而作为常用的分布式文件系统，HDFS承担着数据存储、一致性保证等关键问题。HDFS自开发之初就与Google GFS一脉相承，因此也继承了其无法较好的处理小文件的问题，但大量小文件输入又是分布式计算中常见场景。本文以小文件输入为案例，看看从HDFS到Spark的数据通道中到底发生了什么，并讨论如何设计有效的小文件输入。了解了这些话题，可以更高效的使用Spark。

背景

MLlib进展如火如荼，近期最令人振奋的消息莫过于MLlib对sparse vector的支持，以及随之而来的一系列重构和改进工作。机器学习一般算法的输入是训练集和测试集，通常来说是(label, key : value)这样的序对。对于这种输入，直接使用SparkContext提供的textFile()接口就好了，MLlib内部会转换成LabeledPoint类。但MLlib还缺少图模型算法，如LDA。LDA (Latent Allocation Dirichlet)算法常用来获取文档集合的主题，是机器学习中广泛应用的算法，其输入格式和核心组件与常见的机器学习分类、聚类算法不同。

两个月之前，笔者有一份差不多要完成的基于Spark的并行LDA算法准备提交给Spark社区，同时也在准备酝酿已久的学术论文。当笔者完成了LDA算法的核心模块Gibbs sampling之后，突然发觉要想实现一个“可用的“LDA算法，不仅仅是一个核心功能这么简单，还牵扯到许多零碎的事情。所谓零碎的事情，其实并不简单。机器学习算法就是这样，学起来难，但是真正懂了之后发现核心算法特别简单，预处理又非常难。总之，机器学习算法学起来难的地方做起来简单，但是学起来简单的地方, 并不见得很快就能做好。

大部分的零碎工作在语料库的预处理和后续输出的模型的使用上，这些零碎的工作机器学习者们都不怎么注重，因为书本上很少会讲到这些知识。就拿后者来说，模型后续使用这件事儿看起来小，其实不然，这关系到机器学习算法的实际运用能力。我们做模型的最终目的除了发论文之外还是想让它对现实生活产生影响。学术派关注模型多，但对学术和工业的结合看的相对少一点，线下模型如何轻松部署？模型可否增量训练？模型的训练和使用是否可以同步进行？是否可以做到对模型的在线查询？这都是将机器学习“搬出实验室”的关键问题。这类问题在Strata大会上有很多工业界人士做了很好的讲解，比如这里。

闲言莫谈，回到语料库的预处理工作。关于分词的问题不多谈，笔者学习ScalaNLP的做法，直接在Lucene的分词实现上裹了一层Scala的接口。但是在语料集的输入上花了很多时间。Spark目前所有的标准输入接口是SparkContext类中提供的textFile(path, miniSplits)接口，但该接口不适合语料库的直接输入，因为这是一个文本行处理函数，每次只能操作其中的一行文本。而LDA更期待的输入格式是Key-Value对，其中key是文件的绝对路径（便于分辨和去重），value是文件的全部内容。由于Spark下层多使用HDFS作为输入，因此笔者打算自己定制InputFormat。

LDA应用场景

首先得说明一些问题。LDA的实际使用场景有二：

第一种是在实验室环境下使用，这是最直观的情况。例如你有一堆小文件存在本地磁盘上，即你的语料库。可能你想直接把它们上传到HDFS，或者在每台机器的磁盘上仍一份，甚至直接放在当前机器的本地磁盘好了（这种情况下不是真正的分布式，所有的Spark executor只会在你当前机器上启动），之后打开Spark调用其中的LDA算法。如果你只是打算做个实验，这样就足够了。换言之，这是一种offline的训练方式。

第二种情况是工业应用，你可能不会有一堆离线的语料库，而是有一个流式管道，语料文本源源不断地传递过来，如twitter/weibo feed等。或许你可以把这些数据放到HDFS或HBase上，也有可能直接处理流数据，而不管最终存储。

这是完全不同的应用场景，针对不同的场景要有不同的处理方式。不论是实验室环境下的尝试，还是工业应用，两者都很重要。本文只涉及offline的数据处理方法，因为offline的数据处理才更加需求让数据经过HDFS。

离线LDA训练

离线场景下或许我们不必理会语料集预处理的过程，直接交给最终用户好了。用户将语料集转换成你指定的样式，之后将预处理结果上载到HDFS，这样你的LDA程序可以直接访问这部分数据，而我们要做的只是规定好输入的样式，妙不可言。我们舒服了，用户吃些苦头。例如我们指定用户输入文件的每一行是一个完整的文件内容，开头处以Tab分割作为文件名。这样我们可以直接调用textFile()接口，自己切分一下就可以得到”文件名--文件内容”这个KV对。值得一提的是，这种离线场景下看似不好用的方法，在工业界线上训练过程中反倒可能有好的效果。比如一次记录过来就是一个KV对，这样就省去了这一步输入的处理。

或许我们可以进一步帮帮用户。咱们写一个预处理程序，不论是串行的还是并行的，帮助用户进行预处理，Mahout就是这么做的。这种情况下，可能需要最终用户写一个ad-hoc的shell脚本组织所有的工作流和数据流。Mahout中的dirTosequentialFile就是把本地磁盘或者HDFS上的目录读入，将其中的小文件合并在一起转换成一个sequential file。

但是，笔者觉得最好的方法还是将预处理过程与LDA训练过程融合起来，不要让用户做这么多工作就能调用Spark上的LDA，用户只需要指定文件路径即可。这时我们必须提供函数将语料库所有的文本和文件名读入。CombineFileInputFormat比较适合处理小文件，因此最初笔者实现了一个CombineFileInputFormat，一个CombineFileRecordReader，一个FileLineWritable以及一个类似于textFile()的接口。

Interface exposed to end-user - SparkContext.scala
  def wholeTextFiles(path: String): RDD[(String, String)] = {
    newAPIHadoopFile(
      path,
      classOf[WholeTextFileInputFormat],
      classOf[String],
      classOf[String])
  }

要注意的是，虽然笔者这么做了，但这并不代表小文件输入的最佳实践。实际上，最佳实践是不要使用小文件。因为将大量的小文件放到HDFS上是比较糟糕的，不仅将block用满率降低，还会占满NameNode上面的索引。这里只是讨论一种可行的方案。

分析几个问题。首先是HDFS中block的大小。我们在这里称之“小文件”的文件究竟有多“小”？是否会超过HDFS的block大小？答案是肯定的。在这种情况下，如果我们按照block位单位读取数据，那么我们就要自己处理同一个文件的block拼接的问题，尤其是文件由多字节字符组成的时候，如UTF编码的字符，很可能在一个字符中间被切断。如果不能正确的拼接各个block，会出现乱码的情况。

重点是，考虑到性能问题，我们不希望有额外的网络传输开销存在，尤其是不必要的网络传输。我们希望同一个文件的block都在同一个节点上，这样在合并这些block的时候就完全不会出现机器之间数据的网络传输。HDFS里面很讨厌的一点是，这里有两套极为相同的API，分别在mapred和mapreduce两个包下，稍不注意用错了API就会有一种很抓狂的感觉。笔者最初为了兼容Spark中HadoopRDD的接口，用了mapred的这套API，其中的CombineFileRecordReader中的isSplitable()函数是不起作用的，因为如果不修改CombineFileRecordReader本身的代码就无法阻止一个文件的多个block分配到不同的split中的情况。一旦这件事情发生，那拼接一个文件的时候就无法阻止shuffle的发生。

在线LDA训练

现在来看看在线训练。注意线上产品不应该使用上述方式运行。当然，如果不顾及线上模型训练，认为模型可以线下训练好的话另当别论。数据处理部门的人是不会把大量原始文本存储到本地磁盘，之后再将数据上传到服务器处理的。在我看来，大数据就应该放到合适的地方去。这种场景下，原始文本或者网页应该存储到一种KV存储中，例如HBase（Facebook在其论文Analysis of HDFS Under HBase: A Facebook Messages Case Study中详述了HDFS之上的HBase性能问题，值得一看。）。除此之外，HDF5也是种不错的选择。

网络传输来自哪里

笔者一直在讨论避免网络传输开销的问题，那么网络传输到底出现在哪里从而导致的不可避免呢？

首先，文件大小超过单个block大小的文件不免被切分，不论是ASCII编码的文件，还是UTF这种多字节编码的文件，都需要一个join的过程。最好的情况下，我们期望同一个文件所有的block都从同一个机器上读取，这样可以避免网络传输。

第二，出于效率的考量，mapred包中的CombineFileInputFormat不能保证这一点。这是因为每个block都会有副本的存在。为了保证数据读取的高效，同一个文件的不同block可能读取不同机器上的副本。同时由于单个split大小的限制，同一个机器上的block也可能分到不同的split里面。正是由于HDFS多副本容错的特性，导致同个文件不同的block甚至可能在任何一个位置被读取。

自定义Partitioner怎么样

在笔者看来，Spark之所以好用的原因之一就是可以简单地定制partition方法。使用自定制的partitioner来重新安排我们KV对的存储。然而，定制化的partitioner最大的作用是在迭代地进行RDD join的时候，正如Spark PageRank所展示的那样。如果是一次性的使用，有点得不偿失，因为第一次的shuffle在所难免。

Hadoop locality全揭秘

为了更好的了解Hadoop I/O保持良好locality的秘密，我们要深入看一看mapred包中的InputFormat实现。我们选择FileInputFormat作为突破口，因为这也是spark的“重点使用对象”。首先要记住这些后面会经常用到的概念：rack、node、file、block、replica。数据中心通常由一堆堆rack组成，rack是同一个机架中的机器。由于同个rack之间网络状况通常都是非常好的，因此考虑本地性的时候通常也将同个rack中的数据算作本地数据。一个rack由多个node组成，这里的node特指作为DataNode的机器。HDFS上每个文件包含多个block，每个block有一些副本（通常是三个）。要注意的是Hadoop的worker可能包含所有的DataNode节点，当然也会出现不匹配的现象，即有些机器仅仅是DataNode节点而非Hadoop worker，反之亦然。同时也要注意，考虑到鲁棒性，每个block的三副本通常都是当前node一个，本rack其他机器一个，其他rack上一个。

把Hadoop worker也考虑进来后，问题稍显复杂。程序可能分布在多个worker上，数据分布在多个DataNode上。因此，问题抽象成如何在worker和DataNode之间做多对一的映射（一个worker会可能处理多个DataNode上的数据，而一份数据通常只要一个worker处理就好了），使得读取HDFS文件时造成的网络开销最小？换句话说，读取文件整体耗时最少。

这件事儿不是很容易，因为应用程序和数据之间还隔着好多层。程序所直接接触的就是文件名。一个文件被分为多个block，每个block可能存在于每一个数据节点上，其副本存在于其他节点上，不同的节点还属于不同的rack。我们先从程序开始看起。以Spark为例，我们调用hadoopRDD = sc.textFile(path)告诉Spark开始读取path中的数据。这个path可能是一个本地文件路径，更常见的是HDFS路径。为了分布式处理的要求，hadoopRDD通常情况下是被切分的。那么，其partition的信息来自何处呢？答案就是HDFS中的split，更确切的说是FileSplit，其在FileInputFormat中被用到。FileSplit就是这样一种程序和block之间的映射。

每个FileSplit都是一个block集合，里面的block会在同一个worker上的同一个程序读出，因此也理所当然作为一个partition。为了保持同一个split中block的本地性，FileSplit花了大力气把合适的block放到一起。例如贡献度计算，以及node-block、rack-block之间的双向链表等。现在我们把之前的程序-block映射问题退化成split-block的映射问题。

Node/Rack贡献度计算

假设我们有一个split，其中有三个block，这三个block来自8个节点。8个节点属于4个不同的rack，每个block有三个副本。假设这三个block的大小分别为100、150、75。这种情况下怎么安排“最佳地点”？即该split应该在哪个worker上计算？

首先，我们一致同意的一点是“最佳地点”应该是所有node的子集。在我们的例子中，这个集合是[h1 --- h8]这八个节点。怎样对这个集合进行排序，依次找到“最佳地点”、“次佳地点”？

对节点集合进行排序有两种方法，分别是考虑rack的信息和不考虑rack的信息。上文说过，可以将同一个rack中的block也算做本地的block。要想排序，先要确定准则，即什么才是“好”。参照上图，我们定义一个“effective size”的概念，这是说在本节点上，存在多少比特有效的数据可供读取。同样的，rack的effective size就是该rack上所有的有效读取的比特。注意，并非是将该节点有的block以及字节数加起来这么简单，这里的“有效”是指的有区分度的字节数。例如，Rack4有两个block，每个block的大小都是75，但Rack4的effective size只有75，并非150，因为这两个block具有相同的内容，他们互为副本。

考虑到rack的计算方式就是将rack看作跟node同等的位置，计算effective size之后，可得如下顺序：

1. Rack 2 (250)

h4 (150)
h3 (100)

2. Rack 1 (175)

h1 (175)
h2 (100)

3. Rack 3 (150)

h5 (150)
h6 (150)

4. Rack 4 (75)

h7 (75)
h8 (75)

因此，优先顺序是h4 > h3 > h1 > h2 > h5 > h6 > h7 > h8。

不考虑rack的方法更简单，节点排序的结果为：

h1 (175)
h4 (150)
h5 (150)
h6 (150)
h2 (100)
h3 (100)
h7 (75)
h8 (75)

其优先顺序为 h1 > h4 > h5 > h6 > h2 > h3 > h7 > h8。

更多细节参见Hadoop的测试用例： https://github.com/apache/hadoop-common/blob/release-1.0.4/src/test/org/apache/hadoop/mapred/TestGetSplitHosts.java

双向链表

CombineFileInputFormat选择了另外的方式保持locality的性质，它使用双向链表将block串在一起，之后先是逐节点扫描block，再次是逐rack扫描node，最后剩下来的“残片”丢到最后一堆处理，这样最大限度的保证locality，并且维持partition的大小尽可能平衡。缺点就是出现跨block的文件的情况下，同一个文件的block很有可能落到不同的partition中。这里的陷阱是，在Hadoop老API中，isSplitable()函数不能起到保持同一个文件内容在同一个partition中的作用，而在新API中反倒有这个功能了。各位使用的时候可要睁大眼睛。顺便说一句，新API虽然加入了这个功能，但是不切分文件的情况下，在保持locality和partition均衡的性质上可就没老API好了。无论如何，这些trade-off总是逃不掉的。

Double linked lists sweep for constructing split - CombineFileInputFormat.java
// mapping from a rack name to the list of blocks it has
HashMap<String, List<OneBlockInfo>> rackToBlocks =
new HashMap<String, List<OneBlockInfo>>();
// mapping from a block to the nodes on which it has replicas
HashMap<OneBlockInfo, String[]> blockToNodes =
new HashMap<OneBlockInfo, String[]>();
// mapping from a node to the list of blocks that it contains
HashMap<String, List<OneBlockInfo>> nodeToBlocks =
new HashMap<String, List<OneBlockInfo>>();
...
// process all nodes and create splits that are local
// to a node. 
for (Iterator<Map.Entry<String,
List<OneBlockInfo>>> iter = nodeToBlocks.entrySet().iterator();
iter.hasNext();) {

如何读取

聊了这么多，我们总算清楚MapReduce类的程序如何在组织split的时候保持良好的block的本地性了。我们很开心的获得其中的“最佳地点”，并将这个信息传递给spark的partition。下一步工作就是Spark根据“最佳地点”，如上例中的节点h4，启动worker上的处理进程/线程开始读取数据了。现在h4启动了spark的executor开始处理split中的block。但是稍等，h4怎么知道从哪个节点上获得每个block呢？要知道，每个block有三个副本呢！具体读取该block的哪个副本这个信息并未传递给partition。

从RecordReader开始，我们再来一步步还原数据读取的过程。有了上面的基础，这次的旅程应该很快了。以笔者写的BatchFileRecordReader为例：

Constructer of BatchFileRecoderReader - BatchFileRecorderReader.java
    public BatchFileRecordReader(
            CombineFileSplit split,
            Configuration conf,
            Reporter reporter,
            Integer index)
            throws IOException {
        path = split.getPath(index);
        startOffset = split.getOffset(index);
        pos = startOffset;
        end = startOffset + split.getLength(index);

        FileSystem fs = path.getFileSystem(conf);
        fileIn = fs.open(path);
        fileIn.seek(startOffset);

        totalMemory = Runtime.getRuntime().totalMemory();
    }

在上面的代码中，我们从split中拿到了path，注意这里的path是当前文件路径，可不是block路径。有了它，我们可以拿到一个fileIn，其类型为FSDataInputStream。之后我们seek到这个block开始的位置，称作startOffset。等一下，我们根本没用到“最佳地点”的信息，是不是很奇怪呢？我们之前花了大量力气拿到的信息，这里没有用到。

这里需要记住的是，目前为止我们获得的split信息只是为每个block分配了计算节点，仅此而已。如何读取由别的代码控制。那么再来看看FSDataInputStream，这里也没有太多东西，只有一些看上去没啥用的代码。

FSDataInputStream.java
public class FSDataInputStream extends DataInputStream
    implements Seekable, PositionedReadable, Closeable {

    public FSDataInputStream(InputStream in)
        throws IOException {
        super(in);
        if( !(in instanceof Seekable) || !(in instanceof PositionedReadable) ) {
            throw new IllegalArgumentException(
            "In is not an instance of Seekable or PositionedReadable");
        }
    }

    public synchronized void seek(long desired) throws IOException {
        ((Seekable)in).seek(desired);
    }
}

好吧，我们另觅他途。注意之前fileIn是由fs.open()这个调用获得的，在HDFS的场景下，这个fs其实是DistributedFileSystem，即常说的DFS。结果我们在DFS中找到了由DFSInputStream包装成的FSDataInputStream，前者在DFSClient中实现。我们所期待的函数是blockSeekTo()，这个函数负责给定偏移量之后找到合适的block。之后它会找到最优的DataNode，并从中读取数据。

Find an appropriate block and select a DataNode - DFSClient.java
    DatanodeInfo chosenNode = null;
    int refetchToken = 1; // only need to get a new access token once
    while (true) {
        //
        // Compute desired block
        //
        LocatedBlock targetBlock = getBlockAt(target, true);
        assert (target==this.pos) : "Wrong postion " + pos + " expect " + target;
        long offsetIntoBlock = target - targetBlock.getStartOffset();

        DNAddrPair retval = chooseDataNode(targetBlock);
        chosenNode = retval.info;
        InetSocketAddress targetAddr = retval.addr;
    }

这其中最重要的函数是chooseDataNode()，它非常简单，只是从一个DataNode列表中选择第一个node。如果第一个node连接不上，再找第二个，依次类推。bestNode()函数中的注释说这里的node列表已经按照优先规则排序好的了。很奇怪，这是在什么时候排序的呢？

实际上，在这个文件首次打开的时候就已经排序好了。参见openInfo()函数，它调用callGetBlockLocations()函数进行排序。后者在NameNode中的getBlockLocations()中查询信息。可以看到它调用了clusterMap中的pseudoSortByDistance()进行排序。至此，我们获得了Hadoop为应用保持数据本地性的全景。

Get block locations and sorted in the priority order - FSNamesystem.java
    LocatedBlocks getBlockLocations(String clientMachine, String src,
        long offset, long length) throws IOException {
        LocatedBlocks blocks = getBlockLocations(src, offset, length, true, true);
        if (blocks != null) {
            //sort the blocks
            DatanodeDescriptor client = host2DataNodeMap.getDatanodeByHost(
                clientMachine);
            for (LocatedBlock b : blocks.getLocatedBlocks()) {
                clusterMap.pseudoSortByDistance(client, b.getLocations());
            }
        }
        return blocks;
    }

结语

分布式数据并行环境下，保持数据的本地性是非常重要的内容，事关分布式系统性能高下。要想更好的了解Spark是怎么运作的，输入也许是很重要的一个环节。举一个小例子，你或许有心情在一台不错的机器上使用Spark处理100GB的数据。按理说这不应算作多大的应用场景，但如果不仔细调整一下你的输入的话，你会发现Spark甚至会在这台机器上切分上千个partition来并行处理这份数据。而这上千个partition随便来一个shuffle造成的百万量级的shuffle数据交换会把Spark性能拖死。实际上，调用Hadoop的API访问本地磁盘的默认块大小为32MB，据其分块策略，当然会产生上千个partition。另外，如果你本地是一堆小文件，如LDA的语料库，你会发现Spark甚至会为每个文件分配一个或多个partition！所以，这下你应该知道为什么有时简单的Spark程序也会非常慢了吧。

本文为了解决LDA小文件输入的问题，一步步揭开HDFS与Spark的数据通道的故事。总结来看，为了分布式使用各个机器，HDFS读取的时候将数据分成了各个分块，为了防止straggler的产生，MapReduce的读取模块会尽量保证各个分块在每台机器上的大小和个数均衡。为了保证较好的locality，Spark获取preferredLocation信息，尽量保证在临近的机器上读取所需的数据。为了合理读取小文件，CombineFileInputFormat合理安排小文件分片，既要保证数据在各个分块中均衡，又不能切断单个文件。为了保证HDFS与Spark之间的高效数据通道，正可谓”无所不用其极”。

作者简介

尹绪森，Intel实习生，熟悉并热爱机器学习相关内容，对自然语言处理、推荐系统等有所涉猎。目前致力于机器学习算法并行、凸优化层面的算法优化问题，以及大数据平台性能调优。对Spark、Mahout、GraphLab等开源项目有所尝试和理解，并希望从优化层向下，系统层向上对并行算法及平台做出贡献。

感谢包研对本文的策划。

tkinter中text属性_tkinter属性（总结）俠之大者 tkinter中text属性
一、主要控件1.Button按钮。类似标签,但提供额外的功能,例如鼠标掠过、按下、释放以及键盘操作事件2.Canvas画布。提供绘图功能(直线、椭圆、多边形、矩形)可以包含图形或位图3.Checkbutton选择按钮。一组方框,可以选择其中的任意个(类似HTML中的checkbox)4.Entry文本框。单行文字域,用来收集键盘输入(类似HTML中的text)5.Frame框架。包含其他组件的纯容
python创建按钮command怎么用_python图形界面tk 1.4 按钮（Button） weixin_39955825
创建按钮和设置它们的文本属性#!/usr/bin/envpython#-*-coding:utf-8-*-importtkinterastkfromtkinterimportttkwin=tk.Tk()win.title("PythonGUI")#添加标题aLabel=ttk.Label(win,text="ALabel")#创建一个标签,text：显示标签的内容aLabel.grid(colum
python中graphviz 参数_python graphviz的使用(画图工具) weixin_39900608 python中graphviz 参数
一、graphviz安装及配置graphviz实际上是一个绘图工具，可以根据dot脚本画出树形图等。1、windows安装配置环境变量：把bin文件夹的路径加入到环境变量path里安装python的graphviz模块：pipinstallgraphviz2、linuxcentos7安装yum下载graphviz软件：yum-yinstallgraphviz安装python的graphviz模块：
pycharm2021.1 突然打不开解决办法以及破解方法小树苗啦 pycharm
之前pycharm用得好好的，突然打不开了，从网上找了各种方法，都不能解决，最后通过删除pycharm.vmoptions文件解决，具体方法如下：1.找到存放pycharm.vmoptions的路径，一般是在/Users/{替换成自己的用户名}/Library/ApplicationSupport/JetBrains/PyCharm2021.1注：cd到ApplicationSupport时提示找
探秘IO分布式模块设计：让大数据处理更高效清水湾落车分布式
一、引言随着互联网的飞速发展，大数据、云计算、人工智能等技术逐渐成为时代的主流。在这个数据爆炸的时代，如何高效地处理海量数据成为企业面临的重大挑战。IO分布式模块设计作为一种有效的解决方案，越来越受到关注。本文将带您了解IO分布式模块设计的基本概念、原理及其在实际应用中的优势。二、什么是IO分布式模块设计？IO分布式模块设计，是指将数据存储、数据处理、数据传输等IO操作进行分布式处理的一种设计方法
C++11 新特性总结 weixin_30955617 c/c++数据结构与算法
前言转载请注明出处，感谢！C++11的新特性1变量和基本类型1.1longlong类型扩展精度浮点数，10位有效数字1.2列表初始化初始化的几种不同形式，其中用花括号来初始化变量称为列表初始化；比如：inti=0;inti={0};inti{0};inti(0);需要注意的是，当用于内置类型的变量时，这种初始化形式有一个重要的特点：如果我们使用初始化且初始值存在丢失信息的风险，则编译器报错；例如：
java内购_java后台接入IOS内购李三点儿 java内购
参考文档说明后台处理：将购买凭证(接收IOS端)发送到苹果的服务器验证，并将验证结果返回给客户端。代码工具类importjavax.net.ssl.*;importjava.io.BufferedOutputStream;importjava.io.BufferedReader;importjava.io.InputStream;importjava.io.InputStreamReader;im
通达信5分钟.lc5和.lc1文件格式 weixin_30767835 python 数据结构与算法 c#
一、通达信日线*.day文件文件名即股票代码每32个字节为一天数据每4个字节为一个字段，每个字段内低字节在前00~03字节：年月日,整型04~07字节：开盘价*100，整型08~11字节：最高价*100,整型12~15字节：最低价*100,整型16~19字节：收盘价*100,整型20~23字节：成交额（元），float型24~27字节：成交量（股），整型28~31字节：上日收盘*100,整型二、通
2018年年度总结 weixin_30514745 前端后端 php ViewUI
首先先看2017年定下的小目标：PHP基础知识的再次学习。（今年在工作的时候也发现了这个问题，所以将PHP基础知识再学习了一遍，对一些容易混淆的概念进行了学习。这个目标算是实现了80%吧）对前端新特性的了解。（因为之前在太原工作的时候，前端后端都干，所以当时觉得前端和后台都很重要，今年在北京主要干的是后端的工作，所以这个并没有去进行了解）python的学习。（这个也没有进行学习，了解了也没有用，今
大带宽业务都包含哪些内容？ wanhengidc 服务器运维
大带宽服务器通常是指100Mbps以上的服务器，让企业能够快速稳定的传输数据信息，其中大带宽业务就是指需要高速数据传输和处理能力的业务，一般会包含对大量数据的传输和存储，需要高带宽的网络连接来支持。大带宽业务具体都包含了哪些方面呢？大带宽业务包括大规模数据传输、云计算和远程存储等内容，大规模数据传输是涉及到大文件的传输或者是大数据集的传输。同时在云计算中会涉及到云服务器和虚拟化环境的应用，需要有着
详解类与对象——继承 tanactor c++
（^_^）一.基本语法继承的好处：可以减少重复的代码classA:publicB;A类称为子类或派生类B类称为父类或基类派生类中的成员，包含两大部分：一类是从基类继承过来的，一类是自己增加的成员。从基类继承过过来的表现其共性，而新增的成员体现了其个性。//公共页面classBasePage{public:voidheader(){cout<<"首页、公开课、登录、注册...（公共头部）"<
直装永久授权，最新专业版集成VB7 纪元A梦资源分享科技电脑软件 Windows软件 office软件
无论是学生、教师还是职场工作人员，办公软件在日常工作和学习中都是不可或缺的重要工具。在众多办公软件中，微软的MicrosoftOffice和金山软件的WPSOffice最常用的选择。对于许多使用要求不高的小伙伴而言，WPSOffice因其易用性和免费版本的优势，成为了他们的首选。此外，WPS的专业版相较于免费版没有广告，提供了更强大的功能，满足了更多用户的需求。这使得WPSOffice在办公软件市
Java环境变量的设置水题检测鸟 Java从零开始 java 开发语言
JAVA环境变量的设置1.设置环境变量的作用2.如何设置环境变量2.1找到系统的环境变量2.2设置环境变量1.设置环境变量的作用说明：在Java中设置环境变量主要是为了能够让Java运行时能够找到Java开发工具包（JDK）的安装位置以及相关的库文件。以Windows为例，主要的环境变量包括JAVA_HOME,Path和有时需要的CLASSPATH，以下是具体步骤：2.如何设置环境变量2.1找到系
【技巧】优雅的使用 pnpm 单体仓库构建一个高效、灵活的多项目架构天下无贼！前端必备技能架构前端开发语言 vue.js react.js node.js
单体仓库（Monorepo）搭建指南：从零开始单体仓库（Monorepo）是一种将多个相关项目集中管理在一个仓库中的开发模式。它可以帮助开发者共享代码、统一配置，并简化依赖管理。本文将通过实际代码示例，详细介绍如何使用pnpm搭建一个单体仓库。1.创建项目目录mkdirxxx&&cdxxxmkdirmy-monorepo：mkdir是“makedirectory”的缩写，用于创建一个新的目录。xx
C++ 线程安全之互斥锁 __雨夜星辰__ c++开发语言学习笔记 visual studio 多线程
目录线程安全1.原子性2.可见性3.顺序性互斥锁1.mutex类2.timed_mutex类3.recursive_mutex类4.lock_guard类线程安全线程安全是多线程编程是的计算机程序代码中的一个概念。在拥有共享数据的多条线程并行执行的程序中，线程安全的代码会通过同步机制保证各个线程都可以正常且准确的执行，不会出现数据污染等意外情况。上述是百度百科给出的一个概念解释。换言之，线程安全就
计算机网络基础知识点简记 UV Youth 计算机网络网络
OSI七层网络模型TCP/IP四层网络模型模型图解IP地址与子网划分基础概念IPV4与IPV6的区别子网划分的目的子网掩码的使用CIDR表示法路由器与交换机TCP与UDP协议HTTP与HTTPS协议DNS域名系统网络攻击与防御机制网络安全协议网络性能优化云计算基础
已完结：C语言经典100题目（满足所有C程序基础） ChillCoding c语言开发语言
C练习实例1-组无重复数字的数题目：有1、2、3、4四个数字，能组成多少个互不相同且无重复数字的三位数？都是多少？程序分析：可填在百位、十位、个位的数字都是1、2、3、4，组成所有的排列后再去掉不满足条件的排列。#include#defineMAX5intmain(){inti,j,k;intcount=0;for(inti=1;i#defineLAC100000//将10w定义为一个常用数int
JavaSE基础（4）——面向对象编程部分 UV Youth JavaSE基础 java 开发语言
目录1.面向对象与面向过程2.类与对象的关系3.面向对象思想开发步骤4.类的定义5.创建对象6.属性7.方法的定义及调用8.形参与实参9.方法重载10.构造器11.this关键字12.匿名块13.包管理14.继承15.方法的重写（Override）16.super关键字17.多态18.面向对象类型转换20.封装——高内聚低耦合21.修饰符22.设计模式23.单例模式1.面向对象与面向过程面向对象：
leetcode14. 最长公共前缀 Cider瞳力扣刷题数据结构算法 golang c++面试 leetcode go
leetcode14.最长公共前缀编写一个函数来查找字符串数组中的最长公共前缀。如果不存在公共前缀，返回空字符串“”。最长公共前缀解析题目分析该问题要求找到一组字符串中的最长公共前缀。公共前缀是指在一个字符串集合中，所有字符串都共同拥有的起始子串。算法介绍首先，将第一个字符串作为公共前缀的初始候选。然后，逐个与剩余的字符串进行比较，更新公共前缀。在比较两个字符串时，找到它们共有的最长前缀。算法步骤
万字详解 | SQL 多表联合查询方法，收藏直接起飞！花辞树sy sql 数据库 mysql
为什么需要多张数据库表进行查询呢？因为如果设计成一张表会造成数据冗余，造成数据库空间浪费，然而有时我们需要将多张表的数据整合并且查询出来，这时就需要通过表之间的主外键关联在一起进行查询。查看获取表结构信息，根据表结构信进行连表查询mysql> use school;mysql> show tables;+------------------+| Tables_in_school |+-------
Python调用讯飞星火大模型v3.x api接口使用教程2.0（python sdk，支持图片理解） IT大头 NLP实战 python 人工智能语言模型 nlp chatgpt
前言本篇文章是针对星火大模型api接口使用的新篇章，本次主要是介绍对于pythonSDK使用，以及图片理解等新功能。相对于上篇博客中的使用方法，本次的教程相对来说更简单方便。话不多说，直接享用。1、获取api接口的ID和key参考上篇文章：https://blog.csdn.net/qq_45156060/article/details/134072123?spm=1001.2014.3001.5
Hive SQL 分组与连接操作详解大数据深度洞察 Hive 数据库 hive 大数据数据仓库 sql
目录分组GroupBy语句1.案例实操Having语句1.having与where不同点2.案例实操Join语句等值Join1.案例实操表的别名1.好处2.案例实操内连接左外连接右外连接满外连接多表连接1.创建位置表2.导入数据3.多表连接查询笛卡尔集1.笛卡尔集会在下面条件下产生2.案例实操联合（union&unionall）1.union&unionall上下拼接2.案例实操分组GroupBy
关于Linux（Centos7）的静态IP地址配置操作为已己任 Linux 配置篇 linux centos 网络
Centos7-静态IP地址设置1、内容概述2、环境介绍3、操作步骤3.1、编辑网口配置文件3.2、进入网口配置文件3.3、修改网口配置文件内容3.3.1、静态IP设置3.3.2、自动激活网络3.4、添加配置内容3.4.1、添加IP信息3.4.2、添加网关信息3.4.3、添加掩码信息3.4.4、添加DNS地址3.5、操作结果内容4、重启网络5、检查修改情况6、检查网络情况7、总结1、内容概述关于在
（14）Chainlink VRF（可验证随机函数）详细介绍 xluo1715 solidity chainlink VRF 区块链 DAPP web3
ChainlinkVRF（VerifiableRandomFunction）是Chainlink提供的一种去中心化随机数生成服务，专为智能合约设计。它通过加密技术生成随机数，并确保随机数的不可预测性和可验证性。以下是ChainlinkVRF的详细介绍，包括其作用、用法、工作原理以及实际应用。1.ChainlinkVRF的作用ChainlinkVRF的主要作用是为智能合约提供可验证的、不可预测的随机
微信小程序连接蓝牙 xluo1715 微信小程序小程序前端 javascript vue
准备工作：1：需要一个蓝牙板子和串口软件（卖蓝牙板子的商家会提供），手机上需要蓝牙调试助手（为了测试蓝牙是否正常连接）2：蓝牙板通过usb插入到电脑端3：安装好串口调试工具并打开连接上蓝牙4：打开手机蓝牙调试助手，连接上后进行读写操作，确认已正常连接通信准备工作完结！直接上代码第一步：初始化蓝牙设备，onShow里面调用或者onLoad里面调用都可，看你的需求场景initBlue(){wx.ope
钉钉小程序、文件上传（excel、ppt、word等） xluo1715 钉钉（小程序和 H5）钉钉小程序 excel ppt pdf word
钉钉小程序上传下载（反显）文件（如excelpptworld等文件）前端处理（需要后端配合加上传下载的权限）要上传excelpptworld等文件还需要借助钉盘实现，我就不废话了，直接上代码axml结构,红框中的为钉盘文件上传和预览其余的是兼容图片上传和PC端上传的文件，这里提一嘴，如果是PC端上传到自己服务器的文件要想在小程序里显示，需要后端把服务器的文件先传到钉盘，前端再通过钉盘下载，如果是小
python glob模块蘑菇棒棒哒 python
0.摘要：glob是实用的文件名匹配库，glob.glob()函数将会匹配给定路径下的所有pattern，并以列表形式返回。用它可以查找符合特定规则的文件路径名。查找文件只用到三个匹配符：””,匹配0个或多个字符；“?”,”?”匹配单个字符；“[]”：”[]”匹配指定范围内的字符，如：[0-9]匹配数字；注意：如果文件名以“点”开头，无法被'’和'?'匹配，如：".card.gif"glob方法：
【Python】已解决ERROR: Could not find a version that satisfies the requirement 云天徽上 python运行报错解决记录 python 开发语言 tensorflow 人工智能 numpy
成功解决“ERROR:Couldnotfindaversionthatsatisfiestherequirement”错误的全面指南一、引言在Python开发中，经常需要通过pip工具来安装各种依赖包。然而，有时在尝试安装某个包时，可能会遇到“ERROR:Couldnotfindaversionthatsatisfiestherequirement”的错误。这个错误表明pip无法找到与你的请求匹配
Jmeter进阶篇（33）报错Error occurred during initialization of VM Could not reserve enough space…的解决方案綦枫Maple Jmeter性能测试大全 jmeter
报错现象在使用Jmeter进行性能测试等操作时，可能会遇到各种各样的问题，其中一个比较常见的报错是在启动Jmeter的时候出现：ErroroccurredduringinitializationofVMCouldnotreserveenoughspacefor1048576KBobjectheaperrorlevel=1请按任意键继续...这个报错可能会让不少新手感到困惑，甚至会影响到性能测试工作
球球大作战Python单机版本酷码编程接单空间 pygame python oracle django tornado fastapi
球球大作战是一个多人在线游戏，玩家需要控制一个小球，通过吞食地图上的小点来增加自己的体积，同时避免被其他更大的球体吞噬。下面是一个简化版的球球大作战游戏，使用Python语言和pygame库来实现。在这个简化版中，我们将只使用控制台输入输出来模拟游戏。首先，你需要安装pygame库，可以使用以下命令安装：pipinstallpygame然后，你可以使用以下代码来创建一个简化版的球球大作战游戏：im
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟