Joel Jin

Hadoop之MRjob入门

一、mrjob的安装
Hadoop 的各 Python 框架对比
使用 mrjob 实现词组统计
- **启动 Hadoop 集群**
- **启动 hadoop 集群:**
代码实践
mrjob 多种运行方式
实战模拟一
实战模拟二
实战模拟挑战
实验总结

1.1 实验内容
本实验将通过 python 中 mrjob 模块来调用 hadoop 处理数据。

mrjob 是用来写能在 hadoop 运行的 python 程序的最简便方法，通过本次实验，你可以初步入门 mrjob，轻松编写 mr 来使用 hadoop。

1.2 实验知识点

Python MRJob 模块的安装
Hadoop Python 各模块介绍
使用 MRJob 实现文本统计
Python MRJob 的运行方式
重写 MRJob 函数实现复杂数据处理

1.3 效果展示

该展示数据含义是通过 mrjob 将每个用户（cuid）看过哪些电影（vid）进行统计并输出。

"45f218b28d1949"   ["09", "05", "12", "06", "02"]
"5E79247F1098C8"   ["14"]
"622291a28c344a"   ["12", "06", "15", "10", "01"]

1.4 实验环境

Hadoop-2.7.3
python3.5
mrjob v0.5.10

一、mrjob的安装

mrjob 可以通过 pip 直接安装，也可以通过下载源码通过 setup.py 安装，可参考 mrjob 安装说明。

本实验中，使用 shiyanlou 账户通过 sudo 权限进行安装。

示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。

使用 pip 安装 mrjob 的指令如下：

$ sudo python3 -m pip install mrjob

验证是否安装成功。首先输入下面的命令打开 python 交互式解释器：

$ python3

导入 mrjob 包，如果没有错误则说明安装正确。

import mrjob

Hadoop 的各 Python 框架对比

Hadoop Streaming

提供了使用其他可执行程序来作为 Hadoop 的 mapper 或者 reduce 的方式，必须使用规定的语义从标准输入读取数据，然后将结果输出到标准输出。直接使用 Streaming 的一个缺点是当 reduce 的输入是按 key 分组的时候，仍然是一行行迭代的，必须由用户来辨识 key 与 key 之间的界限。

mrjob

开源的 Python 框架，封装 Hadoop 的数据流，并积极开发 Yelp 的。由于 Yelp 的运作完全在亚马逊网络服务，mrjob 的整合与 EMR 是令人难以置信的光滑和容易（使用 boto 包）。

dumbo

同样使用 Hadoop 流包装的框架。dumbo 出现的较早，但由于缺少文档，造成开发困难。这也是不如 mrjob 的一点。dumbo 通过 typedbytes 执行序列化，能允许更简洁的数据传输，也可以更自然的通过指定 JavaInputFormat 读取 SequenceFiles 或者其他格式的文件

hadoopy

是一个兼容 dumbo 的 Streaming 封装，也使用 typedbytes 序列化数据，并直接把 typedbytes 数据写到 HDFS。它有一个很棒的调试机制，在这种机制下它可以直接把消息写到标准输出而不会干扰 Streaming 过程。它和 dumbo 很相似，但文档要好得多。

pydoop

与其他框架相比，pydoop 封装了 Hadoop 的管道（Pipes），这是 Hadoop 的 C++ API。正因为此，该项目声称他们能够提供更加丰富的 Hadoop 和 HDFS 接口，以及一样好的性能。需要注意的是所有的输入输出都必须是字符串。

其他

happy、Disco、octopy、Mortar、Luigi 等。

使用 mrjob 实现词组统计

使用 mrjob 进行编程，需要将用到的模块 import 进来，在实现处理逻辑的时候，只需继承（subclass）MRjob 类，并覆盖（override）mapper, combiner, reducer 等方法即可。

在编写多步任务（Multi step job）时，需要覆盖 steps 方法，并在 step 中返回一个由 mapper, combiner, reducer 等组成的 list。

启动 Hadoop 集群

$ su -l hadoop
# 密码：hadoop

在 /opt/hadoop-2.7.3/etc/hadoop/core-site.xml 文件中添加如下代码用于配置 Hadoop 临时目录：


    hadoop.tmp.dir</name>
    /home/hadoop/tmp</value>
</property>

启动 hadoop 集群:

# 格式化 namenode
$ hdfs namenode -format
$ /opt/hadoop-2.7.3/sbin/start-dfs.sh

$ /opt/hadoop-2.7.3/sbin/start-yarn.sh

执行完成后，输入下面的命令查看进程是否启动成功：

$ jps

创建所需文件
在/home/hadoop目录下，新建pyhadoop文件夹，所有数据及代码放在该目录下。

$ cd /home/hadoop
$ mkdir pyhadoop && cd pyhadoop

在pyhadoop下新建data目录，存放小说《教父》数据。我们第一个实例是统计《教父》各个单词出现的次数。

$ mkdir data && cd data

小说《教父》下载目录https://labfile.oss.aliyuncs.com/courses/1167/Godfather.txt，通过wget下载。

$ wget https://labfile.oss.aliyuncs.com/courses/1167/Godfather.txt

代码实践

进入到 /home/hadoop/pyhadoop 目录下，新建 mymrjob.py，我们将在这个文件中实现文本中词组统计。

$ cd /home/hadoop/pyhadoop
$ touch mymrjob.py

编辑 mymrjob.py 文件，导入所需要的模块：

import os
import sys
from mrjob.job import MRJob
from mrjob.step import MRStep
from mrjob.protocol import RawValueProtocol,JSONProtocol,ReprProtocol
import traceback

我们将设计一个 WordCount 类，继承（subclass）MRjob 类:

class WordCount(MRJob):

这个类里面我们需要重写mapper、reducer函数，如果是多步处理，还需要重写step。

#覆盖mapper函数
def mapper(self, _, line):
    #将每行输入拆分为单词list`在这里插入代码片`
    linearry = line.split()
    for word in linearry:
        #对每一个单词，进行输出
        yield word, 1

mapper() 函数接收传入的数据，这里是Godfather.txt里面的每行句子。通过split()函数将句子拆解成单词，然后再通过yield将处理结果输出或传入下面流程。如果此时直接运行脚本的话，会将所有的 word 以"word, 1"的形式输出出来，不过这对于我们来说没有任何意义，我们继续写reducer()函数。

#覆盖reducer函数
def reducer(self, key, value):
    #对mapper输出的值进行sum求和操作
    yield key,sum(value)

reducer() 函数的参数是 key、value，是 mapper 中传入的值，我们将 value 根据 key 值进行 sum 求和的操作，就实现了Godfather.txt中词组统计的目的。

完成了WordCount中 mapper、reducer 的重写，别忘了实现 main 函数。

if __name__ == '__main__':
    WordCount.run()

最后，运行你写的 mymrjob 脚本实现词组统计。

$ python3 mymrjob.py -r hadoop data/Godfather.txt>1.txt

运行时的参数是python3 + 脚本 + “-r 运行方式” + 数据源 > 输出。数据源可以是本地数据，也可以是 hdfs 上数据，输出可以指定目录。数据源如果是本地，mrjob 会自动上传 hdfs 集群，创建临时文件，待程序运行完成，会自动删除。

打开1.txt文件，我们可以看到 hadoop 统计后的数据。如下：

······
"you'll"        36
"you're"        104
"you've"        21
"you,"             66
"you,\""        23
"you."             65
"you.\""        34
"you:"             1
"you?"             10
"you?\""        33
······

接下来，我们介绍一下 mrjob 的各种运行方式。

mrjob 多种运行方式

1、local 本地测试，直接在本地运行代码，检测代码是否有 bug；
2、inline 内嵌模式，在本地模拟 hadoop 集群上运行，特点是调试方便，启动单一进程模拟任务执行状态及结果，Mrjob 默认以内嵌方式运行（需要着重注意的是 inline 与 hadoop 最终 reducer 的全局排序与局部排序的区别）；
3、hadoop 集群模式，在 hadoop 集群上运行；
4、emr Amazon EMR 模式，参照 aws；
5、dataproc Google Cloud Platform 模式，参照谷歌云平台 Google Cloud Platform。

实战模拟一

我们模拟一份用户观影的日志，日志是经过处理的 json 格式，下载地址是https://labfile.oss.aliyuncs.com/courses/1167/video.log。在 pyhadoop 下新建 log 目录，将 video.log 放入该目录下。

# 进入文件夹
$ cd /home/hadoop/pyhadoop

# 创建文件夹并下载文件
$ mkdir log && cd log
$ wget https://labfile.oss.aliyuncs.com/courses/1167/video.log

需要编写的代码文件用下面的命令创建：

# 回到上一级目录创建代码文件
$ cd /home/hadoop/pyhadoop
$ touch pyhd_1.py

我们需要实现的目标是通过这份日志来统计每部电影的热度，即每部电影有多少人观看过。

{
     "user_id": "5E79247F1098C82E436B5980AF98D67D", "action": 0, "timestamp": 1534551357, "data": "01"}
{
     "user_id": "45f218b28d19492a94c2fb1853351b91", "action": 0, "timestamp": 1535673718, "data": "04"}
{
     "user_id": "5E79247F1098C82E436B5980AF98D67D", "action": 0, "timestamp": 1535750303, "data": "10"}
{
     "user_id": "5E79247F1098C82E436B5980AF98D67D", "action": 0, "timestamp": 1534970155, "data": "03"}
{
     "user_id": "45f218b28d19492a94c2fb1853351b91", "action": 1, "timestamp": 1534902204, "data": "12"}
{
     "user_id": "c6a63477030b4c048797b128f9a94306", "action": 1, "timestamp": 1535811065, "data": "02"}
{
     "user_id": "45f218b28d19492a94c2fb1853351b91", "action": 1, "timestamp": 1535627866, "data": "02"}
{
     "user_id": "5E79247F1098C82E436B5980AF98D67D", "action": 1, "timestamp": 1535077655, "data": "07"}
{
     "user_id": "5E79247F1098C82E436B5980AF98D67D", "action": 0, "timestamp": 1534477688, "data": "04"}
{
     "user_id": "622291a28c344a059428cb9112ff5933", "action": 1, "timestamp": 1535869832, "data": "01"}
{
     "user_id": "5E79247F1098C82E436B5980AF98D67D", "action": 0, "timestamp": 1535692131, "data": "12"}
{
     "user_id": "c6a63477030b4c048797b128f9a94306", "action": 0, "timestamp": 1534436264, "data": "10"}
{
     "user_id": "5E79247F1098C82E436B5980AF98D67D", "action": 0, "timestamp": 1535413188, "data": "09"}
{
     "user_id": "622291a28c344a059428cb9112ff5933", "action": 0, "timestamp": 1535768055, "data": "10"}
{
     "user_id": "45f218b28d19492a94c2fb1853351b91", "action": 0, "timestamp": 1535187021, "data": "05"}
{
     "user_id": "45f218b28d19492a94c2fb1853351b91", "action": 0, "timestamp": 1535757675, "data": "04"}
{
     "user_id": "45f218b28d19492a94c2fb1853351b91", "action": 0, "timestamp": 1534546048, "data": "06"}
{
     "user_id": "5E79247F1098C82E436B5980AF98D67D", "action": 1, "timestamp": 1535732403, "data": "14"}
{
     "user_id": "5E79247F1098C82E436B5980AF98D67D", "action": 0, "timestamp": 1535235322, "data": "07"}
{
     "user_id": "c6a63477030b4c048797b128f9a94306", "action": 0, "timestamp": 1534710059, "data": "13"}
{
     "user_id": "5E79247F1098C82E436B5980AF98D67D", "action": 1, "timestamp": 1535001990, "data": "15"}
{
     "user_id": "622291a28c344a059428cb9112ff5933", "action": 1, "timestamp": 1535275346, "data": "10"}
{
     "user_id": "5E79247F1098C82E436B5980AF98D67D", "action": 0, "timestamp": 1535111069, "data": "07"}
{
     "user_id": "45f218b28d19492a94c2fb1853351b91", "action": 1, "timestamp": 1535246953, "data": "06"}
{
     "user_id": "5E79247F1098C82E436B5980AF98D67D", "action": 1, "timestamp": 1535553547, "data": "04"}
{
     "user_id": "5E79247F1098C82E436B5980AF98D67D", "action": 0, "timestamp": 1535870611, "data": "14"}
{
     "user_id": "5E79247F1098C82E436B5980AF98D67D", "action": 1, "timestamp": 1535233150, "data": "06"}
{
     "user_id": "c6a63477030b4c048797b128f9a94306", "action": 0, "timestamp": 1535447569, "data": "05"}
{
     "user_id": "5E79247F1098C82E436B5980AF98D67D", "action": 0, "timestamp": 1534718331, "data": "04"}
{
     "user_id": "622291a28c344a059428cb9112ff5933", "action": 1, "timestamp": 1534862112, "data": "15"}
{
     "user_id": "5E79247F1098C82E436B5980AF98D67D", "action": 1, "timestamp": 1534111573, "data": "07"}
{
     "user_id": "5E79247F1098C82E436B5980AF98D67D", "action": 0, "timestamp": 1534798913, "data": "10"}
{
     "user_id": "5E79247F1098C82E436B5980AF98D67D", "action": 0, "timestamp": 1534553499, "data": "03"}
{
     "user_id": "622291a28c344a059428cb9112ff5933", "action": 0, "timestamp": 1534887670, "data": "12"}
{
     "user_id": "5E79247F1098C82E436B5980AF98D67D", "action": 1, "timestamp": 1534812695, "data": "04"}
{
     "user_id": "c6a63477030b4c048797b128f9a94306", "action": 0, "timestamp": 1534760524, "data": "12"}
{
     "user_id": "622291a28c344a059428cb9112ff5933", "action": 1, "timestamp": 1534408381, "data": "12"}
{
     "user_id": "5E79247F1098C82E436B5980AF98D67D", "action": 0, "timestamp": 1535158819, "data": "04"}

日志参数的含义如下：

1、user_id：用户 id，观影用户的唯一标识；
2、action：用户行为，0表示用户浏览电影信息，并未进行观看，1表示用户观看了电影；
3、timestamp：时间戳，表示用户行为的发生时间；
4、data：电影 id，被操作的电影 id。

实现思路

首先我们通过 mapper 将输入的每条日志转为电影id:1格式的key:value值。然后在通过 reducer 针对每个 key（电影）进行 sum 的求和操作。最后就能统计出每部电影的观看用户数量。

代码实现

mapper 的代码如下：

def mymapper(self, _, line):
    #真实日志数据会有bad case，通过try排除bad case
    try:
        #将输入字符串转为json
        jsline = json.loads(line)
        cuid = jsline["user_id"]
        action = jsline["action"]
        video = jsline["data"]
        #只有action=1即用户观看电影时，才会统计
        if action == 1:
            yield video,1
    except Exception:
        pass

reducer 的代码如下：

def myreducer(self, key, value):
    #求知操作，统计每部电影观看人数
    yield key,sum(value)

pyhd_1.py 的完整代码如下：

# -*- coding:utf-8 -*-
#!/usr/bin/python3

import os
import sys
from mrjob.job import MRJob
from mrjob.step import MRStep
from mrjob.protocol import RawValueProtocol, JSONProtocol,ReprProtocol
import traceback
import json


#统计每个电影有多少人观看过
class GetVideos(MRJob):
    def steps(self):
        return[
            MRStep(mapper = self.mymapper,
            reducer = self.myreducer)
           ]

    def mymapper(self, _, line):
        try:
            jsline = json.loads(line)
            cuid = jsline["user_id"]
            action = jsline["action"]
            video = jsline["data"]
            if action == 1:
                yield video,1
        except Exception:
            pass

    def myreducer(self, key, value):
        yield key,sum(value)

if __name__ == '__main__':
    GetVideos.run()

新建 output 文件夹用于存放输出：

$ mkdir /home/hadoop/pyhadoop/output

运行代码：

$ python3 pyhd_1.py -r hadoop log/video.log > output/1.txt

结果输出在 output/1.txt 文件中：

"01"    1
"02"    2
"03"    1
"04"    2
"05"    1
"06"    3
"07"    2
"09"    1
"10"    1
"11"    1
"12"    3
"14"    3
"15"    2

为了方便大家理解，我将序号对应的电影名称列出来，如下：

01      一出好戏
02      大三儿
03      精灵旅社3：疯狂假期
04      巨齿鲨
05      欧洲攻略
06      快把我哥带走
07      新乌龙院之笑闹江湖
08      西虹市首富
09      小偷家族
10      爱情公寓
11      美食大冒险之英雄烩
12      狄仁杰之四大天王
13      神秘世界历险记4
14      最后的棒棒
15      风雨咒

实战模拟二

上述实验统计了每部电影的被观看次数，那么如何统计每部电影的观看用户列表呢？

实现思路

mrjob 允许开发者通过重写覆盖父函数来实现更为复杂的数据处理。除了多步任务需要覆盖的 steps 方法，mrjob 还可覆盖重写以下函数：

mapper_init()

combiner_init()

reducer_init()

mapper_final()

combiner_final()

reducer_final()

为了实现本实战模拟的任务，我们需要覆盖mapper_init()。首先我们要进行一轮mapper-reducer将输入的 json 日志行转变为key-value格式的video-cuid值，这个过程会通过reducer将key进行排序；然后我们通过覆盖第二轮mapper-reducer中的mapper_init()实现将相同key值的value进行聚合。

需要注意的是，为了不让第一轮 MR 将同一cuid的其他vid值reducer掉，同时还能实现排序效果，我们将key值定义为cuid，timestamp，理论上同一时间点，一个用户只能操作一部电影，这样就保证了value值的完整性。

代码实现

def steps(self):
    return[
        MRStep(mapper = self.mymapper_1,
            reducer = self.myreducer_1),
        MRStep(mapper_init = self.mymapper_init_2,
            mapper = self.mymapper_2)
    ]

重写mapper_init()实现列表统计逻辑：

def mymapper_init_2(self):
    self.video = ""
    self.uidlist = []

def mymapper_2(self, key, value):
    cuid = value
    vid = key[0]
    if self.video != "" and self.video != vid:
        #print(self.video, self.uidlist, value)
        yield self.video,self.uidlist
        self.video = ""
        self.uidlist = []
    if self.video == vid:
        if cuid not in self.uidlist:
            self.uidlist.append(cuid)
    else:
        self.video = vid
        self.uidlist.append(cuid)

在 /home/hadoop/pyhadoop 目录下新建 pyhd_2.py 文件，完整代码如下所示：

# -*- coding:utf-8 -*-
#!/usr/bin/python3

import os
import sys
from mrjob.job import MRJob
from mrjob.step import MRStep
from mrjob.protocol import RawValueProtocol, JSONProtocol,ReprProtocol
import traceback
import json


#统计每个电影有哪些用户观看
class GetVideos(MRJob):
    def steps(self):
        return[
            MRStep(mapper = self.mymapper_1,
                reducer = self.myreducer_1),
            MRStep(mapper_init = self.mymapper_init_2,
                mapper = self.mymapper_2)
        ]

    def mymapper_1(self, _, line):
        try:
            jsline = json.loads(line)
            cuid = jsline["user_id"]
            timestmp = jsline["timestamp"]
            action = jsline["action"]
            video = jsline["data"]
            if action == 1:
                yield (video,timestmp),cuid
        except Exception:
            pass

    def myreducer_1(self,key,value):
        yield key,max(value)

    def mymapper_init_2(self):
        self.video = ""
        self.uidlist = []

    def mymapper_2(self, key, value):
        cuid = value
        vid = key[0]
        if self.video != "" and self.video != vid:
            #print(self.video, self.uidlist, value)
            yield self.video,self.uidlist
            self.video = ""
            self.uidlist = []
        if self.video == vid:
            if cuid not in self.uidlist:
                self.uidlist.append(cuid)
        else:
            self.video = vid
            self.uidlist.append(cuid)

if __name__ == '__main__':
    GetVideos.run()

运行代码：

$ python3 pyhd_2.py -r hadoop log/video.log>output/2.txt

最后查看 output/2.txt 文件，结果如下：

"01"    ["622291a28c344a059428cb9112ff5933"]
"02"    ["45f218b28d19492a94c2fb1853351b91", "c6a63477030b4c048797b128f9a94306"]
"03"    ["c6a63477030b4c048797b128f9a94306"]
"04"    ["5E79247F1098C82E436B5980AF98D67D"]
"05"    ["45f218b28d19492a94c2fb1853351b91"]
"06"    ["622291a28c344a059428cb9112ff5933", "5E79247F1098C82E436B5980AF98D67D", "45f218b28d19492a94c2fb1853351b91"]
"09"    ["45f218b28d19492a94c2fb1853351b91"]
"10"    ["622291a28c344a059428cb9112ff5933"]
"11"    ["c6a63477030b4c048797b128f9a94306"]
"12"    ["5E79247F1098C82E436B5980AF98D67D", "622291a28c344a059428cb9112ff5933", "45f218b28d19492a94c2fb1853351b91"]
"14"    ["c6a63477030b4c048797b128f9a94306", "5E79247F1098C82E436B5980AF98D67D"]

另外实验楼用户liullgg提出上述统计不够准确，修正后的参考代码如下所示：

# -*- coding:utf-8 -*-
#!/usr/bin/python3

import os
import sys
from mrjob.job import MRJob
from mrjob.step import MRStep
import json

# 统计每个电影有哪些用户观看
class GetVideos(MRJob):
    def steps(self):
        return[ MRStep(mapper = self.mymapper_1, reducer = self.myreducer_1), ]
    def mymapper_1(self, _, line):
        try:
            jsline = json.loads(line)
            cuid = jsline["user_id"]
            timestmp = jsline["timestamp"]
            action = jsline["action"]
            video = jsline["data"]
            if action == 1:
                yield video,cuid
        except Exception:
            pass

    def myreducer_1(self,key,value):
        list = sorted(value)
        list_new = sorted(set(list), key=list.index)
        # print(list_num_new)
        yield key,list_new

if __name__ == '__main__':
    GetVideos.run()

运行结果如下所示，提供给大家参考：

实战模拟挑战

参照[2.6实战模拟]统计每部电影的观看用户列表，实现通过 mrjob 统计每个用户的观影列表。

结果如下：

"45f218b28d19492a94c2fb1853351b91"      ["09", "05", "12", "06", "02"]
"5E79247F1098C82E436B5980AF98D67D"      ["14"]
"622291a28c344a059428cb9112ff5933"      ["12", "06", "15", "10", "01"]

实现思路

参照2.6实验，我们首先需要通过一轮 MR 将日志处理为cuid-vid格式的值，而且是根据cuid排过序的。然后我们通过第二轮 MR 覆盖mapper_init()函数，将vid根据cuid进行聚合。最终输出目标结果。

代码实现

重写 steps 进行多步操作。

def steps(self):
    return[
        MRStep(mapper = self.mymapper_1,
            reducer = self.myreducer_1),
        MRStep(mapper_init = self.mymapper_init_2,
            mapper = self.mymapper_2)
    ]

进行第一轮的 MR，将日志转为key-value格式的(cuid,timestamp)-vid。

def mymapper_1(self, _, line):
    try:
        jsline = json.loads(line)
        cuid = jsline["user_id"]
        timestmp = jsline["timestamp"]
        action = jsline["action"]
        video = jsline["data"]
        if action == 1:
            yield (cuid,timestmp),video
    except Exception:
        pass

def myreducer_1(self,key,value):
    yield key,max(value)

进行第二轮的 MR，该过程只需要 mapper。通过覆盖mapper_init()实现vid的聚合。

def mymapper_init_2(self):
    self.cuid = ""
    self.videolist = []

def mymapper_2(self, key, value):
    cuid = key[0]
    vid = value
    if self.cuid != "" and self.cuid != cuid:
        #print(self.video, self.uidlist, value)
        yield self.cuid,self.videolist
        self.cuid = ""
        self.videolist = []
    if self.cuid == cuid:
        if vid not in self.videolist:
            self.videolist.append(vid)
    else:
        self.cuid = cuid
        self.videolist.append(vid)

在 /home/hadoop/pyhadoop 目录下新建 pyhd_3.py 文件，完整代码如下所示：

# -*- coding:utf-8 -*-
#!/usr/bin/python3

import os
import sys
from mrjob.job import MRJob
from mrjob.step import MRStep
from mrjob.protocol import RawValueProtocol, JSONProtocol,ReprProtocol
import traceback
import json


#统计每个用户看过多少电影
class GetVideos(MRJob):
    def steps(self):
        return[
            MRStep(mapper = self.mymapper_1,
                reducer = self.myreducer_1),
            MRStep(mapper_init = self.mymapper_init_2,
                mapper = self.mymapper_2)
        ]

    def mymapper_1(self, _, line):
        try:
            jsline = json.loads(line)
            cuid = jsline["user_id"]
            timestmp = jsline["timestamp"]
            action = jsline["action"]
            video = jsline["data"]
            if action == 1:
                yield (cuid,timestmp),video
        except Exception:
            pass

    def myreducer_1(self,key,value):
        yield key,max(value)

    def mymapper_init_2(self):
        self.cuid = ""
        self.videolist = []

    def mymapper_2(self, key, value):
        cuid = key[0]
        vid = value
        if self.cuid != "" and self.cuid != cuid:
            #print(self.video, self.uidlist, value)
            yield self.cuid,self.videolist
            self.cuid = ""
            self.videolist = []
        if self.cuid == cuid:
            if vid not in self.videolist:
                self.videolist.append(vid)
        else:
            self.cuid = cuid
            self.videolist.append(vid)

if __name__ == '__main__':
    GetVideos.run()

运行代码：

$ python3 pyhd_3.py -r hadoop log/video.log>output/3.txt

实验总结

本次实验通过简单却又赋有代表性的例子跟大家分享了 mrjob 的使用经验，希望大家能反复琢磨这几个简单例子，完全理解以后，我相信会对大家使用 mrjob 进行大数据处理有很大帮助。

本次实验缺少对 hadoop 集群的介绍，大家可以参照实验楼其他课程关联学习。

完整代码
代码及数据下载地址：

wget https://labfile.oss.aliyuncs.com/courses/1167/pyhadoop.zip

你可能感兴趣的:(Hadoop使用环境搭建,hadoop)

element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
html 中如何使用 uniapp 的部分方法某公司摸鱼前端 html uni-app 前端
示例代码：Documentconsole.log(window);效果展示：好了，现在就可以uni.使用相关的方法了
ArcGIS栅格计算器常见公式（赋值、0和空值的转换、补充栅格空值）研学随笔 arcgis 经验分享
我们在使用ArcGIS时通常经常用到栅格计算器，今天主要给大家介绍我日常中经常用到的几个公式，供大家参考学习。将特定值（-9999）赋值为0，例如-9999.Con("raster"==-9999,0,"raster")2.给空值赋予特定的值（如0）Con(IsNull("raster"),0,"raster")3.将特定的栅格值(如1)赋值为空值，其他保留原值SetNull("raster"==
高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
水平垂直居中的几种方法（总结） LJ小番茄 CSS_玄学语言 html javascript 前端 css css3
1.使用flexbox的justify-content和align-items.parent{display:flex;justify-content:center;/*水平居中*/align-items:center;/*垂直居中*/height:100vh;/*需要指定高度*/}2.使用grid的place-items:center.parent{display:grid;place-item
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
C#中使用split分割字符串互联网打工人no1 c#
1、用字符串分隔：usingSystem.Text.RegularExpressions;stringstr="aaajsbbbjsccc";string[]sArray=Regex.Split(str,"js",RegexOptions.IgnoreCase);foreach(stringiinsArray)Response.Write(i.ToString()+"");输出结果：aaabbbc
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
linux中sdl的使用教程,sdl使用入门 Melissa Corvinus linux中sdl的使用教程
本文通过一个简单示例讲解SDL的基本使用流程。示例中展示一个窗口，窗口里面有个随机颜色快随机移动。当我们鼠标点击关闭按钮时间窗口关闭。基本步骤如下：1.初始化SDL并创建一个窗口。SDL_Init()初始化SDL_CreateWindow()创建窗口2.纹理渲染存储RGB和存储纹理的区别：比如一个从左到右由红色渐变到蓝色的矩形，用存储RGB的话就需要把矩形中每个点的具体颜色值存储下来；而纹理只是一
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
PHP环境搭建详细教程好看资源平台前端 php
PHP是一个流行的服务器端脚本语言，广泛用于Web开发。为了使PHP能够在本地或服务器上运行，我们需要搭建一个合适的PHP环境。本教程将结合最新资料，介绍在不同操作系统上搭建PHP开发环境的多种方法，包括Windows、macOS和Linux系统的安装步骤，以及本地和Docker环境的配置。1.PHP环境搭建概述PHP环境的搭建主要分为以下几类：集成开发环境：例如XAMPP、WAMP、MAMP，这
下载github patch到本地小米人er 我的博客 git patch
以下是几种从GitHub上下载以.patch结尾的补丁文件的方法：通过浏览器直接下载打开包含该.patch文件的GitHub仓库。在仓库的文件列表中找到对应的.patch文件。点击该文件，浏览器会显示文件的内容，在页面的右上角通常会有一个“Raw”按钮，点击它可以获取原始文件内容。然后在浏览器中使用快捷键（如Ctrl+S或者Command+S）将原始文件保存到本地，选择保存的文件名并确保后缀为.p
使用 FinalShell 进行远程连接（ssh 远程连接 Linux 服务器）编程经验分享开发工具服务器 ssh linux
目录前言基本使用教程新建远程连接连接主机自定义命令路由追踪前言后端开发，必然需要和服务器打交道，部署应用，排查问题，查看运行日志等等。一般服务器都是集中部署在机房中，也有一些直接是云服务器，总而言之，程序员不可能直接和服务器直接操作，一般都是通过ssh连接来登录服务器。刚接触远程连接时，使用的是XSHELL来远程连接服务器，连接上就能够操作远程服务器了，但是仅用XSHELL并没有上传下载文件的功能
直返最高等级与直返APP：无需邀请码的返利新体验古楼
随着互联网的普及和电商的兴起，直返模式逐渐成为一种流行的商业模式。在这种模式下，消费者通过购买产品或服务，获得一定的返利，并可以分享给更多的人。其中，直返最高等级和直返APP是直返模式中的重要概念和工具。本文将详细介绍直返最高等级的概念、直返APP的使用以及与邀请码的关系。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
【加密社】Solidity 中的事件机制及其应用加密社闲侃区块链智能合约区块链
加密社引言在Solidity合约开发过程中，事件（Events）是一种非常重要的机制。它们不仅能够让开发者记录智能合约的重要状态变更，还能够让外部系统（如前端应用）监听这些状态的变化。本文将详细介绍Solidity中的事件机制以及如何利用不同的手段来触发、监听和获取这些事件。事件存储的地方当我们在Solidity合约中使用emit关键字触发事件时，该事件会被记录在区块链的交易收据中。具体而言，事件
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
使用LLaVa和Ollama实现多模态RAG示例 llzwxh888 python 人工智能开发语言
本文将详细介绍如何使用LLaVa和Ollama实现多模态RAG（检索增强生成），通过提取图像中的结构化数据、生成图像字幕等功能来展示这一技术的强大之处。安装环境首先，您需要安装以下依赖包：!pipinstallllama-index-multi-modal-llms-ollama!pipinstallllama-index-readers-file!pipinstallunstructured!p
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情