《编程之美: 求二叉树中节点的最大距离》的另一个解法

 
12
0
(请您对文章做出评价)
Spiga
  • Posts - 23, Articles - 0, Comments - 1089
  • Cnblogs
  • Dashboard
  • Login

《编程之美: 求二叉树中节点的最大距离》的另一个解法

2010-02-25 03:32 by Milo Yip, 7408 visits, 收藏, 编辑

昨天花了一个晚上为《编程之美》,在豆瓣写了一篇书评《迟来的书评和感想──给喜爱编程的朋友》。书评就不转载到这里了,取而代之,在这里介绍书里其中一条问题的另一个解法。这个解法比较简短易读及降低了空间复杂度,或者可以说觉得比较「美」吧。

问题定义

如果我们把二叉树看成一个图,父子节点之间的连线看成是双向的,我们姑且定义"距离"为两节点之间边的个数。写一个程序求一棵二叉树中相距最远的两个节点之间的距离。

书上的解法

书中对这个问题的分析是很清楚的,我尝试用自己的方式简短覆述。

计算一个二叉树的最大距离有两个情况:

  • 情况A: 路径经过左子树的最深节点,通过根节点,再到右子树的最深节点。
  • 情况B: 路径不穿过根节点,而是左子树或右子树的最大距离路径,取其大者。

只需要计算这两个情况的路径距离,并取其大者,就是该二叉树的最大距离。

我也想不到更好的分析方法。

但接着,原文的实现就不如上面的清楚 (源码可从这里下载):

view source print ?
01 // 数据结构定义
02 struct NODE
03 {
04     NODE* pLeft;        // 左子树
05     NODE* pRight;       // 右子树
06     int nMaxLeft;       // 左子树中的最长距离
07     int nMaxRight;      // 右子树中的最长距离
08     char chValue;       // 该节点的值
09 };
10   
11 int nMaxLen = 0;
12   
13 // 寻找树中最长的两段距离
14 void FindMaxLen(NODE* pRoot)
15 {
16     // 遍历到叶子节点,返回
17     if(pRoot == NULL)
18     {
19         return;
20     }
21   
22     // 如果左子树为空,那么该节点的左边最长距离为0
23     if(pRoot -> pLeft == NULL)
24     {
25         pRoot -> nMaxLeft = 0; 
26     }
27   
28     // 如果右子树为空,那么该节点的右边最长距离为0
29     if(pRoot -> pRight == NULL)
30     {
31         pRoot -> nMaxRight = 0;
32     }
33   
34     // 如果左子树不为空,递归寻找左子树最长距离
35     if(pRoot -> pLeft != NULL)
36     {
37         FindMaxLen(pRoot -> pLeft);
38     }
39   
40     // 如果右子树不为空,递归寻找右子树最长距离
41     if(pRoot -> pRight != NULL)
42     {
43         FindMaxLen(pRoot -> pRight);
44     }
45   
46     // 计算左子树最长节点距离
47     if(pRoot -> pLeft != NULL)
48     {
49         int nTempMax = 0;
50         if(pRoot -> pLeft -> nMaxLeft > pRoot -> pLeft -> nMaxRight)
51         {
52             nTempMax = pRoot -> pLeft -> nMaxLeft;
53         }
54         else
55         {
56             nTempMax = pRoot -> pLeft -> nMaxRight;
57         }
58         pRoot -> nMaxLeft = nTempMax + 1;
59     }
60   
61     // 计算右子树最长节点距离
62     if(pRoot -> pRight != NULL)
63     {
64         int nTempMax = 0;
65         if(pRoot -> pRight -> nMaxLeft > pRoot -> pRight -> nMaxRight)
66         {
67             nTempMax = pRoot -> pRight -> nMaxLeft;
68         }
69         else
70         {
71             nTempMax = pRoot -> pRight -> nMaxRight;
72         }
73         pRoot -> nMaxRight = nTempMax + 1;
74     }
75   
76     // 更新最长距离
77     if(pRoot -> nMaxLeft + pRoot -> nMaxRight > nMaxLen)
78     {
79         nMaxLen = pRoot -> nMaxLeft + pRoot -> nMaxRight;
80     }
81 }

这段代码有几个缺点:

  1. 算法加入了侵入式(intrusive)的资料nMaxLeft, nMaxRight
  2. 使用了全局变量 nMaxLen。每次使用要额外初始化。而且就算是不同的独立资料,也不能在多个线程使用这个函数
  3. 逻辑比较复杂,也有许多 NULL 相关的条件测试。

我的尝试

我认为这个问题的核心是,情况A 及 B 需要不同的信息: A 需要子树的最大深度,B 需要子树的最大距离。只要函数能在一个节点同时计算及传回这两个信息,代码就可以很简单:

view source print ?
01 #include
02   
03 using namespace std;
04   
05 struct NODE
06 {
07     NODE *pLeft;
08     NODE *pRight;
09 };
10   
11 struct RESULT
12 {
13     int nMaxDistance;
14     int nMaxDepth;
15 };
16   
17 RESULT GetMaximumDistance(NODE* root)
18 {
19     if (!root)
20     {
21         RESULT empty = { 0, -1 };   // trick: nMaxDepth is -1 and then caller will plus 1 to balance it as zero.
22         return empty;
23     }
24   
25     RESULT lhs = GetMaximumDistance(root->pLeft);
26     RESULT rhs = GetMaximumDistance(root->pRight);
27   
28     RESULT result;
29     result.nMaxDepth = max(lhs.nMaxDepth + 1, rhs.nMaxDepth + 1);
30     result.nMaxDistance = max(max(lhs.nMaxDistance, rhs.nMaxDistance), lhs.nMaxDepth + rhs.nMaxDepth + 2);
31     return result;
32 }

计算 result 的代码很清楚;nMaxDepth 就是左子树和右子树的深度加1;nMaxDistance 则取 A 和 B 情况的最大值。

为了减少 NULL 的条件测试,进入函数时,如果节点为 NULL,会传回一个 empty 变量。比较奇怪的是 empty.nMaxDepth = -1,目的是让调用方 +1 后,把当前的不存在的 (NULL) 子树当成最大深度为 0。

除了提高了可读性,这个解法的另一个优点是减少了 O(节点数目) 大小的侵入式资料,而改为使用 O(树的最大深度) 大小的栈空间。这个设计使函数完全没有副作用(side effect)。

测试代码

以下也提供测试代码给读者参考 (页数是根据第7次印刷,节点是由上至下、左至右编号):

view source print ?
01 void Link(NODE* nodes, int parent, int left, int right)
02 {
03     if (left != -1)
04         nodes[parent].pLeft = &nodes[left]; 
05   
06     if (right != -1)
07         nodes[parent].pRight = &nodes[right];
08 }
09   
10 void main()
11 {
12     // P. 241 Graph 3-12
13     NODE test1[9] = { 0 };
14     Link(test1, 0, 1, 2);
15     Link(test1, 1, 3, 4);
16     Link(test1, 2, 5, 6);
17     Link(test1, 3, 7, -1);
18     Link(test1, 5, -1, 8);
19     cout << "test1: " << GetMaximumDistance(&test1[0]).nMaxDistance << endl;
20   
21     // P. 242 Graph 3-13 left
22     NODE test2[4] = { 0 };
23     Link(test2, 0, 1, 2);
24     Link(test2, 1, 3, -1);
25     cout << "test2: " << GetMaximumDistance(&test2[0]).nMaxDistance << endl;
26   
27     // P. 242 Graph 3-13 right
28     NODE test3[9] = { 0 };
29     Link(test3, 0, -1, 1);
30     Link(test3, 1, 2, 3);
31     Link(test3, 2, 4, -1);
32     Link(test3, 3, 5, 6);
33     Link(test3, 4, 7, -1);
34     Link(test3, 5, -1, 8);
35     cout << "test3: " << GetMaximumDistance(&test3[0]).nMaxDistance << endl;
36   
37     // P. 242 Graph 3-14
38     // Same as Graph 3-2, not test
39   
40     // P. 243 Graph 3-15
41     NODE test4[9] = { 0 };
42     Link(test4, 0, 1, 2);
43     Link(test4, 1, 3, 4);
44     Link(test4, 3, 5, 6);
45     Link(test4, 5, 7, -1);
46     Link(test4, 6, -1, 8);
47     cout << "test4: " << GetMaximumDistance(&test4[0]).nMaxDistance << endl;
48 }

你想到更好的解法吗?

分类: 数据结构和算法
绿色通道: 好文要顶 关注我 收藏该文 与我联系
Milo Yip
关注 - 31
粉丝 - 486
荣誉: 推荐博客
+加关注
« 博主前一篇: 混合语言的游戏开发系统架构
» 博主后一篇: 解构Unity的腳本物件模型
Add your comment

21 条回复

1929379
  1. #1楼 yeka      2010-02-25 06:30
    Milo又熬夜啦.......
      回复  引用  查看    
  2. #2楼 陈硕      2010-02-25 08:56
    第 19~21 行有线程安全问题:

    static const RESULT empty = { 0, -1 }; // trick: nMaxDepth is -1 and then caller will plus 1 to balance it as zero.
    if (!root)
    return empty;

    建议改为:

    if (!root) {
    RESULT empty = { 0, -1 }; // trick: nMaxDepth is -1 and then caller will plus 1 to balance it as zero.
    return empty;
    // trust compiler, POD data will be optimized well.
    }

    因为按标准,function static variable 只在函数第一次调用时初始化,这个的初始化只有在最新的编译器里才是线程安全的。
    在旧的编译器(GCC 3 及以前)上,原来的写法可能会读到 partial initialized 'empty' 变量,如果两个线程同时(首次)调用 GetMaximumDistance 的话。
      回复  引用  查看    
  3. #3楼 秋醒半梦时[未注册用户]2010-02-25 09:12
    这不就是求树的直径的问题吗?
    树的直径最简单的解法(无论是几叉):
    从任意一点i一次BFS找到树中与他距离最远的点j,从j再一次BFS找到树中里j最远的点k,那么D[j][k](j与k的距离)即为答案。

    稍微好理解的方法:树形动态规划
      回复  引用    
  4. #4楼 Dbger      2010-02-25 10:07
    @陈硕
    如果非要考虑多线程安全,我倾向于用“全局变量”来表示这些常用的常量,就和向量,矩阵类中一些单元向量,单元矩阵等。
      回复  引用  查看    
  5. #5楼 Jeffrey Zhao      2010-02-25 10:46
    我觉得直接把递归语意翻译过来最直接和清晰吧:
    view source print ?
    01 type BinaryTree = 
    02 | Node of BinaryTree * BinaryTree
    03 | Empty
    04   
    05 let rec height (tree: BinaryTree) = 
    06     match tree with
    07     | Empty -> 0
    08     | Node (l, r) -> 1 + max (height l) (height r)
    09   
    10 let rec calculate (tree: BinaryTree) =
    11     match tree with
    12     | Empty -> 0
    13     | Node (l, r) ->
    14         (height l) + (height r)
    15         |> max (calculate l)
    16         |> max (calculate r)

    这里我用了F#,不过C#,C++其实也是一回事情吧。
      回复  引用  查看    
  6. #6楼 Todd Wei      2010-02-25 12:11
    @秋醒半梦时
    进行两次BFS:先从树根A出发进行广度优先搜索(BFS),找到最远的结点B,然后再从结点B出BFS,找到离B最远的结点C,BC就是最大距离。

    下面是正确性证明
    假设存在结点X和Y,它们的距离是所有结点中最大的;分两种情况讨论:
    1. 若路径XY与路径AB有交点O,
    ...A
    ...|
    X-O--Y
    ...|
    ...B
    由于|OB| >= |OX|且|OB| >= |OY|,所以,|BX| >= |XY|,|BY| >= |XY|。即从B出发可以构造出最长路径。

    2.若路径XY与路径AB无交点,
    A...B X...Y
    A是树根,XY与B分属不同的子树,假设XY的最近祖先为O,由于
    |AB| >= |AO| + |AX|,所以|BY| = |AB| + |AO| + |OY| > |XY|。即从B出发构造出长于XY的路径,与假设XY是最长路径矛盾。
      回复  引用  查看    
  7. #7楼[楼主] Milo Yip      2010-02-25 12:19
    @Dbger
    @陈硕
    我覺得兩個方法都可以解決潛在的多線程問題。我現在先相信compiler,改用了陳碩的寫法。
    從另一個角度看這個問題,local static variable是會做成side effect,所以 thread-safe 會不成立。
      回复  引用  查看    
  8. #8楼[楼主] Milo Yip      2010-02-25 12:40
    @Jeffrey Zhao
    我未學過任何一個 functional programming 語言。希望趙大能指正不對的地方。

    用 FP 的確可以增加可讀性,同時能減少錯誤的機會。

    FP 能對 pure function 用自動的 cache optimization,這是優點也是缺點。如果沒有這優化,在你提供的代碼中,height 的調用次數估計是 O(n^2);而有了這優化,就需要O(n)的空間去儲存n 個 height()的運算結果。而這優化我估計應該需要做 table lookup,帶來額外 overhead。

    我的嘗試中,並不需要O(n)的額外空間,而且仍維持每節點只遍歷一次。

    又反過來說,在效能上,FP 的好處是可以自動做並行,用 procedural 語言手動做這個就會顯得複雜。
      回复  引用  查看    
  9. #9楼[楼主] Milo Yip      2010-02-25 13:09
    @Todd Wei
    @秋醒半梦时
    多謝你們的回應,我方知道這個「距離」應該是叫「直徑」(Tree Diameter)。

    這該我找到一點參考文章:
    http://www.cs.duke.edu/courses/spring00/cps100/assign/trees/diameter.html
    http://www.cs.cmu.edu/afs/cs.cmu.edu/project/phrensy/pub/papers/LeisersonM88/node17.html

    發現前一篇文章基本上和Jeffrey的嘗試一樣,但用 procedural programming 會有O(N^2)的 height() 調用。我覺得我寫的邊界條件(那個trick)可能不需要,今晚回家試試。

    第二篇談到的幾個詞彙我都不太認識,可能要再多看一些參考。也想請教,用 BFS 的方法會比現時的方法簡單或高效麼? 還是現時的方法實際上有錯誤?
      回复  引用  查看    
  10. #10楼 Todd Wei      2010-02-25 13:20
    @Milo Yip
    BFS是O(N)的,所以复杂度更低。特别是基于BFS的方法不局限于2叉树,而前面递归方法在多叉树情况下复杂度会更高。
      回复  引用  查看    
  11. #11楼 Jeffrey Zhao      2010-02-25 13:23
    @Milo Yip
    其实你的算法还是用了O(h)的空间啦,h是高度,(非尾)递归算法嘛,栈空间是省不了的。
    的确这里height会反复调用,所以如果必要的话,还是要做memorization的。
    作了momorization以后,时间和空间“复杂度”和你的过程式算法是一致的了。
      回复  引用  查看    
  12. #12楼[楼主] Milo Yip      2010-02-25 13:31
    @Jeffrey Zhao
    引用 Jeffrey Zhao:
    @Milo Yip
    其实你的算法还是用了O(h)的空间啦,h是高度,(非尾)递归算法嘛,栈空间是省不了的。
    的确这里height会反复调用,所以如果必要的话,还是要做memorization的。
    作了momorization以后,时间和空间“复杂度”和你的过程式算法是一致的了。
    本文也提及,我的嘗試用了O(h)的棧空間代替原文的O(n) intrusive data,而你寫的height函數的memorization空間是O(n)。因為 h <= n,O(h)應該是比 O(n)好吧。
      回复  引用  查看    
  13. #13楼[楼主] Milo Yip      2010-02-25 13:36
    引用Todd Wei:
    @Milo Yip
    BFS是O(N)的,所以复杂度更低。特别是基于BFS的方法不局限于2叉树,而前面递归方法在多叉树情况下复杂度会更高。
    我的嘗試也是O(N),而且只需遍歷一次。跟據你的描述,BFS要做兩次,而且要加入parent? 不過對於一般的多叉樹,可能BFS的方法是最好的方法。
      回复  引用  查看    
  14. #14楼 Todd Wei      2010-02-25 15:09
    @Milo Yip
    哦,是的,你的递归也是O(N),开始分析错了。

    树哪个结点作为parent没关系,任选即可。图论里面对树的一种定义方式是:具有n个结点和n+1条边的连通图。
      回复  引用  查看    
  15. #15楼 郑晖      2010-02-25 16:06
    @Milo Yip
    >>我方知道這個「距離」應該是叫「直徑」(Tree Diameter)。
    的确是“直径”——在数学中直径的定义是:一个距离空间中任意两点间距离的上确界(supremum)。
      回复  引用  查看    
  16. #16楼 秋醒半梦时[未注册用户]2010-02-25 17:03
    引用Todd Wei:
    @Milo Yip
    哦,是的,你的递归也是O(N),开始分析错了。

    树哪个结点作为parent没关系,任选即可。图论里面对树的一种定义方式是:具有n个结点和n+1条边的连通图。

    我所了解的树的定义是:一个无环的无向图
      回复  引用    
  17. #17楼[楼主] Milo Yip      2010-02-25 17:04
    @郑晖
    引用 郑晖:
    @Milo Yip
    >>我方知道這個「距離」應該是叫「直徑」(Tree Diameter)。
    的确是“直径”——在数学中直径的定义是:一个距离空间中任意两点间距离的上确界(supremum)。
    謝謝鄭老師的數學指導。在網上找到了關於這個的定義:

    http://mathworld.wolfram.com/GeneralizedDiameter.html
    http://mathworld.wolfram.com/Supremum.html
      回复  引用  查看    
  18. #18楼 郑晖      2010-02-25 17:17
    引用Milo Yip:
    引用郑晖:
    @Milo Yip
    >>我方知道這個「距離」應該是叫「直徑」(Tree Diameter)。
    的确是“直径”——在数学中直径的定义是:一个距离空间中任意两点间距离的上确界(supremum)。
    謝謝鄭老師的數學指導。在網上找到了關於這個的定義:

    http://mathworld.wolfram.com/GeneralizedDiameter.html
    http://mathworld.wolfram.com/Supremum.html


    http://mathworld.wolfram.com/GeneralizedDiameter.html
    上面对的直径定义尚不足够general,它只提到了欧氏空间(Euclidean space R^n ),
    实际可扩展到更广泛的距离空间(metric space)。事实上,你这里提到的树就不是欧氏空间(因为这里的距离并非欧氏距离)。
      回复  引用  查看    
  19. #19楼[楼主] Milo Yip      2010-02-25 17:27
    @郑晖
    是的,我理解只要是 metric 就可以定義 diameter。
      回复  引用  查看    
  20. #20楼 flyinghearts      2010-05-19 14:05
    这是我的解法:
    http://blog.csdn.net/flyinghearts/archive/2010/05/19/5605995.aspx

    欢迎大家指正。
      回复  引用  查看    
  21. #21楼 gzroy      2010-10-06 18:24
    这是我的递归解法,欢迎交流:
    http://blog.csdn.net/yui/archive/2010/10/06/5924020.aspx
      回复  引用  查看    
不3k就业不给1分学费(java, .net, php, android)
最新IT新闻:
· 10个超棒的jQuery工具提示插件推荐
· 亲 久等了!小米手机零售版销售策略公布
· 哥终于知道了苹果为什么发布的是iPhone 4S而非iPhone 5
· 分析师:谷歌三星推迟发Nexus Prime是明智之举
· 《星际争霸2:虫群之心》新兵种曝光
» 更多新闻...
最新知识库文章:
· Scrum 实施经验
· Doclist压缩方法简介
· 专家视角看IT与架构
· 跨平台的移动开发框架介绍
· 为您的Web项目构建一个简单的JSON控制器
» 更多知识库文章...

China-pub 2011秋季教材巡展
China-Pub 计算机绝版图书按需印刷服务

你可能感兴趣的:(编程,2010,graph,算法,数据结构,null)