详解.Net中字符串不变性与相等判断的特殊场景

今天写bug的时候帮同事解决了一个有趣的问题,可能很多人都会答错。分享给大家。

问题

请看以下例子,并回答问题。

var s1 = "12";
var s2 = "12";

//序列化方式1
var o3 = Newtonsoft.Json.JsonConvert.DeserializeObject(Newtonsoft.Json.JsonConvert.SerializeObject(s1));
//序列化方式2
MemoryStream stream = new MemoryStream();
System.Runtime.Serialization.Formatters.Binary.BinaryFormatter bf = new System.Runtime.Serialization.Formatters.Binary.BinaryFormatter();
bf.Serialize(stream, s1);
stream.Seek(0, SeekOrigin.Begin);
var o4 = bf.Deserialize(stream);

//====分割线===================================================

var e1 = object.ReferenceEquals(s1, s2);

var e2 = o4 == s1;

var e3 = s1.Equals(o4);

var e4 = o3 == o4;

Console.ReadKey();

请回答分割线后e1, e2, e3, e4 值为true还是false。

人人都知道在.Net中字符串是享元模式的经典范例。字符串具有不变性。(至少在托管层,事实上可以在非托管层修改字符串的值),但你真的能回答对上面的问题么?

答案

e1 = true;
e2 = false;
e3 = true;
e4 = false;

要了解这个问题首先可以看下字符串在内存中的布局。

如何在visual studio中查看变量的内存布局

在VS中可以非常方便的查看托管或非托管变量的内存值。方法如下。

  • 依次在调试模式下打开 调试 -> 窗口 -> 内存 -> 内存1(1~4均可) 打开内存对话框。
  • 在地址栏中输入变量名即可。

字符串变量在内存中的布局

在.Net中字符串是以UTF-16格式在内存中保存的。在本例中s1的内存如下。

00 00 00 00 00 00 00 00 98 d6 fc e5 fb 7f 00 00 02 00 00 00 31 00 32 00

这里可能与你拿到的结果不一样。你可能并没有前8位0x00,因为我把对象头带上了。下面依次解释各段含义。

  • 00 00 00 00 00 00 00 00 最开始的8比特是对象头。其中,在64位下,高4位为0,低4位为一个不为0的数(这里由于并没有执行lock或Gethashcode操作,所以这里为0,感兴趣的自行实验.)
  • 98 d6 fc e5 fb 7f 00 00对象的MethodTable,根据类型而不同,对象的引用指向的位置。
  • 02 00 00 00 字符串长度,这里是2。
  • 31 00 32 00 字符串数组* char,注意都是小端模式。

拿以上s1 s2 o3 o4分别实验可以发现他们的内存一模一样,其中s1 s2直接就是同一块内存地址,但剩下的内存地址都不一样

比较与解答

  • e1 = true; 通过内存看合情合理,毕竟都同一块内存了。

  • e2 = false; 这里如果用的VS的版本比较高的话,也能看出来。因为这里VS会提示:

    可能非有意的引用比较。

    既然是引用比较,内存地址都不一样,肯定是false了。但是如果vs版本不高的话则迷惑性就较大了,其实这里做的是ReferenceEquals的比较。

  • e3 = true; 这里问题出在.Net代码里。字符串类型Equals方法被重载了。

        // Determines whether two strings match.
        public override bool Equals([NotNullWhen(true)] object? obj)
        {
            if (object.ReferenceEquals(this, obj))
                return true;

            if (!(obj is string str))
                return false;

            if (this.Length != str.Length)
                return false;

            return EqualsHelper(this, str);
        }

EqualsHelper方法最终则调用如下。(在.Net 6下)

        // Optimized byte-based SequenceEquals. The "length" parameter for this one is declared a nuint rather than int as we also use it for types other than byte
        // where the length can exceed 2Gb once scaled by sizeof(T).
        public static unsafe bool SequenceEqual(ref byte first, ref byte second, nuint length)

由于实现过于复杂(.Net framework 4.5.2下则较简单,直接按长度比较char,有兴趣的自行查阅),这里就不贴具体实现了。我们很容易看出这里比较的目的是比较两段内存是否相等,显然为true

  • e4 = false;这里是为了比较不同序列化方式的影响,和e2类似,结果显然是false

结论

虽然.Net中字符串是享元模式创建的,但并不能保证同一字符串在内存里只有一份。比如序列化情况等例外情况。如果读者知道其他情况也可以告诉我,提前说声感谢

到此这篇关于详解.Net中字符串不变性与相等判断的特殊场景的文章就介绍到这了,更多相关.Net中字符串不变性与相等判断内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

你可能感兴趣的:(详解.Net中字符串不变性与相等判断的特殊场景)