STL中string类的实现

目录

引入

构造 | 析构函数

构造函数

析构函数

返回指针的c_str()

求字符大小的size()

operator[]

普通对象调用:

const对象调用:

迭代器的实现

范围for

深浅拷贝

浅拷贝的不足

实现深拷贝

赋值的深拷贝

传统写法与现代写法

传统写法

现代写法

练习

增删查改

增容reserve()

尾插字符push_back()

追加字符串append()

贼好用的operator+=

指定位置插 insert()

删除erase()

查找find()


你知道在STL库中,string是怎么实现的吗?其实我们也能写!

本篇将手把手实现string类。通过自己的实现,我们能更好地去理解string类的底层原理。

引入

首先,在string.h里把string的框架搭好:

#pragma once
namespace jzy    //为了和STL里的string区分,我们把string放进自定义的命名空间里
{
    class string
    {
    public:
​
    private:
        char* _str;
        size_t _size;   //也可以用int,但库里面一般用size_t
        size_t _capacity;  //_capacity是有效字符的空间数,不包括\0
    };
}

构造 | 析构函数

构造函数

构造函数的形参有两种情况,一是有参,二是无参,这两个都要实现。

➡️有参:

string(char* str)      //有参:传字符串首元素的地址过来
            :_str(new char[strlen(str) + 1])    //记得为末尾的\0开一份空间
            , _size(strlen(str))
            , _capacity(strlen(str))
        {
            strcpy(_str, str);
        }

然而,这个函数在测试时却报错了:

#include"string.h"
using namespace jzy;
void test1()
{
    string s1("abc");
}
int main()
{
    test1();
    return 0;
}

报错:

这其实是因为:

abc是位于常量区的常量字符串,被const修饰,不可修改。这就是说,权限比较小。

而它要调用的string函数,形参未被const修饰,是可修改的,权限较大。

就像公司的上下级关系,权限小的不可以调用权限大的,它只能调用平级。

所以,string的形参也要被const修饰。

这个故事告诉我们,能用const就尽量用。

➡️修改后的有参:

class string
    {
    public:
        string(const char* str)  
            :_str(new char[strlen(str) + 1])   
            , _size(strlen(str))
            , _capacity(strlen(str))
        {
            strcpy(_str, str);
        }

➡️无参

string()
            :_str(new char[1])  //尽管无参,仍要为\0开空间
            ,_size(0)
            ,_capacity(0)
        {
            _str[0] = '\0';
        }

或者,用缺省值将有参/无参 合二为一:

string(const char* str = "\0")   //注:这里不能用'\0',得用"\0",//单引号表示的是单个字符,类型为char而非char*         
            :_str(new char[strlen(str) + 1])    
            , _size(strlen(str))
            , _capacity(strlen(str))
        {
            strcpy(_str, str);
        }

补:这里的"\0"其实有点画蛇添足。用""就可以了,里面隐含了\0。只要是常量字符串。都暗含了\0,只是看不见。

那这里的"\0"能不能换成nullptr呢?

不能!因为strlen不会检查判空,而是直接访问字符串,直到找到'\0'才会结束。

如果不传参,那默认为nullptr的话,strlen就会访问空指针,使程序崩溃。

析构函数

~string()
        {
            delete[] _str;
            _str = nullptr;
            _size = _capacity = 0;
        }

返回指针的c_str()

函数c_str()的作用?

"在C语言中,使用printf直接输出string类型的字符串可能会出现乱码。这是因为printf函数的%s格式化符号期望传入一个char类型的参数,而string类型的字符串实际上是一个对象,不是一个字符指针。所以在使用printf输出string类型的字符串时,应该使用s.c_str()方法将string类型转换为char类型。

而在C++中,使用cout输出string类型的字符串是没有问题的。cout对string类型有特殊的处理方式,可以直接输出string类型的字符串。

此外,也可以通过循环遍历string的每个字符,使用printf逐个输出字符,或者使用cout逐个输出字符,都可以得到相同的结果。

需要注意的是,如果没有包含头文件,那么默认情况下是不能使用cout输出string类型的字符串的,此时需要使用c_str()方法将string类型转化为char*类型。"

(源自 c知道)

简单来说,string类是无法直接被cout或者printf输出的,它需要被转化成char类型才可以。那c_str()做的就是这样一个转化的工作。

c_str()返回的是字符串的首字母地址,此地址只读不写,因此要用const来修饰:

char* c_str()const  
    {
        return _str;
    }

有了字符串的首元素地址,我们就可以cout输出stirng字符串了。

测试一下:

void test2()
{
    string s1("abcdef");
    cout << s1.c_str() << endl;
}

求字符大小的size()

size_t size()const   //只读不写 就加上const保护
        {
            return _size;
        }

operator[]

operator[]是非常好用的接口,它能把字符串当数组一样使用。这么好用的接口,实现起来其实很简单。

普通对象调用:

char operator[](size_t pos)
        {
            return *(_str + pos);
        }

等等……直接传值返回的话,会有什么弊端吗?

有的!我们无法直接修改字符,来测试一下:

void test3()
{
    string s1("abcdef");
    cout << ++s1[0] << endl;
}

STL中string类的实现_第1张图片

 

传值返回s1[0],我们得到的并不是s1里的'a',而是它的拷贝,这导致我们无法修改真正的a。

如果想要对a做修改,那就要传引用返回。

更新版的operator[]:

char& operator[](size_t pos)
        {
            return *(_str + pos);
        }

const对象调用:

我们知道,const权限小,不能调用权限大的函数。因此,要再写一份const版的operator[]函数:

const char& operator[](size_t pos) const
        {
            return *(_str + pos);
        }

经过const的保护,这个版本的operator[]是只读不写的。

迭代器的实现

之前我们对迭代器的认识为“像指针一样的东西”,那它究竟是不是指针呢?两者又有什么关联呢?别急,实现一遍我们就知道了。

iterator:

begin():返回第一个字符的位置。

end():返回最后一个字符的下一个位置。

typedef char* iterator;
        iterator& begin()  //&可加,也可不加
        {
            return _str;
        }
        iterator end()   //注意:这里不能加&!
        {
            return _str + _size;
        }

这里说明一下,end()为什么不能加&。因为end()指向的不是最后一个字符,而是它的后一个,也就是\0,所以end()处是开区间,是不能取到的。

测试一下:

void test4()
{               
    string s1("hello");
    string::iterator it = s1.begin();
    while (it != s1.end())
    {
        cout << *it << " ";   //可读
        it++;
    }
    cout << endl;
    for (auto ch : s1)
    {
        cout << ++ch << " ";  //可写
    }
}

上面实现的是普通的迭代器,是可读可写的。

现在再实现const_iterator,只读不写的:

const_iterator:

typedef const char* const_iterator;
        const_iterator begin()const
        {
            return _str;
        }
        const_iterator end()const
        {
            return _str + _size;
        }

范围for

之前我们说过,范围for看起来很高级,实际上底层原理很简单,现在我们就来揭秘一下。

其实,只要写了迭代器,那直接就能用范围for,它甚至不需要你去实现。

现在,我们直接在刚刚实现的迭代器后面,使用范围for:

void test4()
{
    string s1("hello");
    string::iterator it = s1.begin();  
    while (it != s1.end())
    {
        cout <<*it<< " ";
        it++;
    }
    
    cout << endl;       
    for (auto ch : s1)  //再遍历一遍
    {
        cout << ch << " ";
    }
}

这时因为:范围for语句的底层原理是通过迭代器来实现的。编译器会用迭代器 来替换范围for。

范围for会自动调用 对象的begin()和end()方法 来获取迭代器的起始、结束位置,然后通过迭代器来遍历。

迭代器是一个对象,用于遍历和访问元素。范围for通过迭代器来遍历集合,不用再显式地操作指针,使代码更简洁易读。

可见,范围for的确没啥含金量……

深浅拷贝

浅拷贝的不足

之前我们了解过,浅拷贝就是值拷贝,对于内置类型,是按字节的方式直接拷贝的。对于自定义类型,是调用其拷贝构造函数完成拷贝的。

浅拷贝真的够用吗?

答案当然是否定的。如果有成员变量是指针,那拷贝时,仅仅是复制了指针的值而不复制指针指向的空间。

如图,string的浅拷贝:

STL中string类的实现_第2张图片

可见,俩指针指向同一片空间。这就导致,当其中一个指针释放空间时,另一个指针也受到影响。

所以说,有指针成员时,就需要进行深拷贝了。

实现深拷贝

深拷贝是由我们自己实现的,拷贝指针时,不仅仅是复制值,更是要复制一份空间。

现在我们来实现下string的深拷贝:

string(const string& s)
            :_str(new char[strlen(s._str) + 1])
            ,_size(s._size)
            ,_capacity(s._capacity)
        {
            strcpy(_str,s._str);
        }

可以看到,深拷贝的确是新开了空间:

STL中string类的实现_第3张图片

赋值的深拷贝

其实赋值和刚刚说的拷贝构造是一个道理。很多时候,默认的赋值运算符就够用了,

但当涉及资源管理,如指针,就会出现两个指针指向同一块空间的情况。

来看string赋值的崩溃现场:

void test5()
{
    string s1("hello");
    string s2("111111111111111111111111111");
    s1 = s2;
}

STL中string类的实现_第4张图片 

那这种场景就需要实现赋值的深拷贝。

我们来实现一下:

string& operator=(const string& s)
        {
            delete[] _str;                       //先释放旧空间
            _str = new char[strlen(s._str) + 1];   //再开新空间
            strcpy(_str, s._str);
            _size = s._size;
            _capacity = s._capacity;
            return *this;
        }

测试下:

void test5()
{
    string s1("hello");
    string s2("111111111111111111111111111");
    s1 = s2;
}

STL中string类的实现_第5张图片 

可见,赋值成功。

❗但是,这并非 赋值运算符 的最终形态。因为还没检测 是否自己给自己赋值。

这里要注意一个点:在实现赋值的深拷贝时,需要检测是否自己给自己赋值。

先来看看如果给自己赋值,会发生什么,

void test5()
{
    string s1("hello");
    string s2("111111111111111111111111111");
    s2 = s2;     
}

 

s2中的字符居然无效了!(被置成了随机值)

这是因为,this 和 形参s 都是s2。一上来this的_str空间就被释放,所以,此时s的 _str空间也被释放了,这俩现在都是随机值。所以,再把s拷给this,就会出现随机值的状况。

所以说,需要检查 是否自己给自己赋值 的情况。

赋值深拷贝的最终形态:

string& operator=(const string& s)
        {
            if (this != &s)
            {
                delete[] _str;                       //先释放旧空间
                _str = new char[strlen(s._str) + 1];   //再开新空间
                strcpy(_str, s._str);
                _size = s._size;
                _capacity = s._capacity;
                return *this;
            }
        }

传统写法与现代写法

在stirng这里,我们就要学会写同一个功能的两种写法,即传统写法与现代写法。

现代写法 较传统写法的优势目前可能表现不出来,但等我们学到了vector、list时,现代写法就方便多了。

所以,这两种写法,都是有必要掌握的!

下面就用拷贝构造来举例:

传统写法

传统写法,就是老老实实地打工搬砖:开空间、初始化、拷贝:

string(const string& s)
            :_str(new char[strlen(s._str) + 1])
            ,_size(s._size)
            ,_capacity(s._capacity)
        {
            strcpy(_str,s._str);
        }

现代写法

现代写法,则精明多了。这些累活我不自己干,我雇打工人tmp来干:

string(const string& s)
        {
            string tmp(s._str);     //先构造个tmp
            swap(_str, tmp._str);    //把tmp交换给我
            swap(_size, tmp._size);
            swap(_capacity, tmp._capacity);
        }

但是这样写,有一个隐患:

this._str未经初始化,里面是随机值。经过swap,把随机值给了tmp. _str。

在delete tmp时,对随机值指向的空间进行释放,可能会引发崩溃。

如果 _str置空的话,delete就不会释放空指针。所以,要给this. _str初始化。

经过改造:

void swap(string&tmp)       //这是写在jzy类域里的swap
        {
            ::swap(_str, tmp._str);    //用::调用全局的swap函数
            ::swap(_size, tmp._size);
            ::swap(_capacity, tmp._capacity);
        }
​
        string(const string& s)
            :_str(nullptr)    //初始化,更安全
            ,_size(0)
            ,_capacity(0)
        {
            string tmp(s._str);
            swap(tmp);     
        }

注:这俩swap不一样,不是函数重载。函数重载的前提是在同一作用域。而这俩swap,一个是类里面的,一个是全局的。

所以说,全局的swap在调用时要加::,不然它会优先去局部域找,找到我们写的那个swap(string&tmp)之后,会认为参数不匹配。

总结一下,现代写法的本质是”拷贝构造新对象+将自己和新对象进行交换“。

练习

现在,在学习了现代写法的思想之后,我们来练习写operator=的现代写法:

void swap(string& tmp)   
        {
            ::swap(_str, tmp._str);  
            ::swap(_size, tmp._size);
            ::swap(_capacity, tmp._capacity);
        }
string& operator=(const string& s)
        {
            if (this != &s)
            {
                string tmp(s._str);
                swap(tmp);
                return *this;
            }
        }

增删查改

增容reserve()

reserve”保留“:开若干个空间,先保留在那里,即增容。

void reserve(size_t size)
        {
            if (size > _capacity)  //先检查下要不要增容
            {
                char* p = new char[size + 1];  //开新空间(为\0多开一个空间)
                strcpy(p, _str);               //拷数据
                delete[] _str;                 //释放旧空间
​
                _str = p;  
                _capacity = size;
            }
        }

尾插字符push_back()

void push_back(const char c)
        {
            if (_size == _capacity)   //先检查要不要扩容
            {
                reserve(_capacity == 0 ? 4 : 2 * _capacity);
            }
            _str[_size++] = c;
            _str[_size] = '\0';   //别忘了最后得加上'\0'
        }

追加字符串append()

void append(const char* ch)
        {
            //考虑扩容
            size_t total_size = _size + strlen(ch);   //先判断容量
            if(_capacity < total_size)
            {
                reserve(total_size);
            }
            strcpy(_str + _size, ch);   //直接把ch拷到\0的位置
            _size += strlen(ch);
        }

贼好用的operator+=

在了解stirng类的方法时,我们就惊叹过,operator+=真的好好用,既能追加字符,又能加字符串。

实际上,追加字符 和 追加字符串 是构成重载的两个函数,现在我们来实现下。

//追加字符
string& operator+=(const char c)
{
    push_back(c);    //复用了push_back()
    return *this;
}
​
//追加字符串
string& operator+=(const char* ch)
{
    append(ch);    //复用了append()
    return *this;
}

指定位置插 insert()

插字符:

string& insert(size_t pos, char c)
        {
            assert(pos <= _size);
​
            if (_size == _capacity)
            {
                reserve(_capacity == 0 ? 4 : 2 * _capacity);
            }
​
            //先把后面的数据往后挪
            size_t end = _size - 1;
            while (end > pos)
            {
                _str[end] = _str[end - 1];
                end--;
            }
            //再插入
            _str[pos] = c;
            _size++;
            _str[_size] = '\0';
​
            return *this;  //其实这个返回值意义不大
        }

插字符串:

string& insert(size_t pos, const char* ch)
        {
            assert(pos <= _size);
            
            size_t total_size = _size + strlen(ch); 
            if (_capacity < total_size)   //先算出一共需要多少空间,不够就开
            {
                reserve(total_size);
            }
​
            size_t end = _size ;   //挪数据
            size_t span = strlen(ch);
            while (end > pos)        //这个循环很容易写错! 不能写end>=pos,减成负数也就是无穷大,很容易越界!
            {
                _str[end + span] = _str[end];
                end--;
            }
            _str[pos+span] = _str[pos];
​
            strncpy(_str+pos, ch, strlen(ch));
            _size += strlen(ch);
            return *this;
        }

删除erase()

void erase(size_t pos, size_t len = npos)
        {
            assert(len < _size);
            if (len == npos||len>_size-pos)  //当删到末尾或者不够删时
            {
                _str[pos] = '\0';
            }
            else
            {
                strcpy(_str + pos, _str + pos + len);
                _str[_size - len] = '\0';
            }
            _size -= len;
        }

关于npos:

npos的类型为size_t,它被设为-1,因为size_t表示无符号数,-1在无符号数中表示 最大值。

npos在字符串中,意味着直到字符串的末尾。在容器中,表示不存在的位置。

我们要在类里声明静态的npos,在类外定义:

//类里
private:
        char* _str;
        size_t _size;   
        size_t _capacity;  
​
        static size_t npos; 
//类外
size_t string::npos = -1;

或者,在类里这样写:

private:
        char* _str;
        size_t _size;   
        size_t _capacity;  
​
        const static size_t npos = -1;   //const static在C++中是语法的特殊处理,直接可以当成定义初始化

查找find()

查找字符:

size_t find(char c, size_t pos = 0)const   //从pos位置开始找c,找到返回下标
        {
            assert(pos < _size);
            for (; pos < _size; pos++)
            {
                if (_str[pos] == c)
                {
                    return pos;
                }
            }
            return npos;
        }

查找字符串:

size_t find(const char* s, size_t pos)const   //第一个const一定要加!!
        {
            assert(pos < _size);
            const char* ret = strstr(_str + pos, s);
            if (ret == nullptr)
            {
                return npos;
            }
            return ret-_str;
        }

这里说明一下,关于左操作数的const为什么一定要加。

在测试时,我们给的例子为:s1.find("day", 0),这里的”day“是常量字符串,类型为const char*,而不是char *,

所以左操作数的类型也要严格为const char*,才能与常量字符串匹配。

你可能感兴趣的:(开发语言,c++)