鉴于读者的响应,打算将文章拆分一下,方便观看,基本接口可看 深入浅出STL之vector类
value_type*
所定义出来的迭代器 iterator
[start]
、[finish]
、[end_of_stroage]
。看到它们你是否有想起我们在 模拟string 的时候写到过的 [a]
、[size]
、[capacity]
;没错,它们就存在着一定的对应关系push_back()
封装得没有那么厉害,读者结合下面的图应该就能看得懂,分别就是 未满追加的逻辑和已满扩容的逻辑reserve()
来说,就是一个扩容的逻辑,【allocate_and_copy】是开辟和拷贝空间,那【deallocate】就是释放空间。在扩完容之后不要忘了去对三个成员变量做更新,这一块的模拟实现我在下面马上就会讲到construct
和析构函数destroy
,光看代码,不知你是否回忆起了我们曾经在 C/C++内存管理 中有讲到【定位new】这个概念,而且提到了 内存池 这个概念对于上面的这些源码呢,读者可以在学习了STL一段时间后,配合侯捷老师的《STL源码剖析》再去展开阅读,因为考虑到读者的基础,就不在继续深入讲解了~
然后我们就来模拟实现一下【vector】中的各种接口
vector
类还是包在【bit】这个命名空间中,而对于这个类而言,我要将其定义为一个 模版类,这一块如果还有同学不太熟悉的话可以去看看 C++模版[_start]
、[_finish]
、[_end_of_storage]
也定义为了三个迭代器类型,并且采用提前声明的形式将它们都初始化为nullptr
,这样当我们后面在写 构造函数和析构函数 的时候就不需要再去做初始化了namespace bit {
template<class T>
class vector {
public:
typedef T* iterator;
typedef const T* const_iterator;
// 主要接口函数
private:
iterator _start = nullptr;
iterator _finish = nullptr;
iterator _end_of_storage = nullptr;
};
}
非const版本
和const版本
iterator begin()
{
return _start;
}
iterator end()
{
return _finish;
}
const_iterator begin() const
{
return _start;
}
const_iterator end() const
{
return _finish;
}
size_t size()
{
return _finish - _start;
}
size_t capacity()
{
return _end_of_storage - _start;
}
_start
和_finish
这两个迭代器之间的距离,我们之前有说到过迭代器它的底层其实就是指针,那要计算出两个指针之间的数据个数的话让它们做一个相减_finish - _start
_end_of_storage - _start
。读者通过下图便可一目了然地看出来capacity()
来得大的时候,我们才去执行一个扩容的逻辑,在内部的扩容逻辑中可以看到我们使用到了前面所定义的模版参数T
,这样去写的话就可以根据不同的类型参数开出不同的空间memcpy()
,拷贝完后再去释放原空间,接下去把这些成员变量去做一个更新即可看着逻辑很清晰,但是呢下面的代码存在着非常多的漏洞
void reserve(size_t n)
{
if (n > capacity())
{
T* tmp = new T[n]; // 开一块新空间
if (_start)
{
memcpy(tmp, _start, sizeof(T) * size());
delete[] _start;
}
_start = tmp;
_finish = _start + size();
_end_of_storage = _start + n;
}
}
push_back
的接口(后面讲),让代码先跑起来void push_back(const T& x)
{
if (_finish == _end_of_storage)
{
size_t newCapacity = capacity() == 0 ? 4 : capacity() * 2;
reserve(newCapacity);
}
*_finish = x;
_finish++;
}
下面是测试的代码
void test_vector1()
{
bit::vector<int> v;
v.push_back(1);
v.push_back(2);
v.push_back(3);
v.push_back(4);
for (auto e : v)
{
cout << e << " ";
}
cout << endl;
}
_finish
的值为【0x00000000】191
,但是呢其实真正的问题还是出在【reserve】这个扩容的逻辑中,随着我们一步一步地去看,可以看到_start
和_end_of_storage
这两个都没什么问题,但是_finish
就是没有什么变化,所以呢我们可以锁定到下面这句话_finish = _start + size();
_finish - _start
来计算的 size(),在执行这句话时_start
已经发生了改变,因为我们去开出了一块新的空间,但是这时_finish
的值还是一开始的【nullptr】,那么这个 size() 最后计算出来的大小即为 -_start
,此时再和_start
去做一个结合的话即为 0
所以,上述就是为什么这个_finish
的值为【0x00000000】原因,那我们要如何去修改呢?
_finish
,用开出空间的 tmp 去做一个更新,然后再用 tmp 去更新_start
,这样就不会出现问题了_finish = tmp + size();
_start = tmp;
_end_of_storage = _start + n;
但是呢上面这种方案的话可能你的徒弟在维护你的代码的时候就会觉得很奇怪,又给改回去了,导致原先的问题再度发生,所以我们可以采取下面这种策略
sz
即可if (n > capacity())
{
// 先保存一下原先的size()
size_t sz = size();
T* tmp = new T[n]; // 开一块新空间
if (_start)
{
memcpy(tmp, _start, sizeof(T) * size());
delete[] _start;
}
_start = tmp;
_finish = _start + sz;
_end_of_storage = _start + n;
}
但是呢这还没完,【reserve】接口还是存在问题
void test_vector2()
{
bit::vector<string> v;
v.push_back("11111");
v.push_back("22222");
v.push_back("33333");
v.push_back("44444");
for (auto e : v)
{
cout << e << " ";
}
cout << endl;
}
push_back("55555")
的时候程序却出现了问题那此时有的同学脑子转得很快,感觉到一定是【reserve】扩容的地方出现了问题
sizeof(T)
的对象大小不一样了?memcpy(tmp, _start, sizeof(T) * size());
我觉得上述这个老铁提出来的问题非常好,我们一起来看看。请读者思考一下下面的结果是多少
void test_vector3()
{
string s1("11111");
string s2;
string s3("222222222222222222");
cout << sizeof(s1) << endl;
cout << sizeof(s2) << endl;
cout << sizeof(s3) << endl;
}
接下去呢,就带读者好好地通过调试观察一下
v.push_back("1111111111111111");
v.push_back("2222222222222222");
v.push_back("3333333333333333");
v.push_back("4444444444444444");
v.push_back("5555555555555555");
delete[] _start
的时候发生了一个 并发修改 的问题可能有的读者还是不太理解这其中的原理,我们通过画图再来看看
memcpy()
将数据原封不动地拷贝到了另一块空间中,再去做了一个扩容,那在上面我们也看到过了,就是因为这个memcpy()
原封不动拷贝的问题,就使得新空间和旧空间虽然是两块独立的空间,但是呢每个对象中的_str
都和另一个对象指向了那一块同样的空间delete
释放掉整块空间。因为每两个对象所指向的空间都是同一块的,所以在释放的时候就会造成同时修改的问题delete[] _start;
【总结一下】:
vector是深拷贝,但是vector空间上存的对象是string的数组,使用memcpy()
导致string对象的浅拷贝
那我们要如何去避免这一种问题呢?
memcpy()
去进行浅拷贝,而是使用下面这种形式去进行拷贝tmp[i] = _start[i]
如果对代码比较敏感的同学应该可以很快地看出这会去调用 string类 的赋值重载,然后去做一个深拷贝,此时就不会造成两个_str
指向同一块空间了for (size_t i = 0; i < size(); i++)
{
tmp[i] = _start[i];
}
以下就是【reserve】这个接口的最终完整版实现逻辑
void reserve(size_t n)
{
if (n > capacity())
{
// 先保存一下原先的size()
size_t sz = size();
T* tmp = new T[n]; // 开一块新空间
if (_start)
{
//memcpy(tmp, _start, sizeof(T) * size());
for (size_t i = 0; i < size(); i++)
{
tmp[i] = _start[i];
}
delete[] _start;
}
_start = tmp;
_finish = _start + sz;
_end_of_storage = _start + n;
}
}
接下去的话我们再来看看【resize】这个接口该如何去实现
n < _finish
的情况;n > _finish && n <= _end_of_storage
的情况;n >_end_of_storage
的情况;_finish = _start + n
即可;如果是另一种情况的话,就先使用【reserve】去检查一下是否需要扩容,然后再去通过循环追加对应的数据即可void resize(size_t n, const T& val = T())
{
if (n < size())
{
_finish = _start + n;
}
else
{
// 先使用reserve()去检查一下是否需要扩容
reserve(n);
while (_finish != _start + n)
{
*_finish = val;
_finish++;
}
}
}
T()
是干嘛的,还记我们在 C++缺省参数 中所讲到的知识点吗。没错,这个T()
就是给到的默认缺省参数,因为当前的形参【val】的类型使用的就是模版参数类型,采取自动推导的形式去进行自动识别T()
就是我们在 类和对象小知识 中所学习过的【匿名对象】,切记这里不可以给0,因为当前的数据类型不一定就是 整型,我们就可以根据这个匿名对象去生成不同的默认值const T& val = T()
简单地来测试一下
下标 + []
的形式,这里给出两种,一个是const版本
和非const版本
T& operator[](size_t pos)
{
assert(pos < size());
return _start[pos];
}
T& operator[](size_t pos) const
{
assert(pos < size());
return _start[pos];
}
接下去的话我们来讲讲有关修改操作的一些接口
push_back
,这个我在上面讲【reserve】的时候给出过,现在仔细地再来讲一讲:首先的话我们要考虑的就是扩容的逻辑,上面我们有讲到在VS下是呈现 1.5倍 的增长趋势,但是在g++下呈现的则是 2倍 的扩容逻辑,这里的扩容的话我们就交给【reserve】来实现void push_back(const T& x)
{
if (_finish == _end_of_storage)
{
size_t newCapacity = capacity() == 0 ? 4 : capacity() * 2;
reserve(newCapacity);
}
*_finish = x;
_finish++;
}
然后的话我们来实现一下【insert】这个接口
void insert(iterator pos, const T& x)
这一块的话我们已经讲过很多遍了,要在某一个位置插入数据的话就需要先去挪动部分的数据,这里我们从后往前挪,防止造成覆盖的情况,当数据挪动完毕后,再在pos
这个位置插入指定的数据即可
pos >= _start
,为什么可以位于首部assert(pos >= _start && pos <= _finish);
在讲解 string类 的时候我们确实讲到了这种写法的缺陷,但是读者要看清楚了,这里pos
的类型是 iterator,为一个迭代器。而我们在 string类 中所讲到的这个pos
呢是一个无符号整数
pos
不可能是0,因为它是一段空间的地址,有效空间的地址不可能是0,string& insert (size_t pos, const string& str);
push_back()
接口中所写的即可// 1.首先考虑扩容逻辑
if (_finish == _end_of_storage)
{
size_t newCapacity = capacity() == 0 ? 4 : capacity() * 2;
reserve(newCapacity);
}
以下是整体的代码
void insert(iterator pos, const T& x)
{
assert(pos >= _start && pos <= _finish);
// 1.首先考虑扩容逻辑
if (_finish == _end_of_storage)
{
size_t newCapacity = capacity() == 0 ? 4 : capacity() * 2;
reserve(newCapacity);
}
// 2.挪动数据
iterator end = _finish - 1;
while (end >= pos)
{
*(end + 1) = *end;
--end;
}
*pos = x;
++_finish;
}
push_back()
这个接口我们就可以去复用一下【insert】这个接口了void push_back(const T& x)
{
/*if (_finish == _end_of_storage)
{
size_t newCapacity = capacity() == 0 ? 4 : capacity() * 2;
reserve(newCapacity);
}
*_finish = x;
_finish++;*/
insert(end(), x);
}
马上,我们通过调试来观察一下
insert(v.begin(), 100)
去做一个头插,那么一进到函数中我们就可以知道这个当前对象的_start
和pos
所处的迭代器位置是相同的,也就是同一段空间的地址_start
已经发生了改变_start
和待插入位置的pos
已经发生了变化,那么在此时我们再去挪动数据进行插入的时候就会出现问题了
我们可以通过下面的图示来看看到底这个扩完容之后是怎样的
_start
确实发生了一个变化,但是呢pos
还是指向原来的那个地方。那读者可以自己去想象一下子在遍历挪动数据的时候究竟何时才是个头呢?
以上所出现的这个问题就被称作是 【迭代器失效的问题】
那我们要如何去解决呢?
有同学说,内部外部无法一起修改的话参数部分加个引用
不就行了
void insert(iterator& pos, const T& x)
v.begin() + 3
,在这中间会去产生一个临时对象,我们知道临时对象是具有常性的,那么传递进去的时候就会造成【权限放大】的问题v.insert(v.begin() + 3, 6);
那有同学又说,那防止一下权限放大不就好了,加个const
_start
的位置改变了但是pos
的位置没有发生改变。pos
的位置随着_start
的变动而一起变动,这样就不会出现问题了。以下我们需要改进的代码部分,在进行扩容之前,我们可以先去计算一下从【_start】到【pos】的位置有多远;// 1.首先考虑扩容逻辑
if (_finish == _end_of_storage)
{
// 首先保存一下从_start到pos的距离
size_t len = pos - _start;
size_t newCapacity = capacity() == 0 ? 4 : capacity() * 2;
reserve(newCapacity);
// 再扩完容之后更新一下pos, 解决迭代器失效问题
pos = _start + len;
}
那代码做了更新之后迭代器失效的问题真的解决了呢,我们通过调试一起来看看
bit::vector<int>::iterator it = v.begin();
v.insert(it, 33);
bit::print(v);
cout << *it << endl;
bit::print(v);
可以看到,在使用完这个这个迭代器之后再去访问就出现了问题
如果直接其换成库里面的【vector】的话,就直接崩溃了
所以,对于迭代器这一块我们在使用的时候一定要慎重,在使用完之后不要去轻易地修改它
it = v.insert(it, 33);
具体代码如下:
iterator insert(iterator pos, const T& x)
{
assert(pos >= _start && pos <= _finish);
// 1.首先考虑扩容逻辑
if (_finish == _end_of_storage)
{
// 首先保存一下从_start到pos的距离
size_t len = pos - _start;
size_t newCapacity = capacity() == 0 ? 4 : capacity() * 2;
reserve(newCapacity);
// 再扩完容之后更新一下pos, 解决迭代器失效问题
pos = _start + len;
}
// 2.挪动数据
iterator end = _finish - 1;
while (end >= pos)
{
*(end + 1) = *end;
--end;
}
*pos = x;
++_finish;
return pos;
}
有【insert】,那一定少不了【erase】,我们继续来看看
具体代码如下:
void erase(iterator pos)
{
assert(pos >= _start && pos < _finish);
iterator end = pos + 1;
// 移动覆盖
while (end != _finish)
{
*(end - 1) = *end;
++end;
}
--_finish;
}
立马来测试一下:
对于【insert】来说会存在迭代器失效的问题,那对【erase】来说也会有吗?
void test_vector8()
{
bit::vector<int> v;
v.push_back(1);
v.push_back(2);
v.push_back(3);
v.push_back(4);
bit::print(v);
auto it = v.begin();
v.erase(it);
cout << *it << endl;
it++;
cout << *it << endl;
bit::print(v);
}
it++
并访问的话便是【3】auto it = v.begin() + 3;
不过呢,上面只是我们使用自己模拟的【vector】,来用用库里的会看会发生什么情况
上面呢是在VS下的运行结果,之前有说过VS在的STL是【PJ版】,而Linux下则是【SGI版】,所以我们都要去做一个对比
【小结】:
erase以后,迭代器失效了,不能访问。VS进行强制,访问会直接报错;Linux下则不会
然后我们再来看一个点
auto it = v.begin();
while(it != v.end())
{
if(*it % 2 == 0)
{
v.erase(it);
}
++it;
}
通过运行结果我们可以看出,确实所有的偶数都被删除了
换一个测试用例,我们加一个【2】,然后在删除的时候就发现【2】没有被删干净
再换一个测试用例,我在最后加了一个【6】,运行之后发现报出了Segmentation fault
,这是Linux下的段错误问题
我们通过画图来分析一下
end()
的位置,再去判断的话永远都到不了,所以就出现了【Segmentation fault
】的问题
那要如何去避免呢?
auto it = v.begin();
while(it != v.end())
{
if(*it % 2 == 0)
{
v.erase(it);
}
else
{
++it;
}
}
再去打印看一下看看就发现没什么问题了
此时我们需要去考虑一下【erase】这个接口的详情了
iterator erase (const_iterator position);
it = v.erase(it);
最后【erase】接口的整体代码如下所示:
iterator erase(iterator pos)
{
assert(pos >= _start && pos < _finish);
iterator end = pos + 1;
// 移动覆盖
while (end != _finish)
{
*(end - 1) = *end;
++end;
}
--_finish;
return pos;
}
在有了【erase】之后,我们就可以让
pop_back()
去复用这个接口了,可以达到尾删的逻辑
void pop_back()
{
// 复用erase
erase(end() - 1);
}
swap
,去一一交换两个对象中的三个成员变量即可。这个接口我下面在讲【赋值重载】时会使用到void swap(vector<T>& v)
{
std::swap(_start, v._start);
std::swap(_finish, v._finish);
std::swap(_end_of_storage, v._end_of_storage);
}
讲了这么多,终于能来讲讲默认的成员函数了
resize()
是类似的,因此我们直接去做一个复用即可// 有参构造
vector(size_t n, const T& val = T())
{
resize(n, val);
}
v.resize(10, 0)
是同样的效果bit::vector<int> v(10, 0);
那有同学可能会问,三个私有成员变量不需要去做初始化吗?
nullptr
吗?这个措施就是很好地避免编译器对内置类型不会去做初始化的问题private:
iterator _start = nullptr;
iterator _finish = nullptr;
iterator _end_of_storage = nullptr;
// [first, last)
template<class InputIterator>
vector(InputIterator first, InputIterator last)
{
while (first != last)
{
push_back(*first);
++first;
}
}
接下去,我们马上对这个迭代器区间做的初始化操作去所一个测试
void test_vector6()
{
bit::vector<int> v;
v.push_back(1);
v.push_back(2);
v.push_back(3);
v.push_back(4);
bit::vector<int> v2(v.begin(), v.end());
string s("abcdef");
bit::vector<int> v2(s.begin(), s.end());
int a[] = { 1,2,3,4 };
bit::vector<int> v2(a, a + 4);
}
可以看到,除了去初始化自己【vector】对象的迭代器区间,【string】对象也可以,而且指针也没问题
但此时呢,如果我再去以下面的有参构造进行初始化的话就会出现一些问题
bit::vector<int> v5(10, 1);
可以看到,说是“非法的间接寻址”
first
去进行解引用目的就是为了获取这个位置上的数据,我们在 指针一文 有所提到 只有指针和迭代器可以解引用,基本数据类型不能解引用但是有同学一定会疑惑说:为什么这里不会去匹配有参构造,而是去匹配的迭代器区间构造呢?
int
类型,但是呢有参构造的第一个形参类型为size_t
,并不是最匹配的那我们该如何去进行预防呢?
vector(size_t n, const T& val = T())
{
resize(n, val);
}
vector(int n, const T& val = T())
{
resize(n, val);
}
通过调试我们可以看出这里在调用的时候就没有歧义了
最后再补充一个小的知识点,作为拓展
size_t
呢,此时我们只需要在传递的参数后加上一个u
即可,那么编译器在进行识别的时候就会自动将其识别成为无符号整数bit::vector<int> v6(10u, 6);
一样通过调试来看就可以很清楚
讲完构造函数了,我们来看看拷贝构造
// 拷贝构造
vector(vector<int>& v)
{
_start = new T[v.capacity()];
memcpy(tmp, v._start, sizeof(T) * v.size());
_finish = tmp + v.size();
_end_of_storage = tmp + v.capacity();
}
memcpy()
,你是否会有一种警惕的心理呢,因为我们上面讲到过 vector 对象中存放的是 string数组,在拷贝的过程中会产生浅拷贝的问题,那就不可以去使用这个memcpy()
,具体问题间下图// 拷贝构造
vector(vector<T>& v)
{
_start = new T[v.capacity()];
//memcpy(_start, v._start, sizeof(T) * v.size());
for (size_t i = 0; i < v.size(); i++)
{
_start[i] = v._start[i];
}
_finish = _start + v.size();
_end_of_storage = _start + v.capacity();
}
vector(vector<int>& v)
{
// 根据v的capacity()去开出对应的空间
reserve(v.capacity());
for (size_t i = 0; i < v.size(); i++)
{
push_back(v[i]);
}
}
有了拷贝构造,【赋值重载】也少不了
// 赋值重载
const vector<T>& operator=(vector<T> v)
{
swap(v);
return *this;
}
最后的舞台,给到【析构函数】,再怎么花里胡哨,最后最后空间都是要还给操作系统的
~vector()
{
delete[] _start;
_start = _finish = _end_of_storage = nullptr;
}
OK,以上就是有关vector深度剖析及模拟实现,希望对您有帮助