在以前,要想在C++程序中使用线程,需要调用操作系统提供的线程库,比如linux下的
C++11在语言级别上提供了线程的支持,不考虑性能的情况下可以完全代替操作系统的线程库,而且使用起来非常方便,为开发程序提供了很大的便利
创建线程采用pthread_create函数,函数声明如下
#include
/*
* pid : 线程id,传入pthread_t类型的指针,函数返回时会返回线程id
* attr : 线程属性
* func : 线程调用的函数
* arg : 给函数传入的参数
*/
int pthread_create(pthread_t* pid, const pthread_attr_t* attr, void*(*func)(void*), void* arg);
可以发现,创建线程时只能传递一个参数给线程函数,所以如果想要给函数传入多个参数的话就需要动点歪脑筋,比如如果是类对象的话可以传入this指针,或者也可以将参数封装成一个struct传进去。不过总感觉不太优雅
当一个进程创建一个线程时,虽然线程运行在主进程的内存空间中,但是每个线程也有自己的私有空间(资源,如局部变量等)。当程序正常退出时,执行者是希望线程的私有资源可以成功被操作系统回收(即资源回收),这就需要主进程在退出之前显示调用pthread_join函数,该函数会等待参数id代表的线程退出,然后回收其资源,如果调用时目标线程还没有运行结束,那么调用方(主进程)会被阻塞
当然,如果觉得这样太麻烦,也可以使用pthread_detach函数主动分离线程,这样,当线程运行结束后会由操作系统自动回收资源,不再需要主进程操心
还有一个常用的api是pthread_exit,用于主动结束当前线程
使用示例,创建10个线程对进程全局变量n做加法,每个线程加10000次
#include
#include
#include
#include
long long int n = 0;
void *thread_func(void* arg)
{
for(int i = 0; i < 10000; ++i)
++n;
::pthread_exit(nullptr);
}
int main()
{
for(int i = 0; i < 10; ++i)
{
pthread_t pid;
::pthread_create(&pid, nullptr, thread_func, nullptr);
::pthread_detach(pid);
}
::sleep(1); //等待所有线程正常退出
std::cout << n << std::endl;
return 0;
}
当然最后这个结果绝不可能是100000,要想保证正确性,需要互斥锁协助。
简单介绍了posix原生线程的使用,一方面用于复习,另一方面自然是为了引出主角。C++11引入线程库std::thread,使得C++在语言级别上支持线程,虽然大家都说性能不咋地,但是用起来自然是方便许多。突出的几个特点有
小插曲,介绍了这么多好处当然也要吐槽一下,编译C++11线程库居然要手动链接-lpthread库….
使用线程库需要引入头文件
#include
#include
#include
#include
class ThreadTask
{
public:
ThreadTask(int a, int b)
: a_(a), b_(b)
{ }
void operator()()
{
std::cout << "hello " << std::this_thread::get_id() << std::endl;
std::cout << "a + b = " << a_ + b_ << std::endl;
std::this_thread::sleep_for(std::chrono::seconds(1));
std::cout << "world " << std::this_thread::get_id() << std::endl;
}
private:
int a_;
int b_;
};
void func(int a)
{
std::cout << "hello " << std::this_thread::get_id() << std::endl;
std::cout << a << std::endl;
std::this_thread::sleep_for(std::chrono::seconds(1));
std::cout << "world " << std::this_thread::get_id() << std::endl;
}
int main()
{
std::thread t1(func, 1); //接收一个函数指针和参数列表
std::thread t2([]() {
std::cout << "hello " << std::this_thread::get_id() << std::endl;
std::this_thread::sleep_for(std::chrono::seconds(1));
std::cout << "world " << std::this_thread::get_id() << std::endl;
}); //接收lambda
ThreadTask task(1, 2);
std::thread t3(task); //接收函数对象
t1.join(); //t1.detach();
t2.join(); //t2.detach();
t3.join(); //t3.detach();
//std::this_thread::sleep_for(std::chrono::seconds(1));
return 0;
}
需要注意的是,std::thread对象是不允许拷贝的,拷贝构造函数和拷贝赋值运算符被指定为delete
虽然不允许拷贝,但是std::thread是允许移动的
int main()
{
std::thread t1([]() {
std::cout << "hello " << std::this_thread::get_id() << std::endl;
std::this_thread::sleep_for(std::chrono::seconds(1));
std::cout << "world " << std::this_thread::get_id() << std::endl;
});
std::thread t2(std::move(t4)); //移动构造函数
std::thread t3;
t3 = std::move(t2); //移动赋值运算符
t3.join();
return 0;
}
标准库std::accumulate函数用于对给定区间的元素依次运算,默认是加法,使用示例
#include
#include
#include
using namespace std;
int main()
{
vector<int> v{1, 3, 5, 7, 9, 12};
/* 输出37,即所有元素的和 */
std::cout << std::accumulate(v.begin(), v.end(), 0) << std::endl;
/* 输出5,即所有元素异或的结果 */
std::cout << std::accumulate(v.begin(), v.end(), 0, bit_xor<int>()) << std::endl;
return 0;
}
下面利用std::thread实现并行accumulate,即利用多线程的优势同时计算不同区块
首先是根据给定区间计算创建的线程个数,std::thread标准库中提供了hardware_concurrency()函数,该函数返回当前计算机支持的并发线程数,通常是cpu核数,如果值无法计算则返回0。
在此之前,最好规定每个线程最小计算的元素个数,不然如果创建线程过多,导致每个线程计算的元素个数很少,那么创建线程带来的开销就会大于运算开销,得不偿失。所以可以规定每个线程最少计算20个元素
template <class Distance>
auto getThreadNums(Distance count)
{
auto avaThreadNums = std::thread::hardware_concurrency();
auto minCalNums = 20;
/* 将count向上取整到20的整数倍,计算最大需要多少个线程 */
auto maxThreadNums = ((count + (minCalNums - 1)) & (~(minCalNums - 1))) / minCalNums;
/* 选择二者中最合适的那个 */
return avaThreadNums == 0 ? maxThreadNums : std::min(static_cast<int>(avaThreadNums), static_cast<int>(maxThreadNums));
}
通过线程个数,就可以计算每个小区间负责的元素个数,从而将区间[front, last)拆分成若干个小区间
auto count = std::distance(first, last);
int threadNums = getThreadNums(count);
int blockSize = count / threadNums; //区间大小
接下来的工作就是创建threadNums个线程,每个线程调用std::accumulate计算自己负责的区间结果,同时将结果保存,最后将每个区间的结果再求一次std::accumulate
template <class InputIt, class T>
T parallel_accumulate(InputIt first, InputIt last, T init)
{
auto count = std::distance(first, last);
int threadNums = getThreadNums(count);
int blockSize = count / threadNums;
std::vector<std::thread> threads;
std::vector results(threadNums);
auto front = first;
for(int i = 0; i < threadNums; ++i)
{
auto back = front;
if(i != threadNums - 1)
std::advance(back, blockSize);
else
back = last;
threads.emplace_back([front, back, &results, i, init] { results[i] = std::accumulate(front, back, init); });
front = back;
}
for(auto& th : threads)
th.join();
return std::accumulate(results.begin(), results.end(), init);
}
测试代码为
#include
#include
#include
#include
#include
#include
#include
#include
#include "../../tinySTL/Profiler/profiler.h"
/* parallel_accumulate的实现 */
...
int main()
{
std::vector<long long int> v(100000000);
std::random_device rd;
std::generate(v.begin(), v.end(), [&rd]() { return rd() % 1000; });
tinystl::Profiler::ProfilerInstance::start();
auto result = parallel_accumulate(v.begin(), v.end(), 0);
tinystl::Profiler::ProfilerInstance::finish();
tinystl::Profiler::ProfilerInstance::dumpDuringTime();
std::cout << result << std::endl;
tinystl::Profiler::ProfilerInstance::start();
result = std::accumulate(v.begin(), v.end(), 0);
tinystl::Profiler::ProfilerInstance::finish();
tinystl::Profiler::ProfilerInstance::dumpDuringTime();
std::cout << result << std::endl;
return 0;
}
输出结果
g++ thread.cpp -o thread -std=c++14 -lpthread -g //编译
./thread //执行
total 213.717 milliseconds
-1584776879
total 776.649 milliseconds
-1584776879
虽然都溢出了,但是可以看出并行计算快很多
C++11提供的线程库使用起来比较方便,以前在学习多线程编程时一直使用的posix原生线程库,刚刚接触C++11时感觉方便很多,后面会继续学习互斥锁,条件变量的使用。