STL 算法
distance
很多时候我们希望在一个 vector ,或者 list ,或者什么其他东西里面,找到一个值在哪个位置,这个时候 find 帮不上忙,而有人就转而求助手写循环了,而且是原始的手写循环: for ( int i = 0; i < vect.size(); ++i) if ( vect[i] == value ) break; 如果编译器把 i 看作 for scope 的一部分,你还要把 i 的声明拿出去。真的需要这样么?看看这个: int dist = distance(col.begin(), find(col.begin(), col.end(), 5)); 其中 col 可以是很多容器,list, vector, deque... 当然这是你确定 5 就在 col 里面的情形,如果你不确定,那就加点判断: int dist; list<int>::iterator pos = find(col.begin(), col.end(), 5); if ( pos != col.end() ) dist = distance(col.begin(), pos); 我想这还是比手写循环来的好些吧。 -------------------------------------------------------------------------- max, min 这是有直接的算法支持的,当然复杂度是 O(n),用于未排序容器,如果是排序容器...老兄,那还需要什么算法么? max_element(col.begin(), col.end()); min_element(col.begin(), col.end()); 注意返回的是 iterator ,如果你关心的只是值,那么好: *max_element(col.begin(), col.end()); *min_element(col.begin(), col.end()); max_element 和 min_element 都默认用 less 来排序,它们也都接受一个 binary predicate ,如果你足够无聊,甚至可以把 max_element 当成 min_element 来用,或者反之: *max_element(col.begin(), col.end(), greater<int>()); // 返回最小值! *min_element(col.begin(), col.end(), greater<int>()); // 返回最大值 当然它们的本意不是这个,而是让你能在比较特殊的情况下使用它们,例如,你要比较的是每个元素的某个成员,或者成员函数的返回值。例如: #include <iostream> #include <list> #include <algorithm> #include <string> #include <boost/bind.hpp> using namespace boost; using namespace std; struct Person { Person(const string& _name, int _age) : name(_name), age(_age) {} int age; string name; }; int main() { list<Person> col; list<Person>::iterator pos; col.push_back(Person("Tom", 10)); col.push_back(Person("Jerry", 12)); col.push_back(Person("Mickey", 9)); Person eldest = *max_element(col.begin(), col.end(), bind(&Person::age, _1) < bind(&Person::age, _2));//>=1.33 cout << eldest.name; } 输出是 Jerry ,这里用了 boost.bind ,原谅我不知道用 bind2nd, mem_fun 怎么写,我也不想知道... ------------------------------------------------------------------------- copy_if 没错,STL 里面压根没有 copy_if ,这就是为什么我们需要这个: template<typename InputIterator, typename OutputIterator, typename Predicate> OutputIterator copy_if( InputIterator begin, InputIterator end, OutputIterator destBegin, Predicate p) { while (begin != end) { if (p(*begin))*destBegin++ = *begin; ++begin; } return destBegin; } 把它放在自己的工具箱里,是一个明智的选择。 ------------------------------------------------------------------------ 惯用手法:erase(iter++) 如果你要去除一个 list 中的某些元素,那可千万小心:(下面的代码是错的!!!) #include <iostream> #include <algorithm> #include <iterator> #include <list> int main() { int arr[] = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10}; std::list<int> lst(arr, arr + 10); for ( std::list<int>::iterator iter = lst.begin(); iter != lst.end(); ++iter) if ( *iter % 2 == 0 ) lst.erase(iter); std::copy(lst.begin(), lst.end(), std::ostream_iterator<int>(std::cout, " ")); } 当 iter 被 erase 掉的时候,它已经失效,而后面却还会做 ++iter ,其行为无可预期!如果你不想动用 remove_if ,那么唯一的选择就是: #include <iostream> #include <algorithm> #include <iterator> #include <list> int main() { int arr[] = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10}; std::list<int> lst(arr, arr + 10); for ( std::list<int>::iterator iter = lst.begin(); iter != lst.end(); ) if ( *iter % 2 == 0 ) lst.erase(iter++); else ++iter; std::copy(lst.begin(), lst.end(), std::ostream_iterator<int>(std::cout, " ")); } 但是上面的代码不能用于 vector, string 和 deque ,因为对于这些容器, erase 不光令 iter 失效,还令 iter 之后的所有 iterator 失效! ------------------------------------------------------------------------- erase(remove...) 惯用手法 上面的循环如此难写,如此不通用,如此不容易理解,还是用 STL 算法来的好,但是注意,光 remove_if 是没用的,必须使用 erase(remove...) 惯用手法: #include <iostream> #include <algorithm> #include <iterator> #include <list> #include <functional> #include <boost/bind.hpp> int main() { int arr[] = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10}; std::list<int> lst(arr, arr + 10); lst.erase(remove_if(lst.begin(), lst.end(), boost::bind(std::modulus<int>(), _1, 2) == 0), lst.end() ); std::copy(lst.begin(), lst.end(), std::ostream_iterator<int>(std::cout, " ")); } 当然,这里借助了 boost.bind ,让我们不用多写一个没用的 functor 。 |
简单常识——关于stream
从文件中读入一行
简单,这样就行了:
ifstream ifs("input.txt");
char buf[1000];
ifs.getline(buf, sizeof buf);
string input(buf);
当然,这样没有错,但是包含不必要的繁琐和拷贝,况且,如果一行超过1000个字符,就必须用一个循环和更麻烦的缓冲管理。下面这样岂不是更简单?
string input;
input.reserve(1000);
ifstream ifs("input.txt");
getline(ifs, input);
不仅简单,而且安全,因为全局函数 getline 会帮你处理缓冲区用完之类的麻烦,如果你不希望空间分配发生的太频繁,只需要多 reserve 一点空间。
这就是“简单常识”的含义,很多东西已经在那里,只是我一直没去用。
---------------------------------------------------------------------------
一次把整个文件读入一个 string
我希望你的答案不要是这样:
string input;
while( !ifs.eof() )
{
string line;
getline(ifs, line);
input.append(line).append(1, '\n');
}
当然了,没有错,它能工作,但是下面的办法是不是更加符合 C++ 的精神呢?
string input(
istreambuf_iterator<char>(instream.rdbuf()),
istreambuf_iterator<char>()
);
同样,事先分配空间对于性能可能有潜在的好处:
string input;
input.reserve(10000);
input.assign(
istreambuf_iterator<char>(ifs.rdbuf()),
istreambuf_iterator<char>()
);
很简单,不是么?但是这些却是我们经常忽略的事实。
补充一下,这样干是有问题的:
string input;
input.assign(
istream_iterator<char>(ifs),
istream_iterator<char>()
);
因为它会忽略所有的分隔符,你会得到一个纯“字符”的字符串。最后,如果你只是想把一个文件的内容读到另一个流,那没有比这更快的了:
fstream fs("temp.txt");
cout << fs.rdbuf();
因此,如果你要手工 copy 文件,这是最好的(如果不用操作系统的 API):
ifstream ifs("in.txt");
ofstream ofs("out.txt");
ofs << in.rdbuf();
-------------------------------------------------------------------------
open 一个文件的那些选项
ios::in Open file for reading
ios::out Open file for writing
ios::ate Initial position: end of file
ios::app Every output is appended at the end of file
ios::trunc If the file already existed it is erased
ios::binary Binary mode
-------------------------------------------------------------------------
还有 ios 的那些 flag <!--startfragment -->
flag effect if set ios_base::boolalpha input/output bool objects as alphabetic names (true, false). ios_base::dec input/output integer in decimal base format. ios_base::fixed output floating point values in fixed-point notation. ios_base::hex input/output integer in hexadecimal base format. ios_base::internal the output is filled at an internal point enlarging the output up to the field width. ios_base::left the output is filled at the end enlarging the output up to the field width. ios_base::oct input/output integer in octal base format. ios_base::right the output is filled at the beginning enlarging the output up to the field width. ios_base::scientific output floating-point values in scientific notation. ios_base::showbase output integer values preceded by the numeric base. ios_base::showpoint output floating-point values including always the decimal point. ios_base::showpos output non-negative numeric preceded by a plus sign (+). ios_base::skipws skip leading whitespaces on certain input operations. ios_base::unitbuf flush output after each inserting operation. ios_base::uppercase output uppercase letters replacing certain lowercase letters.
There are also defined three other constants that can be used as masks:
constant value ios_base::adjustfield left | right | internal ios_base::basefield dec | oct | hex ios_base::floatfield scientific | fixed
--------------------------------------------------------------------------
用我想要的分隔符来解析一个字符串,以及从流中读取数据
这曾经是一个需要不少麻烦的话题,由于其常用而显得尤其麻烦,但是其实 getline 可以做得不错:
getline(cin, s, ';');
while ( s != "quit" )
{
cout << s << endl;
getline(cin, s, ';');
}
简单吧?不过注意,由于这个时候 getline 只把 ; 作为分隔符,所以你需要用 ;quit; 来结束输入,否则 getline 会把前后的空格和回车都读入 s ,当然,这个问题可以在代码里面解决。
同样,对于简单的字符串解析,我们是不大需要动用什么 Tokenizer 之类的东西了:
#include <iostream>
#include <sstream>
#include <string>
using namespace std;
int main()
{
string s("hello,world, this is a sentence; and a word, end.");
stringstream ss(s);
for ( ; ; )
{
string token;
getline(ss, token, ',');
if ( ss.fail() ) break;
cout << token << endl;
}
}
输出:
hello
world
this is a sentence; and a word
end.
很漂亮不是么?不过这么干的缺陷在于,只有一个字符可以作为分隔符。
--------------------------------------------------------------------------
把原本输出到屏幕的东西输出到文件,不用到处去把 cout 改成 fs
输出到屏幕的是:
display something on screen
输出到文件的是:
write something to file
也就是说,只要改变 ostream 的 rdbuf ,就可以重定向了,但是这招对 fstream 和 stringstream 都没用。
--------------------------------------------------------------------------
关于 istream_iterator 和 ostream_iterator
经典的 ostream_iterator 例子,就是用 copy 来输出:
#include <iostream>
#include <fstream>
#include <sstream>
#include <algorithm>
#include <vector>
#include <iterator>
using namespace std;
int main()
{
vector<int> vect;
for ( int i = 1; i <= 9; ++i )
vect.push_back(i);
copy(vect.begin(), vect.end(),
ostream_iterator<int>(cout, " ")
);
cout << endl;
ostream_iterator<double> os_iter(cout, " ~ ");
*os_iter = 1.0;
os_iter++;
*os_iter = 2.0;
*os_iter = 3.0;
}
输出:
1 2 3 4 5 6 7 8 9
1 ~ 2 ~ 3 ~
很明显,ostream_iterator 的作用就是允许对 stream 做 iterator 的操作,从而让算法可以施加于 stream 之上,这也是 STL 的精华。与前面的“读取文件”相结合,我们得到了显示一个文件最方便的办法:
copy(istreambuf_iterator<char>(ifs.rdbuf()),
istreambuf_iterator<char>(),
ostreambuf_iterator<char>(cout)
);
同样,如果你用下面的语句,得到的会是没有分隔符的输出:
copy(istream_iterator<char>(ifs),
istream_iterator<char>(),
ostream_iterator<char>(cout)
);
那多半不是你要的结果。如果你硬是想用 istream_iterator 而不是 istreambuf_iterator 呢?还是有办法:
copy(istream_iterator<char>(ifs >> noskipws),
istream_iterator<char>(),
ostream_iterator<char>(cout)
);
但是这样不是推荐方法,它的效率比第一种低不少。
如果一个文件 temp.txt 的内容是下面这样,那么我的这个从文件中把数据读入 vector 的方法应该会让你印象深刻。
12345 234 567
89 10
程序:
#include <iostream>
#include <fstream>
#include <algorithm>
#include <vector>
#include <iterator>
using namespace std;
int main()
{
ifstream ifs("temp.txt");
vector<int> vect;
vect.assign(istream_iterator<int>(ifs),
istream_iterator<int>()
);
copy(vect.begin(), vect.end(), ostream_iterator<int>(cout, " "));
}
输出:
12345 234 567 89 10
很酷不是么?判断文件结束、移动文件指针之类的苦工都有 istream_iterator 代劳了。
-----------------------------------------------------------------------
其它算法配合 iterator
计算文件行数:
int line_count =
count(istreambuf_iterator<char>(ifs.rdbuf()),
istreambuf_iterator<char>(),
'\n');
当然确切地说,这是在计算文件中回车符的数量,同理,你也可以计算文件中任何字符的数量,或者某个 token 的数量:
int token_count =
count(istream_iterator<string>(ifs),
istream_iterator<string>(),
"#include");
注意上面计算的是 “#include” 作为一个 token 的数量,如果它和其他的字符连起来,是不算数的。
------------------------------------------------------------------------
Manipulator
Manipulator 是什么?简单的说,就是一个接受一个 stream 作为参数,并且返回一个 stream 的函数,比如上面的 unskipws ,它的定义是这样的:
inline ios_base&
noskipws(ios_base& __base)
{
__base.unsetf(ios_base::skipws);
return __base;
}
这里它用了更通用的 ios_base 。知道了这一点,你大概不会对自己写一个 manipulator 有什么恐惧感了,下面这个无聊的 manipulator 会忽略 stream 遇到第一个分号之前所有的输入(包括那个分号):
template <class charT, class traits>
inline std::basic_istream<charT, traits>&
ignoreToSemicolon (std::basic_istream<charT, traits>& s)
{
s.ignore(std::numeric_limits<int>::max(), s.widen(';'));
return s;
}
不过注意,它不会忽略以后的分号,因为 ignore 只执行了一次。更通用一点,manipulator 也可以接受参数的,下面这个就是 ignoreToSemicolon 的通用版本,它接受一个参数, stream 会忽略遇到第一个该参数之前的所有输入,写起来稍微麻烦一点:
struct IgnoreTo {
char ignoreTo;
IgnoreTo(char c) : ignoreTo(c)
{}
};
std::istream& operator >> (std::istream& s, const IgnoreTo& manip)
{
s.ignore(std::numeric_limits<int>::max(), s.widen(manip.ignoreTo));
return s;
}
但是用法差不多:
copy(istream_iterator<char>(ifs >> noskipws >> IgnoreTo(';')),
istream_iterator<char>(),
ostream_iterator<char>(cout)
);
其效果跟 IgnoreToSemicolon 一样。
STL算法学习,小结如下:
前提:
下载stl源码: http://www.sgi.com/tech/stl/download.html 打开网页: http://www.sgi.com/tech/stl/stl_index.html
一 函数对象: 因为很多的算法中多使用了函数对象
二元函数对象,V1和V2为输入,V3为结果
plus<T>: transform(V1.begin(), V1.end(), V2.begin(), V3.begin(),plus<double>());
其他的二元函数对象:minus,multiples,divieds,modulus.
二元断言函数对象,使用时需要bind2nd()或bind1st()来绑定比较对象。
less<T>: find_if(L.begin(), L.end(), bind2nd(less<int>(), 0));
其他的二元断言函数:equal_to,notequal_to,greater,greater_equal,less_equal,logical_and,logical_or
二元逻辑函数
binary_negate: const char* wptr = find_if(str, str + MAXLEN, compose2(not2(logical_or<bool>()), bind2nd(equal_to<char>(), ' '), bind2nd(equal_to<char>(), '\n')));
一元函数对象
negate: transform(V1.begin(), V1.end(), V2.begin(), negate<int>());
一元断定函数对象
logical_not: transform(V.begin(), V.end(), V.begin(), logical_not<bool>());
一元逻辑函数
unary_negate:
二 函数对象发生器:主要用来填充序列。 产 生不重复的随机数: // Generate unique random numbers from 0 to mod: class URandGen { std::set<int> used; int limit; public: URandGen(int lim) : limit(lim) { srand(time(0)); } int operator()() { while(true) { int i = int(rand()) % limit; if(used.find(i) == used.end()) { used.insert(i); return i; } } } };
const int sz = 10; const int max = 50; vector<int> x(sz), y(sz), r(sz); //An integer random number generator: URandGen urg(max); generate_n(x.begin(), sz, urg);
三 函数对象适配器 : 将函数转化为函数对象
ptr_fun:一般函数适配器
一元实例: transform(first, last, first, compose1(negate<double>, ptr_fun(fabs)));
二元实例: list<char*>::iterator item = find_if(L.begin(), L.end(), not1(binder2nd(ptr_fun(strcmp), "OK")));
not1:对一元的断定函数对象取反的适配器。
not2: 对二元的断定函数对象取反的适配器。
mem_fun与mem_fun_ref:类成员函数的适配器,区别是一个需要指针,而另一个仅需要一般对象。如下: shape是一个指针变量,则foreach(v.begin(),v.end(),mem_fun(&shape::draw)); 但如果shape是一般的变量,不是指针,则 foreach(v.begin(),v.end(),mem_fun_ref(&shape::draw));
四 算法:
拷贝: copy() reverse_copy() rotate_copy() remove_copy() 拷贝不等于某值的元素到另一个序列。 remove_copy_if() 拷贝符合条件的到另一个序列。
填充和生成: fill() fill_n() 填充序列中的n个元素。 generate()为序列中的每个元素调用gen()函数。
排列: next_permuttion() 后一个排列。 prev_permutation()
partition() 划分,将满足条件的元素移动到序列的前面。 stable_partition()
查找和替换: find() binary_search() 在一个已经有顺序的序列上查找。 find_if() search() 检查第二个序列是否在第一个序列中出现,且顺序相同。
删除:注意必须调用erase()来真正删除 remove() unique()删除相邻重复元素,最好现排序。
合并序列: merge()
数值算法: accumulate() 对序列的每个元素进行运算后求和。 transform() 也可以对每个元素进行运算。 计数: size()总个数。 count()等于某值的元素个数。
adjacent_difference 序列中的后一个减前与他相邻的前一个得到新的序列。
adiacent_find
五 所有的算法:
accumlate : iterator 对标志的序列中的元素之和,加到一个由 init 指定的初始值上。重载的版本不再做加法,而是传进来的二元操作符被应用到元素上。
adjacent_different :创建一个新序列,该序列的每个新值都代表了当前元素与上一个元素的差。重载版本用指定的二元操作计算相邻元素的差。
adjacent_find :在 iterator 对标志的元素范围内,查找一对相邻的重复元素,如果找到返回一个 ForwardIterator ,指向这对元素的第一个元素。否则返回 last 。重载版本使用输入的二元操作符代替相等的判断。
binary_search :在有序序列中查找 value ,如果找到返回 true 。重载的版本使用指定的比较函数对象或者函数指针来判断相等。
copy :复制序列
copy_backward :除了元素以相反的顺序被拷贝外,别的和 copy 相同。 count :利用等于操作符,把标志范围类的元素与输入的值进行比较,并返回相等元素的个数
count_if :对于标志范围类的元素,应用输入的操作符,并返回结果为 true 的次数。
equal :如果两个序列在范围内的元素都相等,则 equal 返回 true 。重载版本使用输入的操作符代替了默认的等于操作符。
equal_range :返回一对 iterator ,第一个 iterator 表示由 lower_bound 返回的 iterator ,第二个表示由 upper_bound 返回的 iterator 值。
fill :将输入的值的拷贝赋给范围内的每个元素。
fill_n :将输入的值赋值给 first 到 frist+n 范围内的元素。
find :利用底层元素的等于操作符,对范围内的元素与输入的值进行比较。当匹配时,结束搜索,返回该元素的一个 InputIterator 。
find_if :使用输入的函数替代了等于操作符执行了 find 。
find_end :在范围内查找“由输入的另外一个 iterator 对标志的第二个序列”的最后一次出现。重载版本中使用了用户输入的操作符替代等于操作。
find_first_of :在范围内查找“由输入的另外一个 iterator 对标志的第二个序列”中的任意一个元素的第一次出现。重载版本中使用了用户自定义的操作符。
for_each :依次对范围内的所有元素执行输入的函数。
generate :通过对输入的函数 gen 的连续调用来填充指定的范围。
generate_n :填充 n 个元素。
includes :判断 [first1, last1) 的一个元素是否被包含在另外一个序列中。使用底层元素的 <= 操作符,重载版本使用用户输入的函数。
inner_product :对两个序列做内积 ( 对应的元素相乘,再求和 ) ,并将内积加到一个输入的的初始值上。重载版本使用了用户定义的操作。
inner_merge :合并两个排过序的连续序列,结果序列覆盖了两端范围,重载版本使用输入的操作进行排序。
iter_swap :交换两个 ForwardIterator 的值。
lexicographical_compare :比较两个序列。重载版本使用了用户自定义的比较操作。
lower_bound :返回一个 iterator ,它指向在范围内的有序序列中可以插入指定值而不破坏容器顺序的第一个位置。重载函数使用了自定义的比较操作。 max :返回两个元素中的较大的一个,重载版本使用了自定义的比较操作。
max_element :返回一个 iterator ,指出序列中最大的元素。重载版本使用自定义的比较操作。
min :两个元素中的较小者。重载版本使用自定义的比较操作。
min_element :类似与 max_element ,不过返回最小的元素。
merge :合并两个有序序列,并存放到另外一个序列中。重载版本使用自定义的比较。
mismatch :并行的比较两个序列,指出第一个不匹配的位置,它返回一对 iterator ,标志第一个不匹配的元素位置。如果都匹配,返回每个容器的 last 。重载版本使用自定义的比较操作。 next_permutation :取出当前范围内的排列,并将其重新排序为下一个排列。重载版本使用自定义的比较操作。
nth_element :将范围内的序列重新排序,使所有小于第 n 个元素的元素都出现在它前面,而大于它的都出现在后面,重载版本使用了自定义的比较操作。
partial_sort :对整个序列做部分排序,被排序元素的个数正好可以被放到范围内。重载版本使用自定义的比较操作。
partial_sort_copy :与 partial_sort 相同,除了将经过排序