flytiger_ouc

C++:文本分类器

原文地址：http://palydawn.blog.163.com/blog/static/18296905620124171155256。

1. 序言

最近一直在做文本分类的实验，查阅了很多文章和资料后，大概清楚了文本分类的整体流程。根据查阅到的资料，编写了一个简单的文本分类程序，对这些工作，在这篇文章中做个总结。

2. 文本分类过程

2.1 实验样本选择

训练样本和测试样本使用的是"tc-corpus-answer.rar"中的txt文件，很早之前下载的，忘了具体是什么了，好像是人民日报的语料库，在里面挑选了4种类型（C7-History， C19-Computer， C32-Agriculture， C39-Sports）的文档用来做训练和测试。

表1 测试样本和训练样本数

2.2 文本分类流程图

图1左边部分是对训练样本的处理过程。

图1右边部分是对测试样本的处理过程。

图1 文本分类过程

2.3 训练样本处理

2.3.1 训练样本分词

分词的目的是将文档分割成一个个的单词。实验中用的分词器是中科院的"ICTCLAS"，号称是最好的汉语分词器，分词率9x.xx%（具体多少忘了，反正标的很高），测试了一下，效果不是他说的那么好（9x.xx%肯定是达不到的），不过网上貌似也没找到其他的分词器可以用了（可能有我不知道吧，懒得查了，就用这个）。"ICTCLAS"的分词效果虽然不如宣传的那样好，但是做实验用足够了。郁闷的是从官网上下下来的最新的"ICTCLAS50_Windows_32_C.rar"中包含的API文档和头文件"ICTCLAS50.h"中的接口不一样，很明显文档时很久以前的，把更新了的程序和古老的文档一起打包发布，不知道是什么原因。在官方网站上看到，"ICTCLAS"号称是开源的，下下来之后才发现，只有一个头文件，提供了几个简单的接口，用起来很不方便、不灵活。

2.3.2 去"停用词"

分词完成之后就要去除"停用词"了。所谓的"停用词"是那些没有意义的词语，他们对文本分类没有贡献，比如说各种标点符号，今后、今天、今年、今後这样的词语等。去掉这些没有作用的词语可以减少文本特征向量的维数，从而减少不必要的运算量。从网上下了几个停用词表合并起来使用，仍然出现了一些不想看到的东西，比如各种全角符号，全角数字，全角字母，还有一些数字和标点符号的混合体，要把这些全部去掉仅仅靠停用词表（停用词表枚举的情况是有限的，而这种乱七八糟的组合是无限的）是不够的。

狠了狠心，干脆把含有非汉字的单词全部去掉。图2列举的是常用汉字的GBK编码范围。对照这表里面的范围，把带有非汉字的词语全都过滤掉。接着对照着停用词表去停用词。通常的方法是对一篇分完词的文档，遍历每一个单词，对每一个单词，遍历一遍停用词表，查看此单词是否在停用词表中，在停用词表中就去掉，不在就保留。停用此表大概有2000个单词，假设平均一篇文档有1000个单词（没有细算，不需要太准确），一篇文档的去停用词工作需要计算2000*1000次，本实验中用的测试样本有3000多个，这样算起来运算就是2000*1000*3000次，才刚刚开始计算量就有点大了。

图2 常用汉字的编码范围

使用布隆过滤器去来去停用词是一件美好的事情，先把2000个停用词通过hash运算映射到一个bitmap中，再遍历每一个文档，对每一个文档遍历每一个单词，将每一个单词做hash运算，映射到相同的bitmap，检查bitmap中对应的位值是否为1即可。程序里面使用的是8个hash函数，故使用布隆过滤器的运算次数为2000*8 +1000 * 8 * 3000 ，而原始的方法运算次数为2000*1000*3000，运算次数大幅减少。布隆过滤器大幅减少运算次数的代价是一定的误判率，即，有些单词不在停用词表中却被误以为是停用词而被忽略，不过在bitmap很大、hash函数的个数最优的时候，误判的概率是非常小的，在我的程序里面，用了16万位的bitmap，8个hash函数，2000个停用词，每个停用词占用8个bit，一共才占用16000个bit，只有总容量的十分之一，错误率应该是很低的，2000个停用词误判不会超过10个（参照某一篇文献里面的布隆过滤器误判统计和分析，10个还是非常保守的估计），更何况，对于几千维、上万维的文本特征向量来说，这点小误差根本不重要。（关于布隆过滤器网上有很多资料）。

2.3.3 提取初步特征

提取初步特征就是对所有训练文档分词去停用词后的结果做并集操作，提取出一个特征集合，包含所有在分词去停用词后的样本中出现的单词。布隆过滤器是做大集合操作的优秀工具，最近非常喜欢用它，这里又用上了。最终得到的初步特征有35808维。如图3所示。

图3 初步属性特征

2.3.4 互信息计算、特征属性选择

这么多的特征用来做训练，运算的时间将会是很漫长的，这个时候降维是必要的。常用的降维方法有粗糙集属性约减、计算互信息，取互信息值最大的若干项等，粗糙集降维比较复杂，最近才开始看，这个实验里面用的是计算互信息，取互信息最大的5000个单词作为最终的特征属性。互信息的公式很容易实现。按从大到小的顺序排序之后取前5000个词就可以了。互信息计算结果如图4所示。

图4 互信息计算结果

2.3.5 文档特征向量（权重为tf-idf值）计算

确定了文档的特征属性之后，采用tf-idf作为文档属性值的权重，tf-idf的公式也很容易计算。遍历每一个文档，计算其特征向量，每个文档都用一个5000维的向量表示，按照所得到的文本特征向量按照libsvm的格式要求保存到文件。

计算得到的训练样本的文本特征向量如图5所示。可以看到，这些文本向量是很稀疏的。

不管是互信息计算还是tf-idf值都需要词频信息，而词频的统计又是一个很耗时的过程，统计35808维的特征词在每一个文档中出现的频率，总的运算次数为35808 * 1000 * 3000,在去停用词的时候，原始方法的慢勉强还是可以接受的，这个时候就不行了，在我的机器上每篇文档的词频统计目测需要一到两秒，3000篇就需要等很久了，这个时候解决的办法还是布隆过滤器,加速效果十分明显。

图5 训练样本的特征向量

2.3.6 样本训练

到这里所有的训练样本已经用特征向量表示了，接着就用libsvm做训练。SVM是一个很有前途的分类器，tlibsvm用起来也很方便。3000个5000维的特征向量，训练了一天多，交叉检验的准确率只有59.958%，训练结果如图6所示。在我参考的那篇论文里面，取1000维的特征向量，正确率、召回率都在90.XX%以上，靠！

图6 libsvm训练结果

2.4 测试样本处理

测试样本的处理的过程中也需要分词，去停用词，使用已经得到的5000维特征属性进行tf-idf的计算，计算出测试文档的特征向量，这些操作和训练样本处理时是相同的。使用libsvm训练的结果对测试样本进行分类，正确率69.7905%。

图5 测试结果

测试结果如图5所示，正确率69.7905%（474/680），比想象中的要好，训练的时候才59.958%，当然跟所有的文献里面比起来都显得低了。

各个类别的分类正确率如表2所示，有效的样本数是指排除掉文本特征向量中属性值全部为0的文档后剩下的数量。

表2 各种类型的测试结果

在表2中可以看到每一类测试样本中都有一些无效的（即文本特征向量的属性值全部为0）。这种情况在训练样本中也有，这里暂时不考虑这个问题。训练样本较多的C19-Computer、C32-Agriculture、C39-Sports分类准确率比训练样本较少的C7-History要高很多。

3. 需要解决的问题

目前只是实现了一个最简单的文本分类算法，效果很不好，还有很多需要改进的地方。

降维。选用互信息值最高的属性作为特征属性似乎是一种十分拙劣的手法，查看了以下互信息的排序结果，5000名以后的很多词语其实是很有价值的，但是忽略了，5000以内的很多词语排名靠前只是好像是因为出现的次数很少，很多都是没有意义的。（5000这个维度也是随便取得，没什么根据）。目前正在学习粗糙集的有关知识，查看了很多论文，感觉这个才是主流的降维方法。
特征向量中所有属性值都为0的情况。一共有35808 个特征属性，值提取其中的5000维作为特征属性，显然可能会出现某些文档中没有出现一个特征属性的情况，现在的处理办法是直接忽视掉，这样的处理方式的到的分类成功率肯定是不准确的。
特征属性权重的计算方式。除了tf-idf之外还有很多其他的方法可是使用，下一步会尝试几种其他的方法，并做对比分析。
训练。使用libsvm训练虽然很方便，但是也可以试一下其他的训练方法，如神经网络、决策树等。可能会有更好的结果。

这篇文章主要总结的是文本分类的过程，其中的运算时间、准确率等都只是一个概数，并没有进行太准确的测试和分析，其中的公式也一句带过。因为刚刚开始接触文本分类，实验主要的目的在于对文本分类流程有一个完整深刻的理解（比这么粗糙的系统做精确的分析和测试也没什么意义）。等到整个文本分类系统趋于完善了再做一个定量的分析和测试。

4. 后记

（虽然这只是一个小程序，里面的算法理论都是在别人论文里面找到的，我只是写代码实现，但是其中布隆过滤器用来去停用词，提取初步的特征，统计词频都是因为程序运行太慢我自己想出来的，灵感来自于前一段时间用python写的网络爬虫里面url的去重，看了十几篇论文，都没人把布隆过滤器和文本分类结合起来，(*^__^*) 嘻嘻……，这也能算一点微创新吧！）

----------------------------------------------------------------------------------------------------------

很久之前写的程序，里面有个bug当时没发现，IG值计算错误，导致分类成功率底，纠正之后分类正确率确实可以到90%以上。

其他文章：《libvsm回归详细操作步骤》 http://blog.sina.com.cn/s/blog_5980835e0100drwx.html。

基于libsvm的中文文本分类原型：http://blog.csdn.net/marising/article/details/5844063。

你可能感兴趣的:(C&C++)

第十三届蓝桥杯省赛C&C++ 研究生组 Moliay 蓝桥杯蓝桥杯 c语言 c++
蓝桥杯2022年第十三届省赛真题-裁纸刀蓝桥杯2022年第十三届省赛真题-灭鼠先锋蓝桥杯2022年第十三届省赛真题-质因数个数求个数，则只需要计数即可。求啥算啥，尽量不要搞多余操作蓝桥杯2022年第十三届省赛真题-选数异或蓝桥杯2022年第十三届省赛真题-GCD蓝桥杯2022年第十三届省赛真题-全排列的价值蓝桥杯2022年第十三届省赛真题-数的拆分蓝桥杯2022年第十三届省赛真题-重复的数
【C++航海王：追寻罗杰的编程之路】C&C++内存管理你知道哪些？枫叶丹4 C++C语言 c++visualstudio c语言后端开发语言
目录1->C/C++内存分布2->C语言中动态内存管理方式：malloc/calloc/realloc/free3->C++内存管理方式3.1->new/delete操作内置类型3.2->new和delete操作自定义类型4->operatornew与operatordelete函数4.1->operatornew与operatordelete函数5->new和delete的实现原理5.1->内置
第十二届蓝桥杯2021年C++A组省赛题解 whisper_0^0 蓝桥杯往年真题题解算法数据结构 c++蓝桥杯
文章目录注考生须知试题A：卡片试题B：直线题解代码（set+map）试题C：货物摆放题解代码试题D：路径题解代码试题E：回路计数题解代码试题F：砝码称重题解代码试题G：异或数列题解代码试题H：左孩子右兄弟代码试题I：括号序列题解试题J：分果果注官方题解：蓝桥杯近3年省赛真题讲解（C&C++大学A组）_数据结构-蓝桥云课历届真题：蓝桥杯大赛历届真题-C&C++大学A组-蓝桥云课考生须知试题A：卡片#
详解C&C++内存管理（new和delete） 2023Fighting C++c语言 c++java
文章目录写在前面1.C&C++内存分布2.C语言中动态内存管理方式：malloc/calloc/realloc/free3.C++内存管理方式（语法）3.1new/delete操作内置类型3.2new和delete操作自定义类型4.new和delete的实现原理4.1operatornew与operatordelete函数4.2实现原理4.2.1内置类型4.2.2自定义类型5.定位new表达式(p
【C&C++】内存管理2：new + delete cat_with_cat C++知识点 c语言 c++java
前言今天继续来学new和deleteoperatornew与operatordelete函数new和delete是用户进行动态内存申请和释放的操作符，operatornew和operatordelete是系统提供的全局函数，new在底层调用operatornew全局函数来申请空间，delete在底层通过operatordelete全局函数来释放空间。*operatornew/delete不是对二者
C&C++内存管理夹心宝贝 C++初阶 C++C 开发语言
1、C&C++内存分布如上代码中各变量的存储区域。1.栈又叫堆栈--非静态局部变量/函数参数/返回值等等，栈是向下增长的。2.内存映射段是高效的I/O映射方式，用于装载一个共享的动态内存库。用户可使用系统接口创建共享共享内存，做进程间通信。3.堆用于程序运行时动态内存分配，堆是可以上增长的。4.数据段--存储全局数据和静态数据。5.代码段--可执行的代码/只读常量。常量区是被保护的，不能被修改。那
从C语言到C++⑨(第三章_C&C++内存管理)详解new和delete+面试题笔试题 GR鲸鱼 ④从C语言到熟悉C++c语言 c++内存管理 new delete 面试
目录1.C语言动态内存管理1.1C和C++内存分布1.2C语言中动态内存管理的方式2.C++动态内存管理方式2.1new/delete操作内置类型2.2初始化new数组的问题2.3new和delete操作自定义类型3.operatornew与operatordelete函数详解3.1operatornew与operatordelete函数3.2重载operatornew与operatordelet
深入篇【C++】C&C++内存管理：new/delete底层原理剖析+思维导图总结小陶来咯 C++(初阶学习)c++c语言 java
深入篇【C++】C&C++内存管理：new/delete底层原理剖析+思维导图总结Ⅰ.C/C++内存分布Ⅱ.C的内存管理Ⅲ.C++的内存管理①.new/delete操作内置类型总结：②.new/delete操作自定义类型总结:③.operatornew与operatordelete总结：④.new/delete底层实现原理总结：⑤.定位new表达式(placement-new)总结：Ⅰ.C/C++
【C&C++】内存管理1：new + delete cat_with_cat C++知识点 c语言 c++java
前言之前我们学习过C语言中的内存管理（各种函数）今天我们来学习C++中的内存管理引入我们先来看下面的一段代码和相关问题intglobalVar=1;staticintstaticGlobalVar=1;voidTest(){staticintstaticVar=1;intlocalVar=1;intnum1[10]={1,2,3,4};charchar2[]="abcd";constchar*pC
Java基础+流程控制+方法+数组【笔记含代码】柑橘味柚芽 java
文章目录什么是计算机计算机硬件计算机软件DOS命令计算机语言发展史第一代语言第二代语言第三代语言Java帝国的诞生C&C++反抗Java初生Java发展Java特性和优势Java三大版本JDK、JRE、JVMJava开发环境搭建Java程序运行机制Java基础语法注释标识符标识符注意点数据类型什么是字节数据类型扩展类型转换变量变量作用域常量变量的命名规范运算符包机制JavaDocJava流程控制S
C&C++内存泄露和检测匠心码农 C/C++c语言 c++
介绍内存泄漏（MemoryLeak）是指在计算机程序运行过程中，程序动态分配了一块内存空间后，在使用完毕之后没有及时释放，导致这块内存无法被再次有效利用的现象。换言之，当程序申请的内存不再需要时，由于编程错误或其他原因，系统仍然认为这部分内存是正在使用的，从而使得这部分资源不能归还给操作系统供其他程序或进程使用。内存泄露的危害：资源浪费：随着程序运行时间的增长，持续未释放的内存会逐渐积累起来，造成
华为C&C++语言编程规范--笔记 yaoming168 C++语言学习 c语言 c++
华为C&C++语言编程规范1.基本要求1.1变量规则1.1.1：指针变量、表示资源描述符的变量、BOOL变量声明必须赋予初值规则1.1.2：指向资源句柄或描述符的变量，在资源释放后立即赋予新值规则1.1.3：类的成员变量必须在构造函数中赋予初值规则1.1.4：严禁对指针变量进行sizeof操作建议1.1.1：尽量使用const建议1.1.2：全局变量的访问如果涉及多个线程，需要考虑多线程竞争条件问
C&C++语言define和const区别匠心码农 C/C++c语言 c++
介绍#define和const都可以用于定义常量，但它们之间存在一些重要的差异。预处理器vs编译器:#define是预处理器的一部分，它会在编译前进行替换。这意味着它不占用任何存储空间。另一方面，const变量是存储在内存中的，由编译器处理。类型:#define没有类型，而const变量有类型。这使得const变量更加灵活，因为它们可以用于任何需要特定类型值的地方。作用域:#define没有作用域
c&c++反汇编与逆向分析学习笔记（3）--基本数据类型表现形式 csdn_KONG c c++汇编逆向分析数据类型
千万不要小看这些数据类型，我相信你肯定不知道float型数在变参函数参数传值时发生了什么。“小尾方式”在内存中存放数据，即按字节存放，高数据位存放在内存的低端，低数据位放在内存的高端。比如十六进制数0x12345678在内存中，将会存放为78563412。而大端则存放为12345678。X86体系结构为小尾方式。整数类型C++提供的整数类型有三种:int、long、short。在32位系统中，in
快速排序板子（备战蓝桥杯） Anzzm7 每日一题算法蓝桥杯 c++
题目：活动-AcWing蓝桥杯省赛无忧班（C&C++组）第4期_蓝桥杯-蓝桥云课【模板】排序-洛谷板子：voidquick_sort(intq[],intl,intr){if(l>=r)return;//这里的x尽量折半查找不然找左区间或者右区间可能会卡测试样例intx=q[l+r>>1],i=l-1,j=r+1;while(ix);if(i#include#includeusingnamespa
C&C++内存管理【非常详细，对新手友好】争不过朝夕，又念着往昔 C++c语言 c++
文章目录一、程序内存划分1.基础知识2.堆栈的区别3.题目练手二、C语言中动态内存管理方式三、C++中动态内存管理方式1.new/delete操作内置类型2.new/delete操作自定义类型四、operatornew和operatordelete函数1.汇编查看编译器底层调用2.透过源码分析两个全局函数五、new和delete的底层实现1.内置类型2.自定义类型六、定位new表达式1.使用格式与
C&C++编译和链接介绍匠心码农 C/C++c语言 c++开发语言
介绍C语言的编译和链接是将源代码转换为可执行文件的两个关键步骤。以下是详细的流程：编译过程（Compilation）预处理（Preprocessing）：编译器首先对源代码进行预处理，这个阶段处理#include包含的头文件、宏定义(#define)、条件编译(#ifdef,#endif)等指令，生成一个展开后的.i（或.cpp.gch，取决于编译器）中间文件。词法分析（LexicalAnalys
android jni 作用,JNI解析以及在Android中的实际应用 suniversity android jni 作用
原标题：JNI解析以及在Android中的实际应用本文作者作者：stormWen掘金主页：https://juejin.im/user/5743cb0ec26a38006c3b5c75本文由作者投稿发布。1简述JNI是JavaNativeInterface的缩写，它提供了若干的API实现了Java和其他语言的通信(在Android里面主要是C&C++)。从Java1.1开始，JNI标准成为java
Java学习（二）--java起源&发展&搭建 hahaha2221 java学习 java
C&C++**1972年C诞生**贴近硬件，运行极快，效率极高操作系统，编译器，数据库，网络系统等指针和内存管理1982年C++诞生面向对象兼容C图形领域，游戏等起源1990年年末，Sun公司预科嵌入式系统将在未来家用电器领域大显身手，于是Sun公司成立了一个由詹姆斯·高斯林（JamesGosling）（后来被称为Java之父）领导的“Creen计划”，准备为下一代智能家电（如电视机，微波炉，电话
【C&C++】为什么 scanf 函数在读取字符串时不需要用取地址运算符 & HEX9CF C&C++c语言 c++开发语言
在C语言中如何使用scanf读取字符串在C语言中，字符串实际上是字符数组，所以我们可以使用scanf函数来读取字符串。但是，需要注意的是，scanf在读取字符串时会在遇到空格、制表符或换行符时停止。因此，它不能用于读取包含空格的字符串。以下是使用scanf读取字符串的基本示例：charstr[100];scanf("%s",str);在这个例子中，我们定义了一个可以容纳100个字符的字符数组str
C语言（C&C++程序设计基础，电子科技大学MOOC）金色的省略号 C C++c语言 c++开发语言
一、编程作业1、在屏幕上输出“hello!welcometocomputerworld!”提示：注意所有符号都是英文，最后没有回车。将要求输出字符串之外的所有printf或者cout的输出全部删除将return0;之前的getchar();或者system("pause");等暂停程序运行的输出都删除。提交之前先在自己的开发环境下运行成功再拷贝到作业区提交。输出的语句最好拷贝到程序中，避免不小心的
c++指针实训 YanXi_Basketball 头歌c++程序设计 c++
参考文章（置于最上以表尊重）【Educoder作业】C&C++指针实训_JZYshuraK的博客-CSDN博客C++:去掉字符串首尾空格_微风可凉的博客-CSDN博客_c++去除字符串首尾空格第一关取字符串首尾的空格注意指针指向的位置和指向位置对应的值同时空字符‘\0’与空格不一样，注意判断条件。#includeusingnamespacestd;#define_CRT_SECURE_NO_WAR
C&C++刷题练习烟雨长虹，孤鹜齐飞 c语言 c++开发语言
蓝桥杯[错误的票据]题目：某涉密单位下发了某种票据，并要在年终全部收回每张票据有唯一的ID号。全年所有票据的ID号是连续的，但ID的开始数码是随机选定的。因为工作人员疏忽，在录入ID号的时候发生了一处错误，造成了某个ID断号，另外一个ID重号。你的任务是通过编程，找出断号的ID和重号的ID假设断号不可能发生在最大和最小号输入描述：要求程序首先输入一个整数N(Nusingnamespacestd;i
C&C++指针定义和初始化介绍匠心码农 C/C++c语言 c++开发语言
介绍在C语言中，指针是一个特殊的变量，用于存储内存地址。通过使用指针，可以间接访问和操作内存中的数据。下面是指针变量的定义和初始化的基本方法：定义指针变量：要定义一个指针变量，需要在变量名前加上一个星号（*）。这个星号表示该变量是一个指针。下面是一个例子：int*ptr;//定义一个指向整数的指针变量ptr在这个例子中，ptr是一个指向整数的指针变量。它的类型是int*，表示它存储的是一个整数的内
C&C++控制语句介绍匠心码农 C/C++c语言 c++
介绍C语言中的控制语句用于控制程序的执行流程。以下是一些主要的C语言控制语句：条件语句：if语句：根据条件执行一段代码。if...else语句：根据条件在两个代码块中选择一个执行。switch语句：根据表达式的值在多个代码块中选择一个执行。循环语句：while循环：当条件为真时，重复执行一段代码。do...while循环：至少执行一次代码块，然后当条件为真时重复执行。for循环：在循环中执行一段代
C&C++内存管理方式铁锅只炖海螺 c语言 c++开发语言
文章目录1.C/C++内存分布总结C语言中动态内存管理C++内存管理方式new/delete操作内置类型new和delete操作自定义类型c++推荐是用new和deleteoperatornew与operatordelete函数定位new1.C/C++内存分布我们先来看下面的一段代码和相关问题intglobalVar=1;staticintstaticGlobalVar=1;voidTest(){
C&C++枚举类型与类型定义(typedef) 匠心码农 C/C++c语言 c++开发语言
在C++中，枚举类型（enum）和类型定义（typedef）都是用来为数据类型创建别名的机制。它们可以提高代码的可读性和维护性。枚举类型（enum）枚举类型是一种用户自定义的数据类型，用于定义一组命名的常量值。枚举类型的声明通常如下：enumESex{ESex_Male,ESex_Female};在这个例子中，我们定义了一个名为ESex的枚举类型，并且它有两个可能的值：ESex_Male和ESex
C&C++内存对齐匠心码农 C/C++c语言 c++
说明在C语言中，内存对齐是一种优化技术，用于提高数据访问的速度并降低CPU的内存存取时间。内存对齐主要针对结构体、联合体等数据结构，编译器会自动将数据对齐到其自然对齐字节的整数倍的位置。C语言中内存对齐遵循以下规则：结构体变量的首地址是结构体变量中第一个成员的内存地址。结构体变量中的成员变量按照其类型的大小和顺序进行排列，不足的部分会用填充的方式补全。结构体变量的大小是所有成员变量大小之和，且必须
C&C++文件随机访问匠心码农 C/C++c语言 c++开发语言
说明文件随机访问指的是可以在文件中任意位置读取或写入数据，而不需要从文件开头开始读取或写入,可以使用fseek()函数来实现文件随机访问。应用实例#include#includeintmain(){FILE*fp;charch;fp=fopen("test.txt","r");if(fp==NULL){printf("无法打开文件！\n");exit(1);}//跳转到文件中的任意位置fseek(
面试准备每日五题：C++（六）——C&C++、static&const&extern、sizeof & strlen、指针&引用、数组指针&指针数组&函数指针 CodeLuweir 面试指针 c++数据结构
文章目录一、C和C++的区别是什么？二、关键字static、const、extern作用三、sizeof和strlen的区别四、指针和引用的区别五、指针数组、数组指针、函数指针一、C和C++的区别是什么？C是面向过程的语言，C++是在C语言的基础上开发的一种面向对象编程语言，应用广泛。C中函数不能进行重载，C++函数可以重载C++在C的基础上增添类，C是一个结构化语言，它的重点在于算法和数据结构。
多线程编程之存钱与取钱周凡杨 java thread 多线程存钱取钱
生活费问题是这样的：学生每月都需要生活费，家长一次预存一段时间的生活费，家长和学生使用统一的一个帐号，在学生每次取帐号中一部分钱，直到帐号中没钱时通知家长存钱，而家长看到帐户还有钱则不存钱，直到帐户没钱时才存钱。问题分析：首先问题中有三个实体，学生、家长、银行账户，所以设计程序时就要设计三个类。其中银行账户只有一个，学生和家长操作的是同一个银行账户，学生的行为是
java中数组与List相互转换的方法征客丶 JavaScript java jsonp
1.List转换成为数组。（这里的List是实体是ArrayList) 　　调用ArrayList的toArray方法。　　toArray 　　public T[] toArray(T[] a)返回一个按照正确的顺序包含此列表中所有元素的数组；返回数组的运行时类型就是指定数组的运行时类型。如果列表能放入指定的数组，则返回放入此列表元素的数组。否则，将根据指定数组的运行时类型和此列表的大小分
Shell 流程控制 daizj 流程控制 if else while case shell
Shell 流程控制和Java、PHP等语言不一样，sh的流程控制不可为空，如(以下为PHP流程控制写法)： <?php if(isset($_GET["q"])){ search(q);}else{// 不做任何事情} 在sh/bash里可不能这么写，如果else分支没有语句执行，就不要写这个else，就像这样 if else if if 语句语
Linux服务器新手操作之二周凡杨 Linux 简单操作
1.利用关键字搜寻Man Pages man -k keyword 其中-k 是选项，keyword是要搜寻的关键字如果现在想使用whoami命令，但是只记住了前3个字符who，就可以使用 man -k who来搜寻关键字who的man命令 [haself@HA5-DZ26 ~]$ man -k
socket聊天室之服务器搭建朱辉辉33 socket
因为我们做的是聊天室，所以会有多个客户端，每个客户端我们用一个线程去实现，通过搭建一个服务器来实现从每个客户端来读取信息和发送信息。我们先写客户端的线程。 public class ChatSocket extends Thread{ Socket socket; public ChatSocket(Socket socket){ this.sock
利用finereport建设保险公司决策分析系统的思路和方法老A不折腾 finereport 金融保险分析系统报表系统项目开发
决策分析系统呈现的是数据页面，也就是俗称的报表，报表与报表间、数据与数据间都按照一定的逻辑设定，是业务人员查看、分析数据的平台，更是辅助领导们运营决策的平台。底层数据决定上层分析，所以建设决策分析系统一般包括数据层处理（数据仓库建设）。项目背景介绍通常，保险公司信息化程度很高，基本上都有业务处理系统（像集团业务处理系统、老业务处理系统、个人代理人系统等）、数据服务系统（通过
始终要页面在ifream的最顶层林鹤霄
index.jsp中有ifream，但是session消失后要让login.jsp始终显示到ifream的最顶层。。。始终没搞定，后来反复琢磨之后，得到了解决办法，在这儿给大家分享下。。 index.jsp--->主要是加了颜色的那一句 <html> <iframe name="top" ></iframe> <ifram
MySQL binlog恢复数据 aigo mysql
1，先确保my.ini已经配置了binlog： # binlog log_bin = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.log log_bin_index = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.index log_error = D:/mysql-5.6.21-win
OCX打成CBA包并实现自动安装与自动升级 alxw4616 ocx cab
近来手上有个项目,需要使用ocx控件 (ocx是什么? http://baike.baidu.com/view/393671.htm) 在生产过程中我遇到了如下问题. 1. 如何让 ocx 自动安装? a) 如何签名? b) 如何打包? c) 如何安装到指定目录? 2.
Hashmap队列和PriorityQueue队列的应用百合不是茶 Hashmap队列 PriorityQueue队列
HashMap队列已经是学过了的,但是最近在用的时候不是很熟悉,刚刚重新看以一次, HashMap是K,v键 ,值 put()添加元素 //下面试HashMap去掉重复的 package com.hashMapandPriorityQueue; import java.util.H
JDK1.5 returnvalue实例 bijian1013 java thread java多线程 returnvalue
Callable接口：返回结果并且可能抛出异常的任务。实现者定义了一个不带任何参数的叫做 call 的方法。 Callable 接口类似于 Runnable，两者都是为那些其实例可能被另一个线程执行的类设计的。但是 Runnable 不会返回结果，并且无法抛出经过检查的异常。 ExecutorService接口方
angularjs指令中动态编译的方法(适用于有异步请求的情况) 内嵌指令无效 bijian1013 JavaScript AngularJS
在directive的link中有一个$http请求，当请求完成后根据返回的值动态做element.append('......');这个操作，能显示没问题，可问题是我动态组的HTML里面有ng-click，发现显示出来的内容根本不执行ng-click绑定的方法！
【Java范型二】Java范型详解之extend限定范型参数的类型 bit1129 extend
在第一篇中，定义范型类时，使用如下的方式： public class Generics<M, S, N> { //M,S,N是范型参数 } 这种方式定义的范型类有两个基本的问题： 1. 范型参数定义的实例字段，如private M m = null;由于M的类型在运行时才能确定，那么我们在类的方法中，无法使用m，这跟定义pri
【HBase十三】HBase知识点总结 bit1129 hbase
1. 数据从MemStore flush到磁盘的触发条件有哪些？ a.显式调用flush，比如flush 'mytable' b.MemStore中的数据容量超过flush的指定容量，hbase.hregion.memstore.flush.size,默认值是64M 2. Region的构成是怎么样？ 1个Region由若干个Store组成
服务器被DDOS攻击防御的SHELL脚本 ronin47
mkdir /root/bin vi /root/bin/dropip.sh #!/bin/bash/bin/netstat -na|grep ESTABLISHED|awk ‘{print $5}’|awk -F:‘{print $1}’|sort|uniq -c|sort -rn|head -10|grep -v -E ’192.168|127.0′|awk ‘{if($2!=null&a
java程序员生存手册-craps 游戏-一个简单的游戏 bylijinnan java
import java.util.Random; public class CrapsGame { /** * *一个简单的赌*博游戏，游戏规则如下： *玩家掷两个骰子，点数为1到6，如果第一次点数和为7或11，则玩家胜， *如果点数和为2、3或12，则玩家输， *如果和为其它点数，则记录第一次的点数和，然后继续掷骰，直至点数和等于第一次掷出的点
TOMCAT启动提示NB: JAVA_HOME should point to a JDK not a JRE解决开窍的石头 JAVA_HOME
当tomcat是解压的时候，用eclipse启动正常，点击startup.bat的时候启动报错; 报错如下： The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME shou
[操作系统内核]操作系统与互联网 comsci 操作系统
我首先申明：我这里所说的问题并不是针对哪个厂商的，仅仅是描述我对操作系统技术的一些看法操作系统是一种与硬件层关系非常密切的系统软件，按理说，这种系统软件应该是由设计CPU和硬件板卡的厂商开发的，和软件公司没有直接的关系，也就是说，操作系统应该由做硬件的厂商来设计和开发
富文本框ckeditor_4.4.7 文本框的简单使用支持IE11 cuityang 富文本框
<html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <title>知识库内容编辑</tit
Property null not found darrenzhu datagrid Flex Advanced propery null
When you got error message like "Property null not found ***", try to fix it by the following way: 1)if you are using AdvancedDatagrid, make sure you only update the data in the data prov
MySQl数据库字符串替换函数使用 dcj3sjt126com mysql 函数替换
需求：需要将数据表中一个字段的值里面的所有的 . 替换成 _ 原来的数据是 site.title site.keywords .... 替换后要为 site_title site_keywords 使用的SQL语句如下： updat
mac上终端起动MySQL的方法 dcj3sjt126com mysql mac
首先去官网下载: http://www.mysql.com/downloads/ 我下载了5.6.11的dmg然后安装,安装完成之后..如果要用终端去玩SQL.那么一开始要输入很长的:/usr/local/mysql/bin/mysql 这不方便啊,好想像windows下的cmd里面一样输入mysql -uroot -p1这样...上网查了下..可以实现滴. 打开终端,输入: 1
Gson使用一（Gson） eksliang json gson
转载请出自出处：http://eksliang.iteye.com/blog/2175401 一.概述从结构上看Json，所有的数据（data）最终都可以分解成三种类型：第一种类型是标量（scalar），也就是一个单独的字符串（string）或数字（numbers），比如"ickes"这个字符串。第二种类型是序列（sequence），又叫做数组（array）
android点滴4 gundumw100 android
Android 47个小知识 http://www.open-open.com/lib/view/open1422676091314.html Android实用代码七段（一） http://www.cnblogs.com/over140/archive/2012/09/26/2611999.html http://www.cnblogs.com/over140/arch
JavaWeb之JSP基本语法 ihuning javaweb
目录 JSP模版元素 JSP表达式 JSP脚本片断 EL表达式 JSP注释特殊字符序列的转义处理如何查找JSP页面中的错误 JSP模版元素 JSP页面中的静态HTML内容称之为JSP模版元素，在静态的HTML内容之中可以嵌套JSP
App Extension编程指南（iOS8/OS X v10.10）中文版啸笑天 ext
当iOS 8.0和OS X v10.10发布后，一个全新的概念出现在我们眼前，那就是应用扩展。顾名思义，应用扩展允许开发者扩展应用的自定义功能和内容，能够让用户在使用其他app时使用该项功能。你可以开发一个应用扩展来执行某些特定的任务，用户使用该扩展后就可以在多个上下文环境中执行该任务。比如说，你提供了一个能让用户把内容分
SQLServer实现无限级树结构 macroli oracle sql SQL Server
表结构如下：数据库id path titlesort 排序 1 0 首页 0 2 0,1 新闻 1 3 0,2 JAVA 2 4 0,3 JSP 3 5 0,2,3 业界动态 2 6 0,2,3 国内新闻 1 创建一个存储过程来实现，如果要在页面上使用可以设置一个返回变量将至传过去 create procedure test as begin decla
Css居中div，Css居中img，Css居中文本，Css垂直居中div qiaolevip 众观千象学习永无止境每天进步一点点 css
/**********Css居中Div**********/ div.center { width: 100px; margin: 0 auto; } /**********Css居中img**********/ img.center { display: block; margin-left: auto; margin-right: auto; }
Oracle 常用操作(实用) 吃猫的鱼 oracle
SQL>select text from all_source where owner=user and name=upper('&plsql_name'); SQL>select * from user_ind_columns where index_name=upper('&index_name'); 将表记录恢复到指定时间段以前
iOS中使用RSA对数据进行加密解密 witcheryne ios rsa iPhone objective c
RSA算法是一种非对称加密算法,常被用于加密数据传输.如果配合上数字摘要算法, 也可以用于文件签名. 本文将讨论如何在iOS中使用RSA传输加密数据. 本文环境 mac os openssl-1.0.1j, openssl需要使用1.x版本, 推荐使用[homebrew](http://brew.sh/)安装. Java 8 RSA基本原理 RS

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他