唐名威

【2016年第4期】面向大数据的粒计算理论与方法研究进展

梁吉业^1,2，钱宇华^1,2，李德玉^1,2，胡清华³

1.山西大学计算智能与中文信息处理教育部重点实验室，山西太原 030006； 2. 山西大学计算机与信息技术学院，山西太原 030006；3. 天津大学计算机科学与技术学院，天津 300072

摘要：大数据的规模性、多模态性与增长性给传统的数据挖掘方法带来了挑战。粒计算作为智能信息处理领域中大规模复杂问题求解的有效方法，探索大数据分析的粒计算理论与方法有望为应对这些挑战提供新的思路和策略。瞄准若干大数据挖掘任务，对数据粒化、多粒度模式发现与融合、多粒度/跨粒度推理等方面取得的一些进展进行梳理和剖析，并针对天文数据挖掘和微博数据挖掘两个典型示范应用领域的初步研究进行了总结，以期为大数据挖掘领域的研究做出有益的探索。

关键词：大数据；粒计算；数据挖掘；信息粒化；多粒度

中图分类号：TP391 文献标识码：A

doi: 10.11959/j.issn.2096-0271.2016038

论文引用格式：梁吉业，钱宇华，李德玉，等. 面向大数据的粒计算理论与方法研究进展[J]. 大数据, 2016, 2(4): 13-23.

LIANG J Y, QIAN Y H, LI D Y, et al. Researchdevelopment on granular computing theory and method for big data[J]. Big Data Research, 2016, 2(4): 13-23.

Research development on granular computing theory and method for big data

LIANG Jiye^1,2, QIAN Yuhua^{1, 2}, LiDeyu^{1, 2}, HU Qinghua³

1. Key Laboratory of Computational Intelligence and Chinese Information Processing of Ministry of Education, Shanxi University,Taiyuan 030006, China

2. School of Computer and Information Technology, Shanxi University, Taiyuan 030006, China

3. School of Computer Science and Technology, Tianjin University, Tianjin 300072, China

Abstract:Aiming at severaldata mining tasks, research developments on data granulation, multi-granularitypattern discovery and fusion, multi-granularity reasoning were carded andanalyzed, and the preliminary study on two typical applications astronomical data mining and microblog data mining was summarized, which would be helpful for making a beneficial exploration in big data mining area.

Key words: big data, granular computing, data mining,information granulation, multi-granularity

1 引言

随着计算机技术、网络技术和传感器技术，特别是现代网络、云计算等技术的广泛应用，数据的生成和收集技术迅猛发展，数据量呈爆炸式增长态势，传统的数据处理技术遇到了极大挑战。在生物数据分析中，无论是DNA/RNA序列数据、蛋白质结构数据，还是代谢组数据、基因芯片数据，都是大数据中的典型类型数据。在社会媒体计算中，视频数据、语音数据、文本数据以及图像数据等都呈现出快速增长的趋势，如微博的用户量、访问时间以及微博信息量都快速增长。大数据在现代信息社会中的数据资源主体地位已成为学术界与企业界的共识，它不仅对经济活动与社会发展具有重要推动作用，也成为了世界主要经济体的战略研究计划。如何高效地从这些大数据中进行数据挖掘成为了当今信息科学领域研究的热点问题。

从大数据的外在来看，大数据经常呈现出大规模性、多模态性与增长性等特征，使得传统的数据分析理论、方法与技术面临可计算性、有效性与时效性等严峻挑战。

粒计算是专门研究基于粒结构的思维模式、问题求解方法、信息处理模式的理论、方法、技术和工具的学科，是当前智能信息处理领域中一种新的计算范式。通过分析大数据的表现形态、大数据挖掘面临的挑战与粒计算核心理念的内在关系可知，大数据自身具有天然的多层次/多粒度特性，数据挖掘任务也经常呈现多层次/多粒度特性，而大数据挖掘算法本身也要求可计算性、有效性、高效近似求解特性。这表明大数据的分析需求和粒计算框架有很强的契合性。

为了应对这些挑战，笔者着重在大数据的特征选择与信息粒化、多粒度模式发现与融合以及复杂决策任务的多粒度/跨粒度高效推理等方面做了初步研究，取得了一些重要的研究进展和成果。

2 大规模数据的特征选择与信息粒化

2.1 特征选择研究

（1）基于随机特征映射的降维方法

核方法是一类重要的机器学习方法，具有坚实的理论基础和完整的学习框架。该方法利用核函数将输入样本隐式地映射到一个高维甚至是无限维的特征空间，使原空间中的非线性可分样本在特征空间中实现线性可分。核矩阵保有核函数及输入样本的全部信息，是核方法表示和处理的核心。然而，核矩阵存储和计算的高复杂度成为核方法在大规模问题中的应用瓶颈。基于循环随机矩阵投影，笔者所在课题组提出了一种新的随机特征映射方法，将输入样本显式地映射到一个相对低维的随机特征空间，从而可以应用线性学习算法高效地求解非线性问题^[1]。理论上，证明了提出的随机特征映射方法SCRF近似核函数是无偏的，并且较之前最先进的随机特征映射方法Fastfood具有更低方差。同时，提出的循环随机特征映射具有线性空间复杂度和对数线性时间复杂度低的特点，实现简单，是迄今最简单有效的随机特征方法。实验验证了SCRF的核估计准确率和计算效率，并且将SCRF应用于实际分类问题以验证该显式非线性降维方法的泛化性能。在核估计实验中，提出的SCRF计算的核估计值集中在对角线，表明提出的方法效果更好；并且在计算效率上，明显优于Fastfood。将精确核方法（LIBSVM）和3种随机特征映射方法（RKS、Fastfood、SCRF）的测试准确率与效率（训练时间+测试时间）对比，可以发现3种随机特征映射方法相对于精确核方法得到了相当的测试准确率，很大程度提升了训练和测试效率。提出的SCRF的效率最为突出，并且随着训练数据的规模增加，效率提升越明显。因此，提出的循环随机特征映射给出了一种高效的非线性降维方法，并且具有坚实的理论基础，实现简单，能够广泛应用于大规模训练与预测问题。

（2）基于字典学习的特征选择方法

随着手持数字终端、工业传感器的广泛使用和社交网络的发展，大规模的、高维的、强不确定性的图像、视频、文本以及生物信息学数据大量涌现。高维的数据增加了存储负担，提高了算法的计算复杂度，降低了模型的泛化性能。因此降低特征空间维度、去除冗余和不相关的特征十分必要。

无监督特征选择的一个关键是如何生成伪的类标记刻画样本空间的数据分布，从而将无监督特征选择问题转化成一个有监督问题。目前主要采用谱分析、谱聚类、矩阵分解等方法生成伪的类标记，同时利用线性回归的模型学习得到一个特征选择矩阵。稀疏性也是特征选择的一个重要部分，通常特征选择矩阵会被要求具备组稀疏特性，以移除数据中的噪声特征。

笔者所在课题组首次将字典学习引入无监督特征选择任务中，提出了一种解析—合成字典对学习方法，通过表达系数刻画样本空间的数据分布^[2]。合成字典用于重构样本，而解析字典通过一个线性投影把样本投射到表达系数空间。最后，解析字典用于评价特征重要性。本工作首次讨论了范数L₂，P对无监督特征选择的影响，并提出了利用迭代重加权最小二乘求解L₂，P范数优化问题，展示了不同P（范数）值下的无监督特征选择效果，证明了在0<P<1的情况下，提出的模型可以收敛到一个固定点。在标准的数据集上，验证了提出算法的性能优于目前的无监督特征选择算法。

（3）基于压缩表的符号数据特征选择方法

在符号型数据特征选择研究中，由于数据集每个特征下对象取值的数量较少，因此存在大量条件属性取值完全相同的对象，这使得数据中蕴含了大量的冗余信息。特别是，现有的特征选择算法对于这些相同的对象大多都是作为单独对象分别处理，这必然会导致大量的冗余计算，从而影响了特征选择算法的计算效率。为此，通过用一个对象代表与其特征取值相同的所有对象，提出了一种数据压缩表示方法，并在此基础上提出了基于压缩数据的特征选择算法^[3]。

在理论分析方面，笔者所在课题组证明了在压缩后的数据集上得到的特征重要度与在原数据集上得到的特征重要度相等。由于特征重要度决定着每个特征被加入候选特征子集的顺序，进而决定了启发式特征选择的最终结果，因此从压缩数据和原始数据获得特征重要度一致的重要性质就确保了基于压缩后数据得到的特征选择结果与原数据集得到的特征选择结果完全一致。此外，课题组也在12个UCI公开数据集上对算法的有效性和效率进行了验证分析。从实验结果可以看出，与目前文献报道中最好的启发式特征选择算法（ACC-PR）相比，在大多数据集上基于压缩策略的特征选择算法（AR-CT-PR）可以在获得相同特征选择结果的同时，显著减少计算特征选择的时间消耗。这个策略在面向符号型大数据的处理时是一个重要、高效的分析策略，可在其他符号型数据分析任务中进一步推广使用。

2.2 信息粒化研究

（1）基于优化求解角度的符号数据聚类准则

聚类作为一类重要的信息粒化方法，不同的聚类算法或同一算法的不同参数设置往往在聚类同一数据时产生不同的结果。因此，人们需要聚类有效性函数去评测聚类结果，并从许多聚类结果中寻找最适合于数据的划分。面向数值型数据的聚类有效性评测方法已被人们广泛研究。但是，针对符号数据的聚类有效性评测研究相对较少。目前，针对符号数据，有3个广泛使用的有效性评测函数，其中包括：K-Modes目标函数F、分类效用函数CU和信息熵函数E。许多符号聚类算法以它们其中之一为聚类准则搜索聚类结果。当它们在数据聚类中被使用时，有以下3个问题需要解决。

● 它们在评测聚类结果上有怎样的共性和差异性。

● 当它们在评测聚类结果时类间信息是否被忽略。

● 以它们其中之一为聚类准则，如何确定该准则在一个数据集上的取值范围？针对上述问题，课题组从解空间（优化）角度，系统研究了这3个有效性函数^[4]。首先，构建了一个泛化的有效性函数及其优化模型。进一步，基于该泛化模型，分别对这些问题给出了理论性解释。

● 建立了这些有效性函数在评测聚类有效性上的内在关系，理论分析发现在评测聚类结果时，分类效用函数等效于信息熵函数，K-Modes目标函数的最优解是分类效用函数最优解的上界。

● 建立了这些有效性函数与类间评测函数之间的关系，理论分析发现最小化泛化函数等于最大化类间差异性。这暗示着使用这些类内信息评测聚类结果时并不会忽略类间信息。

● 对于一个给定的数据集，通过放宽某些变量的约束条件，将这些有效性函数最大化和最小化优化问题转化为凸规划问题，获得其上下界，从而帮助实现函数的归一化。

实验比较了来自UCI的12个数据集上的100次聚类结果的平均有效性。相比原始的有效性函数G，归一化后的函数的评测结果更接近于外部评测函数ARI和NMI。该研究成果为解决符号数据聚类准则的选择、聚类算法的互学习及数据特征对聚类有效性的影响等问题提供了理论基础。

（2）基于半监督的谱聚类的信息粒化

图像聚类在包含图像检索以及理解的实际应用中起着重要的作用。传统的图像聚类算法考虑单一的特征和固定的距离（如欧氏距离）来度量样本间的相似性。然而，不同的视觉特征往往能够提供互补信息对图像内容进行描述。此外，受限于时间和人力等的消耗，通常只获取到少量的标记样本，从而使得半监督学习成为一种必要的工具。为此，基于半监督距离学习和多模态信息，课题组提出了半监督的谱聚类算法对图像进行聚类^[5]。通过提取颜色、纹理、形状以及语义等多种特征，利用少量的标记图像进行半监督距离学习，采用学习得到的度量以及高斯相似函数计算相似性，最终构造出半监督的拉普拉斯矩阵进行谱聚类。采用统计信息进行特征提取，可以对大小不同的图像进行聚类。大量实验结果表明，提出算法的性能优于传统方法。

（3）混合数据属性加权聚类的信息粒化

在传统的划分式聚类过程中，都假定各个属性对聚类的贡献程度相同，即在相似性或相异性度量的计算中所有属性的权重相同。而在大部分实际应用中，用户期望得到的聚类结果对参与聚类的各个属性的重要程度往往并不相同，特别是在高维数据聚类过程中，样本空间中各属性对聚类效果贡献大小不同成为一个不可回避的问题。同时兼具数值型和分类型属性的混合数据在实际应用中普遍存在，混合数据的聚类分析越来越受到广泛的关注。

为解决高维混合数据聚类中属性加权问题，课题组提出了一种基于信息熵的混合数据属性加权聚类算法，以提升模式发现的效果^[6^]。工作主要包括：首先为了更加准确客观地度量对象与类之间的差异性，设计了针对混合数据的扩展欧氏距离；然后，在信息熵框架下利用类内信息熵和类间信息熵给出了聚类结果中类内抱团性及一个类与其余类分离度的统一度量机制，并基于此给出了一种属性重要性度量方法，进而设计了一种基于信息熵的属性加权混合数据聚类算法。在10个UCI数据集上的实验结果表明，提出的算法在4种聚类评价指标下优于传统的属性未加权聚类算法和已有的属性加权聚类算法，并通过统计显著性检验表明本文提出算法的聚类结果与已有算法聚类结果相比具有显著差异性。

2.3 多粒度空间的粒化不确定性

不同的信息粒化方法和策略将会导致给定数据的不同粒化结果，这意味着能够在这个粒度水平上观察和分析数据。认知主体在不同的粒度水平上观察的同一事物往往是不同的，它有一个所谓的粒结构来刻画。对于模糊信息粒化而言，模糊粒结构是一个数据集诱导的模糊信息粒的数学结构，模糊信息粒度则用于度量一个模糊粒结构的不确定性，也称为粒化不确定性。

为了有效地度量粒化不确定性，已经发展了若干形式的模糊信息粒度。然而，已有的模糊信息粒度度量有2个缺陷。一个是当两个模糊粒结构的信息粒度相等时，并不意味着它们是相等的，缺乏进一步区分模糊粒结构差异性的方法；另一个是目前的模糊信息粒度公理化方法仍然不够完备，不能够区分任意两个模糊粒结构的粗细程度。为此，课题组引进了一个所谓的模糊知识距离，用于刻画模糊粒结构之间的距离，理论分析表明它是一个距离测度，并且能够区分任意两个模糊粒结构之间的差异性；为了构造更加合理的模糊信息粒度公理化方法，基于提出的模糊知识距离提出了广义信息粒度公理化方法^[7]，理论分析和实验结果都表明提出的这些新方法能够很好地刻画已有方法的以上两个不足，为模糊粒化不确定性研究提供了约束性框架。该研究为人类从不同角度、不同层次上认识大数据时采用的信息粒度水平提供了定量刻画方法，是面向大数据的粒计算理论与方法研究中的核心问题。

多粒度粗糙计算是通过多个粒化结构刻画目标概念，必然导致不确定性，该理论模型中存在知识粒和知识粒结构的不确定性，它直接决定问题求解的有效性。如何度量问题中的不确定性成为多粒度粗糙粒计算研究中的一个普遍问题。课题组借鉴了融合不确定性和不精确性的方法，提出融合信息熵、融合粗糙熵、融合信息粒度等度量，并讨论它们的重要性质，初步研究了多粒度近似空间中的不确定性^[8]。这是针对多个粒空间诱导的粒化不确定性定量分析的首次尝试，将有助于多粒度空间的粒化不确定性的进一步研究。

3 大数据的多粒度模式发现与融合方法

3.1 基于联合概率估计的多模态信息融合

多模态数据分析核心问题之一是如何有效地进行多模态信息的融合。当前，针对一些具体领域或任务已经开展了若干探索性研究，采用的主要策略是首先从不同模态数据中分别进行特征提取或特征选择，然后将提取出的特征合并成一个更大的特征空间，再按照传统的思路在此特征空间上进行数据挖掘。然而，这个策略可能会遇到不同变量之间语义不一致的问题。在数据挖掘等数据分析任务中，采用的分类、聚类、优化等方法都依赖于对象之间的某种距离测度，这需要将不同变量看作不同的维度并要求在这些变量上可进行线性运算。在视频分析中，通常可以从中提取出一些文本特征、图像特征、语音特征、场景特征等，尽管在特征向量化表示以后线性运算可以工作，然而在文本特征和图像特征之间进行线性运算的语义到底代表了什么，这些不同语义变量这样运算可能不是合理的，也许会影响最终的数据分析和挖掘效果。因此，如何克服不同模态特征之间的语义鸿沟是多模态数据挖掘的主要挑战之一。

为此，课题组提出一类较为一般的方法，将原始异构变量数据表转换为一种概率意义下的数据表，核心是将原来的距离测度转为任意两个对象是否相等的概率^[9]。为了检验新的数据表示方法的有效性，首先在符号数据这种单一类型数据上进行了尝试。具体动机如下：目前最具代表性的符号聚类算法多数都是基于0 ~1距离或它的扩展版本来构造相似性测度，然而再反映到对象的簇结构中，由于这类距离不处在一个连续空间中，由它构造的相似性测度和基于频率的类中心更新可能不够有效。实验比较了最有代表性（聚类性能最好）的4种符号聚类算法以及笔者提出的SBC算法的两个版本在UCI的9个数据集上的100次聚类结果的平均聚类性能。从理论分析和实验结果可知，新的数据表示方案不仅保留了数据原始空间的簇结构，而且提供了更加丰富的测度信息。从中也可以看到，相比目前最具代表性的4种算法，提出的SBC算法在AC指标上平均有10%的提高，在ARI指标上平均有20%的提高。这表明提出的新数据表示方案有重要意义，为更加复杂的多模态数据分析提供了一种可资借鉴的有效方案。

3.2 基于深度神经网络的多模态特征融合与选择

深度学习是近年来兴起的一种有效的表示学习方法，已经在语音、图像等领域得到了成功的应用和长足的发展。借鉴深度学习的特征表示方法，课题组提出了一种结合深度神经网络与组稀疏方法的多模态特征选择算法，突破传统多源异构特征选择算法中存在的模态异构性带来的障碍，使用深度学习的方法对原始的异构多模态数据进行多重非线性变换，得到隐藏的抽象表达，将其从原始的异构特征空间转换到同一个特征空间之中^[10]。进而使用Group LASSO的方法对这些同构特征进行选择，得到不同特征维度的权值，根据权值大小的不同选择出与当前给定学习任务最相关的特征维度用于最终的模式识别任务。具体地，给每一个模态都分配一个多层神经网络，从而形成一个多模态深度神经网络，用于将原始的异构特征转换为同一个语义层次的隐藏特征表达，得到同构的抽象特征。

同SVM（support vector machine，支持向量机）（使用所有原始异构特征）、MKL（multiple kernel learning，多核学习）（使用所有原始异构特征，为每一个模态分配一个核函数，使用多核学习方法进行融合核学习）、GLLR（logistic regression with group LASSO，基于组LASSO的逻辑斯特回归）（使用logistic regression with group LASSO 方法直接对原始异构特征进行选择）以及MMNN（multi-modal neural network，多模态异构神经网络）（使用多模态异构神经网络得到的同构特征不做选择）等方法相比，提出的模型在3个实验数据集上训练SVM都取得了较好的分类效果，更是远远超过单独使用SVM分类器的分类精度。同时注意到本文算法在对模态进行选择后仍然取得了最高的分类精度，印证了多模态数据中信息冗余的存在与本模型滤除无关模态的有效性。

3.3 基于证据理论的多粒度融合方法

在现实世界中，多数据源指对相同数据样本采集于不同时间段或不同地方或是具有不同角度的数据描述。不同数据源的数据蕴含着数据样本中不同的结构信息，表达了数据样本间多种角度的信息。当同一数据样本的不同角度或者不同来源信息一起被使用时，数据样本之间蕴含的结构信息将更加丰富，这些结构信息在不同的应用中反映了学习任务的不同角度、不同侧面，要想全面理解数据中蕴含的多种信息，需要构造合理、有效的学习模型与算法。多源信息系统恰好可以用来表示这样的多源信息。因此多源信息的组合问题可以转化为多源信息系统的数据分析问题。从粒计算的角度来看，对每一个子信息系统，根据某种粒化策略生成对应的粒结构。换句话说，多源信息系统中来自不同源的信息可以看成不同的粒空间，从而多源信息融合问题也变为多粒空间融合问题。

课题组首次通过讨论经典多粒度粗糙计算模型与证据理论之间的联系，分别在清晰和模糊的两个多源背景下，讨论了乐观/悲观多粒度粗糙近似和证据理论的信任函数之间的关系, 给出了多粒度粗糙近似空间证据的基本概率指派获取等问题^[11^]。借鉴K-Modes聚类的思想完成多个粒结构的聚类，结合证据理论, 在多粒度视角下建立一类介于乐观融合和悲观融合之间的多粒度融合算法，称为基于证据理论的多粒度融合算法。并利用悲观模糊多粒度粗糙近似和模糊信任函数之间的关系，给出了粒度约简的理论框架。这些结果在一定程度上解决了多源不确定信息的定量和定性融合问题，也增强处理多源信息系统不确定问题求解的能力，为多粒度模式的知识发现奠定了一定的理论基础。

4 大规模复杂决策任务的多粒度/跨粒度高效推理模型和算法

4.1 多粒度单调分类器

单调分类（特征属性和决策属性存在单调性约束）是一类重要的分类任务。集成学习通过融合多个具有一定准确性和差异性的基学习器，能够大幅度地提高机器学习系统的泛化能力。然而，经典的集成学习方法通常都是通过改变原始训练数据集的分布得到不同的基分类器，然后对所有基分类器的输出进行简单投票得到最终的决策结果。基于改变样本分布的集成策略，通过在训练过程中提高分类器对不同数据的适应能力来降低预测方差，并没有从结构上产生具有差异性的分类器。

课题组基于粒计算的思想，利用特征属性和决策属性存在单调性关系的先验知识，在保序性约束的前提下，通过引入优势粗糙集，利用保持整体优势粒结构来寻找特征子空间，不同的子空间对应一个不同的粒结构；接着利用这些子空间来构造基分类器（个数可自适应确定）；然后利用最大概率原理对未知对象进行类别判别以实现多粒度分类器融合^[12]。基于保序性得到的特征子空间能够在不同粒度下保持原始特征空间与决策属性之间的序结构信息，从而保证了基分类器在单调分类任务中的个体性能。并且，在不同粒度下的保序性约束下，能够得到具有不同结构的特征子空间，从而得到具有结构差异性的基分类器。基于最大概率原理融合基分类器，综合了基分类器在每个类别上的性能优势，并且达到了基分类器之间互补的集成效果，相比投票方式利用了更多的决策信息。大量实验表明了多粒度分类器可极大提高单调分类任务的泛化能力，此外，集成使用的基分类器个数很少并且个数可自适应确定，大大降低了存储空间和预测时间。

4.2 基于层次结构的分类模型

物体的高层语义解释是图像识别中的关键问题。尽管机器学习算法在图像识别方面取得了很好的结果，但其效果远不如人的智能。这是因为人类识别物体发生在高层语义空间，而目前大多数机器学习方法仅仅通过底层的视觉特征对物体进行解释，这些方法虽然可以很好地描述图像的视觉内容，但不能像人类一样理解图像的高层语义。例如，一个人可能会把一条狼错误地分类成一条狗，却不会把一条狼错误地分类成一辆汽车。这是因为人类在分类时是以一种层次结构进行的，这种层次结构会把两个类之间的语义关系考虑进去，因此可以给出语义化的分类决策。利用层次结构分类会使得分类效果更准确，也更符合人类的语义认知。在不同视角下，类别之间表现出不同的类别语义关系，例如，在概念上基于词的语义关系和在特征上基于视觉相似性。

一些研究利用多种不同类别的语义相似关系，但是多种语义相似关系往往存在不同种相似关系的不一致性，例如在图像分类领域中，对比“鲸鱼”和“人类”两个类，“鲸鱼”与“人类”的视觉特征相似性远小于其概念相似性，因为在生物分类学中，鲸鱼和人类都属于哺乳动物，然而其视觉特征相差很远，这就会出现概念和视觉特征上的不一致问题。笔者提出了一种学习不同类别相似关系权值的方法，通过学习来融合得到最优的类别相似关系，由此构建类别间的层次结构^[13]。对于层次分类问题，本工作将层次分类问题转化到在结构化学习框架下，利用结构化支持向量机进行分类，在两个图像数据集中验证了有效性。

5 示范应用研究

5.1 基于太阳观测大数据的空间天气预报建模

太阳动力学观测站（solar dynamics observatory，SDO）是美国宇航局（NASA）“与星同在”计划中发射的第一颗人造卫星，于2010年2月11日在美国亚特兰大成功发射，预计进行5~10 年的观测任务，一直运转至今。它的目的是探究各种各样的太阳活动的成因及其对地球可能产生的影响。SDO总共搭载了3个科学实验仪器：大气成像仪（atmospheric imaging assembly，AIA）、日震与磁成像仪（helioseismic and magnetic imager，HMI）和极紫外线变化实验仪（extreme ultraviolet variability experiment，EVE）。其中，AIA利用多个紫外和极紫外波段，对太阳进行全日面、高时空分辨率的观测，平均每隔10 s在10个波段几乎同时对太阳进行成像；HMI分析太阳的磁场结构与活动以及太阳发生的变化；EVE拍摄太阳的极紫外线辐射，具有较高的光谱分辨率、时空分辨率和精确度。

SDO代表了太阳数据在数量和质量上新的前沿，它的成功发射，使得太阳物理研究真正进入了大数据时代。每天拍摄150 000多张高分辨率的太阳图像（约1.5 TB），SDO任务生成的数据将超过之前所有太阳数据的总和。

（1）数据下载

使用洛克希德马丁太阳与天文物理实验室（Lockheed Martin Solar and Astrophysics Laboratory，LMSAL）研发的SSWIDL程序，通过国家天文台服务器，下载了2012年前6个月的太阳元数据（fits格式）。数据共包括9个AIA波段（分别为094、131、171、193、211、304、335、1 600、1 700）HMI磁动图，每个波段包括7 671张图像，每张图像为4096×4096分辨率。

（2）数据预处理

为了更好地可视化，将fit格式的原始灰度图像全部转化为J PE G格式的RGB图像。

（3）数据标注

根据太阳事件知识库（heliophysics event knowledgebase，HEK）提供的太阳事件报道信息，为每张图像生成标注文件（XML格式）。事件标注共包括6种太阳活动，分别为活动区（active region，AR）、冕洞（coronal hole，CH）、暗条（filament，FI）、耀斑（flare，FL）、西格玛型（sigmoid，SG）和黑子（sunspot，SS）及其对应的边界信息。

5.2 基于微博大数据的社会化推荐系统

5.2.1 资源建设

（1）汉语框架语义资源

课题组在山西大学汉语框架网（CFN）资源的基础上，新构建了67个框架，框架数量从304个增至371个，扩充了框架语义标注例句数量19 138 条，词元4 585个，为支撑细粒度的文本语义分析需求提供了框架语义分析资源支撑。

（2）中文文本倾向性分析COAE2015微博语料库

构建了中文文本倾向性分析COAE2015微博语料库，涉及领域包括汽车、电子、手机、美食、娱乐、宾馆等，包括15 679条微博、20 154条观点句的标注及极性标注，并对13787条观点句标注了24 093组细粒度观点要素及极性的三元组。另外，从新浪微博爬取的521个用户节点、4 936条关注关系以及每个用户发表的微博共计543 587条，为基于微博的社会化推荐系统提供了数据支持。

5.2.2 相关研究成果

课题组提出了一种基于细粒度篇章级框架语义分析的汉语阅读问答方法，给出了一种基于框架语义特征的文本零形式识别与填充方法^[14]，提出了基于相似性发现与训练数据调整的跨语言的文本情感倾向判别方法^[15]，建立了一类策略融合的跨语言文本情感倾向判别框架^[16]，发展了一种融合社交网络信息的协同过滤推荐算法^[17]。

5.2.3 应用系统

研发了一个文本情感分析技术资源开放平台，主要包括微博数据的关键词抽取、观点要素抽取、文本情感分类以及基于汽车论坛和汽车口碑的汽车产品性能分析；研发了一个基于社交网络的好友推荐系统，包括用户模块、兴趣模块、展示模块以及其他附属模块四大功能模块，利用用户的微博内容和好友关系挖掘用户的兴趣偏好，个性化地为用户推荐相似程度高的潜在好友。

6 结束语

针对大数据的规模性、多模态性与增长性给传统的数据挖掘方法带来的挑战本文从粒计算的视角分析了应对这些挑战可能的新思路和新策略。具体面向数据的信息粒化、特征降维、多模态信息融合、特征学习与融合、多粒度证据融合、多粒度/跨粒度推理等问题，梳理和剖析了课题组取得的一些研究进展，并总结了在天文数据挖掘和微博数据挖掘两个典型示范应用领域方面的初步研究，以期为大数据挖掘领域的研究做出有益的探索。

参考文献：

[1] FENG C, HU Q H, LIAO S Z. Random feature mapping with signed circulant matrix projection[C] / /The 24 th International Joint Conference on Aritificial Intelligence( IJCAI 2015 ), July 2 5 - 3 1 ,2015 , Buenos Aires, Argentina. California: AAAI Press, 2015:3490-3496.

[2] ZHU P F, HU Q H, ZHANG C Q, et al . Coupled dictionary learning for unsupervised feature selection[C]// AAAI Conference on Artificial Intelligence, February 12-17, 2016, Phoenix, Arizona, USA.California: AAAI Press, 2016: 1-7.

[3] WEI W, WANG J H, LIANG J Y, et al. Compacted decision tables based attribute reduction[J]. Knowledge-Based Systems, 2015(86):261-277.

[4] BAI L , LIANG J Y. Cluster validity functionsfor categorical data: a solution space perspective [J]. Data Mining and Knowledge Discovery, 2015, 29(6): 1560-1597.

[5] LIANG J Q , HAN Y H , HU Q H.Semi‑supervised image clustering with multi‑modalinformation[J]. Multimedia Systems, 2016, 22(2): 149-160.

[6] 赵兴旺, 梁吉业. 一种基于信息熵的混合数据属性加权聚类算法[J]. 计算机研究与发展,2016, 53(5):1018-1028.

ZHAO X W, LIANG J Y. An attribute weighted clustering algorithm for mixed data based on information entropy[J].Computer Research and Development,2016, 53(5): 1018-1028.

[7] QIAN Y H, LIANG J Y, DANG C Y. Fuzzy granular structure distance[J]. I EEE Transactions on Fuzzy Systems,2015,23(6): 2245-2259.

[8] LIN G P, LIANG J Y, QIAN Y H.Uncertainty measures for multigranulation approximation space [J]. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 2015,23(3):443-457.

[9] QIAN Y H,LI F J,LIANG J Y, et al. Spacestructure and clustering of categorical data[J]. IEEE Transactions on Neural Networks and Learning Systems, 2015: 1-13.

[10] ZHAO L , HU Q H , WANG W W. Heterogeneous feature selection with multi-modal deep neural networks and sparse grouplasso[J]. IEEE Transactions on Multimedia, 2015, 17 (11): 1936-1948.

[11] LIN G P, LIANG J Y, QIAN Y H. An information fusion approach by combining multigranulation rough sets and evidence theory[J].Information Sciences, 2015,314(1): 184-199.

[12] QIAN Y H, XU H, LIANG J Y, et al. Fusing monotonic decision trees[J]. IEEE Transactions on Knowledge and Data Engineering, 2015, 27(10): 2717-2728.

[13] ZHAO S , ZOU Q .Fusing multiple hierarchies for semantic hierarchical classification[C]//The 8th International Conference on Machine Learning and Computing, February 22-23, Hong Kong, China.[S.l.:s.n.], 2016: 47-51.

[14] LI R, WU J, WANG Z Q, et al. Implicitrole linking on Chinese discourse: exploiting exploit roles and frame - to - frame relations[C] // The 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing, July 26-31, 2015,Beijing, China. [S.l.:s.n.], 2015: 1263- 1271.

[15] ZHANG P, WANG S G, LI D Y.Crosslingual sentiment classification: similarity discovery plus training data adjustment [J].Knowledge-Based Systems, 2016, 107(1):129-141.

[16] 张鹏, 王素格, 李德玉.一种策略融合的跨语言文本情感倾向判别方法[J]. 中文信息学报,2016, 30(2): 32- 40.

ZHANG P, WANG S G, LI D Y. A multistrategy approach to cross-lingual sentiment analysis[J]. Journal of Chinese Information Processing, 2016, 30(2): 32-40.

[17] 郭兰杰, 梁吉业, 赵兴旺. 融合社交网络信息的协同过滤推荐算法[J ]. 模式识别与人工智能, 2016, 29(3):281- 288.

GUO L J, LIANG J Y, ZHAOX W. Collaborative filtering recommendation algorithm incorporating social network information[J]. Pattern Recognition and Artificial Intelligence, 2016,29(3): 281-288.

梁吉业（1962-），男，博士，山西大学计算智能与中文信息处理教育部重点实验室、山西大学计算机与信息技术学院教授，主要研究方向为人工智能、粒计算、数据挖掘与机器学习。

钱宇华（1976-），男，博士，山西大学计算智能与中文信息处理教育部重点实验室、山西大学计算机与信息技术学院教授，主要研究方向为人工智能、数据挖掘与机器学习。

李德玉（1965-），男，博士，山西大学计算智能与中文信息处理教育部重点实验室、山西大学计算机与信息技术学院教授，主要研究方向为数据挖掘与机器学习、粒计算、概念格。

胡清华（1976-），男，博士，天津大学计算机科学与技术学院教授，主要研究方向为人工智能、机器学习、模式识别。

你可能感兴趣的:(【2016年第4期】面向大数据的粒计算理论与方法研究进展)

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
芦花鞋一四许叶晗
又是在一个寒冷的夏日里，青铜和葵花决定今天一起去卖芦花鞋，奶奶亲手给他们做了一碗热乎乎的粥对他们说:“就靠你们两挣生活费了这碗粥赶紧趁热喝了吧！”于是青铜和葵花喝完了奶奶给她们做的粥，就准备去镇上卖卢花鞋，这回青铜和葵花穿着新的芦花鞋来到了镇上。青铜这回看到了很多人都在卖，用手势表达对葵花说:“这回有好多人在抢我们生意呢！我们必须得吆喝起来。”葵花点了点头。可是谁知他们也大声的叫，卖芦花喽！卖芦花
QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说造命者说
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说我叫吴起，生于公元前440年的战国初期，正是群雄并起、天下纷争不断的时候。后人说我是军事家、政治家、改革家，是兵家代表人物。评价我一生历仕鲁、魏、楚三国，通晓兵家、法家、儒家三家思想，在内政军事上都有极高的成就。周安王二十一年（公元前381年），因变法得罪守旧贵族，被人乱箭射死。我出生在卫国一个“家累万金”的富有家庭，从年轻时候起就不甘平凡
2020-01-25 晴岚85
郑海燕坚持分享590天2020.1.24在生活中只存在两个问题。一个问题是：你知道想要达成的目标是什么，但却不知道如何才能达成；另一个问题是：你不知道你的目标是什么。前一个是行动的问题，后一个是结果的问题。通过制定具体的下一步行动，可以解决不知道如何开始行动的问题。而通过去想象结果，对结果做预估，可以解决找不着目标的问题。对于所有吸引我们注意力，想要完成的任务，你可以先想象一下，预期的结果究竟是什
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
想家爆米花机
也许不同于大家对家乡的思念，我对家乡甚至是疯狂的不舍。还未踏出车站就感觉到幸福，我享受这里的夕阳、这里的浓烈柴火味、这里每一口家常菜。我是宅女，我贪恋家的安逸。刚刚踏出大学校门，初出茅庐，无法适应每年只能国庆和春节回家。我焦虑、失眠、无端发脾气，是无法适应工作的节奏，是无法接受我将一步步离开家乡的事实。我不想承认自己胸无大志，选择再次踏上征程。图片发自App
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
小丽成长记（四十三）玲玲54321
小丽发现，即使她好不容易调整好自己的心态下一秒总会有不确定的伤脑筋的事出现，一个接一个的问题，人生就没有停下的时候，小问题不断出现。不过她今天看的书，她接受了人生就是不确定的，厉害的人就是不断创造确定性，在Ta的领域比别人多的确定性就能让自己脱颖而出，显示价值从而获得的比别人多的利益。正是这样的原因，因为从前修炼自己太少，使得她现在在人生道路上打怪起来困难重重，她似乎永远摆脱不了那种无力感，有种习
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
瑶池防线谜影梦蝶
冥华虽然逃过了影梦的军队，但他是一个忠臣，他选择上报战况。败给影梦后成逃兵，高层亡尔还活着，七重天失守......随便一条，即可处死冥华。冥华自然是知道以仙界高层的习性此信一发自己必死无疑，但他还选择上报实情，因为责任。同样此信送到仙宫后，知道此事的人，大多数人都认定冥华要完了，所以上到仙界高层，下到扫大街的，包括冥华自己，全都准备好迎接冥华之死。如果仙界现在还属于两方之争的话，冥华必死无疑。然而
爬山后遗症璃绛
爬山，攀登，一步一步走向制高点，是一种挑战。成功抵达是一种无法言语的快乐，在山顶吹吹风，看看风景，这是从未有过的体验。然而，爬山一时爽，下山腿打颤，颠簸的路，一路向下走，腿部力量不够，走起来抖到不行，停不下来了！第二天必定腿疼，浑身酸痛，坐立难安！
微信开发者验证接口开发 362217990 微信开发者 token 验证
微信开发者接口验证。 Token，自己随便定义，与微信填写一致就可以了。根据微信接入指南描述 http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 第一步：填写服务器配置第二步：验证服务器地址的有效性第三步：依据接口文档实现业务逻辑这里主要讲第二步验证服务器有效性。建一个
一个小编程题-类似约瑟夫环问题 BrokenDreams 编程
今天群友出了一题：一个数列,把第一个元素删除,然后把第二个元素放到数列的最后,依次操作下去,直到把数列中所有的数都删除,要求依次打印出这个过程中删除的数。 &
linux复习笔记之bash shell (5) 关于减号-的作用 eksliang linux关于减号“-”的含义 linux关于减号“-”的用途 linux关于“-”的含义 linux关于减号的含义
转载请出自出处： http://eksliang.iteye.com/blog/2105677 管道命令在bash的连续处理程序中是相当重要的，尤其在使用到前一个命令的studout（标准输出）作为这次的stdin（标准输入）时，就显得太重要了，某些命令需要用到文件名，例如上篇文档的的切割命令（split）、还有
Unix(3) 18289753290 unix ksh
1)若该变量需要在其他子进程执行，则可用"$变量名称"或${变量}累加内容什么是子进程？在我目前这个shell情况下，去打开一个新的shell，新的那个shell就是子进程。一般状态下，父进程的自定义变量是无法在子进程内使用的，但通过export将变量变成环境变量后就能够在子进程里面应用了。 2)条件判断： &&代表and ||代表or&nbs
关于ListView中性能优化中图片加载问题酷的飞上天空 ListView
ListView的性能优化网上很多信息，但是涉及到异步加载图片问题就会出现问题。具体参看上篇文章http://314858770.iteye.com/admin/blogs/1217594 如果每次都重新inflate一个新的View出来肯定会造成性能损失严重，可能会出现listview滚动是很卡的情况，还会出现内存溢出。现在想出一个方法就是每次都添加一个标识，然后设置图
德国总理默多克：给国人的一堂“震撼教育”课永夜-极光教育
http://bbs.voc.com.cn/topic-2443617-1-1.html德国总理默多克：给国人的一堂“震撼教育”课　安吉拉—默克尔，一位经历过社会主义的东德人，她利用自己的博客，发表一番来华前的谈话，该说的话，都在上面说了，全世界想看想传播——去看看默克尔总理的博客吧！　　德国总理默克尔以她的低调、朴素、谦和、平易近人等品格给国人留下了深刻印象。她以实际行动为中国人上了一堂
关于Java继承的一个小问题。。。随便小屋 java
今天看Java 编程思想的时候遇见一个问题，运行的结果和自己想想的完全不一样。先把代码贴出来！ //CanFight接口 interface Canfight { void fight(); } //ActionCharacter类 class ActionCharacter { public void fight() { System.out.pr
23种基本的设计模式 aijuans 设计模式
Abstract Factory：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。　　Adapter：将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。　　Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。　　Builder：将一个复杂对象的构建与它的表示分离，使得同
《周鸿祎自述：我的互联网方法论》读书笔记 aoyouzi 读书笔记
从用户的角度来看,能解决问题的产品才是好产品,能方便/快速地解决问题的产品,就是一流产品. 商业模式不是赚钱模式一款产品免费获得海量用户后,它的边际成本趋于0,然后再通过广告或者增值服务的方式赚钱,实际上就是创造了新的价值链. 商业模式的基础是用户,木有用户,任何商业模式都是浮云.商业模式的核心是产品,本质是通过产品为用户创造价值. 商业模式还包括寻找需求
JavaScript动态改变样式访问技术百合不是茶 JavaScript style属性 ClassName属性
一:style属性格式: HTML元素.style.样式属性="值"; 创建菜单:在html标签中创建或者在head标签中用数组创建 <html> <head> <title>style改变样式</title> </head> &l
jQuery的deferred对象详解 bijian1013 jquery deferred对象
jQuery的开发速度很快，几乎每半年一个大版本，每两个月一个小版本。每个版本都会引入一些新功能，从jQuery 1.5.0版本开始引入的一个新功能----deferred对象。 &nb
淘宝开放平台TOP Bill_chen C++c 物流 C#
淘宝网开放平台首页：http://open.taobao.com/ 淘宝开放平台是淘宝TOP团队的产品，TOP即TaoBao Open Platform，是淘宝合作伙伴开发、发布、交易其服务的平台。支撑TOP的三条主线为： 1.开放数据和业务流程 * 以API数据形式开放商品、交易、物流等业务； &
【大型网站架构一】大型网站架构概述 bit1129 网站架构
大型互联网特点面对海量用户、海量数据大型互联网架构的关键指标高并发高性能高可用高可扩展性线性伸缩性安全性大型互联网技术要点前端优化 CDN缓存反向代理 KV缓存消息系统分布式存储 NoSQL数据库搜索监控安全想到的问题： 1.对于订单系统这种事务型系统，如
eclipse插件hibernate tools安装白糖_ Hibernate
eclipse helios(3.6)版 1.启动eclipse 2.选择 Help > Install New Software...> 3.添加如下地址： http://download.jboss.org/jbosstools/updates/stable/helios/ 4.选择性安装：hibernate tools在All Jboss tool
Jquery easyui Form表单提交注意事项 bozch jquery easyui
jquery easyui对表单的提交进行了封装，提交的方式采用的是ajax的方式，在开发的时候应该注意的事项如下： 1、在定义form标签的时候，要将method属性设置成post或者get，特别是进行大字段的文本信息提交的时候，要将method设置成post方式提交，否则页面会抛出跨域访问等异常。所以这个要
Trie tree(字典树)的Java实现及其应用-统计以某字符串为前缀的单词的数量 bylijinnan java实现
import java.util.LinkedList; public class CaseInsensitiveTrie { /** 字典树的Java实现。实现了插入、查询以及深度优先遍历。 Trie tree's java implementation.(Insert,Search,DFS) Problem Description Igna
html css 鼠标形状样式汇总 chenbowen00 html css
css鼠标手型cursor中hand与pointer Example：CSS鼠标手型效果 <a href="#" style="cursor:hand">CSS鼠标手型效果</a><br/> Example：CSS鼠标手型效果 <a href="#" style=&qu
[IT与投资]IT投资的几个原则 comsci it
无论是想在电商,软件,硬件还是互联网领域投资,都需要大量资金,虽然各个国家政府在媒体上都给予大家承诺,既要让市场的流动性宽松,又要保持经济的高速增长....但是,事实上,整个市场和社会对于真正的资金投入是非常渴望的,也就是说,表面上看起来,市场很活跃,但是投入的资金并不是很充足的......
oracle with语句详解 daizj oracle with with as
oracle with语句详解转在oracle中，select 查询语句，可以使用with,就是一个子查询，oracle 会把子查询的结果放到临时表中，可以反复使用例子:注意，这是sql语句，不是pl/sql语句，可以直接放到jdbc执行的 ----------------------------------------------------------------
hbase的简单操作 deng520159 数据库 hbase
近期公司用hbase来存储日志,然后再来分析 ,把hbase开发经常要用的命令找了出来. 用ssh登陆安装hbase那台linux后用hbase shell进行hbase命令控制台! 表的管理 1）查看有哪些表 hbase(main)> list 2）创建表 # 语法：create <table>, {NAME => <family&g
C语言scanf继续学习、算术运算符学习和逻辑运算符 dcj3sjt126com c
/* 2013年3月11日20:37:32 地点：北京潘家园功能：完成用户格式化输入多个值目的：学习scanf函数的使用 */ # include <stdio.h> int main(void) { int i, j, k; printf("please input three number:\n"); //提示用
2015越来越好 dcj3sjt126com 歌曲
越来越好房子大了电话小了感觉越来越好假期多了收入高了工作越来越好商品精了价格活了心情越来越好天更蓝了水更清了环境越来越好活得有奔头人会步步高想做到你要努力去做到幸福的笑容天天挂眉梢越来越好婆媳和了家庭暖了生活越来越好孩子高了懂事多了学习越来越好朋友多了心相通了大家越来越好道路宽了心气顺了日子越来越好活的有精神人就不显
java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Tim feiteyizu mysql
数据表中有记录的time字段（属性为timestamp）其值为：“0000-00-00 00:00:00” 程序使用select 语句从中取数据时出现以下异常： java.sql.SQLException:Value '0000-00-00' can not be represented as java.sql.Date java.sql.SQLException: Valu
Ehcache（07）——Ehcache对并发的支持 234390216 并发 ehcache 锁 ReadLock WriteLock
Ehcache对并发的支持在高并发的情况下，使用Ehcache缓存时，由于并发的读与写，我们读的数据有可能是错误的，我们写的数据也有可能意外的被覆盖。所幸的是Ehcache为我们提供了针对于缓存元素Key的Read（读）、Write（写）锁。当一个线程获取了某一Key的Read锁之后，其它线程获取针对于同
mysql中blob,text字段的合成索引 jackyrong mysql
在mysql中，原来有一个叫合成索引的，可以提高blob,text字段的效率性能，但只能用在精确查询，核心是增加一个列，然后可以用md5进行散列，用散列值查找则速度快比如： create table abc(id varchar(10),context blog,hash_value varchar(40)); insert into abc(1,rep
逻辑运算与移位运算 latty 位运算逻辑运算
源码：正数的补码与原码相同例+7 源码：00000111 补码：00000111 （用8位二进制表示一个数）负数的补码：符号位为1，其余位为该数绝对值的原码按位取反；然后整个数加1。 -7 源码： 10000111 ，其绝对值为00000111 取反加一：11111001 为-7补码已知一个数的补码，求原码的操作分两种情况：
利用XSD 验证XML文件 newerdragon java xml xsd
XSD文件（XML Schema 语言也称作 XML Schema 定义（XML Schema Definition，XSD）。具体使用方法和定义请参看： http://www.w3school.com.cn/schema/index.asp java自jdk1.5以上新增了SchemaFactory类可以实现对XSD验证的支持，使用起来也很方便。以下代码可用在J
搭建 CentOS 6 服务器(12) - Samba rensanning centos
（1）安装 # yum -y install samba Installed: samba.i686 0:3.6.9-169.el6_5 # pdbedit -a rensn new password:123456 retype new password:123456 …… （2）Home文件夹 # mkdir /etc
Learn Nodejs 01 toknowme nodejs
（1）下载nodejs https://nodejs.org/download/ 选择相应的版本进行下载（2）安装nodejs 安装的方式比较多，请baidu下我这边下载的是“node-v0.12.7-linux-x64.tar.gz”这个版本（1）上传服务器（2）解压 tar -zxvf node-v0.12.
jquery控制自动刷新的代码举例 xp9802 jquery
1、html内容部分复制代码代码示例: <div id='log_reload'> <select name="id_s" size="1"> <option value='2'>-2s-</option> <option value='3'>-3s-</option