lifelegendc

文本特征提取基本概念介绍----文档模型、相似度计算、潜在语义分析（LSA）

本文档只做导航作用，更多细节，比如公式需要读者自行阅读更多详细资料补充。下面是原文：

------------------------------------------------------------------------------------------------------------------------------

文本挖掘模型结构示意图

1. 分词

分词实例：
提高人民生活水平：提高、高人、人民、民生、生活、活水、水平
分词基本方法：
最大匹配法、最大概率法分词、最短路径分词方法

1.1 最大匹配法

中文分词在中文信息处理中是最最基础的，无论机器翻译亦或信息检索还是其他相关应用，如果涉及中文，都离不开中文分词，因此中文分词具有极高的地位。正向最大匹配法算法如下图：

实例：S1="计算语言学课程是三个课时"，设定最大词长MaxLen= 5，S2= " "
（1）S2=“”；S1不为空，从S1左边取出候选子串W="计算语言学"；
（2）查词表，“计算语言学”在词表中，将W加入到S2中，S2=“计算语言学/ ”，并将W从S1中去掉，此时S1="课程是三个课时"；
（3）S1不为空，于是从S1左边取出候选子串W="课程是三个"；
（4）查词表，W不在词表中，将W最右边一个字去掉，得到W="课程是三"；
（5）查词表，W不在词表中，将W最右边一个字去掉，得到W="课程是"；
（6）查词表，W不在词表中，将W最右边一个字去掉，得到W="课程"
（7）查词表，W在词表中，将W加入到S2中，S2=“计算语言学/ 课程/ ”，并将W从S1中去掉，此时S1="是三个课时"；
（8）S1不为空，于是从S1左边取出候选子串W="是三个课时"；
（9）查词表，W不在词表中，将W最右边一个字去掉，得到W="是三个课"；
（10）查词表，W不在词表中，将W最右边一个字去掉，得到W="是三个"；
（11）查词表，W不在词表中，将W最右边一个字去掉，得到W="是三"
（12）查词表，W不在词表中，将W最右边一个字去掉，得到W=“是”，这时W是单字，将W加入到S2中，S2=“计算语言学/ 课程/ 是/ ”，并将W从S1中去掉，此时S1="三个课时"；
。。。。。。
。。。。。。
（21）S2=“计算语言学/ 课程/ 是/ 三/ 个/ 课时/ ”，此时S1=""。
（22）S1为空，输出S2作为分词结果，分词过程结束。
代码如下：

[cpp]  view plain 
      copy 
     
 #include   
 #include   
 #include   
 #include   
 #include   
 using namespace std;  
 using namespace stdext;  
   
 class CDictionary  
 {  
 public:  
     CDictionary(); //将词典文件读入并构造为一个哈希词典  
     ~CDictionary();  
     int FindWord(string w); //在哈希词典中查找词  
 private:  
     string strtmp; //读取词典的每一行  
     string word; //保存每个词  
     hash_mapint> wordhash; // 用于读取词典后的哈希  
     hash_mapint >::iterator worditer; //  
     typedef pairint> sipair;  
 };  
   
 //将词典文件读入并构造为一个哈希词典  
 CDictionary::CDictionary()  
 {  
     ifstream infile("wordlexicon"); // 打开词典  
     if (!infile.is_open()) // 打开词典失败则退出程序  
     {  
         cerr << "Unable to open input file: " << "wordlexicon"  
             << " -- bailing out!" << endl;  
         exit(-1);  
     }  
     while (getline(infile, strtmp, 'n')) // 读入词典的每一行并将其添加入哈希中  
     {  
         istringstream istr(strtmp);  
         istr >> word; //读入每行第一个词  
         wordhash.insert(sipair(word, 1)); //插入到哈希中  
     }  
 }  
   
 CDictionary::~CDictionary()  
 {  
 }  
   
 //在哈希词典中查找词，若找到，则返回，否则返回  
 int CDictionary::FindWord(string w)  
 {  
     if (wordhash.find(w) != wordhash.end())  
     {  
         return 1;  
     }  
     else  
     {  
         return 0;  
     }  
 }  
   
 #define MaxWordLength 10 // 最大词长为个字节（即个汉字）  
 #define Separator "/ " // 词界标记  
   
 CDictionary WordDic; //初始化一个词典  
   
 //对字符串用最大匹配法（正向或逆向）处理  
 string SegmentSentence(string s1)  
 {  
     string s2 = ""; //用s2存放分词结果  
     while(!s1.empty())  
     {  
         int len =(int) s1.length(); // 取输入串长度  
         if (len > MaxWordLength) // 如果输入串长度大于最大词长  
         {  
             len = MaxWordLength; // 只在最大词长范围内进行处理  
         }  
         //string w = s1.substr(0, len); // （正向用）将输入串左边等于最大词长长度串取出作为候选词  
         string w = s1.substr(s1.length() - len, len); //逆向用  
         int n = WordDic.FindWord(w); // 在词典中查找相应的词  
         while(len > 2 && n == 0) // 如果不是词  
         {  
             len -= 2; // 从候选词右边减掉一个汉字，将剩下的部分作为候选词  
             //w = w.substr(0, len); //正向用  
             w = s1.substr(s1.length() - len, len); //逆向用  
             n = WordDic.FindWord(w);  
         }  
         //s2 += w + Separator; // (正向用）将匹配得到的词连同词界标记加到输出串末尾  
         w = w + Separator; // (逆向用)  
         s2 = w + s2 ; // (逆向用)  
         //s1 = s1.substr(w.length(), s1.length()); //(正向用)从s1-w处开始  
         s1 = s1.substr(0, s1.length() - len); // (逆向用)  
     }  
     return s2;  
 }  
   
 //对句子进行最大匹配法处理，包含对特殊字符的处理  
 string SegmentSentenceMM (string s1)  
 {  
     string s2 = ""; //用s2存放分词结果  
     int i;  
     int dd;  
     while(!s1.empty() )  
     {  
         unsigned char ch = (unsigned char)s1[0];  
         if (ch < 128) // 处理西文字符  
         {  
             i = 1;  
             dd = (int)s1.length();  
             while (i < dd && ((unsigned char)s1[i] < 128) && (s1[i] != 10) && (s1[i] != 13)) // s1[i]不能是换行符或回车符  
             {  
                 i++;  
             }  
             if ((ch != 32) && (ch != 10) && (ch != 13)) // 如果不是西文空格或换行或回车符  
             {  
                 s2 += s1.substr(0,i) + Separator;  
             }  
             else  
             {  
                 //if (ch == 10 || ch == 13) // 如果是换行或回车符，将它拷贝给s2输出  
                 if (ch == 10 || ch == 13 || ch == 32) //谢谢读者mces89的指正  
                 {  
                     s2 += s1.substr(0, i);  
                 }  
             }  
             s1 = s1.substr(i,dd);  
             continue;  
         }  
         else  
         {  
             if (ch < 176) // 中文标点等非汉字字符  
             {  
                 i = 0;  
                 dd = (int)s1.length();  
                 while(i < dd && ((unsigned char)s1[i] < 176) && ((unsigned char)s1[i] >= 161)  
                     && (!((unsigned char)s1[i] == 161 && ((unsigned char)s1[i+1] >= 162 && (unsigned char)s1[i+1] <= 168)))  
                     && (!((unsigned char)s1[i] == 161 && ((unsigned char)s1[i+1] >= 171 && (unsigned char)s1[i+1] <= 191)))  
                     && (!((unsigned char)s1[i] == 163 && ((unsigned char)s1[i+1] == 172 || (unsigned char)s1[i+1] == 161)  
                     || (unsigned char)s1[i+1] == 168 || (unsigned char)s1[i+1] == 169 || (unsigned char)s1[i+1] == 186  
                     || (unsigned char)s1[i+1] == 187 || (unsigned char)s1[i+1] == 191)))  
                 {  
                     i = i + 2; // 假定没有半个汉字  
                 }  
                 if (i == 0)  
                 {  
                     i = i + 2;  
                 }  
                 if (!(ch == 161 && (unsigned char)s1[1] == 161)) // 不处理中文空格  
                 {  
                     s2+=s1.substr(0, i) + Separator; // 其他的非汉字双字节字符可能连续输出  
                 }  
                 s1 = s1.substr(i, dd);  
                 continue;  
             }  
         }  
         // 以下处理汉字串  
         i = 2;  
         dd = (int)s1.length();  
         while(i < dd && (unsigned char)s1[i] >= 176)  
         {  
             i += 2;  
         }  
         s2 += SegmentSentence(s1.substr(0, i));  
         s1 = s1.substr(i,dd);  
     }  
     return s2;  
 }  
   
 int main(int argc, char *argv[])  
 {  
     string strtmp; //用于保存从语料库中读入的每一行  
     string line; //用于输出每一行的结果  
     ifstream infile(argv[1]); // 打开输入文件  
     if (!infile.is_open()) // 打开输入文件失败则退出程序  
     {  
         cerr << "Unable to open input file: " << argv[1]  
             << " -- bailing out!" << endl;  
         exit(-1);  
     }  
     ofstream outfile1("SegmentResult.txt"); //确定输出文件  
     if (!outfile1.is_open())  
     {  
         cerr << "Unable to open file：SegmentResult.txt"  
             << "--bailing out!" << endl;  
         exit(-1);  
     }  
     while (getline(infile, strtmp, 'n')) //读入语料库中的每一行并用最大匹配法处理  
     {  
         line = strtmp;  
         line = SegmentSentenceMM(line); // 调用分词函数进行分词处理  
         outfile1 << line << endl; // 将分词结果写入目标文件  
     }  
     return 0;  
 }  

其它基于匹配的分词方法：
最大匹配法（Maximum Matching method）：匹配的方向是从左向右。
逆向最大匹配法（Reverse Maximum method）：匹配方向与MM法相反，是从右向左。实验表明：对于汉语来说，逆向最大匹配法比最大匹配法更有效。
双向匹配法(Bi-direction Matching method)：比较MM法与RMM法的分词结果，从而决定正确的分词。
最佳匹配法（Optimum Matching method, OM法）：将词典中的单词按它们在文本中的出现频度的大小排列，高频度的单词排在前，频度低的单词排在后，从而提高匹配的速度。
联想-回溯法（Association-Backtracking method）：采用联想和回溯的机制来进行匹配。

1.2 最大概率法分词

基本思想是：（1）一个待切分的汉字串可能包含多种分词结果（2）将其中概率最大的那个作为该字串的分词结果

S: 有意见分歧
W1: 有/ 意见/ 分歧/
W2: 有意/ 见/ 分歧/

其中，可以近似地将 P(S|W) 看作是恒等于 1 的，因为任意假想的一种分词方式之下生成我们的句子总是精准地生成的（只需把分词之间的分界符号扔掉即可），而P(S)在各种分词方式下总是相等的，所以不影响比较。所以P(W|S)约等于P(W)。
最大概率法分词示例：

1.3 最短路径分词方法

基本思想：在词图上选择一条词数最少的路径
优点：好于单向的最大匹配方法
最大匹配：独立自主\和平\等\互利\的\原则 (6)
最短路径：独立自主\和\平等互利\的\原则 (5)
缺点：同样无法解决大部分歧义
例如：结合\成分\子时

2. 文档模型

包含三种模型：布尔模型、向量空间模型、概率模型

2.1 布尔模型

布尔模型是建立在经典的集合论和布尔代数的基础上，根据每个词在一篇文档中是否出现，对应权值为0或1，文档检索也是由布尔逻辑运算来决定的。
优点：简单、易理解、简洁的形式化。
缺点：准确匹配，信息需求的能力表达不足。

2.2 向量空间模型（VSM）

向量空间模型中将文档表达为一个矢量，看作向量空间中的一个点

(1) 词权重

一个句子中的每个词在决定句子的含义时贡献度并不相同，也就是每个词的权重不同，例如下面的句子：
“Most scientists think that butterflies use the position of the sun in the sky as a kind of compass that allows them to determine which way is north.”
重要的词：butterflies, monarchs, scientists, compass
不重要的词：most, think, kind, sky
词权重就是反映每个词的重要性的度量。

(2) 词频(tf)

一个词在一个句子中出现的次数越多，那么这个词在描述这个句子的含义方面贡献度越大，可通过下面两个式子中的一个来计算每个词的词权重：

(3) 逆文档频率(idf)

通常来说，如果一个词在越多的文档中出现过，那个这个词对某一个文档的贡献度应该就越小，也就是通过这个词来区分文档的区分度越小，可以用逆文档频率(idf)来度量这个概念。先定义另一个概念，文档频率（df），表示包含某个词的文档的数目。逆文档频率计算公式如下：

有时候为了让idf范围在[0,1]内，使用下面的式子来计算：

VSM计算简单，很容易表示词权重，它的缺点是必须假设词与词之间的独立性

2.3 概率模型

概率统计检索模型(Probabilistic Retrieval Model)是另一种普遍使用的信息检索算法模型，它应用文档与查询相关的概率来计算文档与查询的相似度。通常利用检索单元作为线索，通过统计得到每个检索单元在相关的文档集（对应于某询）中出现和不出现的概率以及其在与该查询不相关的文档集中出现和不出现的概率，最终，利用这些概率值，计算文档与查询的相似度。设文档D包含t个检索单元，分别记为（ω1,ω2,...,ωt），其中，ωi为第i个检索单元的权值，可以理解为该检索单元的出现为文档D与查询Q相关所作的“贡献”，文档D与查询Q的相似度则是t个包含在D中的检索单元“贡献”的组合。
在信息检索的研究中，对于概率统计检索模型，通常，为了计算方便需要做一些假设，比如：假设检索单元在相关文档集中的分布相互独立，在不相关文档集中的分布也相互独立。虽然这一假设与实际情况并不完全一致，比如，“中国”和“北京”如果同时出现在某一篇文档中，则不能认为这样的两个检索单元是相互独立的。但是，如果考虑检索单元的相关性，则会使相应的概率计算变得非常复杂，因此，在实际中，仍然保持了这一假设。实际的效果表明，尽管概率统计检索模型存在这样的不足，但仍可以取得相对令人满意的信息检索效果。
具体来说，在独立性假设的前提下，同时考虑检索单元出现在文档中的概率以及不出现在文档中的概率，对于给定的查询q 的某一个检索单元ωi，可以定义wi ：

wi=log[r(N-R-n+r) / (R-r)(n-r)]

其中
N：文档集合中文档的总数；
R：与查询q 相关的文档总数；
n：含有检索单元ωi 的文档总数；
r：与q 相关的文档中，含有检索单元ωi 的文档数。
由于训练集合所能提供的信息并不是十分完全，Robertson 和Sparck-Jones建议对上式进行修正，在相关的信息不完全的情况下，在每一项后面加上0.5.
现在，我们已经获得了各检索单元的权值，下一步是如何利用这些权值来计算文档与查询的相似度。考虑我们的假设条件，由于各检索单元的分布相互独立，因此，我们可以简单的利用这些权值的乘积来计算文档与查询的相似度，

SC (Q, D)= logΠ(wi)=Σlogwi

至此，我们仅讨论概率统计检索模型最基本的一种检索思路，实际使用中的概率统计检索模型会复杂很多，通常，在检索单元的权值的计算中，还会考虑检索单元在文档中出现的频率(tf)，检索单元在查询中出现的频率(qtf)，以及文档的长度(dl)等信息，BM25算法就是这样一种在目前信息检索系统中常用的检索算法。BM25 检索算法是Roberston 1994年在TREC3上提出，BM25计算文档D和查询Q的相似性。对查询Q中的每一个检索单元ωi ，一共有三个权值与之相关：
U =(k2+1)ψ/(k2+ψ),其中k2是由用户指定的参数，ψ是检索单元ωi在Q中出现的频率qtf(within query term frequency)。
V =(k+1)φ/k*(1－b+bL)＋φ其中k 和b 是用户指定的参数，φ 是检索单元ωi 在D 中出现的频率tf (term frequency)，L 是正则化之后的文档长度，计算方法为原始文档长度除以文档集合中平均的文档长度。
W就是我们上面提到的加0.5后的式子。在BM25 公式中，查询Q 和文档D 的分值为SC(Q,D)= ΣUVW

3 文本间相似度的计算

3.1 基于概率模型的相关度

wi=log[r(N-R-n+r) / (R-r)(n-r)]
SC (Q, D)= logΠ(wi)=Σlogwi
见上面的概率模型

3.2 基于VSM的相关度

基于向量空间模型的常用方法：欧氏距离、向量内积、向量夹角余弦

（1）欧氏距离

（2）向量内积

（3）向量夹角余弦

（4）Jaccard相似度

（5）基于向量内积的几种方法的对比

（6）基于集合计算的几种方法

4. 特征空间的变化

机器学习的主要难点在于“被阐述”的词法和“真正要表达”的语义的区别。产生这个问题的原因主要是：1.一个单词可能有多个意思和多个用法。2. 同义词和近义词，而且根据不同的语境或其他因素，原本不同的单词也有可能表示相同的意思。LSA是处理这类问题的著名技术，其主要思想就是映射高维向量到潜在语义空间，使其降维。潜在语义分析(LSA)又称为潜在语义索引(LSI)，是一种使用数学和统计的方法对文本中的词语进行抽取，推断它们之间的语义关系，并建立一个语义索引，而将文档组织成语义空间结构的方法。它的出发点是文档的特征项与特征项之间存在着某种潜在的语义联系，消除词之间的相关性，简化文本向量的目的。它通过奇异值分解(SVD)，把特征项和文档映射到同一个语义空间，对文档矩阵进行计算，提取K个最大的奇异值，近似表示原文档。这个映射必须是严格线性的而且是基于共现表的奇异值分解。
问题提出：一词多义和同义词
中心思想：用概念（或特征）代替词
基本方法：利用矩阵理论中的“奇异值分解（singular value decomposition,SVD）”技术，将词频矩阵转化为奇异矩阵（K×K）

4.1 奇异值分解

特征值分解是一个提取矩阵特征很不错的方法，但是它只是对方阵而言的，在现实的世界中，我们看到的大部分矩阵都不是方阵，比如说有N个学生，每个学生有M科成绩，这样形成的一个N * M的矩阵就不可能是方阵，我们怎样才能描述这样普通的矩阵呢的重要特征呢？奇异值分解可以用来干这个事情，奇异值分解是一个能适用于任意的矩阵的一种分解的方法：

假设A是一个N * M的矩阵，那么得到的U是一个N * N的方阵（里面的向量是正交的，U里面的向量称为左奇异向量），Σ是一个N * M的矩阵（除了对角线的元素都是0，对角线上的元素称为奇异值），V’(V的转置)是一个N * N的矩阵，里面的向量也是正交的，V里面的向量称为右奇异向量），从图片来反映几个相乘的矩阵的大小可得下面的图片

那么奇异值和特征值是怎么对应起来的呢？首先，我们将一个矩阵A的转置乘以A，将会得到一个方阵，我们用这个方阵求特征值可以得到：这里得到的v，就是我们上面的右奇异向量。此外我们还可以得到：

这里的σ就是上面说的奇异值，u就是上面说的左奇异向量。奇异值σ跟特征值类似，在矩阵Σ中也是从大到小排列，而且σ的减少特别的快，在很多情况下，前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上了。也就是说，我们也可以用前r大的奇异值来近似描述矩阵，这里定义一下部分奇异值分解：

r是一个远小于m、n的数，这样矩阵的乘法看起来像是下面的样子：

右边的三个矩阵相乘的结果将会是一个接近于A的矩阵，在这儿，r越接近于n，则相乘的结果越接近于A。而这三个矩阵的面积之和（在存储观点来说，矩阵面积越小，存储量就越小）要远远小于原始的矩阵A，我们如果想要压缩空间来表示原矩阵A，我们存下这里的三个矩阵：U、Σ、V就好了。

4.2 隐语义分析(LSA)

输入：term-by-document matrix
输出：
U: concept-by-term matrix
V: concept-by-document matrix
S: elements assign weights to concepts
基本步骤
1.建立词频矩阵frequency matrix
2.计算frequency matrix的奇异值分解
分解frequency matrix成3个矩阵U，S，V。U和V是正交矩阵（UTU=I），S是奇异值的对角矩阵（K×K）
3.对于每一个文档d，用排除了SVD中消除后的词的新的向量替换原有的向量
4.用转换后的文档索引和相似度计算

之前吴军老师在矩阵计算与文本处理中的分类问题中谈到：
“三个矩阵有非常清楚的物理含义。第一个矩阵X中的每一行表示意思相关的一类词，其中的每个非零元素表示这类词中每个词的重要性（或者说相关性），数值越大越相关。最后一个矩阵Y中的每一列表示同一主题一类文章，其中每个元素表示这类文章中每篇文章的相关性。中间的矩阵则表示类词和文章雷之间的相关性。因此，我们只要对关联矩阵A进行一次奇异值分解，w 我们就可以同时完成了近义词分类和文章的分类。（同时得到每类文章和每类词的相关性）。”
上面这段话可能不太容易理解，不过这就是LSI的精髓内容，我下面举一个例子来说明一下，下面的例子来自LSA tutorial，具体的网址我将在最后的引用中给出：

这就是一个矩阵，不过不太一样的是，这里的一行表示一个词在哪些title中出现了（一行就是之前说的一维feature），一列表示一个title中有哪些词，（这个矩阵其实是我们之前说的那种一行是一个sample的形式的一种转置，这个会使得我们的左右奇异向量的意义产生变化，但是不会影响我们计算的过程）。比如说T1这个title中就有guide、investing、market、stock四个词，各出现了一次，我们将这个矩阵进行SVD，得到下面的矩阵：

左奇异向量表示词的一些特性，右奇异向量表示文档的一些特性，中间的奇异值矩阵表示左奇异向量的一行与右奇异向量的一列的重要程序，数字越大越重要。
继续看这个矩阵还可以发现一些有意思的东西，首先，左奇异向量的第一列表示每一个词的出现频繁程度，虽然不是线性的，但是可以认为是一个大概的描述，比如book是0.15对应文档中出现的2次，investing是0.74对应了文档中出现了9次，rich是0.36对应文档中出现了3次；
其次，右奇异向量中一的第一行表示每一篇文档中的出现词的个数的近似，比如说，T6是0.49，出现了5个词，T2是0.22，出现了2个词。
然后我们反过头来看，我们可以将左奇异向量和右奇异向量都取后2维（之前是3维的矩阵），投影到一个平面上，可以得到：

在图上，每一个红色的点，都表示一个词，每一个蓝色的点，都表示一篇文档，这样我们可以对这些词和文档进行聚类，比如说stock 和 market可以放在一类，因为他们老是出现在一起，real和estate可以放在一类，dads，guide这种词就看起来有点孤立了，我们就不对他们进行合并了。按这样聚类出现的效果，可以提取文档集合中的近义词，这样当用户检索文档的时候，是用语义级别（近义词集合）去检索了，而不是之前的词的级别。这样一减少我们的检索、存储量，因为这样压缩的文档集合和PCA是异曲同工的，二可以提高我们的用户体验，用户输入一个词，我们可以在这个词的近义词的集合中去找，这是传统的索引无法做到的。

参考：

http://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.html

北大计算机学院杨建武文本挖掘课件

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
Python前沿技术：机器学习与人工智能 4.0啊 Python 人工智能 python 机器学习
Python前沿技术：机器学习与人工智能一、引言随着科技的飞速发展，机器学习和人工智能（AI）已经成为了计算机科学领域的热门话题。Python作为一门易学易用且功能强大的编程语言，已经成为了这两个领域的首选语言之一。本文将深入探讨Python在机器学习和人工智能领域的应用，以及一些前沿技术和工具。二、Python机器学习基础2.1机器学习概述机器学习是人工智能（AI）的一个关键子集，它的核心在于让
chatgpt赋能python：如何在Python中计算平均值 tulingtest ChatGpt python chatgpt numpy 计算机
如何在Python中计算平均值计算平均值是数据分析、统计和机器学习等许多领域中的常见任务。Python作为一门功能强大且易于学习的编程语言，为计算平均值提供了多种方法。在本文中，我们将介绍如何在Python中计算平均值。什么是平均值简单来说，平均值是一组数字的总和除以数字的数量。例如，对于数字序列1，3，5，7，9，平均值是(1+3+5+7+9)/5=5。平均值在数据分析中非常有用，因为它可以提供
Python 初学者入门必知： Anaconda是什么？有什么作用？怎么使用？懒大王爱吃狼 Python基础 python 开发语言 python基础 python学习 anaconda anaconda安装 python教程
初学者在学习Python时，经常看到的一个名字是Anaconda。究竟什么是Anaconda，为什么它如此受欢迎？在这篇文章中，我们将探讨Anaconda，了解Anaconda的从安装到使用的。Anaconda是一个免费开源的Python和R编程发行版，包含上千个适用于数据科学和机器学习的包。同时，配备了Spyder和Jupyternotebook等工具，初学者可以使用它们来学习Python，使用
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
一切皆是映射：AI的去中心化：区块链技术的融合 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
一切皆是映射：AI的去中心化：区块链技术的融合作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：AI，区块链，去中心化，智能合约，共识机制，数据安全，隐私保护，分布式账本技术，机器学习，数据隐私1.背景介绍1.1问题的由来随着人工智能（AI）技术的快速发展，其在各个领域的应用越来越广泛，从自动驾驶、智能医疗到金融服务，AI正在改变着我们的生活。
第五届核磁机器学习班（训练营：2023.6.5~6.17）茗创科技
茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★基于血氧水平依赖的功能磁共振成像(fMRI)技术,利用其数据构建的功能性脑网络后,发现脑并不是一个单纯对外界刺激进行
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
redis学习笔记——不仅仅是存取数据 Everyday都不同 returnSource expire/del incr/lpush 数据库分区 redis
最近项目中用到比较多redis，感觉之前对它一直局限于get/set数据的层面。其实作为一个强大的NoSql数据库产品，如果好好利用它，会带来很多意想不到的效果。（因为我搞java，所以就从jedis的角度来补充一点东西吧。PS：不一定全，只是个人理解，不喜勿喷） 1、关于JedisPool.returnSource(Jedis jeids) 这个方法是从red
SQL性能优化-持续更新中。。。。。。 atongyeye oracle sql
1 通过ROWID访问表--索引你可以采用基于ROWID的访问方式情况,提高访问表的效率, , ROWID包含了表中记录的物理位置信息..ORACLE采用索引(INDEX)实现了数据和存放数据的物理位置(ROWID)之间的联系. 通常索引提供了快速访问ROWID的方法,因此那些基于索引列的查询就可以得到性能上的提高. 2 共享SQL语句--相同的sql放入缓存 3 选择最有效率的表
[JAVA语言]JAVA虚拟机对底层硬件的操控还不完善 comsci JAVA虚拟机
如果我们用汇编语言编写一个直接读写CPU寄存器的代码段，然后利用这个代码段去控制被操作系统屏蔽的硬件资源，这对于JVM虚拟机显然是不合法的，对操作系统来讲，这样也是不合法的，但是如果是一个工程项目的确需要这样做，合同已经签了，我们又不能够这样做，怎么办呢？那么一个精通汇编语言的那种X客，是否在这个时候就会发生某种至关重要的作用呢？ &n
lvs- real 男人50 LVS
#!/bin/bash # # Script to start LVS DR real server. # description: LVS DR real server # #. /etc/rc.d/init.d/functions VIP=10.10.6.252 host='/bin/hostname' case "$1" in sta
生成公钥和私钥 oloz DSA 安全加密
package com.msserver.core.util; import java.security.KeyPair; import java.security.PrivateKey; import java.security.PublicKey; import java.security.SecureRandom; public class SecurityUtil {
UIView 中加入的cocos2d，背景透明 374016526 cocos2d glClearColor
要点是首先pixelFormat:kEAGLColorFormatRGBA8，必须有alpha层才能透明。然后view设置为透明glView.opaque = NO;[director setOpenGLView:glView];[self.viewController.view setBackgroundColor:[UIColor clearColor]];[self.viewControll
mysql常用命令香水浓 mysql
连接数据库 mysql -u troy -ptroy 备份表 mysqldump -u troy -ptroy mm_database mm_user_tbl > user.sql 恢复表（与恢复数据库命令相同） mysql -u troy -ptroy mm_database < user.sql 备份数据库 mysqldump -u troy -ptroy
我的架构经验系列文章 - 后端架构 - 系统层面 agevs JavaScript jquery css html5
系统层面：高可用性所谓高可用性也就是通过避免单独故障加上快速故障转移实现一旦某台物理服务器出现故障能实现故障快速恢复。一般来说，可以采用两种方式，如果可以做业务可以做负载均衡则通过负载均衡实现集群，然后针对每一台服务器进行监控，一旦发生故障则从集群中移除；如果业务只能有单点入口那么可以通过实现Standby机加上虚拟IP机制，实现Active机在出现故障之后虚拟IP转移到Standby的快速
利用ant进行远程tomcat部署 aijuans tomcat
在javaEE项目中，需要将工程部署到远程服务器上，如果部署的频率比较高，手动部署的方式就比较麻烦，可以利用Ant工具实现快捷的部署。这篇博文详细介绍了ant配置的步骤（http://www.cnblogs.com/GloriousOnion/archive/2012/12/18/2822817.html），但是在tomcat7以上不适用，需要修改配置，具体如下： 1.配置tomcat的用户角色
获取复利总收入 baalwolf 获取
public static void main(String args[]){ int money=200; int year=1; double rate=0.1; &
eclipse.ini解释 BigBird2012 eclipse
大多数java开发者使用的都是eclipse，今天感兴趣去eclipse官网搜了一下eclipse.ini的配置，供大家参考，我会把关键的部分给大家用中文解释一下。还是推荐有问题不会直接搜谷歌，看官方文档，这样我们会知道问题的真面目是什么，对问题也有一个全面清晰的认识。 Overview 1、Eclipse.ini的作用 Eclipse startup is controlled by th
AngularJS实现分页功能 bijian1013 JavaScript AngularJS 分页
对于大多数web应用来说显示项目列表是一种很常见的任务。通常情况下，我们的数据会比较多，无法很好地显示在单个页面中。在这种情况下，我们需要把数据以页的方式来展示，同时带有转到上一页和下一页的功能。既然在整个应用中这是一种很常见的需求，那么把这一功能抽象成一个通用的、可复用的分页（Paginator）服务是很有意义的。 &nbs
[Maven学习笔记三]Maven archetype bit1129 ArcheType
archetype的英文意思是原型，Maven archetype表示创建Maven模块的模版，比如创建web项目，创建Spring项目等等. mvn archetype提供了一种命令行交互式创建Maven项目或者模块的方式， mvn archetype 1.在LearnMaven-ch03目录下，执行命令mvn archetype:gener
【Java命令三】jps bit1129 Java命令
jps很简单，用于显示当前运行的Java进程，也可以连接到远程服务器去查看 [hadoop@hadoop bin]$ jps -help usage: jps [-help] jps [-q] [-mlvV] [<hostid>] Definitions: <hostid>: <hostname>[:
ZABBIX2.2 2.4 等各版本之间的兼容性 ronin47
zabbix更新很快，从2009年到现在已经更新多个版本，为了使用更多zabbix的新特性，随之而来的便是升级版本，zabbix版本兼容性是必须优先考虑的一点客户端AGENT兼容 zabbix1.x到zabbix2.x的所有agent都兼容zabbix server2.4：如果你升级zabbix server，客户端是可以不做任何改变，除非你想使用agent的一些新特性。 Zabbix代理（p
unity 3d还是cocos2dx哪个适合游戏？ brotherlamp unity自学 unity教程 unity视频 unity资料 unity
unity 3d还是cocos2dx哪个适合游戏？问：unity 3d还是cocos2dx哪个适合游戏？答：首先目前来看unity视频教程因为是3d引擎，目前对2d支持并不完善，unity 3d 目前做2d普遍两种思路，一种是正交相机，3d画面2d视角，另一种是通过一些插件，动态创建mesh来绘制图形单元目前用的较多的是2d toolkit，ex2d，smooth moves，sm2，
百度笔试题：一个已经排序好的很大的数组，现在给它划分成m段，每段长度不定，段长最长为k，然后段内打乱顺序，请设计一个算法对其进行重新排序 bylijinnan java 算法面试百度招聘
import java.util.Arrays; /** * 最早是在陈利人老师的微博看到这道题： * #面试题#An array with n elements which is K most sorted，就是每个element的初始位置和它最终的排序后的位置的距离不超过常数K * 设计一个排序算法。It should be faster than O(n*lgn)。
获取checkbox复选框的值 chiangfai checkbox
<title>CheckBox</title> <script type = "text/javascript"> doGetVal: function doGetVal() { //var fruitName = document.getElementById("apple").value;//根据
MySQLdb用户指南 chenchao051 mysqldb
原网页被墙，放这里备用。 MySQLdb User's Guide Contents Introduction Installation _mysql MySQL C API translation MySQL C API function mapping Some _mysql examples MySQLdb
HIVE 窗口及分析函数 daizj hive 窗口函数分析函数
窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明 RANK() &nbs
PHP ZipArchive 实现压缩解压Zip文件 dcj3sjt126com PHP zip
PHP ZipArchive 是PHP自带的扩展类，可以轻松实现ZIP文件的压缩和解压，使用前首先要确保PHP ZIP 扩展已经开启，具体开启方法就不说了，不同的平台开启PHP扩增的方法网上都有，如有疑问欢迎交流。这里整理一下常用的示例供参考。一、解压缩zip文件 01 02 03 04 05 06 07 08 09 10 11
精彩英语贺词 dcj3sjt126com 英语
I'm always here 我会一直在这里支持你 &nb
基于Java注解的Spring的IoC功能 e200702084 java spring bean IOC Office
java模拟post请求 geeksun java
一般API接收客户端（比如网页、APP或其他应用服务）的请求，但在测试时需要模拟来自外界的请求，经探索，使用HttpComponentshttpClient可模拟Post提交请求。此处用HttpComponents的httpclient来完成使命。 import org.apache.http.HttpEntity ; import org.apache.http.HttpRespon
Swift语法之 ---- ?和!区别 hongtoushizi ?swift !
转载自： http://blog.sina.com.cn/s/blog_71715bf80102ux3v.html Swift语言使用var定义变量，但和别的语言不同，Swift里不会自动给变量赋初始值，也就是说变量不会有默认值，所以要求使用变量之前必须要对其初始化。如果在使用变量之前不进行初始化就会报错： var stringValue : String //
centos7安装jdk1.7 jisonami jdk centos
安装JDK1.7 步骤1、解压tar包在当前目录 [root@localhost usr]#tar -xzvf jdk-7u75-linux-x64.tar.gz 步骤2：配置环境变量在etc/profile文件下添加 export JAVA_HOME=/usr/java/jdk1.7.0_75 export CLASSPATH=/usr/java/jdk1.7.0_75/lib
数据源架构模式之数据映射器 home198979 PHP 架构数据映射器 datamapper
前面分别介绍了数据源架构模式之表数据入口、数据源架构模式之行和数据入口数据源架构模式之活动记录，相较于这三种数据源架构模式，数据映射器显得更加“高大上”。一、概念数据映射器（Data Mapper）：在保持对象和数据库（以及映射器本身）彼此独立的情况下，在二者之间移动数据的一个映射器层。概念永远都是抽象的，简单的说，数据映射器就是一个负责将数据映射到对象的类数据。 &nb
在Python中使用MYSQL pda158 mysql python
缘由　　近期在折腾一个小东西须要抓取网上的页面。然后进行解析。将结果放到数据库中。　　了解到 Python在这方面有优势，便选用之。　　由于我有台 server上面安装有 mysql，自然使用之。在进行数据库的这个操作过程中遇到了不少问题，这里记录一下，大家共勉。　　 python中mysql的调用　　百度之后能够通过MySQLdb进行数据库操作。
单例模式 hxl1988_0311 java 单例设计模式单件
package com.sosop.designpattern.singleton; /* * 单件模式：保证一个类必须只有一个实例，并提供全局的访问点 * * 所以单例模式必须有私有的构造器，没有私有构造器根本不用谈单件 * * 必须考虑到并发情况下创建了多个实例对象 * */ /** * 虽然有锁，但是只在第一次创建对象的时候加锁，并发时不会存在效率
27种迹象显示你应该辞掉程序员的工作 vipshichg 工作
1、你仍然在等待老板在2010年答应的要提拔你的暗示。 2、你的上级近10年没有开发过任何代码。 3、老板假装懂你说的这些技术，但实际上他完全不知道你在说什么。 4、你干完的项目6个月后才部署到现场服务器上。 5、时不时的，老板在检查你刚刚完成的工作时，要求按新想法重新开发。 6、而最终这个软件只有12个用户。 7、时间全浪费在办公室政治中，而不是用在开发好的软件上。 8、部署前5分钟才开始测试。