bewithme

DL4J中文文档/语言处理/Word2Vec

Word2Vec, Doc2vec & GloVe: 用于自然语言处理的神经词嵌入

内容

介绍
神经词嵌入
有趣的Word2Vec结果
给我代码
Word2Vec 剖析
安装，加载与训练
代码示例
问题排查与Word2Vec调试
Word2Vec用例
外语
GloVe(全局向量)与Doc2Vec

Word2Vec介绍

Word2Vec是一个处理文本的两层神经网络。它的输入是一个文本语料库，它的输出是一组向量：语料库中的单词的特征向量。Word2Vec不是一个深度神经网络，它将文本转换成一个深度网络可以理解的数值形式。DL4J实现了一个分布式的Word2Vec，用于Java和Scala，它在Spark的GPU上工作。

Word2Vec的应用扩展了自然界的句子解析。它也可以同样地应用于基因、代码、喜欢、播放列表、社交媒体图表和其他可以识别模式的语言或符号系列。

为什么？因为单词只是像上面提到的其他数据一样的离散状态，我们只是在寻找这些状态之间的转移概率：它们将同时发生的可能性。所以gene2vec，like2vec和follower2vec 都是可能的。记住这一点，下面的教程将帮助你理解如何为任意一组离散和共现状态创建神经嵌入。

Word2Vec的目的和实用性是将相似词的向量分组到向量空间中。也就是说，它在数学上检测相似性。Word2Vec创建向量，这些向量是单词特征（例如单个单词的上下文）的分布式数字表示。这样做没有人为干预。

给定足够的数据、用法和上下文，Word2Vec可以基于过去的出现对单词的意义做出高度准确的猜测。这些猜测可以用来建立一个单词与其他单词的关联（例如，“男人”是“男孩”，“女人”是“女孩”），或者是聚类文档，并按主题分类。这些聚类可以构成搜索的基础、情感分析和在科学研究、法律发现、电子商务和客户关系管理等多个领域的建议。

Word2Vec神经网络的输出是一个词汇表，其中每个项目都有一个附加到它的向量，它可以被送入深度学习网络或简单地查询以检测词之间的关系。

测量余弦相似度，90度角表示没有相似度，而总的相似度是1是0度角，完全重叠；即Sweden等于Sweden，而Norway到Sweden的余弦距离是0.760124，是任何其他国家中最高的。

这是一个使用Word2Vec生成的与“Sweden”相关的单词列表，按接近顺序排序:

斯堪的纳维亚的国家和几个富裕的北欧、日耳曼国家跻身前九位。

神经词嵌入

我们用来表示单词的向量称为神经词嵌入，表示是奇怪的。一件事描述了另一件事，尽管这两件事是根本不同的。正如Elvis Costello所说：“写作对于音乐就像跳舞对于建筑。”Word2Vec对单词“向量化”，通过这样做，它使得自然语言可以被计算机阅读——我们可以开始对单词执行强大的数学运算以检测它们的相似性。

因此，神经词嵌入用数字代表一个单词。这是一个简单但不太可能的翻译。

Word2Vec类似于一个自动编码器，将每个单词编码在一个向量中，而不是通过重建对输入单词进行训练，Word2Vec在语料库中将单词和与它们相邻的其他单词进行训练。

它以两种方式中的其中一种来实现，或者使用上下文来预测目标单词（一种称为连续词袋或CBOW的方法），或者使用单词来预测目标上下文，即skip-gram。我们使用后一种方法，因为它对大数据集产生更精确的结果。

当分配给单词的特征向量不能用于精确预测该单词的上下文时，向量的组成部分会被调整。语料库中的每个单词的上下文是老师，往回发送错误信号以调整特征向量。通过调整在向量中数值凑在一起的上下文，单词的向量被它们判断为相似的。

正如梵高的向日葵画是油画布上的二维混合物，代表了1880年代末巴黎三维空间中的植物物质，所以以向量排列的500个数字可以代表一个词或一组词。

这些数字将每个单词定位为500维向量空间中的一个点。超过三个维度的空间难以可视化。（Geoff Hinton教授人们想象13维空间，建议学生首先想象3维空间，然后对自己说：“13、13、13”：）

一组训练有素的单词向量将在那个空间中放置相似的单词。“橡树”、“榆树”和“桦树”可能会聚集在一个角落，而战争、冲突和争斗则聚集在另一个角落。

类似的事情和想法被证明是“接近的”。它们的相对意义已经转化为可测量的距离。质量变成数量，算法可以完成他们的工作。但相似性只是Word2Vec可以学习的许多关联的基础。例如，它可以衡量一种语言的单词之间的关系，并将它们映射到另一种语言。

这些向量是更全面的词汇几何的基础。如图所示，像罗马、巴黎、柏林和北京这样的首都城市相互靠近，在向量空间上它们各自具有与其国家相似的距离，即罗马-意大利=北京-中国。如果你只知道罗马是意大利的首都，并想知道中国的首都，那么等式罗马-意大利+中国将返回北京。这不是玩笑。

有趣的Word2Vec结果

让我们看看Word2Vec可以产生的其他关联。

我们将用逻辑类比的符号代替加减等号，给出结果，其中:是 “对于”的意思和::“等同”的意思，例如“罗马对意大利就像北京对中国一样”=罗马:意大利::北京:中国。在最后一点，当给出前三个元素时，我们将给出Word2vec模型建议的单词列表，而不是提供“答案”：

king:queen::man:[woman, Attempted abduction, teenager, girl] 
//很怪异，但你可以看到

China:Taiwan::Russia:[Ukraine, Moscow, Moldova, Armenia]
//两个大国和他们小的远离的邻居

house:roof::castle:[dome, bell_tower, spire, crenellations, turrets]

knee:leg::elbow:[forearm, arm, ulna_bone]

New York Times:Sulzberger::Fox:[Murdoch, Chernin, Bancroft, Ailes]
//Sulzberger-Ochs家族拥有并经营NYT。
//Murdoch 家族拥有新闻公司，此家族有福克斯新闻。 
//Peter Chernin是新闻公司的13年的首席运营官。
//Roger Ailes是福克斯新闻的主席。 
//Bancroft家族把《华尔街日报》卖给了新闻集团。

love:indifference::fear:[apathy, callousness, timidity, helplessness, inaction]
//这首诗的诗集简直令人惊叹。

Donald Trump:Republican::Barack Obama:[Democratic, GOP, Democrats, McCain]
//有趣的是，正如奥巴马和麦凯恩是对手一样
//同样，Word2Vec认为特朗普与共和党的观点有对立。

monkey:human::dinosaur:[fossil, fossilized, Ice_Age_mammals, fossilization]
//人类是化石猴子？人类就是剩下的
//猴子？人类是打败猴子的物种。
//就像冰河时代哺乳动物打败恐龙一样？貌似有理的。

building:architect::software:[programmer, SecurityCenter, WinPcap]

这个模型是在谷歌新闻vocab上进行训练的，你可以导入并玩一玩。考虑片刻，Word2Vec算法从来没有被教过一条英语语法规则。它对世界一无所知，与任何基于规则的符号逻辑或知识图无关。然而，比在多年的人力学习后大的大多数知识图的学习，它以更灵活和自动化的方式学习。它把Google新闻的文档看作一张白板，训练结束后，它可以计算对人类有意义的复杂类推。

你还可以查询Word2Vec模型进行其他关联。并不是每件事都必须有两个相互镜像的类推。（我们解释如下……）

地缘政治学：伊拉克-暴力=约旦
区分：人类-动物=伦理
总统-权力=总理
图书馆-图书=大厅
类推：股票市场≈温度计

通过构建一个单词与其他类似单词的邻近场景，这些单词不一定包含相同的字母，我们已经从硬标记，进入了更平滑和更普遍的意义的场景。

给我代码

DL4J中Word2Vec的剖析

这些是DL4J自然语言处理的组件：

SentenceIterator/DocumentIterator: 用于迭代一个数据集。 SentenceIterator 返回一个字符串， DocumentIterator 与输入流一起工作。
Tokenizer/TokenizerFactory: 用于对文本进行分词。在NLP术语中，句子被表示为一系列词。TokenizerFactory为一个句子创建一个分词器的实例。
VocabCache: 用于跟踪元数据，包括单词计数、文档出现、词集（本例中不是vocab，而是已经发生的令牌词）、vocab（词袋和单词向量查找表中包括的特性）
Inverted Index: 存储有关单词发生的元数据。可以用于理解数据集。自动创建具有Lucene实现（1）的Lucene索引。

Word2vec是指一系列相关算法，该实现采用负采样。

Word2Vec 设置

使用Maven在IntelliJ中创建一个新项目。如果你不知道怎么做，请看我们的快速入门页面。然后在项目的根目录的POM.xml文件中指定这些属性和依赖项（你可以检查Maven以获得最新版本，请使用这些版本…）。

加载数据

现在在Java中创建并命名一个新类。之后，你将在.txt文件中获取原始语句，用迭代器遍历它们，并使它们接受某种预处理，例如将所有单词转换为小写。

        String filePath = new ClassPathResource("raw_sentences.txt").getFile().getAbsolutePath();

        log.info("加载并向量化句子....");
        //每一行之间用空格分割
        SentenceIterator iter = new BasicLineIterator(filePath);

如果你想加载一个文本文件，用我们的例子中提供的句子之外的句子，你这样做：

        log.info("Load data....");
        SentenceIterator iter = new LineSentenceIterator(new File("/Users/cvn/Desktop/file.txt"));
        iter.setPreProcessor(new SentencePreProcessor() {
            @Override
            public String preProcess(String sentence) {
                return sentence.toLowerCase();
            }
        });

也就是说，去掉ClassPathResource，并将你的.txt文件的绝对路径填入到LineSentenceIterator中。

SentenceIterator iter = new LineSentenceIterator(new File("/your/absolute/file/path/here.txt"));

在bash中，通过在命令行中从同一目录中键入pwd，可以找到任何目录的绝对文件路径。对于该路径，你将添加文件名。

数据分词

Word2Vec需要用词而不是完整的句子，所以下一步就是把数据分词。把文本分词是把它分解成原子单位，例如，每次你点击一个空白处时，创建一个新的分词。

        //在每行用用空格分割以得到单词
        TokenizerFactory t = new DefaultTokenizerFactory();
        t.setTokenPreProcessor(new CommonPreprocessor());

那样它会给你每行一个词。

训练模型

现在数据已准备就绪，你可以配置Word2Vec神经网络并输入分词。

        log.info("Building model....");
        Word2Vec vec = new Word2Vec.Builder()
                .minWordFrequency(5)
                .layerSize(100)
                .seed(42)
                .windowSize(5)
                .iterate(iter)
                .tokenizerFactory(t)
                .build();

        log.info("Fitting Word2Vec model....");
        vec.fit();

此配置接受许多超参数。一些需要一些解释：

batchSize 是你一次处理的单词数量。
minWordFrequency 是单词必须出现在语料库中的最小次数。在这里，如果它出现少于5次，则不会学习。单词必须出现在多个上下文中才能学习有关它们的有用特征。在非常大的语料库中，提高最小值是合理的。
useAdaGrad - Adagrad为每个特征创建不同的梯度。在这里，我们并不关心这一点。
layerSize 指定单词向量中的特征数。这等于特征空间中的维数。由500个特征表示的词成为500维空间中的点。
learningRate 是每个更新系数的步长，因为单词在特征空间中被重新定位。
minLearningRate 是学习率的底板。学习速率随着你训练的单词数量的减少而衰减。如果学习率下降太多，网络的学习就不再有效了。这保持系数移动。
iterate 告诉网络它正在训练的数据集的批次。
tokenizer 从当前批次中为它提供单词。
vec.fit() 告诉配置的网络开始训练。

这里是训练你以前训练过的单词向量的示例。

使用Word2Vec评估模型

下一步是评估特征向量的质量。

        // 写入词向量
        WordVectorSerializer.writeWordVectors(vec, "pathToWriteto.txt");

        log.info("最接近的10个词:");
        Collection lst = vec.wordsNearest("day", 10);
        System.out.println(lst);
        UiServer server = UiServer.getInstance();
        System.out.println("启动端口：" + server.getPort());
        
        //输出: [night, week, year, game, season, during, office, until, -]

vec.similarity("word1","word2")这行将返回输入的两个词的余弦相似度。越接近1，网络就理解为越类似于那些词（参见上面的瑞典-挪威例子）。例如：

        double cosSim = vec.similarity("day", "night");
        System.out.println(cosSim);
        //输出: 0.7704452276229858

使用vec.wordsNearest("word1", numWordsNearest)，打印到屏幕上的单词允许你查看网络是否聚集了语义上相似的单词。你可以用wordsNearest方法的第二个参数来设置你想要的最近单词的数量。例如：

        Collection lst3 = vec.wordsNearest("man", 10);
        System.out.println(lst3);
        //输出: [director, company, program, former, university, family, group, such, general]

模型可视化

我们依赖于TSNE来把单词特征向量和项目词的维数减少到两个或三维空间。TSNE的完整的DL4J/ND4J例子在这里。

        Nd4j.setDataType(DataBuffer.Type.DOUBLE);
        List cacheList = new ArrayList<>(); //cacheList 是一种动态字符串数组，用于保存所有单词。

        //步骤2：将文本输入转换成单词列表
        log.info("加载并向量化数据....");
        File wordFile = new ClassPathResource("words.txt").getFile();   //打开文件
        //获取所有唯一词向量的数据
        Pair vectors = WordVectorSerializer.loadTxt(wordFile);
        VocabCache cache = vectors.getSecond();
        INDArray weights = vectors.getFirst().getSyn0();    //将独特词的权重分成自己的列表

        for(int i = 0; i < cache.numWords(); i++)   //把字串分隔成自己的列表
            cacheList.add(cache.wordAtIndex(i));

        //步骤3：构建双树TSNE以供以后使用
        log.info("Build model....");
        BarnesHutTsne tsne = new BarnesHutTsne.Builder()
                .setMaxIter(iterations).theta(0.5)
                .normalize(false)
                .learningRate(500)
                .useAdaGrad(false)
//                .usePca(false)
                .build();

        //步骤4：建立TSNE值并将其保存到文件中
        log.info("存储TSNE坐标用于绘制....");
        String outputFile = "target/archive-tmp/tsne-standard-coords.csv";
        (new File(outputFile)).getParentFile().mkdirs();

        tsne.fit(weights);
        tsne.saveAsFile(cacheList, outputFile);

保存，重新加载并使用模型

你会想保存这个模型。在DL4J中保存模型的常规方法是通过序列化工具（Java序列化类似于Python的pickling，将一个对象转换成一系列字节）。

        log.info("保存向量....");
        WordVectorSerializer.writeWord2VecModel(vec, "pathToSaveModel.txt");

这将将向量保存到一个名为pathToSaveModel.txt的文件中，该文件将出现在Word2Vec被训练的目录的根目录中。文件中的输出每行应该有一个单词，后面是一系列数字，它们一起表示它的向量。

为了继续使用向量，简单地像这样调用关于vec的方法：

Collection kingList = vec.wordsNearest(Arrays.asList("king", "woman"), Arrays.asList("queen"), 10);

Word2Vec的词算术的经典例子是国王-皇后=男人-女人，它的逻辑扩展是国王-皇后+女人=男人。

上面的例子将把10个最近的单词输出到向量国王-皇后+女人，这应该包括“男人”。wordsNearest的第一个参数必须包括“正”单词国王和女人，它们具有与之关联的+符号；第二个参数包括“负”单词皇后，它与负符号关联（这里正和负没有情感内涵）；第三是你想看的最接近单词列表的长度。请记住将此添加到文件的顶部：import java.util.Arrays;

任何数量的组合都是可能的，但只有在语料库中出现足够频繁的查询词时，它们才会返回合理的结果。显然，返回相似词（或文档）的能力是搜索引擎和推荐引擎的基础。

你可以像这样把向量重新加载到内存中：

        Word2Vec word2Vec = WordVectorSerializer.readWord2VecModel("pathToSaveModel.txt");

然后，您可以使用Word2Vec作为查找表：

        WeightLookupTable weightLookupTable = word2Vec.lookupTable();
        Iterator vectors = weightLookupTable.vectors();
        INDArray wordVectorMatrix = word2Vec.getWordVectorMatrix("myword");
        double[] wordVector = word2Vec.getWordVector("myword");

如果单词不在词汇表中，Word2Vec返回零。

导入Word2Vec模型

在S3托管的谷歌新闻语料库模型，我们用来测试我们的训练网的准确性。对于那些在大型语料库上培训当前硬件需要很长时间的用户，可以简单地下载它来探索Word2Vec模型，而不需要前奏。

如果你用C vectors或Gensimm进行训练，此行将导入模型。

    File gModel = new File("/Developer/Vector Models/GoogleNews-vectors-negative300.bin.gz");
    Word2Vec vec = WordVectorSerializer.readWord2VecModel(gModel);

记得添加 import java.io.File;到你引入的包。

对于大型模型，你可能会遇到堆空间的问题。Google模型可能需要多达10G的RAM，而JVM只使用256MB的RAM启动，因此必须调整堆空间。你可以用一个bash_profile文件（参见我们的故障排查部分），或者通过IntelliJ本身来做：

    //Click:
    IntelliJ Preferences > Compiler > Command Line Options 
    //Then paste:
    -Xms1024m
    -Xmx10g
    -XX:MaxPermSize=2g

N-grams & Skip-grams

单词被一次读入到向量，并在一定范围内来回扫描。这些范围是n-gram，一个 n-gram是给定语言序列中n个项目的连续序列；它是unigram、bigram、trigram、4-gram或5-gram的第n个版本。skip-gram简单地从N-gram中删除项目。

Mikolov推广并在DL4J实现中使用的skip-gram被证明比其他模型（如连续词袋）更精确，这是因为生成的上下文更具有通用性。

然后将该n-gram输入到神经网络以学习给定词向量的重要性；即，重要性被定义为其实用性，作为作为某些更大含义或标签的指示器。

工作实例

请注意：下面的代码可能过时了。有关更新的示例，请参阅Github上的我们的DL4J示例库。

既然你已经有了一个关于如何建立Word2Vec的基本思想，这里有一个例子，它是如何与DL4J的API一起使用的：

在按照快速入门的说明后，你可以在IntelliJ中打开这个示例并点击Run运行它。如果你在Word2Vec模型中查询一个不包含在训练语料库的单词，它将返回NULL。

Word2Vec故障排除与调整

问：我有很多这样的堆栈跟踪

       java.lang.StackOverflowError: null
       at java.lang.ref.Reference.(Reference.java:254) ~[na:1.8.0_11]
       at java.lang.ref.WeakReference.(WeakReference.java:69) ~[na:1.8.0_11]
       at java.io.ObjectStreamClass$WeakClassKey.(ObjectStreamClass.java:2306) [na:1.8.0_11]
       at java.io.ObjectStreamClass.lookup(ObjectStreamClass.java:322) ~[na:1.8.0_11]
       at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1134) ~[na:1.8.0_11]
       at java.io.ObjectOutputStream.defaultWriteFields(ObjectOutputStream.java:1548) ~[na:1.8.0_11]

答:看看你启动Word2Vec应用程序的目录里面。例如，这可以是一个IntelliJ项目主目录或在命令行键入Java的目录。它应该有一些目录看起来像：

       ehcache_auto_created2810726831714447871diskstore  
       ehcache_auto_created4727787669919058795diskstore
       ehcache_auto_created3883187579728988119diskstore  
       ehcache_auto_created9101229611634051478diskstore

你可以关闭你的Word2Vec应用程序并尝试删除这些目录。

问：不是所有来自我原始文本数据的单词都出现在我的Word2Vec对象中…

答: 试着在你的Word2Vec对象上通过.layerSize() 来提高图层大小，像这样

        Word2Vec vec = new Word2Vec.Builder().layerSize(300).windowSize(5)
                .layerSize(300).iterate(iter).tokenizerFactory(t).build();

问：如何加载我的数据？为什么培训会永远持续下去？

答：如果你所有的句子都被作为一个句子被加载，Word2Vec训练可能需要很长的时间。这是因为Word2Vec是一个句子级别的算法，所以句子边界非常重要，因为共现统计是逐句收集的。（对于GloVe来说，句子边界并不重要，因为它关注于语料库范围的共现。对于许多语料库，平均句子长度为六个单词。这意味着在窗口大小为5的情况下，有30个（随机数）回合的skip-gram计算。如果你忘记指定句子的边界，你可能加载一个“10000个单词”长的句子。在这种情况下，Word2Vec将为整个10000个单词“句子”尝试全skip-gram循环。在DL4J的实现中，假定一行是一个句子。你需要插入你自己的句子迭代器和分词器。通过要求你指定你的句子如何结束，DL4J仍然是语言不可知论者。UimaSentenceIterator是这样做的一种方式。使用OpenNLP进行句子边界检测。

问：为什么把整个文档作为一个“句子”而不是分割成句子时，在性能上有如此不同？

答：如果平均句子包含6个单词，窗口大小为5，那么理论上最多10个skipgram回合的次数是0字。句子不够长，不能用文字表达完整的窗口。在这句话中所有单词的粗略最大数目为5个skipgram回合。但如果你的“句子”有1000k个单词的长度，这个句子中的每个单词就有10个skipgram回合，不包括前5个和最后5个。因此，你将不得不花费大量时间来构建模型+由于缺少句子边界，协同统计将会发生变化。

问：Word2Vec是如何使用内存的？

答：Word2Vec中的主要内存消耗是权重矩阵。数学是简单的：单词数x维度数x 2 x数据类型内存占用。因此，如果使用浮点数和100维来构建100k字的Word2Vec模型，那么内存占用将是100kx100x2x4（浮点数大小）=80MB RAM，仅用于矩阵+用于字符串、变量、线程等的一些空间。如果加载预构建的模型，则在构建时间中使用大约1/2的RAM，因此它是40MB RAM。目前使用的最流行的模型是谷歌新闻模型。有3百万字，向量大小为300。这就使我们需要3.6G RAM仅加载模型。而且必须添加3M的字符串，这些字符串在Java中没有固定的大小。所以，通常是大约4-6GB用于加载模型，这取决于JVM版本/供应商，GC状态和月球的相位。

问：我做了你说的每一件事，结果还是不对头。

答：确保你正遇到不是正常性问题。一些任务，如wordsNearest()，默认使用标准化的权重，而其他的则需要非标准化的权重。注意这个区别。

用例

谷歌学者保存了论文记录，这里引用了Word2Vec的DL4J实现。

来自比利时的数据科学家Kenny Helsens将Word2Vec的DL4J实现应用于NCBI的在线孟德尔人类继承(OMIM)数据库。然后，他寻找与alk（一种已知的非小细胞肺癌的致癌基因）最相似的单词，Word2vec返回：“nonsmall, carcinomas, carcinoma, mapdkd”。从那里，他建立了其他癌症表型和基因型之间的类比。这只是Word2Vec在大型语料库上可以学习的一个例子。发现重要疾病新方面的潜力才刚刚开始，在医学之外，机会也同样多样。

Andreas Klintberg在瑞典训练了Word2Vec的DL4J实现，并在媒体上写下了一个完整的指导。

Word2Vec在信息检索准备基于文本的数据和问答系统中特别有用，DL4J通过深度自动编码器来实现这些系统。

营销人员可能寻求建立产品间的关系来建立推荐引擎。调查者可能会分析一个社会图表，以显示单个群体的成员，或者他们可能必须定位或资助的其他关系。

Google的 Word2vec 专利

Word2Vec是由Tomas Mikolov领导的谷歌研究团队介绍的一种计算单词向量表示的方法。谷歌托管了一个开源版本的Word2Vec，它是在Apache 2许可下发布的。在2014，Mikolov离开谷歌去了Facebook，并在2015年5月，谷歌被授予获得此专利，已发布的版本没有废除Apache许可证。

外语

虽然所有语言中的单词都可以用Word2Vec转换为向量，并且这些向量通过DL4J学习，但是NLP预处理可以非常特定于语言，并且需要超出我们库的工具。斯坦福自然语言处理小组有许多基于Java的工具，用于语言的分词、词性标注和命名实体识别，例如普通话、阿拉伯语、法语、德语和西班牙语。对于日本人来说，像Kuromoji之类的NLP工具是有用的。其他的外语资源，包括文本语料库，都在这里。

GloVe: 全局向量

加载和保存GloVe模型到Word2Vec可以这样做：

        WordVectors wordVectors = WordVectorSerializer.loadTxtVectors(new File("glove.6B.50d.txt"));

序列向量

DL4J具有一个名为SequenceVectors的类，它是单词向量之上的抽象级别，并且允许你从任何序列中提取特征，包括社交媒体概要、事务、蛋白质等。如果数据可以被描述为序列，它可以通过skip-gram和层次化的softmax与AbstractVectors类来学习。这与深度算法相兼容，也在DL4J中实现。

DL4L的Word2Vec特征

模型序列化/反序列化被添加后的权重会更新。也就是说，你可以通过调用loadFullModel、向其中添加TokenizerFactory和SentenceIterator、以及调用还原的模型上的fit()来使用200GB的新文本更新模型状态。
用于词汇构建的多个数据源的选项被添加。
训练和迭代可以单独指定，尽管它们通常都是“1”。
Word2Vec.Builder 有这个选项: hugeModelExpected. 如果设为 true, 在构建过程中，词汇将被周期性的截断。
minWordFrequency 有助于忽略语料库中的稀有词，可以排除任何数量的词来定制。
两个新的WordVectorsSerialiaztion 方法已被介绍: writeFullModel 和 loadFullModel. 这些保存和加载一个完整的模型状态。
一个体面的工作站应该能够处理一个有几百万单词的词汇量。DL4J的Word2Vec实现可以在一台机器上对兆兆字节的数据进行建模。大致来说，计算公式是：vectorSize * 4 * 3 * vocab.size()。

Doc2vec & 其它 NLP 资源

用Word2Vec和RNN进行文本分类的DL4J实例
段落向量文本分类的DL4J实例
Doc2vec,或段落向量,用DL4J实现
思维向量、自然语言处理与人工智能的未来
Quora:Word2Vec是如何工作的？
Quora:什么是有趣的Word2VEC结果？
Word2Vec: 介绍; Folgert Karsdorp
Mikolov的 Word2vec 最始代码 @Google
word2vec 解释: Deriving Mikolov et al.’s Negative-Sampling Word-Embedding Method; Yoav Goldberg and Omer Levy
Advances in Pre-Training Distributed Word Representations - by Mikolov et al

文学中的Word2Vec

It's like numbers are language, like all the letters in the language are turned into numbers, and so it's something that everyone understands the same way. You lose the sounds of the letters and whether they click or pop or touch the palate, or go ooh or aah, and anything that can be misread or con you with its music or the pictures it puts in your mind, all of that is gone, along with the accent, and you have a new understanding entirely, a language of numbers, and everything becomes as clear to everyone as the writing on the wall. So as I say there comes a certain time for the reading of the numbers.
    -- E.L. Doctorow, Billy Bathgate

你可能感兴趣的:(AI)

UE4官方文档阅读笔记——蓝图可视化编程毛甘木 UE4 ue4
UE4蓝图官方文档阅读笔记蓝图中的结构体变量拆分结构体Break组成结构体Make修改结构体中个别成员SetMemberinStruct自定义结构体内容浏览器-创建高级资源-蓝图-结构体蓝图数组Add添加元素到末尾ClearContainsFilterArrayFindGetInsertLastLengthRemoveRemoveIndexResizeSetArrayElem<
LangChain4j在Java企业应用中的实战指南-3 在未来等你大模型应用开发 AI 技术编程 Java Spring
【LangChain4j在Java企业应用中的实战指南】文章标签langchain4j,JavaAI,RAG系统,智能应用开发,LangChain4j实战,企业级AI应用,Java微服务,检索增强生成文章简述随着大语言模型（LLM）的广泛应用，企业对智能应用的需求日益增长。LangChain4j作为一款专为Java生态打造的LLM集成框架，正在成为构建RAG（检索增强生成）系统和智能应用的重要工具
tauri v2 开源项目学习（二）
前言:tauri2编程，前端部分和electron差不多，框架部分差别大，资料少，官网乱，AI又骗我所以在gitee上，寻找tauriv2开源项目，通过记录框架部分与rust部分的写法，对照确定编程方式tarui2插件，可以查看：https://github.com/tauri-apps/plugins-workspace1.EcoPastehttps://gitee.com/ayangweb/E
UE 有意思的功能教程链接笔记 RunInto丶 UE笔记 UE教程视频笔记虚幻引擎
油管砍伐任何树砍伐任何树：虚幻引擎教程https://www.youtube.com/watch?v=JtXYJKTsf9QAI图像转变为简单的3D模型使用AI平台将2D图像转换为3D角色https://www.youtube.com/watch?v=Z-acdzKASZ4在几秒钟内将您的AI图像转变为简单的3D模型|教程UE5https://www.youtube.com/watch?v=tt9
tauri v2 开源项目学习（一）
前言:tauri2编程，前端部分和electron差不多，框架部分差别大，资料少，官网乱，AI又骗我所以在gitee上，寻找tauriv2开源项目，通过记录框架部分与rust部分的写法，对照确定编程方式提示：不要在VSCode里自动运行Cargo，在powershell里运行Cargobuild，不会卡住1.tauri-desktophttps://gitee.com/MapleKing/taur
推荐文章：探索深度学习的不确定性边界 —— SDE-Net 开源项目解析史多苹Thomas
推荐文章：探索深度学习的不确定性边界——SDE-Net开源项目解析SDE-NetCodeforpaper:SDE-Net:EquippingDeepNeuralnetworkwithUncertaintyEstimates项目地址:https://gitcode.com/gh_mirrors/sd/SDE-Net在当今的人工智能领域，深度神经网络(DNN)已经成为推动技术创新的基石。然而，其预测的
【模型部署】如何在Linux中通过脚本文件部署模型满怀1015 人工智能 linux 网络人工只能模型部署
在Linux中，你可以将部署命令保存为可执行脚本文件，并通过终端直接调用。以下是几种常见且实用的方法：方法1：Shell脚本（推荐）步骤创建一个.sh文件（例如start_vllm.sh）：#!/bin/bashCUDA_VISIBLE_DEVICES=7\python-mvllm.entrypoints.openai.api_server\--served-model-nameQwen2-7B-
java方法：复制一个文件内容到另一个文件东方-教育技术博主 java 文件复制
importjava.io.FileNotFoundException;importjava.io.FileReader;importjava.io.FileWriter;importjava.io.IOException;publicclasscopyfile{publicstaticvoidmain(String[]args){StringsourceFile="E:/Workspaces/M
如果用于AI评课系统的话——五款智能体比较东方-教育技术博主人工智能应用人工智能
你目前的项目特点是：已经具备了课堂文本分析、大模型对话系统、课堂视频分析的技术模块；计划通过智能体调用你现有的Python分析脚本，实现数据分析、自动可视化，并与教师互动；更强调多智能体协作、流程灵活编排，以及循证研究的交互分析。因此，我们重点考量生态成熟度、流程编排能力、多智能体协作能力、易用性四个维度。下面逐个分析你提到的框架：智能体框架综合对比分析：框架生态成熟度多智能体能力流程编排能力易用
AI浪潮下编程范式革命：从智能工具到生态重构的全维度变革欧阳天羲人工智能重构 python
一、智能代码生成：从辅助工具到全流程开发伙伴1.1对话式编程成为主流2025年，对话式编程已从概念变为现实。GitHubCopilotX最新版本实现了自然语言到完整功能模块的直接转换，开发者只需通过语音或文本描述需求，即可获得生产级代码。以下是通过自然语言生成电商结算模块的示例：#用户输入："创建一个支持优惠券核销的电商结算系统，包含购物车管理、价格计算和支付接口"importdatetimefr
重构未来开发范式：如何引领 AIGS 时代的技术革命小爱想睡懒觉重构
一、AIGS革命：AI重塑企业软件系统的三大趋势行业灵魂拷问：当所有企业系统都需要实时调用大模型能力时，您的开发框架能否支撑百万级并发？在数据安全成为刚需的时代，如何实现AI功能的合规化、私有化部署？JBoltAI的未来宣言：技术演进路径：从AIGC到AIGS的跃迁图谱技术代际核心特征JBoltAI实践成果行业价值AIGC1.0单点内容生成支持文本/代码/图像生成，提供智能客服对话模板效率提升30
OpenAI技术路线急转：从TypeScript到Rust的Codex CLI重构内幕全栈陈序员 typescript rust 重构自然语言处理神经网络人工智能深度学习
目录前言：OpenAI的技术抉择引发业界思考CodexCLI：OpenAI的终端AI编程利器语言抉择的戏剧性反转：从TypeScript到RustRust重写的四大技术动因1.零依赖部署：消除环境配置痛点2.内存安全与沙箱隔离3.性能的全面碾压4.协议层的深度整合Rust的崛起：从系统编程到AI基础设施技术选型的平衡艺术：生产力vs性能对开发者生态的潜在影响结语：技术进化的永恒韵律前言：OpenA
【Java】已解决java.sql.SQLRecoverableException异常屿小夏 java 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
如何用Python实现基础的文生视频AI模型 AI学长带你学AI AI人工智能与大数据应用开发 AI应用开发高级指南 python 音视频人工智能 ai
如何用Python实现基础的文生视频AI模型关键词：文生视频、AI生成、扩散模型、多模态对齐、视频生成算法、Python实现、时间一致性摘要：本文系统讲解基于扩散模型的文生视频（Text-to-Video,T2V）AI模型的核心原理与Python实现方法。从技术背景到数学模型，从算法设计到项目实战，逐步拆解文本-视频跨模态对齐、时间序列建模、扩散生成等关键技术。通过PyTorch实现一个基础版文生
baigeiRSA--攻防世界 KD杜小帅密码学-RSA系列密码学 python 网络安全
下载看到附件：importlibnumfromCrypto.Utilimportnumberfromsecretimportflagsize=128e=65537p=number.getPrime(size)q=number.getPrime(size)n=p*qm=libnum.s2n(flag)c=pow(m,e,n)print('n=%d'%n)print('c=%d'%c)n=885030
【Linux】环境变量——干货讲解代码程序猿RIP Linux linux
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录一、环境变量核心概念1.什么是环境变量？2.环境变量的存储结构3.常见环境变量及作用二、环境变量管理命令1.查看环境变量2.设置环境变量3.删除环境变量4.变量操作技巧三、环境变量在编程中的应用1.C语言获取环境变量的三种方式方法1：main函数参数方法2：extern声明environ方法3：getenv获取特定变量2.环境
【jetson】Linux下nvidia Jetson烤机程序（CPU+GPU）
前言烤机程序用于把设备的使用率拉满，进行可靠性测试。这里主要贴一下cpu和gpu的烤机程序。cpu为arm64，gpu是orinnano的模组。烤机的jetson设备为如下，输入54v：reComputerMiniJ3011-IntelligentEdgeAIComputerwithNVIDIA®Jetson™Orin™Nano8GBCPU-burn终端安装测试工具:sudoaptinstalls
【大模型学习 | BLIP2原理】九年义务漏网鲨鱼人工智能深度学习语言模型多模态大模型
BLIP-2:BootstrappingLanguage-ImagePre-trainingwithFrozenImageEncodersandLargeLanguageModels目前（2023）的图文模型都是基于端到端训练方式，大规模的模型和数据集导致了在预训练过程需要的大量计算。作者提出一种从离线、梯度冻结的图像、语言模型中提升图文的预训练模型。为了联系两个不同模态预训练模型，作者提出一种使
Android 中函数实现多个返回值的几种方式
在编程中，函数通常只能返回一个值。但通过使用对象封装、Pair、Triple、数组、列表或Bundle方式，可以轻松地返回多个值。1、对象封装方式创建数据类来封装需要返回的多个值。dataclassResult(valcode:Int,valmessage:String)fungetMultiValues():Result{returnResult(1,"success")}//调用方式valre
【大模型学习 | BLIP原理】九年义务漏网鲨鱼 pytorch 人工智能深度学习大模型多模态
BLIP:BootstrappingLanguage-ImagePre-trainingforUnifiedVision-LanguageUnderstandingandGeneration作者指出，现有的视觉-语言预训练（Vision-LanguagePre-training,VLP）模型在语言理解与生成任务上难以同时取得优异表现：一方面，基于编码器（encoder-based）的模型在生成任务
使用vue-template-loader将模板编译成渲染函数的Webpack配置技巧前端布洛芬大白话前端八股 vue.js webpack 前端
大白话使用vue-template-loader将模板编译成渲染函数的Webpack配置技巧引言：被模板编译逼疯的周三下午你是否也经历过这样的场景：deadline前的周三下午，咖啡因已经失效，屏幕上却跳出Templatecompilationfailed的红色报错。Vue单文件组件（SFC）的.vue格式用腻了，想试试把模板抽成单独的.html文件，结果webpack配置直接给你脸色看。作为每天
高精度相机：工业自动化的“慧眼”，驱动智能制造新未来 lingling009 数码相机
在当今工业4.0时代，自动化技术的飞速发展正重塑制造业格局。作为工业视觉系统的核心组件，高精度相机扮演着“智慧之眼”的角色，帮助企业在复杂环境中实现精准识别与高效操作。迁移科技，自2017年成立以来，已成长为行业领先的3D工业相机和3D视觉系统供应商。凭借在硬件、算法及软件领域的技术积累，我们打造了稳定、易用、高回报的AI+3D视觉解决方案，服务于新能源、汽车、化工、家电、金属制造等行业。本文将聚
《捞女游戏/Lao Nu You Xi》 Build.18925720简体中文版下载解压就能运行 2501_92499299 游戏
最近这个国产游戏炸了——《捞女游戏》！上线不到24小时就冲上销量榜前五，好评率96%，评论区直接炸锅【PC】《捞女游戏/LaoNuYouXi》Build.18925720简体中文版下载链接「捞女游戏」，复制整段内容，打开最新版「夸克APP」即可获取。畅享原画，免费5倍速播放，支持AI字幕和投屏，更有网盘TV版。链接：https://pan.quark.cn/s/d3b4296b548d最新版，解压
结构光相机：重塑工业自动化的“智慧之眼”，驱动智能制造新未来 lingling009 数码相机
一、迁移科技——3D视觉领域的创新引擎迁移科技成立于2017年，凭借结构光相机核心技术，已成为全球领先的3D工业视觉系统供应商。累计融资数亿元，深耕硬件、算法与软件三位一体技术，打造“稳定、易用、高回报”的AI+3D视觉解决方案，服务新能源、汽车、化工等10+行业，赋能工业自动化转型升级。二、结构光相机如何破解工业四大痛点1：高精度定位——汽车装配的“毫米级守护者”痛点：传统2D视觉无法捕捉曲面零
Swift 小技巧：用单边区间优雅处理模糊范围狼_夏天 Swift Tips swift 开发语言 ios
进入正题之前先科普一下Swift区间的知识。Swift中的区间有两种类型：闭区间和半开区间。闭区间：用a...b表示，包含a和b。半开区间：用a..=0&&number=2.0&&score=3.5&&score<=5.0{print("好评")}else{print("评分超出范围")}3.用单边区间优雅处理letscore=4.2guard(0.0...5.0).contains(score)
意识边疆保卫战：22：47深圳AI-BioFab人机融合危机全息实录 HeartException 人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《意识边疆保卫战：22：47深圳AI-BioFab人机融合危机全息实录》副标题：机械义肢产线惊现神经突触叛乱，中国科学家激活甲骨文量子纹重写人类认知主权2025年7月2日22：47光明科学城脑机接口中心急电负五层神经植入舱突爆血雾！为边防军人陈默安装的AI机械臂在神经接驳瞬间剧烈震颤，量子脑电图
时空屏障崩塌：14:28深圳AI-BioFab平行宇宙保卫战全纪实 HeartException 人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《时空屏障崩塌：14:28深圳AI-BioFab平行宇宙保卫战全纪实》副标题：抗癌疫苗冷链门关闭前3秒遭量子生物武器袭击，中国科学家启动长城时空盾改写人类文明存续方程2025年7月2日14:28:57光明科学城虫洞警报第184支疫苗即将注入液氮罐的刹那，B3层量子钟突现重影！14:28/15:4
实时直击：全球首座AI-BioFab工厂72小时全息记录 HeartException 人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《实时直击：全球首座AI-BioFab工厂72小时全息记录》副标题：2025年7月2日深圳现场——癌症疫苗11天定制神话如何改写万亿生物经济规则本报深圳2025年7月2日电（记者徐远舟）此刻，位于光明科学城负三层的无菌车间内，液态机器人正将第4,817管CRISPR编辑液注入微流控芯片。墙上的量
生命制造的读秒革命：全球首个AI-BioFab工厂72小时全息记录 HeartException 人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《生命制造的读秒革命：全球首个AI-BioFab工厂72小时全息记录》副标题：2025年7月2日14：04深圳现场——癌症疫苗定制最后3分钟如何改写万亿生物经济规则光明科学城2025年7月2日电（记者直击）负三层B区微流控平台红光闪烁，液态机械臂正将第9,217管CRISPR编辑液注入芯片。量子
合成生物学奇点：AI驱动CRISPR超进化工厂2025投产纪实 HeartException 人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《合成生物学奇点：AI驱动CRISPR超进化工厂2025投产纪实》副标题：全球首座AI-BioFab落地深圳，蛋白质设计周期从3年压缩至11天，生物制造成本暴跌90%一、生物制造范式的历史性颠覆▶︎传统生物工程的三大世纪困局graphTDA[缓慢的试错循环]-->B[单基因改造耗时≥6个月]C[
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo