panjf2000

搜索引擎之N元分词方法

香农游戏(Shannon Game)

根据前面的(n-1)个词预测下一个单词可能是什么?

“NBA______”

比赛？球星？篮球？秀选？

“直播NBA______”

决赛？季后赛？

转移概率P(比赛|NBA)

选择n值

‍词汇量(V) = 20,000‍

可靠性(Reliability)和可区别性(Discrimination)成反比，需要折中

n越大，区别力越大；n越小，可靠性越高

N取多大？

理论上讲，越大越好

经验值：二元或三元(trigram)

二元模型

如果简化成一个词的出现仅依赖于它前面出现的一个词，那么就称为二元模型(bigram)。

即：

P(S) = P(w1,w2,...,wn)= P(w1) P(w2|w1) P(w3|w1,w2)…P(wn|w1w2,...,wn-1)

≈P(w1) P(w2|w1)P(w3|w2)…P(wn|wn-1)

基本的计算方法：

P(wi|wi-1) ≈ freq(wi-1,wi) /freq(wi-1)

二元搭配词典

Freq(有,意见)=4

P(意见|有) ≈ freq(wi-1,wi) /freq(有)=4/4000=0.001

因为数据稀疏导致 “意见,分歧” 等其他的搭配都没找到。

P(S1)和P(S2)都将是0，无法通过比较计算结果找到更好的切分方案。

这就是零概率问题。

查找二元词典

可以采用Trie树的形式来存放N元模型的参数。与词典Trie树的区别在于：词典Trie树上每个结点对应一个汉字，而N元模型Trie树的一个结点对应一个词。
或者可以把搭配信息存放在词典Trie树的叶子节点上。每个词有一个编号wId。

public class BigramMap {
    public int[] keys;//词编号
    public int[] vals;//频率
}

‍以存储“大学生,生活”为例，“生活”的词编号是8，大学生的词编号是5。假设“大学生,生活”频率是3

搜索引擎之N元分词方法_第3张图片

搜索引擎之N元分词方法_第4张图片

搜索引擎之N元分词方法_第5张图片

‍

避免零概率：数据平滑(smoothing)

p’(w) ≈p(w), 但p’(w)≠0
对一些p(w)>0,生成p’(w)<p(w)

分配概率D给所有概率为0的项目w: p’(w)>p(w)=0

可能对于概率值较低的词也作调整

可能有些w: p’(w)=p(w)
需要确保
有许多数据平滑的方法

加1平滑
加Lambda平滑
Witten-Bell平滑
Good-Turing平滑

加一平滑

26个字母，每个都加1

300个观测事件，而不是3个，有了更好的数据后，平滑更少了

假设有20000个单词类型，而不是26个字母

“新事件” = 零次事件(不会在训练集中出现)。

这里: 19998个新事件，全部估计概率是19998/20003.

因此加一平滑认为特别可能看到新事件，而不是在训练集已经看到的单词。

仅仅因为有一个大词典就如此认为：引入了20000个可能的事件。

“想的太多，违背直觉而出错了”？

‍加Lambda平滑‍

大的词典使得新事件变得太有可能了。

解决方法：不是加1到所有的频率上，而是加  = 0.01?

这样又可能给太小的可能性到新事件

如何选择最好的l?

也就是说，要平滑多少?

例如，分出多少概率给新事件?

依赖于新事件有多大可能出现

可能依赖于文本的类型，训练语料集的大小…

从数据中判断要平滑多少。

术语: 类型与表征

‍词类型(type) = 不同的词汇项

词表征(token) = 该类型在语料库中的出现

词典是一个类型的列表 (词典中的每一项就是一个类型)

语料库是一个表征的列表(每个类型有许多表征)‍

有任何理论上的好方法来选择λ?新事件有多大可能?

新事件有多常见?

Witten-Bell 平滑思想

Good-Turing平滑思想

证明Good-Turing

‍实验次数‍

通过留一个训练证明! 蓝色部分是训练集。黄色部分是留出来的一个表征。蓝色部分加黄色部分做测试集。

轮流拿出N个表征中的一个，训练集大小是N-1，拿出来的集合大小是1

不是仅仅调整l，可以调整多个值

p(novel)=0.02=N1/N [=黄色部分拿出来的一个开发词在蓝色训练集里是新事件]

p(singleton)=0.015=N2*2/N [=黄色部分拿出来的一个开发词在蓝色训练集里是singleton]

p(doubleton)=0.012=N3*3/N [=黄色部分拿出来的一个开发词在蓝色训练集里是doubleton]

也就是

p(novel) = 在全部训练集里的singleton部分

p(singleton) =在全部训练集里的doubleton部分，依次类推

Witten-Bell平滑

Witten-Bell构想：如果已经看到许多不同的事件，则新事件也是有可能的。 (考虑类型/表征比率)

Good-Turing构想：如果已经看到许多singleton，则新事件也是有可能的。

Good-Turing平滑

构想：可以通过singleton的比率判断新事件的比率

假设 Nr = 出现r次的词类型数量

例如，N0 = 没看到的单词数

例如，N1 = 只出现1次的单词数

假设N = N = S r Nr = 总的词数

朴素的估计：如果x有r个表征，则 p(x) = ?

答案: r/N

全部的朴素概率全部的有r个表征的词类型?

答案: : Nr r / N

这个全部概率的Good-Turing 估计：

定义成: Nr+1 (r+1) / N

主要思想：利用高频n-gram的频率调整低频n-gram的频率。估计次数r*：

问题：有1个n-gram出现了r=1000次，有0个n-gram出现了1001次，那么，

解决方法：可以把概率最大的词保持原概率不变，但仍然参与归一化处理

Good Turing平滑的例子

想象正在钓鱼

已经钓到了10条鲤鱼，3条鳕鱼，2条金枪鱼，1条鳟鱼，1条三文鱼，1条鳗鱼。

多大可能下一条是新的一种鱼?

3/18

多大可能下一条是金枪鱼?

小于 2/18

简单线性插值(Simple Linear Interpolation)

这里 λ1 +λ2 +λ3 =1，而且对所有的i来说，λi≥0

线性插值

‍这个估计定义了分布：‍

估计条件概率

使用Good Turing估计条件概率

例如，估计三元连接条件概率：

根据平滑公式计算举例

‍P(S1) = P(有) * P’(意见|有) * P’(分歧|意见)

= P(有) * (0.3P(意见)+0.7P(意见|有)) * (0.3P(分歧)+0.7P(分歧|意见) )

= 0.0180*(0.3*0.001+0.7*0.001)*(0.3*0.0001)

= 5.4*10-9

P(S2) = P(有意) * P’(见) * P’(分歧)

= P(有意) * (0.3P(见)+0.7P(见|有意)) * (0.3P(分歧)+0.7P(分歧|见) )

= 0.0005*(0.3*0.0002) *(0.3*0.0001)

= 9*10-13

P(S1)> P(S2) ‍

动态规划求解二元模型

‍到Nodei为止的最大概率称为Nodei的概率。 ‍

如果Wj的结束节点是Nodei，就称Wj为Nodei的前驱词

这里的prev2(Nodei)就是节点i的二级前驱词序列，记做Wj,Wk 。

比如上面的例子中，“意见”和“见”都是节点3的1级前驱词，候选词“有”就是节点3的2级前驱词。

StartNode(wj)是wj 的开始节点，也是节点i的2级前驱节点。

因此切分的最大概率max(P(S))就是P(Nodem)也就是

P(节点m的最佳2级前驱节点)*P(节点m的2级最佳前驱词序列)

求解二元模型的实现

//计算节点i的最佳前驱节点
void getBestPrev(AdjList g,int i){
  Iterator<CnToken> it1 = g.getPrev(i);//得到一级前驱词集合
  double maxProb = Double.NEGATIVE_INFINITY;
  int maxPrev1 = -1;
  int maxPrev2 = -1;
  
  while(it1.hasNext()) {
      CnToken t1 = it1.next();
      Iterator<CnToken> it2 = g.getPrev(t1.start);//得到一级前驱词对应的二级前驱词集合
        while(it2.hasNext()){
      CnToken t2 = it1.next();
      
      int bigramFreq=getBigramFreq(t2,t1);//从二元词典找二元频率
        double biProb = lambda1*t1.freq + lambda2*(bigramFreq/t2.freq);//平滑后的二元概率
          double nodeProb = prob[t2.start]+(Math.log(biProb));
        
          if (nodeProb > maxProb)//概率最大的算作最佳前趋
             {
          maxPrev1 = t1.start;
          maxPrev2 = t2.start;
          maxProb = nodeProb;
          }
      }
   }
  prob[i] = maxProb;
  prev1Node[i] = maxPrev1;
  prev2Node[i] = maxPrev2;
}

N元模型扩展

可以用于汉字(字符)的搭配关系：

“张志___”

强？刚？杰？

“汪___”

洋？涵？溪？

你可能感兴趣的:(搜索引擎,N元分词方法)

P8649 [蓝桥杯 2017 省 B] k 倍区间 qystca 蓝桥杯
P8649[蓝桥杯2017省B]k倍区间-洛谷题目描述给定一个长度为N的数列，A1,A2,…,AN，如果其中一段连续的子序列Ai,Ai+1,…,Aj(i≤j)之和是K的倍数，我们就称这个区间[i,j]是K倍区间。你能求出数列中总共有多少个K倍区间吗？输入格式第一行包含两个整数N和K(1≤N,K≤105)。以下N行每行包含一个整数Ai(1≤Ai≤105)。输出格式输出一个整数，代表K倍区间的数目。输
Python 面向对象编程-访问限制赔罪 Python 系统学习 python 开发语言
目录访问限制练习访问限制在Class内部，可以有属性和方法，而外部代码可以通过直接调用实例变量的方法来操作数据，这样，就隐藏了内部的复杂逻辑。但是，从前面Student类的定义来看，外部代码还是可以自由地修改一个实例的name、score属性：>>>bart=Student('BartSimpson',59)>>>bart.score59>>>bart.score=99>>>bart.score9
小知识：电机转速知道，怎么算基频？你造吗？天天爱吃肉8218 研发测试学习笔记科普汽车集成测试嵌入式硬件
功率分析仪设备商过来了，问到需不需要滤波（有低通滤波，高通滤波，带通滤波，滤波的目的是为了去除杂波，减少对功率计算过程中的影响，具体可以看本文注解），要解决这个问题，我们需要理解电机转速、极对数和基频之间的关系。1.了解基本概念电机转速(n)：电机每分钟的旋转次数，单位是转每分钟（rpm）。极对数(p)：电机内部的磁极对数。基频(f)：电源频率，单位是赫兹（Hz）。2.公式关系电机的同步转速n与电
小程序分包优化 shaoin_2 小程序小程序 javascript
1.分包的核心概念主包：包含小程序启动页面（如首页）和公共代码（如全局组件、工具类库等）。分包：开发者划分的独立功能模块，按需加载。例如：商品详情页、用户中心等。体积限制：主包大小不超过2MB（微信小程序）。所有分包总大小不超过20MB（微信小程序）。分包可以独立配置（如支付宝小程序的分包策略可能略有不同）。2.分包配置方法在app.json中通过subpackages（或subPackages）
如何使用pyenv-win来管理和使用不同版的python weixin_40625159 python 开发语言
使用pyenv-win来管理和使用不同版本的Python可以简化多版本共存和切换的过程。以下是详细的安装和使用步骤：步骤1：安装pyenv-win安装Chocolatey（可选）：如果尚未安装包管理器Chocolatey，打开命令提示符（以管理员身份）并运行以下命令进行安装：Powershell1Set-ExecutionPolicyBypass-ScopeProcess-Force;iex((N
【力扣Hot100】128. 最长连续序列：哈希集合高效解法小付爱coding 力扣Hot100 leetcode 哈希算法算法
题目描述给定一个未排序的整数数组nums，找出其中最长连续子序列的长度。要求时间复杂度为O(n)。示例输入：nums=[100,4,200,1,3,2]输出：4解释：最长连续序列是[1,2,3,4]，长度为4。思路分析核心思路是利用哈希集合存储所有元素，遍历每个元素时，仅检查其是否为连续序列的左边界（即不存在比它小1的元素）。若是左边界，则向右扩展，统计连续序列的长度。此方法确保每个元素最多被访问
【力扣Hot100】11. 盛最多水的容器小付爱coding 力扣Hot100 leetcode 算法职场和发展
1、题目链接11.盛最多水的容器2、题目描述给定一个长度为n的整数数组height。有n条垂线，第i条线的两个端点是(i,0)和(i,height[i])。找出其中的两条线，使得它们与x轴共同构成的容器可以容纳最多的水。返回容器可以储存的最大水量。说明：你不能倾斜容器。示例1：输入：[1,8,6,2,5,4,8,3,7]输出：49解释：图中垂直线代表输入数组[1,8,6,2,5,4,8,3,7]。
【linux-vim编辑器】VIM创建常用的代码模板 Japathy linux 编辑器 vim
之前在ｖｉｍ上尝试在过插件，一句话，很麻烦，很多问题，如果怕麻烦或者没有太多空闲时间，建议不要用，太浪费时间了．如果你经常写c/c++代码的话会经常有一些固定的模板要多次写如，比如模板类，要写好多的template,如果你用Sublime写的话可能会快些，他会把之前写过的字符串进行动态匹配，但是对于ＶＩＭ就不行．当然你可以ctrl+n或者ctrl+p来匹配之前写过的，但是如果要匹配多行的信息可能你
USART串口接收双雄争霸：查询法与中断法深度解析 | 零基础入门STM32第三十五步触角01010001 STM32 stm32 嵌入式硬件单片机
主题内容教学目的/扩展视频串口通信重点课程什么是USART串口，电路原理，单片机内部寄存器，固件库说明。加载相关文件，驱动程序分析，printf的使用。什么是中断，中断的程序设计，还有哪些中断。熟悉串口的使用，熟练使用printf函数。介绍printf函数的高级使用方法，介绍各中断。师从洋桃电子，杜洋老师文章目录一、USART接收原理速览1.核心寄存器说明2.数据接收三要素二、查询接收法实战教学1
python拆分excel文件 badly1226 python python excel 拆分
当我们遇到一些很大的文件时，如果把所有的数据全部加入到内存当中处理，当文件比较小时还好，但是问价你很大时，这种方式是很不好的，当超过十几个G的文件时，我们该如何处理呢？python可以很好的处理这个问题，可以把大文件给一个个拆分成小文件，然后我们再一次去处理小文件即可，本篇博客小主就写一个简单拆分excel方法供大家参考这里我随便找了一个文件，里面有26行数据，我们把每10行数据拆分成一个exce
MySQL—密码设置相关裁二尺秋风 mysql 数据库
一、忘记密码方法一：以安全模式启动mysql步骤一：停止mysql服务停止MySQL服务：打开终端，输入以下命令停止MySQL服务（根据你的系统和MySQL版本，命令可能有所不同）：systemctlstopmysqld步骤二：以安全模式启动MySQL输入以下命令以安全模式启动MySQL，跳过权限验证：sudomysqld_safe--skip-grant-tables&&符号表示在后台运行该进程
程序员方法论系列：“类”有啥用？ Foyo Designer 程序员方法论 java 程序人生改行学it
老铁们，上一篇，我们了解了什么是“类”（点击查看前文）今儿个咱们唠唠这个“类”啊，这玩意儿到底有啥用？“类”是咱们编程世界里的大拿，跟现实世界那叫一个紧密相连。咱得好好掰扯掰扯，这“类”到底是咋回事，咋就能把现实世界给抽象化了呢？首先，咱得明白，这个“类”啊，它就像是现实世界的一个影子，咱们用编程语言给它画出来。比如说，咱们看到的猫啊狗啊，那都是现实世界里的东西，咱们用“类”来给它们建模，这不就是
如何安全获取股票实时数据API并在服务器运行？ 2501_90693467 服务器运维 python fastapi java c#
以下是安全获取股票实时数据API并在服务器运行的方法：选择合适的券商或交易平台评估自身需求：明确自己的交易策略、交易品种、交易频率等需求，以及对股票api的功能、性能、稳定性等方面的要求。调研券商或平台：了解不同券商或第三方交易平台提供的API服务，如华泰证券、兴业证券、银河证券、富途证券、中泰证券等。比较它们的交易费用、数据质量、技术支持等，选择最适合自己的。开户与实名认证注册账户：在选定的券商
刷题日记 2024-12-9 LeetCode：48. 旋转图像大萌神Nagato leetcode 算法 java
48.旋转图像-力扣（LeetCode）找规律就行result[j][m-i-1]=matrix[i][j];借助了辅助数组，如果不使用辅助数组可以考虑用翻转的思想来求解classSolution{publicvoidrotate(int[][]matrix){intm=matrix.length;intn=matrix[0].length;int[][]result=newint[m][n];f
刷题日记 2024-11-23 力扣Q53:最大子数组和大萌神Nagato leetcode 算法职场和发展
53.最大子数组和-力扣（LeetCode）方法：动态规划练了好久的动态规划，终于会写了解法一：暴力求解第一次是这样写的，但是超时了，当个思路看publicstaticvoidmaxSubArray1(int[]nums){intmax=Integer.MIN_VALUE;intlen=nums.length;for(inti=0;i
刷题日记2024-11-20 大萌神Nagato 算法 java leetcode
题目来自力扣560题：和为K的子数组给你一个整数数组nums和一个整数k，请你统计并返回该数组中和为k的子数组的个数。子数组是数组中元素的连续非空序列。示例1：输入：nums=[1,1,1],k=2输出：2示例2：输入：nums=[1,2,3],k=3输出：2暴力循环，时间复杂度O(n²)publicstaticintsubarraySum(int[]nums,intk){intcount=0;f
[c语言日寄] 指针学习情况自检题目 siy2333 c语言日寄 c语言学习开发语言笔记
【作者主页】siy2333【专栏介绍】⌈c语言日寄⌋：这是一个专注于C语言刷题的专栏，精选题目，搭配详细题解、拓展算法。从基础语法到复杂算法，题目涉及的知识点全面覆盖，助力你系统提升。无论你是初学者，还是进阶开发者，这里都能满足你的需求！【食用方法】1.根据题目自行尝试2.查看基础思路完善题解3.学习拓展算法【Gitee链接】资源保存在我的Gitee仓库：https://gitee.com/siy
Java笔记 - 黑马程序员_06(Stream，字节流，字符流，对象流（序列化流），属性集(Properties)）谦逊蓄意，只为飞的更高 Java java 开发语言
StreamStream流的三类方法：获取Stream流创建一条流水线，并把数据放到流水线上准备进行操作中间方法流水线上的操作，一次操作完毕之后，还可以继续进行其他操作终结方法是流水线上的最后一个操作，一个Stream流只能有一次终结方法创建Stream流的方式：方式1：根据集合获取流Collection根接口中提供了stream()方法可以获取流。单列集合：直接调用stream0方法即可双列集合
vue项目监听文件变化自动重启webpack服务器什么什么什么？前端笔记 nodemon 自动化重启开发环境文件监听
问题：因为每次更换开发环境时，都需要手动重启一次服务器。以下的方法可以实现自动化重启。一、安装nodemon插件nodemon插件，这里有一篇详细的入门介绍。这里只有我的配置进行记录。首先我们需要在开发环境中安装nodemon依赖npminstall--save-devnodemon在项目的package.json文件中的scripts对象下添加开启nodemon的操作//package.json
关于打印出现空白的问题什么什么什么？前端前端 javascript vue.js
问题在打印的需求中，我们一般是将数据展示在页面中，然后通过调用window.print()，将页面打印出来但是这里有一个顺序问题，我们需要先加载完页面才能进行打印，不然就会出现白屏问题。解决方法this.nextTick()this.$nextTick()将回调延迟到下次DOM更新循环之后执行。但是mounted（）不会承诺所有的子组件也都一起被挂载。所以在mounted中执行this.nextT
锁定计算机后怎么解锁,电脑锁住了怎么解锁几处风波恶锁定计算机后怎么解锁
大家好，我是时间财富网智能客服时间君，上述问题将由我为大家进行解答。电脑锁住了解锁的方法：1、当使用台式电脑打字时，如果右侧的小键盘没有反应的话，那么就是键盘被锁定了，此时只要按下右侧小键盘左上角的【NumLock】键，即可解除小键盘锁定。2、如果是主键盘没有反应，那么就要排查键盘本身或接口是否损坏。电脑(computer，又称计算机)是一种用于高速计算的电子计算机器，被称为“20世纪最先进的科学
python路线规划_利用Python实现A*算法路径规划 weixin_39664962 python路线规划
一、A*算法介绍A*算法实际上是一种启发式算法，也是路径规划中应用最为普遍的算法之一。A*算法并不是只用于路径规划，同时，路径规划中也不只有A*一种启发式方法。A*算法相比其他路径规划算法，如遗传算法、蚁群算法等，其算法过程较为简单、易于理解，运行速度快。而且，应用A*的路径规划结果也还不错。因此，总体来说，A*算法应该是性价比较高的一种路径规划算法。A*算法的基本思想是，对于当前的搜索点CNod
解锁机器学习核心算法 | K -近邻算法：机器学习的神奇钥匙紫雾凌寒 AI 炼金厂 #机器学习算法算法机器学习近邻算法 KNN k-近邻算法 python scikit-learn
一、引言今天我们继续学习机器学习核心算法——K-近邻（K-NearestNeighbors，简称KNN）算法。它就像是一位经验丰富的“老江湖”，以其简单而又强大的方式，在众多机器学习任务中占据着不可或缺的地位。K-近邻算法，作为机器学习中的一种基本分类与回归方法，以其独特的“基于邻居投票”策略而闻名。它的核心思想简单易懂，就如同我们在生活中判断一个人可能的兴趣爱好时，会参考他身边最常接触的朋友们的
QPST驱动安装失败的原因以及解决方法浪迹天涯的野马
原因：电脑是WIN10系统，会自动签名安装的应用，QPST不支持签名。解决方法：打开设置窗口—>选择更新和安全—>选择恢复—>点击高级启动中的立即重新启动。最后电脑重启进入重启选项窗口，选择禁止驱动签名安装即可。
java学习笔记-Stream流以及方法引用 zerolala java学习笔记 java 学习笔记
java学习笔记-Stream流以及方法引用文章目录java学习笔记-Stream流以及方法引用1.初始Stream流1.1样例1.2.Stream流的思想1.3Stream流的方法Stream流的中间方法Stream流的终结方法1.4综合练习2.方法引用2.1介绍2.2引用静态方法2.3引用成员方法2.4引用构造方法2.5其他调用方式综合练习1.初始Stream流1.1样例ArrayListli
《基于文本挖掘的青岛市民宿评论分析系统设计与实现》开题报告 Python数据分析与机器学习毕业论文/研究报告数据挖掘数据分析人工智能算法
目录一、选题依据：1.研究背景2.理论意义3.现实意义4.国内外研究现状、水平及发展趋势简述（1）国外研究现状（2）国内研究现状（3）发展趋势二、研究内容1.主要研究内容2.研究方法(1)文献研究法(2)数据挖掘法3.技术路线4.实施方案（1）数据采集与预处理（2）设置LDA主题模型（3）情感分析（4）系统集成与可视化5.可行性分析三、主要参考文献一、选题依据：1.研究背景当下，社会经济蓬勃发展，
Data truncation: Data too long for column ‘product_photos‘ at row 1 小丁学Java 产品资质管理系统数据库服务器大数据
文章目录0、解决方法解决方案：总结：1、前端报错2、后端报错0、解决方法CREATETABLE`fake_registration`(`id`int(11)NOTNULLAUTO_INCREMENT,`created_date`datetimeDEFAULTNULL,`last_modified_date`datetimeDEFAULTNULL,`admin_id`int(11)DEFAULTNU
利用数据库特性和函数一次性生成多条动态数据那片海还在吗 test 数据库
利用数据库特性和函数一次性生成多条动态数据在数据库操作中，有时需要一次性生成多条动态数据，以满足测试、初始化等需求。不同的数据库系统提供了各自的特性和函数来实现这一目的。以下将分别介绍MySQL、Oracle和SQLServer中实现一次性生成多条动态数据的方法。一、MySQL1.1使用INSERTINTO...SELECT结合自增序列和随机函数示例场景假设要向users表（包含id、userna
【测试用例】测试用例概念及组成部分介绍（超详细）风云说通信精讲测试理论测试用例测试理论
目录1.什么是测试用例2.测试用例的内容3.测试用例的目的4.测试用例和测试方法的区别5.如何保证测试用例覆盖所有需求和功能点6.如何评审一个测试用例有效性7.测试用例评审标准8.测试用例评审人员9.测试用例必选项10.测试用例的作用1.什么是测试用例测试用例是指对一项特定的软件产品进行测试任务的描述，体现测试方案、方法、技术和策略。其内容包括测试目标、测试环境、输入数据、测试步骤、预期结果、测试
统计-二维随机变量 jshazhang 统计二维随机变量
第三章多维随机变量及其分布二维随机变量二维随机变量定义定义设E是一个随机试验，它的样本空间是S={e}。设X=X(e)和Y=Y(e)是定义在S上的两个随机变量，它们构成的向量(x,y)称为二维随机变量。二维随机变量的分布函数定义设(X,Y)是二维随机变量，对于任意实数x,y,定义二元函数F(x,y)=P[{X≤x}∩{Y≤y}]=P{X≤x,Y≤y}F(x,y)称为二维随机变量(x,y)的分布函数
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他