SongpingWang

自然语言处理（NLP）—分词-—word2vec

文章目录

一、自然语言处理

1.1 分词简介
1.2 分词算法：三大类
1.3 词特征表示 (Bag of Words----Word2Vec)
1.4 分类算法

二、文本分词

2.1 Jieba分词
2.2 词袋模型（Bag of Words）
2.3 TF-IDF（词频-逆文档频率）

三、文本表达方式( one_hot编码—word2vec)
四、分类与评估

开发环境`jupyter notebook`

一、自然语言处理

1.1 分词简介

自动文本分类：给定分类体系，将文本划分到某一个或者某几个类别中

分类模式：: 二分类模式，属于或不属于（binary）
多分类模式，有多个分类，属于其中某一个分类（multi-class）
可拆分成多个二分类问题
多标签问题，一个文本可以属于多个类别（multi-label）

文本分类的应用

垃圾邮件的判定：垃圾邮件、非垃圾邮件
新闻频道分类（案例）：经济、体育、娱乐、政治
词性标注：动词、名词、形容词
情感识别：正向评论、负向评论

1.2 分词算法：三大类

基于词典、词库匹配的方法：正向（逆向）最大匹配
基于规则、知识理解的方法：短语结构、文法
基于统计、机器学习的分词方法：隐马尔科夫、最大熵模型、条件随机场

1.3 词特征表示 (Bag of Words----Word2Vec)

词袋模型（Bag of Words）: 从语料库中使用一些方法选择一堆词作为文本的特征（通常用TF-IDF）
所有文章都只保留这些被选中的词
维数很大，数据很稀疏
词嵌入模型（Word2Vec）: 把文章的词映射到一个固定长度的连续向量
维数较小，通常为100 ~ 500
意义相近的词之间的向量距离较小

1.4 分类算法

使用一般分类问题的分类算法即可：
如：朴素贝叶斯；逻辑回归；支持向量机（SVM）；决策树

二、文本分词

基于搜狐的新闻的数据，训练一个新闻频道的分类器，可以对新闻进行自动分类
数据详情：12个频道（汽车、财经、文化、健康、房地产、科技、教育、新闻、体育、旅游、女人、娱乐）
每个频道2000篇文章做训练数据，1000篇为测试数据。

2.1 Jieba分词

项目地址：https://github.com/fxsjy/jieba
安装方法：pip install jieba

主要功能: 分词：三种分词模式（精确模式、全模式、搜索引擎模式）
支持自定义词典
基于TF-IDF算法的关键词提取
词性标注
并行分词（不支持windows）

2.2 词袋模型（Bag of Words）

忽略文本的语法和语序等要素，仅仅将其看成是若干个词汇的集合，每个词的出现都是独立的。

词袋模型的问题：不同词语的重要性没有区别，但实际上不同词语提供的信息量不同

2.3 TF-IDF（词频-逆文档频率）

TF-IDF：全称Term Frequency-Inverse Document Frequency

TF（词频）
词语在一篇文章中出现的次数，出现的次数越多表示这个词对这篇文章越重要
通常需要归一化，以防止它偏向于长文章
$TF_{w,d}=\frac{词~w~在文章~d~中出现的次数}{文章~d~中词的总数}$
IDF（逆文档频率）
如果在所有的语料中，包含某个词语的文章数越多，那么这个词语的区分度就越低，重要长度也就越低
$IDF_w=\log(\frac{语料库的文档总数}{包含词语~w~的文章数+1}⁡)$

$实际通常使用IDF_w=\log⁡(\frac{语料库的文档总数+1}{包含词语~w~的文章数+1})+1$

通常，我们需要过滤掉IDF过低和过高的词语
在词袋模型中，我们可以使用TF×IDF作为每个词的权重

三、文本表达方式( one_hot编码—word2vec)

为了让计算机能够处理文本，我们需要一些方法把文本编码为数字

one-hot 编码：最简单的编码方式是把每个词都表示成一个长向量，向量的长度为词表的大小（还有其他编码方式，比如：哑变量编码）
只有这个词对应位置上为1，其余都为0。
不足：无法表示词和词之间的关系
word2vec：把词表示为一个低维向量
基于“具有相似上下文的词，应该具有相似的语义”，这种方式称为分布式表达（Distributed Representation）
每一维表示词语的一个潜在特征，每一维的取值都是连续的
优点：可以使用空间距离或者余弦夹角来表示词和词之间的相似性
word2vec 通过预测一个长度为c的窗口内每个词周边词语的概率，来作为这个词的词向量。包含两个神经网络模型：
- CBOW（Continuous Bag of Words）(词袋模型)
  利用词的上下文预测当前的词
- Skip-gram
  利用当前的词来预测上下文
通过Google开源的工具包gensim实现
安装方法：conda install gensim
使用 gensim.models.Word2Vec 训练word2vec模型

参数与详解文档：

Word2vec和Doc2vec原理：https://blog.csdn.net/mpk_no1/article/details/72458003
Word2vec分布式表达：(NPLM；word2vec（CBOW/Skip-gram）
https://www.cnblogs.com/Determined22/p/5780305.html
https://www.cnblogs.com/Determined22/p/5804455.html

四、分类与评估

训练分类器 --文本分类这样一个分类任务，可以使用大部分通用分类模型
朴素贝叶斯
逻辑回归
支持向量机（SVM）
决策树
模型效果评估
评估模型效果应该在测试集上进行（而不是在训练集）
混淆矩阵（Confusion Matrix）
常用的评估标准有
查全率（Recall）
正确预测为某个类别的文章数 / 这个类别的实际文章数 * 100%
查准率（Precision）
正确预测为某个类别的文章数 / 预测为这个类别的文章数 * 100%
F1值，查全率和查准率的调和均值
2 x Precision x Recall / (Precision + Recall)
$F_\beta$ 值： $~~F_\beta=(1+\beta^2 )∙\frac{(PrecisionxRecall)}{\beta^2∙Precision+Recall}，~~~\beta>1$ 时，Recall更重要
模型持久化
Python中，我们可以使用pickle，把分类器序列化成二进制文件
在另一环境中加载这个文件，进行分类

你可能感兴趣的:(机器学习—算法及代码)

Python 小练习 —— 统计字符串各类字符数量奶香臭豆腐 python 开发语言学习
需求允许用户不断输入一个字符串。写一个函数负责统计该字符串中的字符、数字、空格、特殊字符的个数。代码如下：#统计字符、数字、特殊字符的个数fromtypingimportTuple#使用类型注释所需的库#定义函数，用到了类型注释。defcount_characters(msg:str)->Tuple[int,int,int,int]:digit_count=0#数字计数器alpha_count=0
Python 小练习 —— 循环法和对数法计算利息奶香臭豆腐 python 开发语言学习
Python小练习——循环法和对数法计算利息需求循环法算利息对数法算利息需求本金principal=10000利息intrest=0.0325目标2*principal多长时间可以本金翻倍（即本金达到目标值）循环法算利息代码如下：importmathprincipal=10000INTEREST=0.0325TARGET=2*principal#20000#循环法year=0whileprinci
(4)UART应用设计及仿真验证4 —— UART模块集成少卿不在大理寺数字IC设计从入门到实战 uart IC设计 verilog IC
四、模块集成1.UART模块集成这会儿你再来看这个uart模块构是不是就亲切了很多，归总一下TX和RX之后，我们发现整个的UART的模块输入输出都是定好了的。所以在结构上没有什么需要再分析和拆解了的。直接上代码：moduleuart(inputclk,inputrstn,inputrx,inputtx_data,inputtx_data_valid,outputtx,outputtx_ready,
使用Python爬虫实时监控行业新闻案例海拥✘ python 爬虫开发语言
目录背景环境准备请求网页数据解析网页数据定时任务综合代码使用代理IP提升稳定性运行截图与完整代码总结在互联网时代，新闻的实时性和时效性变得尤为重要。很多行业、技术、商业等领域的新闻都可以为公司或者个人发展提供有价值的信息。如果你有一项需求是要实时监控某个行业的新闻，自动化抓取并定期输出这些新闻，Python爬虫可以帮你轻松实现这一目标。本文将通过一个案例，带你一步一步实现一个简单的Python爬虫
大厂面试真题-说说DDD中的防腐层以及它和四层架构的关系鱼跃鹰飞大厂真题 DDD 架构设计 1024程序员节职场和发展开发语言面试
DDD（领域驱动设计）中的防腐层（Anti-CorruptionLayer，ACL）是一种设计模式，旨在解决不同子系统或限界上下文间由于领域模型或接口不兼容而带来的集成问题。以下是对DDD防腐层的详细介绍，以及它与四层架构的关系：一、DDD防腐层定义：防腐层是一种在不同应用间转换的机制，通过引入一层适配层来隔离和转换不同系统间的交互。作用：隔离领域模型：保护自身领域模型免受其他领域模型代码的侵害。
vue3 + vite引入地址路径报错，以及无法点击跳转相应的文件 zmyalh 前端 javascript vue.js
vue3+vite引入地址路径报错，以及无法点击跳转相应的文件在项目中找到tsconfig.json，或者jsconfig.json文件，使用一下代码替换即可。如果两个文件都不存在，如果项目使用了ts，就创建tsconfig.json文件，复制下方代码。如果不是使用的ts，就创建jsconfig.json文件，复制下方代码。配置完成后关掉软件重启！！！{"compilerOptions":{"ba
使用Cohere进行文本生成: 从安装到实战 shuoac python 开发语言
Cohere是一家加拿大初创公司，提供自然语言处理模型，帮助企业提升人机交互体验。本文将详细介绍如何使用Cohere进行文本生成，包括环境配置、核心原理、代码演示和实际应用场景分析。1.技术背景介绍随着自然语言处理技术的快速发展，基于大模型的文本生成应用在各行各业中展现出了巨大的潜力。Cohere提供了高效、易用的API，使得开发者能够快速集成高质量的文本生成能力。本文将带你一步步实现这些功能。2
windows又一激活方式——TSforge windows
近日，技术团队MASSGRAVE公开宣布攻破微软SPP系统，并命名该漏洞为TSforge。MASSGRAVE团队宣称可激活自Windows7以来的所有Windows版本（包括Vista后续系统）及Office2013后的全系列产品（含附加组件），且支持离线激活本来windows激活方式就已经够多了的，现在又多出了一种，现在让我想想该用哪一种呢（坏笑）MASSGRAVE团队还公开了破解细节，感兴趣的
vue中nextTick函数和react类似实现向画 vue.js react.js 前端
Vue3基本用法：import{nextTick}from'vue';//全局调用nextTick(()=>{//在下一个DOM更新循环后执行的代码});//在组件内部调用setup(){asyncfunctionhandleUpdate(){//修改数据...awaitnextTick();//在数据引发的DOM更新完成后执行的代码}}nextTick函数现在作为vue包的一个导出成员，需要显式
Request body too large. The max request body size is 30000000 bytes. 时代的狂异常集合 c#.netcore
环境：Windows,Linux发布.net6API发起接口请求报错：Requestbodytoolarge.Themaxrequestbodysizeis30000000bytes.解决方式，Startup.cs添加如下代码：//接口请求限制services.Configure(options=>{options.Limits.MaxRequestBodySize=int.MaxValue;})
如何在Echarts渲染完成后再执行其他代码（如何等待回调函数执行完成后再进行其他操作）时代的狂 echarts javascript
不知道如何描述，举个例子，echarts有finished事件，那么在setOption之后，如果渲染结束就会触发该事件，但是假如渲染时间很长，在setOption之后，我们有些紧随之后的代码需要在finished事件之后执行(实际上setOption之后的代码会立即执行，因为渲染并不会阻塞代码的执行)，此时应该怎么做？如何知道finished事件被触发了？我希望有一个类似于其他语言线程waitt
Java Pjsip (Pjsua2 api ) 2.10 windows sip语音呼叫教程 java_lilin pjsip pjsip sip pjsua2 java sip
1.安装swigwin-4.0.1下载地址http://www.swig.org/download.html注意是swigwinWindowsusersshoulddownloadswigwin-4.0.1whichincludesaprebuiltexecutable.配置目录到winpath2.下载pjproject-2.10.zip(如果有python错误请安装py2.7及环境path配置)
优化Java中锁的性能 BrchCpp java 开发语言编程
在Java编程中，锁（Lock）是一种用于控制多线程并发访问共享资源的重要机制。然而，使用不当或性能较差的锁实现可能会导致性能瓶颈和线程竞争。本文将介绍一些优化Java中锁性能的方法，并提供相应的源代码示例。减少锁的粒度：锁的粒度越小，允许并发执行的线程数量就越多。因此，在设计多线程应用程序时，应尽量将锁的范围限定在最小必要范围内。例如，如果只需要保护某个特定字段的访问，而不是整个对象，可以使用细
芯麦GC1808立体声ADC芯片解析：高性价比与全集成音频采集方案青牛科技-Allen GLOBALCHIP 音视频单片机嵌入式硬件收录机人工智能家用电器
引言在直播设备、智能语音终端等新兴应用的推动下，高性能音频采集系统的需求持续增长。芯麦半导体推出的GC1808立体声音频模数转换器，凭借其全集成信号链设计和灵活的接口配置，为开发者提供了高性价比的音频前端解决方案。本文将从核心架构、关键技术特性及典型应用场景三个方面，深入解析这款芯片的设计亮点。一、GC1808核心特性概览全集成信号链内置64倍过采样率Δ-Σ调制器集成数字梳状滤波器（CombFil
使用 pjsua2 开发呼叫机器人，批量拨打号码并播放固定音频滴水成川 VoIP 机器人音视频
如何使用pjsua2开发呼叫机器人，批量拨打号码并播放固定音频声明该播客仅提供实现思路，并非实际的方案记录，不要盲目照搬。pjsua2库的安装会有较多问题，请参考本人之前的播客进行安装pjsua2。pjsua2库具体的api说明请参考开源库内的范例代码。引言在今天的播客中，我们将为你展示如何利用pjsua2库开发一个智能呼叫机器人，实现批量拨打号码并自动播放固定音频。这项技术可以应用于营销电话、客
Java中的锁向画 java java 开发语言
这里举例6种悲观锁和乐观锁是两种不同的并发控制策略，用于解决多线程或多进程环境下对共享资源访问时可能出现的数据不一致问题。下面分别介绍它们的概念、实现方式以及代码示例。悲观锁概念悲观锁假设在整个数据处理过程中，会有其他线程或进程来修改数据，因此在操作数据之前会先对数据进行加锁，确保在自己操作期间其他线程无法访问和修改该数据，直到操作完成并释放锁。这种锁的策略比较“悲观”，常用于写操作频繁的场景。实
HCIA网络层协议与IP编址夏の橘 HCIA学习之路网络
摘要：网络层是OSI模型中的核心层级，负责实现跨网络的数据传输。本文深入解析HCIA认证要求的网络层协议（IP/ICMP/ARP）及IP编址技术，涵盖子网划分、NAT原理及数据转发流程，帮助读者掌握网络层关键技术。目录一、网络层协议核心功能二、核心协议解析1.IP协议（InternetProtocol）2.ICMP协议3.ARP协议三、IPv4编址技术详解1.地址结构与分类关键细节2.子网划分实践
前端面试题（HTML篇）每天一点点~ html css javascript
1.网络中使用最多的图片格式有哪些？JPEG，GIF，PNG最流行的是JPEG格式，可以把文件压缩到最小在PS以JPEG格式存储时，提供11级压缩等级2.Doctype作用?严格模式与混杂模式如何区分？它们有何意义?声明文档类型声明位于位于HTML文档中的第一行，处于标签之前DOCTYPE不存在或格式不正确会导致文档以兼容模式呈现。标准模式(严格模式)浏览器按照W3C的标准解析执行代码标准模式(严
python websocket 心跳_websocket心跳及重连机制蜗牛老湿 python websocket 心跳
websocket心跳及重连机制websocket是前后端交互的长连接，前后端也都可能因为一些情况导致连接失效并且相互之间没有反馈提醒。因此为了保证连接的可持续性和稳定性，websocket心跳重连就应运而生。在使用原生websocket的时候，如果设备网络断开，不会立刻触发websocket的任何事件，前端也就无法得知当前连接是否已经断开。这个时候如果调用websocket.send方法，浏览器
Vulkan hanpfei Android 图形系统
Android7.0添加了对Vulkan的支持，一个高性能3D图形的低开销跨平台API。像OpenGLES一样，Vulkan提供了在应用中创建高质量，实时图形的工具。Vulkan的优势包括CPU开销降低及支持SPIR-VBinaryIntermediate语言。片上系统生产商（SoCs）比如GPU独立硬件供应商（IHVs）可以为Android编写Vulkan驱动；OEMs简单地需要为特定的硬件集成
力扣-二叉树-530 二叉搜索树的最小绝对差夏末秋也凉力扣 #二叉树 leetcode 算法数据结构
思路类似于数组中计算最小绝对差，利用中序遍历是有序的，计算两两元素差代码classSolution{public:intminNUM=INT_MAX;TreeNode*pre=NULL;intgetMinimumDifference(TreeNode*root){if(root==nullptr)returnminNUM;getMinimumDifference(root->left);if(pr
力扣-二叉树-501 二叉搜索树的众数夏末秋也凉力扣 #二叉树 leetcode 算法
思路二叉搜索树的特性就是中序遍历有序，所以思考时可以先按照有序数组思考代码classSolution{public:vectorresult;TreeNode*pre=nullptr;intcount=1;intmaxCount=0;voidtravesl(TreeNode*node){if(node==nullptr)return;travesl(node->left);if(pre!=null
力扣-二叉树-450 删除二叉搜索树中的节点夏末秋也凉力扣 #二叉树 leetcode 算法数据结构
思路和向二叉搜索树插入节点一样，都可以利用递归完成不同节点的连接代码classSolution{public:TreeNode*deleteNode(TreeNode*root,intkey){if(root==nullptr)returnnullptr;if(root->val==key){if(root->left==nullptr&&root->right==nullptr)returnnu
力扣-二叉树-98 验证二叉搜索树夏末秋也凉力扣 #二叉树 leetcode 算法
思路第一个特性，二叉搜索树的中序遍历是有序的，第二个特性，利用两个指针判断大小关系代码classSolution{public:TreeNode*pre=NULL;boolisValidBST(TreeNode*root){if(root==NULL)returntrue;boolleft=isValidBST(root->left);if(pre!=NULL&&pre->val>=root->v
【深度学习】学习率调度策略黑白交界深度学习学习深度学习
什么是学习率可以理解为模型在每一次迭代中的模型更新调整的幅度，“学习”新信息的速度。学习率定义了模型权重（参数）在梯度下降或其他优化算法中的更新步伐。较大的学习率意味着在每次参数更新时，模型会进行更大幅度的调整，而较小的学习率则意味着细致的、渐进的调整。适当的学习率可以帮助模型跳出局部最优解。当使用较大的学习率时，模型有可能跨越一些小的局部最优，从而找到全局最优解，但也有可能错过全局最优。因此，在
QT 周期性的杀死一个进程（软件），一分钟后自动退出 Mr.Wang809 QT qt 开发语言
1.原因：某软件开机自启动很烦，搞一个程序干掉这个自启动的软件2.QT代码main.cpp#include"KillXXX.h"#includeintmain(intargc,char*argv[]){QApplicationa(argc,argv);KillXXXk;returna.exec();}KillXXX.h#includeclassKillXXX:publicQObject{Q_OBJ
【layui】layui表格过滤 weixin_43250628 layui 前端 layui javascript 前端
1.除了引用必要的layui的js和css，还需引入tableFilter.js。2.然后就是代码展示部分；layui.config({base:'../../layui/plugins2/',//扩展路径version:'v1.0.0'}).extend({tableFilter:'tableFilter'//模块别名});functionsetGridData(data){layui.use(
如何在C#项目中获取当前页面的URL地址 weixin_43250628 后端 javascript 前端 html
这篇文章给大家介绍如何在C#项目中获取当前页面的URL地址，内容非常详细，感兴趣的小伙伴们可以参考借鉴，希望对大家能有所帮助。1、通过C#获取当前页面的URL复制代码代码如下:stringurl=Request.Url.AbsoluteUri;//结果:http://www.baidu.com/web/index.aspxstringhost=Request.Url.Host;//结果：www.b
深入理解Java的集合框架一碗黄焖鸡三碗米饭 java
深入理解Java的集合框架Java集合框架（JavaCollectionsFramework，简称JCF）是Java语言中最常用的API之一，它为开发者提供了强大且灵活的数据结构支持。集合框架通过一系列的接口和实现类，帮助我们管理、存储和操作数据。Java集合框架包括常见的List、Set、Map等接口及其具体实现类，合理选择适当的集合类型，对于程序性能和代码可维护性至关重要。本文将深入解析Jav
python——作用域光纤光栅 python学习 python java 前端
一、作用域定义：作用域就是变量产生作用的范围。可以分为全局作用域和局部作用域（函数）。在代码运行中，不是所有变量都会一直保存，大多数变量是不断的建立和销毁，以此来避免内存被占用过多。y=2#y就是全局作用域的全局变量deffn():x=1#x是局部作用域中的变量fn()1.1全局作用域在代码中，全局作用域在程序执行时创建，在程序执行结束时销毁。所有函数以外的都是全局作用域。在全局作用域定义的变量都
eclipse maven IXHONG eclipse
eclipse中使用maven插件的时候，运行run as maven build的时候报错 -Dmaven.multiModuleProjectDirectory system propery is not set. Check $M2_HOME environment variable and mvn script match. 可以设一个环境变量M2_HOME指
timer cancel方法的一个小实例 alleni123 多线程 timer
package com.lj.timer; import java.util.Date; import java.util.Timer; import java.util.TimerTask; public class MyTimer extends TimerTask { private int a; private Timer timer; pub
MySQL数据库在Linux下的安装 ducklsl mysql
1.建好一个专门放置MySQL的目录 /mysql/db数据库目录 /mysql/data数据库数据文件目录 2.配置用户，添加专门的MySQL管理用户 >groupadd mysql ----添加用户组 >useradd -g mysql mysql ----在mysql用户组中添加一个mysql用户 3.配置，生成并安装MySQL >cmake -D
spring------>>cvc-elt.1: Cannot find the declaration of element Array_06 spring bean
将-------- <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3
maven发布第三方jar的一些问题 cugfy maven
maven中发布第三方jar到nexus仓库使用的是 deploy:deploy-file命令有许多参数，具体可查看 http://maven.apache.org/plugins/maven-deploy-plugin/deploy-file-mojo.html 以下是一个例子： mvn deploy:deploy-file -DgroupId=xpp3
MYSQL下载及安装 357029540 mysql
好久没有去安装过MYSQL，今天自己在安装完MYSQL过后用navicat for mysql去厕测试链接的时候出现了10061的问题，因为的的MYSQL是最新版本为5.6.24，所以下载的文件夹里没有my.ini文件，所以在网上找了很多方法还是没有找到怎么解决问题，最后看到了一篇百度经验里有这个的介绍，按照其步骤也完成了安装，在这里给大家分享下这个链接的地址
ios TableView cell的布局张亚雄 tableview
cell.imageView.image = [UIImage imageNamed:[imageArray objectAtIndex:[indexPath row]]]; CGSize itemSize = CGSizeMake(60, 50); &nbs
Java编码转义 adminjun java 编码转义
import java.io.UnsupportedEncodingException; /** * 转换字符串的编码 */ public class ChangeCharset { /** 7位ASCII字符，也叫作ISO646-US、Unicode字符集的基本拉丁块 */ public static final Strin
Tomcat 配置和spring aijuans spring
简介 Tomcat启动时，先找系统变量CATALINA_BASE，如果没有，则找CATALINA_HOME。然后找这个变量所指的目录下的conf文件夹，从中读取配置文件。最重要的配置文件：server.xml 。要配置tomcat，基本上了解server.xml，context.xml和web.xml。 Server.xml -- tomcat主
Java打印当前目录下的所有子目录和文件 ayaoxinchao 递归 File
其实这个没啥技术含量，大湿们不要操笑哦，只是做一个简单的记录，简单用了一下递归算法。 import java.io.File; /** * @author Perlin * @date 2014-6-30 */ public class PrintDirectory { public static void printDirectory(File f
linux安装mysql出现libs报冲突解决 BigBird2012 linux
linux安装mysql出现libs报冲突解决安装mysql出现 file /usr/share/mysql/ukrainian/errmsg.sys from install of MySQL-server-5.5.33-1.linux2.6.i386 conflicts with file from package mysql-libs-5.1.61-4.el6.i686
jedis连接池使用实例 bijian1013 redis jedis连接池 jedis
实例代码： package com.bijian.study; import java.util.ArrayList; import java.util.List; import redis.clients.jedis.Jedis; import redis.clients.jedis.JedisPool; import redis.clients.jedis.JedisPoo
关于朋友 bingyingao 朋友兴趣爱好维持
成为朋友的必要条件：志相同，道不合，可以成为朋友。譬如马云、周星驰一个是商人，一个是影星，可谓道不同，但都很有梦想，都要在各自领域里做到最好，当他们遇到一起，互相欣赏，可以畅谈两个小时。志不同，道相合，也可以成为朋友。譬如有时候看到两个一个成绩很好每次考试争做第一，一个成绩很差的同学是好朋友。他们志向不相同，但他
【Spark七十九】Spark RDD API一 bit1129 spark
aggregate package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} //测试RDD的aggregate方法 object AggregateTest { def main(args: Array[String]) { val conf = new Spar
ktap 0.1 released bookjovi kernel tracing
Dear, I'm pleased to announce that ktap release v0.1, this is the first official release of ktap project, it is expected that this release is not fully functional or very stable and we welcome bu
能保存Properties文件注释的Properties工具类 BrokenDreams properties
今天遇到一个小需求：由于java.util.Properties读取属性文件时会忽略注释，当写回去的时候，注释都没了。恰好一个项目中的配置文件会在部署后被某个Java程序修改一下，但修改了之后注释全没了，可能会给以后的参数调整带来困难。所以要解决这个问题。 &nb
读《研磨设计模式》-代码笔记-外观模式-Facade bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 百度百科的定义： * Facade（外观）模式为子系统中的各类（或结构与方法）提供一个简明一致的界面， * 隐藏子系统的复杂性，使子系统更加容易使用。他是为子系统中的一组接口所提供的一个一致的界面 * * 可简单地
After Effects教程收集 cherishLC After Effects
1、中文入门 http://study.163.com/course/courseMain.htm?courseId=730009 2、videocopilot英文入门教程（中文字幕） http://www.youku.com/playlist_show/id_17893193.html 英文原址： http://www.videocopilot.net/basic/ 素
Linux Apache 安装过程 crabdave apache
Linux Apache 安装过程下载新版本： apr-1.4.2.tar.gz（下载网站：http://apr.apache.org/download.cgi） apr-util-1.3.9.tar.gz（下载网站：http://apr.apache.org/download.cgi） httpd-2.2.15.tar.gz（下载网站：http://httpd.apac
Shell学习之变量赋值和引用 daizj shell 变量引用赋值
本文转自：http://www.cnblogs.com/papam/articles/1548679.html Shell编程中，使用变量无需事先声明，同时变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）中间不能有空格，可以使用下划线（_）不能使用标点符号不能使用bash里的关键字（可用help命令查看保留关键字）需要给变量赋值时，可以这么写：
Java SE 第一讲（Java SE入门、JDK的下载与安装、第一个Java程序、Java程序的编译与执行） dcj3sjt126com java jdk
Java SE 第一讲： Java SE：Java Standard Edition Java ME: Java Mobile Edition Java EE：Java Enterprise Edition Java是由Sun公司推出的（今年初被Oracle公司收购）。收购价格：74亿美金 J2SE、J2ME、J2EE JDK：Java Development
YII给用户登录加上验证码 dcj3sjt126com yii
1、在SiteController中添加如下代码： /** * Declares class-based actions. */ public function actions() { return array( // captcha action renders the CAPTCHA image displ
Lucene使用说明 dyy_gusi Lucene search 分词器
Lucene使用说明 1、lucene简介 1.1、什么是lucene Lucene是一个全文搜索框架，而不是应用产品。因此它并不像baidu或者googleDesktop那种拿来就能用，它只是提供了一种工具让你能实现这些产品和功能。 1.2、lucene能做什么要回答这个问题，先要了解lucene的本质。实际
学习编程并不难,做到以下几点即可! gcq511120594 数据结构编程算法
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
Java面试十问之三：Java与C++内存回收机制的差别 HNUlanwei java C++finalize()堆栈内存回收
大家知道， Java 除了那 8 种基本类型以外，其他都是对象类型（又称为引用类型）的数据。 JVM 会把程序创建的对象存放在堆空间中，那什么又是堆空间呢？其实，堆（ Heap）是一个运行时的数据存储区，从它可以分配大小各异的空间。一般，运行时的数据存储区有堆（ Heap）和堆栈（ Stack），所以要先看它们里面可以分配哪些类型的对象实体，然后才知道如何均衡使用这两种存储区。一般来说，栈中存放的
第二章 Nginx+Lua开发入门 jinnianshilongnian nginx lua
Nginx入门本文目的是学习Nginx+Lua开发，对于Nginx基本知识可以参考如下文章： nginx启动、关闭、重启 http://www.cnblogs.com/derekchen/archive/2011/02/17/1957209.html agentzh 的 Nginx 教程 http://openresty.org/download/agentzh-nginx-tutor
MongoDB windows安装基本命令 liyonghui160com
windows安装安装目录： D:\MongoDB\ 新建目录 D:\MongoDB\data\db 4.启动进城： cd D:\MongoDB\bin mongod -dbpath D:\MongoDB\data\db &n
Linux下通过源码编译安装程序 pda158 linux
一、程序的组成部分　　Linux下程序大都是由以下几部分组成：　　二进制文件：也就是可以运行的程序文件　　库文件：就是通常我们见到的lib目录下的文件　　配置文件：这个不必多说，都知道　　帮助文档：通常是我们在linux下用man命令查看的命令的文档　　二、linux下程序的存放目录　　linux程序的存放目录大致有三个地方：　　/etc, /b
WEB开发编程的职业生涯４个阶段 shw3588 编程 Web 工作生活
觉得自己什么都会 2007年从学校毕业，凭借自己原创的ASP毕业设计，以为自己很厉害似的，信心满满去东莞找工作，找面试成功率确实很高，只是工资不高，但依旧无法磨灭那过分的自信，那时候什么考勤系统、什么OA系统、什么ERP，什么都觉得有信心，这样的生涯大概持续了约一年。根本不是自己想的那样 2008年开始接触很多工作相关的东西，发现太多东西自己根本不会，都需要去学，不管是asp还是js，
遭遇jsonp同域下变作post请求的坑 vb2005xu jsonp 同域post
今天迁移一个站点时遇到一个坑爹问题,同一个jsonp接口在跨域时都能调用成功,但是在同域下调用虽然成功,但是数据却有问题. 此处贴出我的后端代码片段 $mi_id = htmlspecialchars(trim($_GET['mi_id '])); $mi_cv = htmlspecialchars(trim($_GET['mi_cv '])); 贴出我前端代码片段: $.aj

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他