Acce1erator

Java实现word2vec

依赖：

java深度学习框架，deeplearning4j:http://deeplearning4j.org/word2vec
开源中文分词框架,ansj_seg:http://www.oschina.net/p/ansj

<dependency>
			<groupId>org.deeplearning4j</groupId>
			<artifactId>deeplearning4j-nlp</artifactId>
			<version>0.4-rc3.8</version>
		</dependency>
		<dependency>
			<groupId>org.nd4j</groupId>
			<artifactId>nd4j-x86</artifactId>
			<version>0.4-rc3.8</version>
		</dependency>
		<dependency>
			<groupId>org.ansj</groupId>
			<artifactId>ansj_seg</artifactId>
			<version>3.7.2</version>
		</dependency>

说明：word2vec深层次的原理不做说明，要实现word2vec主要要做到只有一件事，那就是词汇的识别。英文由于是空格符隔开的，所以分词比较容易，但是中文（包括日文、韩文）等是靠字形成句子的，所以借助分词工具将句子进行语法拆分很重要。word2vec借助一定的模型，通过对语料上下文进行分析，从而将词的含义投射到向量空间。相似的词在向量空间夹角很小，而不同的词差别则较大。需要注意的是，这一过程是不需要人工干预的，你只需要准备好语料即可.

下面直接贴代码：

第一个是本文核心的工具类，将模型封装为训练和装载操作。

/**
 * 
 * @author yuyuzhao
 * @since 2016年4月13日
 */
public class Word2VecUtils {

	private static Logger logger = LoggerFactory.getLogger(Word2VecUtils.class);

	private static String CHARSET = "UTF-8";
	private static int MIN_WORD_FREQUENCY = 5;
	private static float LEARNING_RATE = 0.025f;
	private static int LAYER_SIZE = 100;
	private static int SEED = 42;
	private static int WINDOW_SIZE = 5;
	private static Dictionary DICTIONARY = null;

	public static Word2Vec fit(String filePath, Memory memory) throws IOException {
		SentenceFactory spliter = new TextSentenceFactory(filePath, CHARSET);
		return fit(spliter.create(), memory);
	}

	public static Word2Vec fit(Collection<String> sentences, Memory memory) {

		if (CollectionUtils.isEmpty(sentences))
			return null;
		SentenceIterator iterator = new CollectionSentenceIterator(sentences);
		TokenizerFactory tokenizerFactory = new ANSJTokenizerFactory(DICTIONARY);
		tokenizerFactory.setTokenPreProcessor(new ChineseTokenPreProcess());

		return fit(iterator, tokenizerFactory, memory);
	}

	private static Word2Vec fit(SentenceIterator iterator, TokenizerFactory tokenizerFactory, Memory memory) {

		logger.info("Building model....");
		InMemoryLookupCache cache = new InMemoryLookupCache();
		WeightLookupTable<VocabWord> table = new InMemoryLookupTable.Builder<VocabWord>()
				.vectorLength(100)
				.useAdaGrad(false)
				.cache(cache)
				.lr(LEARNING_RATE)
				.build();

		Word2Vec vec = new Word2Vec.Builder().minWordFrequency(MIN_WORD_FREQUENCY)
				.iterations(1)
				.epochs(1)
				.layerSize(LAYER_SIZE)
				.seed(SEED)
				.windowSize(WINDOW_SIZE)
				.iterate(iterator)
				.tokenizerFactory(tokenizerFactory)
				.lookupTable(table)
				.vocabCache(cache)
				.build();

		logger.info("Fitting Word2Vec model....");
		vec.fit();

		if (memory != null) {
			WordVectorSerializer.writeFullModel(vec, memory.getPath());
			logger.info("The training has completed successfully and the result has been saved to Path[{}]",
					memory.getPath());
		}

		return vec;
	}

	public static Word2Vec load(@NonNull Memory memory) throws FileNotFoundException {

		Word2Vec vec = WordVectorSerializer.loadFullModel(memory.getPath());
		return vec;
	}

	public static class Config {

		private int minWordFrequency = 0;
		private String charset = null;
		private float learningRate = 0;
		private int layerSize = 0;
		private int seed = 0;
		private int windowSize = 0;
		private Dictionary dictionary = null;

		public Config minWordFrequency(int minWordFrequency) {
			this.minWordFrequency = minWordFrequency;
			return this;
		}

		public Config charset(String charset) {
			this.charset = charset;
			return this;
		}

		public Config learningRate(float learningRate) {
			this.learningRate = learningRate;
			return this;
		}

		public Config layerSize(int layerSize) {
			this.layerSize = layerSize;
			return this;
		}

		public Config seed(int seed) {
			this.seed = seed;
			return this;
		}

		public Config windowSize(int windowSize) {
			this.windowSize = windowSize;
			return this;
		}

		public Config dictionary(Dictionary dictionary) {
			this.dictionary = dictionary;
			return this;
		}

		public void apply() {
			if (minWordFrequency > 0)
				MIN_WORD_FREQUENCY = minWordFrequency;
			if (charset != null)
				CHARSET = charset;
			if (learningRate > 0)
				LEARNING_RATE = learningRate;
			if (layerSize > 0)
				LAYER_SIZE = layerSize;
			if (seed > 0)
				SEED = seed;
			if (windowSize > 0)
				WINDOW_SIZE = windowSize;
			if (dictionary != null)
				DICTIONARY = dictionary;
		}
	}
}

第二个定义一个记忆对象用于保存训练结果从而达到重用的目的，注意，多次训练虽然可行但不可取。推荐的方式是一次将语料加载进内存训练完成后多次调用。

public class Memory {

	private String path;

	private String folderName;

	private String fileName;

	private static final Logger logger = LoggerFactory.getLogger(Memory.class);

	public Memory(@NonNull String path, Policy policy) throws FileNotFoundException {
		String[] dirs = path.split("[\\\\/]");
		String fileName = dirs[dirs.length - 1];
		StringBuffer buffer = new StringBuffer();
		for (int i = 0; i < dirs.length - 1; i++) {
			buffer.append(dirs[i]);
			buffer.append(File.separator);
		}
		String folderName = buffer.toString();

		this.fileName = fileName;
		this.folderName = folderName;
		this.path = folderName + fileName;

		if (policy.value == Policy.INIT.value) {
			File file = new File(folderName);
			if (!file.exists())
				file.mkdirs();
			file = new File(this.path);
			if (file.exists()) {
				logger.info(
						"Memory in path [{}] has already existed,the operation will delete the old file then continue.",
						this.path);
				file.delete();
			}
		} else if (policy.value == Policy.RESTORE.value) {
			File file = new File(this.path);
			if (!file.exists())
				throw new FileNotFoundException();
		}

		logger.info("Memory certified successfully in path [{}]", this.path);
	}

	public String getPath() {
		return path;
	}

	public void setPath(String path) {
		this.path = path;
	}

	public String getFolderName() {
		return folderName;
	}

	public void setFolderName(String folderName) {
		this.folderName = folderName;
	}

	public String getFileName() {
		return fileName;
	}

	public void setFileName(String fileName) {
		this.fileName = fileName;
	}

	public enum Policy {
		INIT(1), RESTORE(2);

		public final int value;

		private Policy(int value) {
			this.value = value;
		}
	}

}

然后定义一个分词器tokenizer作为中文分词组件

public class ANSJTokenizer implements Tokenizer {

	private List<String> tokenizer;
	private TokenPreProcess tokenPreProcess;
	private int index = 0;

	public ANSJTokenizer(String toTokenize) {
		List<Term> terms = ToAnalysis.parse(toTokenize);
		tokenizer = new ArrayList<String>();
		String word;
		for (Term term : terms) {
			word = term.getName();
			if (StringUtils.isNotBlank(word)) {
				tokenizer.add(word);
			}
		}
	}

	@Override
	public boolean hasMoreTokens() {
		return index < tokenizer.size();
	}

	@Override
	public int countTokens() {
		return tokenizer.size();
	}

	@Override
	public String nextToken() {
		String base = tokenizer.get(index++);
		if (tokenPreProcess != null)
			base = tokenPreProcess.preProcess(base);
		return base;
	}

	@Override
	public List<String> getTokens() {
		return tokenizer;
	}

	@Override
	public void setTokenPreProcessor(TokenPreProcess tokenPreProcessor) {
		this.tokenPreProcess = tokenPreProcessor;
	}

}

分词器工厂用于做一些初始化同时提供分词器

/**
 * 
 * @author yuyuzhao
 * @since 2016年4月13日
 *
 */
public class ANSJTokenizerFactory implements TokenizerFactory {

	private TokenPreProcess tokenPreProcess;

	public ANSJTokenizerFactory(Dictionary dic) {
		if (dic != null)
			dic.expand();
	}

	@Override
	public Tokenizer create(String toTokenize) {
		Tokenizer t = new ANSJTokenizer(toTokenize);
		t.setTokenPreProcessor(tokenPreProcess);
		return t;
	}

	@Override
	public Tokenizer create(InputStream toTokenize) {
		throw new UnsupportedOperationException("Could not create Tokenizer with InputStream,Try with String");
	}

	@Override
	public void setTokenPreProcessor(TokenPreProcess preProcessor) {
		this.tokenPreProcess = preProcessor;
	}

}

分词前的预处理

public class ChineseTokenPreProcess implements TokenPreProcess {

	@Override
	public String preProcess(String token) {
		if (token == null)
			return null;
		return token.replaceAll("[^\u4e00-\u9fa5\\w]+", " ");
	}
}

将本地文档形成句子集合提供给分词器

public class TextSentenceFactory implements SentenceFactory {

	private StringBuffer buffer;
	private String charset;

	private static final String FORMAT = ".txt";
	private static final Logger logger = LoggerFactory.getLogger(TextSentenceFactory.class);

	public TextSentenceFactory(String filePath, String charset) throws IOException {
		if (Charset.isSupported(charset))
			this.charset = charset;
		else
			this.charset = "UTF-8";

		File file = new File(filePath);
		if (!file.exists()) {
			logger.error("Source [" + filePath + "]" + "did not exist!");
			return;
		}
		if (file.isFile() && file.getName().endsWith(FORMAT)) {
			buffer = IOUtils.read(file, this.charset, false);
		} else if (file.isDirectory()) {
			logger.info("Searching files from directory [{}]", file.getName());
			buffer = IOUtils.traverse(file, this.charset, new FormatFileFilter(), false);
		}
	}

	private static class FormatFileFilter implements FileFilter {

		@Override
		public boolean accept(File pathname) {
			return pathname.isFile() ? pathname.getName().endsWith(FORMAT) : false;
		}

	}

	@Override
	public Collection<String> create() {
		// 此正则表达式断句是经过多次优化后得出的，请谨慎修改
		// 使用逗号进行断句既能保证语意完整，同时又不至于过于复杂造成混淆
		// 根据此表达式的测试结果相对来说是最理想的
		// Note:This regular expression tend to be the best practice after
		// several tests,replace it cautiously.
		return RegexUtils.group(buffer, "[^，,。.？?！!\\s]+");
	}
}

/**
 * Split the text into sentences
 * 
 * @author yuyuzhao
 * @since 2016年4月15日
 *
 */
public interface SentenceFactory {

	public Collection<String> create();
}

最后是我封装的IOUtils

public class IOUtils {

	private static final Logger logger = LoggerFactory.getLogger(IOUtils.class);

	private static final String LINE_BREAKER = "\n";

	public static StringBuffer read(File file, String charset, boolean lineBreak) throws IOException {
		StringBuffer sb = new StringBuffer();
		readToBuffer(file, sb, charset, lineBreak);
		return sb;
	}

	public static StringBuffer traverse(File file, String charset, FileFilter filter, boolean breakLine)
			throws IOException {
		StringBuffer buffer = new StringBuffer();
		traverseFolder(buffer, file, charset, filter, breakLine);
		return buffer;
	}

	private static void traverseFolder(StringBuffer buffer, File folder, String charset, FileFilter filter,
			boolean breakLine) throws IOException {
		File[] files = folder.listFiles();
		for (File file : files) {
			if (file.isFile() && filter.accept(file)) {
				readToBuffer(file, buffer, charset, breakLine);
			} else if (file.isDirectory()) {
				traverseFolder(buffer, file, charset, filter, breakLine);
			}
		}
	}

	private static void readToBuffer(File file, StringBuffer buffer, String charset, boolean lineBreak)
			throws IOException {
		InputStream is = new FileInputStream(file);
		InputStreamReader isr = new InputStreamReader(new BufferedInputStream(is, 10 * 1024), charset);
		BufferedReader br = new BufferedReader(isr);
		String line = br.readLine();
		while (line != null) {
			buffer.append(line);
			if (lineBreak)
				buffer.append(LINE_BREAKER);
			line = br.readLine();
		}
		br.close();
		isr.close();
		is.close();
		logger.info("Read CharSequence successfully from path [{}]", file.getAbsolutePath());
	}

}

图像工具插件：Editor.js 的图像处理解决方案贡沫苏Truman
图像工具插件：Editor.js的图像处理解决方案imageImageBlockforEditor.js项目地址:https://gitcode.com/gh_mirrors/image8/imageEditor.js的图像工具插件是一个强大的开源项目，致力于为Editor.js富文本编辑器提供图像处理功能。该项目主要使用JavaScript编程语言，并且是基于Editor.js的插件架构进行开发
Spring中的Events Leon_Jinhai_Sun
事件通过org.springframework.context.ApplicationEvent实例来表示。这个抽象类继承扩展了java.util.EventObject，可以使用EventObject中的getSource方法，我们可以很容易地获得所发生的给定事件的对象。这里，事件存在两种类型与应用程序上下文相关联所有这种类型的事件都继承自org.springframework.context.
Java 方法引用（Method Reference）从入门到精通秋‍. JAVA 开发语言 java 方法引用
方法引用概述方法引用（MethodReference）是Java8引入的一种简洁的Lambda表达式写法。它允许我们直接引用已有的方法，而不必重复实现Lambda代码，使代码更加简洁、可读性更强。方法引用的基本语法如下：类名::静态方法名对象名::实例方法名类名::实例方法名类名::new//构造方法引用主要类型引用静态方法引用特定对象的实例方法//需要形参和返回值类型一样引用某个类的任意对象的实
Node.js Web 模块详解 froginwe11 开发语言
Node.jsWeb模块详解引言Node.js作为一款流行的JavaScript运行环境，以其高性能、事件驱动和非阻塞I/O模型而闻名。在Node.js中，模块是构建应用程序的基础，也是其强大的关键所在。本文将详细介绍Node.js的Web模块，包括其基本概念、常用模块及其应用。模块的概念在Node.js中，模块是一种组织代码的方式，它将代码分割成独立的、可复用的部分。模块不仅可以减少代码的冗余，
【H2O2 | 软件开发】事件循环机制过期的H2O2 【H2O2】全栈面试题前端 javascript
目录前言开篇语准备工作正文概念流程事件队列类型示例结束语前言开篇语本系列为短篇，每次讲述少量知识点，无需一次性灌输太多的新知识点。该主题文章主要是围绕前端、全栈开发相关面试常见问题撰写的，希望对诸位有所帮助。准备工作概念篇，不对开发环境作要求。正文概念事件循环（EventLoop）是处理异步事件的一种机制，特别是在单线程环境中（如JavaScript在浏览器或Node.js中的运行）。它允许程序在
华容道游戏在胜利模板下如何打乱顺序开始游戏，java方法类 XiaoRanAn 游戏 java 算法笔记
该方法设计到一个枚举类和一个判断能否移动的方法。在游戏中，进行上下左右移动的时候会进行判断能否移动，在打乱顺序的时候同样可以使用到该判断方法。只不过需要把在打乱顺序之后需要将count重新赋值为0.因为我在每次判断完成都进行了一次count++，最后展示到界面上。而这里是打乱顺序故而需要重置。以下只提供了涉及到的类和方法，没有提供整个项目的实体。一:定义一个Derection枚举类：package
国产编辑器EverEdit - 脚本(解锁文本编辑的无限可能) 编辑器爱好者妙用编辑器 #《EverEdit使用手册》编辑器 EverEdit EmEditor Notepad
1脚本1.1应用场景脚本是一种功能扩展代码，用于提供一些编辑器通用功能提供不了的功能，帮助用户在特定工作场景下提高工作效率，几乎所有主流的编辑器、IDE都支持脚本。 EverEdit的脚本支持js(语法与javascript类似)、VBScript两种编程语言(注：也可以支持其他语言，但较复杂)，EverEdit本身提供了大量对编辑器自身操作的API，通过脚本语言和API，用户可以极大的扩展
React Native 性能调试指南一个前端人 react-native react native react.js javascript
写在前面在开发ReactNative应用时，性能优化是一个至关重要的环节。良好的性能不仅可以提升用户体验，还能减少应用的资源消耗，提高应用的稳定性。本文将详细介绍如何对ReactNative应用进行性能调试和优化，包括性能综述、编译速度优化、列表配置优化、JavaScript加载优化以及Profiling。一、性能综述在开始性能调试之前，了解一些基本概念和工具是非常重要的。以下是一些关键点：FPS
java版电子招投标采购|投标|评标|竞标|邀标|评审招投标系统源码微服务技术分享 java 企业电子招投标系统源代码企业招投标系统源码招采系统源码
功能模块：待办消息，招标公告，中标公告，信息发布描述：全过程数字化采购管理，打造从供应商管理到采购招投标、采购合同、采购执行的全过程数字化管理。通供应商门户具备内外协同的能力，为外部供应商集中推送展示与其相关的所有采购业务信息（历史合作、考察整改，绩效评价等），支持供应商信息的自助维护，实时风险自动提服务框架：SpringCloud、SpringBoot2、Mybatis、OAuth2、Secur
【从零开始学习计算机科学】编程语言（一）常用编程语言的发展与介绍贫苦游商学习 java python c++编程语言 r语言 javascript
【从零开始学习计算机科学】编程语言（一）常用编程语言的发展与介绍编程语言可读性可写性可靠性代价影响编程语言的因素编程语言的分类编程语言设计中的权衡编程语言的实现方法编程环境编程语言的发展过程低级语言时代高级语言时代第一个高级语言—Fortran第一个结构化程序设计语言—ALGOL最简单的语言——BASIC编程语言里一个重要的里程碑——Pascal现代程序语言革命的起点——C语言面向对象时代Java
搞定leetcode面试经典150题之链表醒了就刷牙 LeetCode刷题 leetcode 面试链表
系列博客目录文章目录系列博客目录理论知识单向链表双向链表例题206.反转链表92.反转链表II27.回文链表141.环形链表21.合并有序链表2.两数相加19.删除链表的倒数第N个结点138.随机链表的复制82.删除排序链表中的重复元素II61.旋转链表86.分隔链表理论知识链表是数据结构中一种非常常见且基础的结构，在Java中，链表被广泛应用于解决动态数据存储问题。与数组不同，链表的元素（节点）
JS内置构造函数有哪些？？？全马必破三 javascript 开发语言 ecmascript
JavaScript内置构造函数是语言本身提供的一些特殊函数，用于创建特定类型的对象。常见的内置构造函数包括Object、Array、String、Number、Boolean、Date、RegExp等。1、Object构造函数（用于创建一个普通对象）常用方法：Object.keys(obj)：返回一个包含对象所有自身可枚举属性的键的数组。Object.values(obj)：返回一个包含对象所有
Spring Boot整合参数校验的技术学习小码快撩 spring boot 学习 java
引言在软件开发中，数据校验是一个非常重要的环节，它确保了数据的完整性和安全性。SpringBoot作为一款流行的Java框架，提供了非常方便的参数校验功能。本文将详细介绍如何在SpringBoot中整合参数校验，并通过示例代码演示其使用方法。一、依赖管理在SpringBoot中整合参数校验的依赖管理相对简单，因为SpringBoot默认集成了HibernateValidator作为其参数校验的支持
全方位 JVM 调优参数详解 2501_91133274 jvm
写在前面：兄弟们，我有个长期项目，想接私活的兄弟可以看看我GitHub！https://github.com/yuhan-9527/coder2retire全方位JVM参数详解JVM的调优对于Java应用的性能至关重要。以下为你详细列举各类JVM调优参数，希望能满足你对“所有”参数的需求。一、内存管理参数堆内存参数•堆初始大小与最大值◦-Xms：设置JVM启动时堆内存的初始大小。如-Xms1g表示
Python中存储数据——json模块小白的高手之路 python学习 python json 开发语言
很多时候，程序要把信息存储在列表和字典等数据结构中。一种简单的方式是使用json模块来存储数据。json模块能够将简单的Python数据结构存储到文件中，并在程序运行时加载文件中的数据。还可以使用json在Python程序之间分享数据。更重要的是，JSON数据格式并非Python专用的，能够将以JSON格式存储的数据与使用其他编程语言的人分享。JSON（JavaScriptObjectNotion
一段java代码输出Hello world经历了哪些过程无畏@ java
一段Java代码从编写到输出Hello,World!，经历了多个步骤和组件的协作。以下是详细的过程解析：1.编写Java代码首先，编写一个简单的Java程序：java复制publicclassHelloWorld{publicstaticvoidmain(String[]args){System.out.println("Hello,World!");}}代码说明：定义了一个类HelloWorld
安卓实现魔改版 Base64 算法 CYRUS STUDIO android 算法逆向 base64 网络安全安全
版权归作者所有，如有转发，请注明文章出处：https://cyrus-studio.github.io/blog/Java实现标准Base64编码和解码Base64编码：valencoded=Base64.encodeToString(str.toByteArray(),Base64.DEFAULT)Base64解码：valdecoded=Base64.decode(str,Base64.DEFA
JAVA Spring Boot Aspect 注解的使用和注意事项微笑的曙光（StevenLi） JAVA java spring boot 开发语言
JavaSpringBoot的Aspect注解，作为面向切面编程的利器，其强大之处在于能够无缝地将横切关注点融入业务逻辑中，而无需修改原有代码。通过动态代理机制，Aspect可以在运行时灵活地织入日志、事务管理、权限校验等额外逻辑，极大地提高了系统的灵活性和可维护性。此外，Aspect还支持多种通知类型，如前置通知、后置通知、环绕通知等，满足了不同场景下的需求。这种松耦合、高内聚的设计思想，是现代
不要再让 import“占领满屏“啦？常威和来福回忆 react.js 前端前端框架
javascript代码解读复制代码//不使用重导importModalfrom'@arco-design/web-react/es/Modal'importCheckboxfrom'@arco-design/web-react/es/Checkbox'importMessagefrom'@arco-design/web-react/es/Message'...//使用模块重导import{Mod
【java多线程】线程通信（以生产者消费者问题为例） 6<7 java python 开发语言
线程通信(主讲wait方法和notifyAll方法)在Java多线程编程中，线程通信是指多个线程之间相互协作、交换信息的过程。为了实现线程通信，Java提供了一些方法，下面详细介绍常用的线程通信方法：基于Object类的方法在Java中，每个对象都有一个内置的监视器（锁），基于这个特性，Object类提供了三个用于线程通信的方法：wait()、notify()和notifyAll()。这些方法必须
Java高级特性深度解析：构造方法、继承关系与动态代理小志开发 java
一、构造方法的深度探索1.1反射调用私有构造方法//获取私有构造方法示例ClassuserClass=User.class;ConstructorprivateCons=userClass.getDeclaredConstructor();privateCons.setAccessible(true);//突破访问限制Useruser=privateCons.newInstance();代码解析：
C C++ 为什么称为Native代码、虚拟机 TO_ZRG c++开发语言
CC++为什么称为Native代码，为什么要快1.直接编译为机器码无需中间层：C/C++代码通过编译器（如GCC、Clang）直接编译为CPU可执行的机器码（二进制指令），运行时无需虚拟机（如JVM）或解释器（如Python解释器）的介入。减少运行时开销：相比Java、C#等需要运行时环境（JIT编译）的语言，C/C++的执行路径更短，避免了中间层的性能损耗。2.底层硬件访问能力直接操作硬件：C/
leetcode hot100【LeetCode 146. LRU缓存】java实现 DataCrafter LeetCode Hot100 leetcode 缓存 java 链表
LeetCode146.LRU缓存题目描述设计和实现一个LRU(LeastRecentlyUsed)缓存机制。它应该支持以下操作：get(key)：如果缓存中存在key，则返回value，否则返回-1。put(key,value)：如果缓存已满，移除最久未使用的项，然后插入新的key-value对。如果key已存在，则更新其value。Java实现解法解法：使用哈希表和双向链表importjava
用C++代码利用std::filesystem库写入一个文件路径到数据库中新兴AI民工 C++编程实战大杂烩 c++数据库 filesystem 转移字符处理
使用C++代码写数据库不是什么麻烦事，但是和成熟的JAVA体系不一样，C++没有那么多成熟的数据库操作，比如mybatis等等。而且C++一般来说也不会用于写业务软件，不会用比较重的三方库。所以有时用C++代码来直接操作数据库，碰到的一个问题是：在一张数据库表中定义了一个字段：filePathvarchar2(100)需求是将一个形如：c:\test\test.log这样的文件名写入到该字段。本来
通过java8的Stream API 筛选数据张彡543 开发语言 java
Listlist=invoiceProductService.getInvoiceProductList(exportReqVO);booleanhasRevampedProducts=list.stream().anyMatch(product->product.getIsRevamp()==1);ListfinalList;if(hasRevampedProducts){finalList=l
java 判断byte[ ]数组是否为空张彡543 java 开发语言
1.使用数组长度进行判断publicstaticbooleanisNullOrEmpty(byte[]array){returnarray==null||array.length==0;}2.使用Arrays工具类进行判断：importjava.util.Arrays;publicstaticbooleanisNullOrEmpty(byte[]array){returnarray==null||
nodejs作为provider接入nacos tvrddmss spring boot 后端 java 微服务 node.js
需求：公司产品一直是nodejs的后台，采用的eggjs框架，也不是最新版本，现有有需求需求将这些应用集成到微服务的注册中心，领导要求用java。思路：用springcloudgateway将需要暴露的接口url转发，并将这个gateway注册到注册中心方案：1、转发原有nodejs的后台服务用Springboot建立一个gateway项目，引入gatewayorg.springframework
SpringCloud 打包的 .jar 运行时，不能按日志配置进行输出日志 tvrddmss spring cloud jar spring
1、问题：springcloud打包的.jar文件在运行时，不能按日志配置进行输出日志文件2、查到问题来自nacos，与springcloud的日志冲突，在运行时指定日志配置文件即可。java-Dlogging.config="logback-spring.xml"-jardemo-1.0-SNAPSHOT.jar
SpringBoot整合Netty 晚上睡不着！ #SpringBoot spring boot nio websocket tcp/ip http
前言Netty是一个高性能、异步事件驱动的网络应用程序框架，用于快速开发可维护的高并发协议服务器和客户端。Netty主要基于JavaNIO实现，提供了异步和事件驱动的网络编程工具，简化了TCP和UDP服务器的编程。Netty广泛应用于分布式系统、实时通信、游戏开发等领域，例如，知名的Elasticsearch和Dubbo框架内部都采用了Netty。Netty吸收了多种协议的实现经验，经过精心设计，
电脑课python装b专用代码,python帅气又简单的代码 2301_81895257 python 开发语言数据库
这篇文章主要介绍了电脑课python装b专用代码，具有一定借鉴价值，需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获，下面让小编带着大家一起了解一下。前言众所周知，Python以语法简洁著称，同样实现一个功能，Java可能要十来行，Python一行就可以搞定。Python的代码之所以这么优雅，完全归功于其独有的特性，只要你掌握了这些特性，同样可以写出像诗一样的代码python编程代码。下面我
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &

Java实现word2vec

你可能感兴趣的:(java,数据挖掘,word2vec,deeplearning4j)