E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Tokenizer
1.5特征(feature)
特征变换又分5个类:自然语言相关特征转换,包括:
Tokenizer
、StopWordsRemover、n-gram。连续变量的离散化,包括:Bina
Fortuna_i
·
2019-02-14 20:07
Spark
【Java】蓝桥杯PREV-55 小计算器
一、题目描述二、代码importjava.math.BigInteger;importjava.util.Scanner;importjava.util.String
Tokenizer
;publicclassMain
clevercaiquebrightme
·
2019-01-28 15:59
BlueBridge
Java 切割字符串的几种方式
String
Tokenizer
切割是java.ut
julystroy
·
2019-01-14 12:04
java
字符串分割
Java
k8s与log--利用lua为fluent bit添加一个filter
首先介绍一下需求:非容器的日志团队使用filebeat,其配置文件部分如下:processors:-dissect:
tokenizer
:"/data/logs/%{appname}/%{filename
iyacontrol
·
2019-01-14 00:00
lua
kubernetes
fluentd
日志
k8s
2 Elasticsearch 篇之倒排索引与分词
StandardAnalyzerSimpleAnalyzerWhitespaceAnalyzerStopAnalyzerKeywordAnalyzerPatternAnalyzerLanguageAnalyzer中文分词自定义分词CharacterFilter
Tokenizer
TokenFilter
-无妄-
·
2019-01-03 19:27
Elastic学习笔记
Java开发中的Elasticsearch分词器的定义与用法一
在Java开发中无论是内置的分析器(analyzer),还是自定义的分析器(analyzer),都由三种构件块组成的:characterfilters,
tokenizer
s,tokenfilters。
想学习大数据
·
2019-01-02 10:27
Java
Elasticsearch 分词器
无论是内置的分析器(analyzer),还是自定义的分析器(analyzer),都由三种构件块组成的:characterfilters,
tokenizer
s,tokenfilters。
废物大师兄
·
2019-01-01 21:00
Java性能优化方面的程序优化知识点归纳,希望对你有所帮助
String类的特点:不变性、针对常量池的优化(String.intern()方法的意义)(2)subString方法的内存泄漏:(3)字符串分割和查找不要使用split函数,效率低,而是使用String
Tokenizer
墨雨轩夏
·
2018-12-30 23:42
Java性能优化方面的程序优化知识点归纳,希望对你有所帮助
String类的特点:不变性、针对常量池的优化(String.intern()方法的意义)(2)subString方法的内存泄漏:(3)字符串分割和查找不要使用split函数,效率低,而是使用String
Tokenizer
墨雨轩夏
·
2018-12-30 23:42
Keras内置函数的单词级one-hot编码
【时间】2018.12.27【题目】Keras内置函数的单词级one-hot编码概述本文是对keras.preprocessing.text中的
Tokenizer
类的一些方法的讲解,用于构建单词级one-hot
C小C
·
2018-12-27 19:14
Keras
WordPiece
选自https://github.com/google-research/bert中的tokenization.py代码classWordpiece
Tokenizer
(object):"""RunsWordPiecetokenziation
biubiubiu888
·
2018-12-22 15:31
wordpiece
Elasticsearch Analyzer 的内部机制
涉及到的概念Characterfilter
Tokenizer
TokenfilterAnalyzerTermqueryAnalyzer一般由三部分构成,characterfilters、
tokenizer
s
微风中的一只小刺猬
·
2018-12-11 10:59
ElasticSearch
python处理文本使用n-gram方法
#
tokenizer
function,thiswillmake3gramsofeachquerydefget_ngrams(query):tempQuery=str(query)ngrams=[]foriinrange
果冻先生的专栏
·
2018-12-04 11:53
python学习
提取 - 转换 - 选择(特征)
特征提取、转换和选择提取TF-IDFWord2Vec转换
Tokenizer
StringIndexerVectorIndexer本节介绍处理特性的算法,大致分为这些组:提取:从原始数据中提取特征转换:缩放
YK_324504836
·
2018-12-03 14:29
Spark
MLlib
Scanner的用法
它是以前的String
Tokenizer
和Matcher类之间的某种结合。由于任何数据都必须通过同一模式的捕获
ClearLoveQ
·
2018-11-28 10:45
Java
Scanner
Java
利用CNN模型进行NLP文本分类
keras.preprocessing.text中有
Tokenizer
模块,可以帮助你把英文句子转换成数值序列,再用pad_sequ
ZesenChen
·
2018-11-22 22:39
深度学习
python
elasticsearch 建立索引
创建mapping的过程介绍:分词器(analyzer)包括一个分解器(
tokenizer
)和多个词元过滤器(filter),词元过滤器的作是对分词器提取的词元进一步处理,比如转成小写,使用edge_ngram
微微一笑19
·
2018-11-21 11:08
java
Feature Extractors(特征提取)——Spark ML-2.3.0
{HashingTF,IDF,
Tokenizer
}importorg.apache.spark.sql.SparkSessionobjectTfld_feature{defmain(args:Array
Cookie_fzx
·
2018-11-09 19:39
Spark
经典MR之WordCount
1.WordCountV1.0publicclassWordCount{publicstaticclass
Tokenizer
MapperextendsMapper{privatefinalstaticIntWritableone
花驴
·
2018-11-06 18:03
随笔
所学即所得
英文token预处理,用于将英文句子处理成单词
参考https://github.com/google-research/bert/blob/master/tokenization.py使用importtokenization
tokenizer
=tokenization.Basic
Tokenizer
guotong1988
·
2018-11-03 12:45
Python
自然语言处理NLP
ES学习——分析器和自定义分析器
从文档中提取词元(Token)的算法称为分词器(
Tokenizer
),在分词前预处理的算法称为字符过滤器(CharacterFilter),进一步处理词元的算法称为词元过滤器(TokenFilter),
lkj41110
·
2018-10-27 12:06
es学习
ElasticSearch教程——自定义分词器
Elasticsearch中,内置了很多分词器(analyzers),例如standard(标准分词器)、english(英文分词)和chinese(中文分词),默认的是standard,standard
tokenizer
东天里的冬天
·
2018-10-24 15:14
ElasticSearch
字符串优化处理
:2、String对象内部结构:3、String对象的3个基本特点:(1)不变性:(2)针对常量池的优化:(3)类的final定义:4、字符串的分割和查找:(1)split()方法:(2)String
Tokenizer
百川灌河
·
2018-10-19 15:46
☆
Java程序性能优化
Java调用百度API实现翻译
APP_ID申请地址申请的详见点击打开链接申请之后,会得到APP_ID和SECURITY_KEY二、java代码如下 importIJFrame.IJFrame;importjava.util.String
Tokenizer
bysjlwdx
·
2018-10-10 14:06
JAVA/JSP
Elasticsearch(三)Analysis
1.standardanalyzer标准分析器由以下使用分词器和分词过滤器组成Standard
Tokenizer
StandardTokenFilterLowerCaseTokenFilterStopTokenFilterPOST_analyze
zsf_lance
·
2018-09-27 11:32
Elasticsearch
keras 处理文本,分类,数值数据,并添加进网络的步骤和方法
这一步主要是划分数据集,drop()掉训练集里的预测那一列三,处理缺失值:可以使用fillna(value,inplace)来把缺失值补全四:送入网络之前的处理:1;分类信息的处理:主要使用Keras的
Tokenizer
进击的程序员XA51
·
2018-09-21 11:01
文本处理
keras 基础入门整理
第一部分文本与序列处理1.简介2text模块提供的方法3text.
Tokenizer
类3.1成员函数3.2成员变量4.示例第二部分Keras中的神经网络层组件简介神经网络的使用简介序列模型Sequential
IT界的小小小学生
·
2018-09-10 13:14
python
深度学习
一些Java面试中经常出现的算法题
然后可选择升或者降序排序本题的splitStringByComma(String)方法纯属多余,可以用String的split方法一句话代替,且可读性也更强,下面的一段话源自JDK1.6API,String
Tokenizer
梨花飘香
·
2018-09-03 18:26
java面试题
spark-机器学习库-特征的提取,转换和选择
{HashingTF,IDF,
Tokenizer
}valsentenceData=spark.createDataFrame(Se
Alien_lily
·
2018-08-24 17:48
SQLFormatterUtil SQL格式化工具类
packagecom.utils.util;importjava.util.HashSet;importjava.util.LinkedList;importjava.util.Set;importjava.util.String
Tokenizer
马哥哥哟
·
2018-08-22 10:38
Utils
【Keras】加载预训练词向量矩阵及文本数据序列化
from__future__importprint_functionimportosimportsysimportnumpyasnpfromkeras.preprocessing.textimport
Tokenizer
fromkeras.preprocessing.sequenceimportpad_sequencesfromkeras.utilsimportto_categoricalfromk
蛋疼莙
·
2018-08-12 23:12
深度学习
elasticsearch 深入 —— 分析器
参考:https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-
tokenizer
s.html在全文搜索(FulltextSearch
gmHappy
·
2018-08-02 14:37
ELK
elasticsearch
【Spring Batch学习笔记】2:Reader-Processor-Writer操作csv文件的例子
SNAPSHOTorg.springframework.batchspring-batch-core3.0.7.RELEASEapplicationContext.xmlbatch.xml属性标记器;使用SpringBatch自带的DelimitedLine
Tokenizer
刘知昊
·
2018-08-01 12:40
Spring
Batch
csv
#
Spring
Batch
Laravel 创建流程
1.安装laravelphp依赖PHPPDO扩展PHPMbstring扩展PHP
Tokenizer
扩展PHPXML扩展PHPCtype扩展PHPJSON扩展例如apt-getinstallphp7.2php7.2
一个番茄柿
·
2018-07-26 15:16
es 不停机更新索引
将老索引数据导入新索引==>ii3.删除老索引别名,新建新索引别名==>iiii新建产品索引PUT/product_v2{"settings":{"analysis":{"analyzer":{"ik":{"
tokenizer
weylan
·
2018-07-22 20:19
ElasticSearch 分词
分词将文本转换成一系列单词的过程,转换成的单词叫termortoken原理:倒排索引(b+)分词器的组成以及调用顺序1.CharacterFilter单词过滤器,对原始的文本进行处理2.
Tokenizer
MJ丶
·
2018-07-03 14:18
SpringBoot
elasticsearch
elasticsearch系列三:索引详解(分词器、文档管理、路由详解(集群))
处理完后再交给
tokenizer
进行分词。一个analyzer中可包含0个或多个字符过滤器,多个按配置顺序依次进行处理。
tokenizer
:分词器,对文本进行分词。一个analyzer必需且只可包
weixin_34289744
·
2018-06-18 18:00
大数据
json
Laravel 5.5 的安装与配置
安装服务器要求Laravel5.5框架对PHP版本和扩展有一定要求:PHP>=7.0.0PHPOpenSSL扩展PHPPDO扩展PHPMbstring扩展PHP
Tokenizer
扩展PHPXML扩展满足以上需求之后
lamp_yang_3533
·
2018-06-16 15:39
Laravel
Laravel
5.5
安装
配置
Composer
20165326 java实验五
这个代码在之前四则运算的结对编程写过,基本上是一样的代码:MyBC的中缀转后缀的函数publicvoidconversion(Stringexpr){//中缀转后缀Stringtoken;String
Tokenizer
tok
#CZ
·
2018-06-14 16:00
彩票开奖代码
importjava.io.IOException;importjava.io.InputStreamReader;importjava.util.Random;importjava.util.String
Tokenizer
小黑刘颜
·
2018-06-09 12:22
java基础
IMDb电影评论情感预测(文本数据预处理)--keras--python源码(24)
一、说明本代码使用keras对文本文档进行处理,主要包括1.使用urllib下载数据集2.使用tarfile解压数据集3.使用re书写正则表达式,替换文本中的格式符4.使用
Tokenizer
去建立字典5
HGaviN
·
2018-06-04 15:24
机器学习
机器学习及应用
centos7.2装laravel5.5
1.环境要求laravel5.5对php环境有一定要求的必要条件PHP>=7.0.0PHPOpenSSL扩展PHPPDO扩展PHPMbstring扩展PHP
Tokenizer
扩展PHPXML扩展可以通过
php程序猿coding
·
2018-05-30 16:43
[C++] #pragma once
defined(AFX_STRING
TOKENIZER
_H__03F4D15A_A411
2222345345
·
2018-05-23 16:06
C++
java ACM竞赛IO优化Petr模板
petr大佬的模板,果然速度提高10倍输入输出例子输入classInputReader{privatefinalstaticintBUF_SZ=65536;BufferedReaderin;String
Tokenizer
tokenizer
孤鸿子_
·
2018-05-09 20:18
utils
java
java ACM竞赛IO优化Petr模板
petr大佬的模板,果然速度提高10倍输入输出例子输入classInputReader{privatefinalstaticintBUF_SZ=65536;BufferedReaderin;String
Tokenizer
tokenizer
孤鸿子_
·
2018-05-09 20:18
misc
Mapreduce单词计数的例子
WordCount类packageorg.apache.hadoop.examples;//著名源文件存放的地方importjava.io.IOException;importjvaa.util.String
Tokenizer
Homer_Simpson
·
2018-04-24 20:21
NLP中常用的分词器
基于正向最大匹配(https://code.google.com/p/mmseg4j/)mmseg4j用Chih-HaoTsai的MMSeg算法实现的中文分词器,并实现lucene的analyzer和solr的
Tokenizer
Factory
象在舞
·
2018-04-17 19:08
机器学习
实时计算服务
Python自然语言处理
实时计算服务
Tensorflow VocabularyProcessor API
tf.contrib.learn.preprocessing.VocabularyProcessor(max_document_length,min_frequency=0,vocabulary=None,
tokenizer
_fn
听风1996
·
2018-04-08 10:34
PySpark学习笔记(5)——文本特征处理
先写下整个处理的流程:(1)从数据库中提取数据(2)将提取的数据转换成DataFrame格式(3)使用
tokenizer
分词(4)将文本向量转换成稀疏表示的数值向量(字符频率向量)(5)将
tokenizer
飞鸟2010
·
2018-03-30 18:23
PySpark学习笔记
Elasticsearch实现变态的精确匹配,配置分析器
但是有些需求要求精确搜索匹配,用自定义的配置分析器可以实现精确搜索https://www.elastic.co/guide/en/elasticsearch/reference/5.6/analysis-ngram-
tokenizer
.html
liangxw1
·
2018-03-30 14:22
Elasticsearch
上一页
23
24
25
26
27
28
29
30
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他