「已注销」

手把手教你用R实现标记化（附代码、学习资料、语料库）

作者：Rachael Tatman

翻译：梁傅淇

本文长度为1600字，建议阅读4分钟

标记化是自然语言处理中的一个常见的任务。本文教你如何用R来统计单个标记（单个单词）在文本中出现的频率，并将这个过程写成可复用的函数。

自然语言处理中的一个常见的任务就是标记化。通常而言，对于像英语这样的语言来说，标记是单个的单词，而标记化则是将一篇文章或者一系列文章分成一个个的单词。这些标记之后会被作为其他类型的分析或者任务的输入，比如说语法解析（自动地标记单词间的语法关系）。

在这个教程中，你会学到怎样去：

将文本读入R中
挑选其中的数行文本
使用tidytext包去标记化文本
计算标记频数（每个标记在数据集中出现的频繁程度）
写出可复用的函数来做上面的事情，使得工作具有更高的效率

本教程中我们会使用双语儿童的对话转录语料库。你可以在这里（https://www.kaggle.com/rtatman/corpus-of-bilingual-childrens-speech）找到更多有关的信息并下载它。

这些文件是使用CLAN（http://alpha.talkbank.org/clan/）生成的，因此格式会有些奇怪。但是只需要少量的文本处理我们就能够像使用纯文本文件一样来使用它们。

现在让我们来找出孩子们接触英语的时间和他们使用口头语（比如说，“嗯”和“呃”）的频率的关系。

# load in libraries we'll need

library(tidyverse) #keepin' things tidy

library(tidytext) #package for tidy text analysis (Check out Julia Silge's fab book!)

library(glue) #for pasting strings

library(data.table) #for rbindlist, a faster version of rbind

# now let's read in some data & put it in a tibble (a special type of tidy dataframe)

file_info <- as_data_frame(read.csv("../input/guide_to_files.csv"))

head(file_info)

这看起来很棒。那么现在让我们从这个csv文件中获得文件名称并读取其中一个文件到R中来。

# stick together the path to the file & 1st file name from the information file

fileName <- glue("../input/", as.character(file_info$file_name[1]), sep = "")

# get rid of any sneaky trailing spaces

fileName <- trimws(fileName)

# read in the new file

fileText <- paste(readLines(fileName))

# and take a peek!

head(fileText)

# what's the structure?

str(fileText)

哎呀，什么乱七八糟的！我们以vector的形式读入文本，每一行都被当作一个单独的元素，这对我们所感兴趣的单词的数量来说并不是理想的处理形式。我们可以使用一个小技巧，因为我们只对孩子们的对话感兴趣，而实验人员的话则无关紧要，所以我们可以只保留“*CHI: Child Speaking”开头的话。我们使用以下的正则表达式来获取这部分字符串：

# "grep" finds the elements in the vector that contain the exact string *CHI:.

# (You need to use the double slashes becuase I actually want to match the character

# *, and usually that means "match any character"). We then select those indexes from

# the vector "fileText".

childsSpeech <- as_data_frame(fileText[grep("\\*CHI:",fileText)])

head(childsSpeech)

好了，现在我们有了孩子们所说的话了。但是这离我们所希望回答的问题“孩子们说了多少次‘嗯’”还很远呢。

让我们把我们的数据弄得更整洁一些。整洁的数据拥有以下三个特征（https://cran.r-project.org/web/packages/tidyr/vignettes/tidy-data.html）：

一个变量占一列。
一个观测值占一行。
一个类型的观测值组成一个表格。

幸运的是我们不用从零开始，我们可以用tidytext包！

# use the unnest_tokens function to get the words from the "value" column of "child

childsTokens <- childsSpeech %>% unnest_tokens(word, value)

head(childsTokens)

啊，好多了！你会注意到unnest_tokens函数已经做了大部分的预处理工作。标点符号已经被处理了，而且所有的字母都小写化了。也许你并不是每次都需要这么做，但是这次我们并不想区分“trees”和“Trees”。

现在让我们看看词频，或者说，这个词有多常见。

# look at just the head of the sorted word frequencies

childsTokens %>% count(word, sort = T) %>% head

我们马上就发现了一个问题，最频繁的一个词实际上并非来自于孩子们所说的话语，而是注释“chi”，代表这句话是孩子说的。所以我们要使用dplyr包的anti_join函数来去除它。

# anti_join removes any rows that are in the both dataframes, so I make a data_frame

# of 1 row that contins "chi" in the "word" column.

sortedTokens <- childsSpeech %>% unnest_tokens(word, value) %>% anti_join(data_frame(word = "chi")) %>%

count(word, sort = T)

head(sortedTokens)

太棒了！这正是我们想要的。但是只是其中一个文件的结果而已。我们想要比较不同的文件。那么现在让我们把它流程化（这会使得接下来更容易复制这个过程）。现在我们有了一个函数，让我们运行它并看它是否能工作。

# let's make a function that takes in a file and exactly replicates what we just did

fileToTokens <- function(filename){

# read in data

fileText <- paste(readLines(filename))

# get child's speech

childsSpeech <- as_data_frame(fileText[grep("\\*CHI:",fileText)])

# tokens sorted by frequency

sortedTokens <- childsSpeech %>% unnest_tokens(word, value) %>%

anti_join(data_frame(word = "chi")) %>%

count(word, sort = T)

# and return that to the user

return(sortedTokens)

}

函数写好了，我们用它来处理其中一个文件。

# we still have this fileName variable we assigned at the beginning of the tutorial

fileName

# so let's use that...

head(fileToTokens(fileName))

# and compare it to the data we analyzed step-by-step

head(sortedTokens)

好啦！这个函数的输出和我们之前的分析的结果是完全一样的！现在我们可以把它用来处理整个文件集了。

还有一件事，我们得指出哪个孩子说出哪些词。这样的话我们得在输出中加一列。

# let's write another function to clean up file names. (If we can avoid

# writing/copy pasting the same codew we probably should)

prepFileName <- function(name){

# get the filename

fileName <- glue("../input/", as.character(name), sep = "")

# get rid of any sneaky trailing spaces

fileName <- trimws(fileName)

# can't forget to return our filename!

return(fileName)

}

# make an empty dataset to store our results in

tokenFreqByChild <- NULL

# becuase this isn't a very big dataset, we should be ok using a for loop

# (these can be slow for really big datasets, though)

for(name in file_info$file_name){

# get the name of a specific child

child <- name

# use our custom functions we just made!

tokens <- prepFileName(child) %>% fileToTokens()

# and add the name of the current child

tokensCurrentChild <- cbind(tokens, child)

# add the current child's data to the rest of it

# I'm using rbindlist here becuase it's much more efficent (in terms of memory

# usage) than rbind

tokenFreqByChild <- rbindlist(list(tokensCurrentChild,tokenFreqByChild))

}

# make sure our resulting dataframe looks reasonable

summary(tokenFreqByChild)

head(tokenFreqByChild)

我们现在在同一个表格中有所有的数据了。让我们来可视化它吧！

# let's plot the how many words get used each number of times

ggplot(tokenFreqByChild, aes(n)) + geom_histogram()

这个图表告诉我们，大部分的单词都只用了一次，出现频率越高的单词数量越少。这是人类语言的一个定律，叫做齐普夫定律（https://nlp.stanford.edu/IR-book/html/htmledition/zipfs-law-modeling-the-distribution-of-terms-1.html）。

让我们回到最初的问题：孩子们使用“嗯”的频率和孩子们学习语言的时间长短间是否有关系。

#first, let's look at only the rows in our dataframe where the word is "um"

ums <- tokenFreqByChild[tokenFreqByChild$word == "um",]

# now let's merge our ums dataframe with our information file

umsWithInfo <- merge(ums, file_info, by.y = "file_name", by.x = "child")

head(umsWithInfo)

看起来不错。让我们看看，孩子们使用“嗯”的次数和和他们学习语言的月份数是否有关系。

# see if there's a significant correlation

cor.test(umsWithInfo$n, umsWithInfo$months_of_english)

# and check the plot

ggplot(umsWithInfo, aes(x = n, y = months_of_english)) + geom_point() +

geom_smooth(method = "lm")

肯定的“没有”。在这个语料库中的材料显示，孩子们说“嗯”的次数和他们接触英语的时间长短并无联系。

还有一些方面的事情可以使得分析过程更完善：

• 关注相对频率，也就是在孩子们所说的话语中，“嗯”的占比而非它的频率

• 关注所有的语气词，而非单个的“嗯”

• 关注难以理解的话语（“xxx”）

我像老式教科书一样留下给你，读者们，一个问题。我已经教授了我在文章开头所承诺的一切了，你一定能做到的：

• 将文本读入R中

• 挑选其中的数行文本

• 使用tidytext包去标记化文本

• 计算标记频数（每个标记在数据集中出现的频繁程度）

• 写出可复用的函数来做上面的事情，使得工作具有更高的效率

既然你已经掌握了标记化的基础了，这里是另外一些你可以用来锻炼技能的语料库：

• Ironic Corpus（https://www.kaggle.com/rtatman/ironic-corpus）

• Stanford Natural Language Inference Corpus（https://www.kaggle.com/sohier/stanford-natural-language-inference-corpus）

• Annotated Corpus for Named Entity Recognition（https://www.kaggle.com/abhinavwalia95/entity-annotated-corpus）

• Fraudulent E-mail Corpus（https://www.kaggle.com/rtatman/fraudulent-email-corpus）

祝你好运！Happy tokenization！

原文标题：

Data Science 101(Getting started in NLP):Tokenization tutorial

原文链接：

http://blog.kaggle.com/2017/08/25/data-science-101-getting-started-in-nlp-tokenization-tutorial/

编辑：王璇

梁傅淇，软件工程本科在读，主修大数据分析，喜好搜索、收集各类信息。希望能在THU数据派平台认识更多对数据分析感兴趣的朋友，一起研究如何从数据挖掘出有用的模型和信息。

翻译组招募信息

工作内容：需要一颗细致的心，将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生，或在海外从事相关工作，或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到：定期的翻译培训提高志愿者的翻译水平，提高对于数据科学前沿的认知，海外的朋友可以和国内技术应用发展保持联系，THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利：来自于名企的数据科学工作者，北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~

为保证发文质量、树立口碑，数据派现设立“错别字基金”，鼓励读者积极纠错。

若您在阅读文章过程中发现任何错误，请在文末留言，或到后台反馈，经小编确认后，数据派将向检举读者发8.8元红包。

同一位读者指出同一篇文章多处错误，奖金不变。不同读者指出同一处错误，奖励第一位读者。

感谢一直以来您的关注和支持，希望您能够监督数据派产出更加高质的内容。

转载须知

如需转载文章，请做到 1、正文前标示：转自数据派THU（ID：DatapiTHU）；2、文章结尾处附上数据派二维码。

申请转载，请发送邮件至[email protected]

公众号底部菜单有惊喜哦！

企业，个人加入组织请查看“联盟”

往期精彩内容请查看“号内搜”

加入志愿者或联系我们请查看“关于我们”

点击“阅读原文”报名

AI-大模型中的流式输出与非流式输出岂不闻 AI 人工智能开发语言 AI编程
1.前言在大模型API开发中，流式与非流式输出对应着两种不同的数据交互，在代码中stream中通过参数true与false来进行设定。2.流式输出与非流式输出的原理2.1.非流式输出-请求一次响应返回完整数据非流式输出，传统的请求-响应模式，发起请求-等待完整内容生成后一次性返回给客户端。完整性：返回经过处理和验证的完整响应。单次传输：采用标准HTTP请求与响应模式，一次传输所有数据。等待时间：用
Bug:QT不能生成可执行文件 lkasi bug
问题描述：为了生成可执行文件，将项目以release方式进行构建，并且在.pro文件中加入TEMPLATE=app#这生成一个exeQMAKE_LFLAGS+=-no-pie并且执行runqmake，生成的仍是sharedlibrary!!!解决方法：将下面代码放在.pro靠下的位置，并且再次执行runqmake,再构建就成功了TEMPLATE=app#这生成一个exeQMAKE_LFLAGS+=
Flutter中使用NetworkImage加载网络图片缓存问题学习实践云水-禅心 flutter 缓存
Flutter中默认的NetworkImage会有缓存机制，如果图片的url不变化，但是url的图片已经发生变化，NetworkImage不会下载新的图片deepseek是这么解决问题的，但是在鸿蒙上禁用缓存无效在Flutter中，NetworkImage默认会使用缓存机制来优化性能。如果你想禁用缓存，可以通过以下几种方式实现：1.使用NetworkImage的headers参数你可以通过设置he
前端实现版本更新自动检测✅ 水煮白菜王前端 Vue JavaScript 前端 vue.js javascript
作者简介：水煮白菜王，一位资深前端劝退师文章专栏：前端专栏，记录一下平时在博客写作中，总结出的一些开发技巧和知识归纳总结✍。感谢支持目录一、背景二、实现原理2.1逻辑2.2一些好处三、具体实现3.1工程化封装3.2关键方法解析脚本哈希获取：对比逻辑：四、全部代码4.1vue34.2vue2五、注意事项与常见问题5.1可能出现的问题5.2浏览器兼容方案一、背景在现代Web应用中，部署前端版本更新后及
godot在_process()函数实现非阻塞延时触发逻辑小沙盒 godot godot javascript 游戏引擎
extendsNode2D#用于累加delta的变量varelapsed_time=0#设定计时周期，单位为秒varinterval=3func_process(delta):#累加delta到elapsed_timeelapsed_time+=delta#检查是否达到了设定的时间间隔ifelapsed_time>=interval:#执行每3秒要做的逻辑print("每3秒执行一次的逻辑被触发"
【实用工具】autoreconf 命令是做什么的？Mac 上怎么安装？ AI天才研究院实用工具箱 macos linux bash Autotools c
目录autoreconf命令是做什么的？Mac上怎么安装？有没有其他常用的Autotools命令？如何使用Autotools工具集生成可执行文件？autoreconf命令是做什么的？Mac上怎么安装？autoreconf命令是用于自动生成GNUAutotools构建系统所需的文件，包括configure脚本、Makefile.in文件等。它通常在源代码包中提供，用于帮助用户在不同的平台上配置、编译
2.10 Spring Boot定时任务：@Scheduled与Quartz对比分析 Sendingab spring boot 后端 java
SpringBoot定时任务：@Scheduled与Quartz对比分析一、核心特性对比特性**@Scheduled**Quartz依赖复杂度内置于Spring（零配置）需额外依赖与配置任务持久化不支持（内存存储）支持（数据库持久化）动态任务管理仅静态配置支持运行时增删改查分布式支持需自行实现原生集群支持调度策略固定速率/延迟Cron表达式/日历触发错误处理简单异常捕获完善的重试与错误日志机制性能
探索未知，从脚下开始：国内高清卫星影像地图全攻略夜雨声超烦大数据云计算
在数字化飞速发展的今天，地图早已不再是传统的纸质模样，高清卫星影像地图正为我们打开一扇扇新世界的大门。今天，就来给大家分享一下国内有哪些好用的高清卫星影像地图平台。星图云开放平台：专业级的高清视界超高清分辨率：星图云开放平台拥有全国0.8米分辨率的影像地图，部分重点城市更是达到了惊人的0.5米，这种精度让我们仿佛能看清地面上的每一块砖石。历史影像回溯：它不仅提供当下最新鲜的影像，还能让你回溯历史，
springMVC RestFul接口设计模式详解，包括前后端设计详解。@GetMapping、@PostMapping、@PutMapping@DeleteMapping@PathVariable 漫慢丶 springmvc restful 设计模式 java
目录1、什么是RestFul接口设计模式2、使用该接口设计模式后端还需要配置什么3、使用该接口设计模式前端需要注意什么4、Controller具体实现方式1、什么是RestFul接口设计模式RestFul这是一种springmvc接口的设计模式，用来区别不同类型的请求，来匹配控制器处理映射。例如请求URL为/test/那么中根据Get、put、post等请求方式，就可以具体映射到对应的控制器方法。
git submodule管理的仓库怎么删除子仓库绛洞花主敏明 git
删除Git子模块需要执行一系列步骤，以确保从项目中彻底移除子模块及其相关配置。以下是详细的步骤：1.取消初始化子模块运行以下命令以取消子模块的初始化，这会从.git/config文件中移除子模块的配置：gitsubmoduledeinit-f-f参数用于强制执行，避免因子模块目录中有未提交的更改而导致命令失败。2.删除子模块目录从工作目录中删除子模块的文件夹：rm-rf3.从.gitmodules
学习笔记09——并发编程之线程基础码代码的小仙女高级开发必备技能学习笔记 python
线程基础1.1进程与线程的区别，Java中线程的实现（用户线程与内核线程）进程是操作系统分配资源的基本单位，而线程是CPU调度的基本单位。每个进程有独立的内存空间，而同一进程内的线程共享内存.可以从资源分配、切换开销、通信方式和独立性四个方面来比较两者的区别资源分配进程：操作系统分配资源（如内存、文件句柄等）的基本单位，拥有独立的地址空间。线程：隶属于进程，共享进程的资源（如内存、文件等），是CP
运行autoreconf -fvi报错configure.ac:29: error: possibly undefined macro: AM_PROG_LIBTOOL 爱因斯坦小姐 linux
报错内容说明configure.ac文件中使用了AM_PROG_LIBTOOL，但autoreconf无法找到它。这是因为libtool没有正确的安装或者配置。首先安装libtool：sudoapt-getupdatesudoapt-getinstalllibtool在项目的根目录下初始化libtool：libtoolize接下来重新运行autoreconf-fvi，或许就没问题啦！
C语言开发以及维护用到的工具简介 812503533 蓦然回首---再看C语言 c语言编辑器开发语言
C语言作为一门经典的编程语言，广泛应用于系统编程、嵌入式开发、操作系统内核等领域。经过第一部分的介绍，已经可以实现一些最简单的功能了，比如文字版本的计算器，猜数字小游戏，通过调整输出格式从而输出优美的图形等等，那么在未来的实际使用中，使用一些什么工具去进行c语言的编辑，查看，编译，运行等等，本文将做简单的介绍，后续再慢慢完善相关的内容。1、编辑器所有语言在编写的时候使用的工具就叫做编辑器，C语言程
C 语言中的数组详解 812503533 c语言 java 开发语言
在C语言中，数组是一种非常基础且常用的数据结构。数组是存储一组相同类型元素的集合，允许我们以统一的方式访问和操作这些元素。C语言中的数组不仅在编程中使用广泛，而且它的灵活性和效率使得它成为了许多算法实现的基础。本篇文章将深入分析C语言中的一维数组，包括定义、存储方式、操作方式、常见问题等等，所有的数据结构都可以从这几个方面来学习。1.数组的定义与存储方式1.1一维数组的定义数组的定义方式包括数组大
C语言回调函数 812503533 c语言 java 开发语言
前文函数指针中说到了，函数指针的一个重要作用就是实现回调函数，那么什么是回调函数，回调函数有什么作用，在那些场景下使用，具体应该怎么使用，本文就分享下这块的知识。1、回调函数简介回调函数（CallbackFunction）是指将一个函数作为参数传递给另一个函数，然后在适当的时候由被调用的函数执行该回调函数。回调函数是实现事件驱动编程、异步编程和灵活接口设计的核心工具。回调函数通常用于实现高阶函数，
暮然回首--再看C语言--常量与宏定义 812503533 蓦然回首---再看C语言 c语言
常量与宏定义在C语言中，常量和宏定义是非常重要的概念。它们有助于提高程序的可读性、可维护性，并且能够避免重复代码。常量是指在程序运行期间其值不发生变化的变量，而宏定义是一种预处理指令，用于定义常量或代码片段，在编译阶段进行替换。一、常量常量是指在程序执行过程中其值不可改变的量。在C语言中，我们可以使用const关键字来声明常量。常量分为以下几种类型：常量整数：例如constinta=5;常量浮点数
并发编程（三）——线程间的共享和协作霸图& java并发编程并发编程
并发编程（三）——线程间的共享和协作一线程间的共享线程开始运行，拥有自己的栈空间，就如同一个脚本一样，按照既定的代码一步一步地执行，直到终止。但是，每个运行中的线程，如果仅仅是孤立地运行，那么没有一点儿价值，或者说价值很少，如果多个线程能够相互配合完成工作，包括数据之间的共享，协同处理事情。这将会带来巨大的价值。1.1synchronized内置锁synchronized关键字：synchroni
12.1go语言sync.Map和atomic包 chxii go语言 #go 基础后端 golang
sync.Map在Go语言中，sync.Map是sync包提供的一个并发安全的映射（map）类型。与内置的map类型不同，sync.Map无需在外部加锁即可安全地在多个goroutine中进行读写操作。这使得sync.Map在某些特定场景下，如高并发读写、键值对频繁变动等，具有更好的性能表现。1.特点并发安全：sync.Map内部实现了同步机制，多个goroutine可以同时对其进行读写操作，而无
【Swift】面向协议编程之HelloWorld coooliang Swift swift
定义一个协议(protocol)，swift中可以对protocol进行扩展(extension)通过协议的扩展可以对函数有默认的实现protocolSleepable{funcsleep()}protocolEatable{funceat()}extensionEatable{funceat(){print("eatfood")}}在类(class)或结构体(struct)中实现protocol
异地收款被拦截？一文读懂聚合二维码风控解决方案畅联支付大数据支付经验分享笔记
随着移动支付的普及，许多商家使用聚合二维码实现多平台收款。但近期不少用户反馈"人在外地扫自家二维码付款却被风控拦截"，这不仅影响经营效率，还可能引发资金冻结风险。今天我们就来解析这个问题的成因和应对策略。一、为什么会触发风控？1.地理位置异常：支付系统发现收款设备与常用地址存在跨省变动（如北京商家突然在上海收款）2.交易行为突变：短期内出现远超日常交易量的资金流动3.信息不匹配：营业执照注册地与收
SeisMoLLM: Advancing Seismic Monitoring via Cross-modal Transfer with Pre-trained Large Language UnknownBody LLM Daily Multimodal 语言模型人工智能自然语言处理
摘要深度学习的最新进展给地震监测带来了革命性变化，但开发一个能在多个复杂任务中表现出色的基础模型仍然充满挑战，尤其是在处理信号退化或数据稀缺的情况时。本文提出SeisMoLLM，这是首个利用跨模态迁移进行地震监测的基础模型，它无需在地震数据集上进行直接预训练，就能充分发挥大规模预训练大语言模型的强大能力。通过精心设计的波形标记化处理和对预训练GPT-2模型的微调，SeisMoLLM在DiTing和
50 种不同编程语言的“Hello World”，你知多少？逗逗逗逗666 编程 hello world 编程语言
当我们学习一门编程语言时，都是从“Hello,World!”开始。所有程序员在其职业生涯中，都至少接触过一个经典的“Hello,World!”程序。通常程序员会使用多种编程语言，多的甚至实现了十几种。还有一种称为TTHW（Timeto“Hello,World!”）的方法，来衡量程序员创建一个新的“Hello,World!”程序的时间。你可以用多少种不同的语言编写一个“Hello,World!”程序
【批量图片区域识别改名】有没有可以自动批量识别jpg图片上的区域文字，并直接提取文字命名的软件么? 没有我们教你基于WPF和腾讯api的方案做一个如沐春风菜鸡收割机图片OCR识别扫描PDF提取内容 PDF明细提取表格工具实现PDF明细转Excel PDF数据导出Excel 批量PDF内容提取工具批量图片识别区域内容改名批量图片识别多个区域内容导表格
应用场景描述在很多实际工作场景中，我们可能会遇到大量的图片文件，这些图片中包含特定区域的文字信息，比如发票图片上的发票号码、合同图片上的合同编号等。手动识别并为图片命名效率极低且容易出错。使用自动批量识别JPG图片上的区域文字，并直接提取文字为图片命名的软件，可以大大提高工作效率，减少人工操作带来的错误。实现方案：基于WPF和腾讯云OCRAPI步骤1：准备工作注册腾讯云账号：访问腾讯云官网（腾讯云
【春招笔试真题】饿了么2025.03.07-开发岗真题春秋招笔试突围最新互联网春秋招试题合集 java 算法网络
饿了么2025.03.07-开发岗题目1️⃣：统计01串中0和1的个数，通过计算可能的交换方式确定不同字符串数量2️⃣：使用模板匹配技术识别验证码图片中的"#"符号分布模式3️⃣：构建字典树（Trie）优化异或查询，实现高效的数字黑板游戏整体难度这套题目整体难度适中，由简到难逐步递进：第一题是基础的计数问题，需要理解交换操作的特性第二题是模式识别问题，需要实现模板匹配第三题是高级数据结构应用，需要
Python控制批量插入Catia文件并修改文件定义及PN 一盘红烧肉 python
改了两天，总算初步摸清楚了Catia中的文件结构，实现了使用Python控制批量修改文件名及定义使用Pycatia在Product中插入Part并改名及定义
H5基于Canvas实现电子签名并生成PDF文档 2401_85156853 程序员 pdf 前端 java
3.注册监听事件letbeginX:number,beginY:number;constcanvas:HTMLCanvasElement=canvasDom.current;constctx=canvas.getContext(‘2d’);ctx.fillStyle=‘#fff’;ctx.fillRect(0,0,canvas.width,canvas.height);canvas.addEven
C++11之列表初始化 Octopus2077 c++学习笔记
发展历史C++11是C++的第⼆个主要版本，并且是从C++98起的最重要更新。它引⼊了⼤量更改，标准化了既有实践，并改进了对C++程序员可⽤的抽象。在它最终由ISO在2011年8⽉12⽇采纳前，⼈们曾使⽤名称“C++0x”，因为它曾被期待在2010年之前发布。C++03与C++11期间花了8年时间，故⽽这是迄今为⽌最⻓的版本间隔。从那时起，C++有规律地每3年更新⼀次。列表初始化（注意区分列表初始
学习笔记12——并发编程之线程之间协作方式码代码的小仙女高级开发必备技能 java jvm 开发语言
线程之间协作有哪些方式当多个线程可以一起工作去解决某个问题时，如果某些部分必须在其他部分之前完成，那么就需要对线程进行协调。共享变量和轮询方式实现：定义一个共享变量（如volatile修饰的布尔标志）。线程通过检查共享变量的状态来决定是否继续执行。publicclassTest{ privatestaticvolatilebooleanflag=false; publicstaticvoi
redis持久化 xing.xing redis
目录redis持久化RDB（RedisDatabase）持久化AOF（AppendOnlyFile）持久化redis持久化在Redis中，持久化是确保数据在Redis服务器重启后不丢失的关键功能。Redis提供了两种主要的数据持久化方式：RDB（RedisDatabase）持久化和AOF（AppendOnlyFile）持久化。Redis的默认持久化方式是RDB（快照）。在Redis启动时，它会定期
Spring MVC 拦截器跪在镜子前喊帅 java java
前言SpringMVC提供了一个拦截器的机制，它专门用于拦截controller层的路由请求。它的本质是：AOP面向切面的编程，也就是说符合横切关注点的功能都可以考虑使用拦截器实现。比如一些应用场景：权限检查例如：用户登录检查，访问项目的内部接口时，可以通过拦截器检测用户是否登录，如果登录，直接放回用户登录页面。日志记录更新推荐用原生的AOP机制会更好一点，粒度会更细，控制起来也更方便，如果你是针
xml解析小猪猪08 xml
1、DOM解析的步奏准备工作： 1.创建DocumentBuilderFactory的对象 2.创建DocumentBuilder对象 3.通过DocumentBuilder对象的parse(String fileName)方法解析xml文件 4.通过Document的getElem
每个开发人员都需要了解的一个SQL技巧 brotherlamp linux linux视频 linux教程 linux自学 linux资料
对于数据过滤而言CHECK约束已经算是相当不错了。然而它仍存在一些缺陷，比如说它们是应用到表上面的，但有的时候你可能希望指定一条约束，而它只在特定条件下才生效。使用SQL标准的WITH CHECK OPTION子句就能完成这点，至少Oracle和SQL Server都实现了这个功能。下面是实现方式： CREATE TABLE books ( id &
Quartz——CronTrigger触发器 eksliang quartz CronTrigger
转载请出自出处：http://eksliang.iteye.com/blog/2208295 一.概述 CronTrigger 能够提供比 SimpleTrigger 更有具体实际意义的调度方案，调度规则基于 Cron 表达式，CronTrigger 支持日历相关的重复时间间隔（比如每月第一个周一执行），而不是简单的周期时间间隔。二.Cron表达式介绍 1）Cron表达式规则表 Quartz
Informatica基础 18289753290 Informatica Monitor manager workflow Designer
1. 1）PowerCenter Designer：设计开发环境，定义源及目标数据结构；设计转换规则，生成ETL映射。 2）Workflow Manager：合理地实现复杂的ETL工作流，基于时间，事件的作业调度 3）Workflow Monitor：监控Workflow和Session运行情况，生成日志和报告 4）Repository Manager：
linux下为程序创建启动和关闭的的sh文件，scrapyd为例酷的飞上天空 scrapy
对于一些未提供service管理的程序每次启动和关闭都要加上全部路径，想到可以做一个简单的启动和关闭控制的文件下面以scrapy启动server为例，文件名为run.sh： #端口号，根据此端口号确定PID PORT=6800 #启动命令所在目录 HOME='/home/jmscra/scrapy/' #查询出监听了PORT端口
人--自私与无私永夜-极光
今天上毛概课,老师提出一个问题--人是自私的还是无私的,根源是什么? 从客观的角度来看,人有自私的行为,也有无私的
Ubuntu安装NS-3 环境脚本随便小屋 ubuntu
将附件下载下来之后解压，将解压后的文件ns3environment.sh复制到下载目录下（其实放在哪里都可以，就是为了和我下面的命令相统一）。输入命令： sudo ./ns3environment.sh >>result 这样系统就自动安装ns3的环境，运行的结果在result文件中，如果提示 com
创业的简单感受 aijuans 创业的简单感受
2009年11月9日我进入a公司实习，2012年4月26日，我离开a公司，开始自己的创业之旅。今天是2012年5月30日，我忽然很想谈谈自己创业一个月的感受。当初离开边锋时，我就对自己说：“自己选择的路，就是跪着也要把他走完”，我也做好了心理准备，准备迎接一次次的困难。我这次走出来，不管成败
如何经营自己的独立人脉 aoyouzi 如何经营自己的独立人脉
独立人脉不是父母、亲戚的人脉，而是自己主动投入构造的人脉圈。“放长线，钓大鱼”，先行投入才能产生后续产出。现在几乎做所有的事情都需要人脉。以银行柜员为例，需要拉储户，而其本质就是社会人脉，就是社交！很多人都说，人脉我不行，因为我爸不行、我妈不行、我姨不行、我舅不行……我谁谁谁都不行，怎么能建立人脉？我这里说的人脉，是你的独立人脉。以一个普通的银行柜员
JSP基础百合不是茶 jsp 注释隐式对象
1,JSP语句的声明 <%! 声明 %> 　　声明：这个就是提供java代码声明变量、方法等的场所。表达式 <%= 表达式 %> 　　这个相当于赋值，可以在页面上显示表达式的结果，程序代码段/小型指令　<% 程序代码片段 %> 2,JSP的注释
web.xml之session-config、mime-mapping bijian1013 java web.xml servlet session-config mime-mapping
session-config 1.定义： <session-config> <session-timeout>20</session-timeout> </session-config> 2.作用：用于定义整个WEB站点session的有效期限，单位是分钟。 mime-mapping 1.定义： <mime-m
互联网开放平台（1） Bill_chen 互联网 qq 新浪微博百度腾讯
现在各互联网公司都推出了自己的开放平台供用户创造自己的应用，互联网的开放技术欣欣向荣，自己总结如下： 1.淘宝开放平台(TOP) 网址：http://open.taobao.com/ 依赖淘宝强大的电子商务数据，将淘宝内部业务数据作为API开放出去，同时将外部ISV的应用引入进来。目前TOP的三条主线： TOP访问网站：open.taobao.com ISV后台：my.open.ta
【MongoDB学习笔记九】MongoDB索引 bit1129 mongodb
索引可以在任意列上建立索引索引的构造和使用与传统关系型数据库几乎一样,适用于Oracle的索引优化技巧也适用于Mongodb 使用索引可以加快查询,但同时会降低修改,插入等的性能内嵌文档照样可以建立使用索引测试数据 var p1 = { "name":"Jack", "age&q
JDBC常用API之外的总结白糖_ jdbc
做JAVA的人玩JDBC肯定已经很熟练了，像DriverManager、Connection、ResultSet、Statement这些基本类大家肯定很常用啦，我不赘述那些诸如注册JDBC驱动、创建连接、获取数据集的API了，在这我介绍一些写框架时常用的API，大家共同学习吧。 ResultSetMetaData获取ResultSet对象的元数据信息
apache VelocityEngine使用记录 bozch VelocityEngine
VelocityEngine是一个模板引擎，能够基于模板生成指定的文件代码。使用方法如下： VelocityEngine engine = new VelocityEngine();// 定义模板引擎 Properties properties = new Properties();// 模板引擎属
编程之美-快速找出故障机器 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; public class TheLostID { /*编程之美假设一个机器仅存储一个标号为ID的记录，假设机器总量在10亿以下且ID是小于10亿的整数，假设每份数据保存两个备份，这样就有两个机器存储了同样的数据。 1.假设在某个时间得到一个数据文件ID的列表，是
关于Java中redirect与forward的区别 chenbowen00 java servlet
在Servlet中两种实现： forward方式：request.getRequestDispatcher(“/somePage.jsp”).forward(request, response); redirect方式：response.sendRedirect(“/somePage.jsp”); forward是服务器内部重定向，程序收到请求后重新定向到另一个程序，客户机并不知
[信号与系统]人体最关键的两个信号节点 comsci 系统
如果把人体看做是一个带生物磁场的导体,那么这个导体有两个很重要的节点,第一个在头部,中医的名称叫做百汇穴, 另外一个节点在腰部,中医的名称叫做命门如果要保护自己的脑部磁场不受到外界有害信号的攻击,最简单的
oracle 存储过程执行权限 daizj oracle 存储过程权限执行者调用者
在数据库系统中存储过程是必不可少的利器，存储过程是预先编译好的为实现一个复杂功能的一段Sql语句集合。它的优点我就不多说了，说一下我碰到的问题吧。我在项目开发的过程中需要用存储过程来实现一个功能，其中涉及到判断一张表是否已经建立，没有建立就由存储过程来建立这张表。 CREATE OR REPLACE PROCEDURE TestProc IS fla
为mysql数据库建立索引 dengkane mysql 性能索引
前些时候，一位颇高级的程序员居然问我什么叫做索引，令我感到十分的惊奇，我想这绝不会是沧海一粟，因为有成千上万的开发者（可能大部分是使用MySQL的）都没有受过有关数据库的正规培训，尽管他们都为客户做过一些开发，但却对如何为数据库建立适当的索引所知较少，因此我起了写一篇相关文章的念头。最普通的情况，是为出现在where子句的字段建一个索引。为方便讲述，我们先建立一个如下的表。
学习C语言常见误区如何看懂一个程序如何掌握一个程序以及几个小题目示例 dcj3sjt126com c 算法
如果看懂一个程序，分三步 1、流程 2、每个语句的功能 3、试数如何学习一些小算法的程序尝试自己去编程解决它，大部分人都自己无法解决如果解决不了就看答案关键是把答案看懂，这个是要花很大的精力，也是我们学习的重点看懂之后尝试自己去修改程序，并且知道修改之后程序的不同输出结果的含义照着答案去敲调试错误
centos6.3安装php5.4报错 dcj3sjt126com centos6
报错内容如下: Resolving Dependencies --> Running transaction check ---> Package php54w.x86_64 0:5.4.38-1.w6 will be installed --> Processing Dependency: php54w-common(x86-64) = 5.4.38-1.w6 for
JSONP请求 flyer0126 jsonp
使用jsonp不能发起POST请求。 It is not possible to make a JSONP POST request. JSONP works by creating a <script> tag that executes Javascript from a different domain; it is not pos
Spring Security（03）——核心类简介 234390216 Authentication
核心类简介目录 1.1 Authentication 1.2 SecurityContextHolder 1.3 AuthenticationManager和AuthenticationProvider 1.3.1 &nb
在CentOS上部署JAVA服务 java--hhf java jdk centos Java服务
本文将介绍如何在CentOS上运行Java Web服务，其中将包括如何搭建JAVA运行环境、如何开启端口号、如何使得服务在命令执行窗口关闭后依旧运行第一步：卸载旧Linux自带的JDK ①查看本机JDK版本 java -version 结果如下 java version "1.6.0"
oracle、sqlserver、mysql常用函数对比[to_char、to_number、to_date] ldzyz007 oracle mysql SQL Server
oracle &n
记Protocol Oriented Programming in Swift of WWDC 2015 ningandjin protocol WWDC 2015 Swift2.0
其实最先朋友让我就这个题目写篇文章的时候，我是拒绝的，因为觉得苹果就是在炒冷饭，把已经流行了数十年的OOP中的“面向接口编程”还拿来讲，看完整个Session之后呢，虽然还是觉得在炒冷饭，但是毕竟还是加了蛋的，有些东西还是值得说说的。通常谈到面向接口编程，其主要作用是把系统设计和具体实现分离开，让系统的每个部分都可以在不影响别的部分的情况下，改变自身的具体实现。接口的设计就反映了系统
搭建 CentOS 6 服务器(15) - Keepalived、HAProxy、LVS rensanning keepalived
（一）Keepalived （1）安装 # cd /usr/local/src # wget http://www.keepalived.org/software/keepalived-1.2.15.tar.gz # tar zxvf keepalived-1.2.15.tar.gz # cd keepalived-1.2.15 # ./configure # make &a
ORACLE数据库SCN和时间的互相转换 tomcat_oracle oracle sql
SCN（System Change Number 简称 SCN）是当Oracle数据库更新后，由DBMS自动维护去累积递增的一个数字，可以理解成ORACLE数据库的时间戳，从ORACLE 10G开始，提供了函数可以实现SCN和时间进行相互转换；　　用途：在进行数据库的还原和利用数据库的闪回功能时，进行SCN和时间的转换就变的非常必要了；　　操作方法：　　1、通过dbms_f
Spring MVC 方法注解拦截器 xp9802 spring mvc
应用场景，在方法级别对本次调用进行鉴权，如api接口中有个用户唯一标示accessToken,对于有accessToken的每次请求可以在方法加一个拦截器，获得本次请求的用户，存放到request或者session域。 python中，之前在python flask中可以使用装饰器来对方法进行预处理，进行权限处理先看一个实例,使用@access_required拦截： ?

手把手教你用R实现标记化（附代码、学习资料、语料库）

你可能感兴趣的:(手把手教你用R实现标记化（附代码、学习资料、语料库）)