weixin_39586683

huggingface实操_自然语言处理中数据增强（Data Augmentation）技术最全盘点

与“计算机视觉”中使用图像数据增强的标准做法不同，在NLP中，文本数据的增强非常少见。这是因为对图像的琐碎操作(例如将图像旋转几度或将其转换为灰度)不会改变其语义。语义上不变的转换的存在是使增强成为Computer Vision研究中必不可少的工具的原因。

是否有尝试为NLP开发增强技术的方法，并探讨了现有文献。在这篇文章中，将基于我的发现概述当前用于文本数据扩充的方法。

本文内容翻译整理自网络。

NLP数据扩充技术

1.词汇替代

此工作尝试在不更改句子含义的情况下替换文本中出现的单词。

基于同义词库的替换

在此技术中，从句子中抽取一个随机单词，然后使用同义词库将其替换为其同义词。例如，可以使用WordNet数据库中的英语查找同义词，然后执行替换。它是一个人工编辑的数据库，描述单词之间的关系。

Zhang在他们的2015年论文“Character-level Convolutional Networks for Text Classification”中使用了该技术。Mueller等人使用相似的策略为其句子相似性模型生成额外的10K训练数据。Wei等人也使用了这种技术作为“轻松数据增强”论文中四个随机增强集合中的一种技术。

为了实现，NLTK提供了对WordNet 的编程访问。读者也可以使用TextBlob API。此外，还有一个名为PPDB的数据库，其中包含数百万个可以通过编程方式下载和使用的短语。

词嵌入替换

在这种方法中，采用了经过预训练的词嵌入，例如Word2Vec，GloVe，FastText，Sent2Vec，并使用嵌入空间中最近的相邻词作为句子中某些词的替换。Jiao已在他们的论文“ TinyBert ” 中将这种技术与GloVe嵌入一起使用，以改进其语言模型在下游任务上的通用性。Wang等人用它来增强学习主题模型所需的推文。

例如，读者可以将单词替换为最接近的3个单词，并获得文本的三种变体。

使用诸如Gensim之类的包来访问预先训练的单词向量并获取最近的邻居是很容易的。例如，在这里使用在推特上训练的单词向量找到单词“ awesome”的同义词。

相关好书推荐，京东1万+评论，99%好评：

# pip install gensim

import gensim.downloader as api

model = api.load('glove-twitter-25') model.most_similar('awesome', topn=5)

读者将获得5个最相似的词以及余弦相似度。

[('amazing', 0.9687871932983398),

('best', 0.9600659608840942),

('fun', 0.9331520795822144),

('fantastic', 0.9313924312591553),

('perfect', 0.9243415594100952)]

Masked语言模型

诸如BERT，ROBERTA和ALBERT之类的Transformer模型已使用称为“屏蔽语言模型”的预置任务在大量文本上进行了训练，其中该模型必须根据上下文预测屏蔽词。

这可以用来扩充一些文本。例如，可以使用预训练的BERT模型，对文本的某些部分进行遮罩，然后要求BERT模型预测被遮罩token。

因此，可以使用遮罩预测来生成文本的变体。与以前的方法相比，生成的文本在语法上更加连贯，因为模型在进行预测时会考虑上下文。使用诸如Hugging Face开源的tranformer(https://huggingface.co/transformers/)之类的开源库很容易实现。读者可以设置要替换的令牌并生成预测。

from transformers import pipelinenlp = pipeline('fill-mask')nlp('This is cool')

[{'score': 0.515411913394928,

'sequence': ' ~~This is pretty cool~~',

'token': 1256},

{'score': 0.1166248694062233,

'sequence': ' ~~This is really cool~~',

'token': 269},

{'score': 0.07387523353099823,

'sequence': ' ~~This is super cool~~',

'token': 2422},

{'score': 0.04272908344864845,

'sequence': ' ~~This is kinda cool~~',

'token': 24282},

{'score': 0.034715913236141205,

'sequence': ' ~~This is very cool~~',

'token': 182}]

但是，此方法的一个需要注意的点是，决定要掩盖文本的哪一部分并非易事。读者将必须使用启发式方法来确定掩码，否则生成的文本可能不会保留原始句子的含义。

基于TF-IDF的单词替换

这种扩展方法是由Xie等人提出的。在无监督数据增强论文中。基本思想是，TF-IDF分数较低的单词是无意义的，因此可以替换而不会影响句子的真实标签。

2. 回译(Back Translation)

在这种方法中，利用机器翻译来释义文本，同时重新训练其含义。Xie使用此方法来扩充未标记的文本，并仅使用20个标记的示例在IMDB数据集上学习半监督模型。他们的模型优于以前在25,000个带标签的示例上训练的最新模型。

反向翻译过程如下：

· 用一些句子(例如英语)并翻译成另一种语言，例如法语

· 将法语句子翻译回英语句子

· 检查新句子是否与的原始句子不同。如果是这样，那么将这个新句子用作原始文本的增强版本。

读者还可以一次使用不同的语言进行反向翻译，以产生更多的变化。如下所示，将英语句子翻译成目标语言，然后再将英语翻译成三种目标语言的英语：法语，普通话和意大利语。该技术还被用于Kaggle上的“有毒评论分类挑战” 的第一名解决方案。获胜者将其用于训练数据的增加以及测试期间，将英语句子的预测概率以及使用三种语言(法语，德语，西班牙语)的反向翻译的平均值进行平均，以得出最终预测。

对于实施反向翻译，可以使用TextBlob。另外，读者也可以使用Google表格并按照此处提供的说明免费应用Google翻译(https://amitness.com/2020/02/back-translation-in-google-sheets/)。

相关好书推荐，京东1万+评论，99%好评：

3.文字表面转换(Text Surface Transformation)

这些是使用正则表达式应用的简单模式匹配转换，由Claude Coulombe在他的论文中介绍。

在本文中，他提供了一个将言语形式从收缩转变为扩张，反之亦然的例子。可以通过应用此生成增强文本。

由于转换不应该改变句子的含义，因此可以看到，在展开歧义语言形式的情况下，这样做可能会失败：为解决此问题，本文建议允许歧义收缩，但跳过歧义扩展。

4.随机噪声注入(Random Noise Injection)

这些方法的思想是在文本中注入噪声，以便训练的模型对扰动具有鲁棒性。

拼写错误注入

在这种方法中，向句子中的某些随机单词添加了拼写错误。这些拼写错误可以通过编程方式添加，也可以使用常见拼写错误的映射(例如英语列表)来添加。

QWERTY键盘错误注入

此方法尝试模拟在QWERTY布局键盘上键入时由于相互之间非常靠近的键而发生的常见错误。根据键盘距离插入错误。

Unigram噪声

Xie等人已使用此方法。这个想法是用从字法频率分布中采样的单词进行替换。该频率基本上是每个单词在训练语料库中出现的次数。

空白噪声

该方法由Xie等人(https://arxiv.org/abs/1703.02573)提出。在他们的论文中。这个想法是用一个占位符标记代替一些随机词。本文使用“ _”作为占位符标记。在本文中，他们将其用作避免在特定上下文上过度拟合的方法以及语言模型的平滑机制。该技术有助于提高困惑度和BLEU分数。

句子改组

这是一种幼稚的技术，可以对训练文本中存在的句子进行改组以创建增强版本。

随机插入

该技术由Wei等人(https://arxiv.org/abs/1901.11196)提出。在他们的论文“Easy Data Augmentation”中。在这种技术中，首先从不是停用词的句子中选择一个随机词。然后，找到其同义词并将其插入句子中的随机位置。

随机交换

此技术也由Wei等人提出。在他们的论文“Easy Data Augmentation”中。想法是随机交换句子中的任何两个单词。

随机删除

该技术也是由Wei等人提出的。在他们的论文“Easy Data Augmentation”中。在这种情况下，以一定概率p随机删除句子中的每个单词。

5.实例交叉扩展(Instance Crossover Augmentation)

这项技术是Luque(https://arxiv.org/abs/1909.11241)在他对TASS 2019的情感分析的论文中引入的。它受到遗传学中染色体交叉操作的启发。

在该方法中，一条推文被分为两半，并且两个极性相同(即正/负)的随机推文被互换。假设是，即使结果是不合语法且语义上不合理的，新文本仍将保留情感。

该技术对准确性没有影响，但有助于提高F1分数，表明该技术可帮助减少诸如Tweet的中性类别等少数群体。

相关好书推荐，京东1万+评论，99%好评：

6.语法树(Syntax-tree)操作

此技术已在Coulombe(https://arxiv.org/abs/1812.04718)的论文中使用。想法是解析并生成原始句子的依存关系树，使用规则对其进行转换并生成释义的句子。

例如，一种不改变句子含义的转换就是从主动语态到被动语态的转换，反之亦然。

7.文字混合(Mixup for Text)

混合是张等人(https://arxiv.org/abs/1710.09412)介绍的一种简单而有效的图像增强技术。这是在2017年提出的。想法是将两个随机图像按一定比例组合在一个小批量中，以生成用于训练的合成示例。对于图像，这意味着将两个不同类别的图像像素组合在一起。它是训练过程中的一种正规化形式。

郭等人(https://arxiv.org/abs/1905.08941)将这个想法带给了自然语言处理。修改了Mixup以处理文本。他们提出了两种新颖的方法将Mixup应用于文本：

· wordMixup：

在此方法中，在一个小批量中获取两个随机句子，并将它们零填充为相同的长度。然后，将它们的词嵌入按一定比例组合。生成的单词嵌入将传递到常规流程以进行文本分类。对于给定比例的原始文本的两个标签，计算交叉熵损失。

sentMixup：

在此方法中，采用两个句子并将它们零填充为相同的长度。然后，它们的词嵌入通过LSTM / CNN编码器传递，将最后的隐藏状态作为句子嵌入。这些嵌入按一定比例组合，然后传递到最终分类层。基于给定比例的原始句子的两个标签计算交叉熵损失。

8.生成方法(Generative Methods)

此工作尝试在保留标签类别的同时生成其他训练数据。

条件预训练语言模型

这项技术由Anaby-Tavor等人首先提出。在他们的论文Not Enough Data? Deep Learning to the Rescue!。Kumar等人的(https://arxiv.org/abs/2003.02245)最新论文。在多个基于Transformer的预训练模型中评估了这个想法。问题表述如下：

将类别标签附加到训练数据中的每个文本

在修改后的训练数据上微调一个大型的预训练语言模型(BERT / GPT2 / BART)。对于GPT2，微调任务是生成，而对于BERT，目标将是屏蔽token预测。

使用微调的语言模型，可以通过使用类标签和少量的初始单词作为模型提示来生成新样本。本文使用每个训练文本的3个初始单词，并为训练数据中的每个点生成一个综合示例。

实现

诸如nlpaug(https://github.com/makcedward/nlpaug)和textattack(https://github.com/QData/TextAttack)之类的库提供了简单而一致的API，以在Python中应用上述NLP数据增强方法。它们与框架无关，可以轻松集成到读者的管道中。

结论

我从文献回顾中得出的结论是，许多这些NLP增强方法都是非常特定于任务的，并且仅在某些特定用例中研究了它们对性能的影响。系统地比较这些方法并分析它们对许多任务的性能的影响将是一个有趣的研究。

node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
钟汉良日记：自媒体写作要向古代拜师学艺的人取经钟汉良日记
2022年9月8日周四晴朗的天前几天晚上，和实操班的学员谈了很多为什么要写日记的原因。前后两个多小时，推荐了好几本书，隔了一天再回忆竟然不能把所有的书籍都列出来。是自己年龄大了，记忆力衰退了？我觉得不是。而是谈话这种氛围，比起文字写作更容易激发我们的潜能。一些灵光乍现的想法，会在那种特别融洽的时候突然涌现出来。有的想法和总结，你平时就是绞尽脑汁也想不出来，但就是在那种你侃侃而谈的时候，思想会像流水
ComfyUI AnimateDiff-Lightning 教程 jayli517 ComfyUI AIGC
介绍项目主页：https://huggingface.co/ByteDance/AnimateDiff-Lightning在线测试（有墙）：https://huggingface.co/spaces/ByteDance/AnimateDiff-Lightning国内镜像：https://hf-mirror.com/ByteDance/AnimateDiff-LightningAnimateDiff
2023-01-08 d8f93a389a3c
走进心时代马上一年了，这一年中上了三次线上实操班和三次导师班课，六月份上了一次线下导师班。如果要问实操班和导师班有什么不同，有哪些不一样的收获？我的感觉是实操班更多的是方法，遇到问题可以直接拿来用的，是技术层面的。导师班是修个人成长的、向内的、寻根问底的，解决我们为什么会在生活中遇到的这样那样的问题，原因出在哪里。通过一次次的学习，改变我的认知，又重建了认知，打破了固有思维的墙，窗户纸层层的被捅破
外卖会员卡项目怎么做？外卖会员卡项目实操讲解鲸天千流微信小程序
外卖会员卡项目实操外卖会员卡项目是吃喝玩乐集于一身的一款平台，它是提供个性化优惠，积分，储值及其他服务的一项推广计划，简单来说就是你通过推广外卖会员卡获得佣金，用户通过你的会员卡获得更多的优惠与权益，从而实现互利互赢。简单来说就是小程序推广功能：领外卖优惠券，看电影，交话费，打车等一系列都可以省钱，用户只要在小程序里消费，都可以拿到一笔官定的佣金。项目详细讲说：一、小程序中有什么优惠的地方可以吸引
5条实操干货有效打造你的个人品牌长安行动派
这是ZerK的第46篇原创相信大家对个人品牌这个词已经不在陌生。尤其是在知识付费的年代，你的个人品牌，就是你的标签！在《深度工作》中说到，在未来有三种人会越来越贵第一种人:能与机器对话，操纵机器的人。人工智能时代的到来，机器毕竟部分取代人类。第二种人:IP，知识产权或者文学潜在财产就像有些网上课程一周卖出的钱和一个机构卖一年一样多。价值99元的课程，10万人购买，是很常见的。爱产出大概就是10万✖
《输出力》——输出实操1 根本不酷璇
一、少量输入之后，立即输出二、“诵《诗》三百，授之以政，不达；使于四方，不能专对；虽多，亦奚以为？”三、将经典语录自然融入闲谈中。在透露自己学识的时候，不要刻意炫技，一定要不漏声色的。今天读到34页
开微信公众号怎么赚钱？解析盈利策略与实操指南氧惠_飞智666999
微信公众号成为了人们获取信息、交流思想的重要平台。越来越多的人选择开设自己的微信公众号，希望通过这一平台实现个人价值或创造经济效益。那么，开微信公众号怎么赚钱呢？本文将为您详细解析微信公众号的盈利策略与实操指南。公众号流量主就找善士导师（shanshi2024）公众号：「善士笔记」主理人，《我的亲身经历，四个月公众号流量主从0到日入过万！》公司旗下管理800+公众号矩阵账号。代表案例如：爸妈领域、
年薪80w起！零成本快速入门大模型指南 AI产品经理语言模型人工智能自然语言处理机器学习
今年招聘市场确实是好点了，我发现群友都在讨论，得赶快学点AI大模型。他们有的是想正式转到一些新兴的AI行业，需要系统的学习训练。更多的是想跟已有的技能结合，辅助编程提效，或上手实操应用，增加自己的职场竞争力。这也可以理解，ChatGPT推出仅一年半的时间，就将生成式AI推向主流。从谷歌到亚马逊，从百度到阿里，几乎所有科技巨头都在布局AI，也直接影响到了招聘市场，大模型相关的岗位数量多了不少，年薪甚
Linux实操篇_实用指令_压缩和解压类指令 Shaw_Young
压缩和解压缩类gzip/gunzip指令gzip用于压缩文件,gunzip用于解压的基本语法语法功能描述gzip文件压缩文件,只能将文件压缩成为*.gz文件gunzip文件.gz解压缩文件命令应用实例案例1:gzip压缩,将/home下的hello.txt文件进行压缩[root@localhosthome]#gziphello.txt案例2:gunzip压缩,将/home下的hello.txt.g
Python浏览器指纹反爬详解（包含案例）——blog10 总得跑一个 python 网络爬虫 selenium
目录概述案例实操目标分析补充开始由此可以得到方法一：直接从api拿数据方法二：伪装selenium.webdriver测试测试用HTML如下：爬取失败——分析与思考改进最后附上使用selenium破解目标网站浏览器指纹的完整代码：觉得有帮助的小伙伴还请点个关注概述浏览器指纹是由浏览器类型、版本号、操作系统、屏幕分辨率、时区、插件、字体等信息组合而成的唯一标识，可以用于区分不同的用户。通过比对请求中
AI学习笔记：pdf-document-layout-analysis hillstream3 人工智能学习笔记 pdf AI编程 nlp
一直在学AI，但没有连续的时间来尝试。现在终于失业了，有大把连续的时间来动手。之前准备了一台I5-1400F+RTX360012G的电脑，现在终于派上用场了。由于一直在从事无线通信相关的工作，所以，拿到一份很长的AI可能与通信在哪些方面，能够结合的pdf文档。所以，打算从这份文档开始入手。第一个找到的项目的是这个：https://huggingface.co/HURIDOCS/pdf-docume
东3.6工作日报王少东0206
东3.6工作日报：1~今天我觉得最有意义的事就是：下午开小组会，大家对我们制定OKR进度评价达到54%，接下来就是大家的实操和进一步培训，可能时间有点赶，情况有点特殊，但是大家都在尽全力做好它吧。2~学习心得:今天分享新的书《复杂》，樊登总结非常好：“对于我们每个人个人的成长。就是你自己这一生事实上也是一个复杂的过程。你与其去做那么多的计算，算计，你不如把你能做的事尽量地做好，然后不断的自我更新迭
《原则》中五步骤实操钱晓缺
有明确的目标a．排列优先顺序：尽管你几乎可以得到你想要的任何东西，但你不可能得到你想要的所有东西。b．不要混淆目标和欲望。c．调和你的目标和欲望，以明确你在生活中真正想要的东西d．不要把成功的装饰误认为成功本身。e．永远不要因为你觉得某个目标无法实现就否决它。f．谨记伟大的期望创造伟大的能力。g．如果你拥有灵活性并自我归责，那么几乎没有什么能阻止你成功。h．知道如何对待挫折和知道如何前进一样重要。
QLoRa使用教程云帆@ 训练 peft 人工智能
一、定义定义案例1二、实现定义QLoRa:量化+LoRa.网址：https://huggingface.co/docs/peft/main/en/developer_guides/quantization案例11.4bit量化+LoRaimporttorchfromtransformersimportBitsAndBytesConfigconfig=BitsAndBytesConfig(load_
实操搭建battery-historian平台 romc android
1在D盘新建一个文件夹：gosrc2gitclonehttps://github.com/google/battery-historian.git3cd到D:\gosrc\battery-historian>gomodinitgosrc初始化模块名为gosrc，你可以自定义自己的名字4//执行该命令，更换为国内代理地址goenv-wGOPROXY=https://goproxy.cn,direct
Python软件编程等级考试三级——20210905 青岛少儿编程-王老师 python软件编程等级考试 python 等级考试
Python软件编程等级考试三级——20210905理论单选题判断题实操第一题第二题第三题理论单选题1、使用map函数可以实现列表数据元素类型的转换，而无需通过循环。则将列表L=[‘1’,‘3’,‘5’,‘7’,‘9’]转换为列表[1,3,5,7,9]的函数写法为？A、map(int,L)B、list(map(int,L))C、map(L,int)D、list(map(L,int))2、以下关于(
学习笔记：新媒体运营系统学习（二）山山而川_Y
本阶段主要学习了新媒体应用传播学和着陆页实战课程。新媒体应用传播学：重点学习了线性传播的线性视角、非线性视角、文化视角、影响力六原则。新媒体着陆页实战：在此门课程中学习了着陆页经典的八大结构：价值定位、行动呼唤、产品特征、信用背书、用户评价、风险承诺、常见问题、终极呼唤。使用“上线了”实操制作着陆页，并且学习了标题写作的DM法公式、落差公式以及人性法则。通过两门课程的学习以及已完成的项目考试，我更
4.3万字详解PHP+RabbitMQ（AMQP协议、通讯架构、6大模式、交换机队列消息持久化、死信队列、延时队列、消息丢失、重复消费、消息应答、消息应答、发布确认、故障转移、不公平分发、优先级、等）小松聊PHP进阶 laravel PHP php 架构服务器中间件后端 laravel rabbitmq
理论（后半部分有实操详解）哲学思考易经思维：向各国人讲述一种动物叫乌龟，要学很久的各国语言，但是随手画一个乌龟，全世界的人都能看得懂。道家思维：努力没有用（指劳神费心的机械性重复、肢体受累、刻意行为），要用心（深度思考、去感悟、透过现象看本质）才有用。举例：类似中学做不出来的几何题的底层原理：不是不知道xx定理或公式（招式），而是不知道画辅助线的思路（内功）。总结：万事万物、用道家思维思考本质与规
亲子实操课第七讲忆星云
合理地唤醒孩子美好的一天从起床开始思考:1.过去一周里，孩子自己起床？被喊起？2.何种方式叫起来？春困秋乏夏打盹，睡不醒的冬三月。叫孩子起床很痛苦。“起床气”:情绪不佳（睡眠与清醒之间切换时间长0.5-1小时）原因:①睡眠不够（负面情绪）生活规律，睡眠质量②被叫起，睡不醒，一脸懵的状态专家监测:无论何处，睡眠惯性都要在几个小时内才消失。消除起床气:有足够的睡眠睡眠重要性:晚睡会影响身高发育。（30
Python教学 | 有备无患！详解 Python 异常处理（try-except）企研数据 python Python 异常处理 try-except 语法错误程序异常
更多详情请点击查看原文：Python教学|有备无患！详解Python异常处理（try-except）Python教学专栏，旨在为初学者提供系统、全面的Python编程学习体验。通过逐步讲解Python基础语言和编程逻辑，结合实操案例，让小白也能轻松搞懂Python！>>>点击此处查看往期Python教学内容本文目录引言一、关于异常二、try-except用法三、哪些情况下需要使用try-excep
llama.cpp本地部署大模型张兆坤的那些事大模型 llama.cpp
llama.cpp是一个C++库，用于简化LLM推理的设置，它使得在本地机器上运行大模型（GGUF格式）成为可能。官网：https://github.com/ggerganov/llama.cpp模型库：https://huggingface.co/HF-Mirror魔搭社区安装并且使用llama.cpp0.安装llama.cpp官方文档：https://github.com/ggerganov/
氧惠怎么赚钱?实操氧惠月入10万+的方法秘诀全网优惠分享
氧惠怎么赚钱?实操氧惠月入10万+的方法秘诀，加入我的团队手把手教学。下面告诉大家怎么加入到氧惠手机应用商店搜索「氧惠」下载，注册时填写邀请码：222999注册时填写邀请码：222999（此码注册可直接享受V8权益）氧惠是与以往完全不同的抖客+淘客app！全新模式，我的直推也会放到你下面，我曾经1年做到百万团队，现在加入我也会帮你做到百万团队。【氧惠】百度有几百万篇报道，也期待你的加入。氧惠邀请码
【python】最新版小红书js逆向拿到数据，非常详细教程（附完整代码）景天科技苑爬虫副业实战零基础进阶教学 python js逆向小红书逆向 python爬虫
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，前后端开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flask等框架，linux，shell脚本等实操经验，网站搭
Deepspeed 结合huggingface Trainer实现多机分布式训练 ningzhao 分布式
目前工作中只使用了单机多卡做微调训练，为了提升训练效率，特实验多机多卡分布式训练。一、环境准备本试验使用两台机器（manager，worker），操作系统ubuntu22.4，每台机器有4个GPU为了使安装配置统一，使用docker容器，docker的安装这里不做介绍。1.网络配置-创建overlay共享网络初始化集群，在manager机器上运行:dockerswarminit#输出结果:Swar
django实操：换用自建mysql用户表（一次失败的经历） EelBarb python django mysql python
前言别想了，基础不扎实的话，还是老老实实用django自带的用户模块吧！这是一次耗时而且失败了的经历。因为是一次失败的经历，这里我给出一些残酷的经验。实操重写用户模型这是我唯一成功的案例，你需要建一个类似如下的django-orm模型mysql_models.pyfromdjango.dbimportmodelsfromdjango.contrib.auth.modelsimportAbstrac
解决Can‘t load tokenizer for ‘bert-base-chinese‘.问题 CSDNhdlg NLP bert 人工智能深度学习自然语言处理
报错提示：OSError:Can'tloadtokenizerfor'bert-base-chinese'.Ifyouweretryingtoloaditfrom'https://huggingface.co/models',makesureyoudon'thavealocaldirectorywiththesamename.Otherwise,makesure'bert-base-chinese
如何使用ChatGPT写学术论文？从论文综述写作全攻略避坑指南智写AI AI学术写作指南 chatgpt AI写作人工智能
大家好，感谢关注。我是七哥，一个在高校里不务正业，折腾学术科研AI实操的学术人。关于使用ChatGPT等AI学术科研的相关问题可以和作者七哥（yida985）交流，多多交流，相互成就，共同进步，为大家带来最酷最有效的智能AI学术科研写作攻略。经过数月爆肝，终于完成学术AI使用教程，估计也有个50万字的详细操作指南。跟着一步一步操作，借助ChatGPT做学术、干科研、写论文、课题申报都变得超简单。欢
conda进行transformers安装大多_C conda
首先建立新环境condacreate-nmyenvpython=3.8安装numpy和pytorchcondainstallnumpycondainstallpytorchtorchvisiontorchaudiocpuonly-cpytorch-cconda-forge其余的一些环境配置huggingface_hub0.16.4py_0huggingfaceimportlib-metadata6
时间序列分析技巧（二）：ARIMA模型建模步骤总结小墨&晓末时间序列分析算法机器学习人工智能程序人生
CSDN小墨&晓末:https://blog.csdn.net/jd1813346972 个人介绍:研一｜统计学｜干货分享擅长Python、Matlab、R等主流编程软件累计十余项国家级比赛奖项，参与研究经费10w、40w级横向文章目录1目的2ARIMA模型建模流程图解3ARIMA模型建模实操1目的该篇为针对时间序列ARIMA模型建模系列技巧：ARIMA模型
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后

huggingface实操_自然语言处理中数据增强（Data Augmentation）技术最全盘点

你可能感兴趣的:(huggingface实操)