goTsHgo

自然语言处理——Hugging Face 详解

Hugging Face 是一个以自然语言处理（NLP）为核心的人工智能平台和开源社区，提供了一系列非常流行的机器学习工具和预训练模型，尤其在文本生成、分类、翻译、情感分析等任务中表现出色。Hugging Face 旗下最为著名的项目是 Transformers 库，它为 NLP 任务提供了大量的预训练模型，并且支持多种主流深度学习框架，如 PyTorch 和 TensorFlow。

一、Hugging Face 的背景和目标

Hugging Face 旨在降低机器学习和自然语言处理的入门门槛，并使机器学习模型的训练、应用和共享更加简单、透明。其最著名的工具和平台包括：

Transformers：提供了多种预训练的 NLP 模型，可以快速地将其应用于各种 NLP 任务，如文本生成、文本分类、情感分析、机器翻译等。
Datasets：提供了大量公开的 NLP 数据集，可以方便地进行数据预处理和加载。
Tokenizers：为文本处理提供了高效的分词工具，支持多种分词算法。
Hugging Face Hub：这是一个模型存储库，用户可以上传、下载、分享模型。

Hugging Face 通过开源技术和社区支持，极大地促进了 NLP 领域的发展，尤其是在预训练模型的应用上，它推动了从机器学习到深度学习的转变。

二、Hugging Face 的核心技术——Transformers

1. Transformers 模型

Transformers 是由 Vaswani 等人在 2017 年提出的一种神经网络架构，特别适用于序列到序列（sequence-to-sequence）任务。其核心创新在于自注意力（self-attention）机制，它可以捕捉输入数据中的长程依赖关系，而不需要像传统的递归神经网络（RNN）和长短时记忆网络（LSTM）那样逐步处理输入。

Transformers 模型的主要结构包括以下几个部分：

自注意力机制（Self-Attention）：通过计算每个单词与其他单词之间的注意力权重来建模输入序列中的依赖关系。
位置编码（Positional Encoding）：由于 Transformer 不使用递归结构，它需要显式地引入位置编码，以便模型能够理解输入的顺序信息。
编码器（Encoder）和解码器（Decoder）：标准的 Transformer 架构包含两个主要部分：编码器和解码器。编码器将输入序列转换为隐状态，解码器根据隐状态生成输出序列。
多头注意力（Multi-head Attention）：为了使模型能够捕捉到不同的上下文信息，Transformer 引入了多头注意力机制。

2. 模型的微调

Hugging Face 提供的 Transformer 模型都是 预训练模型，这些模型经过大规模的文本数据训练，具有很强的迁移能力。预训练模型可以通过少量的样本进行微调（fine-tuning），从而适应特定任务，如情感分析、命名实体识别（NER）等。

通过 Hugging Face，用户可以快速地加载预训练模型，并将其应用到自己的任务上。下面是一个基本的微调流程：

加载预训练模型：通过 transformers 库加载预训练模型（例如 BERT、GPT、T5 等）。
准备数据：准备特定任务的数据集，并进行必要的预处理（例如分词）。
微调：通过迁移学习和梯度下降等方法，利用特定任务的数据对预训练模型进行微调。
评估和应用：微调后的模型可以进行评估，并用于实际的预测任务。

三、Hugging Face 源代码实现

1. 安装 `transformers` 库

要使用 Hugging Face 的工具，我们首先需要安装 transformers 和 datasets 库：

pip install transformers datasets

2. 加载和使用预训练模型

在 Hugging Face 中加载一个预训练模型非常简单。例如，加载 BERT 模型并进行文本分类的代码如下：

from transformers import pipeline

# 加载预训练的文本分类模型
classifier = pipeline("sentiment-analysis")

# 进行预测
result = classifier("I love using Hugging Face!")
print(result)

在上面的代码中，pipeline 是一个高层接口，可以用来快速加载和应用各种 NLP 模型。通过 "sentiment-analysis" 任务，我们加载了一个用于情感分析的预训练模型，并使用它对输入的文本进行预测。

3. 微调模型

假设我们想对一个文本分类任务进行微调。下面是一个完整的流程，使用 transformers 和 datasets 库进行文本分类任务的微调。

from transformers import Trainer, TrainingArguments, BertForSequenceClassification, BertTokenizer
from datasets import load_dataset

# 加载数据集
dataset = load_dataset("imdb")

# 加载BERT tokenizer和模型
tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
model = BertForSequenceClassification.from_pretrained("bert-base-uncased")

# 数据预处理函数
def preprocess_function(examples):
    return tokenizer(examples["text"], truncation=True, padding="max_length")

# 对数据集进行预处理
encoded_datasets = dataset.map(preprocess_function, batched=True)

# 分割训练和验证数据集
train_dataset = encoded_datasets["train"]
eval_dataset = encoded_datasets["test"]

# 设置训练参数
training_args = TrainingArguments(
    output_dir="./results",
    evaluation_strategy="epoch",
    learning_rate=2e-5,
    per_device_train_batch_size=16,
    per_device_eval_batch_size=64,
    num_train_epochs=3,
    weight_decay=0.01,
)

# 使用Trainer API进行微调
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
)

# 开始训练
trainer.train()

# 保存模型
trainer.save_model("./finetuned_bert")

代码解释：

加载数据集：我们从 Hugging Face Datasets Hub 加载了 IMDB 数据集，并对其进行预处理。
加载模型：我们加载了 BERT 模型（bert-base-uncased），并使用其进行文本分类。
数据预处理：使用 BERT 的 tokenizer 对数据集进行分词，并将文本转换为模型可以理解的输入格式。
训练设置：使用 TrainingArguments 来设置训练参数，如学习率、批量大小和训练周期数。
Trainer：Trainer 是 Hugging Face 提供的一个高层接口，它封装了训练和评估的流程，简化了模型的训练过程。

4. 模型的保存与加载

训练完成后，我们可以保存微调后的模型，并在未来的应用中重新加载使用：

from transformers import pipeline

# 加载预训练的文本分类模型
classifier = pipeline("sentiment-analysis")

# 进行预测
result = classifier("I love using Hugging Face!")
print(result)

四、Hugging Face 的其他功能

除了预训练模型和微调工具外，Hugging Face 还提供了许多强大的功能：

Hugging Face Hub：用户可以上传自己的模型到 Hugging Face Hub，并与社区共享。模型上传后可以通过简单的 API 调用进行加载。
Datasets 库：Hugging Face 还提供了 datasets 库，它支持从多种格式的数据集进行加载（CSV、JSON、Parquet 等），并且具备数据预处理和转换的功能。
Tokenizers：Hugging Face 提供了高效的 Tokenizer 库，专门用于文本数据的处理，包括分词、编码和解码等。
Accelerate：这是一个旨在简化多GPU和分布式训练的工具，用户可以通过几行代码快速使用多GPU进行训练。
Spaces：Hugging Face 还提供了一个名为 Spaces 的平台，允许用户构建和分享机器学习应用程序，并能方便地在 Web 界面上进行交互。

五、总结

Hugging Face 通过提供易用的 API、预训练模型和社区支持，极大地降低了 NLP 和深度学习的使用门槛。它的 Transformers 库让研究人员和开发者能够快速上手并在各种任务上获得很好的效果。通过微调、模型共享和高效的训练工具，Hugging Face 为 NLU（自然语言理解）任务和 NLP 研究提供了强大的支持，帮助推动了该领域的进步。

你可能感兴趣的:(算法,机器学习,自然语言处理,人工智能,机器学习,自然语言处理)

四阶数独——深度优先搜索dfs 我爱工作&工作love我 c++深度优先算法
文章目录四阶数独例题讲解深度优先dfs搜索知识点算法思想应用代码框架四阶数独例题讲解题目描述这里讨论一种简化的数独——四阶数独。给出一个4×4的格子，每个格子只能填写1到4之间的整数，要求每行、每列和四等分更小的正方形部分都刚好由1到4组成。求总共有多少种不同的数独？输出结果：288思路常规思路就是根据格子序号挨个设置数如果每次都是从第一个开始设置，暴力枚举，一个格子四种选择，16个格子所以就有4
数据结构——图的遍历之深度优先遍历（DFS算法）_全世界最可爱的王小帅_CSDN博客全世界最可爱的王小帅数据结构图论算法 cpp c#
数据结构——图的遍历之深度优先遍历图的遍历一般分为深度优先遍历和广度优先遍历下面我们要说的是深度优先遍历**（DFS算法）**1，我们首先选择一个顶点作为起始点，假设我们选择顶点v作为起始点，首先访问v，然后找v的邻接点，访问v的一个还未被访问过邻接点w1,2，再以w1为起始点，然后去找w1的邻接点，访问w1的一个还未被访问过的邻接点w2，再以w2作为起始点继续往下访问…3，如果我们访问到一个顶点
YOLOv11革命性升级：基于MobileNetv4的UIB和ExtraDW模块重构C3k2架构，实现移动端推理性能飞跃博导ai君深度学习教学-附源码 YOLO 重构
引言与背景概述在当今人工智能飞速发展的时代，目标检测技术已成为计算机视觉领域的核心技术之一。从自动驾驶汽车到智能安防系统，从移动端AR应用到工业质检，目标检测无处不在。然而，随着应用场景的多样化，特别是移动端和边缘设备的普及，对模型的计算效率提出了更为严苛的要求。YOLO（YouOnlyLookOnce）系列算法作为目标检测领域的领军者，一直在精度与速度之间寻求最佳平衡。从YOLOv1到最新的YO
数据结构与算法：深度优先的实战指南
数据结构与算法：深度优先的实战指南关键词：深度优先搜索（DFS）、递归、栈、图遍历、路径查找、迷宫寻路、算法实战摘要：深度优先搜索（DFS）是计算机科学中最经典的算法之一，被广泛应用于路径查找、游戏AI、社交网络分析等场景。本文将用“迷宫探险”的故事串联核心概念，结合生活案例、代码实战和LeetCode经典题，带您从0到1掌握DFS的底层逻辑与实战技巧。即使你是算法新手，也能通过通俗易懂的讲解，真
从零开始：Python实现语音识别的完整教程 AIGC应用创新大全 AI大模型与大数据技术 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 python 语音识别 xcode ai
从零开始：Python实现语音识别的完整教程关键词：Python、语音识别、完整教程、语音输入、文字输出摘要：本文将带领大家从零开始，用Python实现语音识别功能。我们会详细介绍语音识别的核心概念、相关算法原理，通过具体的代码示例，一步步教大家搭建开发环境、实现语音识别代码，并对代码进行解读。同时，还会探讨语音识别的实际应用场景、推荐相关工具和资源，最后分析未来发展趋势与挑战。背景介绍目的和范围
从零开始：Python实现语音识别的完整教程_副本 AIGC应用创新大全 AI大模型与大数据技术 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 python 语音识别开发语言 ai
从零开始：Python实现语音识别的完整教程关键词：Python、语音识别、语音转文本、音频处理、机器学习、深度学习、自然语言处理摘要：本文将带你从零开始学习如何使用Python实现语音识别功能。我们将从基础概念讲起，逐步深入到实际代码实现，涵盖音频处理、特征提取、模型训练等关键环节，最终构建一个完整的语音识别系统。无论你是初学者还是有一定经验的开发者，都能从本教程中获得实用的知识和技能。背景介绍
面向大语言模型幻觉的关键数据集：系统性综述与分类法致Great 语言模型人工智能自然语言处理
面向大语言模型幻觉的关键数据集：系统性综述与分类法摘要大语言模型（LargeLanguageModels,LLMs）在自然语言处理的多个领域取得了革命性进展，但其固有的“幻觉”问题——即生成看似合理但与事实不符或与上下文无关的内容——严重制约了其在关键应用中的可靠性与安全性。为了系统性地评估、理解并缓解LLM的幻觉现象，学术界和工业界开发了大量多样化的数据集与基准。本文对大模型幻觉领域的关键数据集
【锂电池SOC估计】 Matlab基于BP神经网络的锂电池SOC估计天天Matlab代码科研顾问 matlab 神经网络开发语言
✅作者简介：热爱数据处理、数学建模、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍摘要:电池荷电状态(StateofCharge,SOC)的精确估计对于电动汽车、储能系统等应用至关重要。传统的SOC估计方法存在精度受限、算法复杂等问题。本文提出了一种基于反向传播(BackPropagation,BP)神经网络的锂电池SO
结构力学优化算法：多目标优化：遗传算法与结构优化_2024-08-08_19-41-25.Tex chenjj4003 材料力学2 算法 javascript 前端人工智能线性代数
结构力学优化算法：多目标优化：遗传算法与结构优化绪论结构优化的重要性在工程设计中，结构优化扮演着至关重要的角色。它旨在通过最小化成本、重量或应力等目标，同时确保结构的强度、刚度和稳定性满足设计要求，来提高结构的性能和效率。结构优化可以帮助工程师在设计初期就避免潜在的结构问题，减少材料浪费，降低生产成本，同时提升产品的竞争力。多目标优化的概念多目标优化是指在优化过程中同时考虑多个目标函数的优化问题。
七天学完十大机器学习经典算法-05.从投票到分类：K近邻(KNN)算法完全指南
接上一篇《七天学完十大机器学习经典算法-04.随机森林：群众智慧的机器学习实践》想象一下，你搬进了一个新小区。想知道这个小区整体氛围如何？最直接的方法就是看看你最近的几家邻居是什么样的人——如果邻居们都很安静、整洁，小区大概率不错；如果邻居们深夜喧哗、环境杂乱，你可能就得重新考虑了。K近邻（K-NearestNeighbors,KNN）算法的核心思想，就如同这个观察邻居的过程。它是机器学习中最直观
分类预测 | MATLAB实现BP神经网络多特征分类预测 matlab科研社分类 matlab 神经网络
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍近年来，随着大数据时代的到来以及计算能力的显著提升，人工智能技术得到了飞速发展。在众多人工智能算法中，反向传播神经网络（BackPropagationNeuralNetwork,BP神经网络）凭借其强大的非
信息抽取数据集全景分析：分类体系、技术演进与挑战_DEEPSEEK 致Great 分类数据挖掘人工智能
信息抽取数据集全景分析：分类体系、技术演进与挑战摘要信息抽取（IE）作为自然语言处理的核心任务，是构建知识图谱、支持智能问答等应用的基础。近年来，随着深度学习技术的发展和大规模预训练模型的兴起，IE数据集呈现爆发式增长，其分析与评估对模型研发和领域迁移至关重要。本文基于对158个主流IE数据集的系统性梳理，首次提出“信息提取与命名实体识别数据集分类体系”。该体系涵盖8大类别（命名实体识别、关系提取
自然语言处理之文本生成：Recurrent Neural Networks (RNN)：序列模型与语言模型 zhubeibei168 自然语言处理自然语言处理 rnn 语言模型人工智能机器翻译生成对抗网络
自然语言处理之文本生成：RecurrentNeuralNetworks(RNN)：序列模型与语言模型自然语言处理简介NLP的基本概念自然语言处理（NaturalLanguageProcessing，简称NLP）是人工智能领域的一个重要分支&#
C++ STL常用二分查找算法 basketball616 C++基础算法 c++数据结构
lower_boundlower_bound是C++标准库算法，通常用于有序序列中查找第一个不小于给定值的元素。它属于头文件，并且是基于二分查找实现的，因此要求输入序列必须是有序的。基本语法#include//引入算法库Iteratorlower_bound(Iteratorfirst,Iteratorlast,constT&value);first和last是迭代器，分别表示容器的起始位置和结束
2025年 UI 自动化框架使用排行 Thomas Kant 自动化测试 ui 自动化运维
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】</
算法竞赛备考冲刺必刷题（C++） | 洛谷 P1001 A+B Problem 热爱编程的通信人 c++算法
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺
Python 数据分析与可视化 Day 11 - 特征工程基础蓝婷儿 python python 数据分析人工智能
✅今日目标理解特征工程在数据分析和机器学习中的意义掌握常见特征类型的处理方式：数值型、类别型、时间型学习特征提取、转换、标准化、独热编码（One-HotEncoding）等核心操作为后续建模任务做好特征准备工作一、什么是特征工程？特征工程是将原始数据转换为模型可学习的“特征向量”的过程，是机器学习效果好坏的核心因素之一。常见任务包括：缺失值处理（已学）异常值处理（已学）数值归一化、标准化类别变量编
贪心算法（集合覆盖问题） RonzL 算法与数据结构贪心算法集合覆盖问题 java 算法
一、贪心算法概述贪心算法的核心思想可以总结为：贪心算法总是做出在当前看来最好的选择。也就是说贪心算法并不从整体最优考虑，它所做出的选择只是在某种意义上的局部最优选择。当然，希望贪心算法得到的最终结果也是整体最优的。虽然贪心算法不能对所有问题都得到整体最优解，但对许多问题它能产生整体最优解，如单源最短路经问题，最小生成树问题等。虽然在一些情况下，即使贪心算法不能得到整体最优解，但其最终结果却是最优解
OJ练习第110题——扰乱字符串盖盖的博客 OJ练习算法 java leetcode
扰乱字符串力扣链接：87.扰乱字符串题目描述使用下面描述的算法可以扰乱字符串s得到字符串t：如果字符串的长度为1，算法停止如果字符串的长度>1，执行下述步骤：在一个随机下标处将字符串分割成两个非空的子字符串。即，如果已知字符串s，则可以将其分成两个子字符串x和y，且满足s=x+y。随机决定是要「交换两个子字符串」还是要「保持这两个子字符串的顺序不变」。即，在执行这一步骤之后，s可能是s=x+y或者
LeetCode算法解析：全面掌握编程挑战与面试技能黄浴
本文还有配套的精品资源，点击获取简介：LeetCode作为一个在线编程平台，提供了丰富的算法问题，帮助程序员提升编程技能和面试准备。内容覆盖了多种计算机科学领域，包括数据结构和算法，以及各类编程难题。解决这些问题有助于深化对编程语言、数据结构和算法的理解，并提高系统设计和软件开发能力。本解析可能会包含一个名为“leetcode-master”的开源项目，该项目包含了不同编程语言的LeetCode问
matlab求解集合覆盖问题,贪心算法实践之集合覆盖问题我不是小孩子 matlab求解集合覆盖问题
介绍贪婪算法(贪心算法)是指在对问题进行求解时，在每一步选择中都采取最好或者最优(即最有利)的选择，从而希望能够导致结果是最好或者最优的算法贪婪算法所得到的结果不一定是最优的结果(有时候会是最优解)，但是都是相对近似(接近)最优解的结果。应用场景-集合覆盖问题假设存在下面需要付费的广播台，以及广播台信号可以覆盖的地区。如何选择最少的广播台，让所有的地区都可以接收到信号image思路分析:如何找出覆
贪心算法(集合覆盖问题) five-five 算法 python java 动态规划贪心算法
贪心算法(集合覆盖问题)贪心算法介绍贪婪算法(贪心算法)是指在对问题进行求解时，在每一步选择中都采取最好或者最优(即最有利)的选择，从而希望能够导致结果是最好或者最优的算法贪婪算法所得到的结果不一定是最优的结果(有时候会是最优解)，但是都是相对近似(接近)最优解的结果应用场景-集合覆盖问题问题详情假设存在下面需要付费的广播台，以及广播台信号可以覆盖的地区。如何选择最少的广播台，让所有的地区都可以接
全球人工智能与大模型发展全景：技术历程、产品概览与未来趋势软件职业规划人工智能搜索引擎
一、人工智能的发展历程（一）萌芽期（1950s-1980s）1956年：人工智能的诞生人工智能（AI）的概念在1956年的达特茅斯会议上被正式提出。那是一个充满梦想和探索的时代，一群年轻的科学家，包括约翰·麦卡锡（JohnMcCarthy）、马文·明斯基（MarvinMinsky）和克劳德·香农（ClaudeShannon）等，齐聚达特茅斯学院，共同探讨一个前所未有的课题：如何让机器模拟人类智能。
推荐几本人工智能方面的书（入门级）人邮异步社区人工智能深度学习神经网络
以下推荐几本适合入门人工智能的书籍，帮助你逐步建立基础知识和理解：一、数学基础类《数学之美》推荐理由：深入浅出地讲解了自然语言处理与搜索方向的数学原理，对于理解算法背后的数学逻辑非常有帮助。本书的章节名称，有“统计语言模型”“谈谈中文分词”“贾里尼克和现代语言处理”“布尔代数和搜索引擎”“信息指纹及其应用”等，似乎太过专业，实际上高中和大学低年级的同学们都能看得懂，当然本书因此也可以称得上是“高级
分布式学习嘉陵妹妹分布式学习
1.列举三个非冯·诺依曼计算结构非冯结构是指不遵循传统冯·诺依曼体系的计算架构，包括：数据流结构（DataflowArchitecture）：指令执行取决于数据的可用性而不是程序计数器。神经网络结构（NeuralNetworkArchitecture）：模拟生物神经元连接，用于人工智能。量子计算结构（QuantumComputingArchitecture）：利用量子比特和量子叠加原理进行计算。2
双指针几种常见用法小李不秃头♛ java 数据结构算法双指针
双指针的常见用法及适用场景详解双指针是算法中一种高效且灵活的解题技巧，通过两个指针的协同操作降低时间复杂度和空间复杂度。以下是双指针的核心用法及适用场景分析：一、对撞指针（反向双指针）核心思想：两个指针分别从序列的两端向中间移动，适用于有序数组或可通过排序转化为有序的问题。在反向双指针里面right指向的是数组的长度，在循环的时候直接while(left
线性代数-第9篇：二次型与正定矩阵：优化问题的数学基础程序员勇哥人工智能(AI)线性代数人工智能大数据 python
线性代数-第9篇：二次型与正定矩阵：优化问题的数学基础在人工智能、量化投资和大数据分析中，优化问题无处不在，比如机器学习的损失函数最小化、量化投资组合的风险最小化等。而二次型与正定矩阵作为线性代数中的重要概念，为解决这些优化问题提供了坚实的数学基础。本篇将深入解析它们的原理及其在实际场景中的关键应用。一、二次型：从向量到函数的桥梁1.定义与表达式二次型是一个关于向量x\mathbf{x}x的二次齐
华为OD机考2025B卷 - 特殊的加密算法（Java & Python& JS & C++ & C ）算法大师最新华为OD机试真题华为OD机试真题 (Java/JS/Py/C)华为od java python 华为OD机考2025B卷 javascript c++
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看2025华为od机试2025B卷-华为机考OD2025年B卷题目描述有一种特殊的加密算法，明文为一段数字串，经过密码本查找转换，生成另一段密文数字串。规则如下：明文为一段数字串由0~9组成密码本为数字0~9组成的二维数组需要按明文串的数字顺序在密码本里找到同样的数字串，密码本里的数字串是由相邻的单元格数字组成，上下和左右是相邻
数据库领域下的时序数据库并发控制数据库管理艺术数据库专家之路大数据AI人工智能 MCP&Agent 数据库时序数据库 ai
时序数据库并发控制：原理、实现与最佳实践关键词：时序数据库、并发控制、MVCC、时间戳排序、乐观并发控制、分布式事务、性能优化摘要：本文深入探讨时序数据库中的并发控制机制，从基本原理到实际实现进行全面剖析。文章首先介绍时序数据库的特点和并发控制挑战，然后详细分析MVCC、时间戳排序等核心算法原理，并通过代码示例展示实现细节。接着探讨分布式环境下的特殊考量，提供性能优化策略和实际应用案例。最后展望未
普通话的调域中值音元系统语音识别自然语言处理语言模型 python
普通话调域中值测算为五度标调法的3.81及其取整为4的准确性与合理性研究摘要本研究通过对比分析不同计算方法得出的普通话调域中值，探讨了将调域中值测算为3.81并取整为4的准确性与合理性。研究比较了本中值算法与刘俐李(2004)算法的差异，结合石锋(1986)等实证研究数据，验证了3.81作为调域中值的科学性。结果表明，该取值不仅符合普通话声调的实际分布特征，也为五度标调法的应用提供了更精确的参考标
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他