冰__蓝

FastText进行文本分类实践

0、内容介绍

本文主要介绍如何使用利用fastText进行文本分类任务，包括如何准备、处理数据，训练及测试过程。

最近用到fastText进行文本分类任务，其不用训练好的词向量，训练简单又快速，尝试了一下，效果还不错。本文旨在记录测试的过程。

本文不涉及算法原理部分，具体的原理可参考下面这篇博客：
原理参考：
fastText原理和文本分类实战，看这一篇就够了

1、FastText是什么？

fasttext是facebook开源的一个词向量与文本分类工具，于2016年开源，典型应用场景是 带监督的文本分类问题 。提供简单而高效的文本分类和表征学习的方法，性能比肩深度学习而且速度更快。

其github地址：FastText之github

fastText方法包含三部分，模型架构，层次Softmax和N-gram特征。

文本分类：有监督学习
词向量表征：无监督学习

1.1 安装

安装需求如下：

通常，fastText建立在Mac OS和Linux发行版上。由于它使用了一些C++ 11特性，因此需要具有良好C++ 11支持的编译器。这些包括：
- (g+±4.7.2 or newer) or (clang-3.3 or newer)

使用Makefile进行编译，因此您需要有一个有效的make。如果你想使用cmake，你至少需要2.8.9版本。

对于python bindings来讲，需要满足如下条件：
- Python version 2.7 or >=3.4
- NumPy & SciPy
- pybind11

编译

从github上获取源码，进行编译，包含使用make编译，使用cmake编译，使用Python编译。

使用make编译（首选）

$ wget https://github.com/facebookresearch/fastText/archive/v0.9.1.zip
$ unzip v0.9.1.zip
$ cd fastText-0.9.1
$ make

使用cmake构建fastText

目前，这不是release版本的一部分，因此您需要克隆主分支。
```
$ git clone https://github.com/facebookresearch/fastText.git
$ cd fastText
$ mkdir build && cd build && cmake ..
$ make && make install
```
这将创建fasttext二进制文件以及所有相关库（shared, static, PIC）。
使用python编译

目前，这不是release版本的一部分，因此您需要克隆主分支。
```
$ git clone https://github.com/facebookresearch/fastText.git
$ cd fastText
$ pip install .
```
如果想要安装最新的release版本，可以使用pip命令直接安装：
```
$ pip install fasttext
```

1.2 如何使用？

下载的源代码中给出了一系列的说明文档，位置在fastText/docs

A：单词表达模型

为了学习词向量，我们可以使用fasttext.train_unsupervised函数，像下面这样：

import fasttext

# Skipgram model :
model = fasttext.train_unsupervised('data.txt', model='skipgram')

# or, cbow model :
model = fasttext.train_unsupervised('data.txt', model='cbow')

其中，data.txt是使用utf-8编码的用于训练的文本文件。

保存和加载模型对象

  model.save_model("model_filename.bin")
  model = fasttext.load_model('model_filename.bin')

B：文本分类模型

import fasttext

model = fasttext.train_supervised('data.train.txt')

其中，data.train.txt是一个文本文件，每行包含一个训练语句以及标签。默认情况下，我们假设标签是以字符串__label__为前缀的词。
模型训练完成后，我们可以检索单词和标签列表：

print(model.words)
print(model.labels)

验证模型

通过在测试集上计算在P@1的准确度和召回率，（P@1 表示top1精确率，R@1表示top1召回率），使用如下测试函数

def print_results(N, p, r):
    print("N\t" + str(N))
    print("P@{}\t{:.3f}".format(1, p))
    print("R@{}\t{:.3f}".format(1, r))

print_results(*model.test('test.txt'))

可以使用preidict函数来预测指定的文本：

model.predict("Which baking dish is best to bake a banana bread ?", k=3)

其中，k=3用来指定获取前3个概率最高的结果，默认k=1。
如果想要预测多个句子，可以传入一个字符串数组，如下：

model.predict(["Which baking dish is best to bake a banana bread ?", "Why not put knives in the dishwasher?"], k=3)

C：使用量化压缩模型

当您想要保存监督模型文件时，fastText可以通过牺牲一点点性能来压缩它以获得更小的模型文件。

# with the previously trained `model` object, call :
model.quantize(input='data.train.txt', retrain=True)

# then display results and save the new model :
print_results(*model.test(valid_data))
model.save_model("model_filename.ftz")

model_filename.ftz的大小比model_filename.bin小得多。

2、使用fastText训练文本分类模型

如何使用Python代码进行训练和测试呢，源代码中给出了demo。
位置在fastText/python/doc/examples/train_supervised.py，具体如下

import os
from fasttext import train_supervised
# 打印结果
def print_results(N, p, r):
    print("N\t" + str(N))
    print("P@{}\t{:.3f}".format(1, p))
    print("R@{}\t{:.3f}".format(1, r))

if __name__ == "__main__":
	# 数据
    train_data = os.path.join(os.getenv("DATADIR", ''), 'cooking.train')
    valid_data = os.path.join(os.getenv("DATADIR", ''), 'cooking.valid')

    # train_supervised uses the same arguments and defaults as the fastText cli
    model = train_supervised(
        input=train_data, epoch=25, lr=1.0, wordNgrams=2, verbose=2, minCount=1
    )
    print_results(*model.test(valid_data))

    model = train_supervised(
        input=train_data, epoch=25, lr=1.0, wordNgrams=2, verbose=2, minCount=1,
        loss="hs"
    )
    print_results(*model.test(valid_data))
    # 保存模型
    model.save_model("cooking.bin")
    
	# 压缩模型
    model.quantize(input=train_data, qnorm=True, retrain=True, cutoff=100000)
    print_results(*model.test(valid_data))
    model.save_model("cooking.ftz") # 保存压缩后的模型

从上图可见，训练模型的基本流程如下：

准备训练数据集
处理数据
调用train_supervised函数进行训练
测试/保存模型

fastText模型输入一个词的序列（一段文本或者一句话)，输出这个词序列属于不同类别的概率。

2.1 训练数据准备

输入格式为__label__class word1 word2 word3 ...， class表示类别标签，其前缀是__label__，注意是前后各两个下划线。

使用jieba进行中文分词
去除停用词
增加类别标签，构造成标准输入格式

对于英文来讲，空格自然断词，而对于中文，需要进行分词处理。
在这里，我使用jieba进行中文分词，类别标签使用数字表示。将处理后的文本写入到文件中（如写入到txt文件），使用utf-8编码格式。

处理后的数据：每行代表一个文本，以\n结尾，文本以空格分隔单词，如下所示，文本今天天气真的太好了处理后为：
__label__1 今天天气真的太好了

一条文本可以有多个标签，以空格隔开即可。

def prepro_text(datas, stopwords):
    sentences = []
    label = 1
    for category in datas:
        for line in category:
            try:
                segs = jieba.lcut(line)
                # segs = filter(lambda x:len(x)>1, segs) # 去掉长度小于等于1的词
                segs = filter(lambda x:x not in stopwords, segs)  #去掉停用词
                sentences.append('__label__'+str(label) + " "+" ".join(segs)) #将类别和文本拼接起来
            except Exception as e:
                print('text: %s is error' %(line))
                continue
        label += 1

    return sentences
    
# 将处理过的数据写入文件，编码格式是utf-8
def write_data(datas, file_name):
    print('writing data to fastText format...')
    with io.open(file_name, 'w', encoding='utf-8') as f:
        for senten in datas:
            # print(senten)
            f.write(senten+'\n')
    print('wirte done!')

2.2 训练模型

训练代码如下：

model = train_supervised(input=save_data_file, epoch=10, lr=0.1, wordNgrams=2, minCount=1, loss="softmax")

函数定义在fasttext/python/fasttext_module/fasttext/FastText.py

def train_supervised(*kargs, **kwargs):
    """
    Train a supervised model and return a model object.

    input must be a filepath. The input text does not need to be tokenized
    as per the tokenize function, but it must be preprocessed and encoded
    as UTF-8. You might want to consult standard preprocessing scripts such
    as tokenizer.perl mentioned here: http://www.statmt.org/wmt07/baseline.html

    The input file must must contain at least one label per line. For an
    example consult the example datasets which are part of the fastText
    repository such as the dataset pulled by classification-example.sh.
    """
    supervised_default = unsupervised_default.copy()
    supervised_default.update({
        'lr' : 0.1,
        'minCount' : 1,
        'minn' : 0,
        'maxn' : 0,
        'loss' : "softmax",
        'model' : "supervised"
    })
	# 训练参数
    arg_names = ['input', 'lr', 'dim', 'ws', 'epoch', 'minCount',
        'minCountLabel', 'minn', 'maxn', 'neg', 'wordNgrams', 'loss', 'bucket',
        'thread', 'lrUpdateRate', 't', 'label', 'verbose', 'pretrainedVectors']
    params = read_args(kargs, kwargs, arg_names, supervised_default)
    a = _build_args(params)
    ft = _FastText(args=a)
    fasttext.train(ft.f, a)
    return ft

训练参数

    input             # 训练文件路径 (required)
    lr                # 学习率 [0.1]
    dim               # 词向量维度 [100]
    ws                # 文本窗口大小 [5]
    epoch             # 迭代次数 [5]
    minCount          # 单词出现的最小次数 [1]
    minCountLabel     # minimal number of label occurences [1]
    minn              # min length of char ngram [0]
    maxn              # max length of char ngram [0]
    neg               # number of negatives sampled [5]
    wordNgrams        # max length of word ngram [1]
    loss              # 损失函数 {ns, hs, softmax, ova} [softmax]
    bucket            # number of buckets [2000000]
    thread            # 线程数 [number of cpus]
    lrUpdateRate      # 学习率更新速率 [100]
    t                 # sampling threshold [0.0001]
    label             # 标签前缀 ['__label__']
    verbose           # verbose [2]
    pretrainedVectors # pretrained word vectors (.vec file) for supervised learning []

2.3 模型保存与测试

训练完分类模型，就可以进行测试了。当然，为了以后使用方便，可以先保存一下，使用save_model()函数。

# 保存模型
model = load_model("model_lr%.2f_epoch%d.ftz"%(lr, epoch))

测试中文文本

测试文本类别，需要将测试的文本进行中文分词，然后使用空格连接起来。

segs = jieba.lcut(test_text)
segs = filter(lambda x:x not in stop_words, segs)
test_text = " ".join(segs)
# 测试
lables, proba = model.predict(test_text)
print('%s, %.2f'%(lable_to_cate[int(lables[0][9:])], proba[0]))

调用model.predict()函数，则返回类别类型以及概率值。
注意，此时返回的结果格式如下：

labels:   ('__label__23',) # 类别
proba:    [0.98677748]  # 概率值

获取真实标签直接使用切片操作即可：labels[0][9:]

2.4 模型对象属性

train_supervised，train_unsupervised和load_model函数返回_FastText类的实例，我们通常将其命名为模型对象。

该对象将这些训练参数公开为属性：lr, dim, ws, epoch, minCount, minCountLabel, minn, maxn, neg, wordNgrams, loss, bucket, thread, lrUpdateRate, t, label, verbose, pretrainedVectors.
因此，model.wordNgrams将为您提供用于训练此模型的word gram的最大长度。

此外，该对象还公开了几个函数：

    get_dimension           # Get the dimension (size) of a lookup vector (hidden layer).
                            # 等同于 `dim` 属性.
    get_input_vector        # Given an index, get the corresponding vector of the Input Matrix.
    get_input_matrix        # Get a copy of the full input matrix of a Model.
    get_labels              # 获取整个词典的标签列表
                            # 等同于 `labels` 属性.
    get_line                # 将一行文本分为 words 和 labels.
    get_output_matrix       # Get a copy of the full output matrix of a Model.
    get_sentence_vector     # 给定一个字符串, 获取单个向量表示. 这个函数假设给定一个单独的文本行，我们
                            # 通过空白（空格，newline，tab，vertical tab）来分隔单词，来控制 
                            # characters carriage return, formfeed and the null character.
    get_subword_id          # Given a subword, return the index (within input matrix) it hashes to.
    get_subwords            # Given a word, get the subwords and their indicies.
    get_word_id             # Given a word, get the word id within the dictionary.
    get_word_vector         # Get the vector representation of word.
    get_words               # 获取整个词典的单词列表
                            # 等同于 `words` 属性.
    is_quantized            # 模型是否被量化
    predict                 # Given a string, get a list of labels and a list of corresponding probabilities.
    quantize                # Quantize the model reducing the size of the model and it's memory footprint.
    save_model              # Save the model to the given path
    test                    # Evaluate supervised model using file given by path
    test_label              # Return the precision and recall score for each label.

单词，标签属性返回字典中的单词和标签：

model.words         # equivalent to model.get_words()
model.labels        # equivalent to model.get_labels()

该对象会覆盖__getitem__和__contains__函数，以便返回单词的表示形式并检查单词是否在词汇表中。

model['king']       # equivalent to model.get_word_vector('king')
'king' in model     # equivalent to `'king' in model.get_words()`

2.5 提高模型性能的方法

通过使用默认参数运行fastText获得的模型在分类问题时效果并不太好，我们可以尝试更改默认参数来提高性能。

预处理数据
如去除标点符号，或者一些停用词，对于英文来讲，可以对于包含大写字母的单词进行规范化等。
更多的迭代次数和更高的学习率
默认参数下，训练数据只迭代5次，可以通过参数-epoch来增加迭代次数；
另一种方法是增加（或降低）学习率，学习率为0意味着模型根本不会改变，因此不会学到任何东西。良好的学习率值在0.1-1.0的范围内。
word n-grams
使用word bigrams而不仅仅是unigrams来提高模型的性能，这对于词序很重要的分类问题尤其重要，例如情绪分析。

总结一下：

对数据进行预处理；
更改迭代次数 (通过选项-epoch，标准范围 [5 - 50]) ；
更改学习速率 (使用选项 -lr，标准范围 [0.1 - 1.0])；
使用 word n-grams (使用选项 -wordNgrams，标准范围 [1 - 5])。

3、几个概念

什么是Bigram？
unigram指的是单个不可分割的单元或标记，通常用做模型的输入。例如，一个unigram可以是一个单词或字母。在fastText中，我们作用在单词级别，因此unigrams指的是单词。
类似的，我们用bigram表示连续两个单词或tokens的连接，类似的，我们经常讨论n-gram指的是n个连续的tokens的连接.

例如，在句子Last donut of the night，unigrams是last, donut, of, the 以及night。bigram是Last donut，donut of， of the 和 the night。

减小规模
对于较小的训练数据（如几千个示例）训练模型，只需要几秒钟。但是，对于较大数据集的训练模型，标签越多，开始就越慢。使训练更快的潜在解决方法是使用hierarchical softmax，来代替常规的softmax。

可以使用选项 -loss hs来指定。

什么是hierarchical softmax？
hierarchical softmax是一个损失函数，要比softmax计算的更快。
想法是通过构建一个二叉树，其叶子对应于标签，每一个黄总监节点有一个二元决策激活（例如，sigmoid），预测是应该向左还是向右。输出单元的概率由沿着从根到输出单元的路径的中间节点的概率的乘积给出。
在fastText中，我们使用Huffman tree，对于更频繁的输出，查找时间更快，因此输出的平均查找时间是最佳的。

多标签分类
当我们想要将文档分配给多个标签时，仍然可以使用softmax作为损失函数来预测。即要预测的标签数量和预测概率的阈值。但是使用这些参数可能很棘手且不直观，因为概率和必须为1。

处理多个标签的便捷方法是为每个标签使用独立的二元分类器。可以通过-loss one-vs-all或者-loss ova实现。

你可能感兴趣的:(NLP,NLP技术)

C++：std::move() / std::forward() 我什么都没有3 C++c++开发语言
移动语义和完美转发是C++11中引入的两个重要技术。熟练的掌握移动语义与完美转发，有益于设计安全、高性能的程序。其头文件均为。移动语义：增强了程序对数据所有权的控制，通过std::move标准库函数实现。完美转发：为实现通用的模板函数奠定了基础。通过std::forward库函数实现。基础1：右值引用C++表达式有两个属性：类型和值类型。这里的“值类型”指的就是左值（lvalue）与右值（rval
华为余承东“剧透”新形态手机；自DeepSeek发布以来，英伟达市值已蒸发4200亿美元；Java 24正式发布 | 极客头条极客日报华为智能手机 java
「极客头条」——技术人员的新闻圈！CSDN的读者朋友们好，「极客头条」来啦，快来看今天都有哪些值得我们技术人关注的重要新闻吧。整理|郑丽媛出品|CSDN（ID：CSDNnews）一分钟速览新闻点！华为余承东“揭秘”新形态手机：不是卷轴屏/伸缩屏，但男生女生都会喜欢腾讯去年营收增长8%，马化腾：重组AI团队，增加AI相关的资本开支金山办公：2024年WPSOffice全球月度活跃设备数达6.32亿，
2025年开发者工具全景图：IDE与AI协同的效能革命 He.Tech ide 人工智能
2025年开发者工具全景图：IDE与AI协同的效能革命（基于CSDN、腾讯云等平台技术文档与行业趋势分析）一、核心工具链的务实演进与配置指南主流开发工具的升级聚焦于工程化适配与智能化增强，以下是2025年开发者必须掌握的配置技巧：1.VSCode：性能优化与远程协作标杆核心特性：CUDA核心利用率分析：通过NVIDIANsight插件优化GPU计算任务，需在settings.json中添加："ns
去中心化金融的风起与未来：从边缘创新到主流趋势 Echo_Wish 前沿技术人工智能 python 区块链开发语言
去中心化金融的风起与未来：从边缘创新到主流趋势在区块链技术的大潮中，去中心化金融（DeFi，DecentralizedFinance）以其革命性的理念彻底颠覆了传统金融世界的规则。DeFi的发展让普通用户得以无需依赖银行或中介机构就能在全球范围内转账、借贷、投资。然而，DeFi的光环背后也隐藏着种种挑战，未来将如何发展？本文从现状分析入手，并结合实际案例，带你展望其广阔前景。DeFi的现状：金融民
Python赋能区块链溯源系统：从技术实现到应用落地 Echo_Wish Python！实战！python 区块链开发语言
Python赋能区块链溯源系统：从技术实现到应用落地在供应链管理、食品安全、药品追踪等多个领域，产品的来源和流通过程正成为消费者和企业关注的重点。传统溯源系统往往缺乏数据透明性和不可篡改性，而区块链技术的引入解决了这些痛点，将溯源信息永久记录在分布式账本上，实现全流程可追溯。那么问题来了：如何用Python这把“瑞士军刀”构建一个高效的区块链溯源系统？本文将围绕这一主题，深入探讨Python在区块
Web3身份验证技术对数据保护的影响研究清晨反侦测指纹浏览器社交媒体 web3 ClonBrowser 跨境电商隐私保护
Web3身份验证技术对数据保护的影响研究在这个数字化时代，我们的身份和数据安全比以往任何时候都更加重要。Web3技术以其去中心化和用户主权的核心理念，为个人数据的管理和保护提供了新的视角。本文将探讨Web3身份验证技术如何影响数据保护，并分析其对我们数字生活的影响。Web3身份验证技术简介Web3身份验证技术依托于区块链和先进的加密技术，如非对称加密算法和智能合约，为用户提供了一种全新的身份验证方
Moodle + Websoft9：创新教育的强大组合，助力教学与学习开源软件
Moodle+Websoft9：构建未来课堂的技术基石一、Moodle：开源生态的深度解析•模块化设计：支持超800个官方插件，如H5P交互内容创作、BigBlueButton虚拟课堂，满足个性化教学需求。•学习分析引擎：内置LearningAnalyticsAPI，可集成Python/R语言进行深度学习，预测学生学业风险。•移动优先战略：MoodleApp支持离线学习、扫码签到，2023年新增A
新浪财经App喜娜AI助手通过大模型登记，已上线AI摘要和个股公告AI解读量子位
3月14日，官方发布的信息显示，新浪财经App喜娜AI助手近日已通过北京市生成式人工智能服务登记。目前，喜娜AI助手已上线两项创新功能：喜娜AI摘要和个股公告AI解读。这两项功能旨在通过先进的人工智能技术，提升用户对财经资讯和上市公司公告的理解与分析效率，这标志着AI技术在信息服务领域的又一重大突破。喜娜AI摘要：快速提炼财经资讯核心要点AI时代，资讯信息迎来爆炸性增长，用户每天都要面对海量资讯，
互联网运营为何必须做好用户行为数据分析开源软件埋点数据分析
近年来互联网运营已经成为大多数企业不可或缺的一部分。随着互联网技术的不断发展和数字化转型的推进，越来越多的企业都在加速向互联网运营转型，而在这一过程当中，分析用户行为数据是至关重要的。接下来，我们就来探讨一下其中的原因。一、什么是用户行为数据？用户行为数据指的是在用户与产品、服务或平台交互过程中产生的各种数据。举个例子：某app中，某个用户在某个时间点在某个地方以某种方式完成了某个具体的操作。实际
快速上手系列丨如何管理 PieCloudDB Database 虚拟数仓云原生数据库教程管理
为增强社区用户的体验，PieCloudDBDatabase社区版已于8月完成了全面改版升级。同时，PieCloudDB社区还特别制作了《快速入门PieCloudDB社区版》系列课程，旨在帮助大家全面了解新版本，逐步探索PieCloudDB的强大功能。PieCloudDB社区版提供免费下载，可用于体验产品新特性、个人学习、PoC验证等场景，方便社区用户快速体验领先的数仓虚拟化技术。PieCloudD
React性能优化的深度解析：React.memo和useMemo的真相与误区今天也想MK代码持续学习持续总结 react.js 性能优化前端
引言在React应用开发中，性能优化始终是开发者关注的重点。随着应用规模的扩大，组件渲染效率成为影响用户体验的关键因素。React.memo和useMemo是React提供的两个常用性能优化API，但它们常常被误解和滥用。本文将深入剖析这两个API的工作原理、适用场景，并通过实际案例分析它们的优缺点，帮助开发者做出明智的性能优化决策。技术原理React.memo与useMemo的本质区别React
模型微调：让AI更懂你的魔法棒带上一无所知的我 pytorch 人工智能 python
模型微调：让AI更懂你的魔法棒✨在人工智能的世界里，模型微调（Fine-tuning）就像是一位魔法师用魔法棒对预训练模型进行“个性化改造”，让它更适应特定的任务。今天，我们就来深入探讨模型微调的技术细节，让你也能像魔法师一样，轻松驾驭AI模型！什么是模型微调？模型微调是指在预训练模型的基础上，通过少量的特定任务数据进行训练，使模型更好地适应新任务的技术。预训练模型通常是基于大规模数据集（如Ima
加密算法的性能优化与安全性平衡研究 sigen520520 笔记
摘要在数字化信息飞速发展的当下，数据安全至关重要，加密算法作为数据保护的核心手段，其性能与安全性直接关乎信息系统的稳定运行。本文深入剖析常见加密算法，详细分析其性能指标与安全性特点，全面探讨在提升加密速度的同时确保安全的有效方法与实践，旨在为构建高效、安全的加密体系提供理论支撑与实践指导。引言随着互联网的普及和信息技术的广泛应用，数据在传输与存储过程中面临诸多安全威胁，如数据泄露、篡改、伪造等。加
数据重放和数据倒灌的意思一样吗赛恩斯 android
数据重放与数据倒灌在机制上有相似性，但设计目的和适用场景存在本质差异：‌1.核心定义对比‌‌维度‌‌数据倒灌‌‌数据重放‌‌技术场景‌LiveData特有的现象，新观察者自动接收最后一次数据更新‌78通用异步流机制（如Flow的StateFlow/SharedFlow），允许新订阅者获取历史数据‌45‌设计意图‌LiveData的默认行为，旨在确保观察者始终获取最新数据‌38开发者主动配置的数据保
从 DeepSeek 到 AI 工具箱：Websoft9 应用托管平台赋能高校教学与科研人工智能deepseek
从DeepSeek到AI工具箱：Websoft9应用托管平台赋能高校教学与科研人工智能技术的快速发展正在重塑高校的教学与科研生态。从智能教学辅助到跨学科研究，AI工具的应用场景不断扩展，而技术落地的复杂性也带来新的挑战。在这一背景下，如何将大模型能力与多样化AI工具无缝整合，构建安全、易用的科研教学环境，成为高校数字化转型的关键命题。一、高校智能化转型的三大痛点技术门槛高•AI工具部署依赖专业运维
Websoft9 开源多应用平台：培养学生数字化能力的实战工具开源实践
引言数字化教育转型的核心在于将技术工具与教学场景深度融合，但传统模式常因环境配置复杂、工具链割裂等问题阻碍实践教学效率。Websoft9开源多应用平台以标准化部署、多工具集成、轻量化运维为核心能力，为教育场景提供了一种技术门槛更低、协作效率更高的解决方案。本文基于实际教学需求与技术验证，探讨如何通过该平台构建数字化能力培养体系。一、技术特性与教育场景的适配性开源生态覆盖全技术栈，缩短教学准备周期平
聊聊关于Python与人工智能那些事小G-biu- python 人工智能 tensorflow
Python与人工智能：介绍Python在人工智能方面的应用Python是一种广泛使用的编程语言，也是人工智能领域中最受欢迎的语言之一。Python提供了许多用于构建和训练人工智能模型的库和框架。本文将介绍一些常见的人工智能技术以及Python在这些技术中的应用。OpenAIOpenAI是一个非营利组织，旨在推动人工智能的发展并促进其对人类的利益。OpenAI通过开发人工智能技术、研究人工智能的影
java毕业设计，在线水果商城系统爱编程的小哥 java毕设 java 课程设计 spring boot vue
天天生鲜在线商城系统技术解密|SpringBoot+Vue3企业级实战（附高并发场景解决方案）一、系统全景解读该系统是生鲜电商全流程解决方案，采用SpringBoot3+Vue3+ElementPlus技术栈，覆盖商品管理、智能分类、订单处理、用户画像等核心场景，通过RBAC权限控制+OSS图片存储+高并发库存管理三大技术亮点，日均支撑5000+商品、10万+订单的电商需求。系统以蓝白清新界面+实
华为仓颉编程语言与医疗领域的深度融合：技术与实践想成为高手499 华为人工智能服务器
引言在数字化浪潮席卷全球的背景下，医疗行业的智能化转型已成为一种不可逆的趋势。从电子病历（EMR）、医疗影像分析，到远程手术和个性化健康管理，技术创新正在不断推动医疗领域的变革。然而，这一过程对底层技术提出了更高的要求：高效的计算性能、强大的硬件适配性、分布式计算能力以及生态系统的支持。华为推出的自研编程语言仓颉（Cangjie）正是在此背景下应运而生。仓颉语言以其高效、灵活和强大的硬件整合能力，
当现代教育技术遇上仓颉---探秘华为仓颉编程语言与未来教育技术的接轨想成为高手499 华为服务器 php
引言随着人工智能、物联网、区块链等新兴技术的发展，编程语言的需求也在不断演化。据市场研究机构发布的数据显示，全球编程语言市场规模预计在未来五年内将以每年10%的速度增长。此外，越来越多的企业和高校正在积极推动基于分布式系统和硬件优化的新型语言开发，这进一步表明对高性能编程语言的需求日益旺盛。近年来，华为推出了自研编程语言“仓颉”，以其高效的语法设计、灵活的语义表达能力和强大的跨平台适配性能引发了编
AIGC与教育行业的邂逅--其在数学领域的应用与实现想成为高手499 AIGC
引言在数学教学中，教师往往需要大量的时间准备练习题和答案解析，而学生则需要定制化的练习来满足不同的学习需求。AIGC技术可以通过自动生成数学题目、定制化学习内容、即时反馈等方式，极大地提升数学学习的效率与质量。本文将深入探讨AIGC在数学领域的几种应用场景，并通过Python代码展示具体实现方式。1.自动生成数学题目与解析数学题目生成是AIGC在数学教学中的主要应用之一。通过生成不同难度和类型的题
用LangChain构建自愈式生成式AI：颠覆传统知识库的智能问答系统实战煜bart 机器人人工智能 python AI编程
引言：当生成式AI遇到自进化架构ChatGPT的惊艳表现让企业意识到生成式AI的潜力，但传统问答系统仍面临数据孤岛、知识更新滞后等痛点。本文将揭秘如何通过LangChain框架构建具有自进化能力的智能问答系统，实现企业知识库的实时动态更新与智能推理。通过本文，您将掌握一套让AI系统在运行中持续学习、自主优化的创新架构。---##一、核心技术突破###1.1自愈式数据管道（Self-healingP
Python在人工智能与机器人开发中的应用与实践一键难忘 python 人工智能机器人
Python在人工智能与机器人开发中的应用与实践Python已经成为人工智能和机器人开发的主要编程语言之一，凭借其简洁的语法、强大的库支持和广泛的社区资源，Python为开发者提供了一个高效且易于学习的平台。在这篇文章中，我们将深入探讨如何使用Python进行人工智能（AI）和机器人开发，并通过实际代码示例展示核心技术和应用。1.Python在人工智能中的应用人工智能（AI）领域的核心任务包括机器
单片机flash存储也做磨损均衡 zhongvv 应广单片机应用框架应广单片机算法实现单片机磨损均衡数据存储单片机开发 flash读写
最近在做一个项目，需要保存设置数据，掉电不丢失。那么首先想到的是加个24c02，是一个eeprom，但是客户板太小，没有办法进行扩展。后面就找了一个带ee的OTP单片机，发现擦写次数有限，只有1000次，这明显就不是ee，就是一片flash。感觉1000次的擦写，太少了，那怎么样才能提高使用次数呢？后面就想到，当前的很多固态硬盘都不是slc的颗粒，也同样可以用好久。那么是使用什么技术达到呢，那就是
基于STM32的儿童误锁车内远程报警系统(华为云IOT) DS小龙哥智能家居与物联网项目实战 stm32 嵌入式硬件单片机华为云
一、项目背景汽车发展历史汽车自上个世纪末诞生以来，已经走过了风风雨雨的一百多年。汽车经过百年历史的演变，已经在世界各地获得广泛的普及和应用，但是事物总会具有两面性，汽车方便了人们生活的同时也带来了不安全的因素。儿童的出行和乘车安全始终都是我国现代汽车安全技术研究的主要方向。随着乘车安全的普及，在一定程度上提高了公众对于自家孩子乘车的安全意识，许多家长都在后座配置了儿童座椅。但是仍无法避免儿童误锁车
计算机专业毕业设计题目推荐（新颖选题）本科计算机科学专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计计算机网络毕设选题毕设系统毕设题目计算机科学专业
文章目录前言最新毕设选题（建议收藏起来）本科计算机科学专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能设计
多功能电子医药盒设计方案（含有源码）妄北y 竞赛项目研究实战汇集 xcode macos ide
一、设计背景与目的随着科技的迅速发展，数字化和智能化已经成为现代社会的主流趋势。计算机和网络技术的广泛应用正在改变人们的生活方式，尤其是在老龄化社会中，智能化设备的需求日益增长。多功能电子医药盒的设计旨在提高人们的生活效率，尤其是为老年人和忙碌的年轻人提供便利的用药提醒和管理系统。1.设计目的本设计的目标是开发一种多功能语音电子医药盒，能够根据用户的语音指令进行操作，提高用户的用药安全和便捷性。该
代理IP防“开盒”？技术人实测后的真相与防护指南小白iP代理 tcp/ip 网络系统安全
近年来“开盒”攻击事件频发，最近更是暴出百度副总裁12岁女儿”开盒“他人。技术人该如何保护隐私？本文从代理IP的原理出发，结合实测数据与攻防案例，分析代理技术的真实作用与局限，并提供一套可落地的防护方案。一、什么是“开盒”攻击？“开盒”（Doxxing）是一种通过技术手段挖掘并公开他人隐私信息的网络暴力行为，常见攻击路径包括：IP追踪：通过社交平台、游戏服务器等获取目标IP地址数据关联：利用社工库
华创力环形导轨技术突破：预计精度跃升至0.02mm，重新定义高精密制造边界 HXDGCL 制造
在工业自动化、半导体封装、精密医疗设备等领域，环形导轨作为高速循环运动系统的核心组件，其精度直接决定了生产效率和产品质量。长期以来，行业普遍将0.05mm视为环形导轨动态重复定位精度的“天花板”，而华创力通过全链路技术创新，预计突破这一极限，将环形导轨的综合精度提升至**±0.02mm**，为高精密制造领域树立新标杆。华创力核心突破通过材料科学、结构设计、制造工艺、智能控制四维创新，华创力环形导轨
物联网 - JetLinks与ThingsBoard技术选型对比天机️灵韵物联网开源项目物联网
JetLinks与ThingsBoard作为两款主流的开源物联网平台，在技术架构、功能特性及适用场景上存在显著差异。以下从技术选型的关键维度进行深度对比分析：JetLinks与ThingsBoard物联网平台的深度技术对比及选型建议，综合多个维度分析两者的核心差异与适用场景：一、技术架构与性能技术栈JetLinks：基于Java8、SpringBoot2.x、WebFlux、Netty等，采用响应
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><