静静AI学堂

第三届阿里云磐久智维算法大赛——GRU BaseLine

赛题

比赛链接：第三届阿里云磐久智维算法大赛-天池大赛-阿里云天池 (aliyun.com)

大赛概况

庸医只知头痛医头脚痛医脚，凡良医者，必会抽丝剥茧，察其根本，方得药到病除。第一届和第二届磐久智维算法大赛，我们针对异常预测开展了积极的探索和卓有成效的实践。本届大赛我们延续对异常/故障这一领域的深入挖掘，以根因诊断为赛题，和各界同仁一起探讨根因诊断的新思路，共同追逐这一人工智能应用的明珠。
在大规模IT设备、应用运维过程中，故障无可避免，而关键日志则是技术人员排查根因，对症下药的重要依据。近年来围绕日志分析，涌现出了众多先进技术，在不断突破技术瓶颈的同时，也为解决工业难题提供了越来越先进的武器装备。本次大赛开放大量不同类别的服务器运行日志，这些日志反应了服务器运行过程中各类部件的状态，能够在出现服务器故障时用来快速的定位出故障所在，这对于高效的修复故障、避免维修时间的浪费、降低服务器换件成本、提升系统可用性甚至减少客户投诉都至关重要。但准确的识别出故障根因并非易事，需要创新的思维，细致的分析。祝愿各界同仁享受比赛，开拓创新，取得好成绩。

问题描述

给定一段时间的系统日志数据，参赛者应提出自己的解决方案，以诊断服务器发生了哪种故障。具体来说，参赛者需要从组委会提供的数据中挖掘出和各类故障相关的特征，并采用合适的机器学习算法予以训练，最终得到可以区分故障类型的最优模型。数据处理方法和算法不限，但选手应该综合考虑算法的效果和复杂度，以构建相对高效的解决方案。

初赛会提供训练数据集，供参赛选手训练模型并验证模型效果使用。同时，也将提供测试集，选手需要对测试集中的数据诊断识别出故障类型，并将模型判断出的结果上传至竞赛平台，平台会根据提交的诊断结果，来评估模型的效果。

在复赛中，我们会进一步增加数据，并提供额外的其他种类的数据。面对进一步的问题和任务，选手需要提交一个docker镜像，镜像中需要包含用来进行故障诊断所需的所有内容，也即完整解决方案代码。其中，镜像中的代码需要能够根据输入的测试集文件（文件夹）位置，来对测试集中的故障数据进行诊断，并把诊断结果以指定的CSV文件格式输出到指定位置。

数据描述

1.初赛数据

1.1 SEL日志数据:

Table 1: SEL日志数据, 数据文件名: preliminary_sel_log_dataset.csv

Field	Type	Description
sn	string	server serial number
time	string	log reported time
msg	string	log
server_model	string	server model

1.2 训练标签数据:

Table 2: 训练标签数据, 数据文件名: preliminary_train_label_dataset.csv, preliminary_train_label_dataset_s.csv

Field	Type	Description
sn	string	server serial number
fault_time	string	fault time of server
label	int	failure label, 0,1,2,3 四类故障

其中0类和1类表示CPU相关故障，2类表示内存相关故障，3类表示其他类型故障

注: 上述两个文件的总label数据对应”preliminary_sel_log_dataset.csv“中所有的日志。在比赛之初，组委会曾在”preliminary_sel_log_dataset.csv“中开放过一份不带label的log数据交由选手提交答案测评，现该部分log数据不变，并将其对应的的label(preliminary_train_label_dataset_s.csv)一并开放，选手有了更多的数据用于训练。

1.3 选手提交数据:

Table 3: 选手提交数据, 数据文件名: preliminary_submit_dataset_a.csv, 对应的log文件名：preliminary_sel_log_dataset_a.csv
选手需要使用preliminary_sel_log_dataset_a.csv中的日志内容，评测出对应的诊断结果，并填充到preliminary_submit_dataset_a.csv中，preliminary_submit_dataset_a.csv是选手需要提交到系统的最终结果文件。

Field	Type	Description
sn	string	server serial number
fault_time	string	fault time of server

注: 给定sn、fault_time两个字段信息，选手需要根据SEL日志信息给出最终的label。提交文件需要包含例子中给定的header(sn,fault_time,label)，提交格式例子：

sn,fault_time,label  
server_123,2019-08-16 02:12:00,0

注：选手提交文件请参见preliminary_submit_dataset_a.csv, 不是preliminary_submit_dataset.csv；选手提交文件请参见preliminary_submit_dataset_a.csv, 不是preliminary_submit_dataset.csv；选手提交文件请参见preliminary_submit_dataset_a.csv, 不是preliminary_submit_dataset.csv

1.4 SEL日志语料数据:

Table 4: SEL日志语料数据, 数据文件名: additional_sel_log_dataset.csv

Field	Type	Description
sn	string	server serial number
time	string	log reported time
msg	string	log

注: 主要是给选手进行预训练用的数据，该数据集没有对应的label标签，也没有server_model字段，选手可以酌情使用

2.复赛数据(暂定)

2.1 SEL日志数据:

Table 5: SEL日志数据, 数据文件名: final_sel_log_dataset_*.csv

Field	Type	Description
sn	string	server serial number
time	string	log reported time
msg	string	log
server_model	string	server model

2.2 训练标签数据:

Table 6: 训练标签数据, 数据文件名: final_train_label_dataset_*.csv

Field	Type	Description
sn	string	server serial number
fault_time	string	fault time of server
label	int	failure label, 0,1,2,3四类故障

2.3 选手提交数据:

Table 7: 选手提交数据, 数据文件名: final_submit_dataset_*.csv

Field	Type	Description
sn	string	server serial number
fault_time	string	fault time of server

注: 给定sn、fault_time两个字段信息，选手需要根据SEL日志信息给出最终的label。提交格式例子：

sn,fault_time,label
server_123,2019-08-16 02:12:00,0

2.4 补充日志数据1:

Table 8: 补充日志数据1, 数据文件名: final_venus_dataset_*.csv

Field	Type	Description
sn	string	server serial number
fault_time	string	fault time of server
module_cause	string	module cause
module	string	module

2.5 补充日志数据2:

Table 9: 补充日志数据2, 数据文件名: final_crashdump_dataset_*.csv

Field	Type	Description
sn	string	server serial number
fault_time	string	fault time of server
fault_code	string	fault code

提交格式

初赛阶段，选手需要将模型在测试集上的诊断结果保存为csv格式，并打包成zip压缩文件进行提交。形式如下：

sn,fault_time,label
server_123,2019-08-16 02:12:00,0

复赛阶段，最后的输出形式如下：

sn,fault_time,label
server_123,2019-08-16 02:12:00,0

注：
1）选手提交数据文件中出现的机器均需要进行诊断，并将结果写到上传文件中，否则评分为0。
2）若选手上传的结果文件中，同一个sn出现多次诊断结果，则评测程序会选取第一条用于评分。
3）在复赛中，参赛选手需要提交docker镜像，具体的提交方式及规范请参见镜像提交说明。
4）诊断结果保存为csv文件格式，保存的csv文件有header，无index; 第一列为sn，第二列为故障时间，格式为YYYY-MM-dd HH:mm:ss，字符串类型，第三列为故障类型，格式为整数0-3

评价指标(初赛)

本次竞赛采用多分类加权Macro F1-score作为评价指标, 根据具体场景化的诊断内容，定义相关术语和详细指标如下：

对于第ii类，有
- Precision
  - #TP: 真正例的数量
  - #FP: 假正例的数量
  $\text { Precision }=\frac{\# \mathrm{TP}}{\# \mathrm{TP}+\# \mathrm{FP}}$
- Recall
  - #FN: 假负例的数量
  $\text { Recall }=\frac{\# \mathrm{TP}}{\# \mathrm{TP}+\# \mathrm{FN}}$
- F1-score
  $\text { F1-score }=\frac{2 \times \text { Precision } \times \text { Recall }}{(\text { Precision }+\text { Recall })}$
综合四类，即「两种CPU故障」(0-1)、「内存故障」(2)和「其他故障」(3)，有
- 对应该四类的权重向量
$\boldsymbol{v}=\left\{\frac{3}{7}, \frac{2}{7}, \frac{1}{7}, \frac{1}{7}\right\}$
- Macro F1-score
$\text { Macro F1-score }=\sum_{i \in\{0,1,2,3\}} w_{i} \times \text { F1-score } \text {-s }_{i}$

Baseline

本文BaseLine的数据处理参照了：baseline_template-天池实验室-实时在线的数据分析协作工具，享受免费计算资源 (aliyun.com)，模型采用pytorch版的GRU。

模型与DataSet

新建model.py文件，插入代码：

from torch import nn
from torch.utils.data import Dataset


class RNN(nn.Module):
    def __init__(self, input_size):
        super(RNN, self).__init__()
        self.rnn = nn.GRU(
            input_size=input_size,
            hidden_size=128,
            num_layers=1,
            batch_first=True,
        )
        self.out = nn.Sequential(
            nn.Linear(128, 4),
        )
        self.hidden = None

    def forward(self, x):
        r_out, self.hidden = self.rnn(x)  # None 表示 hidden state 会用全0的 state
        out = self.out(r_out)
        return out


class TrainSet(Dataset):
    def __init__(self, data, lables):
        # 定义好 image 的路径
        self.data, self.label = data.float(), lables.float()

    def __getitem__(self, index):
        return self.data[index], self.label[index]

    def __len__(self):
        return len(self.data)

调用nn.GRU创建模型，input_size是输入的维度，nn.Linear(64, 4),4代表输出的类别是4类。

TrainSet类定义加载数据的方式。

训练

定义完模型就开始这篇文章最重要的部分：训练！新建train.py,插入如下代码：

import pandas as pd
from sklearn.model_selection import  train_test_split
import torch
import torch.nn as nn
import numpy as np
from torch import optim
from torch.utils.data import Dataset, DataLoader
import os
from model import RNN


DEVICE = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

导入需要的包。

判断是否存在cuda环境，如果存在DEVICE设置为cuda，如果没有则设置为cpu。

接下来是数据处理部分：

data_train = pd.read_csv('preliminary_sel_log_dataset.csv')
data_test = pd.read_csv('preliminary_sel_log_dataset_a.csv')
data = pd.concat([data_train, data_test])

from drain3 import TemplateMiner  # 开源在线日志解析框架
from drain3.file_persistence import FilePersistence
from drain3.template_miner_config import TemplateMinerConfig

config = TemplateMinerConfig()
config.load('drain3.ini')  ## 这个文件在drain3的github仓库里有
config.profiling_enabled = False

drain_file = 'comp_a_sellog'
persistence = FilePersistence(drain_file + '.bin')
template_miner = TemplateMiner(persistence, config=config)

##模板提取
for msg in data.msg.tolist():
    template_miner.add_log_message(msg)
temp_count = len(template_miner.drain.clusters)

## 筛选模板
template_dic = {}
size_list = []
for cluster in template_miner.drain.clusters:
    size_list.append(cluster.size)
size_list = sorted(size_list, reverse=True)[:200]  ## 筛选模板集合大小前200条，这里的筛选只是举最简单的例子。
min_size = size_list[-1]

for cluster in template_miner.drain.clusters:  ## 把符合要求的模板存下来
    print(cluster.cluster_id)
    if cluster.size >= min_size:
        template_dic[cluster.cluster_id] = cluster.size

temp_count_f = len(template_dic)


def match_template(df, template_miner, template_dic):
    msg = df.msg
    cluster = template_miner.match(msg)  # 匹配模板，由开源工具提供
    if cluster and cluster.cluster_id in template_dic:
        df['template_id'] = cluster.cluster_id  # 模板id
        df['template'] = cluster.get_template()  # 具体模板
    else:
        df['template_id'] = 'None'  # 没有匹配到模板的数据也会记录下来，之后也会用作一种特征。
        df['template'] = 'None'
    return df


data = data.apply(match_template, template_miner=template_miner, template_dic=template_dic, axis=1)
data.to_pickle(drain_file + '_result_match_data.pkl')  # 将匹配好的数据存下来

df_data = pd.read_pickle(drain_file + '_result_match_data.pkl')  # 读取匹配好模板的数据
df_data[df_data['template_id'] != 'None'].head()


def feature_generation(df_data, gap_list, model_name, log_source, win_list, func_list):
    gap_list = gap_list.split(',')

    dummy_list = set(df_data.template_id.unique())
    dummy_col = ['template_id_' + str(x) for x in dummy_list]

    for gap in gap_list:
        df_data['collect_time_gap'] = pd.to_datetime(df_data.collect_time).dt.ceil(gap)
        df_data = template_dummy(df_data)
        df_data = df_data.reset_index(drop=True)
        df_data = df_data.groupby(['sn', 'collect_time_gap']).agg(sum).reset_index()
        df_data = feature_win_fun(df_data, dummy_col, win_list, func_list, gap)
        df_data.to_pickle(
            'cpu_diag_comp_sel_log_all_feature_' + gap + '_' + win_list + '_' + func_list + '.pkl')  # 将构造好的特征数据存下来
        return df_data


def template_dummy(df):
    df_dummy = pd.get_dummies(df['template_id'], prefix='template_id')
    df = pd.concat([df[['sn', 'collect_time_gap']], df_dummy], axis=1)
    return df


def feature_win_fun(df, dummy_col, win_list, func_list, gap):
    win_list = win_list.split(',')
    func_list = func_list.split(',')
    drop_col = ['sn']
    merge_col = ['collect_time_gap']
    df_out = df[drop_col + merge_col]

    for win in win_list:
        for func in func_list:
            df_feature = df.groupby(drop_col).apply(rolling_funcs, win, func, dummy_col)
            df_feature = df_feature.reset_index(drop=True).rename(columns=dict(zip(dummy_col, map(lambda x: x + '_' +
                                                                                                            func + '_' + win,
                                                                                                  dummy_col))))
            df_out = pd.concat([df_out, df_feature], axis=1)
    return df_out


def rolling_funcs(df, window, func, fea_col):
    df = df.sort_values('collect_time_gap')
    df = df.set_index('collect_time_gap')
    df = df[fea_col]

    df2 = df.rolling(str(window) + 'h')

    if func in ['sum']:
        df3 = df2.apply(sum_func)
    else:
        print('func not existed')
    return df3


def sum_func(series):
    return sum(series)


df_data.rename(columns={'time': 'collect_time'}, inplace=True)
feature_generation(df_data, '1h', '', '', '3', 'sum')

df_data = pd.read_pickle('cpu_diag_comp_sel_log_all_feature_1h_3_sum.pkl')  # 读取之前构造好的特征数据
df_train_label = pd.read_csv('preliminary_train_label_dataset.csv')
df_train_label_s = pd.read_csv('preliminary_train_label_dataset_s.csv')
df_train_label = pd.concat([df_train_label, df_train_label_s])
df_train_label = df_train_label.drop_duplicates(['sn', 'fault_time', 'label'])

df_data_train = pd.merge(df_data[df_data.sn.isin(df_train_label.sn)], df_train_label, on='sn', how='left')
y = df_data_train['label']
x = df_data_train.drop(['sn', 'collect_time_gap', 'fault_time', 'label'], axis=1)

数据处理部分，我只修改了一些错误，详见：baseline_template-天池实验室-实时在线的数据分析协作工具，享受免费计算资源 (aliyun.com)

X_train, X_val, y_train, y_val = train_test_split(x, y, test_size=0.1, random_state=6)
X_train = np.array(X_train)
y_train = np.array(y_train)
df_tensor = torch.Tensor(X_train)
tensor_y = torch.Tensor(y_train)
n=X_train.shape[1]
print(n)
X_val = np.array(X_val)
y_val = np.array(y_val)
X_val = torch.Tensor(X_val)
y_val = torch.Tensor(y_val)
trainset = TrainSet(df_tensor, tensor_y)
valset = TrainSet(X_val, y_val)
trainloader = DataLoader(trainset, batch_size=64, shuffle=True)
valloader = DataLoader(valset, batch_size=64, shuffle=False)

按照7：3的比例切分训练集和验证集。

将训练集和验证集转成torch.Tensor类型。

分别给训练集和验证集创建DataLoader对象。

n代表数据的维度，在后面创建模型的时候要用到。

EPOCH=300
modellr=0.0001
ACC=0
rnn = RNN(n)
rnn.to(device=DEVICE)
optimizer = optim.Adam(rnn.parameters(), lr=modellr)
loss_func=nn.CrossEntropyLoss()

EPOCH：迭代次数，设置为300。

modellr：学习率，设置为0.0001

ACC：记录验证集的最高分数。保存模型的时候，按照最高分数保存的。

创建rnn模型。

优化器选用Adam。

loss函数选用交叉熵。

完成上面的代码，接下来就是训练和验证部分的代码：

for step in range(EPOCH):
    rnn.train()
    loss_train=0
    for tx, ty in trainloader:
        data, target = tx.to(DEVICE, non_blocking=True), ty.to(DEVICE, non_blocking=True)
        output = rnn(torch.unsqueeze(data, dim=1))
        loss = loss_func(torch.squeeze(output), target.long())
        print_loss = loss.data.item()
        loss_train+=print_loss
        optimizer.zero_grad()  # clear gradients for this training step
        loss.backward()  # back propagation, compute gradients
        optimizer.step()
    print("epoch:",str(step),"loss:" ,str(loss_train/len(trainloader)))
    if step % 2:
        torch.save(rnn, 'rnn.pth')
    rnn.eval()
    correct = 0
    total_num = len(valloader.dataset)
    loss_val=0
    for vx, vy in valloader:
        data, target = vx.to(DEVICE, non_blocking=True), vy.to(DEVICE, non_blocking=True)
        output = rnn(torch.unsqueeze(data, dim=1))
        loss = loss_func(torch.squeeze(output), target.long())
        print_loss = loss.data.item()
        loss_val=loss_val+print_loss
        _, pred = torch.max(torch.squeeze(output), 1)
        correct += torch.sum(pred == target)
    acc = correct / total_num
    print("Val Loss {},ACC {}\n".format(loss_val/len(valloader),acc))
    if acc > ACC:
        torch.save(rnn, 'best.pth')
        ACC = acc

代码中注意的地方，由于GRU要求输入是三维的，但是我们的数据是二维的所以使用torch.unsqueeze(data, dim=1)增加一维。

在计算loss的时候，output多了一维，所以使用torch.squeeze将这一维去除。如果不理解将其打印出来就可以看到了。

完成上面的代码就可以开始训练了，运行结果如下：

训练完成后，接下来开始测试部分的编写

测试

新建test.py,插入代码：

import pandas as pd
import torch
import numpy as np
from torch import nn
from model import RNN

DEVICE = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

drain_file = 'comp_a_sellog'
df_data = pd.read_pickle('cpu_diag_comp_sel_log_all_feature_1h_3_sum.pkl')  # 读取之前构造好的特征数据
df_test_df = pd.read_csv('preliminary_submit_dataset_a.csv', index_col=0).reset_index()
df_test = pd.merge(df_data[df_data.sn.isin(df_test_df.sn)], df_test_df, on='sn', how='left')
res = df_test[['sn', 'fault_time']]
print(df_test)
x_test = df_test.drop(['sn', 'collect_time_gap', 'fault_time'], axis=1)
model=torch.load('best.pth')
model.cpu()
x_test = np.array(x_test)

df_tensor = torch.Tensor(x_test)
output= model(torch.unsqueeze(df_tensor, dim=1))
_, pred = torch.max(torch.squeeze(output), 1)
res['label']=pred
res = res.sort_values(['sn', 'fault_time'])
res = res.drop_duplicates(['sn', 'fault_time'], keep='last')
res.to_csv('comp_a_result_1.csv', index=0)

测试集处理部分也是参考了天池上Baseline。

load模型，并设置其device为cpu。

将测试集转为torch.Tensor对象。

预测，并保存结果。

总结

本文实现了第三届阿里云磐久智维算法大赛的BaseLine，该BaseLine基于pytoch版的GRU实现。通过对该BaseLine，可以学习到如何使用GRU完成对csv数据训练和测试。

希望能给大家带来帮助，谢谢！

“八皇后问题”解题思路与 C 语言代码实现 CoreFMEA软件技术算法 c语言算法八皇后问题解题思路
简介“八皇后问题”是一个经典的算法问题，也是回溯算法的典型应用案例。它的目标是在一个8×8的国际象棋棋盘上放置八个皇后，使得任意两个皇后都不能互相攻击，即不能处于同一行、同一列或同一斜线上。问题背景提出：由德国数学家马克斯·贝瑟尔于1848年提出，后经高斯等数学家研究。解的数量：高斯最初认为有76种解，后来通过图论方法确定共有92种不同的摆放方式。扩展：该问题可推广为“n皇后问题”，即在n×n的棋
【算法】滑动窗口算法详解让我们一起加油好吗算法算法 c语言数据结构滑动窗口 leetcode
文章目录1.滑动窗口简介2.OJ练习2.1长度最小的子数组思路一：暴力求解优化：由暴力求解到滑动窗口滑动窗口的使用思路二：滑动窗口2.2最大连续1的个数思路：滑动窗口+zero计数器2.3将x减到0的最小操作数思路：逆向思维+滑动窗口1.滑动窗口简介滑动窗口（SlidingWindow）是一种在计算机科学中用于解决各种子数组或子字符串问题的技术。滑动窗口技术通过维护一个固定大小的窗口在数组或字符串
算法随笔_62: 买卖股票的最佳时机程序趣谈算法 python 数据结构
上一篇:算法随笔_61:二进制求和-CSDN博客=====题目描述如下:给定一个数组prices，它的第i个元素prices[i]表示一支给定股票第i天的价格。你只能选择某一天买入这只股票，并选择在未来的某一个不同的日子卖出该股票。设计一个算法来计算你所能获取的最大利润。返回你可以从这笔交易中获取的最大利润。如果你不能获取任何利润，返回0。示例1：输入：[7,1,5,3,6,4]输出：5解释：在第
信奥赛CSP-J复赛集训（模拟算法专题）（1）：P8813 [CSP-J 2022] 乘方王老师青少年编程 csp 信奥赛 c++算法数据结构 gesp
信奥赛CSP-J复赛集训（模拟算法专题）（1）：P8813[CSP-J2022]乘方题目描述小文同学刚刚接触了信息学竞赛，有一天她遇到了这样一个题：给定正整数aaa和bbb，求aba^bab的值是多少。aba^bab即bbb个aaa相乘的值，例如232^323即为333个222相乘，结果为2×2×2=82\times2\times2=82×2×2=8。“简单！”小文心想，同时很快就写出了一份程序，
代码随想录算法训练营Day5| LeetCode 242 有效的字母异位词、349 两个数组的交集、202 快乐数、1 两数之和今天也要早睡早起代码随想录算法训练营跟练算法 leetcode 哈希算法
哈希表基本概念哈希表（hashtable）是一种数据结构，用于储存键值对数据。它可以理解为一个固定大小（NNN）的桶数组，每个桶都有一个编号（[0,N−1][0,N-1][0,N−1]）。当你想存一个键值对时，哈希函数会把键转换成一个对应的索引，告知你这个值应该存入哪个桶。即将条目(k,v)(k,v)(k,v)储存在桶A[h(k)]A[h(k)]A[h(k)]中。查找时，只需用相同的哈希函数计算出
【从零开始的LeetCode-算法】3270. 求出数字答案九圣残炎算法 leetcode java
给你三个正整数num1，num2和num3。数字num1，num2和num3的数字答案key是一个四位数，定义如下：一开始，如果有数字少于四位数，给它补前导0。答案key的第i个数位（1=1;i/=10){intnum=Math.min(Math.min(num1/i,num2/i),num3/i);num1%=i;num2%=i;num3%=i;res+=num*i;}returnres;}}
目前市场上的人工智能大模型有哪些？国货崛起大模型人工智能人工智能
截至最后更新时间（2024年3月中旬），以下是国内外部分知名的人工智能大模型，按类别和用途大致分类如下：国外：自然语言处理（NLP）大模型：OpenAIGPT系列：GPT-3：迄今为止最为知名的自然语言处理大模型之一，具备强大的文本生成、理解和对话能力。GPT-4：后续版本，性能和参数量比GPT-3更高，各项指标均有所提升。Google的Transformer系列：BERT（Bidirection
std::sort 排序算法本质想做后端的小C 排序算法算法数据结构
使用了内省排序（Introsort）现代标准库实现中，std::sort通常使用内省排序（Introsort），它是一种混合排序算法，结合了以下三种算法的优点：快速排序作为主要算法，平均情况下效率很高O(nlog⁡n)O(n\logn)O(nlogn)堆排序当快速排序的递归深度过大（可能导致O(n^2))的最坏情况）时，切换到堆排序，保证最坏复杂度为O(nlog⁡n)O(n\logn)O(nlog
基于Python深度学习的【害虫识别】系统~卷积神经网络+TensorFlow+图像识别+人工智能图像识别人工智能深度学习
一、介绍害虫识别系统，本系统使用Python作为主要开发语言，基于TensorFlow搭建卷积神经网络算法，并收集了12种常见的害虫种类数据集【"蚂蚁（ants）","蜜蜂（bees）","甲虫（beetle）","毛虫（catterpillar）","蚯蚓（earthworms）","蜚蠊（earwig）","蚱蜢（grasshopper）","飞蛾（moth）","鼻涕虫（slug）","蜗牛
详解：Grok中文版 _Grok 3 国内中文版本在线使用人工智能
GrokAI是由XAI公司推出的一款尖端人工智能系统。作为该公司核心技术之一，GrokAI专注于推动人工智能在各行各业的实际应用，尤其在数据分析、自然语言处理（NLP）、自动化决策、机器学习等领域表现出色。Grok的最大亮点在于其强大的数据处理能力。它能够高效地从大量复杂数据中提取有价值的信息，并做出精准预测。借助深度学习与强化学习等先进技术，GrokAI具备自我学习的能力，可以通过不断的训练来优
遗传算法基础讲解 HH予深度学习
一、遗传算法基础1.什么是遗传算法？一种模拟生物进化过程的优化算法，基于达尔文的“自然选择”和“遗传学理论”。核心思想：通过选择（优胜劣汰）、交叉（基因重组）、变异（基因突变）操作，逐步逼近问题的最优解。2.为什么用遗传算法？适用性强：解决复杂的非线性、多峰、离散或连续优化问题。无需梯度信息：对目标函数的数学性质要求低，适合黑箱优化。全局搜索能力：通过种群并行搜索，避免陷入局部最优，适合多维优化。
大模型入门 24k小善 AI编程 AI写作 prompt
大模型技术演进的核心脉络当前大模型技术已进入"参数规模+架构创新"双轮驱动阶段。2025年的最新趋势显示，万亿级参数模型在稀疏激活（如Mixture-of-Experts）与动态路由技术加持下，推理成本较传统密集模型降低57%。Transformer架构的持续演进体现在位置编码改进（如RoPE旋转位置编码）、注意力机制优化（FlashAttention算法提升30%训练速度）以及层级结构创新（深度
【计算机网络入门】TCP拥塞控制屁股割了还要学计算机网络计算机网络 tcp/ip 网络考研网络协议学习
目录1.TCP拥塞控制和TCP流量控制的区别2.检测到拥塞该怎么办2.1如何判断网络拥塞？3.慢开始算法+拥塞避免算法4.快重传事件->快恢复算法5.总结1.TCP拥塞控制和TCP流量控制的区别TCP流量控制是控制端对端的数据发送量。是局部的概念。TCP拥塞控制是控制整个网络中每台主机的数据发送量。是整体的概念。2.检测到拥塞该怎么办接收窗口代表数据的接收方接收数据的能力；拥塞窗口代表当前网络传输
力扣的第34题在排序数组中查找元素的第一个和最后一个位置 Wdc_12 leetcode 算法数据结构
1.题目给你一个按照非递减顺序排列的整数数组nums，和一个目标值target。请你找出给定目标值在数组中的开始位置和结束位置。如果数组中不存在目标值target，返回[-1,-1]。你必须设计并实现时间复杂度为O(logn)的算法解决此问题。1.1示例输入：nums=[5,7,7,8,8,10],target=8输出：[3,4]输入：nums=[5,7,7,8,8,10],target=6输出：
2024论文AIGC降重避雷指南：这些“坑”千万别踩！ LL06210721 AIGC 人工智能
政策背景：“2024年知网/维普新增AIGC检测模块，高校严查AI生成内容。据公开数据，某985院校硕士论文初检AIGC率超标比例达35%。”常见误区分析：误区1：直接复制AI生成的口语化结论→被算法标记“非学术表达”；误区2：虚构参考文献→查重率飙升+学术诚信风险；误区3：忽略图表公式规范性→格式问题被导师驳回。合规建议：表达优化：使用专业工具替换AI生成的松散句式（例：将“总而言之”改为“综上
基于hive的电信离线用户的行为分析系统赵谨言论文经验分享毕业设计
标题:基于hive的电信离线用户的行为分析系统内容:1.摘要随着电信行业的快速发展，用户行为数据呈现出海量、复杂的特点。为了深入了解用户行为模式，提升电信服务质量和精准营销能力，本研究旨在构建基于Hive的电信离线用户行为分析系统。通过收集电信用户的通话记录、上网行为、短信使用等多源数据，利用Hive数据仓库工具进行数据存储和处理，采用数据挖掘和机器学习算法对用户行为进行分析。实验结果表明，该系统
同城拉货搬家 APP 小程序开发事项以及优化方案 ALLSectorSorft 小程序
同城拉货搬家APP小程序：重塑便捷货运新体验针对同城拉货搬家APP小程序的优化方案，可围绕用户体验、服务效率、安全信任及商业模式创新四个维度展开，结合现有功能提出以下结构化改进策略：一、用户体验优化1.动态定价与高峰调度智能调价系统：引入基于供需关系的动态定价算法，高峰时段自动上浮价格激励司机接单，同时提供“闲时折扣”吸引价格敏感用户。动态定价算法（Python示例）#基于供需比的动态定价模型im
MoeCTF 2023 CRYPTO 部分wp ("cat suan_cai_yu") 网络
MoeCTF2023CRYPTO部分wp前言MoeCTF2023CRYPTO方向的部分赛题0x01、baby_e知识点：低加密指数攻击0x02、bad_E知识点:e和phi不互素0x03:bad_random知识点：线性同余算法生成伪随机数0x04.|p-q|知识点：p和q很接近直接爆破0x05.minipack知识点：背包密码，贪心算法总结前言作者通过写文章记录自己的CTF经历，有不对的地方还请
拉货搬家小程序开发中保障用户隐私和数据安全的方法 ALLSectorSorft 服务器数据库网络微信小程序小程序
拉货搬家小程序开发中保障用户隐私和数据安全的方法在开发拉货搬家类小程序时，保障用户隐私和数据安全需通过多维度技术手段和管理措施协同实现。以下是系统化的解决方案框架及实施要点：一、数据全生命周期加密保护1.存储层加密采用AES256算法对用户身份信息、订单轨迹、支付凭证等敏感字段加密存储，结合盐值（Salt）增强密码学安全性。敏感数据（如身份证号）建议脱敏后存储，例如仅保留部分字段并用哈希值关联业务
简述KMP模式匹配算法，next函数和nextval函数 Lkkkkkkkcy c语言数据结构与算法字符串算法数据结构
KMP算法首先KMP算法是基于next函数而实现的，与BF算法相比，KMP算法是没有了主串指针回溯的情况。改进后的算法复杂度为O(m+n).KMP算法的简述每一次比较时，当子串与主串不相等的时候，主串的指针不回溯，而是通过next函数所求得的值当作下一位子串开始比较的位置。(即尽可能地向右边滑动一段的距离，从而减少比较的次数)。KMP算法匹配过程示例第一趟匹配： ababcabcac
常用的分布式 ID 设计方案梦城忆分布式
文章目录1.UUID2.数据库自增ID3.雪花算法4.Redis生成ID5.美团Leaf1.UUID原理：UUID是由数字和字母组成的128位标识符，通过特定算法随机生成，包括时间戳、计算机网卡地址等信息。常见的版本有版本1（基于时间戳和MAC地址）、版本4（纯随机数）等。优点：生成简单，本地生成，不需要依赖额外的组件或服务，能有效减少网络开销。全球唯一，基本能保证在任何场景下不会重复。缺点：长度
如何实现对用户密码的加密燃星cro java 数据库后端安全
摘要算法：同样的明文，经过同样的摘要算法，得到的结果是一样的验证方法：验证经过摘要算法处理后的结果，如果密文一样那么就认为明文是一样的//数据库存储的一定是密文，用户输入的是明文；把用户输入的明文经过MD5处理后和数据库的内容进行对比，结果一样就认为密码正确网站解密MD5的原理是将一些较常见的密码经过MD5处理后的结果存储下来之后再与我们输入的需要解密的MD5数据进行比对达成的盐值salt明文+s
如何结合NLP（自然语言处理）技术提升OCR系统的语义理解和上下文感知能力？金智维科技官方自然语言处理 ocr 人工智能
光学字符识别（OCR）技术能够快速从文档、图像中提取文本信息，目前已经广泛应用于金融、教育、医疗、物流等领域。然而，传统OCR技术的功能主要集中在字符提取和简单的结构化输出上，难以处理复杂场景中涉及的语义理解与上下文感知问题。而通过将自然语言处理（NLP）技术与OCR相结合，可以极大提升系统对文本的语义理解能力，为多场景应用赋予更高的智能化水平。虽然OCR在文本识别的准确性和速度上不断提升，但面对
基于Python 和 DeepSeek API 实现文本分类修破立生大模型 python 人工智能
在自然语言处理（NLP）领域，文本分类是一项非常重要的任务，它可以帮助我们将大量的文本数据自动归类到不同的类别中。传统的文本分类方法有很多，而近年来，利用大模型进行文本分类逐渐成为一种流行且高效的方式。本文将介绍如何使用Python编写代码，结合DeepSeekAPI实现文本分类的功能，并探讨使用大模型方法进行文本分类与其他方法的区别。1代码概述我们的代码主要实现了以下几个功能：创建一个DeepS
功能优化的解耦点 wangYH.air 经验分享笔记
1.基于稳定性来设计解耦点和功能边界；2.功能边界要依赖明显的硬件边界、稳定的算法边界；3.保持接口文档，无明显优势情况下，不能删除接口；是否增加接口评审；组件接口评审；全体评审；可试行一次；4.功能优化要用明显的优势；如可扩展性、flash占用、负载率、可维护性；
基于RK3588的AI摄像头应用解决方案浙江启扬智能科技有限公司 linux ARM 嵌入式开发嵌入式硬件
随着人工智能（AI）技术的快速发展，越来越多的视频监控系统开始直接在摄像头上部署AI分析，视频监控从早期的图像记录发展到如今具备AI运算能力和算法，可进行目标识别、行为分析以及事件反馈，实现从被动记录到主动预警的转变。目前有三种算力部署方式：AI分析部署在云端、AI分析部署在边缘、AI分析部署在摄像头，也就是我们常说的云，边，端。但越来越多的摄像头本身就集成了AI分析能力，这一趋势的出现存在多方面
springboot接入emqx的mqtt renkai721 JAVA spring boot mqtt emqx
需求背景物联网设备需要通过mqtt协议传输，这里记录一下，注意，这篇文章不能接入阿里云的mqtt，本人已经试过，会报错。开发教程1、EMQX安装部署--1安装必要的依赖sudoyuminstall-yyum-utilsdevice-mapper-persistent-datalvm2--2设置repo库sudoyum-config-manager--add-repohttps://repos.em
OpenCV计算摄影学（15）无缝克隆（Seamless Cloning）调整图像颜色的函数colorChange() 村北头的码农 OpenCV opencv 人工智能计算机视觉
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述cv::colorChange是OpenCV中用于调整图像颜色的函数。它允许你通过乘以不同的系数来独立地改变输入图像中红色、绿色和蓝色通道的强度，从而实现对图像色彩的调整。这个功能对于需要精细控制图像色调的应用非常有用。函数原型voidcv::colorChang
行业首个AI课上线！粉笔战略布局加速技术商业化进程量子位教育
继推出AI老师后，粉笔AI产品矩阵进一步扩充。粉笔宣布，将于3月17日上线基于自研垂域大模型打造的“AI刷题系统班”，为用户提供行测、申论全科目覆盖的一站式高效备考支持。粉笔介绍，AI刷题系统班以AI为主导，采用“名师+AI数字人老师”双师结合模式，资深教师直播授课，AI教师启发式教学，具备DeepSeek同款深度思考能力，由数字人老师全程伴学，提供交互式学习体验，依托AI算法实现用户全周期学习管
国密算法SSL证书：自主可控的网络安全新选择 ssl证书
国密算法SSL证书：自主可控的网络安全新选择一、什么是国密算法SSL证书？国密算法SSL证书是基于中国自主研发的密码算法（SM2/SM3/SM4）打造的加密证书，遵循国家密码管理局（GM/T0024-2014）标准。与国际通用的RSA、ECC算法不同，国密算法通过国家认证，具备自主知识产权，旨在满足国内网络安全合规要求，保障数据传输安全。二、为何需要国密算法SSL证书？政策合规性金融、政务、能源等
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "xxxxx@xxxxx.com"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri