不让人放心

汽车领域多语种迁移学习挑战赛-Coggle 30 Days of ML

前言

依然是coggle的7月竞赛学习活动，本博客围绕着汽车领域多语种迁移学习挑战赛展开。

比赛地址：http://challenge.xfyun.cn/topic/info?type=car-multilingual&ch=ds22-dw-zmt05
活动地址：https://coggle.club/blog/30days-of-ml-202207
上一个任务是糖尿病遗传风险检测挑战赛，传送门：
糖尿病遗传风险检测挑战赛-Coggle 30 Days of ML

一、赛题理解

本赛题为标准的nlp领域的任务，需要通过给定的语料，完成相应的关键字提取和文本分类任务。关键词提取主要是考察对于文本的结构分析以及一些常见的分词工具如jieba、jiagu等等的使用，文本分类则要用到如今在nlp如日中天的预训练+微调这套东西（当然如果能把语料吃透，用字典或者规则也行），个人感觉这项工作对于不熟悉nlp的同学的要求要高一大截，但是如果能啃下来收获也是非常大的。

1.1 数据读取

照例还是先看看给的数据，训练集包含中文、英文、日语三类语言，其中英语和日语油给出了相应的中文翻译：
中文语料：

英文语料：

日文语料：

再看看给的提交示例（A榜）：

基本上就能确定了，这个任务就是要尽可能的填上“意图”列和两个“槽值”列，“意图”对应着文本分类，“槽值”则是关键词提取。

2.2 数据概览

以下两部分代码均来自于一位同样参与打卡活动的大佬@千千惠儿，能够在动手之前先对文本语料有一个大致的把握，首先是文本长度分布 ：

import matplotlib.pyplot as plt
import seaborn as sns

fig,axes=plt.subplots(1,3, figsize=(20, 5))  #创建一个1行三列的图片

train_cn['Chinese_text_len'] = [len(i) for i in train_cn["原始文本"]]
train_en['English_text_len'] = [len(i.split(" ")) for i in train_en["原始文本"]]
train_ja['Japan_text_len'] = [len(i) for i in train_ja["原始文本"]]

sns.distplot(train_cn['Chinese_text_len'],bins=10,ax=axes[0])
sns.distplot(train_en['English_text_len'],bins=10,ax=axes[1]) 
sns.distplot(train_ja['Japan_text_len'],bins=10,ax=axes[2])

然后是意图分布：

df_ana  = pd.DataFrame()
for label,df in zip(['中文','英文','日文'],[train_cn,train_en,train_ja]):
    temp = pd.DataFrame(df.意图.value_counts()).reset_index()
    temp.columns = ['%s意图'%label,'个数']
    df_ana = pd.concat([df_ana,temp],axis=1)
df_ana

槽值的槽点有点多，一时间想不到统计它的作用，所以这里就先不管了，不过我上方的传送门里那位大佬也针对这俩字段有所处理，感兴趣的同学可以移步看看。

二、文本分词

这块工作主要是熟悉一些常见的分词工具，中文和日文毕竟不像英文那样有空格隔开，所以想把一句话拆成几个词，还是需要一些成熟的词典工具进行辅助。比如jieba、jiagu还有coggle打卡活动中提示用于日语分词的nagisa，实际上这些工具除了能完成句子的分词任务以外，还能够给出相应词汇的词性（比如名词、动词、形容词等等），如果能用好这一点，至少可以粗略的定义一些规则，同样可以完成一些现实任务。

train_cn['words'] = train_cn['原始文本'].apply(jieba.lcut)
train_en['words'] = train_en['原始文本'].apply(lambda x:x.split(' '))
train_ja['words'] = train_ja['原始文本'].apply(lambda x:nagisa.tagging(x).words)

三、TFIDF与文本分类

3.1 TF-IDF

关于它的原理放个传送门：机器学习：生动理解TF-IDF算法。在做文本分类任务时，一个很重要的任务就是完成文本的向量化表示（这个是nlp的基础），TFIDF所提供的就是一种基于词频次的文本向量化表示方式，为了进一步理解它，我们不妨直接动手试一下：

from sklearn.feature_extraction.text import TfidfVectorizer
tv = TfidfVectorizer(use_idf=True, smooth_idf=True, norm=None)
words_list = [  # 每行表示一个文本
    "i am a good boy",
    "i am a bad boy",
    "she is so pretty",
    "she drives me crazy",
    "i fell in love with her"
]
tv_fit = tv.fit_transform(words_list)

查看一下构建的词汇表以及表的长度：
再查看一下向量化的结果：

输出的是一个5*16的矩阵，这就很明显了。TfidfVectorizer根据抽取出来的16个词汇表来为每句话进行向量化操作，每一行代表对应的一个文本的向量化结果。

3.2 文本分类（意图分类）

了解了这个，其实就可以完成相应的文本分类任务了，要做的事情就是把原本的文本段落和对应的意图的用TFIDF进行向量化，然后采用相应的模型进行训练即可，这里直接贴上活动官方给的代码了：

## copy from https://coggle.club/blog/30days-of-ml-202207
import pandas as pd # 读取文件
import numpy as np # 数值计算
import nagisa # 日文分词
from sklearn.feature_extraction.text import TfidfVectorizer # 文本特征提取
from sklearn.linear_model import LogisticRegression # 逻辑回归
from sklearn.pipeline import make_pipeline # 组合流水线

# 读取数据
train_cn = pd.read_excel('汽车领域多语种迁移学习挑战赛初赛训练集/中文_trian.xlsx')
train_ja = pd.read_excel('汽车领域多语种迁移学习挑战赛初赛训练集/日语_train.xlsx')
train_en = pd.read_excel('汽车领域多语种迁移学习挑战赛初赛训练集/英文_train.xlsx')

test_ja = pd.read_excel('testA.xlsx', sheet_name='日语_testA')
test_en = pd.read_excel('testA.xlsx', sheet_name='英文_testA')

# 文本分词
train_ja['words'] = train_ja['原始文本'].apply(lambda x: ' '.join(nagisa.tagging(x).words))
train_en['words'] = train_en['原始文本'].apply(lambda x: x.lower())

test_ja['words'] = test_ja['原始文本'].apply(lambda x: ' '.join(nagisa.tagging(x).words))
test_en['words'] = test_en['原始文本'].apply(lambda x: x.lower())

# 训练TFIDF和逻辑回归
pipline = make_pipeline(
    TfidfVectorizer(),
    LogisticRegression()
)
pipline.fit(
    train_ja['words'].tolist() + train_en['words'].tolist(),
    train_ja['意图'].tolist() + train_en['意图'].tolist()
)

# 模型预测
test_ja['意图'] = pipline.predict(test_ja['words'])
test_en['意图'] = pipline.predict(test_en['words'])
test_en['槽值1'] = np.nan
test_en['槽值2'] = np.nan

test_ja['槽值1'] = np.nan
test_ja['槽值2'] = np.nan

# 写入提交文件
writer = pd.ExcelWriter('submit.xlsx')
test_en.drop(['words'], axis=1).to_excel(writer, sheet_name='英文_testA', index=None)
test_ja.drop(['words'], axis=1).to_excel(writer, sheet_name='日语_testA', index=None)
writer.save()
writer.close()

本着多试试没毛病的原则，又把LogisticRegression改成RandomForestClassifier试了一下，最终两个结果：

3.3 扯点别的

自从bert出现之后，这种预训练-微调的这种模式几乎成为解决各种nlp问题的基本范式了，但是我个人依然认为理解并掌握经典的文本分类原理和工程思路还是十分有必要的。
对于本赛题，这种意图的预测方式确实有点粗暴，却意外有效，但是一个不得不提及的点是从头到尾并没有用到占绝大对数的中文语料，这毫无疑问是个很大的遗憾。

四、正则表达式

本节任务：

步骤1：学习使用正则表达式，并提取文本中的连续数值；
步骤2：使用正则表达式进行槽值匹配（基于历史的槽值字符串）。

正则表达式这东西确实是比较让人犯愁的东西，大部分人都知道有这么个东西也知道它能用来干啥，但是真正用的时候又得去翻翻资料（知识点太琐碎了，而且没有全部记忆的必要）。在python中，有专门的re包可以负责干这个事，它常常配合request、bs4等模块，完成一些爬虫工作。

4.1提取文本中的连续数值

import re
train_cn['num'] = train_cn['原始文本'].map(lambda x: re.findall("\d+", x))
train_ja['num'] = train_cn['原始文本'].map(lambda x: re.findall("[一|二|三|四|五|六|七|八|九|十]+",x))
## 英文的没有数字，不管了

结果：

4.2 使用正则表达式进行槽值匹配

这项工作的核心就是对数据集的观察，在2.2数据预览这部分，我们不难注意到，中英日这三类语言的意图是固定的，前面基于TFIDF完成的文本分类工作，本质上就是把它看作一个多分类的问题，明确了这一点，我们再来挨个观察一下训练集中不同的意图，这里以英文为例，可以得到下面这个表：

代码如下，关于music_search、poi这三个意图，我个人确实没能想到很好的基于规则的处理方案，如果有其它想法的小伙伴欢迎交流（个人邮箱：[email protected]）。

caozhi_en = []
num_list = ['one','two','three','four','five','six','seven','eight','nine','ten',
            'eleven','twelve','thirty','forty','fifty','sixty','seventy','eighteen','nineteen','twenty']
for index,row in test_en.iterrows():
    if row["意图"]=="adjust_ac_temperature_to_number" or row["意图"]=="adjust_ac_windspeed_to_number":
        words_split = row["words"].split(" ")
        num_str = "offset:"
        for word in words_split:
            if word in num_list:
                num_str = num_str + word
            if word.find("-") != -1:
                num_str = num_str + word
        caozhi_en.append(num_str)
    elif row["意图"]=="open_car_device":
        device_str = "device:"
        search = re.search("atmosphere Lamp|car's roof|car window|sunshade|window|sunroof|roof",row["原始文本"])
        if search:
            device_str = device_str + search.group()
        caozhi_en.append(device_str)
    elif row["意图"]=="close_car_device":
        device_str = "device:"
        search = re.search("Automobile Ambient atmosphere Lamp|atmosphere Lamp|Car sunshade|car's roof|car roof|car window|sunshade|sunlight roof|window|sunroof|roof",row["原始文本"])
        if search:
            device_str = device_str + search.group()
        caozhi_en.append(str(device_str))
    elif row["意图"]=="open_ac_mode":
        mode_str = "mode:"
        search = re.search("automatic mode|cooling mode|heating mode|inner loop|Automatic",row["原始文本"])
        if search:
            mode_str = mode_str + search.group()
        caozhi_en.append(str(device_str))
    else:
        caozhi_en.append(np.nan)
test_en['槽值1'] = caozhi_en
test_en['槽值2'] = np.nan

日文的同理，这里黄色和绿色的完全可以用正则进行匹配(绿色的要稍微麻烦一些)，其余的就都暂时不管了。提交结果：

提交的时候已经是二阶段了（汗颜耽误了这么多天），由于数据集不一样，没办法跟之前的做比较，但是可以确定的是对于赛题数据的解析，必要时还是会起到作用。现阶段一个很值得注意的点是，目前所有的“槽值”的匹配，都依赖于前一步得到的"意图"，这是不希望见到的，因此还有很大的优化空间。

五、BERT模型入门

本节任务：

步骤1使用BERT完成意图识别（文本分类）
步骤2：将步骤1预测的结果文件提交到比赛，截图分数；

关于BERT的原理，这里安利一个b站大佬的讲解：【BERT模型】暴力的美学，协作的力量（好看不火系列）。由于BERT独有的训练方式，加之超大的预料，使得它天然就具备向文本分类、命名实体识别等下游任务迁移的能力。

这部分迁移自讯飞的另一个比赛：基于论文摘要的文本分类与查询性问答baseline。
整个工程分为以下几个阶段，首先是读取数据文件：

train_cn = pd.read_excel('./data/中文_trian.xlsx')
train_ja = pd.read_excel('./data/日语_train.xlsx')
train_en = pd.read_excel('./data/英文_train.xlsx')
test_en =  pd.read_excel('testB.xlsx',sheet_name='英文_testB')
test_ja =  pd.read_excel('testB.xlsx',sheet_name='日语_testB')

然后进行数据的合并，对训练意图使用pd.factorize方法编码

train_df = train_df.sample(frac=1.0) # 对原来的数据进行随机
train_df['intent_factorize'], intent_ecode = pd.factorize(train_df['意图'])  # 使用pd.factorize方法编码

然后就是借助bert-base-multilingual-cased进行encoding：

from transformers import AutoTokenizer, AutoModelForSequenceClassification , AutoConfig

tokenizer = AutoTokenizer.from_pretrained("./model/bert-base-multilingual-cased")
config = AutoConfig.from_pretrained("./model/bert-base-multilingual-cased")
train_encoding = tokenizer(train_df['原始文本'].to_list()[:], truncation=True, padding=True, max_length=512)
test_encoding = tokenizer(test_df['原始文本'].to_list()[:], truncation=True, padding=True, max_length=512)
num_label = max(train_df['intent_factorize'].to_list()) + 1  # 意图的数目，也即分类的数目

定义Dataset：

from torch.utils.data import Dataset, DataLoader
class BertDataset(Dataset):
    def __init__(self, encodings, labels):
        self.encodings = encodings
        self.labels = labels

    # 读取单个样本
    def __getitem__(self, idx):
        item = {key: torch.tensor(val[idx])
                for key, val in self.encodings.items()}
        item['labels'] = torch.tensor(int(self.labels[idx]))
        return item

    def __len__(self):
        return len(self.labels)
train_dataset = BertDataset(train_encoding, train_df['intent_factorize'].to_list())
test_dataset = BertDataset(test_encoding, [0] * len(test_df))

# 单个读取到批量读取
train_loader = DataLoader(train_dataset, batch_size=8, shuffle=True)
test_dataloader = DataLoader(test_dataset, batch_size=8, shuffle=False)

初始化模型：

from transformers import AutoModelForSequenceClassification, AdamW

checkpoint ='./model/bert-base-multilingual-cased'
model = AutoModelForSequenceClassification.from_pretrained(checkpoint, num_labels=num_label)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

# 优化方法
optim = AdamW(model.parameters(), lr=1e-5)
total_steps = len(train_loader) * 1

训练函数（这部分几乎没改）：

def train():
    model.train()
    total_train_loss = 0
    iter_num = 0
    total_iter = len(train_loader)
    for batch in train_loader:
        # 正向传播
        optim.zero_grad()

        input_ids = batch['input_ids'].to(device)
        attention_mask = batch['attention_mask'].to(device)
        labels = batch['labels'].to(device)
        outputs = model(input_ids, attention_mask=attention_mask, labels=labels)
        loss = outputs[0]
        total_train_loss += loss.item()

        # 反向梯度信息
        loss.backward()
        torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)

        # 参数更新
        optim.step()
        # scheduler.step()

        iter_num += 1
        if(iter_num % 50 == 0):
            print("epoth: %d, iter_num: %d, loss: %.4f, %.2f%%" %
                  (epoch, iter_num, loss.item(), iter_num/total_iter*100))

    print("Epoch: %d, Average training loss: %.4f" %
          (epoch, total_train_loss/len(train_loader)))


def validation():
    model.eval()
    total_eval_accuracy = 0
    total_eval_loss = 0
    for batch in test_dataloader:
        with torch.no_grad():
            # 正常传播
            input_ids = batch['input_ids'].to(device)
            attention_mask = batch['attention_mask'].to(device)
            labels = batch['labels'].to(device)
            outputs = model(
                input_ids, attention_mask=attention_mask, labels=labels)

        loss = outputs[0]
        logits = outputs[1]

        total_eval_loss += loss.item()
        logits = logits.detach().cpu().numpy()
        label_ids = labels.to('cpu').numpy()
        total_eval_accuracy += flat_accuracy(logits, label_ids)

    avg_val_accuracy = total_eval_accuracy / len(test_dataloader)
    print("Accuracy: %.4f" % (avg_val_accuracy))
    print("Average testing loss: %.4f" %
          (total_eval_loss/len(test_dataloader)))
    print("-------------------------------")

for epoch in range(4):
    print("------------Epoch: %d ----------------" % epoch)
    train()
    validation()

训练过程：

从几个testing loss可以看出，模型有点过拟合了（确实训练数据量不大）。
模型预测：

def prediction():
    model.eval()
    test_label = []
    for batch in test_dataloader:
        with torch.no_grad():
            input_ids = batch['input_ids'].to(device)
            attention_mask = batch['attention_mask'].to(device)

            pred = model(input_ids, attention_mask).logits
            test_label += list(pred.argmax(1).data.cpu().numpy())
    return test_label
test_predict = prediction()
test_df['意图'] = [intent_ecode[x] for x in test_predict]
test_en = test_df.iloc[:526]
test_ja = test_df.iloc[526:]

结果：

至此算是完成了意图的识别。

参考：

Pandas小知识—map、apply、applymap

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
CX8836：小体积大功率升降压方案推荐（附Demo设计指南）诚芯微科技社交电子
CX8836是一颗同步四开关单向升降压控制器，在4.5V-40V宽输入电压范围内稳定工作，持续负载电流10A，能够在输入高于或低于输出电压时稳定调节输出电压，可适用于USBPD快充、车载充电器、HUB、汽车启停系统、工业PC电源等多种升降压应用场合，为大功率TYPE-CPD车载充电器提供最优解决方案。提供CX8836Demo测试、CX8836样品申请及CX8836方案开发技术支持。CX8836同升
摩托车加装车载手机充电usb方案/雅马哈USB充电方案开发诚芯微科技社交电子
长途骑行需要给手机与行车记录仪等设备供电，那么，加装USB充电器就相继在两轮电动车上应用起来了。摩托车加装usb充电方案主要应用于汽车、电动自行车、摩托车、房车、渡轮、游艇等交通工具。提供电动车USB充电器方案/摩托车加装usb充电方案/渡轮加装usb充电方案/游艇加装usb充电方案开发。摩托车加装车载手机充电usb方案、汽车游艇改装四孔面板装双USB车充点烟器5V/4A电动车USB充电器输入4.
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
TDengine 签约前晨汽车，解锁智能出行的无限潜力涛思数据（TDengine） tdengine 汽车大数据
在全球汽车产业转型升级的背景下，智能网联和新能源技术正迅速成为商用车行业的重要发展方向。随着市场对环保和智能化需求的日益增强，企业必须在技术创新和数据管理上不断突破，以满足客户对高效、安全和智能出行的期待。在这一背景下，前晨汽车凭借其在新能源智能商用车领域的前瞻性布局和技术实力，成为行业中的佼佼者。前晨汽车采用整车数据采集和全车数据打通策略，能够实时将数据推送至APP端客户。然而，这导致整体写入和
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
基于STM32的汽车仪表显示系统：集成CAN、UART与I2C总线设计流程极客小张 stm32 汽车嵌入式硬件物联网单片机 c语言
一、项目概述项目目标与用途本项目旨在设计和实现一个基于STM32微控制器的汽车仪表显示系统。该系统能够实时显示汽车的速度、转速、油量等关键信息，并通过CAN总线与其他汽车控制单元进行通信。这种仪表显示系统不仅提高了驾驶的安全性和便捷性，还能为汽车提供更智能的用户体验。技术栈关键词微控制器：STM32显示技术：TFTLCD/OLED传感器：速度传感器、温度传感器、油量传感器通信协议：CAN总线、UA
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
【Python搞定车载自动化测试】——Python实现车载以太网DoIP刷写（含Python源码）疯狂的机器人 Python搞定车载自动化 python DoIP UDS ISO 14229 1SO 13400 Bootloader tcp/ip
系列文章目录【Python搞定车载自动化测试】系列文章目录汇总文章目录系列文章目录前言一、环境搭建1.软件环境2.硬件环境二、目录结构三、源码展示1.DoIP诊断基础函数方法2.DoIP诊断业务函数方法3.27服务安全解锁4.DoIP自动化刷写四、测试日志1.测试日志五、完整源码链接前言随着智能电动汽车行业的发展，汽车=智能终端+四个轮子，各家车企都推出了各自的OTA升级方案，本章节主要介绍如何使
【数据结构-一维差分】力扣2848. 与车相交的点 hlc@ 数据结构数据结构 leetcode 算法
给你一个下标从0开始的二维整数数组nums表示汽车停放在数轴上的坐标。对于任意下标i，nums[i]=[starti,endi]，其中starti是第i辆车的起点，endi是第i辆车的终点。返回数轴上被车任意部分覆盖的整数点的数目。示例1：输入：nums=[[3,6],[1,5],[4,7]]输出：7解释：从1到7的所有点都至少与一辆车相交，因此答案为7。示例2：输入：nums=[[1,3],[5
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
2025第十二届广州国际汽车零部件加工技术及汽车模具展览会 ws201907 人工智能大数据汽车
2025第十二届广州国际汽车零部件加工技术及汽车模具展览会时间：2025年11月20日-22日地点：广州保利世贸博览馆(PWTCExpo)预计20000平方米展出面积；400多家参展商：20000多名观众；汇集了各种汽车零部件成品、汽车模具以及机床加工技术的行业盛会；聚集超过80家汽车主机厂以及3000家一二级零部件制造商参观展览会！展会简介：2025第十二届广州国际汽车零部件加工技术及汽车模具展
助力新能源汽车产业发展，2025第五届广州国际新能源汽车产业智能制造技术展览会将于11月在广州召开 ws201907 制造汽车
助力新能源汽车产业发展，2025第五届广州国际新能源汽车产业智能制造技术展览会将于11月在广州召开伴随着全球新一轮科技革命和产业变革，汽车与能源、半导体、物联网等领域有关技术加速融合，新能源汽车已成为全球汽车产业转型升级的主要方向。近年来，在相关政策的影响下，新能源汽车市场呈现出快速增长的态势，市场规模不断扩大。截至2020年，中国新能源汽车保有量已超过500万辆，成为全球最大的新能源汽车市场。随
新能源汽车 BMS 学习笔记篇—BMS 基本定义及分类 WPG大大通其他笔记汽车 BMS 经验分享新能源电池
一、BMS定义1、概念：BMS（BatteryManagementSystem）即电池管理系统，其管理对象是二次电池（充电电池或蓄电池），其主要目的是电池的利用率，防止电池出现过度充电和过度放电，可应用于电动汽车、电瓶车、机器人、无人机等图片来源：腾讯网https://new.qq.com《标准普尔警告，电动汽车电池生产面临供应链和地缘政治风险》2、四大功能①感知和测量：检测电池的电压、电流、温度
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
APQP，ASPICE，敏捷，功能安全，预期安全，这些汽车行业的一堆标准二大宝贝安全架构
前言APQP,ASPICE,敏捷，功能安全，预期安全，PMP，PRICE2汽车行业的有这样一堆标准。我是半路出家来到汽车行业做项目经理的，对几个标准的感觉是，看了文档和各种解析之后还是一头雾水，不知道到底说了个啥，别人问我还是一脸懵逼。APQP（TS16949的最重要工具），ASPICE（软件）这些是质量标准，是优化整个公司体系的，但这套体系对项目管理有要求；敏捷，PMP这些是项目管理的标准；项目
探索ASPICE V3.1：汽车行业软件开发的中文指南阮懿同
探索ASPICEV3.1：汽车行业软件开发的中文指南ASPICE_V3.1中文版.pdf.zip项目地址:https://gitcode.com/open-source-toolkit/422a2在汽车软件工程领域，高质量的标准对于确保行车安全和提升用户体验至关重要。今天，我们为您介绍一个珍贵的开源宝藏——ASPICEV3.1中文版资源。这是一篇专为国内汽车行业开发者、质量管理者准备的深度解读，旨
以研发创新为驱动力，黄山谷捷助力新能源汽车产业高质量发展 L913197600 黄山谷捷制造科技
在新能源汽车产业蓬勃发展的浪潮中，车规级功率半导体作为驱动电机控制系统的核心部件，其性能与稳定性直接关系到汽车的动力输出、能效转化及安全性能。在这一关键领域，黄山谷捷股份有限公司（以下简称“黄山谷捷”或“公司”）以卓越的研发实力、精湛的生产工艺和严格的质量控制体系，成为行业内的佼佼者，特别是在功率半导体散热基板领域，更是树立了新的标杆。自2012年成立以来，黄山谷捷便深谙“科技是第一生产力”的真谛
电子技术引领汽车智能新浪潮，尽在AUTO TECH 2025广州国际汽车电子技术盛会 JSZNZZ 汽车
随着科技的持续进步，汽车电子行业正迎来深刻的转型。这一变革的显著特征是从传统的机械控制方式逐渐过渡到智能化和网联化的管理系统。这种转变不仅提升了汽车电子产品的技术复杂性，还极大地丰富了其创新性和功能性。在这个过程中，产品开发的质量和效率变得尤为关键，它们直接决定了企业在激烈竞争环境中的市场地位和商业成功。面对快速变化的市场需求，汽车电子行业在产品开发过程中遇到了多方面的挑战。其中，信息孤岛是一个显
‌汽车一键式启动系统‌包含哪些功能 zsmydz888 汽车一键式启动系统‌汽车无钥匙启动系统汽车
‌汽车一键式启动系统‌是一种智能化的汽车启动系统，它通过一个按钮来启动和熄灭发动机，取代了传统的钥匙启动方式。这个系统不仅简化了启动和熄火的步骤，还提供了多种智能化的功能，如自动开锁、自动关锁、自动关窗、自动防盗等。此外，汽车一键式启动系统还支持远程启动和紧急熄火功能，以及个性化设置记忆功能，大大提升了驾驶的便利性和安全性。‌移动管家汽车无钥匙进入一键启动基本功能‌：‌一键启动与熄火‌：通过轻按按
AUTO TECH 2025 广州国际汽车软件与安全技术展览会 ws201907 汽车安全
AUTOTECH2025广州国际汽车软件与安全技术展览会ChinaGuangzhouSoftware-DefinedVehicleExpo2025亚洲领先的汽车软件与安全技术专业展会——是与来自世界各地的汽车工程师们交流的最佳平台！广州国际汽车软件与安全技术展览会是AUTOTECH2025华南展专题展之一，汇集了各种汽车嵌入式软件开发与应用、车载操作系统、智驾功能安全与SOTIF、基础软件平台、车
[数据集][目标检测]汽车头部尾部检测数据集VOC+YOLO格式5319张3类别 FL1623863129 数据集目标检测汽车 YOLO
数据集制作单位：未来自主研究中心(FIRC)版权单位：未来自主研究中心(FIRC)版权声明：数据集仅仅供个人使用，不得在未授权情况下挂淘宝、咸鱼等交易网站公开售卖,由此引发的法律责任需自行承担数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：5319标注数量(xml文件
叠音词的妙用生死不离_76da
叠音词的应用往往给人可爱，生动的感觉，比如，流水潺潺，猪猪侠。在生活中，我们一般用叠音词来哄小孩，比如:来，吃饺饺(饺子)，吃包包(包子)，看车车(汽车)，可能因为小孩刚学说话，学起叠音词比较容易，因为就是同音念两遍而已。国庆回家，妈妈哄小孙子，吃卷卷(馒头)，吃豆豆(豆腐，不解)，吃晒晒(山药)，感觉很有趣。汽车过来了，我会让他靠边边，开车出去玩会说坐车车，当然还会举高高。
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，