熙仪繁华

华为AI认证＿NLP

实验一：jieba分词

import jieba


# 精确模式
print("--------精确模式------")

# 分词的语料库
s="每个词都有两个对应的向量，一个是作为中心词的向量，一个是作为上下文词的向量"
cut=jieba.cut(s,cut_all=False,HMM=False)
# print(cut)
print(' '.join(cut))

#全模式
print("--------全模式------")
print(' '.join(jieba.cut(s,cut_all=True)))
print(' '.join(jieba.cut(s,cut_all=False,HMM=True)))

# 搜素引擎模式
print("--------搜素引擎模式------")
print(' '.join(jieba.cut_for_search(s)))

# 文本文件分词
print("--------文本文件分词------")

old_file="./data/华为.txt"
new_file="./data/华为cut.txt"

# 读取数据
with open(old_file,'r') as f:
    text=f.read()
# 分词
new_text=jieba.cut(text,cut_all=False)
# 去除标点符号
str_out=' '.join(new_text).replace(',','').replace('。','').replace('?','')
# 数据写入和保存
with open(new_file,'w',encoding='utf-8') as f:
    f.write(str_out)

运行：

实验二：word2vec

代码：

import jieba
import os
import gensim
from gensim.models import word2vec,Word2Vec


# 定义语料库存放路径和模型保存路径
cut_file = r'data/华为cut.txt'
save_model = r'model/华为.model'

def model_train(train_file,save_model):
    '''
    模型训练的函数
    :param train_file:  数据存放路径
    :param save_model:  模型保存路径
    :return:
    '''
    print("Training...........")
    # 加载语料库
    sentences = word2vec.Text8Corpus(train_file)
    # 模型训练，生成词向量
    model = Word2Vec(sg=1,vector_size=200,alpha=0.00001,epochs=10000,min_count=2)

    # 训练skip-gram模型
    model.build_vocab(sentences)
    # 保存模型
    model.save(save_model)

# 调用模型
if not os.path.exists(save_model):
    model_train(cut_file, save_model)
else:
    print("模型已存在，不需要再次训练")

# 加载模型
model = Word2Vec.load(save_model)
print(model)

# 输入原始文档中的两个词，计算相似度
y1 = model.wv.similarity('华为','芯片')
print('华为&芯片的相似度：',y1)

实验三：文本分类

3.1 特征提取——词袋法

import jieba
from sklearn.feature_extraction.text import CountVectorizer

jieba_token=jieba.cut #指定分词模式
print(list(jieba_token("我爱自然语言处理")))
corpus=['我爱上海','我爱杭州','我爱北京天安门'] #指定文本信息
countVect=CountVectorizer(tokenizer=jieba_token) #初始化CountVectorizer() 实例 并指定分割器
x_train=countVect.fit_transform(corpus) #词向量化
print(x_train.shape)

print(countVect.vocabulary_)  #查看词袋模型
print(x_train.toarray())  #转换成列表

运行：

3.2 特征提取——TF_IDF

代码：

import jieba
from sklearn.feature_extraction.text import CountVectorizer,TfidfTransformer

jieba_token=jieba.cut #指定分词模式

corpus=['我爱上海','我爱杭州','我爱北京天安门'] #指定文本信息

# 初始化词袋模型
countVect=CountVectorizer(tokenizer=jieba_token) #初始化CountVectorizer() 实例 并指定分割器

# 初始化tf_idf
tfidfTransf=TfidfTransformer()

# 先转化成词袋矩阵
x_train_count=countVect.fit_transform(corpus) #词向量化

# 在转化成TF-IDF 矩阵
x_train=tfidfTransf.fit_transform(x_train_count)

print(x_train.shape)

# 查看词袋模型
print(countVect.vocabulary_) #查看词袋模型

print(x_train.toarray()) #转换成列表 查看结果

运行：

(3, 6)
{'我': 3, '爱': 5, '上海': 0, '杭州': 4, '北京': 1, '天安门': 2}
Loading model cost 1.069 seconds.
Prefix dict has been built successfully.
[[0.76749457 0.         0.         0.45329466 0.         0.45329466]
 [0.         0.         0.         0.45329466 0.76749457 0.45329466]
 [0.         0.6088451  0.6088451  0.35959372 0.         0.35959372]]

实验四文本特征选择

4.1 卡方检验

import jieba
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_selection import SelectKBest,chi2

docs = [
    '我爱自然语言处理',
    '我恨自然语言处理',
    '我很喜欢这本书',
    '我很讨厌这本书',
    '我喜欢使用python语言',
]  # 待进行处理的文本

labels = [0,1,0,1,0]

countVec = CountVectorizer(tokenizer=jieba.cut)  # 初始化词袋模型
x_train = countVec.fit_transform(docs)

chi2Select = SelectKBest(chi2,k=10)
chi2Select.fit(x_train,labels)

score = pd.DataFrame(
    list(zip(countVec.get_feature_names(),chi2Select.scores_,chi2Select.pvalues_)),
    columns= ['word','score','pval']
)

print(score.sort_values('score',ascending=True))

运行：

      word     score      pval
6        我  0.000000  1.000000
3       处理  0.083333  0.772830
4        很  0.083333  0.772830
7       本书  0.083333  0.772830
9     自然语言  0.083333  0.772830
12       这  0.083333  0.772830
0   python  0.666667  0.414216
1       使用  0.666667  0.414216
8        爱  0.666667  0.414216
11      语言  0.666667  0.414216
2       喜欢  1.333333  0.248213
5        恨  1.500000  0.220671
10      讨厌  1.500000  0.220671

实验五朴素贝叶斯文本分类

import jieba
import pandas as pd
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics import classification_report,accuracy_score

# 加载数据
train = pd.read_csv('./data/chnsenticorp/train.tsv',sep="\t")
test = pd.read_csv('./data/chnsenticorp/test.tsv',sep='\t')

labels = {0:'垃圾邮件',1:'正常邮件'}

# 将特征和目标值分开
x_train,y_train = train.text_a.values,train.label.values
x_test,y_test = test.text_a.values,test.label.values
print(x_train)

# 定义分类器
class NB_Classifier():

    def __init__(self):
        #  朴素贝叶斯分类器
        self.model = MultinomialNB(alpha=1.0)  # alpha=1.0 是拉普拉斯平滑系数
        # 初始化TF-IDF
        self.processor = TfidfVectorizer(tokenizer=jieba.cut)

    # 训练模型
    def fit(self,x_train,y_train):
        # 利用tf-idf进行特征提取
        x_train_fea = self.processor.fit_transform(x_train)

        # 利用朴素贝叶斯进行模型训练
        self.model.fit(x_train_fea,y_train)

        # 获取准确率
        train_accuracy = self.model.score(x_train_fea,y_train)
        print("训练集的准确率：{}".format(round(train_accuracy,2)))

    def textFit(self,x_test,y_test):
        '''
        测试模型
        :param x_test:
        :param y_test:
        :return:
        '''

        x_test_fea = self.processor.transform(x_test)  # 提取特征值
        y_predict = self.model.predict(x_test_fea) # 获取测试结果
        # test_accuracy = self.model.score(x_test_fea,y_test)  # 获取测试集的准确率
        # print(y_predict)

        # print("测试集的准确率：{}".format(round(test_accuracy,2)))

        print("预测结果：",y_predict[:10])
        print("真实结果：",y_test[:10])

        print("测试集预测结果：\n")
        print(classification_report(y_test,y_predict,target_names=['0','1']))

    def single_pridect(self,text):
        '''
        使用训练好的模型，预测数据
        :param text:  待预测的文本
        :return:
        '''
        text_preprocess = [' '.join(jieba.cut(text))]  # 对文本进行分词
        text_fea = self.processor.transform(text_preprocess)  # 特征提取
        predict_idx = self.model.predict(text_fea)[0]  # 对数据进行预测，并把第一个结果获取出来 获取到的值是0/1
        predict_label = labels[predict_idx]  # 根据predict_idx的值从目标值字典中获取对应的键
        predict_prob = self.model.predict_proba(text_fea)[0][predict_idx]

        return predict_label,predict_prob


# 初始化分类器
nb_classifiter = NB_Classifier()

# 训练模型
nb_classifiter.fit(x_train,y_train)

# 测试模型
nb_classifiter.textFit(x_test,y_test)

# 调用模型预测
(predict_label,predict_prob) = nb_classifiter.single_pridect("外观很漂亮，出人意料的漂亮，做工非常好。")
print((predict_label,predict_prob))

(predict_label,predict_prob) = nb_classifiter.single_pridect("书的内容没什么好说的，主要是纸张，印刷太差了。")
print((predict_label,predict_prob))

D:\ProgramData\Anaconda3\envs\data_analys\python.exe D:/worke/pycode/PCA/NLP/tk_05_朴素贝叶斯分类器.py
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\root\AppData\Local\Temp\jieba.cache
['选择珠江花园的原因就是方便，有电动扶梯直接到达海边，周围餐馆、食廊、商场、超市、摊位一应俱全。酒店装修一般，但还算整洁。 泳池在大堂的屋顶，因此很小，不过女儿倒是喜欢。 包的早餐是西式的，还算丰富。 服务吗，一般'
 '15.4寸笔记本的键盘确实爽，基本跟台式机差不多了，蛮喜欢数字小键盘，输数字特方便，样子也很美观，做工也相当不错'
 '房间太小。其他的都一般。。。。。。。。。' ...
 '虽是观景房,不过我住的楼层太低(19楼)看不到江景,但地点很好,离轻轨临江门站和较场口站(起点)很近,解放碑就在附近(大约100多公尺吧)!'
 '性价比不错，交通方便。行政楼层感觉很好，只是早上8点楼上装修，好吵。 中餐厅档次太低，虽然便宜，但是和酒店档次不相配。'
 '跟心灵鸡汤没什么本质区别嘛，至少我不喜欢这样读经典，把经典都解读成这样有点去中国化的味道了']
Loading model cost 0.795 seconds.
Prefix dict has been built successfully.
训练集的准确率：0.94
预测结果： [1 0 0 1 1 1 0 1 1 0]
真实结果： [1 0 0 1 1 1 0 1 1 0]
测试集预测结果：

              precision    recall  f1-score   support

           0       0.87      0.88      0.88       592
           1       0.88      0.88      0.88       608

    accuracy                           0.88      1200
   macro avg       0.88      0.88      0.88      1200
weighted avg       0.88      0.88      0.88      1200

('正常邮件', 0.8284518713640118)
('垃圾邮件', 0.6876365064367929)

Process finished with exit code 0

实验六 SVM 文本分类

代码：

import jieba
import pandas as pd
from sklearn import svm
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_selection import SelectKBest,chi2
from sklearn.metrics import classification_report,accuracy_score

# 加载数据
train = pd.read_csv('data/chnsenticorp/train.tsv',sep='\t')
test = pd.read_csv('data/chnsenticorp/test.tsv',sep='\t')
labels = {0:'正面',1:'负面'}

# 将特征和目标值分开
x_train,y_train = train.text_a.values,train.label.values
x_test,y_test = test.text_a.values,test.label.values
print(x_train)

# 定义分类器，训练，测试函数
class SVN_Classifier():

    def __init__(self,use_chi=False):
        self.use_chi = use_chi  # 是否使用卡方检验
        self.model = svm.SVC(C=1.0,kernel='linear',degree=3,gamma='auto')  # 初始化分类器
        self.process = TfidfVectorizer(tokenizer=jieba.cut)

        # 卡方校验特征选择
        if use_chi:
            self.selector = SelectKBest(chi2,k=10000)  # 34814 --》 10000


    def fit(self,x_train,y_train):
        '''
        训练模型
        :param x_train:
        :param y_train:
        :return:
        '''
        x_train_fea= self.process.fit_transform(x_train)
        if self.use_chi:  # use_chi == True时，选择做卡方校验
            x_train_fea = self.selector.fit_transform(x_train_fea,y_train)
        self.model.fit(x_train_fea,y_train)

        # 获取准确率
        train_accuracy = self.model.score(x_train_fea, y_train)
        print("训练集的准确率：{}".format(round(train_accuracy, 2)))

    def testFit(self,x_test,y_test):
        '''
        测试模型
        :param x_test:
        :param y_test:
        :return:
        '''
        x_test_fea= self.process.transform(x_test)
        if self.use_chi:  # use_chi == True时，选择做卡方校验
            x_test_fea = self.selector.transform(x_test_fea)
        y_predict = self.model.predict(x_test_fea)
        print("真实结果：",y_test[:10])
        print("预测结果：",y_predict[:10])

        test_accuracy = accuracy_score(y_test,y_predict) # 获取准确率
        print("测试集的准确率：{}".format(round(test_accuracy,2)))
        print("测试集评估矩阵：\n")
        print(classification_report(y_test,y_predict,target_names=['负面','正面']))

    def single_predict(self,text):
        '''
        预测结果
        :param text:
        :return:
        '''
        text_preprocess = [' '.join(jieba.cut(text))]  # 对文本进行分词
        text_fea = self.process.transform(text_preprocess)  # 特征提取
        if self.use_chi:
            text_fea = self.selector.transform(text_fea)
        predict_idx = self.model.predict(text_fea)[0]  # 对数据进行预测，并把第一个结果获取出来 获取到的值是0/1
        predict_label = labels[predict_idx]  # 根据predict_idx的值从目标值字典中获取对应的键

        print(predict_label)

# 训练SVN分类器,不使用卡方校验
# svm_classifier = SVN_Classifier()
# svm_classifier.fit(x_train,y_train)

# 训练SVN分类器,使用卡方校验
svm_classifier = SVN_Classifier(use_chi=True)
svm_classifier.fit(x_train,y_train)

#测试模型
svm_classifier.testFit(x_test,y_test)

# 测试
svm_classifier.single_predict("外观很漂亮，出人意料的漂亮，做工非常好。")
svm_classifier.single_predict("书的内容没什么好说的，主要是纸张，印刷太差了。")

运行：

实验七 TextCNN

代码：

import jieba
import pandas as pd
import numpy as np
import tensorflow as tf

from tensorflow.keras.preprocessing.sequence import pad_sequences


# 加载数据
train=pd.read_csv('data/chnsenticorp/train.tsv',sep='\t')
valid=pd.read_csv('data/chnsenticorp/dev.tsv',sep='\t')
test=pd.read_csv('data/chnsenticorp/test.tsv',sep='\t')

# 特征和目标值分开
x_train,y_train=train.text_a.values,train.label.values
x_valid,y_valid=valid.text_a.values,valid.label.values
x_test,y_test=test.text_a.values,test.label.values

# 构建词汇表
vocab=set()  #词汇表
def create_Vocab():
    cut_docs=train.text_a.apply(lambda x:jieba.cut(x)).values  #分词
    for doc in cut_docs:
        for word in doc:
            # print(word)
            if word.strip():
                vocab.add(word.strip())
    print(vocab)

    # 将词汇表写入本地文件
    with open('data/vocab.txt','w',encoding='utf-8') as f:
        for word in vocab:
            f.write(word)
            f.write('\n')

# create_Vocab()

# 设置配置变量
class Config():
    embedding_dim=300  #词向量维度
    max_seq_len=200    # 文章最大词数
    vocab_file='data/vocab.txt' #词汇表的路径

# 初始化参数配置
config=Config()

# 定义预处理类 用于将文本分词转转化成id
class Preprocessor():
    def __init__(self,config):
        self.config=config
        #初始化词和id的映射词典 预留0 给padding字符 预留1 给词汇表中未见过词
        token2idx={'[PAD]':0,'[UNK]':1}  #{word:id}
        with open(config.vocab_file,'r',encoding='utf-8') as f:
            for index,line in enumerate(f):
                token=line.strip()
                token2idx[token]=index+2
        self.token2idx=token2idx
        # print(self.token2idx)
        """
        token2idx 
        {'[PAD]': 0, '[UNK]': 1, '书架上': 2, '情不自禁'
        """

    def transform(self,text_list):
        """
        文本分词，并将词转换成相应的id，最后不同长度的文本 用padding统一长度（后面补0）
         :param test_list:
        :return:
        """
        # for text in text_list:
        #     for word in jieba.cut(text):
        #         inx_list=self.token2idx.get(word.strip(),self.token2idx['[UNk]'])

        inx_list=[[self.token2idx.get(word.strip(),self.token2idx['[UNK]']) for word in text] for text in text_list]
        # print(inx_list)
        """
        [[6063, 24278, 1, 34846, 9732, 2430, 8392, 25183, 2546, 14918, 26979], [6063, 20257, 24278, 1, 34846, 9732, 1, 7489, 5647, 7489]]

        """

        idx_padding=pad_sequences(inx_list,self.config.max_seq_len,padding='post')
        # print(idx_padding)

        return idx_padding
        """
        [[ 6063 24278     1 34846  9732  2430  8392 25183  2546 14918 26979     0
           ......
           0     0     0     0     0     0     0     0]
         [ 6063 20257 24278     1 34846  9732     1  7489  5647  7489     0     0
            ......
            0     0     0     0     0     0     0     0]]
        """

preprocessor=Preprocessor(config)
idx_padding=preprocessor.transform(["我喜欢使用Python","我也喜欢使用java"])

class TextCNN():
    def __init__(self,config):
        self.model = None
        self.config=config
        self.preprocessor=Preprocessor(config)
        self.class_name={0:'负面',1:'正面'}

    def buid_model(self):
        """
        编译模型
        :return:
        """
        #模型框架搭建
        idx_input=tf.keras.layers.Input((self.config.max_seq_len,)) #确定数据的输入
        input_embedding=tf.keras.layers.Embedding(len(self.preprocessor.token2idx),
                                                  self.config.embedding_dim,
                                                  input_length=self.config.max_seq_len,
                                                  mask_zero=True
                                                  )(idx_input)
        convs=[]
        for kernel_size in[3,4,5]:
            c=tf.keras.layers.Conv1D(128,kernel_size,activation="relu")(input_embedding) #卷积层
            c = tf.keras.layers.GlobalMaxPool1D()(c) #池化层 GlobalMaxPool1D
            convs.append(c)

        fea_cnn=tf.keras.layers.Concatenate()(convs)
        fea_dense=tf.keras.layers.Dense(128,activation="relu")(fea_cnn) #全连接层
        output=tf.keras.layers.Dense(2,activation="softmax")(fea_dense)  #输出层

        # 编译模型
        model=tf.keras.Model(inputs=idx_input,outputs=output)
        model.compile(loss=tf.keras.losses.categorical_crossentropy, #交叉熵损失
                      optimizer='adam',            #优化器
                      metrics=['accuracy']                           #评估规则 准确率
                      )

        model.summary()
        self.model=model

    def fit(self,x_train,y_train,x_valid=None,y_valid=None,epochs=5,batch_size=128,**kwargs):
        """
        训练模型
        :param x_train: 训练集的特征值
        :param y_train: 训练集的目标值
        :param x_valid: 验证集特征值
        :param y_valid: 验证集的目标值
        :param epochs:迭代次数
        :param batch_size:批处理数量
        :param kwargs:
        :return:
        """
        # 编译
        self.buid_model()

        x_train=self.preprocessor.transform(x_train) #特征提取
        if x_valid is not None and y_valid is not None: #验证集不为空时提取特征
            x_valid=self.preprocessor.transform(x_valid)

        self.model.fit(
            x=x_train,
            y=y_train,
            validation_data=(x_valid,y_valid) if x_valid is not None and y_valid is not None else None,
            batch_size=batch_size,
            epochs=epochs,
            **kwargs
        )

textCNN=TextCNN(config)
textCNN.fit(x_train,y_train,x_valid,y_valid,epochs=5)

运行：结果在代码段中

Python简化常用技巧优雅的心情自动化测试 python 开发语言
文章目录一、列表表达式二、语法糖一、列表表达式Python为了简化程序的代码行数做了很多努力，其中最经典的就是列表表达式。比如我有如下函数，用来输出一个单词中的所有字符：defoutput_letter(letter):l=[]foriteminletter:l.append(item)returnlif__name__=="__main__":print(output_letter('kevin
Python 网络编程从入门到精通：架构、协议与 Socket 实现
Python网络编程从入门到精通：架构、协议与Socket实现网络编程是现代软件开发的核心技术之一，它允许不同设备上的程序通过网络进行通信和数据交换。本文将深入探讨网络编程的基础知识，包括软件架构设计模式、网络通信三要素、TCP与UDP协议的特点，以及Python中Socket编程的实现方法。一、软件架构设计模式1.C/S架构（Client/Server）C/S架构是最经典的网络应用架构，由客户端
鸿蒙与web混合开发双向通信屿筱鸿蒙 HarmonyOS5
鸿蒙与web混合开发双向通信用runJavaScript和registerJavaScriptProxywebentry/src/main/resources/rawfile/1.html混合开发打开相册//直接写js代码functionchangeImg(){//1.获取img这个元素constimg=document.querySelector('img')//2.修改元素的属性img.src
python求基本勾股数_第一章：勾股数组（1）
毕达哥拉斯定理(即勾股定理)，它表明任一个直角三角形的两条直角边长的平方和等于斜边长的平方。用公式表示就是a^2+b^2=c^2第一个问题是，是否存在无穷多个勾股数组，即满足方程a^2+b^2=c^2的自然数三元组(a,b,c)。答案是“肯定的”。如果取勾股数组(a，b，c)，用整数d乘它，则得到新的勾股数组(da，db，dc)。这是成立的，因为(da)^2+(db)^2=d^2(a^2+b^2)
For what 鲜宇夫
ItrainedoutsideintheafternoonAfterabusyday,IhavenoideaabouttheoutsideworldItfeelscoolwhentheriverwindblowsWhatwoulditbeliketoaskmyselfoverandoveragainInretrospect,itseemsnotworthitSomanybeautifulthing
python flask restful_Flask应用示例1 - 通过Flask实现Restful服务 weixin_39548787 python flask restful
1，前言Python的强大，已经涉及到软件开发领域的方方面面。然而，Python入门容易，精确很难，需要深入研究。在Web方面同样如此，常用的PythonWeb框架，例如Django、Flask、Tornado等等，共计有100多种，各有优劣。本文以Flask为例，介绍Flask的Restful实现方式，主要实现对数据表的增删查改操作。2，需求在开发代码之前，需要提前明确URL请求、HTTP方法与
Python中几个有趣的语法糖 weixin_34368949 python
2019独角兽企业重金招聘Python工程师标准>>>withwith语句适用于对资源进行访问的场合，确保不管使用过程中是否发生异常都会执行必要的“清理”操作，释放资源，比如文件使用后自动关闭、线程中锁的自动获取和释放等。http://www.ibm.com/developerworks/cn/opensource/os-cn-pythonwith/fieldyield的好处是显而易见的，把一个函
java毕业设计-基于Javaweb的家常小菜烹饪学习管理系统的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿刘 vue spring boot 毕业设计 java 课程设计学习
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费开题报告、任务书、全bao定制+
【C#】Vscode中C#工程如何引用自编写的dll
如题问了几个AI，最后实验出来这个说的对,实际效果也是可以的，修改完csproj，关闭文件夹重新打开工程即可在VisualStudioCode中使用C#项目添加自定义DLL动态链接库的步骤如下：通过修改.csproj文件将DLL文件放入项目目录在项目根目录创建lib文件夹（或其他名称）将你的YourLibrary.dll放入此文件夹编辑项目文件(.csproj)打开项目文件（如YourProjec
实用:python中的语法糖 Monkey_24 python Python学习记录语法糖 python if else yield from for in
案例一:for循环:foriin[1,2,3]:print(i)等价于:foriin[1,2,3]:print(i)案例二:yield生成器:foriin(lambdan:(yieldfromrange(n)))(3):print(i)等价于:deffn(n):foriinrange(n):yieldigt=fn(3)foriingt:print(i)案例三:ifelse判断(lambdan:pr
【工具篇】【从冷笑话到职场革命：Manus 100 问挑战人类认知极限】再见孙悟空_ AI 进阶之旅》【2025 AI工具合集】【2025 AI学习从零单排系列】Manus AI Manus manus邀请码 manus体验 Manus PPT Manus 对比 DeepSeek
一、基础认知篇1.Manus到底是什么？它是全球首款通用型AI智能体，简单来说就是能独立完成任务的数字助手。比如你让它分析股票，它不仅能给出报告，还能自动调用Python生成图表，甚至在你睡觉的时候还能在云端继续工作。2.名字“Manus”有什么含义？来自拉丁语“MensetManus”，直译是“心智与手”。官方解释是希望它既能思考又能行动，把人类的想法变成现实，就像有个AI助手帮你干活。3.谁开
骗子太猖獗了，打着摩根士丹利何晓斌名义带股民进入虚假宝丰能源节能减排碳交易市场，大量股民被骗真相曝光墨守成法
为什么明明跟老师对过视频，确认是本人，怎么还会被骗了?你有没有想过一个名人大咖怎么会有时间给你们一对一视频，其次我来给大家揭露一下，这个套路AI换脸骗局是一种利用人工智能技术，通过替换视频中的人脸来伪造身份或进行诈骗的行为。你的账户“余额”是真的吗？为什么不能提现呢？其实都是骗子给你的一串数字而已！这些新平台打着“低风险”、“高收益”、“慈善公益投票”等噱头先让投资人尝到甜头再通过恶意操作将投资人
python +pyautocad 在CAD中画一个线段带箭头默金…… AutoCAD python 前端数据库
python+pyautocad在CAD中画一个线段带箭头#!/usr/bin/envpython#-*-coding:utf-8-*-frompyautocadimportAutocad,APoint,aDoubleimportmathpyacad=Autocad(create_if_not_exists=True)pyacad.prompt("Hello!Autocadfrompyautoca
java毕业设计源码案例-基于ssm+协同过滤的个性化小说推荐系统设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 项目帮 springboot java 计算机毕设 java 课程设计开发语言
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
AQS 抽象队列同步器资源竞争-排队等待
目录一、AQS的核心作用二、AQS的核心组件1.同步状态（state）2.等待队列（CLH队列）节点状态（waitStatus）的关键值：三、AQS的两种工作模式1.独占模式（ExclusiveMode）独占模式的获取流程（以acquire(1)为例）：独占模式的释放流程（以release(1)为例）：2.共享模式（SharedMode）共享模式的获取流程（以acquireShared(1)为例）
低速信号设计之 RMII 万花丛中一抹绿服务器低速信号设计服务器硬件研发低速信号设计 RMII
一、引言在服务器的信号设计中，高速信号往往是关注的焦点，但低速信号的稳定运行同样是保障服务器整体可靠性的关键。RMII（ReducedMediaIndependentInterface，简化的媒体独立接口）作为一种常用于低速以太网通信的接口标准，在服务器的低带宽通信场景中发挥着重要作用。本文将从RMII总线在服务器中的应用场景、工作原理、关键参数、设计及布局布线注意事项、典型应用案例等方面进行详细
AI 大模型重塑软件开发流程万花丛中一抹绿人工智能
一、AI大模型的定义与发展历史AI大模型是基于海量数据训练的深度学习模型，具备强大的自然语言理解、逻辑推理和知识生成能力。在软件开发领域，以GPT-4、CodeLlama、GitHubCopilotX为代表的大模型，能理解代码语法、语义及业务逻辑，实现代码生成、漏洞检测等复杂任务。其发展可追溯至2017年，谷歌提出Transformer架构，为大模型奠定了核心基础。2018年，GPT-1问世，参数
C语言自学日记（三）变量与常量
初学者肯定很懵逼，变量是什么？常量是什么？在数学中，令x=1或者令x=1.10在纸上一写便是，但我们要是在C语言中应该怎么办？在这里我们写一段简单的两端代码#includeintmain(){intx;x=1;return0;}int是什么，如果对前文了解的，应该能明白这是一种数据类型，名为整数类型，它的语法是：数据类型变量名；看到这里，我们就可以对变量做一个简单的介绍，确定目标并提供存放的空间。
python 语法糖【不断更新】 linzch3 python python
1.得到a和b两个数的最大值solution:c=[b,a][a>b]测试：>>>a=1>>>b=2>>>c=[b,a][a>b]>>>c22.假设现在给定了一个list:a=[[1,2],[3,4,5],[6,7],[8],[9]]问如何将其转化成：[1,2,3,4,5,6,7,8,9]其实就是将所有数据都拿出来组成一个1*n的list。solution1:使用列表表达式>>>a=[[1,2],
pyautocad 的项目扩展与二次开发
pyautocad的项目扩展与二次开发1.项目的基础介绍pyautocad是一个开源项目，它提供了一个Python库，用于与AutoCAD进行交互。通过这个库，开发者可以在Python脚本中调用AutoCAD的功能，实现自动化的绘图、修改和管理等功能。该项目的目标是让开发者能够更加便捷地控制AutoCAD，提高工作效率。2.项目的核心功能pyautocad的核心功能包括：与AutoCAD的COM接
hard_err错误 hahaha6016 硬件设计 fpga开发
1.XilinxAurora协议中的hard_err（HardError）是一种指示物理层不可恢复通信故障的错误信号，属于AuroraIP核错误检测机制的核心部分2.hard_err是aurora的IP核的错误检测接口输出的信号，直接反映了链路物理层的严重故障；3.hard_err错误是不可恢复的，一旦出现了错误，表示链路的稳定性出现了问题，需要重新复位或者重新初始化才能恢复通信。4.hard_e
深入解析 SymPy 中的符号计算：导数与变量替换的实践指南老歌老听老掉牙 python sympy
在符号计算领域，SymPy作为Python的核心代数库，为数学推导提供了强大支持。然而，当处理复杂表达式时，用户常遇到两个典型挑战：函数导数的正确计算和变量的有效替换。本文将深入探讨这些问题，提供专业解决方案，并揭示其背后的数学原理函数导数的正确计算方法问题本质分析在SymPy中计算导数时，常见错误是将函数视为独立符号而非变量依赖关系。考虑以下情景：h=symbols('h')R_h=symbol
springboot+vue生态系统的气象数据可视化平台Java+python-计算机毕业设计
目录功能和技术介绍具体实现截图开发核心技术：开发环境开发步骤编译运行核心代码部分展示系统设计详细视频演示可行性论证软件测试源码获取功能和技术介绍该系统基于浏览器的方式进行访问，采用springboot集成快速开发框架，前端使用vue方式，基于es5的语法，开发工具IntelliJIDEAx64，因为该开发工具，内嵌了Tomcat服务运行机制，可不用单独下载Tomcatserver服务器。由于考虑到
C51 贪吃蛇基于 Proteus V1.0 ForesterX proteus 单片机嵌入式硬件贪吃蛇 C51
文章目录0.效果演示1.开发环境2.项目地址3.项目目录4.设计与开发4.1整体原理图4.2方向键模块4.3点阵模块4.4整体逻辑说明4.4.1点阵怎么刷新4.4.2按键在哪里检测4.4.3蛇怎么移动4.4.4游戏规则4.5main.c5.不足与展望0.效果演示视频演示：C51单片机贪吃蛇基于Proteus1.开发环境系统：window10专业版。开发软件：Keil5仿真软件：ProteusPS：
Python：勾股数 Dominick_Su Python编程 python 开发语言后端
找出一定范围内的勾股数a,b,c（均为正整数），而且三个数互质。importmathMAX=100#设定范围,a,b,c都在100以内PN=[]#PythagoreanNumber勾股数forainrange(2,int(MAX//math.sqrt(2))+1):forbinrange(a+1,int(math.sqrt(MAX*MAX-a*a))+1,2):c=int(math.sqrt(s:
计算机专业大数据毕业设计-基于 Spark 的音乐数据分析项目(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿八哥数据可视化计算机毕设 spark 大数据课程设计 spark
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
如何使用爬虫简单的爬取一个网页的静态前端代码
什么是爬虫？Python爬虫是一种使用Python语言编写的程序，用于自动访问网页并提取所需信息。它通常用于网络数据抓取、数据挖掘和信息收集。Python爬虫可以模拟浏览器行为，向服务器发送请求并接收响应数据，然后解析这些数据以获取有用的信息。爬虫的基本原理（流程）发送请求：爬虫向目标网站的服务器发送HTTP请求（通常是GET请求）。获取响应：服务器返回网页的HTML内容。解析内容：爬虫解析HTM
[Python] -项目实战8- 构建一个简单的 Todo List Web 应用（Flask）踏雪无痕老爷子 Python python 开发语言
一、为什么选Flask？轻量上手快：仅需几行代码就能跑一个可用的Web应用。灵活扩展：可接入数据库、身份认证、前端框架等。教育性强：涵盖前后端交互基础，适合入门全栈开发。二、项目结构建议flask_todo/├──app.py├──templates/│└──index.html├──static/│└──style.css├──todo.db└──requirements.txtapp.py：后
Protein FID：AI蛋白质结构生成模型评估新指标
一、引言：蛋白质生成模型面临的评估挑战近年来，AI驱动的蛋白质结构生成模型取得了令人瞩目的进展，但如何有效评估这些模型的质量却一直是一个悬而未决的问题。虽然实验验证仍然是金标准，但计算机模拟评估对于快速开发和比较机器学习模型至关重要。然而，尽管最先进的模型在当前评估指标上表现卓越，但它们在实际设计应用中的成功率仍然相对有限。例如，有研究报告显示生成结构的实验成功率仅为3%，而计算机模拟评分却远高于
Python连接AutoCAD第三方库pyautocad基础介绍（一） Smile丶Life丶 AutoCAD插件开发 python 开发语言 AutoCAD pyautocad
一、前言在开始探索Python连接CAD实现自动化绘图之前，让我们先明确一下读懂本教程所需的技术及知识基础。首先需要你熟练使用Python编程语言，其次，对于CAD软件，本教程将以常见的AutoCAD平台为例，但您至少需要对CAD的基本操作和绘图原理有初步的认识。了解如何创建、编辑图形对象，设置图层、颜色、线型等属性，以及保存和导出CAD图纸的基本流程。以下是本文所使用的开发环境：Python解释
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc

华为AI认证＿NLP

实验一：jieba分词

实验二：word2vec

实验三： 文本分类

3.1 特征提取——词袋法

3.2 特征提取——TF_IDF

实验四 文本特征选择

实验五 朴素贝叶斯文本分类

实验七 TextCNN

你可能感兴趣的:(华为AI认证 ＨＣＩＰ,自然语言处理,人工智能,python)

实验三：文本分类

实验四文本特征选择

实验五朴素贝叶斯文本分类

你可能感兴趣的:(华为AI认证　ＨＣＩＰ,自然语言处理,人工智能,python)