赵有才er

Word2Vec对新闻进行分类

词表征

·词表征就是如何用向量的方式来表示一个词的特征，让计算机能够对词进行处理，常用的两种词表征的方法：

·词袋模型：一个词也可以理解为是一篇最简单的文档，所以它可以用词袋来表示他的特征，这个时候的词袋就是一个独热编码。

独热编码举例：

·词向量模型：

词向量：又叫词嵌入，这种方法可以解决词袋模型的稀核心思想是：每一个词映射到一个多维空间中，成为空间中的一个向量，一般这个多维空间的维数不会太高，在几百个的量级，这几百维的特征向量是稠密的，向量中的每一个成员都是非零的。

由于词向量由几百个维度构成，所以也被称为分布式表征。词向量模型是通过对原始文本建模训练学习得到的。

由于词向量把每一个词映射到了一个高维空间中，并用向量表示，响亮的生成是基于词与词之间的相关性得来，可以理解为相关的词在空间中的位置比较靠近，所以词向量有一个非常有趣的特征，那就是类比。

·中心词：就是每一个待分析的词

·邻居词：在文档语料中，出现在中心词，周围某个小窗口内的关联词

·窗口大小c：就是指寻找邻居词的时候需要观察中心词的前后c个词

举例说明：“我家/猫/是/我/养/的/第一/只/宠物”这句话中，如果把“猫”当成当前正在分析的中心词，如果窗口大小c=3，那么，“猫”的邻居词是：我家，是，我，养。

词向量模型的核心原理就是用邻居词的概率分布来作为中心词的向量表示。

1.基于邻居词共现矩阵分解法

2.神经网络训练：通过构建两种类型的预测模型，然后使用网络的隐藏层输出作为词向量表征，这两种预测模型是

CBOW：利用中心词和邻居词预测中心词

Skip-gram：利用中心词来预测邻居词

不管是哪种类型的神经网络，它的本质都是希望发现中心词和邻居词之间的相关关系，词向量就是隐藏在这个相关关系中的隐特征。

从上图的示例中可以看到：输入是中心词（或者是邻居词），输出是邻居词（或者中心词）。神经网络中间有一个隐藏层，他的神经元个数要显著小于词的个数（一般就只有几百个），通过预测模型的训练学习，我们会得到网络的连接权重，例如”drink“这个词会和隐藏层的所有神经元都有连接权重，依据这个权重就可以得到drink这个词的词向量，向量的长度就是隐藏层的神经元个数，向量的数值就是神经元之间的连接权重。再看图的右边，与drink连接权重较高的神经元，他的右边又连接了一些词，这些词可以理解为就是drink的邻居词，例如juice，milk之类的词。

词向量只是对词的特征表征，如果要对一篇文档进行特征表征，有以下几种方法

·直接使用文档中所有词的词向量的平均值

·使用文档中每个词的TF-IDF值做为权重，与每个词的词向量进行加权平均

·根据文档中每个词的词向量对文档进行聚类，使用聚类后包含词最多的那个类的中心点作为文档特征向量

·使用doc2vec模型，这是个类似word2vec的模型，不过他是直接对doc来建模

以下为训练word2vec的代码及一些参数的讲解

创建输出目录用来保存训练好的词向量

output_dir='output_word2vec'
import os
if not os.path.exists(output_dir):
    os.mkdir(output_dir)

导入数据

import numpy as np
import pandas as pd

查看训练数据


train_data=pd.read_csv('sohu_train.txt',sep='\t',header=None,dtype=np.str_,encoding='utf8',names=['频道','文章'])
train_data.info()

·输出结果


RangeIndex: 12000 entries, 0 to 11999
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   频道      12000 non-null  object
 1   文章      12000 non-null  object
dtypes: object(2)
memory usage: 187.6+ KB

载入停用词

stopwords = set()
with open('stopwords.txt', 'r',encoding='utf8') as infile:
    for line in infile:
        line = line.rstrip('\n')
        if line:
            stopwords.add(line.lower())

分词

import jieba
article_words=[]
# 遍历每篇文章
for article in train_data[u'文章']:
    curr_words=[]
    # 遍历文章中的每个词
    for word in jieba.cut(article):
        # 去除停用词
        if word not in stopwords:
            curr_words.append(word)
    article_words.append(curr_words)

·输出结果

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\10248\AppData\Local\Temp\jieba.cache
Loading model cost 0.530 seconds.
Prefix dict has been built successfully.

分词结果存储到文件

seg_word_file=os.path.join(output_dir,'seg_words.txt')
with open(seg_word_file,'wb') as outfile:
    for words in article_words:
        outfile.write(u' '.join(words).encode('utf8') + b'\n')
print('分词结果保存到文件:{}'.format(seg_word_file))

·输出结果

分词结果保存到文件:output_word2vec\seg_words.txt

预训练word2vec模型

from gensim.models import Word2Vec
from gensim.models.word2vec import LineSentence
from gensim.models import KeyedVectors

创建一个句子迭代器，一行为一个句子，词和词之间用空格分开
这里我们把一篇文章当作一个句子

sentences=LineSentence(seg_word_file)

预训练word2vec模型
参数说明：
sentences: 包含句子的list，或迭代器
size: 词向量的维数，size越大需要越多的训练数据，同时能得到更好的模型
alpha: 初始学习速率，随着训练过程递减，最后降到 min_alpha
window: 上下文窗口大小，即预测当前这个词的时候最多使用距离为window大小的词
max_vocab_size: 词表大小，如果实际词的数量超过了这个值，过滤那些频率低的
workers: 并行度
iter: 训练轮数
min_count: 忽略出现次数小于该值的词

model=Word2Vec(sentences=sentences,min_count=20)

保存模型

model_file = os.path.join(output_dir, 'model.w2v')
model.save(model_file)

测试预训练模型

读取模型

model_file = os.path.join(output_dir, 'model.w2v')
model2=Word2Vec.load(model_file)

查找语义相近的词

def invest_similar(*args,**kwargs):
    res=model2.wv.most_similar(*args,**kwargs)
    print('\n'.join(['{}:{}'.format(x[0],x[1]) for x in res]))

invest_similar(u'摄影', topn=5)

·输出结果

刘晓科:0.7663402557373047
刘建东:0.7626208066940308
评语:0.7005037069320679
作曲:0.6986984014511108
璇:0.67718505859375

女人 + 先生 - 男人 = 女士
先生 - 女士 = 男人 - 女人，这个向量的方向就代表了性别!

invest_similar(positive=[u'女人', u'先生'], negative=[u'男人'], topn=1)

·输出结果

蔡:0.6899486184120178

计算两个词的相似度

model2.wv.similarity('摄影','摄像')

·输出结果

0.6245521

查询某个词的词向量

model2.wv[u'摄影'].shape

·输出结果

(100,)

model2.wv[u'摄影']

·输出结果

array([ 1.12402821e+00, -1.43426090e-01,  1.27216709e+00, -1.03221321e+00,
       -1.87992001e+00,  5.13237119e-01, -1.13613218e-01,  4.65803176e-01,
        2.23834977e-01, -5.68113267e-01, -1.13676023e+00,  6.05148017e-01,
        1.92878091e+00,  1.35197982e-01,  4.71386909e-01,  3.13203558e-02,
       -4.88490194e-01, -5.21153510e-01, -3.16076130e-01, -4.14293671e+00,
       -1.09550381e+00,  2.31205606e+00,  3.80034757e+00, -8.64517391e-01,
        8.61354887e-01, -4.89337295e-01, -3.63620043e-01,  2.25580406e+00,
       -9.07084405e-01,  7.68696427e-01,  8.44246987e-03, -4.67379779e-01,
        2.23277569e+00, -1.60536277e+00, -1.76252687e+00,  2.04124570e+00,
       -5.92672646e-01, -1.79212022e+00, -8.45354021e-01,  1.63020134e-01,
       -4.94004756e-01,  7.84639716e-02,  2.46292621e-01,  3.91405135e-01,
        2.69702244e+00,  1.12125501e-01, -3.00367903e-02,  3.96094732e-02,
       -7.09702730e-01,  2.72683471e-01,  1.63493916e-01,  3.45271856e-01,
       -7.32331157e-01, -1.10088050e+00,  7.25350261e-01,  1.89776182e-01,
       -1.67757552e-03, -1.81457877e+00, -2.36800209e-01,  5.88630319e-01,
       -1.17891036e-01,  1.70819044e+00, -2.11411715e-01,  4.82740730e-01,
        2.90950954e-01, -6.00913882e-01,  6.11816823e-01,  3.15804314e-03,
       -9.11727548e-01,  1.11618125e+00,  5.53577483e-01,  9.87007380e-01,
        1.19754769e-01, -4.53332961e-02,  1.14017117e+00,  5.29826954e-02,
       -6.54554486e-01, -1.82963490e+00,  1.63241223e-01, -6.50338531e-01,
        1.28191340e+00,  1.39220166e+00, -3.26665908e-01,  7.38676339e-02,
       -2.12200940e-01,  6.16843961e-02, -1.28452039e+00, -1.28339744e+00,
       -1.09384215e+00, -1.32426918e+00,  1.16123927e+00, -3.39918613e-01,
        1.30219662e+00,  3.30029815e-01,  1.47671258e+00,  4.75448519e-01,
        6.79319859e-01, -2.00764275e+00,  8.49902809e-01, -4.79526490e-01],
      dtype=float32)

完整训练word2vec模型

创建输出目录

import os
output_dir = u'output_w2v'
if not os.path.exists(output_dir):
    os.mkdir(output_dir)

加载数据

import numpy as np
import pandas as pd

查看训练数据

train_data = pd.read_csv('sohu_train.txt', sep='\t', header=None, dtype=np.str_, encoding='utf8', names=[u'频道', u'文章'])
train_data.head()

载入停用词

stopwords = set()
with open('stopwords.txt', 'r',encoding='utf8') as infile:
    for line in infile:
        line = line.rstrip('\n')
        if line:
            stopwords.add(line.lower())

计算每个文章的词向量

加载训练好的Word2Vec模型
需要预训练的执行结果

from gensim.models import Word2Vec
w2v = Word2Vec.load('output_word2vec/model.w2v')

使用文章中所有词的平均词向量作为文章的向量

import jieba
def compute_doc_vec_single(article):
    vec = np.zeros((w2v.layer1_size,), dtype=np.float32)
    n = 0
    for word in jieba.cut(article):
        if word in w2v.wv:
            vec += w2v.wv[word]#求所有词向量的和
            n += 1#计算词的个数
    return vec / n#求平均值

def compute_doc_vec(articles):
    return np.row_stack([compute_doc_vec_single(x) for x in articles])

x = compute_doc_vec(train_data[u'文章'])

训练分类器

编码目标变量

from sklearn.preprocessing import LabelEncoder
y_encoder = LabelEncoder()
y = y_encoder.fit_transform(train_data[u'频道'])

划分训练测试数据

from sklearn.model_selection import train_test_split
# 根据y分层抽样，测试数据占20%
train_idx, test_idx = train_test_split(range(len(y)), test_size=0.2, stratify=y)
train_x = x[train_idx, :]
train_y = y[train_idx]
test_x = x[test_idx, :]
test_y = y[test_idx]

训练逻辑回归模型

常用参数说明
penalty: 正则项类型，l1还是l2
C: 正则项惩罚系数的倒数，越大则惩罚越小
fit_intercept: 是否拟合常数项
max_iter: 最大迭代次数
multi_class: 以何种方式训练多分类模型
ovr = 对每个标签训练二分类模型
multinomial = 直接训练多分类模型，仅当solver={newton-cg, sag, lbfgs}时支持
solver: 用哪种方法求解，可选有{liblinear, newton-cg, sag, lbfgs}
小数据liblinear比较好，大数据量sag更快
多分类问题，liblinear只支持ovr模式，其他支持ovr和multinomial
liblinear支持l1正则，其他只支持l2正则

from sklearn.linear_model import LogisticRegression
model = LogisticRegression(multi_class='multinomial', solver='lbfgs')
model.fit(train_x, train_y)

模型效果评估

from sklearn.metrics import confusion_matrix, precision_recall_fscore_support

在测试集上计算模型的表现

test_y_pred = model.predict(test_x)

计算混淆矩阵

pd.DataFrame(confusion_matrix(test_y, test_y_pred), columns=y_encoder.classes_, index=y_encoder.classes_)

·输出结果

	体育	健康	女人	娱乐	房地产	教育	文化	新闻	旅游	汽车	科技	财经
体育	184	0	2	0	0	3	1	4	6	0	0	0
健康	0	158	11	0	0	3	3	11	2	1	2	9
女人	1	5	149	13	0	0	16	4	6	2	4	0
娱乐	1	0	18	145	2	2	26	1	2	1	2	0
房地产	0	0	1	1	173	0	1	8	4	3	1	8
教育	0	2	5	1	1	169	5	9	3	0	3	2
文化	2	3	12	35	2	1	118	14	9	0	4	0
新闻	6	8	4	3	4	9	4	134	7	3	6	12
旅游	1	2	8	0	4	0	9	7	158	1	3	7
汽车	1	3	1	0	0	1	0	1	3	185	3	2
科技	0	5	3	0	2	4	1	5	2	3	162	13
财经	1	2	4	0	12	0	1	13	1	7	19	140

计算各项评价指标

def eval_model(y_true, y_pred, labels):
    # 计算每个分类的Precision, Recall, f1, support
    p, r, f1, s = precision_recall_fscore_support(y_true, y_pred)
    # 计算总体的平均Precision, Recall, f1, support
    tot_p = np.average(p, weights=s)
    tot_r = np.average(r, weights=s)
    tot_f1 = np.average(f1, weights=s)
    tot_s = np.sum(s)
    res1 = pd.DataFrame({
        u'Label': labels,
        u'Precision': p,
        u'Recall': r,
        u'F1': f1,
        u'Support': s
    })
    res2 = pd.DataFrame({
        u'Label': [u'总体'],
        u'Precision': [tot_p],
        u'Recall': [tot_r],
        u'F1': [tot_f1],
        u'Support': [tot_s]
    })
    res2.index = [999]
    res = pd.concat([res1, res2])
    return res[[u'Label', u'Precision', u'Recall', u'F1', u'Support']]

eval_model(test_y, test_y_pred, y_encoder.classes_)

·输出结果

0	体育	0.934010	0.92000	0.926952	200
1	健康	0.840426	0.79000	0.814433	200
2	女人	0.683486	0.74500	0.712919	200
3	娱乐	0.732323	0.72500	0.728643	200
4	房地产	0.865000	0.86500	0.865000	200
5	教育	0.880208	0.84500	0.862245	200
6	文化	0.637838	0.59000	0.612987	200
7	新闻	0.635071	0.67000	0.652068	200
8	旅游	0.778325	0.79000	0.784119	200
9	汽车	0.898058	0.92500	0.911330	200
10	科技	0.775120	0.81000	0.792176	200
11	财经	0.725389	0.70000	0.712468	200
999	总体	0.782105	0.78125	0.781278	2400

模型保存

# 保存模型到文件
import dill
import pickle
model_file = os.path.join(output_dir, u'model.pkl')
with open(model_file, 'wb') as outfile:
    pickle.dump({
        'y_encoder': y_encoder,
        'lr': model
    }, outfile)

对新文档预测

from gensim.models import Word2Vec
import dill
import pickle
import jieba

把预测相关的逻辑封装在一个类中，使用这个类的实例来对新文档进行分类预测

class Predictor(object):
    
    def __init__(self, w2v_model_file, lr_model_file):
        self.w2v = Word2Vec.load(w2v_model_file)
        with open(lr_model_file, 'rb') as infile:
            self.model = pickle.load(infile)
    
    def predict(self, articles):
        x = self._compute_doc_vec(articles)
        y = self.model['lr'].predict(x)
        y_label = self.model['y_encoder'].inverse_transform(y)
        return y_label
    
    def _compute_doc_vec(self, articles):
        return np.row_stack([compute_doc_vec_single(x) for x in articles])

    def _compute_doc_vec_single(self, article):
        vec = np.zeros((w2v.layer1_size,), dtype=np.float32)
        n = 0
        for word in jieba.cut(article):
            if word in w2v:
                vec += w2v[word]
                n += 1
        return vec / n

加载新文档数据

new_data = pd.read_csv('sohu_test.txt', sep='\t', header=None, dtype=np.str_, encoding='utf8', names=[u'频道', u'文章'])
new_data.head()

加载模型

predictor = Predictor('output_word2vec/model.w2v', model_file)

预测前10000篇的分类

new_y_pred = predictor.predict(new_data[u'文章'][:10000])

对比预测

pd.DataFrame({u'预测频道': new_y_pred, u'实际频道': new_data[u'频道'][:10000]})

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
xilinx vivado PULLMODE 设置思路坚持每天写程序 fpga开发
1.xilinx引脚分类XilinxIO的分类：以XC7A100TFGG484为例，其引脚分类如下：1.UserIO(用户IO)：用户使用的普通IO1.1专用(Dedicated)IO：命名为IO_LXXY_#、IO_XX_#的引脚，有固定的特定用途，多为底层特定功能的直接实现，如差分对信号、关键控制信号等，不能随意变更。1.2多功能(Multi-Function)IO：命名为IO_LXXY_ZZ
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
网络通信流程记得开心一点啊服务器网络运维
目录♫IP地址♫子网掩码♫MAC地址♫相关设备♫ARP寻址♫网络通信流程♫IP地址我们已经知道IP地址由网络号+主机号组成，根据IP地址的不同可以有5钟划分网络号和主机号的方案：其中，各类地址的表示范围是：分类范围适用网络网络数量主机最大连接数A类0.0.0.0~127.255.255.255大型网络12616777214【(2^24)-2】B类128.0.0.0~191.255.255.255中
5分钟说透AppStore审核原理，让你拥有上架新思路！ Q仔本人噢
在AppStore上架是越来越难了!相信非常多公司的技术人员都为此困扰，然而外包团队水平又层次不齐，容易遇坑，实在是内忧外患。是什么原因导致审核机制频繁调整？又是什么原因使得审核变得越发严格？那么接下来听小Q分解，马上给各位带来解答!首先看一下近一年的上下架的情况：近一年上架情况近一年下架情况通过数据我们发现越是马甲包产量权重高的分类里被下架的app数量越多，苹果此举可谓是上有政策，下有对策。通过
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
《转介绍方法论》学习笔记小可乐的妈妈
一、高效转介绍的流程：价值观---执行----方案一）转介绍发生的背景：1、对象：谁向谁转介绍？全员营销，人人参与。①员工的激励政策、客户的转介绍诱因制作客户画像：a信任；支付能力；意愿度；便利度（根据家长具备四个特征的个数分为四类）B性格分类C职业分类D年龄性别②执行：套路，策略，方法，流程2、诱因：为什么要转介绍？认同信任；多方共赢；传递美好；零风险承诺打动人心，超越期待。选择做教育，就是选择
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
【自动化测试】UI自动化的分类、如何选择合适的自动化测试工具以及其中appium的设计理念、引擎和引擎如何工作 Lossya ui 自动化测试工具自动化测试 appium
引言UI自动化测试主要针对软件的用户界面进行测试，以确保用户界面元素的交互和功能符合预期文章目录引言一、UI自动化的分类1.1基于代码的自动化测试1.2基于录制/回放的自动化测试1.3基于框架的自动化测试1.4按测试对象分类1.5按测试层次分类1.6按测试执行方式分类1.7按测试目的分类二、如何选择合适的自动化测试工具2.1项目需求分析2.2工具特性评估2.3成本考虑2.4团队技能2.5试用和评估
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
性格小测试熹大头
有些人非常肯定自己属于外向型，有些人则发现自己是绝对的内向型。然而，多数人却发现他们似乎介于两者之间，是两种性格的结合。现在我们就来看看你在这种分类中处在何种位置。阅读以下问题，从a、b、c中选出最适合自己的选项。你可能会发现三个选项都不合适，或者合适的不止一项，这种情况下，选出相对来说更适合自己的即可。1人们经常会用下列哪个词语描述你：a善于分析b遵守纪律c有创造力2一连几天参与社交活动（比如，
李克富 | 咨询师推荐阅读书目李克富
最重要的书籍不是别人的推荐，而是自己学过的教材，不论当初使用的是哪个版本，它都是我们专业的底层代码，具有不可替代性。前不久，中国心理咨询师筹委会的一位老师邀请我罗列一个推荐书目清单作为咨询师工具包的内容，并要求“说明一下简单的分类或者作三言两语的说明”。斟酌后，我觉得自己推荐的书目大体可以分为普及类书籍、心理学书籍和心理咨询与治疗专业书籍，第三类又分为适合于咨询师新手的和有经验咨询师的。经过严格筛
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
新能源汽车 BMS 学习笔记篇—BMS 基本定义及分类 WPG大大通其他笔记汽车 BMS 经验分享新能源电池
一、BMS定义1、概念：BMS（BatteryManagementSystem）即电池管理系统，其管理对象是二次电池（充电电池或蓄电池），其主要目的是电池的利用率，防止电池出现过度充电和过度放电，可应用于电动汽车、电瓶车、机器人、无人机等图片来源：腾讯网https://new.qq.com《标准普尔警告，电动汽车电池生产面临供应链和地缘政治风险》2、四大功能①感知和测量：检测电池的电压、电流、温度
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
郭生白中药方论之二(破除温凉寒热的框框) 本能学堂a昨年
离病说药茫茫然，对症下药不着边。顺势利导一乘法，排异调节渡法船。无限整合非模糊，模糊病区得清楚。共性之外求个性，亲和不生抗药性。温凉寒热巧方便，君臣佐使筏喻焉。药包大小折中看，毒性有无一念间。导读破除温凉寒热的框框寒热温凉是基于中药共性的传统分类药无寒热人有寒热药无寒热病有寒热抛弃温凉不并用的错误观念寒热温凉是基于中药共性的传统分类寒热温凉是个共性，是说的共性。这个共性，知道什么叫共性吗？所有的药
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
2022-04-25 L是木子李呢
上门维修APP开发应具备哪些功能随着移动互联网的不断发展，上门维修在我们生活中已经是非常普遍的存在了，为了给用户更方便的找到上门维修的渠道，上门维修APP应运而生，那么上门维修APP开发应具备哪些功能呢？1、维修门店搜索为了更好地方便用户省时省力，上门维修APP会依据用户定位信息搜索线下实体店，促使用户更好的找到线下维修店面，省时又省力。2、维修服务分类包括管道洁具维修、强电弱电维修、木工维修、粉
二十四、k8s 资源管理繁华依在 k8s kubernetes 容器云原生
目录一、资源配置范围管理LimitRange介绍1、LimitRange可以做什么：2、资源限制和请求的约束3、创建LimitsRange对象4、示例：创建一个pod5、测试用例测试1：测试2：测试3：二、资源服务质量管理（RequestsQos）1、Qos级别分类：1.1、Guaranteed：1.2、BestEffort：1.3、Burstable：2、Qos的工作特点3、示例三、资源配额管理
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
神经网络-损失函数红米煮粥神经网络人工智能深度学习
文章目录一、回归问题的损失函数1.均方误差（MeanSquaredError,MSE）2.平均绝对误差（MeanAbsoluteError,MAE）二、分类问题的损失函数1.0-1损失函数（Zero-OneLossFunction）2.交叉熵损失（Cross-EntropyLoss）3.合页损失（HingeLoss）三、总结在神经网络中，损失函数（LossFunction）扮演着至关重要的角色，它
教师资格考试中学《教育知识与能力》知识点｜高频考点汇总小山丘
温馨提示：更多汇总详情留言小编哦！！！认知过程之易混知识点剖析社会中心课程论情绪——重要考点皮亚杰教你带孩子斯金纳强化规律你的心理足够强大吗?教育心理学的效应德育有规律常考人物思想之夸美纽斯中学常考教学原则孔子及《论语》中的重要教育思想教育学创立阶段人物之赫尔巴特学习策略分类知识点梳理教师资格证辨析题作答思路综合课程的类型班杜拉的学习理论马斯洛需要层次理论记忆类型的四大分类柏拉图和他的《理想国》感
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。

Word2Vec对新闻进行分类

词表征

以下为训练word2vec的代码及一些参数的讲解

导入数据

分词

预训练word2vec模型

测试预训练模型

查找语义相近的词

计算两个词的相似度

查询某个词的词向量

完整训练word2vec模型

加载数据

计算每个文章的词向量

训练分类器

模型效果评估

模型保存

对新文档预测

你可能感兴趣的:(word2vec,分类,word2vec,机器学习)