Python机器学习NLP自然语言处理Word2vec电影影评建模

概述

从今天开始我们将开启一段自然语言处理 (NLP) 的旅程. 自然语言处理可以让来处理, 理解, 以及运用人类的语言, 实现机器语言和人类语言之间的沟通桥梁.

词向量

我们先来说说词向量究竟是什么. 当我们把文本交给算法来处理的时候, 计算机并不能理解我们输入的文本, 词向量就由此而生了. 简单的来说, 词向量就是将词语转换成数字组成的向量.

当我们描述一个人的时候, 我们会使用身高体重等种种指标, 这些指标就可以当做向量. 有了向量我们就可以使用不同方法来计算相似度.

那我们如何来描述语言的特征呢? 我们把语言分割成一个个词, 然后在词的层面上构建特征.

词向量维度

词向量的维度越高, 其所能提供的信息也就越多, 计算结果的可靠性就更值得信赖.

50 维的词向量:

用热度图表示一下:

从上图我们可以看出, 相似的词在特征表达中比较相似. 由此也可以证明词的特征是有意义的.

代码实现

预处理

import numpy as np
import pandas as pd
import itertools
import re
from bs4 import BeautifulSoup
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from matplotlib import pyplot as plt
import nltk
# 停用词
stop_words = pd.read_csv("data/stopwords.txt", index_col=False, quoting=3, sep="\n", names=["stop_words"])
stop_words = [word.strip() for word in stop_words["stop_words"].values]
def load_train_data():
    """读取训练数据"""
    # 语料
    data = pd.read_csv("data/labeledTrainData.tsv", sep="\t", escapechar="\\")
    print(data[:5])
    print("训练评论数量:", len(data))  # 25,000
    return data
def load_test_data():
    # 语料
    data = pd.read_csv("data/unlabeledTrainData.tsv", sep="\t", escapechar="\\")
    print("测试评论数量:", len(data))  # 50,000
    return data
def pre_process(text):
    # 去除网页链接
    text = BeautifulSoup(text, "html.parser").get_text()
    # 去除标点
    text = re.sub("[^a-zA-Z]", " ", text)
    # 分词
    words = text.lower().split()
    # 去除停用词
    words = [w for w in words if w not in stop_words]
    return " ".join(words)
def split_train_data():
    # 读取文件
    data = pd.read_csv("data/train.csv")
    print(data.head())
    # 抽取bag of words特征
    vec = CountVectorizer(max_features=5000)
    # 拟合
    vec.fit(data["review"])
    # 转换
    train_data_features = vec.transform(data["review"]).toarray()
    print(train_data_features.shape)
    # 词袋
    print(vec.get_feature_names())
    # 分割数据集
    X_train, X_test, y_train, y_test = train_test_split(train_data_features, data["sentiment"], test_size=0.2,
                                                        random_state=0)
    return X_train, X_test, y_train, y_test
def test():
    # 读取测试数据
    data = pd.read_csv("data/test.csv")
    print(data.head())
    tokenizer = nltk.data.load("tokenizers/punkt/english.pickle")
    # 分词
    def split_sentences(review):
        raw_sentences = tokenizer.tokenize(review.strip())
        return sentences
    sentences = sum(data["review"][:10].apply(split_sentences), [])
def visualize(cm, classes, title="Confusion matrix", cmap=plt.cm.Blues):
    plt.imshow(cm, interpolation="nearest", cmap=cmap)
    plt.title(title)
    plt.colorbar()
    tick_marks = np.arange(len(classes))
    plt.xticks(tick_marks, classes, rotation=0)
    plt.yticks(tick_marks, classes)
    thresh = cm.max()
    for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):
        plt.text(j, i, cm[i, j], horizontalalignment="center", color="white" if cm[i, j] > thresh else "black")
    plt.tight_layout()
    plt.ylabel("True label")
    plt.xlabel("Predicted label")
    plt.show()
if __name__ == '__main__':
    # # 处理训练数据
    # train_data = load_train_data()
    # train_data["review"] = train_data["review"].apply(pre_process)
    # print(train_data.head())
    #
    # # 保存
    # train_data.to_csv("data/train.csv")
    # # 处理训练数据
    # test_data = load_test_data()
    # test_data["review"] =  test_data["review"].apply(pre_process)
    # print( test_data.head())
    #
    # # 保存
    # test_data.to_csv("data/test.csv")
    split_train_data()

主程序

import pandas as pd
import nltk
from gensim.models.word2vec import Word2Vec
def pre_process():
    """预处理"""
    # 读取测试数据
    data = pd.read_csv("data/test.csv")
    print(data.head())
    # 存放结果
    result = []
    # 分词
    for line in data["review"]:
        result.append(nltk.word_tokenize(line))
    return result
def main():
    # 获取分词语料
    word_list = pre_process()
    # 设定词向量训练的参数
    num_features = 300  # Word vector dimensionality
    min_word_count = 40  # Minimum word count
    num_workers = 4  # Number of threads to run in parallel
    context = 10  # Context window size
    model_name = '{}features_{}minwords_{}context.model'.format(num_features, min_word_count, context)
    # 创建w2c模型
    model = Word2Vec(sentences=word_list, workers=num_workers,
                     vector_size=num_features, min_count=min_word_count,
                     window=context)
    # 保存模型
    model.save(model_name)
def test():
    # 加载模型
    model = Word2Vec.load("300features_40minwords_10context.model")
    # 不匹配
    match = model.wv.doesnt_match(['man','woman','child','kitchen'])
    print(match)
    # 最相似
    print(model.wv.most_similar("boy"))
    print(model.wv.most_similar("bad"))
if __name__ == '__main__':
    test()

输出结果:

2021-09-16 20:36:40.791181: I tensorflow/stream_executor/platform/default/dso_loader.cc:49] Successfully opened dynamic library libcudart.so.11.0
   Unnamed: 0      id  sentiment                                             review
0           0  5814_8          1  stuff moment mj ve started listening music wat...
1           1  2381_9          1  classic war worlds timothy hines entertaining ...
2           2  7759_3          0  film starts manager nicholas bell investors ro...
3           3  3630_4          0  assumed praised film filmed opera didn read do...
4           4  9495_8          1  superbly trashy wondrously unpretentious explo...
73423
[[15958   623 12368  4459   622   835    30   152  2097  2408 35364 57143
    892  2997   766 42223   967   266 25276   157   108   696  1631   198
   2576  9850  3745    27    52  3789  9503   696   526    52   354   862
    474    38     2   101 11027   696  6456 22390   969  5873  5376  4044
    623  1401  2069   718   618    92    96   138  1345   714    96    18
    123  1770   518  3314   354   983  1888   520    83    73   983     2
     28 28635  1044  2054   401  1071    85  8565  8957  7226   804    46
    224   447  2113  2691  5742    10     5  3217   943  5045   980   373
     28   873   438   389    41    23    19    56   122     9   253 27176
   2149    19    90 57144    53  4874   696  6558   136  2067 10682    48
    518  1482     9  3668  1587  3786     2   110    10   506 25150 20744
    340    33   316    17  4824  3892   978    14 10150  2596   766 42223
   5082  4784   700   198  6276  5254   700   198  2334   696 20879     5
     86    30     2   583  2872 30601    30    86    28    83    73    32
     96    18     2   224   708    30   167     7  3791   216    45   513
      2  2310   513  1860  4536  1925   414  1321   578  7434   851   696
    997  5354 57145   162    30     2    91  1839]
 [    0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     1   357   684
     28  3027 10371  5801 20987 21481 19800     1  3027 10371 21481 19800
   1719   204    49   168   250  7355  1547   374   401  5415    24  1719
     24    49   168  7355  1547  3610 21481 19800   123   204    49   168
   1102  1547   656   213  5432  5183    61     4 66166    20    36    56
      7  5183  2025   116  5031    11    45   782]
 [    0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0  2189     1   586
   2189    15  1855   615   400  5394  3797 23866  2892   481  2892   810
  22020 17820     1   741   231    20   746  2028  1040  6089   816  5555
  41772  1762    26   811   288     8   796    45]
 [    0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0    85   310  1734    78  1906    78  1906  1412  1985
     78  7644  1412   244  9287  7092  6374  2584  6183  3795  3080  1288
   2217  3534  6005  4851  1543   762  1797 26144   699   237  6745     7
   1288  1415  9003  5623   237  1669 17987   874   421   234  1278   347
   9287  1609  7100  1065    75  9800  3344    76  5021    47   380  3015
  14366  6523  1396   851 22330  3465 20861  7106  6374   340    60 19035
   3089  5081     3     7  1695 10735  3582    92  6374   176  8348    60
   1491 11540 28826  1847   464  4099    22  3561    51    22  1538  1027
  38926  2195  1966  3089    33 19894   287   142  6374   184    37  4025
     67   325    37   421   549 21976    28  7744  2466 31533    27  2836
   1339  6374 14805  1670  4666    60    33    12]
 [    0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     1    27    52
   4639     9  5774  1545  8575   855 10463  2688 21019  1542  1701   653
   9765     9   189   706  2212 18342   566   437  2639  4311  4504 26110
    307   496   893   317     1    27    52   587]]
[[0. 1.]
 [0. 1.]
 [0. 1.]
 [1. 0.]
 [0. 1.]]
2021-09-16 20:36:46.488438: I tensorflow/compiler/jit/xla_cpu_device.cc:41] Not creating XLA devices, tf_xla_enable_xla_devices not set
2021-09-16 20:36:46.489070: W tensorflow/stream_executor/platform/default/dso_loader.cc:60] Could not load dynamic library 'libcuda.so.1'; dlerror: /usr/lib/x86_64-linux-gnu/libcuda.so.1: file too short; LD_LIBRARY_PATH: /usr/local/nvidia/lib:/usr/local/nvidia/lib64:/usr/local/cuda/lib64/:/usr/lib/x86_64-linux-gnu
2021-09-16 20:36:46.489097: W tensorflow/stream_executor/cuda/cuda_driver.cc:326] failed call to cuInit: UNKNOWN ERROR (303)
2021-09-16 20:36:46.489128: I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:156] kernel driver does not appear to be running on this host (313c6f2d15e2): /proc/driver/nvidia/version does not exist
2021-09-16 20:36:46.489488: I tensorflow/core/platform/cpu_feature_guard.cc:142] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  AVX512F
To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.
2021-09-16 20:36:46.493241: I tensorflow/compiler/jit/xla_gpu_device.cc:99] Not creating XLA devices, tf_xla_enable_xla_devices not set
Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
embedding (Embedding)        (None, None, 200)         14684800  
_________________________________________________________________
lstm (LSTM)                  (None, 200)               320800    
_________________________________________________________________
dropout (Dropout)            (None, 200)               0         
_________________________________________________________________
dense (Dense)                (None, 64)                12864     
_________________________________________________________________
dense_1 (Dense)              (None, 2)                 130       
=================================================================
Total params: 15,018,594
Trainable params: 15,018,594
Non-trainable params: 0
_________________________________________________________________
None
2021-09-16 20:36:46.792534: I tensorflow/compiler/mlir/mlir_graph_optimization_pass.cc:116] None of the MLIR optimization passes are enabled (registered 2)
2021-09-16 20:36:46.830442: I tensorflow/core/platform/profile_utils/cpu_utils.cc:112] CPU Frequency: 2300000000 Hz
Epoch 1/2
313/313 [==============================] - 101s 315ms/step - loss: 0.5581 - accuracy: 0.7229 - val_loss: 0.3703 - val_accuracy: 0.8486
Epoch 2/2
313/313 [==============================] - 98s 312ms/step - loss: 0.2174 - accuracy: 0.9195 - val_loss: 0.3016 - val_accuracy: 0.8822

以上就是Python机器学习NLP自然语言处理Word2vec电影影评建模的详细内容，更多关于NLP自然语言处理的资料请关注脚本之家其它相关文章！

没有邀请码怎么注册买手妈妈? 氧惠评测
买手妈妈怎么注册小编为大家带来买手妈妈没有邀请码怎么注册。打开买手妈妈APP，点击“马上注册”，输入邀请信息“邀请码”点击下一步，没有邀请码是登录不上的，所以这个必须要填写，那我们没有怎么办？填写成功就可以登录下一步。这里面有手机登录和淘宝登录，手机登录以后也需要用淘宝授权的，所以基本上都是淘宝登录。购物、看电影、点外卖、用氧惠APP！更优惠！氧惠（全网优惠上氧惠）——是与以往完全不同的抖客+淘客
《大兴安岭猎人传说》今年最好看的东北鬼怪故事，很优秀一部电影
《大兴安岭猎人传说》是最新上映于愚人节的网剧，别看是网剧却远超出我的个人预料。该片由民俗故事改编，这点就很吸引人，因为民俗故事口口相传，比那些编造而成的鬼故事更具有了真实性，网大做的电影还不错哦，如果可以我打四星好评。大兴安岭的故事我们经常听老人提起，那里有原始大森林，物产丰富，更流传着精灵怪物的传说。什么红黄白柳灰，出马仙、人参娃娃的故事层出不穷，以大兴安岭为背景的故事真不少。可很多鬼片看到最后
大雄的新恐龙：养育生命，的确不易沧浪先生
哆啦A梦这个动画片，我小时候没有看过，长大了之后似乎对这种充满童真童趣的动画片也没有太多的喜爱，所以结果很明显，我并没有看过哆啦A梦这个动画片。但是近年来大屏幕的兴起，让各家影视剧制作者发现了电影化的好处，没错，电影不仅影响力更大，钱赚得也多。《哆啦A梦·大雄的新恐龙》是最新的一部大屏幕电影，大雄和柯南一样，都永远长不大，而且他和他的小伙伴日复一日、年复一年地和机器猫哆啦A梦在一起玩耍，永远的神奇
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
红手套节马小媛为中国城市环卫者公益发声：今天我手红疏狂君
#红手套节#公益活动，线头公益以及同多方资源的共同努力我们邀请到了线头公益大使马小媛马小媛，1993年5月3日出生于江苏省南京市，中国内地新生代女演员。2015年马小媛参演网剧《余罪》，饰演警校校花安嘉璐的闺蜜。2016年马小媛主演系列电影《丽人保镖》中女一号林欢馨，正式出道。此后，马小媛陆续接演了电视剧《警花与警犬2》，在网剧《你美丽李美丽》中担任女主角李美丽。拂晓，当你还在睡梦中时，这座城跟你
2022.01.22 有用谨言的成长
写作，对我来说，更像是一个自说自话，自我观察，自我反思，自我探索的途径。可以写我的心情故事，写我的观点而不用担心任何人的评论，写我的情绪，写我想说的，有时候觉得只是简单用语言还不能表现出那份深刻，但是文字可以给自己一个更长的时间来思考，来做深度思考，表达得更透彻。写作，有时候我会写自己看了某个电影后的一点感悟，自己的真实感受，不管它和专业影评人相比是不是很肤浅，是不是片面了，只是有时候我也想发声，
2020-8-19晨间日记：看过的电影盐大虾
今天是周三起床：6点半就寝：11点天气：晴心情：正常纪念日：周三任务清单今日完成的任务，最重要的三件事：1.整理写过的文档2.电影《电灯泡》3.这就是街舞第三季第五期改进：早睡早起习惯养成：早睡早起，看书周目标·完成进度两篇文章学习·信息·阅读电影艺术发展史相关教材健康·饮食·锻炼吃了挺多零食，还喝了果粒橙，还是得少吃，多锻炼，不然会慢慢死掉的。人际·家人·朋友淡定交流，不放在心上。工作·思考专心
新私域是什么平台靠谱吗氧惠佣金真的高
新私域指的是借助与互联网电商，随着平台内商家入驻量、用户量相辅相成的全国化平台。是否靠谱取决于平台是否合规。新私域指的是借助与互联网电商，在传统会员体系外新增的锁定用户跨平台、跨界收益，一种随着平台内商家入驻量、用户量相辅相成的全国化平台。关于新私域平台是否靠谱，这个需要看平台的底层逻辑是否合理、合法、合规以及平台的未来的发展方向氧惠APP抖音购物、看电影、点外卖、打车用氧惠APP！佣金更高、更优
《流年一曲成殇》连载47 方冷颜
第四十七章青葱岁月宋曲殇躺在床上，看着寝室的灯已经熄灭了，在上铺的好处大概就是可以看到窗外的景。军训基地在郊区，所以自然环境特别的好，是没有受到污染的地区，晚上真的可以看到满天繁星。一轮弯月挂在天空，月光透过窗户，照在窗外的柏树上，那挺拔的柏树像守卫银河系的战士。宋晟波的舞，就像电影的回放，让她大吃一惊。生活中似乎充满着惊喜，发现，就是一种惊喜。付流年的歌究竟是什么？她好想找个有网络的地方搜一番。
人应该追求多少钱？还是追求自由，陪伴，互相依存？阿尚青子自由写作人
人应该追求多少钱？还是追求自由，陪伴，互相依存？（原问题）回答这样的问题应该有难度，因为此问题问的几个方面好像不属于同一个价值平台，而同一个价值平台的和钱几乎等同的概念又是什么呢？好像又没有什么标准答案，认同不同，问题不同，权当一个不妥帖的解释罢了。首先回答，人应该追求多少钱？看你到底对自己生活的要求和精神要求有多高了，精神追求也是需要定量金钱为支撑的，比如即使看电影，你也得花钱，就网络资源来讲你
还没习惯一个人吗柚子or风筝
昨晚梦到你了，我未来的男朋友。一直对室友说，还不想谈恋爱，一个人挺好。那是因为我只有一个人。告诉自己，我可以一个人吃饭，一个人去图书馆，一个人坐公交，一个人搭地铁，一个人去教室，一个人去兼职，一个人……为什么要两个人呢？其实我比任何人都清楚，我不可以一个人看电影，不可以一个人骑单车，不可以一个人逛操场，不可以一个人逛街，不可以一个人出去玩……一个人吃饭只会去面馆点一碗面，不习惯拼桌，不然宁愿不吃。
你们定戏子无谋
突然听到的！00后迈入成人的脚步声！这才意识到自己的年华越走越远。抓不住的东西只能随着不能停止的步伐渐行渐远…太多太多！无声的遗憾和感叹！图片发自App巧了今天刚去影院看了一直想看的电影（芳华）我理解的是芳心躁动的年华。那个年代他们的青春他们的朝气我是自愧不如的！心有喜欢也不会轻易出口，因为那时我们没有距离，一切都是那么美好！如今的我们已在路过这个年纪！前有往事如酒途岑岁月似狗如今不再所求尔后夕阳
靠谱的海淘APP大全可以海淘的软件有哪些氧惠评测
96KaiFa为您整理了可以海淘的软件有哪些，分别有海淘、ZOZO日本海淘、海淘铺、美芽海淘、海淘1号海外购、高乐高海淘、海淘美瞳、海淘返利网、海淘拼单、豌豆公主海淘，下面一起来看靠谱的海淘APP大全吧！购物、看电影、点外卖、用氧惠APP！更优惠！氧惠（全网优惠上氧惠）——是与以往完全不同的抖客+淘客app！2023全新模式，我的直推也会放到你下面，送1:1超级补贴(邀请好友自购多少，你就推广得多
《西南联大文化课》：战火纷飞的年代中，浓缩的文人精华有梦想的唐糖
恕我孤陋寡闻，我第一次对“西南联大”产生具象的印象，还是因为电影《无问西东》，在此之前，西南联大对我来说，只是一个历史上的名词而已。但是自从看了《无问西东》之后，“西南联大”这四个字就像烙铁一样焊烙在了我的心头。它的存在，是一个奇迹。从1937年8月到1946年7月31日，国立西南联合大学（简称西南联大）只存在了短短8年，但是却深深影响了国人80年，这所诞生于抗日战争初期的大学，培养了2位诺贝尔奖
极度休闲的一天淡泊孤峰
国庆国庆，普天同庆。在家躺着看大家游山玩水，长辈走亲戚，我的微信一天没几条消息，标准结局，习惯了。哈利波特系列电影真不错，童年总幻想着像主角哈利一样，像《龙族》少年楚子航浪迹江湖，风云天下。而现在却败给华为ICT大赛题还有永无止境的代码视频，唉，真可笑！
动画电影《心灵奇旅》教你怎么做人，皮克斯为全人类上了一课韩漫小说
皮克斯出品，必属精品。不知从什么时候，这句话成了中国影迷和动画迷对皮克斯的认可和肯定。作为八十年代的人，虽然现在已经迈入中年，但是从小就对动画片十分痴迷。从《奥特曼》到《高达》，从《黑猫警长》到《海贼王》。动画伴我成长，给了我很多快乐。接触皮克斯的动画，是《玩具总动员》，看了真的令人感动。这不仅是儿童的欢乐片，也是给八零九零后奉献的精美大作。然而这一次的《心灵奇旅》，更是让我对皮克斯刮目相看。这次
2024年华为杯数学建模研赛C题思路代码+论文助攻 DS数模 2024华为杯数学建模华为 2024华为杯 2024研究生数学建模 2024研赛
2024年华为杯研究生数学建模竞赛（以下简研赛）将于9月21日上午8时正式开始。下文包含：2024研赛思路解析、研赛参赛时间及规则信息说明、好用的数模技巧及如何备战数学建模竞赛C君将会第一时间发布选题建议、所有题目的思路解析、相关代码、参考文献、参考论文等多项资料，帮助大家取得好成绩。2024年研赛将于9月21日上午8时正式开始这里有些资料，大家可以看看：【2024最全国赛研赛数模资料包】C君珍贵
关于日更的思考暖益
日更也有10天了，习惯还在养成的过程中，遇到一些问题。日更确实让我觉得有一些成长和思考，感觉也非常棒。但是最近日更遇到一些问题，一个是内容，一个是时间。【日更内容】想要写的内容其实很多，但是需要整理思路，花更多的时间思考，才能提高输出文章的质量。日更内容可通过得到的听书，日常的电影，或者学习获取。记得之前看过的《暗时间》，其中有一个方法就很适合用在此处，往头脑中放一个问题，有事没事拿出来思考或者找
旁观者清童话story
今晚看了电影《五女闹京城》，结局出乎我的意料，兰依依和杨帆离婚了。我一直在心里反复的一句话是：女人都太过善良和心软，总会一次次原谅男人。我的心也在结尾处提升，我总期待着依依是否会原谅杨帆，但，没有。她很淡定，很坚决。如果是我，我觉得我会原谅，但作为一个旁观者，这个男人做生意失败，借的钱无法偿还，害怕债主殴打，就一个人躲起来，无问妻子的死活，完全就是没有责任感的渣男，怂包。当被依依无意中找到的时候哭
第三世界 — 来！给你一次重新投胎的机会沧的海
一、投胎系统用户可自行选择来生的方方面面，包括国度、家庭、事业、技能、容貌、寿命等等；赢利点来了：选择好的方面自然要付出一定的代价啦，比如更长的寿命、更好的容貌等等；二、生活系统投胎转世后即进入生活系统，生活系统包括：1、设施系统街头、旅游、KTV、电影院、酒吧、餐厅…世界的一开始、即原始时期是没有这些设施的，官方只提供土地资源，开放接口给第三方开发者，集众力、创世界；2、任务系统你可以在此发布或
2020疫情期间，我的生活总结林青澜
今天走出家门去取快递，扑面而来的风让我感觉到温暖和煦，春天的气息浓浓的！疫情的管控也在逐渐放松，相信很快就能够恢复正常的生活秩序了，很期待！班级上也在讨论对疫情期间的感受，基于此，我梳理一下这段时间的收获。【做了哪些事】很巧的是，在1月24除夕夜到今天26，刚好整整一个月没有出门，我做了以下的事情：1，读完28本书，其中20本书写了读书文章，发表在。还看完9部小说，4部电影。2，每天写作最多的时候
爱自己便是自己的女王慧宁Sandy
昨天自己感觉有点小累的，奖励自己看了一个电影《我是女王》，刚开始我看的时候，我就是对名字感觉好奇来看的，我是女王多霸气的名字的哦！其实电影前面很狗血我就不吐槽了，我就简单的说一下的，女主角安妮的蜕变。安妮本是一名演员的，谈了五年的恋爱，三年在失恋中没有走出来的，为了别人而失去了自己的，什么事情都是一味的去为别人着想，哪怕是在委屈自己也要去奉承身边的人，严重的不自信的，缺乏安全感，为了那仅有的安全感
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
为啥大家都喜欢看《大叔》这类的电影，绝对不仅仅是因为爽舜子的简单日记
其实这几天我看电影还是很多的，但都没有写，为啥没写？主要是时间问题，另外还是还和心境有关。最近的心思都放在支持学员身上了，没有太多时间去分析总结电影剧情。不过不写不代表心里没东西，就像昨天看完韩国电影《大叔》，接着在除了公众号之外的几个自媒体平台都发了同一篇文章，那就是关于《大叔》的类比电影比较。《大叔》也成为《孤胆特工》，是韩国帅哥元彬主演的一部黑色动作大片。电影中掺杂着《这个杀手不太冷》和《怒
《疯狂的外星人》：生活本就如此荒诞，杀不死你的，终将成就你职心眼儿
文/董小琳了解电影较好的方法是知道它是如何说故事的。——法国评论家安德烈·巴顿早就听闻豆瓣评分6.4的《疯狂的外星人》，口碑两极分化——爱的人，喜欢它的搞笑，符合贺岁档合家欢的观影需求；骂的人，认为剧情牵强，漏洞百出，笑点牵强得像被人瘙痒。结果近54万观众的评分，一半以上的人只给到了及格，甚至还往下的分数。所以，《疯狂的外星人》就铁定是一部烂片了吗？今年过年，在家看了这部作品后，我想，如果电影自己
【机器人建模和控制】读书笔记 Piccab0o 机器人
机器人建模和控制——马克·斯庞A.x10=x1∙x0x^0_1=x_1\bulletx_0x10=x1∙x0，其实就是：1）x1x_1x1轴向量在O0O_0O0系下的坐标2）在x0x_0x0轴上的投影3）坐标变换矩阵的R10R_1^0R10的第一个元素B.点p在o1x1y1z1o_1x_1y_1z_1o1x1y1z1系下的坐标p1p^1p1可以表示为：p=ux1+vy1+wz1p=ux_1+vy_
Matlab在工业机器人中的运用,基于MATLAB的工业机器人建模与仿真.docx weixin_34518801
摘要：机器人运动系统作为机器人系统中最重要的组成部分之一，其重要性不言而喻，因为它影响着机器人的主要性能，因此为了提高机器人的质量，对机器人进行运动学分析和仿真是不可或缺的。本次毕业设计主要对KUKA机器人的三维仿真进行了一系列的分析，主要是以下几个内容：(1)研究了机器人运动学仿真的背景意义及发展趋势。(2)通过对齐次坐标变换理论的研究,说明了KUKA机器人结构及参数,并且建立了相应的D-H参数
你一定可以，遇见更好的自己随心予一
遇见更好的自己你总要学会一个人选择一个人，不代表选择了孤独一个人吃饭，也可以很有仪式感一个人看电影，分析写影评一个人阅读，鉴赏写心得一个人逛街，随心而行图片发自App遇见更好的自己就是选择最惬意的仪式感就是选择以最肆意的方式拥抱青春。特别喜欢的一本书《摆渡人》里面有一句话:“如果我真的存在，也是因为你需要我”但是现在的我不是很赞同遇见更好的自己前提是你要找到你自己自爱，自先沉稳，而后爱人图片发自A
小红书和知乎哪个平台更适合种草?小红书和知乎平台区别氧惠评测
这篇文章主要介绍了小红书和知乎哪个平台更适合种草?，小红书和知乎平台区别的相关资料，小编觉得这篇文章对于那些还不了解小红书和知乎平台对比方面知识的小伙伴来说很有参考性，一起来看看吧购物、看电影、点外卖、用氧惠APP！更优惠！氧惠（全网优惠上氧惠）——是与以往完全不同的抖客+淘客app！2022全新模式，我的直推也会放到你下面，送1:1超级补贴(邀请好友自购多少，你就推广得多少，非常厉害)，欢迎各位
MATLAB在无线通信系统测试和验证中的应用 2401_85812053 matlab 开发语言
在无线通信系统的开发过程中，测试和验证是确保系统性能满足设计要求的关键步骤。MATLAB提供了一系列的工具和功能，这些工具在无线通信系统的测试和验证中发挥着重要作用。本文将详细介绍MATLAB在无线通信系统测试和验证中的应用，包括信道建模、调制解调、射频（RF）链路分析以及硬件验证等方面。1.信道建模信道建模是无线通信系统设计中的关键环节，它影响着信号的传输质量和系统的整体性能。MATLAB提供了
强大的销售团队背后竟然是大数据分析的身影蓝儿唯美数据分析
Mark Roberge是HubSpot的首席财务官，在招聘销售职位时使用了大量数据分析。但是科技并没有挤走直觉。大家都知道数理学家实际上已经渗透到了各行各业。这些热衷数据的人们通过处理数据理解商业流程的各个方面，以重组弱点，增强优势。 Mark Roberge是美国HubSpot公司的首席财务官，HubSpot公司在构架集客营销现象方面出过一份力——因此他也是一位数理学家。他使用数据分析
Haproxy+Keepalived高可用双机单活 bylijinnan 负载均衡 keepalived haproxy 高可用
我们的应用MyApp不支持集群，但要求双机单活（两台机器：master和slave）： 1.正常情况下，只有master启动MyApp并提供服务 2.当master发生故障时，slave自动启动本机的MyApp，同时虚拟IP漂移至slave，保持对外提供服务的IP和端口不变 F5据说也能满足上面的需求，但F5的通常用法都是双机双活，单活的话还没研究过服务器资源 10.7
eclipse编辑器中文乱码问题解决 0624chenhong eclipse乱码
使用Eclipse编辑文件经常出现中文乱码或者文件中有中文不能保存的问题，Eclipse提供了灵活的设置文件编码格式的选项，我们可以通过设置编码格式解决乱码问题。在Eclipse可以从几个层面设置编码格式：Workspace、Project、Content Type、File 本文以Eclipse 3.3（英文）为例加以说明： 1. 设置Workspace的编码格式： Windows-&g
基础篇--resources资源不懂事的小屁孩 android
最近一直在做java开发，偶尔敲点android代码，突然发现有些基础给忘记了，今天用半天时间温顾一下resources的资源。 String.xml 字符串资源涉及国际化问题 http://www.2cto.com/kf/201302/190394.html string-array
接上篇补上window平台自动上传证书文件的批处理问卷酷的飞上天空 window
@echo off : host=服务器证书域名或ip，需要和部署时服务器的域名或ip一致 ou=公司名称, o=公司名称 set host=localhost set ou=localhost set o=localhost set password=123456 set validity=3650 set salias=s
企业物联网大潮涌动：如何做好准备？蓝儿唯美企业
物联网的可能性也许是无限的。要找出架构师可以做好准备的领域然后利用日益连接的世界。尽管物联网（IoT）还很新，企业架构师现在也应该为一个连接更加紧密的未来做好计划，而不是跟上闸门被打开后的集成挑战。“问题不在于物联网正在进入哪些领域，而是哪些地方物联网没有在企业推进，” Gartner研究总监Mike Walker说。 Gartner预测到2020年物联网设备安装量将达260亿，这些设备在全
spring学习——数据库（mybatis持久化框架配置） a-john mybatis
Spring提供了一组数据访问框架，集成了多种数据访问技术。无论是JDBC，iBATIS(mybatis)还是Hibernate，Spring都能够帮助消除持久化代码中单调枯燥的数据访问逻辑。可以依赖Spring来处理底层的数据访问。 mybatis是一种Spring持久化框架，要使用mybatis，就要做好相应的配置： 1，配置数据源。有很多数据源可以选择，如：DBCP，JDBC，aliba
Java静态代理、动态代理实例 aijuans Java静态代理
采用Java代理模式，代理类通过调用委托类对象的方法，来提供特定的服务。委托类需要实现一个业务接口，代理类返回委托类的实例接口对象。按照代理类的创建时期，可以分为：静态代理和动态代理。所谓静态代理：　指程序员创建好代理类，编译时直接生成代理类的字节码文件。所谓动态代理：　在程序运行时，通过反射机制动态生成代理类。一、静态代理类实例： 1、Serivce.ja
Struts1与Struts2的12点区别 asia007 Struts1与Struts2
1) 在Action实现类方面的对比：Struts 1要求Action类继承一个抽象基类；Struts 1的一个具体问题是使用抽象类编程而不是接口。Struts 2 Action类可以实现一个Action接口，也可以实现其他接口，使可选和定制的服务成为可能。Struts 2提供一个ActionSupport基类去实现常用的接口。即使Action接口不是必须实现的，只有一个包含execute方法的P
初学者要多看看帮助文档不要用js来写Jquery的代码百合不是茶 jquery js
解析json数据的时候需要将解析的数据写到文本框中, 出现了用js来写Jquery代码的问题; 1, JQuery的赋值有问题代码如下: data.username 表示的是: 网易 $("#use
经理怎么和员工搞好关系和信任 bijian1013 团队项目管理管理
产品经理应该有坚实的专业基础，这里的基础包括产品方向和产品策略的把握，包括设计，也包括对技术的理解和见识，对运营和市场的敏感，以及良好的沟通和协作能力。换言之，既然是产品经理，整个产品的方方面面都应该能摸得出门道。这也不懂那也不懂，如何让人信服？如何让自己懂？就是不断学习，不仅仅从书本中，更从平时和各种角色的沟通
如何为rich:tree不同类型节点设置右键菜单 sunjing contextMenu tree Richfaces
组合使用target和targetSelector就可以啦，如下： <rich:tree id="ruleTree" value="#{treeAction.ruleTree}" var="node" nodeType="#{node.type}" selectionChangeListener=&qu
【Redis二】Redis2.8.17搭建主从复制环境 bit1129 redis
开始使用Redis2.8.17 Redis第一篇在Redis2.4.5上搭建主从复制环境，对它的主从复制的工作机制，真正的惊呆了。不知道Redis2.8.17的主从复制机制是怎样的，Redis到了2.4.5这个版本，主从复制还做成那样，Impossible is nothing! 本篇把主从复制环境再搭一遍看看效果，这次在Unbuntu上用官方支持的版本。 Ubuntu上安装Red
JSONObject转换JSON--将Date转换为指定格式白糖_ JSONObject
项目中，经常会用JSONObject插件将JavaBean或List<JavaBean>转换为JSON格式的字符串，而JavaBean的属性有时候会有java.util.Date这个类型的时间对象，这时JSONObject默认会将Date属性转换成这样的格式： {"nanos":0,"time":-27076233600000,
JavaScript语言精粹读书笔记 braveCS JavaScript
【经典用法】： //①定义新方法 Function .prototype.method=function(name, func){ this.prototype[name]=func; return this; } //②给Object增加一个create方法，这个方法创建一个使用原对
编程之美-找符合条件的整数用字符串来表示大整数避免溢出 bylijinnan 编程之美
import java.util.LinkedList; public class FindInteger { /** * 编程之美找符合条件的整数用字符串来表示大整数避免溢出 * 题目：任意给定一个正整数N，求一个最小的正整数M(M>1)，使得N*M的十进制表示形式里只含有1和0 * * 假设当前正在搜索由0，1组成的K位十进制数
读书笔记 chengxuyuancsdn 读书笔记
1、Struts访问资源 2、把静态参数传递给一个动作 3、<result>type属性 4、s:iterator、s:if c:forEach 5、StringBuilder和StringBuffer 6、spring配置拦截器 1、访问资源 (1)通过ServletActionContext对象和实现ServletContextAware,ServletReque
[通讯与电力]光网城市建设的一些问题 comsci 问题
信号防护的问题,前面已经说过了,这里要说光网交换机与市电保障的关系我们过去用的ADSL线路,因为是电话线,在小区和街道电力中断的情况下,只要在家里用笔记本电脑+蓄电池,连接ADSL,同样可以上网........
oracle 空间RESUMABLE daizj oracle 空间不足 RESUMABLE 错误挂起
空间RESUMABLE操作转 Oracle从9i开始引入这个功能，当出现空间不足等相关的错误时，Oracle可以不是马上返回错误信息，并回滚当前的操作，而是将操作挂起，直到挂起时间超过RESUMABLE TIMEOUT，或者空间不足的错误被解决。这一篇简单介绍空间RESUMABLE的例子。第一次碰到这个特性是在一次安装9i数据库的过程中，在利用D
重构第一次写的线程池 dieslrae 线程池 python
最近没有什么学习欲望,修改之前的线程池的计划一直搁置,这几天比较闲,还是做了一次重构,由之前的2个类拆分为现在的4个类. 1、首先是工作线程类:TaskThread,此类为一个工作线程,用于完成一个工作任务,提供等待(wait),继续(proceed),绑定任务(bindTask)等方法 #!/usr/bin/env python # -*- coding:utf8 -*-
C语言学习六指针 dcj3sjt126com c
初识指针，简单示例程序： /* 指针就是地址，地址就是指针地址就是内存单元的编号指针变量是存放地址的变量指针和指针变量是两个不同的概念但是要注意：通常我们叙述时会把指针变量简称为指针，实际它们含义并不一样 */ # include <stdio.h> int main(void) { int * p; // p是变量的名字， int *
yii2 beforeSave afterSave beforeDelete dcj3sjt126com delete
public function afterSave($insert, $changedAttributes) { parent::afterSave($insert, $changedAttributes); if($insert) { //这里是新增数据 } else { //这里是更新数据 } }
timertask shuizhaosi888 timertask
java.util.Timer timer = new java.util.Timer(true); // true 说明这个timer以daemon方式运行（优先级低， // 程序结束timer也自动结束），注意，javax.swing // 包中也有一个Timer类，如果import中用到swing包， // 要注意名字的冲突。 TimerTask task = new
Spring Security（13）——session管理 234390216 session Spring Security 攻击保护超时
session管理目录 1.1 检测session超时 1.2 concurrency-control 1.3 session 固定攻击保护
公司项目NODEJS实践0.3[ mongo / session ...] 逐行分析JS源代码 mongodb session nodejs
http://www.upopen.cn 一、前言书接上回，我们搭建了WEB服务端路由、模板等功能，完成了register 通过ajax与后端的通信，今天主要完成数据与mongodb的存取，实现注册 / 登录 /
pojo.vo.po.domain区别 LiaoJuncai java VO POJO javabean domain
　　POJO = "Plain Old Java Object"，是MartinFowler等发明的一个术语，用来表示普通的Java对象，不是JavaBean, EntityBean 或者 SessionBean。POJO不但当任何特殊的角色，也不实现任何特殊的Java框架的接口如，EJB， JDBC等等。　　　　即POJO是一个简单的普通的Java对象，它包含业务逻辑
Windows Error Code OhMyCC windows
0 操作成功完成. 1 功能错误. 2 系统找不到指定的文件. 3 系统找不到指定的路径. 4 系统无法打开文件. 5 拒绝访问. 6 句柄无效. 7 存储控制块被损坏. 8 存储空间不足, 无法处理此命令. 9 存储控制块地址无效. 10 环境错误. 11 试图加载格式错误的程序. 12 访问码无效. 13 数据无效. 14 存储器不足, 无法完成此操作. 15 系
在storm集群环境下发布Topology roadrunners 集群 storm topology spout bolt
storm的topology设计和开发就略过了。本章主要来说说如何在storm的集群环境中，通过storm的管理命令来发布和管理集群中的topology。 1、打包打包插件是使用maven提供的maven-shade-plugin，详细见maven-shade-plugin。 <plugin> <groupId>org.apache.maven.
为什么不允许代码里出现“魔数” tomcat_oracle java
　　在一个新项目中，我最先做的事情之一，就是建立使用诸如Checkstyle和Findbugs之类工具的准则。目的是制定一些代码规范，以及避免通过静态代码分析就能够检测到的bug。　　迟早会有人给出案例说这样太离谱了。其中的一个案例是Checkstyle的魔数检查。它会对任何没有定义常量就使用的数字字面量给出警告，除了-1、0、1和2。　　很多开发者在这个检查方面都有问题，这可以从结果
zoj 3511 Cake Robbery(线段树) 阿尔萨斯线段树
题目链接：zoj 3511 Cake Robbery 题目大意：就是有一个N边形的蛋糕，切M刀，从中挑选一块边数最多的，保证没有两条边重叠。解题思路：有多少个顶点即为有多少条边，所以直接按照切刀切掉点的个数排序，然后用线段树维护剩下的还有哪些点。 #include <cstdio> #include <cstring> #include <vector&

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他

Python机器学习NLP自然语言处理Word2vec电影影评建模

目录

概述

词向量

词向量维度

代码实现

预处理

主程序

你可能感兴趣的:(Python机器学习NLP自然语言处理Word2vec电影影评建模)