oldmao_2001

深度之眼Paper带读笔记NLP.Baseline.3.C2W

文章目录

前言

前期知识储备
论文总览
学习目标

第一课：论文导读

背景知识
词嵌入模型的问题

无推理能力
词表大小问题

研究成果及意义

研究成果
研究意义

第二课：论文精读

论文结构

摘要
论文章节

C2W模型

词嵌入模型
字符嵌入模型
C2W模型应用

实验结果及分析

语言模型训练方法：
POS实验

论文总结

代码复现

项目环境配置
数据集
数据集处理

C2W模型

前言

Finding Function in Form: Compositional Character Models for Open Vocabulary Word Representation
从字符中生成词嵌入：用于开放词表示的组合字符模型
题目中的function代表词语法和语义特征或称为词嵌入
开放意思是词表大小是不固定的，没有UNK单词，只要有新单词就可以加入到词表中。
作者：Wang Ling（第一作者）
单位：Carnegie Mellon University
会议：EMNLP2015

在线LaTeX公式编辑器

前期知识储备

机器学习：机器学习中基本的原理及概念，如数据集的划分，损失函数，优化方法等
神经网络：了解神经网络的基本知识，特别是循环神经网络（LSTM）的基本原理
词向量：了解词向量的概念，了解word2vec，了解语言模型训练词向量的方法

编程：了解PyTorch基本使用方法，如数据读取、模型构建，损失优化等

论文总览

学习目标

第一课：论文导读

背景知识

词向量的学习对于自然语言处理的应用非常重要，词向量可以在空间上捕获词之间的语法和语义（Function）相似性。
但是词向量机制中的词和词之间是独立的，这种独立性假设是有问题的，词之间形式上的相似性会一定程度造成功能的相似性（cat vs cats），尤其是在形态丰富的语言中。
但是这种形态和功能之间的关系有不是绝对的（不好学习到），为了学习这种关系，本文在字符嵌入上使用双向LSTM来捕捉这种关系。
本文的C2W模型能够很好地捕捉词之间的语法和语义相似度，并且在两个任务上取得最优的结果。

词嵌入模型的问题

无推理能力

虽然模型可以学习到词与词之间的关系，例如上图中的原型，比较级，最高级。
但是如果给定一个单词great，是不能推出来他的比较级是greater的（如果词表中没有greater这个词就会是一个UNK），就是没有推理能力。

词表大小问题

研究成果及意义

研究成果

在英语EN、葡萄牙语PT、加泰罗尼亚语CA、德语DE和土耳其语TR五种语言的语言模型上均取得最优结果。
从困惑度和参数个数上来看，结果都不错

在英语的词性标注POS任务上取得最优STOA的结果。

右边的速度显示这个模型速度比较慢。

研究意义

C2W历史意义
提供了一种新的训练词表示的方法，并且首次学习词内部的形式

第二课：论文精读

论文结构

摘要

我们提出了一种新的使用字符和双向LSTM生成词表示的模型。
We introduce a model for constructing vector representations of words by
composing characters using bidirectional LSTMs.
相对于传统的词向量方法，我们的C2W模型需要的参数比较少，主要有两部分，一部分是字符映射成向量的参数，一部分是组合模块LSTM的参数。
Relative to traditional word representation models that have independent
vectors for each word type, our model requires only a single vector per character type and a fixed set of parameters for the compositional model.
尽管我们的模型参数少，并且单词中的形式-功能关系很难学习，我们的模型在语言模型和词性标注任务上取得最优的结果。
Despite the compactness of this model and, more importantly, the arbitrary nature of the form–function relationship in language, our “composed” word representations yield state-of-the-art results in language modeling and part-of-speech tagging.
这种优势在形态丰富的语言（土耳其语）中更加明显。
Benefits over traditional baselines are particularly pronounced in morphologically rich languages (e.g., Turkish).

论文章节

Introduction
Word Vectors and Wordless Word Vectors
2.1 Problem: Independent Parameters
2.2 Solution: Compositional Models
C2W Model
Experiments: Language Modeling
4.1 Language Model
4.2 Experiments
Experiments: Part-of-speech Tagging
5.1 Bi-LSTM Tagging Model
4.2 Experiments
4.3 Discussion
Related Work
Conclusion
这个文章的Related Work是放后面的，当Related Work对介绍后面的内容不影响可以放后面。

C2W模型

词嵌入模型

模型输入是词，输出是词向量
训练好后在Word Lookup Table里面可以直接查找词对应的词向量

字符嵌入模型

这里输入一个词，把每一个字符映射为向量（Character Lookup Table），例如上图中把c，a，t，s对应的四个向量丢到Bi-LSTM中（下半部分中第二排是正向LSTM【cats】，第三排是反向LSTM【stac】），然后把正向和反向的最后一个隐藏层的输出组合到一起得到单词cats的词向量。
缺点：
训练时还需要通过LSTM生成词表示，速度比词向量机制要慢。
测试时虽然可以通过缓存的方法预先生成一些词向量，但是对于OOV词的词表示生成依旧速度慢。
优点：
能够解决OOV词问题。
可以捕获字符间的结构信息。
可以推理出相似结构的词表示。

C2W模型应用

用于需要字符信息的任务，如序列标注、NER、POS

用于OOV词比较多的任务，如对抗样本，下图中的plcae和herat如果映射为UNK向量，那么整句话就很可能被识别为负面信息。

实验结果及分析

语言模型训练方法：

上面是论文C2W模型，得到词向量后通过LSTM进行预测。

基于上面的语言模型：
在英语EN、葡萄牙语PT、加泰罗尼亚语CA、德语DE和土耳其语TR五种语言的语言模型上均取得最优结果。
从困惑度和参数个数上来看，结果都不错。
这里补充一下，困惑度和单词数量的关系，当单词数量越大，词表就越大，每一个词分到的概率就变小（概率总和为1），困惑度变高。因此单词量小反而困惑度变小。

Table 2: Most-similar in-vocabular words under the C2W model; the two query words on the left are in the training vocabulary, those on the right are nonce (invented) words.
最右边两个词是作者自己发明的。

POS实验

词性标注模型，和上面的语言模型差不多

结果：

和词向量方法组合的词性标注实验

论文总结

关键点
词向量机制的两个问题：1.词与词之间是独立的cat和cats实际上应该不独立；2.词表太大，导致参数过多
如何学习单词中的形式-功能关系（双向LSTM）
C2W模型
创新点
提出了一种新的词表示方法—C2W
在语言模型任务和词性标注任务上取得非常好的结果
在形态丰富的语言中表现效果更好
启发点
这种词的独立性假设是存在本质问题的，尤其是在形态学丰富的语言中。在这种形态学丰富的语言中，更合理的假设是形态相似的词功能上（语法和语义）可能也相似。
This paper argues that this independence assumption is inherently problematic, in particular in morphologically rich languages (e.g., Turkish). In such languages, a more reasonable assumption would be that orthographic (formal) similarity is evidence for functional similarity (Introduction P1)
我们这篇工作的目的不是为了超越基准模型，而是为了说明基准模型中的特征工程可以从数据中自动学习出来。（都超过了才说的漂亮话）
The goal of our work is not to overcome existing benchmarks, but show that much of the feature engineering done in the benchmarks can be learnt automatically from the task specific data. (5.5 Discussion P1)

代码复现

项目环境配置

·Python3.5
·jupyter notebook
·torch 1.4.0
·numpy 1.16.2
·gensim 3.8.1
·tqdm 4.31.1
·pickler
·json
·nltk
·wikiextractor

数据集

同baseline 1
数据集可以选一个比较小的，注意要下article
wikiextractor:https://github.com/attardi/wikiextractor 这个东东处理的数据可以提取出完整的句子，带标点，而不是一个个的单词，用法如下：
python WikiExtractor.py -o output- b 1000M enwiki-latest-pages-articles14.xml-p7697595p7744800.bz2 --json
output是文件夹，1000M是大数据集在输出的时候可以进行切分为小文件的大小。
下图是处理后的结果：

有的时候还有/n的换行符，这个是处理过的。

    data = json.loads(data,strict=False)
    sentences = data["text"]
    sentences = sentences.replace("\n\n",". ")
    sentences = sentences.replace("\n",". ")

另外一个要注意的就是nltk的安装，以上安装会比较慢，还会报错：

可以直接下载（https://pan.baidu.com/s/1hq7UUFU）后解压到：
c盘下user下的当前用户名的Roaming>nltk_data里面，
解压后：

打开tokenizers再解压得到punkt目录，和一堆文件，创建一个PY3文件夹，把文件放到PY3文件夹，否则会报错。（每个人环境貌似不一样，我的就不用创建，保险一点就是punkt和PY3都放一份）

数据集处理

data_processing

# -*- coding: utf-8 -*-
import json
import nltk

# ·数据集加载
# ·分句，分词以及划分数据集
# ·加载训练集
# ·构建word2id，char2id
# ·构建特征和标签
# ·生成torch数据导入类
datas = open("./wiki_00", encoding="utf-8").read().splitlines()  # 按行进行切分
print(datas[0:5])  # 打印一部分数据看看，发现是很乱的
num_words = 0
f_train = open("train.txt", "w", encoding="utf-8")
f_valid = open("valid.txt", "w", encoding="utf-8")
f_test = open("test.txt", "w", encoding="utf-8")
for data in datas:
    data = json.loads(data, strict=False)
    # 这里的data包含的内容不单单有文本信息，还有文章的编号，标题，网址等信息，这些我们都不要，我们只关心'text'对应的内容
    # 'id': '7719190', 'url': 'https://en.wikipedia.org/wiki?curid=7719190', 'title': 'List of Teletubbies episodes and videos', 'text': 'List of Teletubbies episodes and videos

    # 用data["text"]来提取'text'对应的内容
    sentences = data["text"]
    # 替换掉\n\n替换为句号+空格
    sentences = sentences.replace("\n\n", ". ")
    sentences = sentences.replace("\n", ". ")
    # 用sent_tokenize把句子进行切分
    sentences = nltk.sent_tokenize(sentences)

    for sentence in sentences:
        # 用word_tokenize对每个句子中的单词进行切分，这里不用空格分是因为句子里面包含有标点符号
        sentence = nltk.word_tokenize(sentence)
        # 过滤标题和长句
        if len(sentence) < 10 or len(sentence) > 100:
            continue
        num_words += len(sentence)
        print(sentence)
        # 一句话切为词后加回车换行
        sentence = " ".join(sentence) + "\n"
        # 前1000000个词作为训练集放到train.txt，接下来20000个词作为验证集放到valid.txt中，接下来20000个词作为测试集放到test.txt中
        if num_words <= 1000000:
            f_train.write(sentence)
        elif num_words <= 1020000:
            f_valid.write(sentence)
        elif num_words <= 1040000:
            f_test.write(sentence)
        else:
            exit()

data_load

# coding:utf-8
from torch.utils import data
import os
import numpy as np
import pickle
from collections import Counter


# 继承py的DataLoader进行处理，前面三个函数需要实现
class Char_LM_Dataset(data.DataLoader):
    def __init__(self, mode="train", max_word_length=16, max_sentence_length=100):

        self.path = os.path.abspath('.')
        if "data" not in self.path:
            self.path += "/data"
        self.mode = mode
        self.max_word_length = max_word_length
        self.max_sentence_length = max_sentence_length
        datas = self.read_file()
        datas, char_datas, weights = self.generate_data_label(datas)
        # 对datas和char_datas进行reshape
        # 标签datas原来大小sample_number*MSL，整合为一维的
        # 数据char_datas原来大小sample_number * MSL * MWL，因为LSTM对输入是有要求的：batchsize*MWL*embeddingsize
        # LSTM的输出是二维（sample_number*MSL）*embeddingsize，然后再reshape为三维：sample_number*MSL*embeddingsize
        # 所以这里char_datas要reshape为二维的：(sample_number * MSL) * MWL
        self.datas = datas.reshape([-1])
        self.char_datas = char_datas.reshape([-1, self.max_word_length])
        self.weights = weights
        print(self.datas.shape, self.char_datas.shape, weights.shape)

    def __getitem__(self, index):
        return self.char_datas[index], self.datas[index], self.weights[index]

    def __len__(self):
        return len(self.datas)

    def read_file(self):
        # 加载训练集
        if self.mode == "train":
            datas = open(self.path + "/train.txt", encoding="utf-8").read().strip("\n").splitlines()
            # 读取train.txt后用空格将词分开
            datas = [s.split() for s in datas]

            if not os.path.exists(self.path + "/word2id"):
                words = []
                chars = []
                for data in datas:
                    for word in data:
                        words.append(word.lower())
                        chars.extend(word)
                # 构建word2id，char2id
                # 由于词表包含和，所以要-2
                words = dict(Counter(words).most_common(5000 - 2))
                # 由于字表包含和和，所以要-3
                chars = dict(Counter(chars).most_common(512 - 3))
                print(chars)

                # 除了保留的2个特殊符号，其他单词都设置id
                word2id = {"": 0, "": 1}
                for word in words:
                    word2id[word] = len(word2id)
                # 除了保留的3个特殊符号，其他字符都设置id
                char2id = {"": 0, "": 1, "": 2}
                for char in chars:
                    char2id[char] = len(char2id)
                self.word2id = word2id
                self.char2id = char2id
                pickle.dump(self.word2id, open(self.path + "/word2id", "wb"))
                pickle.dump(self.char2id, open(self.path + "/char2id", "wb"))
            else:
                self.word2id = pickle.load(open(self.path + "/word2id", "rb"))
                self.char2id = pickle.load(open(self.path + "/char2id", "rb"))
            return datas
        elif self.mode == "valid":
            datas = open(self.path + "/valid.txt", encoding="utf-8").read().strip("\n").splitlines()
            datas = [s.split() for s in datas]
            self.word2id = pickle.load(open(self.path + "/word2id", "rb"))
            self.char2id = pickle.load(open(self.path + "/char2id", "rb"))
            return datas
        elif self.mode == "test":
            datas = open(self.path + "/test.txt", encoding="utf-8").read().strip("\n").splitlines()
            datas = [s.split() for s in datas]
            self.word2id = pickle.load(open(self.path + "/word2id", "rb"))
            self.char2id = pickle.load(open(self.path + "/char2id", "rb"))
            return datas

    # 构建特征和标签
    # 由于句子和句子，单词和单词是不一样长度的，因此在构建它们的矩阵的时候是根据max_sentence_length（100）和max_word_length（16）来设计的
    # 如果句子中的单词小于max_sentence_length，则用pad补齐
    # 如果单词中的字符小于max_word_length，则用pad补齐
    # 为了使得模型不对用于补齐的pad进行计算，每个句子和单词都配上一个weights，weights在pad的位置为0，否则为1，用于表示当前位置的东西是否要进行预测计算
    # loss*weights即可避免pad的计算
    def generate_data_label(self, datas):
        char_datas = []
        weights = []
        for i, data in enumerate(datas):
            if i % 1000 == 0:  # 每1000个做一次输出
                print(i, len(datas))
            # 对应的id是2，下面得到的是：
            # [[2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]]
            char_data = [[self.char2id[""]] * self.max_word_length]

            for j, word in enumerate(data):
                char_word = []
                # 将每个词映射为字符
                for char in word:
                    # 如果能在字符表找到字符的id则设置id，否则设置为unk的id
                    char_word.append(self.char2id.get(char, self.char2id[""]))
                # 将短的单词的字符补齐到max_word_length长度，补的
                char_word = char_word[0:self.max_word_length] + \
                            [self.char2id[""]] * (self.max_word_length - len(char_word))
                # 如果能在单词表找到单词的id则设置id，否则设置为unk的id
                datas[i][j] = self.word2id.get(datas[i][j].lower(), self.word2id[""])
                char_data.append(char_word)
            weights.extend([1] * len(datas[i]) + [0] * (self.max_sentence_length - len(datas[i])))
            # 句子按照max_sentence_length进行补
            datas[i] = datas[i][0:self.max_sentence_length] + [self.word2id[""]] * (
                    self.max_sentence_length - len(datas[i]))
            char_datas.append(char_data)

            # 字符表组合为词后也要按max_sentence_length进行补，每个词按max_word_length长度进行补。
            char_datas[i] = char_datas[i][0:self.max_sentence_length] + \
                            [[self.char2id[""]] * self.max_word_length] * (
                                    self.max_sentence_length - len(char_datas[i]))

        datas = np.array(datas)  # 句子个数*max_sentence_length，即：sample_number*MSL
        char_datas = np.array(char_datas)  # 句子个数*max_sentence_length*max_word_length，即：sample_number*MSL*MWL
        weights = np.array(weights)
        return datas, char_datas, weights


if __name__ == "__main__":
    char_lm_dataset = Char_LM_Dataset()

C2W模型

# -*- coding: utf-8 -*-
import torch
import torch.nn as nn
import numpy as np

# 输入数据是二维的：(bs*MSL)*MWL，对输入进行char_embedding后，得到：(bs*MSL)*MWL*char_embedding_size，进入Bi-LSTM
# Bi-LSTM输出两部分，正向：(bs*MSL)*MWL*hidden_size，反向：(bs*MSL)*MWL*hidden_size
# PyTorch把正向和反向都concat到一起：(bs*MSL)*MWL*hidden_size*2
# 输入要设置batch_first=True，PyTorch才会认为第一个维度是batchsize，默认是false，这里要注意。
# 然后我们需要把正向的最后一个值（正向最后的输出）和反向的第一个值（反向最后的输出）拿出来进行concat。
# 然后把concat的结果进行FC，得到：(bs*MSL)*word_embedding_size二维结果
# reshape为三维的：bs*MSL*word_embedding_size
# 送进LSTM得到三维的：bs*MSL*LM_hidden_size
# Reshape为二维的：(bs*MSL)*LM_hidden_size
# 送进分类器得到：(bs*MSL)*词表大小
class C2W(nn.Module):
    def __init__(self, config):
        super(C2W, self).__init__()
        self.char_hidden_size = config.char_hidden_size
        self.word_embed_size = config.word_embed_size
        self.lm_hidden_size = config.lm_hidden_size
        self.character_embedding = nn.Embedding(config.n_chars, config.char_embed_size)
        self.sentence_length = config.max_sentence_length
        self.char_lstm = nn.LSTM(input_size=config.char_embed_size, hidden_size=config.char_hidden_size,
                                 bidirectional=True, batch_first=True)
        self.lm_lstm = nn.LSTM(input_size=self.word_embed_size, hidden_size=config.lm_hidden_size, batch_first=True)
        self.fc_1 = nn.Linear(2 * config.char_hidden_size, config.word_embed_size)
        self.fc_2 = nn.Linear(config.lm_hidden_size, config.vocab_size)

    def forward(self, x):
        # x是二维的：(bs*MSL)*MWL
        # 对输入进行char_embedding后，得到：(bs*MSL)*MWL*char_embedding_size
        input = self.character_embedding(x)
        char_lstm_result = self.char_lstm(input)
        # 需要把正向的最后一个值（正向最后的输出）和反向的第一个值（反向最后的输出）拿出来进行concat。
        word_input = torch.cat([char_lstm_result[0][:, -1, 0:self.char_hidden_size],
                                char_lstm_result[0][:, 0, self.char_hidden_size:0]], dim=1)
        print(word_input.shape)
        # 把concat的结果进行FC，得到：(bs*MSL)*word_embedding_size二维结果
        word_input = self.fc_1(word_input)
        # reshape为三维的：bs*MSL*word_embedding_size
        word_input = word_input.view([-1, self.sentence_length, self.word_embed_size])
        # 送进LSTM得到三维的：bs*MSL*LM_hidden_size
        lm_lstm_result = self.lm_lstm(word_input)[0].contiguous()
        # Reshape为二维的：(bs*MSL)*LM_hidden_size
        lm_lstm_result = lm_lstm_result.view([-1, self.lm_hidden_size])
        # 送进分类器得到：(bs*MSL)*词表大小
        out = self.fc_2(lm_lstm_result)
        return out


class config:
    def __init__(self):
        self.n_chars = 64
        self.char_embed_size = 50
        self.max_sentence_length = 8
        self.char_hidden_size = 50
        self.lm_hidden_size = 150
        self.word_embed_size = 50
        config.vocab_size = 1000


if __name__ == "__main__":
    config = config()
    c2w = C2W(config)
    test = torch.tensor(np.zeros([64, 16])).long()
    c2w(test)

情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
读《人世间》有感一0一
这个寒假，就如同朋友圈中的一段话：一闭眼，一睁眼假期还有5天，在一闭眼一睁眼假期还有12天；再一闭眼一睁眼假期还有20天；不敢睡，不敢睡啊……受疫情影响，这个假期变得漫长又煎熬，我也无时无刻不关注着疫情的变化。当然这样的一个假期，我还真得要感谢周翔，因为他有个爱看书的习惯，所以家里有不少他看过的书，可以让我随意挑选，因此也让我的假期不至于那么无所事事。这次我选了一本梁晓声的《人世间》，作为一名语文
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
读书||陶新华《教育中的积极心理学》1—28 流水淙淙2022
读一本好书，尤如和一位高尚者对话，亦能对人的精神进行洗礼。但是若不能和实践结合起来，也只能落到空读书的状态。读书摘要与感想1、塞利格曼在《持续的幸福》一书中提出了幸福2.0理论，提出幸福由5个元素决定——积极情绪、投入的工作和生活、目标和意义、和谐的人际关系、成就感。2、人的大脑皮层在进行智力活动时，都伴有皮下中枢活动，对这些活动进行体验请假，并由此产生了情感解读。人的情绪情感体验总是优先于大脑的
被带偏的家人，可气又感动艾孤璟
当我还是个严肃且内敛的孩子时，爷爷也是个严谨且和蔼的人，虽然不苟言笑，但没有距离感。当我接触的人越来越多，知道怎么调动气氛，家人们就被我带偏了。家里人本来没有外号的，后来都被我给取了各种各样的名字，“骂人”时就相对应的有了暗号。村里的小孩，本来不知道怎么使用假动作“打人”，怎么给人取合适的外号，后来也被我带偏了。老人常说我，古灵精怪，好的不学非得学坏的，带着不良风气。而我对他的话总是想生气又觉得搞
自我意识徐立华
----读帕克.帕尔默《教学勇气》（P18----19）5.铸造我们的学科帕克.帕尔默说学科知识对我们的自身认同和外部世界有启发意义。学科会铸造我们。“在我们与学科的命题概念和学科的生活框架相遇之前，自我意识知识处于潜伏状态，通过回想学科是怎样唤醒自我意识，我们就可以找回教学心灵。”《教学勇气》（P18）我们的自我意识像冰山表面下无限延伸的冰层，常常处于潜伏状态。但是在我们对所教授的学科进行深入思
直返APP是什么?直返APP是干嘛的氧惠帮朋友一起省
直返是一种电商购物模式，其核心特点是用户购买商品后可以获得直接返利。具体来说，用户在直返电商平台购买商品时，不仅可以获得商品本身的优惠，还可以获得一定的现金返利或者积分奖励。返利的金额可以提现到用户的账户余额，或者用于下次购物时抵扣。氧惠APP（带货领导者）——是与以往完全不同的抖客+淘客app！2023全新模式，我的直推也会放到你下面。主打：带货高补贴，深受各位带货团队长喜爱（每天出单带货几十万
直返的东西正品吗?直返APP安全吗?直返是正规平台吗? 氧惠购物达人
亲们，你们是不是经常在直返APP上买东西呀？但是，你们有没有想过，里面的东西到底是不是正品呢？这个APP安全吗？它是不是一个正规的平台呀？别着急，今天我就来给大家揭秘一下！氧惠APP（带货领导者）——是与以往完全不同的抖客+淘客app！2023全新模式，我的直推也会放到你下面。主打：带货高补贴，深受各位带货团队长喜爱（每天出单带货几十万单）。注册即可享受高补贴+0撸+捡漏等带货新体验。送万元推广大
读《人间鲁迅》有感琳语读书
上周读完《闻一多传》后，我对中国近代知识分子产生了兴趣，这周继续读了《人间鲁迅》。厚厚的两本书，记录了一个人的一生，苦痛，彷徨和挣扎，虽然只读了一小部分，却也心潮澎湃。闻一多和鲁迅是完全不同的。鲁迅是沉郁的，现实的，寂寞的，抗争的。除了天生性格的不同外，环境的塑造也是非常之大。鲁迅少年经历了家庭的变故，看尽了人间冷暖，世态炎凉。这种经历促使他很早就观察思考人生，立志用文学来改变中国国民的劣根。闻一
第一四三章：天降奇兵逸川
“是她！”为了护住公孙枝，季姜（姜姓吕氏女，名子芸）舍身朝着刺来的长戟迎了过去。待公孙枝反应过来，长戟的尖刃已经抵到了季姜的胸前，让他只感手足无措。然就在这千钧一发之际，有一支羽箭突然从山巅飞来直插入狄兵脖颈，将其连人带戟射倒在地。顺着羽箭飞来的方向望去，却见到一名头戴白色纱笠的女子，正站在山脊上左右开弓。每有羽箭射出，便立时有狄兵应声而倒，端是飒爽无比：“竟不知她技艺如此娴熟！”“她是谁？”听到
希望和悲伤都是照亮我们人生的一缕光山月映雪
我开始并不想读《云边有个小卖部》，但看到好几个学生就都在读这本书，为了了解学生的阅读实际，我就拿起这本书翻看起来。读了十几页，发现小说的语言中不时有一些粗俗的字眼，感觉自己读不下去了。小说一开始把云边镇风景写的特别的美好，我错判为脱离现实的鸳鸯蝴蝶派小说，对于人为制造的童话世界的人与物，我真的不太感兴趣，所以就没有再读了。有天在教室闲转，顺手又拿起了这本书看了起来，这次我才真的看进去了。这部小说除
一颗小桃树李蓉乐平市湾头中小学
当“凹”同“洼”的时侯，才读(wa，平声)，他不叫贾平洼(贾，原名贾平娃)，非要写作贾平凹。为了表示对他的尊重，对文学的尊重，对文化人的尊重。如果不是帮闺蜜的儿子修改作文，我也不会发现贾平凹叫贾平娃。以下是摘选他的文章《一棵小桃树》：可我的小桃树儿，一颗“仙桃”的种子，却开得太白了，太淡了，那瓣片儿单薄得似纸做的，没有肉的感觉，没有粉的感觉，像患了重病的少女，苍白白的脸，又偏苦涩涩地笑着。雨还在下
C语言判断回文数 Y雨何时停T c语言学习
一，回文数概念“回文”是指正读反读都能读通的句子，它是古今中外都有的一种修辞方式和文字游戏，如“我为人人，人人为我”等。在数学中也有这样一类数字有这样的特征，成为回文数。设n是一任意自然数。若将n的各位数字反向排列所得自然数n1与n相等，则称n为一回文数。例如，若n=1234321，则称n为一回文数；但若n=1234567，则n不是回文数。二，判断回文数实现思路一：数组与字符串将数字每一位按顺序放
如何培养兴趣绽蕊向阳
今天读李笑来的书《与时间做朋友》，读到有关兴趣部分，深有感触。书中提到，好多人说对某事没有兴趣，实际上是没有能力把这件事做好，做这件事时的感受很不好，有挫败感，每个人对自己不擅长做不好的事情，都本能的容易逃避，所以就以为自己对这件事不感兴趣，他们真正感兴趣的是其他事情。可事实上，出现这种感觉应该仅仅是因为还没有开始做那件事情，也还没有在那件事情上遭受挫折而已。其实，很多人真的放弃原来做的事情，转去
《吹牛大王历险记》读书随笔赵炳森
这本书的作者是埃·拉斯伯戈·毕尔格。（没查到相关内容，好像他只写过《吹牛大王历险记》。）最让人百思不得其解的是他居然能自己拉自己的辫子出泥潭？！我觉得自己拉自己的辫子只会把自己的辫子拉断，而不会飞出泥潭。（问:图片中底下的屁股为什么插了一根钢针？）屁股底下居然有根钢针？在泥潭应该是滑滑的吧，可是他怎么能夹紧马肚呢？马肚子应该是在马的下方。还有如果能从泥潭里把连人带马都给拽出来的话，他力气肯定很大，
京券东券优惠券领取网站-点击进入高省爱氧惠
嘿，小伙伴们，你们知道吗？京东商城可是有好多超值优惠券等着我们领取哦！不论是京券还是东券，都有好多好多的优惠等着我们呢！氧惠APP（带货领导者）——是与以往完全不同的抖客+淘客app！2024全新模式，我的直推也会放到你下面。主打：带货高补贴，深受各位带货团队长喜爱（每天出单带货几十万单）。注册即可享受高补贴+0撸+捡漏等带货新体验。送万元推广大礼包，教你如何1年做到百万团队。想要领取这些优惠券，
《靡色知音》这个人叫安安
图片发自App他俯下身来的时候乔伊不是没有心猿意马，但是只一瞬，她又巧妙的偏了一下头。她转身欲走，他倒好，一把扯着她的手，顺势往他怀里一带。乔伊没防备的由惯性硬生生撞进他怀里，贴上一块不可撼动的肉墙。她还没有吃疼的喊出声音来，他就把她翻过身去，像警察一样把她反扣在墙壁。她被他扣的死死地，对方一脸玩味和挑衅。乔伊冷冷的说：“放开。”那人也没应声，扬了扬眉毛，把她往墙壁那里一推，加重了力道。乔伊最好和
❤学习《家庭教育指导师》第三天分享❤ 温暖富足女神
时光飞逝，转眼来到了第3天的学习，今天上午的领导讲话与故事分享时间虽然有点长，但却带给大家很大的启发：亲人的离世，让我们更加珍惜身边的眼前人;导师们的心历路程让我们感动、敬佩与深受启发！每个人的生命都是独一无二的，每个人的生命都那么的珍贵与精彩！每个人的生命又那么的不容易与耐抗挫折！每个人来到这个人世间，都会有它的使命感，当强大的内心力量被唤醒时，他将无所不能！慧萍老师带我们体验的“一分钟击掌”与
如何用matlab灵活控制feko的求解 NingrLi matlab 开发语言
https://bbs.rfeda.cn/read.php?tid=3778Feko中的模型和求解设置等都可以通过editfeko进行设置，其文件存储为.pre文件，该文件可以用文本打开，因此，我们可以通过VB、VC、matlab等工具对.pre文件进行读写操作，以达到更灵活的使用feko。同样，对于.out文件，我们也可以进行读操作。熟练使用对.pre文件和.out文件的操作后，我们可以方便的计
微信母婴闲置群如何盈利赚钱母婴优惠券群主怎么做古楼
宝妈闲置群群主怎么赚钱微信母婴闲置群如何盈利赚钱怎么做母婴优惠券群作为宝妈闲置群群主，你可以通过以下几种方式赚取收益：1.分享优惠券和佣金实现带货赚钱：宝妈闲置群群主带货赚钱最常见的方式就是直接做母婴优惠群群分享商品赚钱。母婴闲置群群主通过对接高省优惠券返利app这类第三方平台分享优惠券获得推广购物返利佣金赚钱。高省，含有自动云发单功能，开通云发单，宝妈闲置群群主就可以解放双手，自动分享商品优惠券
“元宇宙”带不动Meta？基本业务已“后院起火”！小扎举步维艰！链科天下
由于宏观经济疲软、市场动荡，“放缓”已经成为美国科技股的主线逻辑，曾风光无限的科技巨头Meta也开始一路下行、举步维艰。据彭博社报道，Meta已宣布计划裁员并重组团队以削减预算，这是该公司2004年成立以来首次大幅削减预算。此次裁员或受到业绩低迷的影响，Q2财报显示Meta业绩远不及预期，上市以来营收同比出现首次下滑，净利连续三季度下降。扎克伯格表示，“希望经济能够稳定下来，但从目前的情况来看并非
读《房思琪的初恋乐园》——林奕含芥末绿zq
小说的描写就像一座文字殿堂一样，将每个细节都堆砌得如此繁复精美，我读不懂，我只拣了其中粗暴恶俗、直扎人心的现实。强暴、诱奸、家暴、冷漠、助纣为虐……，故事里全是罪恶的词，不管用什么贬义的词都无法形容。文中无限重复的文学素养，譬喻就像作者无声的哀嚎，撞进我的心头。脑子里无限重复着“温良恭俭让”。就像她在采访里说的，她最痛苦的一点就是，一个真正相信文学的人，他怎么可以背叛这个浩浩汤汤已经超过五千年的语
终于可以出去玩了开心外婆
今天终于可以带宝宝下去玩了，吃过早饭就准备出门。首先把口罩带好，虽然现在疫情差不多结束了吧，但防护措施还是要做好，宝宝两个多月没出门，好久没带口罩刚带上有点不舒服，总是用手去拿，然后告诉他一定要带好口罩，要不然就不能出去，可能宝宝很想出去，后来就没有摘口罩了。出去也不敢乱走，就在小区广场上玩他的踏板车，玩了两圈就有一个大白经过广场并告诉我马上旁边楼栋要做核酸，要我们先回家去，就这样结束了上午的活动
买书与美好同行
今天真是痛快，连收三个快递，十本书。周三时，薛老师讲课说让准备大字注音版的《左传》，因为《史记》的读书纵轴上开始串上《左传》这一横轴了。《史记》已经读到了《秦本纪》，里面有关晋文公部分，老师说结合《左传》里面的相关具体内容读更精彩更明白，于是大家纷纷移步淘宝或者拼多多，寻找大字注音版《左传》。两个网上都有，且都在搞活动，于是找好了果断下单。去年在群里和大家一块儿买《史记》时，已经同时买了中华书局三
日记 2019年10月15日杨义博 c487bb976552
今天是我穿校服的第一天，我很激动，我觉得我正式成为了一名一年级的小学生。中午回家时，我们看向操场发现有些高年级的大哥哥们在一个一个摆这一个有很多种颜色的龙，我们觉得很酷。下午上体育课，体育老师带我们上操场上去跑了一圈，我们看见了高年级哥哥姐姐们在操场上打鼓，还有一个大哥哥从前面拿着一个戴着星星的拐杖，指挥着全队的行动，最后面还有拿着花圈的，还有拿着国旗的。
日更第120天-顺其自然，为所当为飞翔001
在教培业务萎缩之后，新东方前不久宣布转型带货，初期人气寥寥，直播间也就几千人观看，近日，新东方的“东方甄选”因英语老师双语直播带货爆火，直播间人数过万，6月10日，新东方在线股价暴涨近40%，单日成交额突破1000万元，累计近400万人观看了直播。当晚俞敏洪来到直播间，和老师们一起直播带货。俞敏洪称，这是新东方老师们非常关键的转型，他们老师转型做带货主播，受到了大家的关注和部分的肯定，感谢各位网友
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen

深度之眼Paper带读笔记NLP.Baseline.3.C2W

文章目录

前言

前期知识储备

论文总览

学习目标

第一课：论文导读

背景知识

词嵌入模型的问题

无推理能力

词表大小问题

研究成果及意义

研究成果

研究意义

第二课：论文精读

论文结构

摘要

论文章节

C2W模型

词嵌入模型

字符嵌入模型

C2W模型应用

实验结果及分析

语言模型训练方法：

POS实验

论文总结

代码复现

项目环境配置

数据集

数据集处理

C2W模型

你可能感兴趣的:(Paper带读)