Jonariguez

CS224n课程Assignment1参考答案

$Assignment\#1-solution\quad By\; Jonariguez$

所有的代码题目对应的代码已上传至github/CS224n/Jonariguez

解：
$softmax(\mathbf{x})_i=\frac{e^{x_i}}{\sum_{j}{e^{x_j}}}=\frac{e^ce^{x_i}}{e^c\sum_{j}{e^{x_j}}}=\frac{e^{x_i+c}}{\sum_{j}{e^{x_j+c}}}=softmax(\mathbf{x}+c)_i$
即
$softmax(\mathbf{x})=softmax(\mathbf{x}+c)$
证毕

解：
直接在代码中利用numpy实现即可。注意要先从 $x$ 中减去每一行的最大值，这样在保证结果不变的情况下，所有的元素不大于0，不会出现上溢出，从而保证结果的正确性。具体可参考 http://www.hankcs.com/ml/computing-log-sum-exp.html

def softmax(x):
   """Compute the softmax function for each row of the input x.

   It is crucial that this function is optimized for speed because
   it will be used frequently in later code. You might find numpy
   functions np.exp, np.sum, np.reshape, np.max, and numpy
   broadcasting useful for this task.

   Numpy broadcasting documentation:
   http://docs.scipy.org/doc/numpy/user/basics.broadcasting.html

   You should also make sure that your code works for a single
   N-dimensional vector (treat the vector as a single row) and
   for M x N matrices. This may be useful for testing later. Also,
   make sure that the dimensions of the output match the input.

   You must implement the optimization in problem 1(a) of the
   written assignment!

   Arguments:
   x -- A N dimensional vector or M x N dimensional numpy matrix.

   Return:
   x -- You are allowed to modify x in-place
   """
   orig_shape = x.shape

   if len(x.shape) > 1:
       # Matrix
       # 每行减去该行的最大值
       x = x-np.max(x,axis=1).reshape(x.shape[0],1)
       # 然后进行softmax计算
       x = np.exp(x)/np.sum(np.exp(x),axis=1).reshape(x.shape[0],1)
   else:
       # Vector
       x = x-np.max(x)
       x = np.exp(x)/np.sum(np.exp(x))

   assert x.shape == orig_shape
   return x

解：
$\sigma'(x)=\frac{e^{-x}}{(1+e^{-x})^2}=\frac{1}{1+e^{-x}}\cdot\frac{e^{-x}}{1+e^{-x}}=\sigma(x)\cdot(1-\sigma(x))$

即 $s i g m o i d$ 函数的求导可以由其本身来表示。

解：
我们知道真实标记 $y$ 是one-hot向量，因此我们下面的推导都基于 $y_k=1$ ,且 $y_i=0,i\neq k$ ，即真实标记是 $k$ .

$\frac{\partial CE(y,\hat{y})}{\partial\theta}=\frac{\partial CE(y,\hat{y})}{\partial\hat{y}}\cdot\frac{\partial\hat{y}}{\partial\theta}$

其中：
$\frac{\partial CE(y,\hat{y})}{\partial\hat{y}}=-\sum_{i}{\frac{y_i}{\hat{y}_i}}=-\frac{1}{\hat{y}_k}$

接下来讨论 $\frac{\partial\hat{y}}{\partial\theta}$ :

$i = k$ :
$\frac{\partial\hat{y}}{\partial\theta_k}=\frac{\partial}{\partial\theta_k}(\frac{e^{\theta_k}}{\sum_{j}{e^{\theta_j}}})=\hat{y}_k\cdot(1-\hat{y}_k)$

则：
$\frac{\partial CE}{\theta_i}=\frac{\partial CE}{\partial\hat{y}}\frac{\partial\hat{y}}{\theta_i}=-\frac{1}{\hat{y}_k}\cdot\hat{y}_k\cdot(1-\hat{y}_k)=\hat{y}_i-1$

$\neq k$ :
$\frac{\partial\hat{y}}{\partial\theta_i}=\frac{\partial}{\partial\theta_i}(\frac{e^{\theta_k}}{\sum_{j}{e^{\theta_j}}})=-\hat{y}_i\cdot\hat{y}_k$

则：
$\frac{\partial CE}{\theta_i}=\frac{\partial CE}{\partial\hat{y}}\frac{\partial\hat{y}}{\theta_i}=-\frac{1}{\hat{y}_k}\cdot(-\hat{y}_i\cdot\hat{y}_k)=\hat{y}_i$

综上：
$\frac{\partial CE(y,\hat{y})}{\partial\theta_i}=\begin{cases} \hat{y}_i-1 & i=k \\ \hat{y}_i & i\neq k \end{cases}$

或者：

$\frac{\partial CE(y,\hat{y})}{\partial\theta_i}=\hat{y}-y$

解：
首先设： $Z_1=xW_1+b_1$ 和 $Z_2=hW_2+b_2$ ，那么前向传播的顺序依次为：

$Z_1=xW_1+b_1$
$h=sigmoid(Z_1)$
$Z_2=hW_2+b_2$
$\hat{y}=softmax(Z_2)$
$J=CE(y,\hat{y})=-\sum_{i}{y_ilog(\hat{y}_i)}$

现在求 $\frac{\partial J}{\partial x}$ 其实就是进行一次反向传播：
$\delta_1 =\frac{\partial J}{\partial Z_2}=\hat{y}-y$
$\delta_2 =\frac{\partial J}{\partial Z_2}\cdot\frac{\partial Z_2}{\partial h}=(\hat{y}-y)\cdot\frac{\partial}{\partial x}(hW_2+b_2)=\delta_1\cdot W_2^T$
$\delta_3 =\frac{\partial J}{\partial Z_2}\cdot\frac{\partial Z_2}{\partial h}\cdot\frac{\partial h}{\partial Z_1}=\delta_2\cdot\frac{\partial (\sigma(Z_1))}{\partial Z_1}=\delta_2\odot\sigma'(Z_1)$
$\frac{\partial J}{\partial x} =\frac{\partial J}{\partial Z_2}\cdot\frac{\partial Z_2}{\partial h}\cdot\frac{\partial h}{\partial Z_1}\cdot\frac{\partial Z_1}{\partial x}=\delta_3\cdot\frac{\partial }{\partial x}(xW_1+b_1)=\delta_3\cdot W_1^T$

解：
(1) 从输入层到隐藏层，全连接共 $D_x\times H$ 个，即 $W_1$ ，加上 $H$ 个偏置项，共 $D_x\times H+H$ 个。
(2) 从隐藏层到输出层，共 $H\times D_y+D_y$ 个。
参数个数共：
$(D_x\times H+H)+(H\times D_y+D_y)$

def sigmoid(x):
    """
    Compute the sigmoid function for the input here.
    Arguments:
    x -- A scalar or numpy array.
    Return:
    s -- sigmoid(x)
    """
    # 按照sigmoid的函数定义即可
    s = 1/(1+np.exp(-x))
    return s


def sigmoid_grad(s):
    """
    Compute the gradient for the sigmoid function here. Note that
    for this implementation, the input s should be the sigmoid
    function value of your original input x.

    Arguments:
    s -- A scalar or numpy array.

    Return:
    ds -- Your computed gradient.
    """
    # s=sigmoid(x)
    # D(sigmoid(x))=sigmoid(x)*(1-sigmoid(x))=s*(1-s)
    ds = s*(1-s)
    return ds

def gradcheck_naive(f, x):
    """ Gradient check for a function f.

    Arguments:
    f -- a function that takes a single argument and outputs the
         cost and its gradients
    x -- the point (numpy array) to check the gradient at
    """
    rndstate = random.getstate()
    random.setstate(rndstate)
    fx, grad = f(x) # Evaluate function value at original point
    h = 1e-4        # Do not change this!

    # Iterate over all indexes in x
    it = np.nditer(x, flags=['multi_index'], op_flags=['readwrite'])
    while not it.finished:
        ix = it.multi_index
        # Try modifying x[ix] with h defined above to compute
        # numerical gradients. Make sure you call random.setstate(rndstate)
        # before calling f(x) each time. This will make it possible
        # to test cost functions with built in randomness later.

        ### YOUR CODE HERE:
        #根据导数的定义即可.但h->0,f(x+h)-f(x-h)/(2h)的极限。
        #这里采用f(x+h)-f(x)/h的精度不够
        x[ix] += h
        #先调用该函数，因为f的需要。另外，根据测试函数中f的定义可知，f(X)=sigma{xi^2}
        random.setstate(rndstate)
        new_f1 = f(x)[0]

        x[ix] -= 2*h
        random.setstate(rndstate)
        new_f2 = f(x)[0]

        delta = new_f1-new_f2
        numgrad = delta/(2*h)
        #将x变回来
        x[ix] += h
        ### END YOUR CODE
        # Compare gradients
        reldiff = abs(numgrad - grad[ix]) / max(1, abs(numgrad), abs(grad[ix]))
        if reldiff > 1e-5:
            print "Gradient check failed."
            print "First gradient error found at index %s" % str(ix)
            print "Your gradient: %f \t Numerical gradient: %f" % (
                grad[ix], numgrad)
            return

        it.iternext() # Step to next dimension

    print "Gradient check passed!"

def forward_backward_prop(data, labels, params, dimensions):
    """
    Forward and backward propagation for a two-layer sigmoidal network

    Compute the forward propagation and for the cross entropy cost,
    and backward propagation for the gradients for all parameters.

    Arguments:
    data -- M x Dx matrix, where each row is a training example.
    labels -- M x Dy matrix, where each row is a one-hot vector.
    params -- Model parameters, these are unpacked for you.
    dimensions -- A tuple of input dimension, number of hidden units
                  and output dimension
    """

    ### Unpack network parameters (do not modify)
    ofs = 0
    Dx, H, Dy = (dimensions[0], dimensions[1], dimensions[2])

    W1 = np.reshape(params[ofs:ofs+ Dx * H], (Dx, H))
    ofs += Dx * H
    b1 = np.reshape(params[ofs:ofs + H], (1, H))
    ofs += H
    W2 = np.reshape(params[ofs:ofs + H * Dy], (H, Dy))
    ofs += H * Dy
    b2 = np.reshape(params[ofs:ofs + Dy], (1, Dy))

    ### YOUR CODE HERE: forward propagation
    z1 = data.dot(W1)+b1
    h = sigmoid(z1)
    z2 = h.dot(W2)+b2
    y_ = softmax(z2)
    cost = np.sum(-np.log(y_[labels==1]))/data.shape[0]
    ### END YOUR CODE

    ### YOUR CODE HERE: backward propagation
    theta1 = (y_-labels)/data.shape[0]
    gradW2 = h.T.dot(theta1)
    gradb2 = np.sum(theta1,0)

    theta2 = theta1.dot(W2.T)
    theta3 = theta2*(sigmoid_grad(h))
    gradW1 = data.T.dot(theta3)
    gradb1 = np.sum(theta3,0)

    """
    总结：
        如果是有激活函数的，则反向传播的对激活函数求导之后，按元素相乘(*)
    """
    ### END YOUR CODE

    ### Stack gradients (do not modify)
    grad = np.concatenate((gradW1.flatten(), gradb1.flatten(),
        gradW2.flatten(), gradb2.flatten()))

    return cost, grad

解：
首先分析各个量的形状： $U=[u_1,u_2,...,u_W]\in d\times W$ ， $y,\hat{y}\in W\times 1$ ，其中 $W$ 为词典大小， $d$ 为词向量的维度。
我们设：
$\theta=\begin{bmatrix} u_1^Tv_c\\ u_2^Tv_c\\ ...\\ u_W^Tv_c \end{bmatrix}=U^Tv_c \in W\times 1$

则：
$\hat{y}_o = p(o|c)=\frac{exp(u_o^Tv_c)}{\sum_{w=1}^{W}{exp(u_w^Tv_c)}}=softmax(\theta)_o$
$\hat{y} =softmax(\theta)$
那么：
$\frac{\partial J}{\partial v_c}=\frac{\partial J}{\partial \theta}\cdot\frac{\partial \theta}{\partial v_c}=(\hat{y}-y)\cdot\frac{\partial }{\partial v_c}(U^Tv_c)=U(\hat{y}-y)$

解：
可以先对 $U^T$ 求导：
$\frac{\partial J}{\partial U^T}=\frac{\partial J}{\partial \theta}\cdot\frac{\partial \theta}{\partial U^T}=\frac{\partial J}{\partial \theta}\cdot\frac{\partial }{\partial U^T}(U^Tv_c)=(\hat{y}-y)\cdot v_c^T$

那么对 $U$ 求导的结果对上式转置即可：

$\frac{\partial J}{\partial U}= ((\hat{y}-y)\cdot v_c^T)^T=v_c\cdot(\hat{y}-y)^T$
也可以表示为：
$\frac{\partial J}{\partial U}=\begin{cases} (\hat{y}_w-1)\cdot v_c & w=o \\ \hat{y}_w\cdot v_c & w\neq o \end{cases}$

解：
首先应该知道：
$\sigma'(x)=\sigma(x)\cdot(1-\sigma(x))$
$1-\sigma(x)=\sigma(-x)$
已知：
$J(o,v_c,U)=-log(\sigma(u_o^Tv_c))-\sum_{k=1}^{K}{log(\sigma(-u_k^Tv_c))}$

直接求导即可：
$\frac{\partial J}{\partial v_c}=-\frac{\sigma'(u_o^Tv_c)\cdot u_o}{\sigma(u_o^Tv_c)}+\sum_{k=1}^{K}{\frac{\sigma'(-u_k^Tv_c)\cdot u_k}{\sigma(-u_k^Tv_c)}}= (\sigma(u_o^Tv_c)-1)u_o+\sum_{k=1}^{K}{\sigma(u_k^Tv_c)\cdot u_k}$
$\frac{\partial J}{\partial u_k}=\begin{cases}(\sigma(u_o^Tv_c)-1)v_c & k=o \\ \sigma(u_k^Tv_c)v_c & k\neq o \end{cases}$

解：
根据题目的提示可知，我们可以设 $F(o,v_c)$ 为损失函数，等价于前面的 $J_{softmax-CE}$ 或者 $J_{neg-sample}$ ，而 $J$ 对变量的求导我们前面已经做过，所以这里直接使用 $\frac{\partial F(o,v_c)}{\partial ..}$ 代替即可，不用再进一步求导展开。
(1) skip-gram模型
$J_{skip-gram}(word_{c-m..c+m})=\sum_{-m\leq j\leq m,j\neq 0}{F(w_{c+j},v_c)}$
$\frac{\partial J}{\partial U}=\sum_{-m\leq j\leq m,j\neq 0}{\frac{\partial F(w_{c+j},v_c)}{\partial U}}$
$\frac{\partial J}{\partial v_c}=\sum_{-m\leq j\leq m,j\neq 0}{\frac{\partial F(w_{c+j},v_c)}{\partial v_c}}$
$\frac{\partial J}{\partial v_j}=\vec{0}, j\neq c$

(2) CBOW模型
因为CBOW模型是根据多个背景词预测一个中心词，又因为 $F ()$ 惩罚函数是形如(一个词，一个词)的形式，所以要把多个背景词变成一个词，那么一种有效的方式就是把这些背景词的词向量求平均便得到了一个词向量。
$\hat{v}=\sum_{-m\leq j\leq m,j\neq 0}{v_{c+j}}$
$J_{CBOW}(word_{c-m..c+m})=F(w_c,\hat{v})$
那么：
$\frac{\partial J}{\partial U}=\frac{\partial F(w_c,\hat{v})}{\partial U}$
$\frac{\partial J}{\partial v_c}=\vec{0}, c\notin \{c-m,..,c-1,c+1,..c+m\}$
$\frac{\partial J}{\partial v_j}=\frac{\partial F(w_c,\hat{v})}{\partial \hat{v}}\cdot\frac{\partial \hat{v}}{\partial v_j}=\frac{\partial F(w_c,\hat{v})}{\partial v_j}, c\in \{c-m,..,c-1,c+1,..c+m\}$

def normalizeRows(x):
    """ Row normalization function

    Implement a function that normalizes each row of a matrix to have
    unit length.
    """
    ### YOUR CODE HERE
    F = np.apply_along_axis(lambda x:np.sqrt(x.T.dot(x)),axis=1,arr=x)
    x /= F.reshape(x.shape[0],1)
    ### END YOUR CODE
    return x

def softmaxCostAndGradient(predicted, target, outputVectors, dataset):
    """ Softmax cost function for word2vec models

    Implement the cost and gradients for one predicted word vector
    and one target word vector as a building block for word2vec
    models, assuming the softmax prediction function and cross
    entropy loss.

    Arguments:
    predicted -- numpy ndarray, predicted word vector (\hat{v} in
                 the written component)
    target -- integer, the index of the target word
    outputVectors -- "output" vectors (as rows) for all tokens
    dataset -- needed for negative sampling, unused here.

    Return:
    cost -- cross entropy cost for the softmax word prediction
    gradPred -- the gradient with respect to the predicted word
           vector
    grad -- the gradient with respect to all the other word
           vectors

    We will not provide starter code for this function, but feel
    free to reference the code you previously wrote for this
    assignment!
    """
    ### YOUR CODE HERE
    """
    重申一下：
        predicted       对应作业中的 v
        target          对应作用中的 I(y==1)
        outputVectors   对应作用中的 u (注意作业上的U是[u1,u2,..uW],维度为d*W,而这里是W*d的)
        gradPred        对应作用中的 dJ/dv_c
        grad            对应作用中的 dJ/du_w
    """
    v = predicted       # d*1
    u = outputVectors   # d*W
    y_ = softmax(u.dot(v))

    # cost是交叉熵
    cost = -np.log(y_[target])

    Y = y_.copy()
    Y[target] -= 1.0
    gradPred = u.T.dot(Y)
    grad     = np.outer(Y,v)
    ### END YOUR CODE
    return cost, gradPred, grad

def negSamplingCostAndGradient(predicted, target, outputVectors, dataset,
                               K=10):
    """ Negative sampling cost function for word2vec models

    Implement the cost and gradients for one predicted word vector
    and one target word vector as a building block for word2vec
    models, using the negative sampling technique. K is the sample
    size.

    Note: See test_word2vec below for dataset's initialization.

    Arguments/Return Specifications: same as softmaxCostAndGradient
    """

    # Sampling of indices is done for you. Do not modify this if you
    # wish to match the autograder and receive points!
    indices = [target]
    indices.extend(getNegativeSamples(target, dataset, K))

    ### YOUR CODE HERE
    v = predicted
    u = outputVectors
    # indices[0]里面保存的是target，即正确的背景词，对用作用中的o，而indices[1:]都是噪声词，通过负采样得到的
    grad = np.zeros(u.shape)
    gradPred = np.zeros(v.shape)
    cost = 0

    # 先算正例的损失和梯度
    val = sigmoid(u[target].dot(v))-1
    cost -= np.log(val+1)

    gradPred += val*u[target]
    grad[target] = val*v

    # 然后再算负例，注意利用了:1-sigmoid(-x)=sigmoid(x)
    for samp in indices[1:]:
        val = sigmoid(u[samp].dot(v))
        gradPred += val*u[samp]
        grad[samp] += val*v
        cost -= np.log(1-val)

    # cost = -np.log(sigmoid(u[indices[0]].dot(v)))-np.sum(np.log(sigmoid(-u[indices[1:]].dot(v))),0)
    #
    # rea_idx = target
    # neg_idx = indices[1:]
    # gradPred = sigmoid(sigmoid(u[rea_idx].dot(v))-1)*u[rea_idx]+np.sum((1-sigmoid(-u[neg_idx].dot(v)))*u[neg_idx],0)
    # grad =
    ### END YOUR CODE

    return cost, gradPred, grad

def skipgram(currentWord, C, contextWords, tokens, inputVectors, outputVectors,
             dataset, word2vecCostAndGradient=softmaxCostAndGradient):
    """ Skip-gram model in word2vec

    Implement the skip-gram model in this function.

    Arguments:
    currrentWord -- a string of the current center word
    C -- integer, context size
    contextWords -- list of no more than 2*C strings, the context words
    tokens -- a dictionary that maps words to their indices in
              the word vector list
    inputVectors -- "input" word vectors (as rows) for all tokens
    outputVectors -- "output" word vectors (as rows) for all tokens
    word2vecCostAndGradient -- the cost and gradient function for
                               a prediction vector given the target
                               word vectors, could be one of the two
                               cost functions you implemented above.

    Return:
    cost -- the cost function value for the skip-gram model
    grad -- the gradient with respect to the word vectors
    """
    """
    currrentWord        中心词
    contextWords        背景词
    inputVectors        初始化的词向量v
    outputVectors       训练好的词向量u
    """
    cost = 0.0
    gradIn = np.zeros(inputVectors.shape)
    gradOut = np.zeros(outputVectors.shape)

    ### YOUR CODE HERE
    center_id = tokens[currentWord]
    # 拿到中心词的中心词向量，对应作业中的v_c
    v = inputVectors[center_id]

    for context in contextWords:
        context_id = tokens[context]
        # 真正的背景词下标为context_id --> target
        c_cost,c_gradin,c_gradout = word2vecCostAndGradient(v,context_id,outputVectors,dataset)
        cost += c_cost
        # 对于v_c的梯度要增加在center_id上，而不是gradIn += c_gradin
        gradIn[center_id] += c_gradin
        gradOut += c_gradout
    ### END YOUR CODE

    return cost, gradIn, gradOut

def sgd(f, x0, step, iterations, postprocessing=None, useSaved=False,
        PRINT_EVERY=10):
    """ Stochastic Gradient Descent

    Implement the stochastic gradient descent method in this function.

    Arguments:
    f -- the function to optimize, it should take a single
         argument and yield two outputs, a cost and the gradient
         with respect to the arguments
    x0 -- the initial point to start SGD from
    step -- the step size for SGD
    iterations -- total iterations to run SGD for
    postprocessing -- postprocessing function for the parameters
                      if necessary. In the case of word2vec we will need to
                      normalize the word vectors to have unit length.
    PRINT_EVERY -- specifies how many iterations to output loss

    Return:
    x -- the parameter value after SGD finishes
    """

    # Anneal learning rate every several iterations
    ANNEAL_EVERY = 20000
    if useSaved:
        start_iter, oldx, state = load_saved_params()
        if start_iter > 0:
            x0 = oldx
            step *= 0.5 ** (start_iter / ANNEAL_EVERY)
        if state:
            random.setstate(state)
    else:
        start_iter = 0

    x = x0

    if not postprocessing:
        postprocessing = lambda x: x

    expcost = None

    for iter in xrange(start_iter + 1, iterations + 1):
        # Don't forget to apply the postprocessing after every iteration!
        # You might want to print the progress every few iterations.

        cost = None
        ### YOUR CODE HERE
        cost,f_grad = f(x)
        # 根据梯度来更新x，也就是下降x
        x -= step*f_grad
        x = postprocessing(x)

        ### END YOUR CODE

        if iter % PRINT_EVERY == 0:
            # 滑动
            if not expcost:
                expcost = cost
            else:
                expcost = .95 * expcost + .05 * cost
            print "iter %d: %f" % (iter, expcost)

        if iter % SAVE_PARAMS_EVERY == 0 and useSaved:
            save_params(iter, x)

        if iter % ANNEAL_EVERY == 0:
            step *= 0.5

    return x

解：
我本地共训练了5+个小时。
输出的结果为：

解：
按题目要求实现即可。

def getSentenceFeatures(tokens, wordVectors, sentence):
    """
    Obtain the sentence feature for sentiment analysis by averaging its
    word vectors
    """

    # Implement computation for the sentence features given a sentence.

    # Inputs:
    # tokens -- a dictionary that maps words to their indices in
    #           the word vector list
    # wordVectors -- word vectors (each row) for all tokens
    # sentence -- a list of words in the sentence of interest

    # Output:
    # - sentVector: feature vector for the sentence

    sentVector = np.zeros((wordVectors.shape[1],))

    ### YOUR CODE HERE
    """
    给一个句子，然后该句子的对应的特征向量为：句子中所有单词的词向量的平均
    """
    for word in sentence:
        word_vec = wordVectors[tokens[word]]
        sentVector += word_vec
    sentVector = sentVector/len(sentence)
    ### END YOUR CODE

    assert sentVector.shape == (wordVectors.shape[1],)
    return sentVector

解：引入正则化可以降低模型复杂度，进而避免过拟合，以提升泛化能力。

解：注意是按照模型的验证集准确率来选择最优模型。

def getRegularizationValues():
    """Try different regularizations

    Return a sorted list of values to try.
    """
    values = None   # Assign a list of floats in the block below
    ### YOUR CODE HERE
    """
    应该是正则化系数，相当于lambda或者1/lambda
    """
    # 参考了一下别人的写法
    values = np.logspace(-4, 2, num=100, base=10)
    ### END YOUR CODE
    return sorted(values)

def chooseBestModel(results):
    """Choose the best model based on parameter tuning on the dev set

    Arguments:
    results -- A list of python dictionaries of the following format:
        {
            "reg": regularization,
            "clf": classifier,
            "train": trainAccuracy,
            "dev": devAccuracy,
            "test": testAccuracy
        }

    Returns:
    Your chosen result dictionary.
    """
    bestResult = None

    ### YOUR CODE HERE
    """
    题目要求是：Choose the best model based on parameter tuning on the dev set
    也就是根据dev set验证集的准确率来选择最佳模型
    所以就选择模型列表中dev对应的最大的那个即可
    max()函数利用key参数来决定选择依据
    """
    bestResult = max(results,key=lambda x: x['dev'])
    ### END YOUR CODE

    return bestResult

解：我的本地答案：
(1) 使用自己训练的词向量的结果

Best regularization value: 7.05E-04
Test accuracy (%): 30.361991
dev accuracy (%): 32.698

(2) 使用预训练的词向量的结果

Best regularization value: 1.23E+01
Test accuracy (%): 37.556561
dev accuracy (%): 37.148

使用预训练的词向量的效果更好的原因：

其数据量大。
训练充分。
其采用的为GloVe,该模型利用全局的信息。
维度高。

解：

解释：随着正则化因子的增大，最终所得的模型越简单，拟合能力差，出现欠拟合，导致两者的准确率下降。

解：

未登录词 Out-of-Vocabulary, OOV risc123456 nlp
未登录词oov未登录词（Out-of-Vocabulary,OOV）是指在训练数据中没有出现过的词汇，但在测试数据或实际应用中却出现了。未登录词是自然语言处理（NLP）任务中常见的挑战之一，因为它们可能导致模型无法正确处理或理解这些词汇，从而影响模型的性能。以下是一些关于未登录词的详细解释和处理方法：###未登录词的来源1.**罕见词**：在训练数据中出现次数非常少的词，可能在训练过程中被忽略或未
使用Google Vertex AI Search进行企业级高级搜索 hgSdaegva 人工智能 python
技术背景介绍GoogleVertexAISearch（前称为EnterpriseSearchonGenerativeAIAppBuilder）是GoogleCloud提供的VertexAI机器学习平台的一部分。VertexAISearch允许组织快速建立由生成式AI驱动的搜索引擎，为客户和员工提供服务。它基于各种GoogleSearch技术，包括语义搜索，通过使用自然语言处理和机器学习技术来推断内
使用OpenAI Chat模型进行自然语言处理的实战指南 GEAWfaacc 自然语言处理 easyui 人工智能 python
在本文中，我们将详细介绍如何利用OpenAI的Chat模型进行自然语言处理任务。我们将涵盖从API配置到实际应用的一整套流程，并提供可运行的代码示例来帮助大家上手。如果你对AI对话模型的实际应用感兴趣，那么这篇文章将非常适合你。一、技术背景介绍OpenAI的Chat模型是一类专门用于对话任务的预训练语言模型。它们可以处理多种输入类型，支持丰富的功能调用，适用于各种自然语言处理场景。从翻译到对话生成
大语言模型原理与工程实践：预训练数据构建 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：预训练数据构建1.背景介绍大语言模型（LargeLanguageModels,LLMs）近年来在自然语言处理（NLP）领域取得了显著的进展。诸如GPT-3、BERT等模型在各种任务中表现出色，从文本生成到情感分析，再到机器翻译，几乎无所不能。这些模型的成功很大程度上依赖于预训练数据的质量和规模。预训练数据的构建不仅影响模型的性能，还决定了模型的泛化能力和应用范围。在本文中
大语言模型原理与工程实践：网页数据 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：网页数据1.背景介绍在当今信息爆炸的时代，网页数据成为了大数据的重要来源之一。网页数据不仅包含了丰富的文本信息，还包括了图像、视频、音频等多媒体内容。大语言模型（LargeLanguageModels,LLMs）作为自然语言处理（NLP）领域的前沿技术，能够从海量的网页数据中提取有价值的信息，进行文本生成、情感分析、问答系统等多种任务。大语言模型的成功离不开深度学习技术的
大语言模型原理与工程实践：案例介绍 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：案例介绍作者：禅与计算机程序设计艺术近年来，随着深度学习技术的快速发展，大语言模型（LargeLanguageModel，LLM）在自然语言处理领域取得了突破性进展，展现出强大的文本生成、理解和推理能力。从智能对话到机器翻译，从代码生成到诗歌创作，LLM正在深刻地改变着我们与信息交互的方式，并为人工智能应用开拓了更广阔的空间。1.背景介绍1.1大语言模型的兴起大语言模型的
Jetbrains Ai Assistant插件越来越好用了 Ai 编码 Ai编码工具人工智能 android
在IntelliJIDEA中，JetBrainsAI是JetBrains集成的人工智能功能，旨在提高开发效率，辅助开发者更智能地编写、优化和理解代码。JetBrainsAI作为IntelliJIDEA的一部分，通过自然语言处理和机器学习技术，提供了许多智能代码建议和自动化功能。点击这里：获取JetbrainsAiAssistant插件以下是JetBrainsAI在IntelliJIDEA中的一
AI驱动电商搜索导购：技术创新与应用 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
文章标题《AI驱动电商搜索导购：技术创新与应用》关键词：人工智能，电商搜索导购，机器学习，深度学习，推荐系统，自然语言处理，个性化搜索，图像识别，应用案例，未来展望。摘要：本文旨在探讨人工智能（AI）在电商搜索导购领域的应用，分析其技术创新和实际应用案例，探讨AI驱动电商搜索导购的未来发展趋势。文章首先介绍了AI在电商搜索导购中的角色和优势，然后深入探讨了AI基础理论和搜索导购技术原理。接着，文章
WebRover ：一个功能强大的 Python 库，用于从 Web 内容生成高质量的数据集。数据集
2024-11-30，由Area-25团队开发的一个专门用于生成高质量网络内容数据集的Python库。该数据集旨在为大型语言模型（LLM）和人工智能应用的训练提供丰富的数据资源。数据集地址：WebRoverDataset|自然语言处理数据集|AI模型训练数据集一、让我们一起来看一下WebRoverWebRover通过智能网络爬虫技术，自动从网络中提取与特定主题相关的内容，并支持多种输入格式，如JS
探索LangChain中OpenAI模型的token级log probabilities jkgSFS langchain easyui 前端 python
在AI模型的开发和调试中，了解每个生成token的概率是非常有用的。这些信息可以帮我们理解模型的决策过程，识别可能的错误。本篇文章将介绍如何通过LangChain与OpenAI整合来获取这些token级的logprobabilities。技术背景介绍什么是LogProbabilities？在自然语言处理中，logprobabilities是一种对token生成概率的度量。通常，这个值越高，表示生成
使用VolcEngine Maas Chat进行语言模型对话的入门指南 dagGAIYD 语言模型人工智能自然语言处理 python
技术背景介绍VolcEngineMaasChat模型提供了一种便捷的方式进行对话接口的设计与实现，特别是对于自然语言处理(NLP)应用。通过简单的API调用，开发者可以轻松集成强大的AI对话能力到他们的应用中。本文将指导您如何使用VolcEngineMaasChat进行对话交互。核心原理解析VolcEngineMaasChat利用大语言模型来处理和生成自然语言，在接收到用户的输入后，模型会通过分析
使用ModelScope实现高效句嵌入生成 dagGAIYD python
技术背景介绍在自然语言处理（NLP）任务中，向量化文本（嵌入）是许多下游任务（如语义搜索、文本分类、问答系统等）的核心步骤之一。通过将文本转换为密集向量表示，我们可以在高维向量空间中构建更加高效的表示和检索算法。ModelScope是阿里云开源的一个模型和数据集管理平台，提供了大量预训练模型，涵盖了各种领域和任务。ModelScopeEmbeddings是一个与LangChain社区集成的工具类，
机器学习笔记 - 机器学习/深度学习实战案例合集坐望云起深度学习从入门到精通机器学习深度学习人工智能案例应用神经网络
一、简述如何学习机器学习/深度学习，理论和实践都很重要，理论上的内容需要看课程、读教材。但是实践需要自己动手，实践之后自然会对理论有更深入的理解。怎么实践？借用欧阳修《卖油翁》的话”无他，但手熟尔“。就是多看多写多跑。下面创建这个github的目的是为了存放一些图像处理/计算机视觉/机器学习/深度学习的示例代码集合，不定期会添加新的示例，可供参考。GitHub-bashendixie/ml_too
Transformer架构原理详解：多头注意力（MultiHead Attention） AI大模型应用之禅 AI大模型与大数据 java python javascript kotlin golang 架构人工智能
Transformer,多头注意力,Multi-HeadAttention,机器翻译,自然语言处理,深度学习1.背景介绍近年来，深度学习在自然语言处理（NLP）领域取得了显著进展。传统的循环神经网络（RNN）在处理长序列数据时存在效率低下和梯度消失等问题。为了解决这些问题，谷歌于2017年提出了Transformer架构，并将其应用于机器翻译任务，取得了突破性的成果。Transformer的核心创
AI 对程序员的冲击剖析程序员WANG 工具人工智能机器学习语言模型
摘要随着人工智能（AI）技术的飞速发展，其影响力已逐渐渗透到各个行业，程序员群体也面临着前所未有的冲击。本文深入探讨AI对程序员在编程工作模式、技能需求以及职业发展路径等方面带来的冲击，并分析程序员应对这些冲击的策略与方向，旨在为程序员在AI时代的职业发展提供参考。一、引言AI技术近年来取得了突破性进展，其在自然语言处理、机器学习、深度学习等领域的应用日益广泛。在软件开发领域，AI不再仅仅是辅助工
WebRover：专为训练大型语言模型和 AI 应用程序而设计的 Python 库数据集
2024-11-30，由Area-25团队开发的一个专门用于生成高质量网络内容数据集的Python库。该数据集旨在为大型语言模型（LLM）和人工智能应用的训练提供丰富的数据资源。数据集地址：WebRoverDataset|自然语言处理数据集|AI模型训练数据集一、让我们一起来看一下WebRoverWebRover通过智能网络爬虫技术，自动从网络中提取与特定主题相关的内容，并支持多种输入格式，如JS
从自然语言到提示词：编程范式的革命 AI天才研究院计算机软件编程原理与应用实践大数据AI人工智能 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
从自然语言到提示词：编程范式的革命关键词：编程范式、自然语言处理、提示词编程、人工智能、算法原理摘要：随着人工智能技术的不断发展，编程范式正经历着从自然语言处理向基于提示词的人工智能编程模式的转变。本文旨在探讨这一转变的背景、动机、原理及其在软件开发实践和工程方法论中的影响。文章将逐步分析自然语言处理和提示词编程的核心概念，讲解算法原理和数学模型，并通过实际案例展示编程范式转变的应用效果。第一部分
在 PyTorch 训练中使用 `tqdm` 显示进度条 weixin_48705841 pytorch 人工智能 python
在PyTorch训练中使用tqdm显示进度条在深度学习的训练过程中，实时查看训练进度是非常重要的，它可以帮助我们更好地理解训练的效率，并及时调整模型或优化参数。使用tqdm库来为训练过程添加进度条是一个非常有效的方式，本文将介绍如何在PyTorch中结合tqdm来动态显示训练进度。1.安装tqdm库首先，如果你还没有安装tqdm，可以通过pip命令进行安装：pipinstalltqdmtqdm是一
【在 PyTorch 中使用 tqdm 显示训练进度条，并解决常见错误TypeError: ‘module‘ object is not callable】 weixin_48705841 人工智能
在PyTorch中使用tqdm显示训练进度条，并解决常见错误TypeError:'module'objectisnotcallable在进行深度学习模型训练时，尤其是在处理大规模数据时，实时了解训练过程中的进展是非常重要的。为了实现这一点，我们可以使用tqdm库，它可以非常方便地为你提供进度条显示。1.什么是tqdm？TQDM是一个快速、可扩展的Python进度条库。它可以用来显示迭代的进度，帮助
深度学习模型开发文档 Ares代码行者深度学习
深度学习模型开发文档1.简介2.深度学习模型开发流程3.数据准备3.1数据加载3.2数据可视化4.构建卷积神经网络(CNN)5.模型训练5.1定义损失函数和优化器5.2训练过程6.模型评估与优化6.1模型评估6.2超参数调优7.模型部署8.总结参考资料1.简介深度学习是人工智能的一个分支，利用多层神经网络从数据中提取特征并进行学习。它被广泛应用于图像识别、自然语言处理、语音识别等领域。本文将以构建
深度学习环境配置指南！（Windows、Mac、Ubuntu全讲解） Charmve #AI学习指导：从入门到进阶软件安装环境配置计算机视觉实战文档详细开放源码 cuda linux gpu anaconda ubuntu
关注“迈微AI研习社”，内容首发于公众号作者：伍天舟、马曾欧、陈信达入门深度学习，很多人经历了从入门到放弃的心酸历程，且千军万马倒在了入门第一道关卡：环境配置问题。俗话说，环境配不对，学习两行泪。如果你正在面临配置环境的痛苦，不管你是Windows用户、Ubuntu用户还是苹果死忠粉，这篇文章都是为你量身定制的。接下来就依次讲下Windows、Mac和Ubuntu的深度学习环境配置问题。一、Win
联邦学习中客户端发送的梯度是vector而不是tensor wzx_Eleven 联邦学习机器学习网络安全人工智能
在联邦学习中，当本地使用神经网络或深度学习模型时，训练的梯度通常是与模型参数（权重和偏置）相对应的梯度数据。具体来说，梯度的类型和形状取决于模型的结构（例如，卷积神经网络、全连接网络等），以及模型的层数、每层的神经元数量等因素。1.梯度类型：梯度是一个张量：在神经网络中，梯度通常是一个张量（tensor），每一层的梯度张量的形状和该层的权重形状相匹配。具体来说，梯度是损失函数对每个参数的偏导数，表
从System Prompt来看GPT-3.5到GPT-4的进化 herosunly 大模型 system prompt gpt-3 chatgpt gpt4 gpt4o
大家好，我是herosunly。985院校硕士毕业，现担任算法t研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了从SystemPrompt来看GPT-3.5到GPT-4的进化之路，希
多头潜在注意力（MLA）是怎么来的，什么原理，能用简单的示例解释么百态老人学习
多头潜在注意力（Multi-HeadLatentAttention，简称MLA）是一种改进的注意力机制，旨在提高自然语言处理（NLP）模型的推理效率和性能。其核心思想是通过低秩联合压缩键（Key）和值（Value），减少推理过程中所需的内存和计算资源，从而实现更高效的处理。MLA的原理在传统的多头注意力机制（MHA）中，每个输入token的键和值需要被缓存，这导致了巨大的内存开销。具体来说，对于每
AI人工智能深度学习算法：高并发场景下深度学习代理的性能调优 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1深度学习代理的兴起近年来，随着人工智能技术的飞速发展，深度学习在各个领域都取得了显著的成果。特别是在自然语言处理、图像识别、语音识别等领域，深度学习模型的性能已经超越了传统方法。为了更好地将深度学习技术应用于实际场景，深度学习代理应运而生。深度学习代理是一种将深度学习模型封装起来，并提供对外接口的服务。它可以接收来自客户端的请求，将请求数据输入到深度学习模型中进行推理，并将推理结
Python中实现多层感知机（MLP）的深度学习模型 Echo_Wish Python 笔记从零开始学Python人工智能 python 深度学习开发语言
深度学习已经成为机器学习领域的一个热门话题，而多层感知机（MLP）是最基础的深度学习模型之一。在这篇教程中，我将向你展示如何使用Python来实现一个简单的MLP模型。什么是多层感知机（MLP）？多层感知机（MLP）是一种前馈神经网络，它包含一个输入层、一个或多个隐藏层以及一个输出层。每个层都由一系列的神经元组成，神经元之间通过权重连接。MLP能够学习输入数据的非线性特征，因此在复杂问题的建模中非
深度学习-92-大语言模型LLM之基于langchain的模型IO的模型调用皮皮冰燃深度学习深度学习语言模型 langchain
文章目录1Model的输入输出2langchain支持的模型3调用Ollama模型3.1设置环境变量3.2大语言模型LLM(OllamaLLM)3.2.1生成文本补全3.2.2流式生成文本补全3.3聊天模型(ChatOllama)3.3.1内置的消息类型3.3.2HumanMessage和SystemMessage3.3.3元组方式构成消息列表3.3.4stream流式3.4文本嵌入模型(Olla
深度学习基础18（多层感知机代码实现） NDNPOMDFLR 深度学习深度学习 python 经验分享人工智能神经网络
多层感知机的从零开始实现现在自己实现一个多层感知机。为了与之前softmax回归获得的结果进行比较，将继续使用Fashion-MNIST图像分类数据集importtorchfromtorchimportnnfromd2limporttorchasd2lbatch_size=256train_iter,test_iter=d2l.load_data_fashion_mnist(batch_size)
AI Agent：深度解析与未来展望码事漫谈 c++人工智能
一、AIAgent的前世：从概念到萌芽（一）早期探索AIAgent的概念可以追溯到20世纪50年代，早期的AI研究主要集中在简单的规则系统上，这些系统的行为是确定性的，输出由输入决定。随着时间的推移，AI逐渐能够处理不确定性，1990年代机器学习的兴起为AIAgent的发展奠定了基础，神经网络技术的突破为深度学习的发展提供了可能。（二）技术突破2017年后，大语言模型（LLM）的出现推动了AIAg
【深度学习基础】线性神经网络 | softmax回归的简洁实现 Francek Chen PyTorch深度学习深度学习神经网络回归 softmax 人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈PyTorch深度学习⌋⌋⌋深度学习(DL,DeepLearning)特指基于深层神经网络模型和方法的机器学习。它是在统计机器学习、人工神经网络等算法模型基础上，结合当代大数据和大算力的发展而发展出来的。深度学习最重要的技术特征是具有自动提取特征的能力。神经网络算法、算力和数据是开展深度学习的三要素。深度学习在计算机视觉、自然语言处理、多模态数据
ztree设置禁用节点 3213213333332132 JavaScript ztree json setDisabledNode Ajax
ztree设置禁用节点的时候注意，当使用ajax后台请求数据,必须要设置为同步获取数据，否者会获取不到节点对象，导致设置禁用没有效果。 $(function(){ showTree(); setDisabledNode(); });
JVM patch by Taobao bookjovi java HotSpot
在网上无意中看到淘宝提交的hotspot patch，共四个，有意思，记录一下。 7050685：jsdbproc64.sh has a typo in the package name 7058036：FieldsAllocationStyle=2 does not work in 32-bit VM 7060619：C1 should respect inline and
将session存储到数据库中 dcj3sjt126com sql PHP session
CREATE TABLE sessions ( id CHAR(32) NOT NULL, data TEXT, last_accessed TIMESTAMP NOT NULL, PRIMARY KEY (id) ); <?php /** * Created by PhpStorm. * User: michaeldu * Date
Vector 171815164 vector
public Vector<CartProduct> delCart(Vector<CartProduct> cart, String id) { for (int i = 0; i < cart.size(); i++) { if (cart.get(i).getId().equals(id)) { cart.remove(i);
各连接池配置参数比较 g21121 连接池
排版真心费劲，大家凑合看下吧，见谅~ Druid DBCP C3P0 Proxool 数据库用户名称 Username Username User 数据库密码 Password Password Password 驱动名
[简单]mybatis insert语句添加动态字段 53873039oycg mybatis
mysql数据库,id自增,配置如下： <insert id="saveTestTb" useGeneratedKeys="true" keyProperty="id" parameterType=&
struts2拦截器配置云端月影 struts2拦截器
struts2拦截器interceptor的三种配置方法方法1. 普通配置法 <struts> <package name="struts2" extends="struts-default"> &
IE中页面不居中，火狐谷歌等正常 aijuans IE中页面不居中
问题是首页在火狐、谷歌、所有IE中正常显示，列表页的页面在火狐谷歌中正常，在IE6、7、8中都不中，觉得可能那个地方设置的让IE系列都不认识，仔细查看后发现，列表页中没写HTML模板部分没有添加DTD定义，就是<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3
String,int,Integer,char 几个类型常见转换 antonyup_2006 html sql .net
如何将字串 String 转换成整数 int? int i = Integer.valueOf(my_str).intValue(); int i=Integer.parseInt(str); 如何将字串 String 转换成Integer ? Integer integer=Integer.valueOf(str); 如何将整数 int 转换成字串 String ? 1.
PL/SQL的游标类型百合不是茶显示游标(静态游标)隐式游标游标的更新和删除 %rowtype ref游标(动态游标)
游标是oracle中的一个结果集,用于存放查询的结果; PL/SQL中游标的声明; 1,声明游标 2,打开游标(默认是关闭的); 3,提取数据 4,关闭游标注意的要点:游标必须声明在declare中,使用open打开游标,fetch取游标中的数据,close关闭游标隐式游标:主要是对DML数据的操作隐
JUnit4中@AfterClass @BeforeClass @after @before的区别对比 bijian1013 JUnit4 单元测试
一.基础知识 JUnit4使用Java5中的注解（annotation），以下是JUnit4常用的几个annotation： @Before：初始化方法对于每一个测试方法都要执行一次（注意与BeforeClass区别，后者是对于所有方法执行一次）@After：释放资源对于每一个测试方法都要执行一次（注意与AfterClass区别，后者是对于所有方法执行一次
精通Oracle10编程SQL(12)开发包 bijian1013 oracle 数据库 plsql
/* *开发包 *包用于逻辑组合相关的PL/SQL类型（例如TABLE类型和RECORD类型）、PL/SQL项（例如游标和游标变量）和PL/SQL子程序（例如过程和函数） */ --包用于逻辑组合相关的PL/SQL类型、项和子程序，它由包规范和包体两部分组成 --建立包规范：包规范实际是包与应用程序之间的接口，它用于定义包的公用组件，包括常量、变量、游标、过程和函数等 --在包规
【EhCache二】ehcache.xml配置详解 bit1129 ehcache.xml
在ehcache官网上找了多次，终于找到ehcache.xml配置元素和属性的含义说明文档了，这个文档包含在ehcache.xml的注释中！ ehcache.xml ： http://ehcache.org/ehcache.xml ehcache.xsd ： http://ehcache.org/ehcache.xsd ehcache配置文件的根元素是ehcahe ehcac
java.lang.ClassNotFoundException: org.springframework.web.context.ContextLoaderL 白糖_ java eclipse spring tomcat Web
今天学习spring+cxf的时候遇到一个问题：在web.xml中配置了spring的上下文监听器： <listener> <listener-class>org.springframework.web.context.ContextLoaderListener</listener-class> </listener> 随后启动
angular.element boyitech AngularJS AngularJS API angular.element
angular.element 描述: 包裹着一部分DOM element或者是HTML字符串，把它作为一个jQuery元素来处理。（类似于jQuery的选择器啦）如果jQuery被引入了，则angular.element就可以看作是jQuery选择器，选择的对象可以使用jQuery的函数；如果jQuery不可用，angular.e
java-给定两个已排序序列，找出共同的元素。 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class CommonItemInTwoSortedArray { /** * 题目：给定两个已排序序列，找出共同的元素。 * 1.定义两个指针分别指向序列的开始。 * 如果指向的两个元素
sftp 异常，有遇到的吗？求解 Chen.H java jcraft auth jsch jschexception
com.jcraft.jsch.JSchException: Auth cancel at com.jcraft.jsch.Session.connect(Session.java:460) at com.jcraft.jsch.Session.connect(Session.java:154) at cn.vivame.util.ftp.SftpServerAccess.connec
[生物智能与人工智能]神经元中的电化学结构代表什么? comsci 人工智能
我这里做一个大胆的猜想,生物神经网络中的神经元中包含着一些化学和类似电路的结构,这些结构通常用来扮演类似我们在拓扑分析系统中的节点嵌入方程一样,使得我们的神经网络产生智能判断的能力,而这些嵌入到节点中的方程同时也扮演着"经验"的角色.... 我们可以尝试一下...在某些神经
通过LAC和CID获取经纬度信息 dai_lm lac cid
方法1：用浏览器打开http://www.minigps.net/cellsearch.html，然后输入lac和cid信息(mcc和mnc可以填0)，如果数据正确就可以获得相应的经纬度方法2：发送HTTP请求到http://www.open-electronics.org/celltrack/cell.php?hex=0&lac=<lac>&cid=&
JAVA的困难分析 datamachine java
前段时间转了一篇SQL的文章（http://datamachine.iteye.com/blog/1971896），文章不复杂，但思想深刻，就顺便思考了一下java的不足，当砖头丢出来，希望引点和田玉。 -----------------------------------------------------------------------------------------
小学5年级英语单词背诵第二课 dcj3sjt126com english word
money 钱 paper 纸 speak 讲，说 tell 告诉 remember 记得，想起 knock 敲，击，打 question 问题 number 数字，号码 learn 学会，学习 street 街道 carry 搬运，携带 send 发送，邮寄，发射 must 必须 light 灯，光线，轻的 front
linux下面没有tree命令 dcj3sjt126com linux
centos p安装 yum -y install tree mac os安装 brew install tree 首先来看tree的用法 tree 中文解释：tree 功能说明：以树状图列出目录的内容。语　　法：tree [-aACdDfFgilnNpqstux][-I <范本样式>][-P <范本样式
Map迭代方式，Map迭代，Map循环蕃薯耀 Map循环 Map迭代 Map迭代方式
Map迭代方式，Map迭代，Map循环 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年
Spring Cache注解+Redis hanqunfeng spring
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redis</artifactId>
Guava中针对集合的 filter和过滤功能 jackyrong filter
在guava库中，自带了过滤器(filter)的功能，可以用来对collection 进行过滤，先看例子： @Test public void whenFilterWithIterables_thenFiltered() { List<String> names = Lists.newArrayList("John"
学习编程那点事 lampcy 编程 android PHP html5
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
架构师之流处理---------bytebuffer的mark,limit和flip nannan408 ByteBuffer
1.前言。如题，limit其实就是可以读取的字节长度的意思，flip是清空的意思，mark是标记的意思。 2.例子. 例子代码: String str = "helloWorld"; ByteBuffer buff = ByteBuffer.wrap(str.getBytes()); Sy
org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1, column 1 Everyday都不同 $转义 el表达式
最近在做Highcharts的过程中，在写js时，出现了以下异常：严重: Servlet.service() for servlet jsp threw exception org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1,
用Java实现发送邮件到163 tntxia java实现
/* 在java版经常看到有人问如何用javamail发送邮件？如何接收邮件？如何访问多个文件夹等。问题零散，而历史的回复早已经淹没在问题的海洋之中。本人之前所做过一个java项目，其中包含有WebMail功能，当初为用java实现而对javamail摸索了一段时间，总算有点收获。看到论坛中的经常有此方面的问题，因此把我的一些经验帖出来，希望对大家有些帮助。此篇仅介绍用
探索实体类存在的真正意义 java小叶檀 POJO
一. 实体类简述实体类其实就是俗称的POJO,这种类一般不实现特殊框架下的接口，在程序中仅作为数据容器用来持久化存储数据用的 POJO（Plain Old Java Objects）简单的Java对象它的一般格式就是 public class A{ private String id; public Str

CS224n课程Assignment1参考答案

你可能感兴趣的:(深度学习,自然语言处理)