蓝白江山

使用LSTM进行文本分类

说明

之前写过用lstm模型做的文本分类，但是代码结构非常混乱。读过Bert源码后，决定模仿Bert的结构，自己重新写一遍使用lstm模型的代码。只作为熟悉tensorflow各个api与一个比较清楚的NLP模型结构的练手用，不求更高的准确率。

使用包含10个商品类别，60000+数据的，已标注正负情感的商品评论数据作为训练语料。原文件为csv格式，包含3个字段：cat（类别）、label（正负情感）、review（实际的评论文字）。其既可作为正负情感分类的二分类训练语料，也可以（勉强）作为商品类别分类的10分类训练语料。

数据取自https://github.com/SophonPlus/ChineseNlpCorpus，非常感谢

已按大约8：2的比例得到了训练集与测试集并将其转为了tsv文件。

使用结巴分词作为切词工具。

一、得到词典txt文件

由于我一直没有找到合适的中文词典文件，Bert中的词典文件又是以字作为最小单位的，故这里暂时只是对待训练的语料做切词、去重的处理，得到一个比较小的字典文件。

def create_vocab():

    raw_df = pd.read_csv(RAW_DATA)                          # 读原始文件为dataframe
    # 热水器有一条数据有问题，不要热水器的数据
    raw_df = raw_df[raw_df.cat != '热水器']

    raw_document = raw_df['review'].tolist()                # 原始语料（list形式）

    # 加载停用词列表
    # with open(STOPWORDS, 'r', encoding='utf-8') as s:
    #     stopwords = [word.strip() for word in s.readlines()]

    document_words = []                                     # 原始语料完成切词
    for sentence in raw_document:
        cut_sentence = [word for word in jieba.lcut(sentence)]
        document_words.extend(cut_sentence)
    vocab_list = set(document_words)

    with open(VOCAB, 'w', encoding='utf-8') as f:
        f.write('[PAD]' + '\n')
        f.write('[UNK]' + '\n')
        for vocab in vocab_list:
            f.write(vocab + '\n')

二、Tokenization

这一块完全基于Bert源码，做了非常多的精简。只满足：to_unicode、读取词典、切词、词语转id、id转词语的基本功能。没什么好说的。

import collections
import tensorflow as tf
import jieba


def convert_to_unicode(text):
    """Converts `text` to Unicode (if it's not already), assuming utf-8 input."""
    if isinstance(text, str):
        return text
    elif isinstance(text, bytes):
        return text.decode("utf-8", "ignore")
    else:
        raise ValueError("Unsupported string type: %s" % (type(text)))


# 将词典中的词构成(词，index)的collections.OrderedDict形式
def load_vocab(vocab_file):
    """Loads a vocabulary file into a dictionary."""
    vocab = collections.OrderedDict()
    index = 0
    with tf.gfile.GFile(vocab_file, "r") as reader:
        while True:
            token = convert_to_unicode(reader.readline())
            if not token:
                break
            token = token.strip()
            vocab[token] = index
            index += 1
    return vocab


def convert_by_vocab(vocab, items):
    """Converts a sequence of [tokens|ids] using the vocab."""
    output = []
    for item in items:
        output.append(vocab.get(item, vocab['[UNK]']))
    return output


class FullTokenizer(object):
    """Runs end-to-end tokenziation."""

    def __init__(self, vocab_file):
        # 根据vocab文件，得到形如(词，index)的字典
        self.vocab = load_vocab(vocab_file)
        # 变成 index: 词 的形式
        self.inv_vocab = {
     v: k for k, v in self.vocab.items()}

    # 将句子变成词列表
    @staticmethod
    def tokenize(text):
        split_tokens = jieba.lcut(text)
        return split_tokens

    def convert_tokens_to_ids(self, tokens):
        return convert_by_vocab(self.vocab, tokens)

    def convert_ids_to_tokens(self, ids):
        return convert_by_vocab(self.inv_vocab, ids)

三、建立模型结构

模型的mode参数可取train、eval、predict三类，取eval时只返回cost与accuracy，取predict时只返回logits。别的不用多说了。

import tensorflow as tf
import json
import six


class LstmConfig(object):

    def __init__(self,
                 vocab_size,                # 词典中的词数
                 hidden_size=128,
                 keep_prob=0.9,
                 embedding_keep_prob=0.9,   # 词向量不被dropout的比例
                 max_grad_norm=5,
                 num_of_classes=2,          # 分类数
                 num_of_layers=2,           # lstm网络层数
                 initializer_range=0.02):   # 初始化范围
        self.vocab_size = vocab_size
        self.hidden_size = hidden_size
        self.keep_prob = keep_prob
        self.embedding_keep_prob = embedding_keep_prob
        self.max_grad_norm = max_grad_norm
        self.num_of_classes = num_of_classes
        self.num_of_layers = num_of_layers
        self.initializer_range = initializer_range

    @classmethod
    def from_dict(cls, json_object):
        """Constructs a `BertConfig` from a Python dictionary of parameters."""
        config = LstmConfig(vocab_size=None)
        for (key, value) in six.iteritems(json_object):
            config.__dict__[key] = value
        return config

    @classmethod
    def from_json_file(cls, json_file):
        """Constructs a `BertConfig` from a json file of parameters."""
        with tf.gfile.GFile(json_file, "r") as reader:
            text = reader.read()
        return cls.from_dict(json.loads(text))


# 双向LSTM网络模型
class LstmModel(object):

    # 构建网格结构
    def __init__(self, config, mode):
        self.config = config
        self.embedding_keep_prob = config.embedding_keep_prob
        self.mode = mode
        output_keep_prob = config.keep_prob if mode == 'train' else 1.0

        # 词向量
        self.word_embedding = tf.get_variable('word_emb', shape=[config.vocab_size, config.hidden_size])

        # lstm网络结构
        # 前向网络变量
        lstm_cells_fw = [tf.nn.rnn_cell.DropoutWrapper(tf.nn.rnn_cell.BasicLSTMCell(config.hidden_size),
                                                       output_keep_prob=output_keep_prob)
                         for _ in range(config.num_of_layers)]
        self.lstm_fw = tf.nn.rnn_cell.MultiRNNCell(lstm_cells_fw)
        # 反向网络
        lstm_cells_bw = [tf.nn.rnn_cell.DropoutWrapper(tf.nn.rnn_cell.BasicLSTMCell(config.hidden_size),
                                                       output_keep_prob=output_keep_prob)
                         for _ in range(config.num_of_layers)]
        self.lstm_bw = tf.nn.rnn_cell.MultiRNNCell(lstm_cells_bw)

        # Softmax层变量
        self.weight = tf.get_variable('weight', [config.hidden_size * 2, config.num_of_classes])
        self.bias = tf.get_variable('bias', [config.num_of_classes])

    # 定义模型的前向计算图
    def forward(self, src_input, src_size, label):

        # 将输入的序号化单词转成词向量
        inputs = tf.nn.embedding_lookup(self.word_embedding, src_input)
        if self.mode == 'train':
            inputs = tf.nn.dropout(inputs, self.embedding_keep_prob)

        # LSTM网络计算
        with tf.variable_scope('lstm'):
            outputs, states = tf.nn.bidirectional_dynamic_rnn(self.lstm_fw,
                                                              self.lstm_bw,
                                                              inputs,
                                                              dtype=tf.float32,
                                                              sequence_length=src_size)
            final_outputs = tf.concat(outputs, 2)
            final_outputs = final_outputs[:, -1, :]
            # 取平均值
            # final_outputs = tf.reduce_mean(tf.concat(outputs, 2), 1)

        # 全连接层计算
        with tf.variable_scope('fc'):
            logits = tf.matmul(final_outputs, self.weight) + self.bias

        if self.mode == 'predict':
            return logits

        # 损失函数
        with tf.variable_scope('loss'):
            loss = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=label,
                                                                  logits=logits)
            cost = tf.reduce_mean(loss)

        # 准确率
        with tf.variable_scope('accuracy'):
            correct_prediction = tf.equal(tf.argmax(logits, 1), label)
            accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))

        if self.mode == 'eval':
            return cost, accuracy

        # 定义反向操作
        trainable_variables = tf.trainable_variables()

        # 控制梯度大小，定义优化方法和训练步骤
        grads = tf.gradients(cost, trainable_variables)
        grads, _ = tf.clip_by_global_norm(grads, self.config.max_grad_norm)
        optimizer = tf.train.GradientDescentOptimizer(learning_rate=self.config.learning_rate)

        train_op = optimizer.apply_gradients(zip(grads, trainable_variables))
        return logits, cost, accuracy, train_op

四、分类主程序

我命名为run_classifier，完全照搬Bert。

首先是tf.flag，用于导入参数

flags = tf.flags
FLAGS = flags.FLAGS

flags.DEFINE_integer("train_batch_size", 32, "Total batch size for training.")
flags.DEFINE_integer("eval_batch_size", 8, "Total batch size for eval.")
flags.DEFINE_integer("predict_batch_size", 8, "Total batch size for predict.")
flags.DEFINE_integer("num_train_epochs", 4, "Total epoches for train.")
flags.DEFINE_string(
    "data_dir", "E:/NLP/NLP_Deep_Learning_Summary/datasets",
    "The input data dir. Should contain the .tsv files (or other data files) for the task.")
flags.DEFINE_string("init_checkpoint", None, "Initial checkpoint")
flags.DEFINE_string("vocab_file", "./vocab.txt", "The vocabulary file.")
flags.DEFINE_string("output_file", "./model1", "The output file for trained model.")

flags.DEFINE_bool("do_train", True, "Whether to run training.")
flags.DEFINE_bool("do_eval", True, "Whether to run eval on the dev set.")
flags.DEFINE_bool("do_predict", False, "Whether to run the model in inference mode on the test set.")

定义Example、Feature与DataProcessor类

为了从训练/测试数据中获得tfrecord文件，需要做Example与Feature类的处理。DataProcessor与Bert源码几乎相同，功能为从tsv文件中得到example类的数据。

tsv文件的各个字段为：index（id）、category（商品类别）、polarity（情感，0或1）、text（原始文字）。

class InputExample(object):
    """A single training/test example for simple sequence classification."""

    def __init__(self, guid, text, label=None):
        """Constructs a InputExample."""
        self.guid = guid
        self.text = text
        self.label = label

由于使用的是lstm，其特征包含：每条语料原始的词id、原始的长度（即词数）与原始的分类标签。

class InputFeatures(object):
    def __init__(self, input_ids, input_size, label):
        self.input_ids = input_ids
        self.input_size = input_size
        self.label = label

class DataProcessor(object):

    def get_train_examples(self, data_dir):
        lines = self._read_tsv(os.path.join(data_dir, "online_shopping_train.tsv"))
        return self._create_examples(lines, 'train')

    def get_dev_examples(self, data_dir):
        lines = self._read_tsv(os.path.join(data_dir, "online_shopping_dev.tsv"))
        return self._create_examples(lines, 'dev')

    def get_test_examples(self, data_dir):
        lines = self._read_tsv(os.path.join(data_dir, "online_shopping_test.tsv"))
        return self._create_examples(lines, 'test')

    @staticmethod
    def get_labels():
        return ["0", "1"]
        # return ['蒙牛', '水果', '洗发水', '平板', '酒店', '手机', '计算机', '书籍', '衣服', '热水器']

    @staticmethod
    def _create_examples(lines, set_type):
        examples = []
        for (i, line) in enumerate(lines):
            if i == 0:
                continue
            guid = "%s-%s" % (set_type, i)
            text = tokenization.convert_to_unicode(line[3])
            label = tokenization.convert_to_unicode(line[2])
            examples.append(
                InputExample(guid=guid, text=text, label=label))
        return examples

    @classmethod
    def _read_tsv(cls, input_file, quotechar=None):
        """Reads a tab separated value file."""
        with tf.gfile.Open(input_file, "r") as f:
            reader = csv.reader(f, delimiter="\t", quotechar=quotechar)
            lines = []
            for line in reader:
                lines.append(line)
            return lines

得到tfrecord文件

也是模仿Bert的写法写的（甚至保留了打印前五条example）。

# 将一个example类的训练数据转成feature类
def convert_single_example(ex_index, example, tokenizer):
    text = example.text
    tokens = tokenizer.tokenize(text)
    input_ids = tokenizer.convert_tokens_to_ids(tokens)
    input_size = len(input_ids)
    label = int(example.label)
    # 打印前5条转换的记录
    if ex_index < 5:
        tf.logging.info("*** Example ***")
        tf.logging.info("guid: %s" % example.guid)
        tf.logging.info("input_ids: %s" % " ".join([str(x) for x in input_ids]))
        tf.logging.info("input_size: %s" % input_size)
        tf.logging.info("label: %s" % label)
    feature = InputFeatures(input_ids=input_ids, input_size=input_size, label=label)
    return feature


# 将准备喂入模型的数据存成tfrecord文件
def file_based_convert_examples_to_features(examples, tokenizer, output_file):
    writer = tf.python_io.TFRecordWriter(output_file)
    for (ex_index, example) in enumerate(examples):
        if ex_index % 10000 == 0:
            tf.logging.info("Writing example %d of %d" % (ex_index, len(examples)))
        feature = convert_single_example(ex_index, example, tokenizer)

        def create_int_feature(values):
            f = tf.train.Feature(int64_list=tf.train.Int64List(value=list(values)))
            return f

        features = collections.OrderedDict()
        features['input_ids'] = create_int_feature(feature.input_ids)
        features['input_size'] = create_int_feature([feature.input_size])
        features['label'] = create_int_feature([feature.label])

        tf_example = tf.train.Example(features=tf.train.Features(feature=features))
        writer.write(tf_example.SerializeToString())
    writer.close()

读取并解析tfrecord文件

终于又有相对原创的代码了。这里在做batch的同时对input_ids做了padding的处理。效果即input_fn_builder，只是改了名字，调整了结构。

def file_based_dataset_loader(input_file, is_training, batch_size, num_epochs):
    # TfRecord的解析函数
    def parse_func(serialized_example):
        name_to_features = {
     
            "input_ids": tf.VarLenFeature(tf.int64),
            "input_size": tf.FixedLenFeature(shape=(1,), dtype=tf.int64),
            "label": tf.FixedLenFeature(shape=(1,), dtype=tf.int64),
        }
        parsed_example = tf.parse_single_example(serialized_example, features=name_to_features)
        parsed_example['input_ids'] = tf.sparse_tensor_to_dense(parsed_example['input_ids'])

        input_ids = parsed_example['input_ids']
        input_size = parsed_example['input_size']
        label = parsed_example['label']

        return input_ids, input_size, label

    dataset = tf.data.TFRecordDataset(input_file)
    dataset = dataset.map(parse_func)
    if is_training:
        dataset = dataset.repeat(num_epochs).shuffle(buffer_size=100)

    padded_shapes = (tf.TensorShape([None]),  # 语料数据，None即代表batch_size
                     tf.TensorShape([None]),  # 语料数据各个句子的原始长度
                     tf.TensorShape([None]))  # 标签数据，None即代表batch_size

    # 调用padded_batch方法进行batching操作
    batched_dataset = dataset.padded_batch(batch_size, padded_shapes)
    # dataset = dataset.batch(batch_size)
    return batched_dataset

正式运行

模型运行的函数，单独拿出来。

def run_epoch(session, cost_op, accuracy_op, train_op, step):
    while True:
        try:
            cost, accuracy, _ = session.run([cost_op, accuracy_op, train_op])
            if step % 100 == 0:
                tf.logging.info('Steps: {0}, Loss value: {1}，Accuracy: {2}'.format(
                    step, cost, accuracy))
            step += 1
        except tf.errors.OutOfRangeError:
            break

主程序。在config配置里直接写明了词典文件的词数。
另外，不管是在构建词典文件，处理待预测的句子，都没有做去停用词的步骤。

def main():

    config = modelling.LstmConfig(vocab_size=68355)
    tokenizer = tokenization.FullTokenizer(vocab_file=FLAGS.vocab_file)

    processor = DataProcessor()

    if FLAGS.do_train:

        # 定义训练用循环神经网络模型
        train_model = modelling.LstmModel(config, mode='train')

        train_examples = processor.get_train_examples(FLAGS.data_dir)

        num_train_steps = int(len(train_examples) / FLAGS.train_batch_size * FLAGS.num_train_epochs)

        train_file = r'./tmp/train.tfrecord'
        file_based_convert_examples_to_features(train_examples, tokenizer, train_file)

        # 获得训练数据
        train_data = file_based_dataset_loader(train_file,
                                               is_training=True,
                                               batch_size=FLAGS.train_batch_size,
                                               num_epochs=FLAGS.num_train_epochs)
        train_iterator = train_data.make_initializable_iterator()
        input_ids, input_sizes, labels = train_iterator.get_next()
        input_sizes = tf.reshape(input_sizes, shape=(-1,))
        labels = tf.reshape(labels, shape=(-1,))

        # 定义前向计算图，输入数据以张量的形式提供给forward函数
        _, cost_op, accuracy_op, train_op = train_model.forward(input_ids, input_sizes, labels)
        #
        # TensorFlow持久化类
        saver = tf.train.Saver()
        step = 0

        # 训练模型
        tf.logging.info("***** Running training *****")
        tf.logging.info("  Num examples = %d", len(train_examples))
        tf.logging.info("  Total training steps: {}".format(num_train_steps))
        with tf.Session() as sess:
            tf.global_variables_initializer().run()
            sess.run(train_iterator.initializer)
            run_epoch(sess, cost_op, accuracy_op, train_op, step)
            tf.logging.info("********* Training Step Finished *********")

            saver.save(sess, r'./model/lstm.ckpt')

    if FLAGS.do_eval:
        tf.reset_default_graph()
        eval_model = modelling.LstmModel(config, mode='eval')
        eval_examples = processor.get_dev_examples(FLAGS.data_dir)
        eval_file = r'./tmp/eval.tfrecord'
        file_based_convert_examples_to_features(eval_examples, tokenizer, eval_file)

        # 获得测试数据
        eval_data = file_based_dataset_loader(eval_file,
                                              is_training=False,
                                              batch_size=FLAGS.eval_batch_size,
                                              num_epochs=None)
        eval_iterator = eval_data.make_initializable_iterator()
        eval_input_ids, eval_input_sizes, eval_labels = eval_iterator.get_next()
        eval_input_sizes = tf.reshape(eval_input_sizes, shape=(-1,))
        eval_labels = tf.reshape(eval_labels, shape=(-1,))

        eval_cost_op, eval_accuracy_op = eval_model.forward(eval_input_ids, eval_input_sizes, eval_labels)

        # 测试模型
        eval_step = 0
        tf.logging.info("***** Running Eval *****")
        tf.logging.info("  Num examples = %d", len(eval_examples))
        with tf.Session() as sess_eval:
            tf.global_variables_initializer().run()
            sess_eval.run(eval_iterator.initializer)

            saver = tf.train.Saver()
            saver.restore(sess_eval, r'./model/lstm.ckpt')
            tf.logging.info("*** Restore finished ***")

            eval_cost = 0
            eval_correct = 0
            while True:
                try:
                    cost, accuracy = sess_eval.run([eval_cost_op, eval_accuracy_op])
                    eval_cost += cost / FLAGS.eval_batch_size
                    eval_correct += accuracy * FLAGS.eval_batch_size
                    eval_step += 1
                except tf.errors.OutOfRangeError:
                    break
            eval_cost = eval_cost / (len(eval_examples) / FLAGS.eval_batch_size)
            eval_accuracy = eval_correct / len(eval_examples)
        print('Eval Cost: {0}, Eval Accuracy: {1}'.format(eval_cost, eval_accuracy))
        with open(r'./model/eval_result.txt', 'w', encoding='utf-8') as f:
            f.write('Eval Cost: {0}, Eval Accuracy: {1}'.format(eval_cost, eval_accuracy))


if __name__ == '__main__':
    main()

调用模型完成预测

重新写了convert_single_example方法。
由于只是少量单句的预测，因此没有做生成tfrecord并解析的处理，而是直接做了padding的处理。

import tensorflow as tf
import tokenization
import modelling
from run_classifier import InputExample, InputFeatures

# 将一个example类的训练数据转成feature类
def convert_single_example(example, tokenizer):
    text = example.text
    tokens = tokenizer.tokenize(text)
    input_ids = tokenizer.convert_tokens_to_ids(tokens)
    input_size = len(input_ids)
    feature = InputFeatures(input_ids=input_ids, input_size=input_size, label=None)
    return feature


def main(data):
    tokenizer = tokenization.FullTokenizer(vocab_file=r'./vocab.txt')
    config = modelling.LstmConfig(vocab_size=68355)

    input_ids = []
    input_sizes = []
    max_length = 0
    for index in range(len(data)):
        guid = 'test-%d' % index
        text = tokenization.convert_to_unicode(str(data[index]))
        data_example = InputExample(guid=guid, text=text, label=None)

        data_feature = convert_single_example(example=data_example, tokenizer=tokenizer)
        print(data_feature.input_ids)
        if len(data_feature.input_ids) > max_length:
            max_length = len(data_feature.input_ids)
        input_ids.append(data_feature.input_ids)
        input_sizes.append(data_feature.input_size)

    for input_id in input_ids:
        if len(input_id) < max_length:
            input_id.extend((max_length-len(input_id)) * [0])

    input_ids = tf.convert_to_tensor(input_ids)
    input_sizes = tf.convert_to_tensor(input_sizes)

    predict_model = modelling.LstmModel(config, mode='predict')
    output_op = predict_model.forward(input_ids, input_sizes, label=None)

    with tf.Session() as sess:
        saver = tf.train.Saver()
        saver.restore(sess, r'./model/lstm.ckpt')
        output = sess.run(output_op)
        print(output)
        print(tf.argmax(output, 1).eval())


if __name__ == '__main__':

    text = ['这个房间真的很棒，又舒服又便宜', '这个房间太差了，又贵又破，不推荐', '一句很普通很中立的话']
    main(text)

结果

同样的训练集与测试集，在Bert上跑完的准确度是0.946，用lstm，在2个epoch上且没有调整学习率的情况下，跑完准确度有0.897。其中Bert模型在服务器上跑了三天两夜，lstm在本机cpu上跑了一个半小时。结果还可以。

To Do

tf.estimator，这个高级封装的api似乎很牛逼，Bert中也使用了这个api，要继续学习学习。牵扯到model_fn的构建。我理解应该是重新复构模型的结构。在modelling中应该只定义模型结构，对于前向传播的过程，都到model_fn中完成。但是具体的操作还需要进一步的了解。

不得不说，虽然这样的代码可能还是不算高级，但是已经比我之前自己写的初版，在结构上要清楚太多了。同时也对tf.dataset有了比较深的了解（之前的next_batch都是完全自己写的，这里用dataset的iterator就可以搞定）。やはり多读读牛逼的源码是很有用的。

《深度剖析：BERT与GPT——自然语言处理架构的璀璨双星》人工智能深度学习
在自然语言处理（NLP）的广袤星空中，BERT（BidirectionalEncoderRepresentationsfromTransformers）与GPT（GenerativePretrainedTransformer）系列模型宛如两颗最为耀眼的星辰，引领着NLP技术不断迈向新的高度。它们基于独特的架构设计，以强大的语言理解与生成能力，彻底革新了NLP的研究与应用范式，成为学界和业界竞相探索
Hugging Face预训练GPT微调ChatGPT（微调入门！新手友好！） y江江江江机器学习大模型 gpt chatgpt
HuggingFace预训练GPT微调ChatGPT（微调入门！新手友好！）在实战中，⼤多数情况下都不需要从0开始训练模型，⽽是使⽤“⼤⼚”或者其他研究者开源的已经训练好的⼤模型。在各种⼤模型开源库中，最具代表性的就是HuggingFace。HuggingFace是⼀家专注于NLP领域的AI公司，开发了⼀个名为Transformers的开源库，该开源库拥有许多预训练后的深度学习模型，如BERT、G
详解如何通过Python的BeautifulSoup爬虫+NLP标签提取+Dijkstra规划路径和KMeans聚类分析帮助用户规划旅行路线 mosquito_lover1 python beautifulsoup 爬虫 kmeans 自然语言处理
系统模块：数据采集模块（爬虫）：负责从目标网站抓取地点数据（如名称、经纬度、描述等）数据预处理模块（标签算法）：对抓取到的地点数据进行清洗和分类。根据地点特征（如经纬度、描述文本）打上标签（如“适合家庭”、“适合冒险”）。地理数据处理模块（地图API）：使用地图API获取地点的详细信息（如地址、距离、路径等）。计算地点之间的距离或路径。路径规划模块：根据用户输入的起点和终点，规划最优路径。支持多种
大规模语言模型从理论到实践分布式训练的集群架构 AI智能涌现深度研究 DeepSeek R1 &大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大规模语言模型从理论到实践分布式训练的集群架构作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，大规模语言模型（LargeLanguageModels,LLMs）在自然语言处理（NaturalLanguageProcessing,NLP）领域取得了突破性进展。LLMs，如BERT、GPT-3等，通
实战LLM强化学习——使用GRPO（DeepSeek R1出圈算法）大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
引言近年来，深度强化学习（DRL）已经成为解决复杂决策问题的一个强有力工具，尤其是在自然语言处理（NLP）领域的广泛应用。通过不断优化决策策略，DRL能在大量数据中学习最佳行为，尤其是大型语言模型（LLM）在任务中展现出的巨大潜力。然而，随着模型规模的扩大和任务复杂性的增加，传统的强化学习算法开始暴露出训练效率低、收敛速度慢等问题。为了解决这些挑战，DeepSeek公司提出了一个新的强化学习算法—
混合整数非线性规划的松弛与分解方法 Waiyuet Fung 混合整数非线性规划松弛方法分解技术启发式算法全局优化
背景简介混合整数非线性规划（MINLPs）作为运筹学中的一个重要领域，涉及到优化问题的连续和离散变量混合，在工程设计、生产调度、资源分配等多个领域发挥着关键作用。本书由I.Nowak撰写，旨在深入探讨这一复杂的优化问题及其解决方案。MINLPs基础概念在本书的第一部分，Nowak介绍了MINLPs的基本概念。MINLPs的目标是寻找一组连续和整数变量的最优组合，以最小化或最大化某个非线性目标函数。
文本纠错（Text Correction） dundunmm 人工智能数据挖掘文本纠错人工智能数据挖掘文本纠错深度学习
文本纠错（TextCorrection）是自然语言处理（NLP）中的一个重要任务，旨在自动检测并修正文本中的错误，包括拼写、语法、语义等层面的错误。其核心目标是通过算法模型将错误文本转换为符合语言规范的表达。该任务在自动写作辅助、搜索引擎优化、智能客服、教育等多个领域具有广泛应用。输入：包含错误的原始文本（如“我明天要去北京，希望天汽好。”）输出：修正后的规范文本（如“我明天要去北京，希望天气好。
使用CharacterTextSplitter实现文本按字符拆分 bavDHAUO python
在文本处理任务中，按字符进行拆分是一种简单且有效的方法。本篇文章将介绍如何使用CharacterTextSplitter类对文本进行按字符拆分，并生成适用于下游任务的LangChainDocument对象。技术背景介绍文本拆分是自然语言处理（NLP）中的一个基础步骤，尤其在大文本分块处理、文本摘要等任务中。CharacterTextSplitter是langchain-text-splitters
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
人工智能（AI）系统化学习路线 xiaoyu❅ python 人工智能学习
一、为什么需要系统化学习AI？人工智能技术正在重塑各行各业，但许多初学者容易陷入误区：❌盲目跟风：直接学习TensorFlow/PyTorch，忽视数学与算法基础。❌纸上谈兵：只看理论不写代码，无法解决实际问题。❌方向模糊：对CV/NLP/RL等细分领域缺乏认知，难以针对性提升。正确的学习姿势：“金字塔式”分层学习（理论→算法→框架→应用→工程化），逐步构建完整的AI知识体系。二、人工智能学习路线
NLP高频面试题（三）——普通RNN的梯度消失和梯度爆炸问题 Chaos_Wang_ NLP常见面试题自然语言处理 rnn 人工智能
普通RNN（循环神经网络）的梯度消失和梯度爆炸问题是指在训练深层或长序列的RNN模型时出现的两种典型问题：一、梯度消失（VanishingGradient）梯度消失是指在反向传播过程中，梯度逐层传播时变得越来越小，最终趋于接近0，导致模型前层的参数难以更新。原因：在反向传播时，每一层的梯度是通过链式法则计算得到的。因为链式求导中不断乘以一个较小的数值（小于1），随着层数或时间步的增加，梯度将指数级
使用LangChain实现大规模语言模型自发现推理结构 VYSAHF langchain 语言模型人工智能 python
使用LangChain实现大规模语言模型自发现推理结构在现代自然语言处理(NLP)的研究中，大规模语言模型（LLMs）已经展示了强大的能力。然而，在应对复杂的推理问题时，传统的提示方法常常力不从心。这篇文章将带您了解SELF-DISCOVER，一种新兴的框架，如何通过LangChain来实现自动化、动态化的推理结构构建，以提高LLMs的性能。技术背景介绍大规模语言模型（如GPT-4和PaLM2）已
【论文精读】PatchTST-基于分块及通道独立机制的Transformer模型打酱油的葫芦娃时序预测算法时序预测 PatchTST Transformer 预训练微调表征学习
《ATIMESERIESISWORTH64WORDS:LONG-TERMFORECASTINGWITHTRANSFORMERS》的作者团队来自PrincetonUniversity和IBMResearch，发表在ICLR2023会议上。动机Transformer模型因其自注意力机制在处理序列数据方面的优势，在自然语言处理（NLP）、计算机视觉（CV）、语音等多个领域取得了巨大成功。这种机制使得模型
Dify知识库构建流程及示例 cqbelt ai 笔记 AI应用
总体流程1.数据预处理清洗：去除噪声、特殊字符、标准化格式。分词/标记化：拆分文本为单词或子词单元（如使用Tokenizer）。元数据关联：附加来源、时间戳等信息，支持多维度检索。2.文本分块固定长度分块：按字符或Token数切分，简单高效。语义分块：基于句子边界或主题分割（如NLP模型识别段落主旨）。重叠策略：相邻块间部分重叠，避免上下文断裂。3.向量化（Embedding）嵌入模型：调用预训练
NLP高频面试题（四）——BN和LN的区别与联系，为什么attention要用LN Chaos_Wang_ NLP常见面试题自然语言处理人工智能
在深度学习模型中，Normalization是一种极为重要的技巧，BatchNormalization（BN）和LayerNormalization（LN）是其中最为常用的两种方法。然而，二者在实际应用中有着明显的区别与联系，尤其在Transformer的Attention机制中，LN有着独特的优势。一、BN与LN的核心区别与联系1.BatchNormalization(BN)BN的思想源于一个叫
RAG 在多模态数据处理中的应用探索：结合图像与文本生成 hy098543 AIGC
目录引言多模态数据处理的挑战与需求数据异质性与融合难题多样化应用场景的需求RAG在图像与文本生成中的应用架构图像检索与文本生成协同跨模态特征融合与生成关键技术与实现细节图像特征提取与表示文本检索与语义理解跨模态生成模型训练应用案例分析智能设计辅助医疗影像报告生成结论引言随着信息技术的飞速发展，数据呈现出多模态的特性，即包含文本、图像、音频、视频等多种形式。在自然语言处理（NLP）和计算机视觉（CV
AI在项目中的应用酒江人工智能
AI大模型（如GPT-4、BERT、T5等）在各类项目中有广泛的应用，可以极大地提高项目效率、优化流程，并解决许多传统方法难以应对的问题。以下是AI大模型在不同类型项目中的一些具体应用：1.自然语言处理（NLP）文本生成和摘要：AI大模型可以生成高质量的文本内容，自动撰写文章、新闻报道、博客或技术文档，甚至可以进行文献摘要，帮助内容创作者提高效率。情感分析：在客户服务、社交媒体监控或市场研究项目中
AI API：快速集成智能化功能的开发利器桂花饼 AIGC AI API 人工智能 AIGC 语言模型 AI作画
AIAPI（ArtificialIntelligenceApplicationProgrammingInterface，人工智能应用程序接口）是应用程序接口的一种，专门用于提供人工智能相关功能的开发接口。它允许开发者利用现有的AI模型、工具或服务，将这些功能集成到自己的应用程序中，并为用户带来智能化的体验。AIAPI的核心功能主要与AI技术相关，比如自然语言处理（NLP）、计算机视觉、语音处理、机
大模型与自然语言理解（NLU）：差异与联系技术流 Gavin AIoT python 语言模型 ai
近年来，人工智能领域取得了显著进展，尤其是在自然语言处理（NLP）方面。大模型和自然语言理解（NLU）作为NLP的两个重要分支，常常被提及，但它们之间存在着本质区别。1.定义与目标大模型:通常指拥有庞大参数规模（数十亿甚至数千亿）的深度学习模型，例如GPT-3、LaMDA等。它们通过海量文本数据进行训练，旨在学习语言的统计规律，并能够生成流畅、连贯的文本。NLU:是NLP的一个子领域，专注于让机器
基于树莓派的轻量级AI数字人开发全流程指南 ——从硬件选型到语音视觉交互实战 zhz5214 AI ai 人工智能 AI写作 AI编程智能体
1.背景与目标AI数字人，像是虚拟助手、交互式角色，在当下数字化浪潮中扮演着越来越重要的角色。其核心在于整合语音识别、视觉感知、自然语言处理（NLP）和动态反馈四大关键功能。本文将以树莓派5开发板为核心，搭配AI加速硬件，结合开源框架，为大家详细阐述如何实现本地化轻量级数字人开发。这一方案特别适用于教育领域，帮助学生更直观地理解AI技术；在智能家居场景中，也能为用户带来更智能、便捷的交互体验。2.
RAG数据嵌入和重排序：如何选择合适的模型从零开始学习人工智能深度学习
RAG数据嵌入和重排序：如何选择合适的模型在自然语言处理（NLP）领域，Retrieval-AugmentedGeneration（RAG）模型已经成为一种强大的工具，用于结合检索和生成能力来处理复杂的语言任务。RAG模型的核心在于两个关键步骤：数据嵌入（Embedding）和重排序（Re-ranking）。这两个步骤的选择和优化对于模型的性能至关重要。本文将探讨如何选择合适的模型来实现高效的数据
自然语言处理领域CCF推荐的A类期刊冰蓝蓝自然语言处理人工智能
在自然语言处理（NLP）这一蓬勃发展的领域，研究人员和学者们致力于探索语言的深层含义和应用。中国计算机学会（CCF）推荐的A类期刊和会议是该领域内公认的高质量研究发表平台。这是我在学习时整理的一些顶刊并附上官网地址直达。1.ACL(AnnualMeetingoftheAssociationforComputationalLinguistics)ACL是自然语言处理领域的顶级会议之一，由Associ
机器学习中输入输出Tokens的概念详解爱吃土豆的程序员机器学习基础机器学习人工智能 Tokens
随着深度学习技术的快速发展，大语言模型（LargeLanguageModels,LLMs）已经成为自然语言处理（NLP）领域的一个热点研究方向。这些模型不仅能够生成高质量的文本，还能在多种任务中展现出卓越的表现，比如机器翻译、问答系统、文本摘要等。在大语言模型的工作流程中，Tokens的概念扮演着至关重要的角色。本文将详细介绍大语言模型如何使用Tokens，以及如何计算Tokens的数量。什么是T
输入：0.5元/百万tokens（缓存命中）或2元（未命中）输出：8元/百万tokens 杏花春雨江南缓存
这句话描述了一种定价模型，通常用于云计算、API服务或数据处理服务中，根据资源使用情况（如缓存命中与否）来收费。以下是对这句话的详细解释：1.关键术语解释Tokens：在自然语言处理（NLP）或数据处理领域，Token通常指文本的最小单位（如一个单词或一个字符）。在这里，Tokens是计费的单位。缓存命中（CacheHit）：当请求的数据已经在缓存中时，称为缓存命中。缓存命中通常意味着更快的响应速
Ollama 基本概念 Mr_One_Zhang 学习Ollama ai
Ollama是一个本地化的、支持多种自然语言处理（NLP）任务的机器学习框架，专注于模型加载、推理和生成任务。通过Ollama，用户能够方便地与本地部署的大型预训练模型进行交互。1.模型（Model）在Ollama中，模型是核心组成部分。它们是经过预训练的机器学习模型，能够执行不同的任务，例如文本生成、文本摘要、情感分析、对话生成等。Ollama支持多种流行的预训练模型，常见的模型有：deepse
CSDN社区，到底该不该用DeepSeek AI生成文章？ Small踢倒coffee_氕氘氚 python 经验分享
##引言在当今数字化时代，人工智能（AI）技术正以惊人的速度发展，逐渐渗透到各个行业和领域。作为AI技术的一个重要分支，自然语言处理（NLP）在内容创作、文本生成等方面展现出了巨大的潜力。DeepSeekAI作为一款先进的AI写作工具，能够自动生成高质量的文章，极大地提高了内容创作的效率。然而，随着AI生成内容的普及，CSDN社区中的开发者、技术爱好者和内容创作者们开始思考一个问题：我们到底该不该
AI大模型学习路线：从入门到精通的完整指南【2025最新】 AI大模型-大飞人工智能学习大模型 LLM AI 程序员大模型学习
引言近年来，以GPT、BERT、LLaMA等为代表的AI大模型彻底改变了人工智能领域的技术格局。它们不仅在自然语言处理（NLP）任务中表现卓越，还在计算机视觉、多模态交互等领域展现出巨大潜力。本文旨在为开发者、研究者和技术爱好者提供一条清晰的学习路径，帮助读者逐步掌握大模型的核心技术并实现实际应用。一、基础阶段：构建知识体系数学与理论基础线性代数：矩阵运算、特征值与奇异值分解是大模型参数优化的基础
深入解析两大AI模型的架构与功能草莓屁屁我不吃人工智能 chatgpt
在人工智能（AI）领域，自然语言处理（NLP）一直是研究的热点之一。随着技术的不断进步，我们见证了从简单的聊天机器人到复杂语言模型的演变。其中，Google的Gemini和OpenAI的ChatGPT作为两大代表性模型，各自在技术和应用上展现出了卓越的性能。本文将详细解析Gemini和ChatGPT的系统架构、功能特性及其背后的技术原理。Gemini模型详解技术背景与架构Gemini，顾名思义，意
linux系统安全 IT小饕餮 linux基础 linux 系统安全运维
管理终端登录[root@localhost~]#grep"/sbin/nologin$"/etc/passwd表示禁止终端登录，应确保不被人改动输出结果：bin：x:1:1:bin:/bin:/sbin/nologindaemon：x:2:2:daemon:/sbin:/sbin/nologinadm：x:3:4:adm:/var/adm:/sbin/nologinlp：x:4:7:lp:/var
【NLP】 3. Distributional Similarity in NLP（分布式相似性） pen-ai NLP 机器学习自然语言处理分布式人工智能
DistributionalSimilarityinNLP（分布式相似性）分布式相似性（DistributionalSimilarity）是自然语言处理（NLP）中的核心概念，基于“相似的单词出现在相似的上下文中”这一假设。它用于衡量单词之间的相似性，广泛应用于词向量、信息检索、文本分类等任务。1.分布式假设（DistributionalHypothesis）分布式相似性基于以下假设：“Yoush
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring