Python机器学习NLP自然语言处理基本操作之京东评论分类

概述

从今天开始我们将开启一段自然语言处理 (NLP) 的旅程. 自然语言处理可以让来处理, 理解, 以及运用人类的语言, 实现机器语言和人类语言之间的沟通桥梁.

RNN

RNN (Recurrent Neural Network), 即循环神经网络. RNN 相较于 CNN, 可以帮助我们更好的处理序列信息, 挖掘前后信息之间的联系. 对于 NLP 这类的任务, 语料的前后概率有极大的联系. 比如: “明天天气真好” 的概率 > “明天天气篮球”.

权重共享

传统神经网络:

RNN:

RNN 的权重共享和 CNN 的权重共享类似, 不同时刻共享一个权重, 大大减少了参数数量.

计算过程

计算状态 (State)

计算输出:

LSTM

LSTM (Long Short Term Memory), 即长短期记忆模型. LSTM 是一种特殊的 RNN 模型, 解决了长序列训练过程中的梯度消失和梯度爆炸的问题. 相较于普通 RNN, LSTM 能够在更长的序列中有更好的表现. 相比 RNN 只有一个传递状态 ht, LSTM 有两个传递状态： ct (cell state) 和 ht (hidden state).

阶段

LSTM 通过门来控制传输状态。

LSTM 总共分为三个阶段:

忘记阶段: 对上一个节点传进来的输入进行选择性忘记
选择记忆阶段: 将这个阶段的记忆有选择性的进行记忆. 哪些重要则着重记录下来, 哪些不重要, 则少记录一些
输出阶段: 决定哪些将会被当成当前状态的输出

数据介绍

约 3 万条评论数据, 分为好评和差评.

好评:

0 做父母一定要有刘墉这样的心态，不断地学习，不断地进步，不断地给自己补充新鲜血液，让自己保持一...
1 作者真有英国人严谨的风格，提出观点、进行论述论证，尽管本人对物理学了解不深，但是仍然能感受到...
2 作者长篇大论借用详细报告数据处理工作和计算结果支持其新观点。为什么荷兰曾经县有欧洲最高的生产...
3 作者在战几时之前用了＂拥抱＂令人叫绝．日本如果没有战败，就有会有美军的占领，没胡官僚主义的延...
4 作者在少年时即喜阅读，能看出他精读了无数经典，因而他有一个庞大的内心世界。他的作品最难能可贵...
5 作者有一种专业的谨慎，若能有幸学习原版也许会更好，简体版的书中的印刷错误比较多，影响学者理解...
6 作者用诗一样的语言把如水般清澈透明的思想娓娓道来，像一个经验丰富的智慧老人为我们解开一个又一...
7 作者提出了一种工作和生活的方式，作为咨询界的元老，不仅能提出理念，而且能够身体力行地实践，并...
8 作者妙语连珠，将整个60-70年代用层出不穷的摇滚巨星与自身故事紧紧相连什么是乡愁？什么是摇...
9 作者逻辑严密，一气呵成。没有一句废话，深入浅出，循循善诱，环环相扣。让平日里看到指标图释就头...

差评:

0 做为一本声名在外的流行书，说的还是广州的外企，按道理应该和我的生存环境差不多啊。但是一看之下...
1 作者有明显的自恋倾向，只有有老公养不上班的太太们才能像她那样生活。很多方法都不实用，还有抄袭...
2 作者完全是以一个过来的自认为是成功者的角度去写这个问题，感觉很不客观。虽然不是很喜欢，但是，...
3 作者提倡内调，不信任化妆品，这点赞同。但是所列举的方法太麻烦，配料也不好找。不是太实用。
4 作者的文笔一般，观点也是和市面上的同类书大同小异，不推荐读者购买。
5 作者的文笔还行，但通篇感觉太琐碎，有点文人的无病呻吟。自由主义者。作者的品性不敢苟同，无民族...
6 作者倒是个很小资的人,但有点自恋的感觉,书并没有什么大帮助
7 作为一本描写过去年代感情生活的小说，作者明显生活经验不足，并且文字功底极其一般，看后感觉浪费...
8 作为个人经验在网上谈谈可以，但拿来出书就有点过了，书中还有些明显的谬误。不过文笔还不错，建议...
9 昨天刚兴奋地写了评论,今天便遇一闹心事,因把此套书推荐给很多朋友,朋友就拖我在网上购,结果前...

代码

预处理

import numpy as np
import pandas as pd
import jieba


# 读取停用词
stop_words = pd.read_csv("stopwords.txt", index_col=None, names=["stop_word"])
stop_words = stop_words["stop_word"].values.tolist()

def load_data():

    # 读取数据
    neg = pd.read_excel("neg.xls", header=None)
    pos = pd.read_excel("pos.xls", header=None)

    # 调试输出
    print(neg.head(10))
    print(pos.head(10))

    # 组合
    x = np.concatenate((pos[0], neg[0]))
    y = np.concatenate((np.ones(len(pos), dtype=int), np.zeros(len(neg), dtype=int)))

    # 生成df
    data = pd.DataFrame({"content": x, "label": y})
    print(data.head())


    data.to_csv("data.csv")

def pre_process(text):

    # 分词
    text = jieba.lcut(text)


    # 去除数字
    text = [w for w in text if not str(w).isdigit()]

    # 去除左右空格
    text = list(filter(lambda w: w.strip(), text))

    # # 去除长度为1的字符
    # text = list(filter(lambda w: len(w) > 1, text))

    # 去除停用
    text = list(filter(lambda w: w not in stop_words, text))

    return " ".join(text)

if __name__ == '__main__':

    # 读取数据
    data = pd.read_csv("data.csv")

    # 预处理
    data["content"] = data["content"].apply(pre_process)

    # 保存
    data.to_csv("processed.csv", index=False)

主函数

import pandas as pd
import tensorflow as tf
from sklearn.model_selection import train_test_split


def tokenizer():

    # 读取数据
    data = pd.read_csv("processed.csv", index_col=False)
    print(data.head())

    # 转换成元组
    X = tuple(data["content"])

    # 实例化tokenizer
    tokenizer = tf.keras.preprocessing.text.Tokenizer(num_words=30000)

    # 拟合
    tokenizer.fit_on_texts(X)

    # 词袋
    word_index = tokenizer.word_index
    # print(word_index)
    print(len(word_index))

    # 转换
    sequence = tokenizer.texts_to_sequences(X)

    # 填充
    characters = tf.keras.preprocessing.sequence.pad_sequences(sequence, maxlen=100)

    # 标签转换
    labels = tf.keras.utils.to_categorical(data["label"])

    # 分割数据集
    X_train, X_test, y_train, y_test = train_test_split(characters, labels, test_size=0.2,
                                                        random_state=0)

    return X_train, X_test, y_train, y_test


def main():

    # 读取分词数据
    X_train, X_test, y_train, y_test = tokenizer()
    print(X_train[:5])
    print(y_train[:5])

    # 超参数
    EMBEDDING_DIM = 200  # embedding 维度
    optimizer = tf.keras.optimizers.RMSprop()  # 优化器
    loss = tf.losses.CategoricalCrossentropy(from_logits=True)  # 损失

    # 模型
    model = tf.keras.Sequential([
        tf.keras.layers.Embedding(30001, EMBEDDING_DIM),
        tf.keras.layers.LSTM(200, dropout=0.2, recurrent_dropout=0.2),
        tf.keras.layers.Dropout(0.2),
        tf.keras.layers.Dense(64, activation="relu"),
        tf.keras.layers.Dense(2, activation="softmax")
    ])
    model.build(input_shape=[None, 20])
    print(model.summary())

    # 组合
    model.compile(optimizer=optimizer, loss=loss, metrics=["accuracy"])

    # 保存
    checkpoint = tf.keras.callbacks.ModelCheckpoint("model/jindong.h5py", monitor='val_accuracy', verbose=1,
                                                    save_best_only=True,
                                                    mode='max')

    # 训练
    model.fit(X_train, y_train, validation_data=(X_test, y_test), epochs=2, batch_size=32, callbacks=[checkpoint])


if __name__ == '__main__':
    main()

输出结果:

Unnamed: 0 content label
0 0 做父母一定要有刘墉这样的心态不断地学习不断地进步不断地给 ... 1
1 1 作者真有英国人严谨的风格提出观点进行论述论证尽管本人对物理学了... 1
2 2 作者长篇大论借用详细报告数据处理工作和计算结果支持其新观点为什么荷... 1
3 3 作者在战几时之前用了＂拥抱＂令人叫绝．日本如果没有战败就 ... 1
4 4 作者在少年时即喜阅读能看出他精读了无数经典因而他有一个庞大... 1
49366
[[ 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
0 205 1808 119 40 56 2139 1246 434 3594 1321 1715
9 165 15 22]
[ 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
0 1157 8 3018 1 62 851 34 4 23 455 365
46 239 1157 3903]
[ 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
0 1579 53 388 958 294 1146 18 1 49 1146 305
2365 1 496 235]
[ 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 213 4719 509
730 21403 524 42]
[ 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 105 159 1 5 16 11
24 2 299 294 8 39 306 16796 11 1778 29 2674
640 2 543 1820]]
[[0. 1.]
[0. 1.]
[1. 0.]
[1. 0.]
[1. 0.]]
2021-09-20 18:59:07.031583: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'nvcuda.dll'; dlerror: nvcuda.dll not found
2021-09-20 18:59:07.031928: W tensorflow/stream_executor/cuda/cuda_driver.cc:326] failed call to cuInit: UNKNOWN ERROR (303)
2021-09-20 18:59:07.037546: I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:169] retrieving CUDA diagnostic information for host: DESKTOP-VVCH1JQ
2021-09-20 18:59:07.037757: I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:176] hostname: DESKTOP-VVCH1JQ
2021-09-20 18:59:07.043925: I tensorflow/core/platform/cpu_feature_guard.cc:142] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations: AVX AVX2
To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.
Model: "sequential"
_________________________________________________________________
Layer (type) Output Shape Param #
=================================================================
embedding (Embedding) (None, None, 200) 6000200
_________________________________________________________________
lstm (LSTM) (None, 200) 320800
_________________________________________________________________
dropout (Dropout) (None, 200) 0
_________________________________________________________________
dense (Dense) (None, 64) 12864
_________________________________________________________________
dense_1 (Dense) (None, 2) 130
=================================================================
Total params: 6,333,994
Trainable params: 6,333,994
Non-trainable params: 0
_________________________________________________________________
None
2021-09-20 18:59:07.470578: I tensorflow/compiler/mlir/mlir_graph_optimization_pass.cc:176] None of the MLIR Optimization Passes are enabled (registered 2)
Epoch 1/2
C:\Users\Windows\Anaconda3\lib\site-packages\tensorflow\python\keras\backend.py:4870: UserWarning: "`categorical_crossentropy` received `from_logits=True`, but the `output` argument was produced by a sigmoid or softmax activation and thus does not represent logits. Was this intended?"
'"`categorical_crossentropy` received `from_logits=True`, but '
528/528 [==============================] - 272s 509ms/step - loss: 0.3762 - accuracy: 0.8476 - val_loss: 0.2835 - val_accuracy: 0.8839

Epoch 00001: val_accuracy improved from -inf to 0.88391, saving model to model\jindong.h5py
2021-09-20 19:03:40.563733: W tensorflow/python/util/util.cc:348] Sets are not currently considered sequences, but this may change in the future, so consider avoiding using them.
Epoch 2/2
528/528 [==============================] - 299s 566ms/step - loss: 0.2069 - accuracy: 0.9266 - val_loss: 0.2649 - val_accuracy: 0.9005

Epoch 00002: val_accuracy improved from 0.88391 to 0.90050, saving model to model\jindong.h5py

到此这篇关于Python机器学习NLP自然语言处理基本操作之京东评论分类的文章就介绍到这了,更多相关Python NLP 京东评论分类内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

linux-用户和组 2501_92004703 linux 服务器运维
linux-用户和组前言一、用户管理1.用户账户类型2.主要命令2.1useradd2.2usedel2.3usermod2.4su3.查看用户登录信息3.1w3.2who3.3last3.4lastlog3.5lastb4.用户配置文件4.1/etc/passwd4.2/etc/shadow4.3/etc/login.defs5.手工新建用户二、组管理1.组分类2.组配置文件总结前言用户和组是进
ResNet：深度卷积神经网络的里程碑心想事“程” 小知识点 cnn 人工智能神经网络
一、引言在深度学习的发展历程中，深度卷积神经网络（CNN）不断演进，旨在提升对图像等数据的特征提取与分类能力。然而，随着网络层数的增加，传统CNN面临着梯度消失、梯度爆炸以及退化等棘手问题，训练变得愈发困难。2015年，由微软研究院提出的ResNet（ResidualNetworks，残差网络）横空出世，它以独特的残差学习思想，成功攻克了这些难题，在ImageNet竞赛中大放异彩，开创了深度神经网
视觉算法之卷积神经网络清风AI 深度学习算法详解及代码复现计算机视觉 cnn 神经网络深度学习 python 课程设计毕业设计
定义与特点卷积神经网络(ConvolutionalNeuralNetwork,CNN)是一种专为处理具有网格结构的数据而设计的深度学习模型。其独特的结构和功能使其在图像处理、语音识别等领域展现出卓越的性能:CNN的核心设计理念源于对生物视觉系统的模仿。通过模拟大脑皮层中视网膜和视觉皮层的层次化结构,CNN能够有效地捕捉图像中的局部特征并逐步抽象为高层语义信息。这种设计使得CNN特别擅长处理图像和音
【车载测试之CAPL编程系列】：【16】函数定义(2)
车载测试CAPL编程系列：CAPL中的函数定义(2)目录函数定义的基本形式参数类型与返回值函数重载（Overload）返回值限制：不能返回数组AI总结函数定义的基本形式CAPL函数定义具有灵活性，可根据需求设计无返回值、无参数的函数。无返回值、无参数的函数返回值类型：若函数无返回值，可声明为void，且void关键字可省略（CAPL特性，区别于C语言）。参数：允许无参数，但必须保留空括号()。示例
Python通关秘籍之基础教程(一） Smile丶Life丶 Python 通关指南：从零基础到高手之路 python 开发语言后端
引言在编程的世界里，Python就像一位温和而强大的导师，它以简洁优雅的语法和强大的功能吸引着无数初学者和专业人士。无论你是想开发网站、分析数据、构建人工智能，还是仅仅想学习编程思维，Python都是你的理想选择。Python的魅力在于它的易读性和广泛的应用场景。它的代码就像英语句子一样自然，即使是完全没有编程经验的人也能快速上手。同时，Python拥有庞大的生态系统，从Web开发（Django、
Python爬虫在社交平台数据挖掘中的应用：深入探索用户互动程序员威哥 python 爬虫数据挖掘
引言社交媒体已经成为全球用户互动的主要平台，每天都有大量的信息生成，用户之间的互动行为如点赞、评论、分享、转发等构成了宝贵的数据资源。如何利用这些互动数据为商业决策、用户行为分析以及产品优化提供支持，已经成为数据科学与大数据分析领域的一个重要课题。Python作为一款强大的编程语言，凭借其丰富的爬虫库和数据分析工具，已经成为挖掘社交平台数据的重要工具。在本文中，我们将通过Python爬虫技术，深入
*Python爬虫应用：从社交媒体数据中提取有价值的用户行为洞察程序员威哥 python 爬虫媒体
引言在现代数字化时代，社交媒体已成为获取用户行为数据的重要来源。每秒钟，数百万条信息在平台上传播，用户的互动行为——点赞、评论、分享、关注等，构成了大量宝贵的行为数据。企业和个人通过分析这些数据，不仅可以理解用户需求、改进产品，还能精准制定营销策略。然而，如何高效地抓取、分析并从中提取有价值的用户行为洞察？这正是Python爬虫和数据分析技术的优势所在。本文将介绍如何利用Python爬虫从社交媒体
【实战派×学院派】32｜上线后一堆优化需求，到底是 Bug 还是改进？郭菁菁 (BA/PM)实战派常踩的坑学院派如何补上 bug 业务分析需求分析 BA
学院派：用Bug/Enhancement分类机制+优化反馈池+二次迭代评审机制，避免优化失控、节奏紊乱你是不是也遇到过这样的场景：“这个报表逻辑不太合理，麻烦调整下。”“那个按钮位置不合适，顺便挪一挪吧。”“这个功能可以加个提醒吗？体验会好一点。”项目刚上线没多久，各路优化意见像潮水一样涌来。最让人头疼的是：到底这些算Bug（缺陷）还是Enhancement（优化改进）？该优先处理哪个？哪些该打回
进阶之App 测试一只舰性能测试
App知识点什么是activityActivity一个应用程序的组件，它提供一个屏幕来与用户交互。Activity:应用程序中，一个Activity就相当于手机屏幕，它是一种可以包含用户界面的组件，主要用于和用户进行交互。一个应用程序可以包含许多活动，比如事件的点击，一般都会触发一个新的Activity。Activity生命周期四种状态:1、运行2、暂停3、停止4、系统回收（killed）Andr
MiniMind：3小时训练26MB微型语言模型，开源项目助力AI初学者快速入门 nine是个工程师关注人工智能语言模型开源
开发｜界面｜引擎｜交付｜副驾——重写全栈法则：AI原生的倍速造应用流来自全栈程序员nine的探索与实践，持续迭代中。欢迎关注评论私信交流~在大型语言模型(LLaMA、GPT等)日益流行的今天，一个名为MiniMind的开源项目正在AI学习圈内引起广泛关注。这个项目让初学者能够在3小时内从零开始训练出一个仅26.88MB大小的微型语言模型，体积仅为GPT-3的七千分之一，却完整覆盖了从数据处理到模型
C#.NET log4net 详解 c#.net
简介log4net是.NET平台上非常成熟的日志组件，源自Java世界的log4j。它功能丰富、性能高、配置灵活，是企业应用中常见的日志框架之一。核心特点支持多种输出目标（Appender）：文件、数据库、控制台、远程服务等支持多种格式化（Layout）支持按级别（Level）记录日志支持日志分类（Logger分组、命名空间隔离）配置灵活，可通过XML文件配置，也可通过代码配置支持异步日志、按文件
Cursor这类编程Agent软件的模型架构与工作流程 nine是个工程师谈谈架构 Agent 架构
开发｜界面｜引擎｜交付｜副驾——重写全栈法则：AI原生的倍速造应用流来自全栈程序员nine的探索与实践，持续迭代中。欢迎评论私信交流。最近在关注和输出一系列AIGC架构。模型架构与工作流程大语言模型（LLM）核心编程Agent的核心是一个强大的大语言模型，负责理解用户意图并生成相应的代码和解决方案。Cursor这类编程Agent通常基于GPT-4或Claude等先进大语言模型构建。这些模型通过海量
深入解读 Qwen3 技术报告（一）：引言小爷毛毛（卓寿杰）大模型AIGC 深度学习基础/原理人工智能自然语言处理 python 语言模型深度学习
重磅推荐专栏：《大模型AIGC》《课程大纲》《知识星球》本专栏致力于探索和讨论当今最前沿的技术趋势和应用领域，包括但不限于ChatGPT和StableDiffusion等。我们将深入研究大型模型的开发和应用，以及与之相关的人工智能生成内容（AIGC）技术。通过深入的技术解析和实践经验分享，旨在帮助读者更好地理解和应用这些领域的最新进展1.引言：迎接大型语言模型的新纪元我们正处在一个由人工智能（AI
大模型之Spring AI实战系列（三十二）：Spring Boot + DeepSeek 实战指南：工具函数（Function Call）实战应用
系列篇章No.文章1大模型之SpringAI实战系列（一）：基础认知篇-开启智能应用开发之旅2大模型之SpringAI实战系列（二）：SpringBoot+OpenAI打造聊天应用全攻略3大模型之SpringAI实战系列（三）：SpringBoot+OpenAI实现聊天应用上下文记忆功能4大模型之SpringAI实战系列（四）：SpringBoot+OpenAI使用OpenAIEmbedding实
SpringBoot-19-企业云端开发实践之web开发晋级皮皮冰燃 SpringBoot spring boot 前端后端
文章目录1静态资源访问1.1static静态资源目录1.2application.properties(过滤规则)2文件上传2.1文件上传原理2.2SprintBoot文件上传功能2.3FileUploadController.java2.4配置访问上传的文件3拦截器3.1interceptor/LoginInterceptor3.2config/WebConfig4RESTful服务和Swagg
rk3566开发之rknn npu 部署三十度角阳光的问候 rknn npu rk3566 目标检测
目录NPU使用RKNN模型非RKNN模型RKNN-Toolkit2工具RKNNNPU测试代码如下main.ccssd.cc调用ssd模型进行目标检测测试ssd.hqt中调用rknnnpu接口NPU使用RK3566内置NPU模块。使用该NPU需要下载RKNNSDK，RKNNSDK为带有NPU的RK3566/RK3568芯片平台提供编程接口，能够帮助用户部署使用RKNN-Toolkit2导出的RKNN
Vue 3结合element plus（问题总结一）之 table数据更新而视图不跟新
Vue3结合elementplus（问题总结一）之table数据更新而视图不更新前言Table组件问题原因及解决小案例前言应为做项目用到vue3，就结合elementplus来做，但是碰到一些问题，上网搜几乎是vue2结合elementui的相似问题。所以自己也是搞了蛮久的，如果有相同的问题希望能帮助到各位，希望可以点赞加搜藏一下。Table组件讲一下Table组件，先看下官网给的基础代码和效果。
Linux/Unix线程及其同步(create、wait、exit、互斥锁、条件变量、多线程) JeffersonZU Unix/Linux系统编程 linux unix gnu c语言
线程文章目录线程I线程基本概念1、为什么引入线程2、PthreadsII线程基本操作1、创建线程2、终止线程3、线程ID4、连接已终止线程5、线程基本操作示例III通过互斥量同步线程1、基本概念2、互斥量（Mutex）3、静态分配互斥量4、互斥量锁定与解锁5、互斥量的死锁6、互斥量类型7、动态初始化互斥量IV通过条件变量同步线程1、条件变量2、静态分配的条件变量3、初始化动态分配的条件变量4、通知
传统乐器的音域革新：多管设计与超孔结构的探索 109702008 杂谈人工智能
——从陶笛到葫芦丝的扩展艺术一、多管陶笛：音域突破的经典方案1.结构分类与音域特性多管陶笛通过增加独立音管扩展音域，分为双管、三管、四管三种主流类型：双管陶笛（1主管+1附管）：音域≥2个八度，吹奏高音需切换附管，适合进阶曲目。三管陶笛（1主管+2附管）：音域近3个八度（如AC三管覆盖G4-E7），可驾驭古典与流行乐。四管陶笛（1主管+3附管）：音域近4个八度（BC四管达C3-C7），属顶级专业配
网络安全之如何设置云服务器禁止 ping？两种设置方法教你搞定云服务器无法ping通、ping不通云主机、Linux禁止ping、ICMP屏蔽、网络安全最佳实践 sysctl.conf配置代码简单说运维宝典限时特惠服务器 web安全 linux 服务器禁止ping 云服务器禁止ping 服务器禁止ping的方法
云主机如何设置云服务器禁止ping？两种设置方法教你搞定标签：云服务器无法ping通、ping不通云主机、Linux禁止ping、ICMP屏蔽、网络安全最佳实践、sysctl.conf配置前几天上线了一个测试服务，总有安全团队扫端口，还时不时用ping探测存活，我开始思考：云服务器到底要不要禁ping？一、禁ping的好处和坏处作为一名前端转全栈开发的程序员，我越来越觉得网络安全不能忽视。“pin
2025B卷 - 华为OD机试七日集训第5期 - 按算法分类，由易到难，循序渐进，玩转OD 哪吒搬砖工逆袭Java架构师华为od 算法华为OD机试 2025B卷 java
目录推荐刷题方法：一、适合人群二、本期训练时间三、如何参加四、七日集训第5期五、精心挑选21道高频100分经典题目，作为入门。第1天、逻辑分析第2天、逻辑分析第3天、逻辑分析第4天、字符串处理第5天、正则表达式第6天、深度优先搜索dfs第7天、深度优先搜索dfs六、集训总结国内直接使用ChatGPT4o、o3、o4-mini-high、GPT-4.5、GPT4.1、Gemini2.5pro0605
2025B卷 - 华为OD机试七日集训第4期 - 按算法分类，由易到难，循序渐进，玩转OD（Python/JS/C/C++）哪吒搬砖工逆袭Java架构师华为od 算法 python 华为OD机试 2025B卷
目录推荐刷题方法：一、适合人群二、本期训练时间三、如何参加四、七日集训第4期五、精心挑选21道高频100分经典题目，作为入门。第1天、逻辑分析第2天、逻辑分析第3天、逻辑分析第4天、贪心算法第5天、二分查找第6天、字符串处理第7天、字符串处理六、集训总结国内直接使用ChatGPT4o、o3、o4-mini-high、GPT-4.5、GPT4.1、Gemini2.5pro0605、ClaudeSon
初学者之Redis 美好的事情能不能发生在我身上 redis 数据库缓存 java 后端 spring spring boot
文章目录前言一、什么是Redis二、Redis基本类型三、通用命令四、基础命令1.String类型2.List类型3.Set类型4.Hash类型5.Zset有序集合类型五、在Java中的运用1.配置信息2.配置类3.操作String类型4.操作Hash类型5.操作List类型6.操作Set类型7.操作ZSet类型六、修改营业状态的实例总结前言第一次学习Redis，最后的目标是在idea中连接red
2025B卷 - 华为OD机试七日集训第2期 - 按算法分类，由易到难，循序渐进，玩转OD（Python/JS/C/C++）
目录推荐刷题方法：一、适合人群二、本期训练时间三、如何参加四、七日集训第2期五、精心挑选21道高频100分经典题目，作为入门。第1天、逻辑分析第2天、数组第3天、双指针第4天、贪心算法第5天、字符串处理第6天、深度优先搜索DFS第7天、动态规划六、集训总结国内直接使用ChatGPT4o、o3、o4-mini-high、GPT-4.5、GPT4.1、Gemini2.5pro0605、ClaudeSo
Python 爬虫实战：电商商品多维度分析系统构建 Python核芯 Python爬虫实战项目 python 爬虫开发语言电商
引言在当今数字化时代，电商平台已成为人们购物的首选渠道之一。海量的商品信息、用户评价和销售数据隐藏着巨大的商业价值。通过构建一个电商商品多维度分析系统，我们可以深入挖掘这些数据，帮助商家优化产品策略、提升用户体验，同时也为消费者提供更明智的购物建议。本文将详细介绍如何利用Python爬虫技术抓取电商商品数据，并构建一个多维度分析系统。一、项目背景与意义电商平台如京东、淘宝、拼多多等，每天产生海量的
浏览器渲染引擎和JS引擎分类
渲染引擎：Firefox：Gecko引擎Safari：WebKit引擎Chrome：Blink引擎IE:Trident引擎Edge:EdgeHTML引擎JS引擎：SpiderMonkey(Firefox)，火狐Nitro/JavaScriptCore(Safari)，苹果IOS浏览器V8(Chrome,Chromium)，Node.js也是V8Chakra(MicrosoftInternetExp
Maven详解之仓库------本地仓库、远程仓库娜娜带你学架构师 java maven java spring boot 运维算法
在Maven中，任何一个依赖、插件或者项目构建的输出，都可以称之为构件。Maven在某个统一的位置存储所有项目的共享的构件，这个统一的位置，我们就称之为仓库。（仓库就是存放依赖和插件的地方）任何的构件都有唯一的坐标，Maven根据这个坐标定义了构件在仓库中的唯一存储路径，解读Maven在仓库中的存储路径：1.基于groupId准备路径，将句点分隔符转成路径分隔符，就是将“.”转换成“/”;exam
【亲测免费】京东扫码登陆Python脚本：轻松实现账号安全登陆金琴莺
京东扫码登陆Python脚本：轻松实现账号安全登陆【下载地址】京东扫码登陆Python脚本京东扫码登陆Python脚本本仓库提供了一个名为“京东扫码登陆python脚本.rar”的资源文件，该文件包含了一个支持京东扫码登陆的Python脚本项目地址:https://gitcode.com/open-source-toolkit/4ca8d项目介绍在数字化时代，账号安全与便捷登陆成为了用户关注的焦点
Python爬虫抓取京东商品信息（价格、销量、评价）：从基础到高级技术解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言信息可视化 c++
引言随着电子商务的迅速发展，爬虫技术逐渐成为数据科学、商业智能、市场分析等领域的基础工具之一。京东作为中国最大之一的电子商务平台，包含了大量的商品信息，如商品价格、销量、评价等，这些信息对市场分析、消费者行为预测等方面有着重要的意义。本篇博客将通过Python爬虫技术，详细讲解如何抓取京东商品页面的相关信息，并进一步探讨如何处理动态页面、反爬虫机制以及如何优化爬虫的性能和稳定性。1.Python爬
Python 爬虫实战：京东商品数据采集（登录态验证 + 价格监控系统） Python核芯 Python爬虫实战项目 python 爬虫开发语言
一、引言在电商飞速发展的当下，京东作为国内头部电商平台之一，拥有海量商品数据。对于商家而言，精准掌握这些数据能助力优化定价策略、洞察市场动态；对消费者来说，追踪商品价格走势有助于把握最佳购买时机。本文将深入剖析如何借助Python爬虫技术实现京东商品数据采集，包括突破登录态验证以及搭建价格监控系统，为读者呈上一份实用的电商数据挖掘指南。二、环境搭建安装Python库：执行以下命令安装所需的库：pi
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他

Python机器学习NLP自然语言处理基本操作之京东评论分类

目录

概述

RNN

权重共享

计算过程

LSTM

阶段

数据介绍

代码

预处理

主函数

你可能感兴趣的:(Python机器学习NLP自然语言处理基本操作之京东评论分类)