Adam坤

使用NLP预测电影类型 - 多标签分类

Introduction

上周，我对这篇关于构建多标签图像分类模型的精彩文章很感兴趣。我的数据科学家开始探索将这个想法转化为自然语言处理（NLP）问题的可能性。

那篇文章展示了计算机视觉技术来预测电影的类型。所以我必须找到一种方法将该问题陈述转换为基于文本的数据。现在，大多数NLP教程都着眼于解决单标签分类挑战（每次观察时只有一个标签）。

但电影不是一维的。一部电影可以跨越多种类型。现在，这是一个我喜欢接受数据科学家的挑战。我提取了一堆电影情节摘要，并开始使用这种多标签分类的概念。即使使用简单的模型，结果也确实令人印象深刻。

在本文中，我们将采用非常实用的方法来理解NLP中的多标签分类。我使用NLP建立电影类型预测模型很有趣，我相信你也会这样做。我们来挖掘吧！

'y’是表1中的二进制目标变量。因此，只有两个标签 - t1和t2
'y’在表2中包含两个以上的标签。但是，请注意这两个表中每个输入只有一个标签
你必须猜到了表3引人注目的原因。我们这里有多个标签，不仅在表格中，而且还有单独的输入
我们不能直接在这种数据集上应用传统的分类算法。为什么？因为这些算法希望每个输入都有一个标签，所以我们有多个标签。这是一个有趣的挑战，我们将在本文中解决这个挑战。

您可以在下面的文章中更深入地了解多标签分类问题：

Solving Multi-Label Classification Problems (using Case Studies)

Setting up our Multi-Label Classification Problem Statement

有建立推荐引擎的几种方法。在电影类型方面，您可以根据多个变量对数据进行切片和切块。但这是一个简单的方法 - 构建一个可以自动预测流派标签的模型！我已经可以想象为推荐者添加这样一个选项的可能性。对每个人来说都是双赢的。

我们的任务是建立一个模型，只使用情节细节（以文本形式提供）来预测电影的类型。

从IMDb看下面的快照，然后选择展出的不同内容：

在这么小的空间里有很多信息：

电影标题
右上角的电影评级
电影总持续时间
发布日期
当然，我在洋红色彩色边框中突出显示的电影类型

类型告诉我们电影的期待。由于这些类型是可点击的（至少在IMDb上），它们允许我们发现其他类似的同类电影。看起来像一个简单的产品功能突然有这么多有希望的选择。?

About the Dataset

我们将为我们的项目使用CMU电影摘要语料库开放数据集。您可以直接从link下载数据集。

此数据集包含多个文件，但我们现在只关注其中两个文件：

movie.metadata.tsv：从2012年11月4日Freebase转储中提取的81,741部电影的元数据。电影类型标签在此文件中可用
plot_summaries.txt：从2012年11月2日英语维基百科翻新中提取的42,306部电影的摘要。每行包含维基百科电影ID（索引到movie.metadata.tsv），然后是剧情摘要

Our Strategy to Build a Movie Genre Prediction Model(构建电影类型预测模型的策略)

我们知道我们不能直接在多标签数据集上使用监督分类算法。因此，我们首先必须转换目标变量。让我们看看如何使用虚拟数据集执行此操作：

这里，X和y分别是特征和标签 - 它是一个多标签数据集。现在，我们将使用** Binary Relevance **方法来转换目标变量y。我们将首先在数据集中取出唯一标签：

唯一标签= [t1，t2，t3，t4，t5]

数据中有5个唯一标记。接下来，我们需要用多个目标变量替换当前目标变量，每个变量都属于数据集的唯一标签。由于有5个唯一标签，因此将有5个新的目标变量，其值为0和1，如下所示：

我们现在已经覆盖了最终开始解决这个问题的必要基础。在下一节中，我们将最终使用Python制作自动电影类型预测系统！

Implementation：使用多标签分类构建电影类型预测模型（Python）

我们已经理解了问题陈述并构建了一个逻辑策略来设计我们的模型。让我们把它们放在一起并开始编码！

导入所需的库

我们将首先导入项目所需的库：

import pandas as pd
import numpy as np
import json
import nltk
import re
import csv
import matplotlib.pyplot as plt 
import seaborn as sns
from tqdm import tqdm
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split

%matplotlib inline
pd.set_option('display.max_colwidth', 300)

Load Data

我们先加载电影元数据文件。使用’\ t’作为分隔符，因为它是制表符分隔文件（.tsv）：

meta = pd.read_csv("movie.metadata.tsv", sep = '\t', header = None)
meta.head()

哦等等 - 这个数据集中没有标题。第一列是唯一的电影ID，第三列是电影的名称，最后一列是电影类型。我们不会在此分析中使用其余列。

让我们为上述三个变量添加列名：

# rename columns
meta.columns = ["movie_id",1,"movie_name",3,4,5,6,7,"genre"]

现在，我们将电影情节数据集加载到内存中。此数据以文本文件形式出现，每行包含电影ID和电影情节。我们将逐行阅读：

plots = []

with open("plot_summaries.txt", 'r') as f:
       reader = csv.reader(f, dialect='excel-tab') 
       for row in tqdm(reader):
            plots.append(row)

接下来，将影片ID和绘图分成两个单独的列表。我们将使用这些列表来形成数据帧：

movie_id = []
plot = []

# extract movie Ids and plot summaries
for i in tqdm(plots):
  movie_id.append(i[0])
  plot.append(i[1])

# create dataframe
movies = pd.DataFrame({'movie_id': movie_id, 'plot': plot})

让我们看看我们在’电影’数据帧中有什么：

movies.head()

完善！我们有电影ID和相应的电影情节。

数据探索和预处理

让我们根据movie_id列将后者合并到前者中，从电影元数据文件中添加电影名称及其类型：

# change datatype of 'movie_id'
meta['movie_id'] = meta['movie_id'].astype(str)

# merge meta with movies
movies = pd.merge(movies, meta[['movie_id', 'movie_name', 'genre']], on = 'movie_id')

movies.head()

我们添加了电影名称和流派。但是，这些类型采用字典表示法。如果我们可以将它们转换为Python列表，那么使用它们会更容易。我们将使用第一行执行此操作：

movies['genre'][0]

Output:

'{"/m/07s9rl0": "Drama", "/m/03q4nz": "World cinema"}'

我们不能通过使用.values（）来访问此行中的类型。你能猜到为什么吗？这是因为这个文本是一个字符串，而不是一个字典。我们必须将此字符串转换为字典。我们将在这里借助json库：

type(json.loads(movies['genre'][0]))

Output:

dict

我们现在可以轻松访问此行的类型：

json.loads(movies['genre'][0]).values()

Output:

dict_values(['Drama', 'World cinema'])

此代码可帮助我们从电影数据中提取所有类型。完成后，将提取的类型作为列表添加回电影数据帧：

# an empty list
genres = [] 

# extract genres
for i in movies['genre']: 
  genres.append(list(json.loads(i).values())) 

# add to 'movies' dataframe  
movies['genre_new'] = genres

某些示例可能不包含任何类型标记。我们应该删除这些样本，因为它们不会参与我们的模型构建过程：

# remove samples with 0 genre tags
movies_new = movies[~(movies['genre_new'].str.len() == 0)]
movies_new.shape, movies.shape

Output:

((41793, 5), (42204, 5))

只有411个样本没有类型标签。让我们再看看数据帧：

movies.head()

请注意，类型现在采用列表格式。您是否想知道此数据集中涵盖了多少电影类型？以下代码回答了这个问题：

# get all genre tags in a list
all_genres = sum(genres,[])
len(set(all_genres))

Output:

我们的数据集中有超过363种独特的流派标签。这是一个相当大的数字。我能够回想起5-6种类型！让我们看看这些标签是什么。我们将使用nltk库中的FreqDist（）创建一个类型字典及其在数据集中的出现次数：

all_genres = nltk.FreqDist(all_genres) 

# create dataframe
all_genres_df = pd.DataFrame({'Genre': list(all_genres.keys()), 
                              'Count': list(all_genres.values())})

我个人觉得可视化数据是一种比简单输出数字更好的方法。那么，让我们绘制电影类型的分布：

g = all_genres_df.nlargest(columns="Count", n = 50) 
plt.figure(figsize=(12,15)) 
ax = sns.barplot(data=g, x= "Count", y = "Genre") 
ax.set(ylabel = 'Count') 
plt.show()

接下来，我们将清理一下我们的数据。我将使用一些非常基本的文本清理步骤（因为这不是本文的重点领域）：

# function for text cleaning 
def clean_text(text):
    # remove backslash-apostrophe 
    text = re.sub("\'", "", text) 
    # remove everything except alphabets 
    text = re.sub("[^a-zA-Z]"," ",text) 
    # remove whitespaces 
    text = ' '.join(text.split()) 
    # convert text to lowercase 
    text = text.lower() 
    
    return text

让我们使用apply-lambda duo在电影情节中应用这个功能：

movies_new['clean_plot'] = movies_new['plot'].apply(lambda x: clean_text(x))

随意检查新旧电影情节。我在下面提供了一些随机样本：

在clean_plot列中，所有文本都是小写的，并且也没有标点符号。我们的文字清洁工作就像一个魅力。

下面的函数将在一组文档中显示单词及其频率。让我们用它来找出电影情节列中最常用的单词：

def freq_words(x, terms = 30): 
  all_words = ' '.join([text for text in x]) 
  all_words = all_words.split() 
  fdist = nltk.FreqDist(all_words) 
  words_df = pd.DataFrame({'word':list(fdist.keys()), 'count':list(fdist.values())}) 
  
  # selecting top 20 most frequent words 
  d = words_df.nlargest(columns="count", n = terms) 
  
  # visualize words and frequencies
  plt.figure(figsize=(12,15)) 
  ax = sns.barplot(data=d, x= "count", y = "word") 
  ax.set(ylabel = 'Word') 
  plt.show()
  
# print 100 most frequent words 
freq_words(movies_new['clean_plot'], 100)

上图中的大多数术语都是停用词。这些停用词比文本中的其他关键词具有更少的含义（它们只是为数据添加噪声）。我将继续将它们从剧情文本中删除。您可以从nltk库下载停用词列表：

nltk.download('stopwords')

让我们删除停用词：

from nltk.corpus import stopwords
stop_words = set(stopwords.words('english'))

# function to remove stopwords
def remove_stopwords(text):
    no_stopword_text = [w for w in text.split() if not w in stop_words]
    return ' '.join(no_stopword_text)

movies_new['clean_plot'] = movies_new['clean_plot'].apply(lambda x: remove_stopwords(x))

检查最常用的术语没有停用词：

freq_words(movies_new['clean_plot'], 100)

看起来好多了，不是吗？现在出现了更多有趣和有意义的词，如“警察”，“家庭”，“钱”，“城市”等。

将文本转换为函数

我之前提到过，我们会将这个多标签分类问题视为二元关联问题。因此，我们现在将通过使用sklearn的MultiLabelBinarizer（）对目标变量进行热编码，即genre_new。由于有363个独特的流派标签，因此将有363个新的目标变量。

from sklearn.preprocessing import MultiLabelBinarizer

multilabel_binarizer = MultiLabelBinarizer()
multilabel_binarizer.fit(movies_new['genre_new'])

# transform target variable
y = multilabel_binarizer.transform(movies_new['genre_new'])

现在，是时候将注意力转移到从清理版的电影情节数据中提取特征了。对于本文，我将使用TF-IDF功能。您可以随意使用其他任何您熟悉的特征提取方法，例如Bag-of-Words，word2vec，GloVe或ELMo。

我建议查看以下文章，以了解有关从文本创建功能的不同方法的更多信息：

An Intuitive Understanding of Word Embeddings: From Count Vectors to Word2Vec
A Step-by-Step NLP Guide to Learn ELMo for Extracting Features from Text

tfidf_vectorizer = TfidfVectorizer(max_df=0.8, max_features=10000)

我在数据中使用了10,000个最常用的单词作为我的功能。您也可以尝试使用max_features参数的任何其他数字。

现在，在创建TF-IDF功能之前，我们会将数据拆分为训练集和验证集，以便进行培训和评估模型的性能。我将使用80-20分割 - 火车组中80％的数据样本，其余的在验证集中：

# split dataset into training and validation set
xtrain, xval, ytrain, yval = train_test_split(movies_new['clean_plot'], y, test_size=0.2, random_state=9)

现在我们可以为训练和验证集创建功能：

# create TF-IDF features
xtrain_tfidf = tfidf_vectorizer.fit_transform(xtrain)
xval_tfidf = tfidf_vectorizer.transform(xval)

Build Your Movie Genre Prediction Model

我们都为模型构建部分设置了！这就是我们一直在等待的。

请记住，我们必须为每个热门编码的目标变量构建一个模型。由于我们有363个目标变量，我们必须使用相同的预测变量（TF-IDF特征）来拟合363个不同的模型。

可以想象，在适度的系统上训练363个模型可能需要相当长的时间。因此，我将建立一个Logistic回归模型，因为它可以快速训练有限的计算能力：

from sklearn.linear_model import LogisticRegression

# Binary Relevance
from sklearn.multiclass import OneVsRestClassifier

# Performance metric
from sklearn.metrics import f1_score

我们将使用sk-learn的OneVsRestClassifier类将此问题解决为二元相关性或一对一问题：

lr = LogisticRegression()
clf = OneVsRestClassifier(lr)

最后，将模型设置在训练集上：

# fit model on train data
clf.fit(xtrain_tfidf, ytrain)

预测验证集上的电影类型：

# make predictions for validation set
y_pred = clf.predict(xval_tfidf)

让我们看看这些预测的样本：

y_pred[3]

它是长度为363的二进制一维数组。基本上，它是唯一类型标签的单热编码形式。我们必须找到一种方法将其转换为电影类型标签。

幸运的是，sk-learn再次来到我们的救援。我们将使用inverse_transform（）函数和MultiLabelBinarizer（）对象将预测数组转换为电影类型标记：

multilabel_binarizer.inverse_transform(y_pred)[3]

Output:

('Action', 'Drama')

哇！那很顺利。

但是，要评估模型的整体性能，我们需要考虑验证集的所有预测和整个目标变量：

# evaluate performance
f1_score(yval, y_pred, average="micro")

Output:

0.31539641943734015

我们得到了一个不错的F1得分0.315。这些预测是基于阈值0.5进行的，这意味着大于或等于0.5的概率被转换为1，其余的被转换为0。

让我们尝试更改此阈值，看看是否可以改善我们的模型得分：

# predict probabilities
y_pred_prob = clf.predict_proba(xval_tfidf)

现在设置一个阈值：

t = 0.3 # threshold value
y_pred_new = (y_pred_prob >= t).astype(int)

我已经尝试过0.3作为阈值。您还应该尝试其他值。让我们再次检查这些新预测的F1分数。

# evaluate performance
f1_score(yval, y_pred_new, average="micro")

Output:

0.4378456703198025

这对我们模型的性能起到了很大的推动作用。找到正确阈值的更好方法是使用k倍交叉验证设置并尝试不同的值。

Create Inference Function

等等 - 我们还没有完成这个问题。我们还必须处理将来出现的新数据或新电影情节，对吧？我们的电影类型预测系统应该能够以原始形式拍摄电影情节作为输入并生成其类型标签。

为此，让我们构建一个推理函数。它将拍摄电影情节文本并按照以下步骤操作：

清理文字
从已清理的文本中删除停用词
从文本中提取功能
作出预测
返回预测的电影类型标签

def infer_tags(q):
    q = clean_text(q)
    q = remove_stopwords(q)
    q_vec = tfidf_vectorizer.transform([q])
    q_pred = clf.predict(q_vec)
    return multilabel_binarizer.inverse_transform(q_pred)

让我们在我们的验证集中的几个样本上测试这个推理函数：

for i in range(5): 
  k = xval.sample(1).index[0] 
  print("Movie: ", movies_new['movie_name'][k], "\nPredicted genre: ", infer_tags(xval[k])), print("Actual genre: ",movies_new['genre_new'][k], "\n")

好极了！我们已经建立了一个非常有用的模型。该模型尚不能预测罕见的流派标签，但这是另一个时间的挑战（或者你可以接受并让我们知道你所遵循的方法）。

从这往哪儿走？

如果您正在寻找类似的挑战，您会发现以下链接很有用。我在自然语言处理课程中使用机器学习和深度学习模型解决了Stackoverflow问题标记预测问题。

以下是课程链接供您参考：

Certified Program: NLP for Beginners
The Ultimate AI & ML BlackBelt Program

End Notes

我希望我们的社区能够看到不同的方法和技术，以取得更好的结果。尝试使用不同的特征提取方法，构建不同的模型，微调这些模型等。你可以尝试很多东西。不要在这里阻止自己 - 继续尝试！

欢迎在下面的评论部分讨论和评论。完整的代码可以在这里找到。

你可能感兴趣的:(数据科学,AI程序员,算法,机器学习,自然语言处理,深度学习)

探索AI音乐创作的未来：八款顶尖AI音乐生成工具（本期介绍国外-国内另外专题介绍）带娃的IT创业者 AIGC 程序员创富人工智能音视频 ai
探索AI音乐创作的未来：八款顶尖AI音乐生成工具（本期介绍国外-国内另外专题介绍）在科技飞速发展的今天，人工智能（AI）已经渗透到我们生活的方方面面，其中音乐创作也不例外。AI音乐生成工具不仅为专业音乐人提供了新的创作方式，也让普通人能够轻松创作出高质量的音乐作品。本文将介绍八款知名的AI音乐生成工具，帮助你了解它们的特点和优势。1.SunoSuno是一款AI驱动的音乐生成器，能够快速创建高质量的
DeepSeek爆火背后：AI如何助力GIS发展 GIS前端嘉欣前端 GIS webgis
2025年的春节，一款名为DeepSeek的AI工具以“推理能力超群”“性价比碾压巨头”的标签火遍全网：日活用户突破3000万，微信搜索接入其长思考模式，三大电信运营商全面部署其开源框架。这场由低成本+高性能+开源驱动的技术革命，不仅让AI开发门槛大幅降低，更预示着一个全新的产业趋势——AI与GIS的深度融合，正在重塑城市、环境和商业的底层逻辑。012025年，AI+GIS深度融合的四大趋势1.城
【Unity 监狱内部环境资产包】Jails Interior 提供了完整的监狱内部结构，包括牢房、走廊、审讯室、看守室等，并配备了大量高质量的家具、铁栏、门窗和其他装饰，快速搭建沉浸式的监狱场景 Unity游戏资源学习屋 Unity插件
JailsInterior是一款专为Unity设计的监狱内部环境资产包，适用于犯罪题材、恐怖游戏、警察模拟、逃脱解谜等类型的游戏。该插件提供了完整的监狱内部结构，包括牢房、走廊、审讯室、看守室等，并配备了大量高质量的家具、铁栏、门窗和其他装饰，帮助开发者快速搭建沉浸式的监狱场景。详细介绍1.逼真的监狱内部环境提供完整的监狱场景，包括牢房、走廊、审讯室、警卫室等，能够用于各类犯罪、逃脱、警察题材的游
Python从0到100（三十九）：数据提取之正则（文末免费送书）是Dream呀 python mysql 开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
ollama的docker 使用教程贾斯汀玛尔斯数据湖 AI Docker容器 docker eureka 容器
好的，下面是Ollama在Docker中的使用教程。我将详细描述如何在Docker容器中运行Ollama，包括安装、配置和常用操作。OllamaDocker使用教程Ollama可以通过Docker运行，提供了一个简洁且隔离的环境来使用AI模型。本文将引导你如何在Docker中设置和使用Ollama。目录前提条件拉取OllamaDocker镜像启动Ollama容器基本命令操作停止容器<
市面上采用多进程架构的游戏或游戏引擎的案例深入分析你一身傲骨怎能输软件架构设计架构游戏游戏引擎
《绝地求生》（PUBG）《绝地求生》（PUBG）是一款采用多进程架构的游戏，这种设计帮助它在处理复杂的游戏逻辑和网络通信时提高了性能和稳定性。以下是一些关于《绝地求生》如何利用多进程架构的具体细节：多进程架构的优势性能优化：多进程架构允许游戏将不同的任务分配到多个处理器核心上运行，这样可以充分利用现代多核CPU的计算能力。例如，游戏的物理计算、AI逻辑、渲染和网络通信可以在不同的进程中并行处理，从
Salesforce联手阿里云，销售易联手腾讯，还在靠”卖血求生“的CRM独立玩家何去何从？ saas
销售易官宣与腾讯战略合作升级，腾讯集团副总裁、腾讯政企业务总裁李强担任销售易董事长，销售易创始人史彦泽继续担任CEO。这场"资本+技术+生态"的强强联合，将行业竞争推向新维度，融资竞赛不再是SaaS企业生存的唯一筹码，中国企服市场正在发生深层变革。消息一出，便受到很多人的关注，这首当其中，最高兴的算要数销售易的客户，源自其将获得的三大核心价值升级，腾讯将进一步开放云计算、大数据、AI等核心技术能力
Linux升级Anacodna并配置jupyterLab 伪_装环境部署 linux 服务器 Anaconda python jupyter
在使用Anaconda的过程中，随着项目和需求的发展，可能需要升级Anaconda的Base环境中的Python版本。本文将详细介绍如何安全地进行升级，包括步骤、代码示例与最终流程图。升级Python一、环境准备在进行任何升级之前，建议先检查当前的Python版本以及各个库的兼容性。我们可以通过以下命令检查当前的Python版本：condainfo你会看到类似以下的输出，其中包含了当前Python
【Linux】删除Conda虚拟环境不是伍壹 Linux linux conda 运维
1、查看当前系统的conda虚拟环境condainfo--envscondaenvlist2、创建虚拟的环境condacreate-n（你的环境名字）python=（你需要的版本号，如（3.7,3.8,3.10））3、查看安装了哪些包condalist4、删除虚拟环境condaremove-nname--all5、删除虚拟环境中的包condaremove--name$（需要删除的环境名字）$（需要
Nginx配置反向代理不成功的原因(Docker安装版) 程序员迪迦项目实战 nginx docker linux
问题背景在linux服务器中使用docker下载了Nginx，然后根据网上的教程来配置反向代理的时候发现80端口无法访问server块的配置server{listen80;server_name127.0.0.1;#access_log/var/log/nginx/host.access.logmain;location/{proxy_passhttp://127.0.0.1:8080;#inde
深度学习环境配置——Anaconda安装 tyyhmtyyhm 深度学习环境配置深度学习人工智能
目录Ⅰ.Windows系统安装Anaconda1.1下载安装Ⅱ.Linux系统安装Anaconda（适用于服务器安装）2.1下载2.2安装操作系统：windows11/ubuntu20/ubuntu18更新时间：20240221Ⅰ.Windows系统安装Anaconda1.1下载安装https://www.anaconda.com/download默认安装即可。Ⅱ.Linux系统安装Anacond
深度学习工厂的蓝图：拆解CUDA驱动、PyTorch与OpenCV的依赖关系时光旅人01号深度学习 pytorch opencv
想象一下，你正在建造一座深度学习工厂，这座工厂专门用于高效处理深度学习任务（如训练神经网络）和计算机视觉任务（如图像处理）。为了让工厂顺利运转，你需要搭建基础设施、安装设备、设置生产线，并配备控制台来管理整个生产过程。以下是这座工厂的详细构建过程：1.工厂的基础设施：Ubuntu比喻：Ubuntu是工厂所在的土地和建筑，提供了基础设施和运行环境。作用：提供操作系统环境，支持安装和运行各种工具和框架
（九万字）面向2025年BOSS直聘人工智能算法工程师高频面试题解析快撑死的鱼人工智能回归 python pytorch
面向2025年BOSS直聘人工智能算法工程师高频面试题解析1.机器学习（ML）理论解析机器学习是让计算机从数据中学习规律的一套方法论，包含监督学习、无监督学习和强化学习等范式。在监督学习中，给定带标签的数据，算法尝试学习从输入到输出的映射关系；无监督学习则在缺乏标签的情况下挖掘数据内在结构；强化学习则让智能体通过与环境交互、依据奖赏反馈来改进策略(Q-learning-Wikipedia)。机器学
nginx反向代理导致jupyter 或jupyterlab 无法输出 NEOzhuo python nginx jupyter 服务器
代码运行能力依赖于websocket，因此需要设置nginx的反向代理server{server_nameDOMAINIP_ADDRESS;#服务器域名和IP地址listen80;location/{proxy_passhttp://127.0.0.1:JUPYTER_PORT/;#JUPYTER_PORT为Jupyter运行端口proxy_set_headerX-Real-IP$remote_a
Centos7 搭建 Jupyter + Nginx 服务某龙兄 python nginx linux centos
JupyterNotebook（此前被称为IPythonnotebook）是一个交互式笔记本，支持运行40多种编程语言。JupyterNotebook的本质是一个Web应用程序，便于创建和共享文学化程序文档，支持实时代码，数学方程，可视化和markdown。用途包括：数据清理和转换，数值模拟，统计建模，机器学习等等。本文讲述如何搭建Jupyter+Nginx服务,仅供学习与交流，请勿用于商业用途一
java实现，使用向量相似度输入字符串，在定义好的字符串集合中根据语义匹配出最准的一个。 melck 1024程序员节
以下是完整的Java示例代码，包括字符串集合的定义和根据输入字符串匹配最相似字符串的逻辑：importjava.util.*;publicclassSemanticMatching{publicstaticvoidmain(String[]args){//定义字符串集合ListstringCollection=Arrays.asList("Whereistherestroom?","Canyout
《揭秘AI语音助手：从“听”到“说”的智能之旅》人工智能深度学习
在当今数字化时代，AI语音助手已成为我们生活和工作中的得力伙伴。无论是苹果的Siri、亚马逊的Alexa，还是国内的小爱同学、小度等，它们能轻松执行指令，如查询天气、播放音乐，甚至陪我们聊天解闷。但你是否想过，这些语音助手是如何听懂我们的话语，又如何给出恰当回应的呢？今天，就让我们深入探索AI语音助手背后的技术原理。自动语音识别（ASR）：让机器“听懂”人类语言自动语音识别（AutomaticSp
人工智能与机器学习入门：基尼系数（Gini Index）和基于熵（Entropy）基尼系数基于熵机器学习入门
在决策树应用一文中，在构建决策分类树应用决策算法时，介绍了基尼系数（GiniIndex）和基于熵（Entropy）两种算法。本文通过实例来更加深入的介绍一下这两个算法。仍然以简单的数据为例：id喜欢颜色是否有喉结身高性别1绿否165女2蓝是170男3粉否172女4绿是175男基尼系数分别对喜欢颜色是否有喉结求基尼系数如下：喜欢的颜色id喜欢颜色性别1绿女2蓝男3粉女4绿男对于姓别女分类而言，数据如
java 实现TextRank算法提取文章摘要 melck java 算法开发语言
在Java中，常用的文章摘要提取库是“TextRank”算法。该算法从文本中提取主题和段落，并根据主题和文本中的单词计算权重。使用TextRank实现文章摘要提取具体步骤如下：寻找文章中的关键句子：首先需要分割出文章中的句子，可以使用分词库将文章拆分成句子，然后使用TextRank算法找到文章中与主题相关的句子，这些句子通常包含有标题、关键字等。计算句子的权重：针对关键句子，需要对每个句子计算权重
AI 如何接口调试？可以展示推理过程人工智能深度学习机器学习
如何在开发AI接口的同时，能看到实时的AI回复，避免传统的轮询方式，而无需长时间等待。常用的AI模型（比如Deepseek、Gemini）都是支持流式输出，那有没有一款API接口软件可以实现这功能？近期Apifox增强了调试SSE接口功能，实现了发起HTTP请求流式响应就会自动合并为可读文本，实时以自然语言呈现响应。而且针对Deepseek还能展示思考推理过程！这大大降低AI应用开发难度，有图为证
FakeApp 技术浅析（一）爱研究的小牛 AIGC—深度伪造虚拟现实人工智能 AIGC 深度学习机器学习
FakeApp是一款早期的深度伪造（Deepfake）工具，最初于2018年发布，用于生成和编辑换脸视频。尽管FakeApp已经不再更新，但它在深度伪造技术的发展中起到了重要作用。1.技术背景与理论基础1.1生成对抗网络（GANs）生成对抗网络（GANs）是深度学习领域中的一种重要模型，由生成器（Generator）和判别器（Discriminator）组成。生成器负责生成逼真的数据（如图像、视频
C语言学习记录——BC61 牛牛的二三七整除曾浩轩 C语言学习记录学习 c语言
牛牛的二三七整除_牛客题霸_牛客网(nowcoder.com)#includeintmain(){inta;//定义我们要输入的整数scanf("%d",&a);//输入整数if(a%2==0)//a%2==0说明a能被2整除{printf("2");//输出2空，因为a有可能还会被3和7整除，但输出中格式显示每个数字是间隔的}//并且要升序输出，所以先判断能否被2整除，再判断能否被3整除，最后是
图论篇--代码随想录算法训练营第五十七天打卡| 最小生成树问题無量空所 leetcode 算法图论数据结构 c++学习
题目链接：53.寻宝（第七期模拟笔试）题目描述：在世界的某个区域，有一些分散的神秘岛屿，每个岛屿上都有一种珍稀的资源或者宝藏。国王打算在这些岛屿上建公路，方便运输。不同岛屿之间，路途距离不同，国王希望你可以规划建公路的方案，如何可以以最短的总公路距离将所有岛屿联通起来（注意：这是一个无向图）。给定一张地图，其中包括了所有的岛屿，以及它们之间的距离。以最小化公路建设长度，确保可以链接到所有岛屿。解题
DeepSeek 赋能工业软件之全流程方案爱吃青菜的大力水手人工智能自动化持续部署语言模型开源
deepseek赋能工业软件之全流程方案之侧重半导体FABdeepseek在工业软件中的应用场景“deepseek”大模型在工业软件领域拥有广泛的应用场景，包括以下几个方面：智能调度：利用深度学习和优化算法，根据实时数据动态调整生产计划和资源分配。它可以综合考虑订单需求、设备状态和产能限制，智能生成最优的生产排程方案，减少等待时间和切换成本。例如在汽车制造工厂，deepseek可根据订单需求和设备
动态规划之背包问题的Python实现名侦探debug Python 数据结构 python 数据结构动态规划求解
目录1.问题描述2.动态规划之网格法3.python实现1.问题描述题目来源于《算法图解》第9章练习题9.2，如下图所示。对于背包问题，通常的做法有列举法、贪婪算法和动态规划（1）列举法：列举出所有的可能情况，再选择最优解，但当情况很多时，这种算法复杂度很高（2）贪婪算法：在容量允许范围内，每次都拿剩余物品中价值最高的，贪婪算法能够快速解决复杂度很高的问题，但通常得到的是次优解，但就对这个题目而言
OpenAI 深度研究与 Gemini 深度研究：哪个更好？知识小报童 DeepSeek 人工智能深度学习机器学习神经网络自然语言处理语言模型 AIGC
目录*什么是OpenAI深度研究？**OpenAI深度研究的关键特性：**OpenAI深度研究的应用：**使用案例：**什么是Gemini深度研究？**Gemini深度研究的关键特性：**Gemini深度研究的应用：**使用案例：**Gemini2.0Flash：增强性能**可用性：**OpenAI深度研究与Gemini深度研究：详细比较**OpenAI深度研究与Gemini深度研究之间的关键区别
数据挖掘十大经典算法详解（附原理解析与代码示例） IT程序媛-桃子华为认证数据挖掘算法经验分享华为
1.PageRank（链接分析）应用场景：搜索引擎排名、社交网络分析核心原理PageRank通过网页之间的链接关系计算网页的重要性，影响力大的网页排名更高。网页影响力=所有入链页面的加权影响力之和阻尼因子D（通常设为0.85）用于模拟用户随机访问网页的行为代码示例importnetworkxasnxG=nx.DiGraph()G.add_edges_from([("A","B"),("A","C"
大学生学完python靠几个接单网站兼职，实现经济独立「已注销」 python 开发语言
大学生学完python靠几个接单网站兼职，实现经济独立程序员就是当今时代的手艺人，程序员可以通过个人的技术来谋生。而在工作之余接私单可以作为一种创富的途径，受到程序员的广泛认可。说句实在话，现在这个时代，很多人仅靠主业顶多维持基本生活，想让自己、家人生活好一点很难。我接的私活并不算多，加起来也就几万左右，只能算一半，我想把一些经验分享出来，毕竟现在生活都不容易，能赚一点是一点。一、程序员接活、新手
【练习】【二分】力扣热题100 34. 在排序数组中查找元素的第一个和最后一个位置柠石榴输入输出力扣 hot100 leetcode 算法 c++二分
题目给你一个按照非递减顺序排列的整数数组nums，和一个目标值target。请你找出给定目标值在数组中的开始位置和结束位置。如果数组中不存在目标值target，返回[-1,-1]。你必须设计并实现时间复杂度为O(logn)的算法解决此问题。示例1：输入：nums=[5,7,7,8,8,10],target=8输出：[3,4]示例2：输入：nums=[5,7,7,8,8,10],target=6输出
AI 大模型：Intelligent Agent—— 开启智能新纪元 AI-入门人工智能学习产品经理面试 agi
在LLM语境下，Agent理解为在某种能自主理解、规划决策、执行复杂任务的智能体，LLM充当着智能体的“大脑”。从软件工程的角度，智能体是一种基于大语言模型的，具备规划思考能力、记忆能力、使用工具函数的能力，能自主完成给定任务的计算机程序。在基于LLM的智能体中，LLM的充当着智能体的“大脑”的角色，同时还有3个关键部分：规划（Planning）:智能体会把大型任务分解为子任务，并规划执行任务的流
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache

使用NLP预测电影类型 - 多标签分类

Introduction

目录

多标签分类简介

Setting up our Multi-Label Classification Problem Statement

About the Dataset

Our Strategy to Build a Movie Genre Prediction Model(构建电影类型预测模型的策略)

唯一标签= [t1，t2，t3，t4，t5]

Implementation：使用多标签分类构建电影类型预测模型（Python）

导入所需的库

Load Data

数据探索和预处理

Output:

Output:

Output:

Output:

Output:

将文本转换为函数

Build Your Movie Genre Prediction Model

Output:

Output:

Output:

Create Inference Function

从这往哪儿走？

End Notes

你可能感兴趣的:(数据科学,AI程序员,算法,机器学习,自然语言处理,深度学习)