little fly

构建影视圈知识图谱与问答系统

构建影视圈知识图谱与问答系统

1 影视圈数据梳理
- 1.1 数据导入neo4j知识图谱中
- 1.2 构建数据类型
- 1.3 构建训练集、验证集
2 意图识别
- 2.1 模型介绍
- 2.2 模型搭建与训练
3 问答系统
- 3.1 查询语句
- 3.2 问答实例

1 影视圈数据梳理

原数据形式：
1.电影类型

2.演员介绍

3.电影介绍

1.1 数据导入neo4j知识图谱中

# -*- coding: utf-8 -*-
from py2neo import Graph, Node, Relationship, NodeMatcher
import json
from tqdm import tqdm
import pandas as pd
import csv


graph = Graph('http://localhost:7474', username='******', password='******')
matcher = NodeMatcher(graph)


def create_node(_graph, _type, _name):
    node = Node(_type)
    node['name'] = _name
    _graph.create(node)
    return node


def create_node_all(_graph, _type, _name, operation):
    node = Node(_type)
    node['name'] = _name
    node['operation'] = operation
    _graph.create(node)
    return node


def create_rel(node1, node2, _graph, rel):
    relation = Relationship(node1, rel, node2)
    _graph.create(relation)



# 建立Genre
with open(r"C:\Users\Administrator\Desktop\csv\csv\genre.csv", 'r', encoding='utf-8') as f:
    reader = csv.reader(f)
    for row in reader:
        if len(row) != 2 or row[0] == 'gid':
            continue
        gid, gname = row
        print(int(gid), gname)

        node = Node('Genre')
        node['name'] = gname
        node['gid'] = str(gid)
        graph.create(node)


# 建立movie
with open(r"C:\Users\Administrator\Desktop\csv\csv\movie.csv", 'r', encoding='utf-8') as f:
    reader = csv.reader(f)
    for row in reader:
        if len(row) != 5 or row[0] == 'mid':
            continue
        mid, title, introduction, rating, releasedate = row
        print(int(mid), title, introduction, rating, releasedate)

        node = Node('Movie')
        node['name'] = title
        node['mid'] = str(mid)
        node['introduction'] = introduction
        node['rating'] = str(rating)
        node['releasedate'] = str(releasedate)
        graph.create(node)


# 建立person
with open(r"C:\Users\Administrator\Desktop\csv\csv\person.csv", 'r', encoding='utf-8') as f:
    reader = csv.reader(f)
    for row in reader:
        if len(row) != 6 or row[0] == 'pid':
            continue
        pid, birth, death, name, biography, birthplace = row
        print(int(pid), birth, death, name, biography, birthplace)
        node = Node('Person')
        node['name'] = name
        node['pid'] = str(pid)
        node['birth'] = str(birth)
        node['death'] = str(death)
        node['biography'] = biography
        node['birthplace'] = birthplace
        graph.create(node)

# 建立movie_to_genre
with open(r"C:\Users\Administrator\Desktop\csv\csv\movie_to_genre.csv", 'r', encoding='utf-8') as f:
    reader = csv.reader(f)
    for row in reader:
        if len(row) != 2 or row[0] == 'mid':
            continue
        mid, gid = row
        mid = str(int(mid))
        gid = str(int(gid))
        print(mid, gid)
        genre = matcher.match('Genre', gid=gid).first()
        movie = matcher.match('Movie', mid=mid).first()
        if genre and movie:
            create_rel(movie, genre, graph, 'belong')

# 建立person_to_movie
with open(r"C:\Users\Administrator\Desktop\csv\csv\person_to_movie.csv", 'r', encoding='utf-8') as f:
    reader = csv.reader(f)
    for row in reader:
        if len(row) != 2 or row[0] == 'pid':
            continue
        pid, mid = row
        pid = str(int(pid))
        mid = str(int(mid))
        print(pid, mid)
        person = matcher.match('Person', pid=pid).first()
        movie = matcher.match('Movie', mid=mid).first()
        if person and movie:
            create_rel(person, movie, graph, 'play')

图数据库展示：

1.2 构建数据类型

对影视圈的数进行分类，一共分类9类，如下：

[
    {
        "参与": 0,
        "评分": 1,
        "出生": 2,
        "风格": 3,
        "上映": 4,
        "出演": 5,
        "总数": 6,
        "介绍": 7,
        "合作": 8
    },
    {
        "0": "参与",
        "1": "评分",
        "2": "出生",
        "3": "风格",
        "4": "上映",
        "5": "出演",
        "6": "总数",
        "7": "介绍",
        "8": "合作"
    }
]

每种类别都设计了对应的问题类型，如下：

{
    "评分": [
        "nm得了多少分",
        "nm的评分有多少",
        "nm电影分数是多少",
        "nm评分",
        "nm的分数是多少"
    ],
    "上映": [
        "nm什么时候上映",
        "nm时间",
        "nm上映时间",
        "nm什么时候首映",
        "什么时候可以在影院看到nm",
        "nm什么时候首播"
    ],
    "风格": [
        "nm的风格是什么",
        "nm是什么风格的电影",
        "nm是什么类型的电影",
        "nm是什么类型的"
    ],
    "剧情": [
        "nm的剧情是什么",
        "nm主要讲什么内容",
        "nm的剧情简介",
        "nm的主要情节",
        "nm的情节梗概",
        "nm简介"
    ],
    "参与": [
        "nm有哪些演员出演",
        "谁参与了nm",
        "nm有哪些演员出演",
        "nm都有谁参与",
        "nm是由哪些人演的",
        "nm这部电影的演员都有哪些"
    ],
    "简介": [
        "nnt",
        "nnt是",
        "nnt是谁",
        "nnt的简介",
        "谁是nnt",
        "nnt的信息"
    ],
    "出生": [
        "nnt的出生日期",
        "nnt的生日",
        "nnt的出生是什么时候",
        "nnt生日是什么时候",
        "nnt出生于哪一天",
        "nnt在哪出生"
    ],
    "出演": [
        "nnt演过什么电影",
        "nnt演过哪些电影",
        "nnt出演的电影",
        "nnt的作品",
        "nnt参与过电影",
        "nnt有哪些电影"
    ],
    "总数": [
        "nnt一共参演过多少电影",
        "nnt演过多少部电影",
        "nnt参演的电影有多少"
    ],
    "合作": [
        "nnt和nnr合作的电影有哪些",
        "nnt和nnr一起演过哪些电影",
        "nnt和nnr一起演过什么电影",
        "nnt、nnr一起演过哪些电影",
        "nnt和nnr合作了哪些电影",
        "nnt和nnr合拍过哪些电影"
    ]
}
# 其中nm-->电影
# 其中nnt-->演员
# 其中nnr-->演员

1.3 构建训练集、验证集

按照上述的模板生成数据集如下格式（总共67000条数据）：

英雄得了多少分	评分
英雄什么时候上映	上映
英雄的风格是什么	风格
英雄简介	介绍
英雄有哪些演员出演	参与
英雄这部电影的演员都有哪些	参与
谁是古巨基	介绍
古巨基的出生日期	出生
古巨基演过什么电影	出演
古巨基一共参演过多少电影	总数
古巨基和陈建斌合作的电影有哪些	合作

其实也可以直接训练问题模板，然后再意图识别（问题分类）的时候将实体去除

2 意图识别

这对于影视问答的类型有限，使用本次使用的意图识别模型是文本分类模型

2.1 模型介绍

借鉴了苏神（苏剑林）的bert4keras，使用bert预训练模型，尾部添加一个softmax分类器就ok了

2.2 模型搭建与训练

模型代码：

# 加载预训练模型
bert = build_transformer_model(
    config_path=config_path,
    checkpoint_path=checkpoint_path,
    with_pool=True,
    return_keras_model=False,
)

output = Dropout(rate=0.1)(bert.model.output)
output = Dense(
    units=10, activation='softmax', kernel_initializer=bert.initializer
)(output)

model = keras.models.Model(bert.model.input, output)
model.summary()

model.compile(
    loss='sparse_categorical_crossentropy',
    optimizer=Adam(2e-5),  # 用足够小的学习率
    metrics=['accuracy'],
)

model.fit(
        train_generator.forfit(),
        steps_per_epoch=len(train_generator),
        epochs=10,
        callbacks=[evaluator]
    )

3 问答系统

使用flask部署模型，将模型与neo4j联系起来构成问答系统

3.1 查询语句

iftype == '风格':
	for word inkeyword:
	    sql = r'match (n:Movie{name:"' + word + r'"})-[r:belong]->(m)  return m.name'
	    out_data = self.graph.run(sql).data()
elif type == '上映':
    for word in keyword:
        sql = r'match (n:Movie{name:"' + word + r'"})  return n.releasedate'
        out_data = self.graph.run(sql).data()
elif type == '出演':
    for word in keyword:
        sql = r'match (n:Person{name:"' + word + r'"})-[r:play]->(m)  return m.name'
        out_data = self.graph.run(sql).data()
......
....

3.2 问答实例

直接看效果：

本项目（影视圈问答系统git库）链接：https://github.com/Fly97/NLP/tree/main/movies
@misc{bert4keras,
title={bert4keras},
author={Jianlin Su},
year={2020},
howpublished={\url{https://bert4keras.spaces.ac.cn}},
}

你可能感兴趣的:(知识图谱,tensorflow,nlp,hilbert,transform)

CCF CSP 第30次（2023.05）（2_矩阵运算_C++）（暴力破解）(矩阵相乘) Dream it possible！ CCF CSP认证矩阵 c++算法
CCFCSP第30次（2023.05）（2_矩阵运算_C++）题目背景：题目描述：输入格式：输出格式：样例输入样例输出：样例解释：子任务：提示：解题思路：思路一（暴力破解）：代码实现代码实现：部分代码解读时间限制：5.0s空间限制：512.0MB题目背景：Softmax(Q×KT/√d)×V是Transformer中注意力模块的核心算式，其中Q、K和V均是n行d列的矩阵，KT表示矩阵K的转置，×表
大语言模型（LLMs）全面学习指南（非常详细）零基础入门到精通，收藏这一篇就够了网络安全大白科技程序员人工智能语言模型人工智能自然语言处理
大语言模型（LLMs）作为人工智能（AI）领域的一项突破性发展，已经改变了自然语言处理（NLP）和机器学习（ML）应用的面貌。这些模型，包括OpenAI的GPT-4o和Google的gemini系列等，已经展现出了在理解和生成类人文本方面的令人印象深刻的能力，使它们成为各行各业的宝贵工具。如下这份指南将涵盖LLMs的基础知识、训练过程、用例和未来趋势……一.WhatareLargeLanguage
Python API接口君王的羔羊 Python AI python
人工智能机器人EverydayWechat老李API图灵机器人：http://www.turingapi.com/（需求实名制认证，并每天免费数量只有100条）青云客智能聊天机器人：http://api.qingyunke.com/（无须申请，无数量限制，但有点智障，分手神器。分手神器，慎用）智能闲聊（腾讯）：https://ai.qq.com/product/nlpchat.shtml(申请使用
PyWavelets（pywt）安装与使用指南贾雁冰
PyWavelets（pywt）安装与使用指南项目地址:https://gitcode.com/gh_mirrors/pyw/pywtPyWavelets是一个用于离散小波变换（DiscreteWaveletTransform,DWT）和连续小波变换（ContinuousWaveletTransform,CWT）的Python库。该库广泛应用于信号处理、图像分析以及数据压缩等领域。以下是基于提供的
自然语言处理（NLP）技术介绍风吹晚风悠 gpt 人工智能 nlp 自然语言处理
自然语言处理（NLP）是一种涉及计算机和人类语言之间交流的技术。NLP技术可以应用于多个领域，例如机器翻译、情感分析、文本分类、问答系统等。以下是一些NLP技术的示例：机器翻译：NLP技术可用于将一个语言的文本自动翻译成另一个语言。例如，GoogleTranslate和百度翻译等在线翻译工具就使用了NLP技术。情感分析：NLP技术可用于分析文本中的情感和情感倾向。这可以帮助企业了解公众对其产品或服
基于Transformer的医学文本分类：从BERT到BioBERT Evaporator Core 人工智能 #深度学习 #DeepSeek快速入门 transformer 分类 bert
随着自然语言处理（NLP）技术的快速发展，Transformer模型在文本分类、情感分析、机器翻译等任务中取得了显著成果。在医学领域，文本数据（如电子病历、医学文献、临床报告）具有高度的专业性和复杂性，传统的NLP方法往往难以处理。Transformer模型，尤其是BERT及其变体，通过预训练和微调的方式，能够有效捕捉医学文本中的语义信息，为医学文本分类提供了强大的工具。本文将探讨Transfor
TF-IDF：文本挖掘中的关键词提取利器巷955 tf-idf
引言在自然语言处理（NLP）和文本挖掘中，TF-IDF是一种常用的技术，用于评估一个词在文档中的重要性。它不仅在信息检索领域广泛应用，还在文本分类、关键词提取等任务中发挥着重要作用。本文将详细介绍TF-IDF的原理，并通过一个实际的代码示例来展示如何使用TF-IDF从《红楼梦》中提取核心关键词。1.什么是TF-IDF？TF-IDF是一种统计方法，用于评估一个词在文档中的重要性。它由两部分组成：-T
从零到一：Transformer模型的原理与实战之旅樽酒ﻬق AI transformer 深度学习人工智能
目录从零到一：Transformer模型的原理与实战之旅1.Transformer原理简介1.1什么是Transformer？1.2自注意力机制的核心1.3Transformer的结构2.实战：构建Transformer模型2.1任务目标2.2环境准备2.3数据准备2.4模型构建2.5模型训练3.推理实战：完整示例与输出结果3.1完整推理代码3.2代码解析4.原理与代码的结合4.1自注意力机制的实
数据分析及人工智能框架汇总 xihuanyuye 机器学习
一、数据分析二、人工智能1、Tensorflow1、简介TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统，其命名来源于本身的运行原理。Tensor（张量）意味着N维数组，Flow（流）意味着基于数据流图的计算，TensorFlow为张量从流图的一端流动到另一端计算过程。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统。Tenso
AI 之路——数据分析（1）Pandas小结与框架整理 Robin_Pi 机器学习之路数据分析数据分析 python 人工智能可视化
目录1.写在前面1.1AI之路：1.2工具/技能：2.数据分析2.1数据分析的流程2.2数据的基本操作方法2.2.1Pandas概览2.2.2使用Pandas操作数据的核心(1)选择数据(2)操作数据2.2.2数据详解3.写在最后1.写在前面主要是阶段性框架总结1.1AI之路：数据分析——机器学习——深度学习——CV/NLP1.2工具/技能：Python、NumPy、Pandas、Matplotl
Unity 使UI始终朝向摄像机程序员也有头发 Unity开发 unity ui 游戏引擎
一、使用场景在一些情况下我们需要UI朝向摄像机，比如血条。二、遇到的问题首先想到的方法是：transform.forward=cam.transform.forward;但是当相机的X轴旋转超过90度时，UI的X轴和Y轴会发生反转。三、解决方案所以解决方案是使Camera的up方向为向上方向，代码为：usingSystem.Collections;usingSystem.Collections.G
Unity 扩展方法程序员也有头发 Unity开发 unity 游戏引擎游戏程序
比如我们要给transform做还原方法publicstaticclassExtensionMethod{publicstaticvoidResetTransformation(thisTransformtrans){trans.position=Vector3.zero;trans.localRotation=Quaternion.identity;trans.localScale=Vector
Unity插件-Mirror使用方法（十四）组件介绍（KCP Transport）一颗橘子宣布成为星球 Unity Mirror网络同步框架 unity 游戏引擎
目录一、插件介绍二、主要组件NetworkManagerNetworkManagerHUDNetworkIdentityNetworkTransformNetworkAnimatorNetworkBehaviourNetworkStartPositionNetworkRoomManagerNetworkRoomPlayerNetworkDiscoveryNetworkAuthenticators三
普通人如何利用GPT赚钱之开发虚拟助手贫苦游商普通人利用AI搞钱系列 gpt 人工智能深度学习机器人 AIGC
普通人如何利用GPT赚钱之开发虚拟助手随着人工智能技术的迅猛发展，GPT（GenerativePre-trainedTransformer）作为一种强大的语言模型，正在改变我们的生活和工作方式。普通人如何利用GPT赚钱？开发虚拟助手是一个极具潜力的方向。本文将探讨如何开发虚拟助手，以及如何通过这一技术实现经济收益。什么是虚拟助手虚拟助手是一种基于人工智能的技术，能够理解自然语言并执行特定任务。它们
大模型（DeepSeek等）是否会动摇AI工程师的工作？点我头像干啥 Ai 深度学习人工智能 AI编程计算机视觉
引言近年来，人工智能（AI）领域取得了突飞猛进的发展，尤其是大模型（如GPT-3、BERT、DeepSeek等）的出现，极大地推动了自然语言处理（NLP）、计算机视觉（CV）等领域的进步。大模型凭借其强大的泛化能力和广泛的应用场景，逐渐成为AI领域的核心技术之一。然而，随着大模型的普及，一个备受关注的问题浮出水面：大模型是否会动摇AI工程师的工作？本文将从多个角度探讨这一问题，分析大模型对AI工程
【大模型学习】第十五章 Transformer技术看这一篇就足够了好多渔鱼好多 AI大模型 transformer 深度学习 AI 人工智能大模型
目录一、引言二、Transformer起源背景1.从"健忘症"到"过目不忘"的进化之路三、一个简单的例子让你理解什么是Transformer四、技术要点与底层原理1.自注意力机制（Self-Attention）1.1什么是自注意力？1.1.1如何计算查询（Query）、键（Key）和值（Value）：1.1.2缩放点积注意力（ScaledDot-ProductAttention）1.1.3两个生活
深度学习 bert与Transformer的区别联系 Humingway 深度学习 bert transformer
BERT（BidirectionalEncoderRepresentationsfromTransformers）和Transformer都是现代自然语言处理（NLP）中的重要概念，但它们代表不同的层面。理解这两者之间的区别与联系有助于更好地掌握它们在NLP任务中的应用。TransformerTransformer是一种特定的深度学习模型架构，由Vaswani等人在2017年的论文《Attenti
【自学笔记】讯飞星火基础知识点总览-持续更新 Long_poem 笔记
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录讯飞星火基础知识点总览一、讯飞星火简介二、核心功能1.语音识别2.自然语言处理3.知识图谱4.星火API三、基础概念1.AI模型2.数据处理3.交互方式四、应用场景示例1.办公场景2.学习场景3.生活场景五、总结总结讯飞星火基础知识点总览一、讯飞星火简介讯飞星火是科大讯飞推出的一款强大的AI技术平台，它集成了语音识别、自然语言
从零开始大模型开发与微调：编码器的实现 AI天才研究院计算 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
从零开始大模型开发与微调：编码器的实现作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：自然语言处理，大模型，Transformer架构，编码器模块，序列到序列学习文章目录从零开始大模型开发与微调：编码器的实现1.背景介绍1.1问题的由来1.2研究现状1.3研究意义1.4本文结构2.核心概念与联系2.1编码器模块简介2.2编码器与Transfo
QwQ-32B企业级本地部署：结合XInference与Open-WebUI使用大势下的牛马搭建本地gpt RAG 知识库人工智能 QwQ-32B
QwQ-32B是阿里巴巴Qwen团队推出的一款推理模型，拥有320亿参数，基于Transformer架构，采用大规模强化学习方法训练而成。它在数学推理、编程等复杂问题解决任务上表现出色，性能可媲美拥有6710亿参数的DeepSeek-R1。QwQ-32B在多个基准测试中表现出色，例如在AIME24基准上，其数学问题解决能力得分达到79.5，超过OpenAI的o1-mini。它在LiveBench、
【大模型新书】基于RAG的生成式AI：使用LlamaIndex、Deep Lake和Pinecone构建自定义的检索增强生成管道 AI大模型-大飞人工智能大模型学习 AI产品经理语言模型大模型 RAG 大模型教程
书籍简介最小化AI幻觉，构建准确的自定义生成式AI管道，利用嵌入式向量数据库和集成的人类反馈来实现检索增强生成（RAG）购买本书的纸质版或Kindle版即包含免费的PDF格式电子书主要特点实现RAG的可追溯输出，将每个响应与其源文档链接，构建可靠的多模态对话智能体在管道中集成RAG、实时人类反馈改进和知识图谱，交付准确的生成式AI模型在动态检索数据集与微调静态数据之间平衡成本与性能书籍描述基于RA
PyTorch深度学习框架进阶学习计划 - 第21天：自然语言处理基础凡人的AI工具箱深度学习 pytorch 学习人工智能 AI编程 AIGC 自然语言处理
PyTorch深度学习框架进阶学习计划-第21天自然语言处理基础今天我们将深入学习自然语言处理(NLP)的基础概念，重点关注词嵌入技术、序列建模原理以及主流模型之间的区别和优缺点。通过理解这些基础知识，你将能够更好地应用PyTorch构建NLP应用。1.词嵌入原理与实现词嵌入(WordEmbeddings)是NLP中的核心概念，它将单词映射到连续向量空间，使得语义相似的词在向量空间中距离较近。为什
第81期 | GPTSecurity周报 aigc网络安全
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.大语言模型与代码安
AI基于深度学习的代码搜索案例（一）人工智能MOS 人工智能深度学习机器学习
1.背景近年来，人工智能逐渐进入各个领域并展现出了强大的能力。在计算机视觉领域，以ImageNet为例，计算机的图像分类水平已经超过了人类。在自然语言处理(NLP)领域，BERT、XLNet以及MASS也一遍遍的刷新着任务榜单。当人工智能进入游戏领域，也取得了惊人的成绩，在Atari系列游戏中，计算机很容易超过了大部分人类，在围棋比赛中，AlphaGo和AlphaZero也已经超越了人类顶尖棋手。
Neo4j笔记整理CQL大全 Kugua-F Neo4j Neo4j 图形数据库
工作需要用到知识图谱，学习一下Neo4jCQL常规操作查询关系的父节点match(n)-[r:likes]-()returnn查询节点名称为person的前25条结点记录和查询后25条结点记录match(n:Person)returnnlimit25match(n:Person)returnnskip25查询结点名称为personage=12的所有结点match(n:Person)wheren.a
基于多模态大模型的不完整多组学数据特征选择策略 m0_65156252 人工智能
基于多模态大模型的不完整多组学数据特征选择策略是当前生物信息学和精准医学领域的一个前沿问题。在多组学数据中，通常包括不同层次的生物信息（如基因组、转录组、蛋白质组、代谢组等），这些数据通常存在缺失、噪声或不一致的情况。因此，如何有效地在这些不完整的数据中进行特征选择，是实现精确疾病预测和个性化治疗的关键。结合多模态大模型（如自监督学习、图神经网络、Transformer等）可以有效解决这一问题。以
通信行业语言大模型技术和应用研究人工智能-猫猫学习 AIGC 语言模型人工智能
摘要ChatGPT的出现迅速引爆了AI的又一波热潮。在通信行业中，网络规划、建设、维护、优化、运营是非常耗时、复杂且需要大量人力成本的工作。语言大模型在通信运营商中有着非常广阔的应用前景。阐述了语言大模型开发的基本技术方案及原理并对其在通信行业的应用进行了研究与展望。前言ChatGPT的出现迅速引爆了AI的又一波热潮。作为一种人工智能技术驱动的语言大模型，ChatGPT使用了Transformer
DeepSeek在供热行业中的应用杨航 AI 人工智能深度学习 python 机器学习算法
目录引言1.1DeepSeek技术概述1.2供暖行业业务挑战1.3DeepSeek在供暖行业的应用前景DeepSeek技术基础2.1深度学习与机器学习2.2自然语言处理（NLP）2.3图像识别与处理2.4数据挖掘与分析供暖行业应用场景3.1设备监控与维护3.1.1设备状态监控3.1.2故障预测与诊断3.1.3维护计划优化3.2能源管理与优化3.2.1能耗数据分析3.2.2热负荷预测3.2.3节能优
应用商店评论分析实战：Python逆向工程破解Google Play加密接口与NLP建模西攻城狮北物联网 python 爬虫实战案例
一、项目概述在移动互联网时代，应用商店中的用户评论成为了开发者优化应用、提升用户体验的重要依据。然而，GooglePlay等应用商店对评论数据进行了加密处理，直接爬取难度较大。本文将介绍如何使用Python逆向工程破解GooglePlay的加密接口，实现对应用商店评论的实时采集，并结合NLP（自然语言处理）技术进行情感分析和主题建模，为开发者提供有价值的数据支持。二、技术选型（一）Python逆向
[Base]DIFFERENTIAL TRANSFORMER Xy-unu transformer 深度学习人工智能
1.BaseInfoTitleDIFFERENTIALTRANSFORMERAdresshttps://arxiv.org/pdf/2410.05258Journal/Time202410Author微软研究院和清华大学提出Codehttps://aka.ms/Diff-TransformerRead2411112.CreativeQ&A减少对无关上下文的关注；通过计算两个Softmax注意力权重
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他