叶落叶子

知识图谱2-知识表示

知识表示的重要性
- 知识是智能的基础
  - 机器可以获得知识
  - 机器可以运用知识
- 符合计算机要求的知识模式
  - 计算机能存储处理的知识表示模式
  - 数据结构
ER模型+Sql与RDF模型+SPARQL对比
- 关系模型
  - 关系显式定义（RDF)
  - 关系隐式定义(ER)(理解后写出来的表
- 数据变更时
  - RDF--数据变更可以很容易实现
  - ER--要加表了，sql语句也要更改
- 数据智能性如何体系那？
  - 图加点和边很容易
典型知识项目的知识表示
- 总结
- DBPedia
  - 本体层使得知识图谱的描述更规范且可推理
  - 数据层使得抽取和构建更方便
  - 对于专业领域知识图谱，会先定义本体层，然后依据约束来提升数据质量
- YAGO2
- Freebase
  - 有CVT--可以多元关系
- Wikidata
  - 多元关系
- ConceptNet5
  - 允许自然语言（句子模板+三元关系）
  - 多元关系
- NELL
实用的知识表示：
- 同时为人和机器设计
- 表达能力够用就好，不苛求逻辑的完备性
- 易于扩展，能够非常方便的增加新的类、实体和关系
- 是数据模型：不少商业化的知识图谱未采用RDF/OWL--还是用关系数据库实现，但可与RDF/OWL做对应
Protege使用（知识图谱的实例）
- 用于本体构建的软件
- https://protege.stanford.edu/products.php
- https://webprotege.stanford.edu/#projects/dfa2f55b-84c3-4f7b-a256-3a6639f57b9f/edit/Changes%20by%20Entity?selection=Class(%3Chttp://www.semanticweb.org/ontologies/2017/9/untitled-ontology-2%23%E5%A5%B3%E4%BA%BA%3E)
知识的特性
- 相对正确性
- 不确定性
- 可表示性
- 可利用性
知识表示
- 定义
  - 对事物本身的替代---可以通过思考，不用行动，确定事物的来龙去脉前因后果
  - 是本体约定（ontological commitment）的集合
    - 用什么术语（terms）
      羊叫羊？
- 方法
  - 自然语言（最广泛，对人友好
  - 符号表示方法 @符号知识表示
    - 谓词逻辑（一阶谓词逻辑
      https://blog.csdn.net/weixin_40485502/article/details/103874579https://blog.csdn.net/weixin_40485502/article/details/103872864
      - 谓词：
        
        词组，
        
        用途：描述对象属性、或对象间关系
      - 命题
        
        谓词--用于其一个term元祖
        
        表示：一个属性或objects之间的关系
        
        Brother(John,Fred)
        
        Left-of(Square1,Square2)
        
        语义：在特定场景（interpretation中的真假值
        
        复杂命题：通过逻辑连词构建
        
        量词：全称量词和存在量词--
        
        目标：无需枚举
        
        TBox:内涵知识
        
        引入概念以及关系的名称
        
        声明包含关系的公理
        
        ABox：外延知识又称断言知识，描述论域中特定个体
    - 语义网（semantic net
      - 启发idea
        
        人脑记忆：信息片段的连接
        
        相关概念好回忆
      - 是通过语义关系连接的概念网络(语义关联）
      - 表示为：相互连接的：节点-弧-节点
        
        节点---实体、属性、事件、值
        
        边---关系
        
        Is-A属于一类
        
        instance-Of实例
        
        part-Of 部分
        
        Modifiles: on /down/up/bottom/moveto……
        
        领域特定关系
        
        医疗：症状、治疗、病因……
        
        金融：收购、持有、母公司……
        
        示例
    - 框架
      - 思想：以框架记忆，新事物=框架+补充
      - 表示
        
        Frame：一个典型知识---
        
        slot的集合---》
        
        表名其与框架相关的对象
        
        可以是其他frame/Procedure/slot
        
        槽名(slot names
        
        槽值（slot fillers
        
        约束
        
        两类Frame
        
        类Frame--面向对象中的Class-----subclass_of->Class Frame(父类）---可继承默认属性
        
        实例--Object---instance_of->Class Frame
        
        Slots---variables/methods
      - 分类
        
        静态的
        
        动态的
        
        过程性的
    - 脚本--剧本/函数
      - 与框架类似
      - 是描述特定上下文中原型事件的序列的结构化表示
      - 一组槽---特定领域内一组事件的发生序列
        
        一组紧密相关的动作
        
        改变状态的框架
      - 组成元素
        
        进入条件
        
        进入的前提
        
        变量
        
        角色
        
        出现人物的槽
        
        道具
        
        出现物体的槽
        
        代码--场景
        
        事件发生的顺序
        
        一个时间--多个场景
        
        每个场景--可以使其他脚本
        
        输出--结局
        
        事件发生的结果
      - 示例
    - 逻辑程序
    - 缺省逻辑
    - 模态逻辑
    - 语义网（semantic web--语义外
      - 数据万维网
        
        目标-使万维网变成全球开放知识共享平台
        
        技术：语义网
        
        目标
        
        在web上发布结构化数据
        
        在不同数据源的数据之间建立链接
        
        提供了一套描述数据而设计的表示语言和工具，---用于形式化地描述一个知识领域的概念、术语和关系
        
        HTML--文档间关系
        
        描述事物间关系
        1.用URI统一资源标识符--事物的名字2.查看URI时，提供有用的信息，用RDF、SPARQL标准
        
        RDF
        
        代表含义
        
        R-页面图片视频等任何具有urI标识符
        
        D：属性特性和资源之间的关系
        
        F:模型语言和这些描述的语法
        
        表述对象（web sources)间关系的简单语言
        
        三元组：（subject，predicate，object)主谓宾---陈述对象的知识、对象间带类别的关系
        
        图模型：变成点-边
        
        图
        
        可简化
        
        可定义为字符串
        
        可定义类型
        
        是通用模型，可有多种格式
        
        XML.T-Triples,N3,Json-LD……
        
        空白节点
        
        为了描述多元关系，复杂关系
        
        允许空白节点
        
        一个资源可以是匿名的，即不被URI标识，并标记为_:xyz
        
        eg:Haofen是某一次KG讲座的讲者
        
        一个边：一跳，两个边二跳的关系
        
        并不关心是哪一次讲座，只是一个桥梁而已
        
        RDF是数据模型，不是序列化格式
        
        假设：开放世界假设
        
        封闭世界假设：只有一个关系就意味着只有一个讲者，不在系统里的就是没有
        
        缺失并不等于没有
        
        只有一个关系，不意味着只有一位讲者
        
        RDF允许分布式的定义知识
        
        分布式定义的知识可以自动合并--（合并，知识融合）
        
        扩展：
        
        带标注的RDF(S)--annotated RDF
        
        时间,不确定性，空间,信任等
        
        YAGO2使用带标注的rdf
        
        语法：（s,p,o):\lambda
        
        \lambda是个标志
        
        eg:(特朗普，就职，总统）：2017年1月
        
        缺点：
        
        可以表示一些简单的语义，但在更复杂的场景下，rdf语义表达能力显得太弱，还缺少诸多常用的特性
        
        值域只定义了全局值域，无局部值域
        
        类，属性，个体的等价性：无法声明
        
        不相交集的定义：RDF只能声明子类关系，如男人和女人都是人的子集，但无法说明这两个类是不相交的。
        
        RDFS（S-Schema
        
        RDF的扩展
        
        为RDF定义许多小的词汇集，如：Class,subClassOf,type,Property,subPropertyOf,Domain,Range
        
        多了术语表--描述RDF资源的属性和类别(做了规范）
        
        结构：层次体系结构
        
        类别子类别--Class,subClassOf,type
        
        属性层次体系结构---Property,subPropertyOf
        
        定义新术语---domain,range
        
        实例：
        
        OWL--web Ontology Language本体语言
        
        定义一些新的预定义的语言，而这些语言会跟一阶谓词逻辑的可判定子集做关联，这样的话，在增加表示能力的同时，推理的复杂度就会提升
        
        进一步提供了更多的术语来描述属性和类别
        
        类别之间的关系5--disjointness
        
        基数cardinality--exactly one
        
        equality
        
        richer typing of properties
        
        characteristics of properties---symmetry
        
        枚举类
        
        ……
        
        owl的三个子语言
        
        区分
        
        关系
        
        等价性
        
        owl:equivalentClass
        
        owl词汇
        
        声明属性的传递性owl:TramsitiveProperty
        
        声明两个属性互反owl:inverseOf
        
        声明属性的函数性 ---唯一的（一对一或多对一）owl:FunctionalProperty
        
        对称性owl:SymmetricProperty
        
        局部约束
        
        全称限定（对所有的限定
        
        存在限定
        
        基数限定
        
        声明相交性
        
        其他
        
        OWL2
        
        加限制来提升效率
        
        owl2 QL-->加约束后，效率提升到多项式时间复杂度
        
        owl2 EL：适用于医疗
        
        XML:
        
        SPARQL（SPARQLProtocol and RDF Query Language）
        
        RDF的查询语言（基于RDF数据模型）
        
        可以对不同的数据集撰写复杂的连接
        
        由所有主流图数据库支持
        
        查询结构
        
        基本构成
        
        变量：RDF中的资源，以？or $
        
        三元组模板：在where子句中列示关联的三元组模板，之所以称之为魔蛋，因为三人组中允许变量
        
        select：子句中只需要查询的目标变量
        
        optianal（=left join
        
        filter
        
        可能没有填写年龄，但是不代表他没有年龄 ---开放假设
        
        union
        
        没有optianal，所以，必须要返回邮箱
        
        from
        
        允许嵌套
        
        可跨库查询
        
        例子
        
        查询结果
        
        查询图
        
        理论：子图匹配
        
        另一个例子
        
        1
        
        查询关联交易
        
        1
        
        2.写出规则
        
        3. 嵌套--简化了
        
        sparql有啥用？---跨知识库的查询实例
        
        阿尔海默病--用于新药发现的案例
        
        RDF很灵活，单查询可能会成为噩梦
        
        实例
        
        怎么办？
        
        本体：可以填充只是和查询之间的语义间隙---这是需要本体层的原因
        
        JSON-LD:数据交换格式
        
        JSON for Linking Data：适用于作为程序之间做数据交换，在网页中嵌入语义数据和Restful Web Service
        
        知识图谱的分布式表示 --KG Embedding
        
        在保留语义的同时，将知识图谱中的实体和关系映射到连续的稠密的低维向量空间
        
        简单的例子
        
        原来
        
        转化为Json-LD
        
        呈现出语义网技术的风格，他们有着类似的目标，围绕某类知识提供共享的术语
        
        实现更容易大家接受，更轻便：---能解析json的工具，就能解析json-ld
        
        RDFa
        
        通过引入名字空间的方法，在已有的标签中加入 RDFa相应的属性,来使得支持 RDFa技术的浏览器或搜索引擎可以解析到，从而达到优化的目的
        
        HTML5 Microdata
        
        Microdata微数据,是在网页标记标记语言嵌入机器可读的属性数据
        
        微数据使用可以来自自定义词汇表、带作用域的键/值对给DOM做标记
        
        用户可以自定义微数据词汇表,在自己的网页中嵌入自定义的属性
        
        微数据是给那些已经在页面上可见的数据施加额外的语义。当HTML的够用时,使用微数据可以取得较好的效
        
        分布式方法
        
        1、张量分解
        
        张量：多维的矩阵
        
        主要用于刻画实体和关系之间的表示
        
        2、神经网络
        
        3、距离模型
        
        缺点：本身面向互联网--复杂
        
        体系
        
        特征
        
        每个事物有唯一的URI
        
        事物间--链接关联
        
        事物之间链接显式存在并拥有类型
        
        web上的数据的结构--显式存在
    - 知识图谱---万物皆有关 @知识图谱
      - 本质：语义网络（Semantic Net--
      - 节点---实体、概念
      - 边--实体/概念间的予以关系
      - 知识图谱把不同来源、不同类型的信息链接在一起形成关系网络--提供了从关系角度去分析问题的能力
      - 知识表示
        
        三元组Triple(head，relation,tail)
        
        是个概念，实际可以存在关系型数据库中--表的一行
        
        实体/概念：头head,尾tail
        
        关系/属性：relation
        
        概念
        
        Node
        
        概念（concept
        
        实体/实例entity/object/instance
        
        值value
        
        实体entity
        
        字符串string
        
        数字number
        
        时间date
        
        枚举（Enumerate
        
        高阶三元组--嵌套
        
        与时间地点相关
        （（美国，总统，特朗普），开始时间，2017）
        
        事件
        
        Compound Value Type (CVT)--符合值类型
        
        CVT是Freebase中的一种类型，用于表示每个条目由多个字段组成的数据。
         A CVT is a type within Freebase, which is used to represent data where each entry consists of multiple fields.
        
        cvt在Freebase中用于表示复杂的数据。
        CVTs are used in Freebase to represent complex data.
        
        边：关系
        
        是什么
        
        subcalss
        
        type
        
        relation
        
        property/attribute
        
        分类
        
        Taxonomic relation--分类关系，用以分类
        
        is-a
        
        hypernym-Hyponym上下位
        
        Non-taxonomic relation
      - 缺点
        
        领域限制
        
        一些侧重于语言：wordNet，babeInet
        
        侧重于schema：Cyc,UMBEL
        
        侧重于fact:DBPedia,Yago
        
        对时空属性的建模
        
        对动态性的实体，如Event建模不足
        
        Yago3在一定程度上考虑时间和地理属性
        
        完全自动构建
        
        自动构建是维护和保持知识图谱质量和覆盖的核心技术
      - 展望
        
        新的知识表示模型--本体引擎用来15年了
        
        新类型的知识图
        
        不再围绕实体和关系的存储--eg事件中心的KG
        
        自动构建技术
        
        Freebase中，71%没有出生日期
        
        新技术Distant Supervision，KG embedding，知识集成，（如google的Knowledge Vault
- 知识表示研究怎样用计算机符号来表示人脑中的知识，以及怎样通过符号之间的运算来模拟人脑的推理过程
知识建模--建立本体ontolog
- 建什么
  - 概念、实体的类型
  - 概念/实体的关联关系
- 要求：可靠性
- 方法
  - 自顶向下--专家手工形成数据模式
  - 自底向上--实体--类
    - 利用现有的标准转换
    - 从现有的高质量数据源中进行映射：
    - 用知识图谱--抽象建模--来自不同数据源
      - 实体抽取与合并---实体/概念
      - 属性映射与归并--属性--不同数据源中对实体的描述
      - 关系抽取---关系---数据间的关联关系
文本----人类知识的重要载体
- 文本分析--将结构化的原始文本转化为计算机可识别处理的结构化信息的过程。
  - 6.1文本表达
    是将文本符号数字化的方法
    - 单词的表示
      单词-----语言的基本单元-----其表示学习（文本处理领域的核心问题）
      - 局域性表示
        单词---向量每个单词--独有且相邻的维度相互独立
        
        独热表示
        
        仅用一个维度向量维度=词表大小，仅有一个维度为1，其余皆0
        
        缺点：
        
        1.语义相似度均等，无相关性。
        
        2.维度灾难
        
        优点：相互独立，正交-》强判别能力
        配合最大熵、SVM、CRF
      - 分布式表示
        
        可以表示不同单词之间的语义关联低维向量（多于一个维度非0，稠密）在特征空间的向量---每个单词由其多个特征来高效表示基于：分布语义假设——依据上下文利用某种上下文来学习单词的分布式表示
        
        横向组合表示——矩阵分解模型
        上下文：文档两个词在同一文中，可以组合，担任不同语法作用。
        
        基础——低秩逼近
        原：矩阵C(M*N)，寻找一个Ck,rank(Ck)<=k,且X=C-Ck的F范数最小（两个矩阵差异小）。当k==rank（C)=r时，差异为0当k<
        F-范数（福洛宾尼奇范数）
        
        矩阵所有项的平方和
        
        LSI----隐性语义索引（主题模型）
        词-文档矩阵C:cij为第i词在第j篇文章中出现的次数
        
        1.SVD分解
        
        2.特征值排序，取前k个奇异值（其余置0），U、V不变
        
        3.得到低秩逼近Ck
        
        说明：
        对于term-doc 矩阵作SVD分解后的意义，在于截取top k个奇异值后(所得对角矩阵记为E_k)，可以得到row、col的压缩向量表示。E_K*V_k 所得矩阵就是doc向量矩阵，每个doc对应一列；U_k*E_k 所得矩阵就是term向量矩阵, 每个doc同样对应一行。这些压缩表示还满足 cosine 距离近的，其语义也更有相关性（所以说是潜在语义）。
        
        Ck（仍为M*N,但剔除了有些不重要的信息（解决多词一义、语义关联问题）
        
        U:词*主题（取k列,k个特征向量，就是k维坐标），方向向量，U[:,:k]sigma[:k]的一个行表示一个词向量
        
        V:主题*文档sigma[:k]VT[:k,:]的一列一个文档矩阵
        
        sigma：主题相关性？重要性？,剔除后只保留重要信息，一个主题一个维度，主题占比
        
        缺点：不可解释性
        
        PLSI----概率隐性语义索引
        LSI引入概率图模型得到概率化解释对其使用的变量，及其对应的概率分布和条件概率分布给出了明确的解释
        
        M篇文章、N个词项--k个隐藏主题
        
        解释：
        
        来自https://www.jianshu.com/p/40fbe2bdffd3文档：d主题：z词：w
        
        以P(dm)选一篇文档dm属于D，
        
        P(zk|dm):在Dm下主题zk属于Z的概率分布
        
        P(wn|zk):在主题zk下，词项wn属于W的概率分布
        
        联合概率P(dm,wn)=P(dm)P(wn|dm)
        
        其中（带上隐藏的主题）
        
        最终
        
        其似然函数——Em求解
        
        因为Z是隐变量n(dm,wn)是dm和wn共同出现的次数
        
        EM算法
        来自https://blog.csdn.net/yangliuy/article/details/8330640课件中没有
        
        估计的参数
        
        E:以当前参数--求后验概率
        
        M：最大化似然函数的期望得到参数的新的值
        
        其中，P(zk|di,wj)从E步中已知
        
        约束条件
        
        所以可以写出拉格朗日函数
        
        对其求偏导
        
        联立求解结果
        
        LDA-----隐性狄利克雷分析
        一种应用更广泛的主题模型
        
        其文档生成过程：
        
        1.假设要生成的文档dm属于D,长Nm,为其选定一个主题分布sita（m)（服从dirichelet分布）狄利克雷分布（https://www.zhihu.com/question/26751755）
        
        ta分布是假设变量服从二项分布时对那个p引入的分布。它特别好的一点在于使用贝叶斯公式时在学习过程中后验分布和先验分布形式一致，只是参数不断得到修正。这样先验分布和后验分布形式相同时，我们称他们为共轭分布（only a term,不用管它）。(|)=(|)()/(),这里(|)就是二项分布公式，()就是分布，下面就是归一化常数P(p|x)=P(x|p)P(p)/P(x),这里P(x|p)就是二项分布公式，P(p)就是beta分布，下面就是归一化常数最后的结果P(p|x)和P(p)都是beta分布，只不过对初始参数进行了修正。这就是一个bayes学习过程。狄利克雷分布只不过把二项分布推广成多项式分布，即每次取值集合扩大了。@史泊琛
        
        2.生成dm的第n个词dmn时，首先在sita(m)下生成主题zn，zn服从mutinomial(sita(m))多项式分布
        
        3.词项beta（zn)服从狄利克雷分布，此时依靠多项式分布P(dmn|beta(zn))=P(dmn|zn,beta)生成dmn，得到联合概率分布：
        
        为求得生成dm的概率，在上式中对连续变量sita（m)求积分，对zn(离散）求和
        
        生成整个语料库的概率（各文章的乘积）
        
        解释@史泊琛@《大数据分析》https://blog.csdn.net/Yellow_python/article/details/83097994代码
        https://www.jiqizhixin.com/articles/2019-06-12-8
        
        主题——多项式分布(参数sita未知）
        
        让sita服从狄利克雷先验
        
        主题在所有单词上的分布~狄利克雷（稀疏）--beta
        少部分与主题相关的词出现的多，而其他少
      - 纵向组合表示
        纵向可替换关系上下文：使用其周边单词
        
        NPLM-----神经网络概率语言模型（只考虑上文）
        训练一个语言模型--》得到单词表示(n-gram)DNN
        
        NPLM
        
        1.输入层：输入x
        
        2.隐藏层：tanh(d+Hx)
        
        3.输出层：y=b+Qx+tanh(d+Hx)
        
        只考虑上文，前n个词
        
        核心思想：相似的输出需要相似的输入（避免了n-gram的复杂的平滑算法）
        
        缺点：受此表影响大，耗时
        
        C&W——排序学习模型
        
        改进：
        
        1.同时使用了单词的上下文
        
        2.对单词序列打分使用了排序损失函数，而非基于概率的吉大似然估计。loss= s
        
        该loss的目标：尽量使正确的比随机替换后的得分高于1
        
        Word2Vec——上下文预测模型
        
        与NLPM相比，去除了非线性隐层
        
        CBOW
        
        对CBOW来说，输入是中心词上下文window_size*2大小的词向量，第一层：有词汇表大小的神经元，使用softmax计算每个神经元的输出，即对应中心词的产生概率。第二层：用argmax找最大的概率的索引对应的单词作为中心词预测输出。这个公式就是softmax
        
        skip-gram
        
        skip-gram只不过是反过来，输入是一个词向量，（第二层）输出层有词汇表大小的神经元，softamx计算前2*window_size大小个单词作为上下文预测输出。
        
        优化
        
        问题
        
        softmax计算量大
        
        层次化softmax
        
        V-词汇表
        
        负采样
        
        google的层次化softmax
        https://www.cnblogs.com/pinard/p/7243513.html
        
        改进
        
        首先，对于从输入层到隐藏层的映射，没有采取神经网络的线性变换加激活函数的方法，而是采用简单的对所有输入词向量求和并取平均的方法。
        
        huffman树层次softmax：计算量：V-》log2V
        word2vec采样了霍夫曼树来代替从隐藏层到输出softmax层的映射———》只要沿着树形结构计算即可
        
        操作
        
        往哪里走--二元逻辑回归
        
        在word2vec中，我们采用了二元逻辑回归的方法，即规定沿着左子树走，那么就是负类(霍夫曼树编码1)，沿着右子树走，那么就是正类(霍夫曼树编码0)。判别正类和负类的方法是使用sigmoid函数sita-要训练的参数xw词向量
        
        　对于上图中的w2w2，如果它是一个训练样本的输出，那么我们期望对于里面的隐藏节点
        
        n(w2,1)的P(−)概率大，
        
        n(w2,2)的P(−)概率大，
        
        n(w2,3)的P(+)概率大。
        
        最大化似然
        
        梯度
        
        CBOW的实现
        
        输入到隐层——平均即可
        
        梯度更新sita和xw
        
        SG
        
        输入-隐层：xw=输入
        
        更新：使得P(xw|xi)
        P(xi|xw)也可，但word2vec用的是上面南哥
        
        不是对xw更新，而是对2c个输出迭代更新
        
        Glove——全局上下文模型
        
        对比
        
        Word2vec：上下文
        
        glove：
        
        上下文
        
        单词共现
        将全文统计信息与句子信息相结合
        
        符号
        
        Xi:单词wi出现次数
        
        Xik：单词wi与wk共现的次数
        
        P(wk|wi)
        
        比率与相关性
        
        每个单词的软约束：
        
        目标函数
    - 评价方法
      - 相似度评价
        
        方法
        
        余弦
        
        欧式
        
        数据集
        
        wordsim353
        
        rareword
        
        simlex-999
      - 单词类比
        
        a之于b正如c之于？
      - 特征
        
        单词可作为特征在具体任务中进行评价
  - 句子的表示
    - 传统表示方法
      - 词集模型set of words
        
        向量长：单词表表长
        
        向量内容：1-该单词出现过，0-未出现
        
        不记录语序、语法
      - 词袋模型（bag of words
        
        向量长：单词表长
        
        内容：0-未出现，n>0出现次数
        
        不记录语序、语法
        
        比词集多了频度
      - TF-IDF模型
        
        思想：如果某个词或者短语在一篇文章中出现的频率TF高，并且在其他文章出出现少,则有高的类别区分能力--适合分类
        
        TF-词频
        
        出现次数/所有单词数
        
        IDF-逆文档频率
        
        词语普遍重要性的度量
        
        log（总文档数/出现的文档数）
        
        TF-IDF
        
        TF*IDF
        
        某一特定文档的高频词，以及其在所有文档中低文档频率，则高
        
        趋于过滤常见词，保留重要的词语
    - 分布式表示方法
      - 主题模型
        
        将句子/文档表示为主体分部
        
        文档相关性
        
        字面的词语重复度
        
        文字背后的语义关联
        
        对文字后所隐含的主题建模
        能够自动找到语义主题
        
        LSI
        
        PLSI
        
        LDA
        
        结果
        
        文档和单词的分布式表示
        
        若把单个句子按文档处理---句子的分布式表示
      - 基于单词分布式表示组合的表示方法
        
        句子基于单词的分布式表示
        
        思想：对单词的分布式表示-----组合/选择---》句子的分布式表示
        特征组合、提取
        
        方法
        
        CNN
        
        第i句n个k维词向量h？？步长？？句子长度？
        
        RNN
        
        5种策略
        
        h(t)：最后一个做橘子特征
        
        输出的均值或拼接：双向RNN
        
        所有RNN输出的mean-pooling或max-pooling
        
        RNN+Attention:时间点不同，权重不同
        
        RCNN:每层RNN的输出向量经过一层CNN和max-pooling得到句子表示
        
        RecNN递归
        
        像语法树：自底向上，遵循语法规则
        
        结果：Zn（最终的）
        
        实现效果依赖于输入文本的语法树--需要更多时间
        
        DAN(Deep Averaging Networks)
        
        av-最简单的无序模型
        
        增加隐藏层：进行特征提取--得到更深层次的具体表示
        
        也可理解为--词向量的平均
        
        采用多层网络来进行具体的分类任务
      - 原始语料直接学习的表示方法
        
        直接生成会更直接
        
        基于单词的依赖于单词表示
        
        paragrah2vec无监督
        https://blog.csdn.net/lihaitao000/article/details/52298922依据：句子本身语义推断上下文以上下文推断句子语义
        
        PV-DM(段落向量的分布记忆模型）
        
        近似于分类任务
        
        思想：
        
        入：句子id+前k个单词
        
        目标：预测下一个单词
        
        每次预测时都考虑了整个句子的语义
        
        训练：SGD最大化文档D的似然函数
        
        结果：输出矩阵W和D得到单词和句子的分布式表示
        
        矩阵W-一列一个词向量
        
        D-一列一个句子向量
        
        pS:
        
        句子的标识（Token）被当做另外一个“词”看待。它扮演一个“Memory”的角色，用来记忆当前文本或文章主题中漏掉了什么。因此，我们把这个模型称为“句向量的分布记忆模型”(PV-DM: Distributed Memory Model of Paragraph Vectors)。
        
        我们可以把这些特征直接用于传统的机器学习技术，比如逻辑回归、支持向量机或者K-means聚类。
        
        无监督
        
        考虑词序
        
        慢
        
        PV-DBOW句向量的分布词袋----无词序句向量---类似Skip-gram
        
        输入：句向量
        
        输出：该句中随机采样的词
        
        有点
        
        需要存储的数据少
        
        只存输出层参数 softmax 权重
        
        不用保存但词向量
        
        PV-DM & PV-DBOW 结合
        
        可以把每一个句向量当作两个向量的组合：一个通过 PV-DM 训练，另一个通过 PV-DBOW 训练。PV-DM 能够很好地执行多种任务，但是它结合 PV-DBOW 后，常常能够更加出色完成任务。
- 6.2文本匹配
  基于规则的文本匹配、基于学习的文本匹配
  - 文本处理——抽象为——>文本匹配问题
    - 信息检索：查询项《——》文档
    - 问答系统：问题《——》答案
    - 对话问题：前文《——》回复
    - 机器翻译：中文《——》英文
    - 复述问题：原句《——》改写
  - 挑战
    - 词语多元：一词多义
    - 短语结构性：机器学习——学习机器
    - 文本匹配的层次性：词-短语-句子-段落-篇章
  - 方法
    - 基于规则的文本匹配---用于大规模的信息初次筛选任务
      - 启发式规则
        
        建模：对两段文本共现词的分布
        
        模型：
        
        BM25
        
        基于词袋
        
        检索排序函数
        
        目标：评价查询项与文本的相关性
        
        特点：
        
        1.分割查询项-->查询词；
        
        2。只考虑查询词出现的文档
        
        排序依据：结合词频和逆文档频率IDF的打分函数
        
        0.5-避免出现0
        
        查询似然模型（query likelihood model)
        
        用于信息检索
        
        目标：衡量查询项与文档的相关程度
        
        定义：似然概率--给定查询项Q的情况下产生文档D的概率
        
        对于同样的查询项：P(Q)相等
        
        P(D):每个文档等概率产生-相等
        
        所以推出：
        
        最终
        
        K(Q)常数q查询词给定文档D后查询词q的产生概率P(q|D)
        
        频率--估计概率：因为不知道文档的真是语言模型，因此通过查询词在文档中出现的频率
    - 基于学习--用于精细排序任务
      有监督学习--准确性高
      - 基于人工特征的排序学习模型
        
        人工特征-->拼接为特征向量表示文本
        人对数据的理解--设计抽象的特征表示（如BM25、TF-IDF
        
        分类
        
        基于文本内容
        
        如关键词、文本类型、文本长度……
        
        当前文本与其他文本够早的关系图上的PageRank重要度特征
        
        基于文本交互
        
        关键词匹配的数量、BM25、查询似然模型得到的匹配度得分
        
        设计出来的邻近度特征
        
        排序学习
        
        输入：特征向量
        
        输出：匹配度
        
        分类
        
        基于单样本的PointWise排序算法
        
        输入：以单个<查询项-文档>样本的特征向量
        
        输出：实数-匹配度
        
        假设：学习一个打分函数（特征向量->匹配度），以此排序
        
        loss:建模成分类问题或回归问题--这两种loss都可以用
        
        回归问题
        
        分类问题
        
        https://www.cnblogs.com/massquantity/p/8964029.html
        
        预测：得分大于阈值相关，否则无关
        
        基于样本对的PairWise
        
        输入：一对<查询项-文档>样本的特征向量，查询项同，文档不同，标注的匹配度有差异
        
        输出：-1，+1.匹配度的比较结果
        
        假设：一对特征向量-->偏序的映射函数
        
        loss:
        
        分类问题
        
        铰链损失（hinge loss)
        Hinge Loss 是机器学习领域中的一种损失函数，可用于“最大间隔(max-margin)”分类，其最著名的应用是作为SVM的目标函数。在二分类情况下，公式如下： L(y) = max(0 , 1 – t⋅y)其中，y是预测值(-1到1之间)，t为目标值(1或 -1)。其含义为，y的值在 -1到1之间即可，并不鼓励 |y|>1，即让某个样本能够正确分类就可以了，不鼓励分类器过度自信，当样本与分割线的距离超过1时并不会有任何奖励。目的在于使分类器更专注于整体的分类误差。
        
        L(y) = max(0 , 1 – t⋅y)
        
        关键在于顺序关系
        
        基于样本列表的Listwise
        
        输入：一个<查询项-文档>集合的特征向量，查询项同（每一个查询项对应的所有搜索结果作为一个实例）
        
        输出：集合的列表--排序结果
        
        假设：一对特征向量-->样本排序方式的映射函数
        
        loss:
        
        KL距离：两个分布概率的距离--度量相似度
        
        1.与评价指标相关的loss
        
        2.与评价指标无关的loss
        
        训练
        通过标注的结果来训练模型参数
      - 表达学习（端到端）
        
        人工特征：费力，不通用
        
        表达学习--自动学习特征
        
        输入：文本内容
        
        输出：匹配度
        
        Siamese框架
        
        第一步：计算文档表达向量
        
        全连接神经网络
        
        CNN
        
        RNN
        
        第二步：相似度函数度量--匹配度
        
        全连接神经网络
        
        cos
        
        点积
        
        全连接网络
        
        神经张量网络
  - 评价方法
    - 分类准确率：文本匹配--2分类：匹配1，不0.
    - P@k:前k个文档的排序准确率
      - 按预测结果排序后前k个文档中相关文档有Yk个（标注的）
      - Yk/k
    - R@k:前k个文档的排序召回率
      - 按标注相关性排序后，的前k个文档中相关文档数为Gk(预测的）
      - Gk/k
    - MAP(mean average precision（按预测结果排序）
      - 综合考虑了所有相关文档的排序
        
        (1/r1+2/r2+3/r3)/3
    - MRR（按预测结果排序）
    - nDCG(normalized Discounted Cumulative Gain)归一化折扣累计收益
      - 用于标注含有匹配度而不只是0/1（这时更有效）
      - 计算公式
        
        按标注相关度排序--->相关度加权和IDCG--折损收益
        
        按预测相关度排序-->相关度加权和DCG
        
        结果DCG/IDCG--->相关度加权和的比
        
        越大越好？-->趋近于1
        
        折损的目的：就是为了让排名越靠前的结果越能影响最后的结果。
        https://www.cnblogs.com/by-dream/p/9403984.html
        
        归一化目的：
        
        NDCG， Normalized 的DCG，由于搜索结果随着检索词的不同，返回的数量是不一致的，而DCG是一个累加的值，没法针对两个不同的搜索结果进行比较，因此需要归一化处理，这里是处以IDCG
        
        IDCG为理想情况下最大的DCG值。
- 6.3文本生成
  文本生成任务、方法与评价方式
  - 文本生成简介
    - 文本生成，亦称为自然语言生成(Natural LanguageGeneration, NLG)
      - 数据--->文本的：通过图片或者视频等数据，生成图片的摘要或者视频的描述等，典型的应用就是视频评论生成、图片标题生成等
    - 文本--->文本：从文本生成语言句子，典型的应用就是自动摘要、翻译模型、人机对话等
    - 输出：文本
    - 代表：
      - 人机对话生成
      - 图片标题生成
    - 任务组成
      - 1. 内容确定：决定在文本中包含哪些信息
        
        要什么内容，不要什么内容--内容筛选
        
        取决于：目标受众/系统意图---想做什么
        
        eg：讲篮球，只保留与篮球相关内容
      - 2. 文本顺序：确定呈现句子的文本顺序
        
        早期：依赖于领域的结构化规则
        
        eg:赛前介绍-队员介绍-比赛实况
        
        现在：机器学习得到
      - 3. 文本归并（合并）：决定每个句子中呈现哪些信息，进行句子合并
        
        去除语义一样的句子，（冗余的）合并为一
        
        早期：依赖于应用领域，手工定义
        
        现在：数据驱动--由相似性找到要合并的
      - 4. 词汇化：找到正确的词汇和短语来表达信息
        
        选择词汇--依赖于上下文/情感/有效性---还有一词多意，同义词/一意多词
        
        简单：原文--不灵活
      - 5. 引用表达式生成：选择领域对象需要识别的单词和短语
        
        eg:篮球比赛的得分等具体准确的实体---专有名词
      - 6. 语言实现：将所有的单词和短语组合成句子
        
        人工定义模板
        
        基于语法的模板
        
        统计学方法
    - 输入：任意
  - 文本生成方法---数据导向的
    - 基于马尔科夫语言模型的生成方法(无记忆特性）
      - 构建P(W|S),输入状态S下，生成语言W的条件概率，具体用隐藏变量来描述w和s的关系
      - 缺点：局部性，无多轮对话的长距离依赖
    - 基于深度学习的Seq2Seq模型
      - 输入：对
        机器翻译：X是源语言句子，Y是目标语言句；对话：X是上一句话，Y是回复
      - 输出：X--生成-->Y
      - 结构：多层LSTM(encoder)--->深层LSTM(decoder)
      - ??
      - 增加attention--增强对齐
  - 文本生成任务
    - 人机对话生成
      - 由D和之前生成的词预测下一个词---积为条件概率
      - 核心问题
        
        对话一致性
        
        通用回复：我不知道，那是什么，有趣
        
        其他
        
        Li：Seq2seq+簇搜索-->多个候选回复-->选互信息大的
        
        Li:强化学习训练，奖励：互信息、无聊回复程度、话题一致性等
        
        对话多样性
        
        对同一句：回不同但合理的回复
        
        方法
        
        1.簇分组+惩罚机制-->使组间相似度低，保证候选回复差异大
        
        2,。f(原句向量,风格向量)线性变换--》生成不同风格的句子
        
        多轮对话长距离依赖
        
        利用好上下文
        
        方法：层次化RNN
        
        1层的-RNN:得到句子的隐层表达
        
        2-RNN:再编码，得到句子级别的向量表示
        
        对该向量进行回复和生成的扩展---可获得整个上下文的语义
    - 图片标题生成
      - 输入：静态、无序的图像
      - 输出：连续的文字（标题
      - 形式化表示
      - 过程
        
        图像分析
        
        1.检测
        
        人/物--与语言结构映射（如树/模板
        
        2.场景分析
        
        分析整体
        
        物体间空间关系
        
        使用场景更全面的表征：
        RGB直方图，尺度不变的特征变换、低纬度的空间表示
        
        3，特征提取
        
        CNN
        AlexNet,VGG.Caffe
        
        标题生成或检索（方法）
        
        基于模板或树结构
        
        将检测的特征--映射-->输出的语言结构
        
        对象--名词
        
        空间关系--介词
        
        缺点：缺乏可变性
        
        基于语言模型
        
        有点：促进<图像，语言>对的联合训练，有创造性、表达力
        
        LSTM/RNN：问题：标题生成--》预测下一个单词
        
        基于检索和重组
        
        检索训练数据-->标题
        
        优点：语言完整流畅
        
        eg：Hodosh:通过查询图像的标题和解析的图像，基于WordNet找最相似的标题
  - 生成文本的评价方法
    - 内在评价方法
      - 衡量系统性能，与文本质量相关
      - 基于语料库的仿人工评价
        
        n-gram重合度
        
        句子距离
        
        内容重合度
      - 人的主观评价
        
        专家按照标准：
        
        可读性、流畅性
        
        准确性。充分性。相关性。正确性
        
        缺点
        
        标准常见但不全
        
        评估者间存在差异和可靠性
        
        解决：交叉打分、迭代---成本大
    - 外在评价方法
      - 系统实现了任务目标否
      - 取决于：具体的应用领域、和具体目的
      - 缺点：
        
        时间
        
        费用
        
        依靠足够的用户群
- 应用：
  - 机器翻译
  - 智能问答
  - 信息检索
  - 情感分析

你可能感兴趣的:(知识图谱,小象学院知识图谱,国科大大数据分析（靳小龙）)

DeepSeek在智能教育评估中的应用：试题检索 AIGC应用创新大全 AI大模型与大数据技术 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 easyui 前端 javascript ai
DeepSeek在智能教育评估中的应用：试题检索关键词：DeepSeek、智能教育、试题检索、自然语言处理、知识图谱、个性化学习、评估系统摘要：本文探讨了DeepSeek大模型在智能教育评估系统中的试题检索应用。我们将深入分析如何利用先进的自然语言处理技术和知识图谱构建高效的试题检索系统，实现个性化学习路径推荐和精准评估。文章将从核心概念、技术原理到实际应用场景，全面解析这一创新教育技术解决方案。
知识图谱的个性化智能教学推荐系统(论文+源码) 毕设工作室_wlzytw python论文项目知识图谱人工智能
目录摘要Abstract目录第1章绪论1.1研究背景及意义1.2国内外研究现状1.2.1知识图谱1.2.2个性化推荐系统1.3本文研究内容及创新点1.4全文组织结构第2章相关理论与技术概述2.1知识图谱2.1.1知识图谱的介绍与发展2.1.2知识图谱的构建2.3协同过滤推荐算法2.2.1推荐算法概述2.2.2Pearson相关系数2.2.3Spearman相关系数2.4Bert模型和Albert模
ImportError: /nvidia/cusparse/lib/libcusparse.so.12: undefined symbol: __nvJitLinkComplete_12_4 爱编程的喵喵 Python基础课程 python ImportError torch nvJitLink 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了ImportError:/home/
从新闻到知识图谱：用大模型和知识工程“八步成诗”打造科技并购大脑许泽宇的技术分享知识图谱科技人工智能
一句话摘要：本文带你用现代NLP和知识图谱技术，把科技公司并购新闻变成结构化的知识大脑，过程全景揭秘，理论与实战齐飞，代码只用伪代码，干货与段子齐发，助你成为AI知识工程老司机！前言：为什么要把新闻变成知识图谱？想象一下，你是个投资分析师，老板让你一周内梳理全球科技并购大事件，找出谁在买谁、花了多少钱、背后有哪些大佬、涉及哪些新技术……你会怎么做？A.手动Ctrl+F，Excel狂敲，熬夜爆肝？B
巧用云平台API实现开源模型免费调用的实战教程 herosunly AIGC 人工智能大模型 API 实战教程
大家好，我是herosunly。985院校硕士毕业，现担任算法工程师一职，获得CSDN博客之星第一名，热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法大赛评委，编写微软OpenAI考试认证指导手册。曾获得多项AI顶级比赛的Top名次，其中包括阿里云、科大讯飞比赛第一名，CCF、开放原子比赛二等奖。在技术创新领域拥有多项授权发明。曾辅导多位非科班出身的同学成功进入算法行业就业
搜索之BFS Luther coder 宽度优先 c++
目录一.BFS简介二.BFS主要应用和实现三.典型例题（1）P1443马的遍历-洛谷（2）P8693[蓝桥杯2019国AC]大胖子走迷宫-洛谷四.总结一.BFS简介BFS(图论)：广度优先搜索,是一种用于遍历或搜索树或图的算法。所谓广度优先，就是说按照圈层搜索。二.BFS主要应用和实现在搜索算法中，该BFS常常指利用队列实现广度优先搜索，从而寻找最短距离。与图论中的BFS算法有一定相似之处，但并不
构建智能企业知识管理平台：动态知识图谱与语义检索系统 AI天才研究院 Agentic AI 实战 AI大模型企业级应用开发实战 AI人工智能与大数据知识图谱人工智能 ai
构建智能企业知识管理平台：动态知识图谱与语义检索系统关键词：知识管理平台、动态知识图谱、语义检索、知识图谱构建、语义检索算法摘要：本文详细探讨了构建智能企业知识管理平台的核心技术，重点介绍了动态知识图谱和语义检索系统的原理与实现。通过分析知识图谱的构建方法和语义检索算法，结合实际案例，展示了如何利用这些技术提升企业的知识管理水平。文章内容包括背景介绍、核心概念、算法原理、系统架构设计、项目实战以及
从维基百科到知识图谱：用 DSPy、OpenAI 和 TiDB 构建 GraphRAG 的奇妙旅程步子哥 AGI通用人工智能知识图谱 tidb 人工智能
在信息爆炸的时代，如何快速从海量数据中提取有用信息，成为了技术发展的重要方向。传统的RAG（Retrieval-AugmentedGeneration）方法虽然在信息检索领域表现出色，但随着需求复杂度的提升，GraphRAG（基于知识图谱的RAG）逐渐成为更优的解决方案。本文将带您一步步了解如何利用DSPy、OpenAI和TiDBVectorDatabase，从维基百科数据构建一个GraphRAG
怀化学院2024年ACM基地第二轮招新机试题解啊这.- 算法
比赛地址：https://www.nowcoder.com/acm/contest/96304。【邀请码：acm20241115】A宋学长买书#include#defineintlonglongconstintN=1e6+10;inta[N];intmin(inta,intb){if(a=m)pl=min(pl,x);elseans+=x,cnt++;}ans+=pl-1;if(cnt>m)pri
ClickHouse【理论篇】01：什么是ClickHouse
ClickHouse是一款开源的列式数据库管理系统（Column-OrientedDBMS），专为高性能实时数据分析（OLAP,OnlineAnalyticalProcessing）场景设计。它由俄罗斯搜索引擎公司Yandex开发（2016年开源），目前由独立基金会ClickHouse,Inc.维护，广泛应用于大数据分析、日志处理、用户行为洞察等领域。一、核心定位：OLAP场景的“性能标杆”传统关
巅峰对话在线研讨 Q&A：Oracle Database 21c vs openGauss 2.0新特性解读和架构演进小兰 � 国产数据库技术文章数据库 oracle 华为
2021年11月11日，墨天轮《巅峰对话》栏目邀请到了两位数据库领域的巅峰人物：云和恩墨创始人盖国强老师，和来自清华大学计算机与技术系的李国良教授，为大家带来了在线研讨《OracleDatabase21cvsopenGauss2.0新特性解读和架构演进》，并对数据库技术演进和生态发展进行深入探讨。两位老师一共围绕10个特性作了深入、独到的解读，强强联手、共创了一场精彩的技术盛宴。当天的直播间吸引了
【AIDD药物研发】张载熙-生成式AI4药物发现静静喜欢大白医疗影像人工智能 AIDD 药物研究药物生成生成
目录1、简介2、生成式AI用于基于结构式的药物发现背景生成用于靶标结合的类药小分子功能性蛋白质的生成与优化其他新的药物形式及生物安全/安全性小结3、参考4、补充学习资料1、简介最近需要简单了解喜爱AIDD流程以及相关进展调研，看到zaixizhang正在做相关研究，进行下面的学习记录张载熙中国科学技术大学计算机科学与技术学院2021级博士生（导师刘淇教授），认知智能全国重点实验成员，本科毕业于中国
1997-2020年全国31个省外商直接投资FDI统计数据小王毕业啦大数据人工智能数据挖掘数据分析大数据社科数据数据统计深度学习
1997-2020年全国31个省外商直接投资FDI统计数据.r.rarhttps://download.csdn.net/download/2401_84585615/90001897https://download.csdn.net/download/2401_84585615/90001897外商直接投资（FDI）是指外国投资者在东道国进行的长期投资活动，通常包括设立新企业、并购现有企业或对现
dnsdhcp服务器实验原理,DHCP服务器配置实验报告.doc 从一小姐 dnsdhcp服务器实验原理
云南师范大学信息学院实验报告学号:姓名:班级：计科11A课程名称:计算机网络实验名称:DHCP服务器的配置实验性质:①综合性实验②设计性实验③验证性实验试验时间:2013-9-12试验地点:睿智4幢201试验所用设备:计算机二台，交换机或HUB一台，Internet接入实验目的：动态主机配置协议DHCP提供了一种机制，称为即插即用连网。这种机制允许一台计算机加入新的网络时获取IP地址而不用手工参与
大数据分析技术的学习路径，不是绝对的，仅供参考水云桐程序员学习大数据数据分析学习方法
阶段一：基础筑基（1-3个月）1.编程语言：Python：掌握基础语法、数据结构、流程控制、函数、面向对象编程、常用库（NumPy,Pandas）。SQL：精通SELECT语句（过滤、排序、分组、聚合、连接）、DDL/DML基础。理解关系型数据库概念（表、主键、外键、索引）。MySQL或PostgreSQL是很好的起点。Java/Scala：深入理解Hadoop/Spark等框架会更有优势。初学者
GraphRAG革命性突破！美国Cedars-Sinai医疗中心揭秘：知识增强大模型如何重塑阿尔茨海默病基因研究与治疗？ DeepSeek-大模型系统教程人工智能大模型 chatgpt 语言模型 ai 大模型学习大模型教程
摘要：随着阿尔茨海默病患者人数不断攀升，Cedars-Sinai医学中心通过知识图谱和AI技术，打造了AlzKB阿尔茨海默病知识库，用以推动新型病因和药物的发现。本文详解这些前沿工具如何结合，赋能专业人士实现高效科研转化，为认知障碍领域带来突破正文据估计，690万65岁及以上的美国人患有阿尔茨海默病。如果没有重大的医学突破，预计到2060年，美国这一数字将上升到1380万，到2050年全球将上升到
大数据开发高频面试题：Spark与MapReduce解析
被招网约司机的盯上了好几天实习了六个月，到期被通知不能转正。外包裁员让我去友商我该去吗？offer比较华为状态码浏览器插件嵌入式项目推荐2019秋招总结+云从语音算法面经+银行群面面经科大讯飞语音算法面经语音算法美团一面已挂科大讯飞智能语音方向值得去吗？语音算法oc科大讯飞语音算法二面荣耀一面语音算法面经，已挂荣耀_语音算法工程一面科大讯飞语音一面凉经8.18携程机器学习（语音方向）一面【vivo
如何成为一名合格的 Prompt 工程师？ csdn_tom_168 AI 人工智能 ai prompt
以下为基于行业实践与最新趋势的Prompt工程师成长体系，结合技术能力、实战经验与职业发展三个维度构建的完整路径：一、核心能力模型构建1.基础认知能力领域知识融合掌握垂直领域知识图谱（如医疗术语、法律条文），通过RAG技术实现专业语料注入案例：设计医疗诊断Prompt时需理解ICD-11疾病分类标准模型原理理解熟悉主流模型特性（如GPT-4长文本处理优势、Claude3的逻辑推理强项），针对性设计
中国最好的GEO优化师领跑生成式搜索优化行业 Jamie20190106 人工智能
生成式搜索已覆盖全球45%的信息获取场景，而在这个价值8000亿元的蓝海市场中，一位中国专家正以独创的AI-Agent系统重新定义规则。“当生成式AI成为用户获取信息的默认界面，传统SEO策略正以惊人速度失效。”a16z在最新报告中指出，“从SEO到GEO（生成式引擎优化）的转变，不是渐进改良，而是彻底重写”1。在这场搜索范式的革命中，赵象山——中国顶尖GEO优化师——正以全自动化解决方案领跑行业
Web自动化测试的八大元素定位今天记单词了嘛前端 javascript 自动化
1.什么时候适合用文本自动化？1.1软件需求变更不频繁1.2项目周期比较长1.3自动化的脚本能够重复利用2.在Web自动化中元素的8大定位方法id,name,class_name,xpath,css,tag_name,link_text,partail_link_text下面例子以百度为例ID定位：driver，find_element(By.ID).send_keys("学院")name定位：d
现代 JavaScript (ES6+) 入门到实战（八）：总结与展望 - 成为一名现代前端开发者
恭喜你坚持到了最后！在过去的七篇文章中，我们一起踏上了一段从“传统”到“现代”的JavaScript进化之旅。我们告别了那些曾经让我们头疼的“怪异行为”，拥抱了一套更强大、更优雅、更符合工程化思想的工具集。现在，是时候回顾我们的旅程，并展望前方的道路了。一、我们的进化之路：知识图谱回顾让我们将学到的核心知识点串联起来，形成一张清晰的“进化图谱”。如果你错过了之前的任何一篇，可以点击链接回顾：第一篇
Python机器学习实战——逻辑回归（附完整代码和结果）小白熊XBX 机器学习机器学习 python 逻辑回归
Python机器学习实战——逻辑回归（附完整代码和结果）关于作者作者：小白熊作者简介：精通c#、Halcon、Python、Matlab，擅长机器视觉、机器学习、深度学习、数字图像处理、工业检测识别定位、用户界面设计、目标检测、图像分类、姿态识别、人脸识别、语义分割、路径规划、智能优化算法、大数据分析、各类算法融合创新等等。联系邮箱：[email protected]科研辅导、知识付费答疑、个性化定制
计算机毕业设计Python知识图谱中华古诗词可视化古诗词情感分析古诗词智能问答系统 AI大模型自动写诗大数据毕业设计(源码+LW文档+PPT+讲解) B站计算机毕业设计大学大数据毕业设计人工智能课程设计知识图谱 python 大数据深度学习爬虫
温馨提示：文末有CSDN平台官方提供的学长联系方式的名片！温馨提示：文末有CSDN平台官方提供的学长联系方式的名片！温馨提示：文末有CSDN平台官方提供的学长联系方式的名片！信息安全/网络安全大模型、大数据、深度学习领域中科院硕士在读，所有源码均一手开发！感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人介绍资料《Python知识图谱中华古诗
深度探索 Py2neo：用 Python 玩转图数据库 Neo4j 萧鼎 python基础到进阶教程 python 数据库 neo4j
随着社交网络、推荐系统、知识图谱等应用的普及，图数据库越来越成为解决关系复杂数据问题的重要武器。作为图数据库中的佼佼者，Neo4j凭借其强大的性能和灵活的数据模型，被广泛应用于各种关联密集型场景。而在Python生态中，py2neo是使用最广泛的Neo4j客户端库之一，它简洁直观，封装度高，能够让你在Python中像操作对象一样操作图数据。本文将全面介绍py2neo的使用方法与设计理念，帮助你快速
计算机毕业设计Python知识图谱中华古诗词可视化古诗词情感分析古诗词智能问答系统 AI大模型自动写诗大数据毕业设计(源码+LW文档+PPT+讲解)
温馨提示：文末有CSDN平台官方提供的学长联系方式的名片！温馨提示：文末有CSDN平台官方提供的学长联系方式的名片！温馨提示：文末有CSDN平台官方提供的学长联系方式的名片！信息安全/网络安全大模型、大数据、深度学习领域中科院硕士在读，所有源码均一手开发！感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人介绍资料Python知识图谱中华古诗词
对抗同质化竞争的差异化突围方案
在产品同质化严重的市场环境下，商家想要脱颖而出愈发困难。推客系统为商家提供了差异化竞争的有效策略，助力商家打破僵局。系统支持商家打造个性化的推广体系，通过定制专属的推客激励政策，吸引具备特殊资源和能力的推客加入。例如，一家主打国潮风格的服饰商家，针对汉服爱好者社群群主、国风博主等推客，推出“国潮推广勋章计划”，推客累计推广达到一定销售额，不仅能获得高额佣金，还可解锁限量版国潮周边礼品、参与品牌新品
新华妙笔：AI智能写作助手，让高效写作触手可及东风西巷 AI写作 android 软件需求智能手机
在当今快节奏的时代，无论是职场人士、学生还是创作者，都面临着大量的写作任务。从工作总结、调研报告到公文写作、商业文案，高效且高质量的写作能力成为了提升个人竞争力的关键。然而，写作不仅需要丰富的知识储备和扎实的文字功底，还需要大量的时间和精力去打磨。为了帮助用户更高效地完成写作任务，新华妙笔APP应运而生。它是一款功能强大的AI智能写作助手，依托自然语言处理（NLP）和大数据分析技术，能够快速生成各
【实战派×学院派】30｜用户反馈五花八门，优先级怎么排？郭菁菁 (BA/PM)实战派常踩的坑学院派如何补上大数据 BA 业务分析需求分析
学院派：用反馈分类体系+Impact-Effort矩阵+路线图对齐机制，让反馈不再靠吵架决定优先级你是不是也遇到过这种场景：“这个问题好多用户在群里抱怨了，能不能先修？”“销售说几个大客户提了建议，最好赶紧做。”“我们自己用着不顺，也想优化下。”结果：反馈源源不断，但每次排优先级时就是：谁声音大、谁能找到领导，谁的需求就往前排。✅实战派常见误区：靠“印象流”排优先级实战派习惯做法潜在问题结果谁催得
家用充电桩远程监控安全管理系统解决方案蓝蜂物联网物联网远程监控边缘计算物联网
家用充电桩远程监控安全管理系统解决方案在当今电动汽车日益普及的背景下，家用充电桩的安全管理成为了广大车主关注的重点问题。为了实现对充电桩的高效、精准、远程监控，一套完善的家用充电桩远程监控安全管理系统解决方案应运而生。本方案旨在通过先进的物联网技术、云计算、大数据分析以及人工智能等科技手段，构建一个集实时监测、异常预警、故障诊断、数据统计、远程控制于一体的智能化平台，确保充电桩的安全运行及用户充电
讯飞星火深度推理模型X1，为教育医疗带来革新
在科技飞速发展的今天，人工智能大模型已经成为推动各行业变革的重要力量。科大讯飞作为人工智能领域的佼佼者，其研发的星火深度推理模型X1，凭借独特的技术优势和强大的功能，为教育和医疗两大关乎国计民生的领域带来了前所未有的革新。技术原理与创新讯飞星火深度推理模型X1基于Transformer架构，并在此基础上进行了一系列创新。它通过大规模多阶段强化学习训练方法，在复杂推理、数学、代码、语言理解等场景全面
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl