leeshuheng

数据挖掘：id3 算法

1 简述

1.1
    id3是一种基于决策树的分类算法，由J.Ross Quinlan
在1986年开发。id3根据信息增益，运用自顶向下的贪心策略
建立决策树。信息增益用于度量某个属性对样本集合分类的好坏程度。
由于采用了信息增益，id3算法建立的决策树规模比较小，
查询速度快。id3算法的改进是C4.5算法，C4.5算法可以
处理连续数据，采用信息增益率，而不是信息增益。
理解信息增益，需要先看一下信息熵。

1.2 信息熵
    信息熵是随机变量的期望。度量信息的不确定程度。
信息的熵越大，信息就越不容易搞清楚。处理信息就是
为了把信息搞清楚，就是熵减少的过程。
   Entropy(X) = -Sum(p(xi) * log(p(xi))) {i: 0 <= i <= n}
   p(x)是概率密度函数；对数是以2为底；

1.3 信息增益
    用于度量属性A降低样本集合X熵的贡献大小。信息增益
越大，越适于对X分类。
   Gain(A, X) = Entropy(X) - Sum(|Xv| / |X| * Entropy(Xv)) {v: A的所有可能值}
   Xv表示A中所有为v的值；|Xv|表示A中所有为v的值的数量；

2 id3算法流程
   输入：样本集合S，属性集合A
   输出：id3决策树。
   1) 若所有种类的属性都处理完毕，返回；否则执行2）
   2）计算出信息增益最大属性a，把该属性作为一个节点。
       如果仅凭属性a就可以对样本分类，则返回；否则执行3）
   3）对属性a的每个可能的取值v，执行一下操作：
       i. 将所有属性a的值是v的样本作为S的一个子集Sv；
       ii. 生成属性集合AT=A-{a};
       iii.以样本集合Sv和属性集合AT为输入，递归执行id3算法；

3 一个的例子
   3.1
   这个例子来源于Quinlan的论文。
   假设，有种户外活动。该活动能否正常进行与各种天气因素有关。
   不同的天气因素组合会产生两种后果，也就是分成2类：能进行活动或不能。
   我们用P表示该活动可以进行，N表示该活动无法进行。
   下表描述样本集合是不同天气因素对该活动的影响。

                   Attribute                       class
   outlook    temperature    humidity    windy
   ---------------------------------------------------------
   sunny       hot           high         false       N
   sunny     hot         high     true     N
   overcast   hot           high     false       P
   rain         mild           high       false       P
   rain         cool           normal false       P
   rain       cool           normal      true       N
   overcast   cool           normal      true     P
   sunn y      mild           high         false       N
   sunny     cool           normal      false       P
   rain         mild           normal      false       P
   sunny      mild           normal      true     P
   overcast   mild           high         true         P
   overcast   hot         normal      false       P
   rain         mild           high     true        N

   3.2
   该活动无法进行的概率是：5/14
   该活动可以进行的概率是：9/14
   因此样本集合的信息熵是：-5/14log(5/14) - 9/14log(9/14) = 0.940

   3.3
   接下来我们再看属性outlook信息熵的计算：
   outlook为sunny时，
   该活动无法进行的概率是：3/5
   该活动可以进行的概率是：2/5
   因此sunny的信息熵是：-3/5log(3/5) - 2/5log(2/5) = 0.971

   同理可以计算outlook属性取其他值时候的信息熵：
   outlook为overcast时的信息熵：0
   outlook为rain时的信息熵：0.971

   属性outlook的信息增益：gain(outlook) = 0.940 - (5/14*0.971 + 4/14*0 + 5/14*0.971) = 0.246

   相似的方法可以计算其他属性的信息增益：
   gain(temperature) = 0.029
   gain(humidity) = 0.151
   gain(windy) = 0.048

   信息增益最大的属性是outlook。

   3.4
   根据outlook把样本分成3个子集，然后把这3个子集和余下的属性
   作为输入递归执行算法。

4 代码演示
   4.1
   代码说明：
   代码只是演示上一节的例子，写的比较仓促，没有经过仔细的设计和编码，
   只是在fedora 16上做了初步的测试，所以有一些错误和不适当的地方。
   4.2
   编译：
       g++ -g -W -Wall -Wextra -o mytest main.cpp id3.cpp
   4.3
   执行:
       ./mytest
   4.4

id3.h:
================================================
// 2012年 07月 12日星期四 15:07:10 CST
// author: 李小丹(Li Shao Dan) 字殊恒(shuheng)
// K.I.S.S
// S.P.O.T

#ifndef ID3_H
#define ID3_H

#include
#include
#include

// value and index: >= 0, and index 0 is classification
// value and index: not decision is -1
class id3_classify {
public:
   id3_classify(int);
   ~id3_classify();

public:
   int push_sample(const int *, int);
   int classify();
   int match(const int *);
   void print_tree();

private:
   typedef std::list > > sample_space_t;

   struct tree_node {
       int index;
       int classification;
       std::map next;
       sample_space_t unclassified;
   };

private:

   void clear(struct tree_node *);
   int recur_classify(struct tree_node *, int);
   int recur_match(const int *, struct tree_node *);
   int max_gain(struct tree_node *);
   double cal_entropy(const std::map &, double);
   int cal_max_gain(const sample_space_t &);
   int cal_split(struct tree_node *, int);
   void att_statistics(const sample_space_t &,
           std::map > &,
           std::map > > &,
           std::map &);
   double cal_gain(std::map &,
           std::map > &,
           double, double);

   int is_classfied(const sample_space_t &);
   void dump_tree(struct tree_node *);

private:
   sample_space_t unclassfied;
   struct tree_node *root;
   std::map *attribute_values;
   int dimension;
};

#endif
===================================================

id3.cpp:
==================================================
// 2012年 07月 16日星期一 10:07:43 CST
// author: 李小丹(Li Shao Dan) 字殊恒(shuheng)
// K.I.S.S
// S.P.O.T

#include

#include
#include

#include "id3.h"

using namespace std;

id3_classify::id3_classify(int d)
:root(new struct tree_node), dimension(d)
{
   root->index = -1;
   root->classification = -1;
}

id3_classify::~id3_classify()
{
   clear(root);
}

int id3_classify::push_sample(const int *vec, int c)
{
   list > v;

   for(int i = 0; i < dimension; ++i)
       v.push_back(make_pair(i + 1, vec[i]));
   v.push_front(make_pair(0, c));

   root->unclassified.push_back(v);

   return 0;
}

int id3_classify::classify()
{
   return recur_classify(root, dimension);
}

int id3_classify::match(const int *v)
{
   return recur_match(v, root);
}

void id3_classify::clear(struct tree_node *node)
{
   unclassfied.clear();

   std::map &next = node->next;
   for(std::map::iterator pos
           = next.begin(); pos != next.end(); ++pos)
       clear(pos->second);

   next.clear();
   delete node;
}

int id3_classify::recur_classify(struct tree_node *node, int dim)
{
   sample_space_t &unclassified = node->unclassified;
   int cls;
   if((cls = is_classfied(unclassified)) >= 0) {
       node->index = -1;
       node->classification = cls;
       return 0;
   }
   int ret = max_gain(node);
   unclassified.clear();
   if(ret < 0) return 0;

   map &next = node->next;
   for(map::iterator pos
           = next.begin(); pos != next.end(); ++pos)
       recur_classify(pos->second, dim - 1);

   return 0;
}

int id3_classify::is_classfied(const sample_space_t &ss)
{
   const list > &f = ss.front();
   if(f.size() == 1)
       return f.front().second;

   int cls;
   for(list >::const_iterator p
           = f.begin(); p != f.end(); ++p) {
           if(!p->first) {
               cls = p->second;
               break;
           }
   }
   for(sample_space_t::const_iterator s
           = ss.begin(); s != ss.end(); ++s) {
       const list > &v = *s;
       for(list >::const_iterator vp
               = v.begin(); vp != v.end(); ++vp) {
           if(!vp->first) {
               if(cls != vp->second)
                   return -1;
               else
                   break;
           }
       }
   }
   return cls;
}

int id3_classify::max_gain(struct tree_node *node)
{
   // index of max attribute gain
   int mai = cal_max_gain(node->unclassified);
   assert(mai >= 0);
   node->index = mai;
   cal_split(node, mai);
   return 0;
}

int id3_classify::cal_max_gain(const sample_space_t &ss)
{
   map >att_val;
   map > >val_cls;
   map cls;

   att_statistics(ss, att_val, val_cls, cls);

   double s = (double)ss.size();
   double entropy = cal_entropy(cls, s);

   double mag = -1;        // max information gain
   int mai = -1; // index of max information gain

   for(map >::iterator p
           = att_val.begin(); p != att_val.end(); ++p) {
       double g;
       if((g = cal_gain(p->second, val_cls[p->first],
                       s, entropy)) > mag) {
           mag = g;
           mai = p->first;
       }
   }
   if(!att_val.size() && !val_cls.size() && cls.size())
       return 0;
   return mai;
}

void id3_classify::att_statistics(const sample_space_t &ss,
       map > &att_val,
       map > > &val_cls,
       map &cls)
{
   for(sample_space_t::const_iterator spl = ss.begin();
           spl != ss.end(); ++spl) {
       const list > &v = *spl;
       int c;
       for(list >::const_iterator vp
               = v.begin(); vp != v.end(); ++vp) {
           if(!vp->first) {
               c = vp->second;
               break;
           }
       }
       ++cls[c];
       for(list >::const_iterator vp
               = v.begin(); vp != v.end(); ++vp) {
           if(vp->first) {
               ++att_val[vp->first][vp->second];
               ++val_cls[vp->first][vp->second][c];
           }
       }
   }
}

double id3_classify::cal_entropy(const map &att, double s)
{
   double entropy = 0;
   for(map::const_iterator pos = att.begin();
           pos != att.end(); ++pos) {
       double tmp = pos->second / s;
       entropy += tmp * log2(tmp);
   }
   return -entropy;
}

double id3_classify::cal_gain(map &att_val,
       map > &val_cls,
       double s, double entropy)
{
   double gain = entropy;
   for(map::const_iterator att = att_val.begin();
           att != att_val.end(); ++att) {
       double r = att->second / s;
       double e = cal_entropy(val_cls[att->first], att->second);
       gain -= r * e;
   }
   return gain;
}

int id3_classify::cal_split(struct tree_node *node, int idx)
{
   map &next = node->next;
   sample_space_t &unclassified = node->unclassified;

   for(sample_space_t::iterator sp = unclassified.begin();
           sp != unclassified.end(); ++sp) {
       list > &v = *sp;
       for(list >::iterator vp = v.begin();
               vp != v.end(); ++vp) {
           if(vp->first == idx) {
               struct tree_node *tmp;
               if(!(tmp = next[vp->second])) {
                   tmp = new struct tree_node;
                   tmp->index = -1;
                   tmp->classification = -1;
                   next[vp->second] = tmp;
               }
               v.erase(vp);
               tmp->unclassified.push_back(v);
               break;
           }
       }
   }
   return 0;
}

int id3_classify::recur_match(const int *v, struct tree_node *node)
{
   if(node->index < 0)
       return node->classification;

   map::iterator p;
   map &next = node->next;

   if((p = next.find(v[node->index-1])) == next.end())
       return -1;

   return recur_match(v, p->second);
}

void id3_classify::print_tree()
{
   return dump_tree(root);
}

void id3_classify::dump_tree(struct tree_node *node)
{
   cout << "I: " << node->index << endl;
   cout << "C: " << node->classification << endl;
   cout << "N: " << node->next.size() << endl;
   cout << "+++++++++++++++++++++++\n";

   map &next = node->next;
   for(map::iterator p
           = next.begin(); p != next.end(); ++p) {
       dump_tree(p->second);
   }
}
====================================================

main.cpp:
===================================================
// 2012年 07月 18日星期三 13:59:10 CST
// author: 李小丹(Li Shao Dan) 字殊恒(shuheng)
// K.I.S.S
// S.P.O.T

#include

#include "id3.h"

using namespace std;

int main()
{
   enum outlook {SUNNY, OVERCAST, RAIN};
   enum temp {HOT, MILD, COOL};
   enum hum {HIGH, NORMAL};
   enum windy {WEAK, STRONG};

   int samples[14][4] = {
       {SUNNY   ,       HOT ,      HIGH ,       WEAK },
       {SUNNY   ,       HOT ,      HIGH ,       STRONG},
       {OVERCAST,       HOT ,      HIGH ,       WEAK },
       {RAIN    ,       MILD,      HIGH ,       WEAK },
       {RAIN    ,       COOL,      NORMAL,       WEAK },
       {RAIN    ,       COOL,      NORMAL,       STRONG},
       {OVERCAST,       COOL,      NORMAL,       STRONG},
       {SUNNY   ,       MILD,      HIGH ,       WEAK },
       {SUNNY   ,       COOL,      NORMAL,       WEAK },
       {RAIN    ,       MILD,      NORMAL,       WEAK },
       {SUNNY   ,       MILD,      NORMAL,       STRONG},
       {OVERCAST,       MILD,      HIGH ,       STRONG},
       {OVERCAST,       HOT ,      NORMAL,       WEAK },
       {RAIN    ,       MILD,      HIGH ,       STRONG}};

   id3_classify cls(4);
   cls.push_sample((int *)&samples[0], 0);
   cls.push_sample((int *)&samples[1], 0);
   cls.push_sample((int *)&samples[2], 1);
   cls.push_sample((int *)&samples[3], 1);
   cls.push_sample((int *)&samples[4], 1);
   cls.push_sample((int *)&samples[5], 0);
   cls.push_sample((int *)&samples[6], 1);
   cls.push_sample((int *)&samples[7], 0);
   cls.push_sample((int *)&samples[8], 1);
   cls.push_sample((int *)&samples[9], 1);
   cls.push_sample((int *)&samples[10], 1);
   cls.push_sample((int *)&samples[11], 1);
   cls.push_sample((int *)&samples[12], 1);
   cls.push_sample((int *)&samples[13], 0);

   cls.classify();
   cls.print_tree();
   cout << "===============================\n";
   for(int i = 0; i < 14; ++i)
       cout << cls.match((int *)&samples[i]) << endl;
   return 0;
}
================================================

探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
Humanize 项目教程尤嫒冰
Humanize项目教程humanizeAJSlibraryforaddinga“humantouch”todata.项目地址:https://gitcode.com/gh_mirrors/humani/humanize项目介绍Humanize是一个开源项目，旨在将机器生成的文本转换为更加自然、人性化的文本。该项目通过先进的算法和自然语言处理技术，使得AI生成的内容更加贴近人类的表达方式，从而提高
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
埃隆·马斯克表示特斯拉“没有必要”授权 xAI 模型喜好儿网人工智能 AIGC 马斯克
埃隆·马斯克近日在社交媒体上对《华尔街日报》的一篇报道进行了反驳。该报道指出，马斯克旗下的电动汽车公司特斯拉可能与人工智能初创公司xAI达成了一项收入分享协议，以便特斯拉能够使用xAI的人工智能模型。据称，这些模型将被集成到特斯拉的全自动驾驶（FSD）软件中，并可能用于开发特斯拉汽车的语音助手以及人形机器人擎天柱的软件。喜好儿网然而，马斯克否认了这一说法，他在社交媒体平台上表示，尽管特斯拉确实与x
Reflection 70B——HyperWrite推出的大型语言模型新加坡内哥谈技术语言模型人工智能自然语言处理
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/在AI技术飞速发展的过程中，我们已经见证了可以写作、编程，甚至创造艺术的模型问世。但有一
5条实操干货有效打造你的个人品牌长安行动派
这是ZerK的第46篇原创相信大家对个人品牌这个词已经不在陌生。尤其是在知识付费的年代，你的个人品牌，就是你的标签！在《深度工作》中说到，在未来有三种人会越来越贵第一种人:能与机器对话，操纵机器的人。人工智能时代的到来，机器毕竟部分取代人类。第二种人:IP，知识产权或者文学潜在财产就像有些网上课程一周卖出的钱和一个机构卖一年一样多。价值99元的课程，10万人购买，是很常见的。爱产出大概就是10万✖
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
怎么样才能成为专业的程序员？ cocos2d-x小菜编程 PHP
如何要想成为一名专业的程序员？仅仅会写代码是不够的。从团队合作去解决问题到版本控制，你还得具备其他关键技能的工具包。当我们询问相关的专业开发人员，那些必备的关键技能都是什么的时候，下面是我们了解到的情况。关于如何学习代码，各种声音很多，然后很多人就被误导为成为专业开发人员懂得一门编程语言就够了？！呵呵，就像其他工作一样，光会一个技能那是远远不够的。如果你想要成为
java web开发高并发处理 BreakingBad java Web 并发开发处理高
java处理高并发高负载类网站中数据库的设计方法（java教程,java处理大量数据，java高负载数据）一：高并发高负载类网站关注点之数据库没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用，数据库的响应是首先要解决的。一般来说MySQL是最常用的，可能最初是一个mysql主机，当数据增加到100万以上，那么，MySQL的效能急剧下降。常用的优化措施是M-S（
mysql批量更新 ekian mysql
mysql更新优化：一版的更新的话都是采用update set的方式，但是如果需要批量更新的话，只能for循环的执行更新。或者采用executeBatch的方式，执行更新。无论哪种方式，性能都不见得多好。三千多条的更新，需要3分多钟。查询了批量更新的优化，有说replace into的方式，即： replace into tableName(id,status) values
微软BI（3） 18289753290 微软BI SSIS
1) Q：该列违反了完整性约束错误；已获得 OLE DB 记录。源:“Microsoft SQL Server Native Client 11.0” Hresult: 0x80004005 说明:“不能将值 NULL 插入列 'FZCHID'，表 'JRB_EnterpriseCredit.dbo.QYFZCH'；列不允许有 Null 值。INSERT 失败。”。 A：一般这类问题的存在是
Java中的List g21121 java
List是一个有序的 collection（也称为序列）。此接口的用户可以对列表中每个元素的插入位置进行精确地控制。用户可以根据元素的整数索引（在列表中的位置）访问元素，并搜索列表中的元素。与 set 不同，列表通常允许重复
读书笔记永夜-极光读书笔记
1. K是一家加工厂,需要采购原材料,有A,B,C,D 4家供应商,其中A给出的价格最低,性价比最高,那么假如你是这家企业的采购经理,你会如何决策? 传统决策: A:100%订单 B,C,D:0% &nbs
centos 安装 Codeblocks 随便小屋 codeblocks
1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可yum install gccyum install gcc-c++ 2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档.yum install gtk2* 3. 安装wxGTK yum search w
23种设计模式的形象比喻 aijuans 设计模式
1、ABSTRACT FACTORY—追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 　　工厂模式：客户类和工厂类分开。消费者任何时候需要某种产品，只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时，工厂类也要做相应的修改。如：
开发管理 CheckLists aoyouzi 开发管理 CheckLists
开发管理 CheckLists(23) -使项目组度过完整的生命周期开发管理 CheckLists(22) -组织项目资源开发管理 CheckLists(21) -控制项目的范围开发管理 CheckLists(20) -项目利益相关者责任开发管理 CheckLists(19) -选择合适的团队成员开发管理 CheckLists(18) -敏捷开发 Scrum Master 工作开发管理 C
js实现切换百合不是茶 JavaScript 栏目切换
js主要功能之一就是实现页面的特效,窗体的切换可以减少页面的大小,被门户网站大量应用思路: 1,先将要显示的设置为display:bisible 否则设为none 2,设置栏目的id ,js获取栏目的id,如果id为Null就设置为显示 3,判断js获取的id名字;再设置是否显示代码实现: html代码: <di
周鸿祎在360新员工入职培训上的讲话 bijian1013 感悟项目管理人生职场
这篇文章也是最近偶尔看到的，考虑到原博客发布者可能将其删除等原因，也更方便个人查找，特将原文拷贝再发布的。“学东西是为自己的，不要整天以混的姿态来跟公司博弈，就算是混，我觉得你要是能在混的时间里，收获一些别的有利于人生发展的东西，也是不错的，看你怎么把握了”，看了之后，对这句话记忆犹新。 &
前端Web开发的页面效果 Bill_chen html Web Microsoft
1.IE6下png图片的透明显示： <img src="图片地址" border="0" style="Filter.Alpha(Opacity)=数值(100),style=数值(3)"/> 或在<head></head>间加一段JS代码让透明png图片正常显示。 2.<li>标
【JVM五】老年代垃圾回收：并发标记清理GC(CMS GC) bit1129 垃圾回收
CMS概述并发标记清理垃圾回收(Concurrent Mark and Sweep GC）算法的主要目标是在GC过程中，减少暂停用户线程的次数以及在不得不暂停用户线程的请夸功能，尽可能短的暂停用户线程的时间。这对于交互式应用，比如web应用来说，是非常重要的。 CMS垃圾回收针对新生代和老年代采用不同的策略。相比同吞吐量垃圾回收，它要复杂的多。吞吐量垃圾回收在执
Struts2技术总结白糖_ struts2
必备jar文件早在struts2.0.*的时候，struts2的必备jar包需要如下几个： commons-logging-*.jar Apache旗下commons项目的log日志包 freemarker-*.jar
Jquery easyui layout应用注意事项 bozch jquery 浏览器 easyui layout
在jquery easyui中提供了easyui-layout布局，他的布局比较局限，类似java中GUI的border布局。下面对其使用注意事项作简要介绍：如果在现有的工程中前台界面均应用了jquery easyui，那么在布局的时候最好应用jquery eaysui的layout布局，否则在表单页面（编辑、查看、添加等等）在不同的浏览器会出
java-拷贝特殊链表：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？ bylijinnan java
public class CopySpecialLinkedList { /** * 题目：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？拷贝pNext指针非常容易，所以题目的难点是如何拷贝pRand指针。假设原来链表为A1 -> A2 ->... -> An，新拷贝
color Chen.H JavaScript html css
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD>&nbs
[信息与战争]移动通讯与网络 comsci 网络
两个坚持:手机的电池必须可以取下来光纤不能够入户,只能够到楼宇建议大家找这本书看看:<&
oracle flashback query(闪回查询) daizj oracle flashback query flashback table
在Oracle 10g中，Flash back家族分为以下成员： Flashback Database Flashback Drop Flashback Table Flashback Query(分Flashback Query,Flashback Version Query，Flashback Transaction Query) 下面介绍一下Flashback Drop 和Flas
zeus持久层DAO单元测试 deng520159 单元测试
zeus代码测试正紧张进行中,但由于工作比较忙,但速度比较慢.现在已经完成读写分离单元测试了,现在把几种情况单元测试的例子发出来,希望有人能进出意见,让它走下去. 本文是zeus的dao单元测试: 1.单元测试直接上代码 package com.dengliang.zeus.webdemo.test; import org.junit.Test; import o
C语言学习三printf函数和scanf函数学习 dcj3sjt126com c printf scanf language
printf函数 /* 2013年3月10日20:42:32 地点：北京潘家园功能：目的：测试%x %X %#x %#X的用法 */ # include <stdio.h> int main(void) { printf("哈哈！\n"); // \n表示换行 int i = 10; printf
那你为什么小时候不好好读书? dcj3sjt126com life
dady, 我今天捡到了十块钱, 不过我还给那个人了 good girl! 那个人有没有和你讲thank you啊没有啦....他拉我的耳朵我才把钱还给他的, 他哪里会和我讲thank you 爸爸, 如果地上有一张5块一张10块你拿哪一张呢.... 当然是拿十块的咯... 爸爸你很笨的, 你不会两张都拿爸爸为什么上个月那个人来跟你讨钱, 你告诉他没
iptables开放端口 Fanyucai linux iptables 端口
1，找到配置文件 vi /etc/sysconfig/iptables 2，添加端口开放，增加一行，开放18081端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 18081 -j ACCEPT 3，保存 ESC :wq! 4，重启服务 service iptables
Ehcache（05）——缓存的查询 234390216 排序 ehcache 统计 query
缓存的查询目录 1. 使Cache可查询 1.1 基于Xml配置 1.2 基于代码的配置 2 指定可搜索的属性 2.1 可查询属性类型 2.2 &
通过hashset找到数组中重复的元素 jackyrong hashset
如何在hashset中快速找到重复的元素呢?方法很多，下面是其中一个办法： int[] array = {1,1,2,3,4,5,6,7,8,8}; Set<Integer> set = new HashSet<Integer>(); for(int i = 0
使用ajax和window.history.pushState无刷新改变页面内容和地址栏URL lanrikey history
后退时关闭当前页面 <script type="text/javascript"> jQuery(document).ready(function ($) { if (window.history && window.history.pushState) {
应用程序的通信成本 netkiller.github.com 虚拟机应用服务器陈景峰 netkiller neo
应用程序的通信成本什么是通信一个程序中两个以上功能相互传递信号或数据叫做通信。什么是成本这是是指时间成本与空间成本。时间就是传递数据所花费的时间。空间是指传递过程耗费容量大小。都有哪些通信方式全局变量线程间通信共享内存共享文件管道 Socket 硬件（串口，USB）等等全局变量全局变量是成本最低通信方法，通过设置
一维数组与二维数组的声明与定义恋洁e生二维数组一维数组定义声明初始化
/** * */ package test20111005; /** * @author FlyingFire * @date:2011-11-18 上午04:33:36 * @author ：代码整理 * @introduce :一维数组与二维数组的初始化 *summary： */ public c
Spring Mybatis独立事务配置 toknowme mybatis
在项目中有很多地方会使用到独立事务，下面以获取主键为例（1）修改配置文件spring-mybatis.xml  <tx:annotation-driven transaction-manager="transactionManager" /> &n
更新Anadroid SDK Tooks之后，Eclipse提示No update were found xp9802 eclipse
使用Android SDK Manager 更新了Anadroid SDK Tooks 之后，打开eclipse提示 This Android SDK requires Android Developer Toolkit version 23.0.0 or above, 点击Check for Updates 检测一会后提示 No update were found

数据挖掘：id3 算法

你可能感兴趣的:(人工智能,自然语言处理,信息检索)