weixin_39613561

3 dim 机器学习_黑马程序员3天入门机器学习Day1学习笔记

3 dim 机器学习_黑马程序员3天入门机器学习Day1学习笔记_第1张图片

1.数据集的介绍
字典特征抽取
文本特征提取
- 1.根据词频
- 2.根据词的重要性

特征预处理
- 1.归一化
- 标准化

特征降维
- Filter过滤式：低方差过滤法
- PCA降维

机器学习第一天

基础不牢，地动山摇。直接上手tf，连很多机器学习的基础包都不会使用。比如sklearn, pandas （使用sklearn 来做特征工程， pandas 用于数据的清洗和数据的处理）这些数据处理库，因此回去回炉重造，学习机器学习先。学习的视频是黑马程序员的机器学习视频。

视频和资料链接 提取码：1234

本篇文章内容：

3 dim 机器学习_黑马程序员3天入门机器学习Day1学习笔记_第2张图片

3 dim 机器学习_黑马程序员3天入门机器学习Day1学习笔记_第3张图片

开发流程

1）获取数据
2）数据处理
3）特征工程
4）机器学习算法训练 - 模型
5）模型评估
6）应用

第一天内容主要讲了前3项内容。使用sklearn完成一系列数据处理的工作。

1.数据集的介绍

sklearn 包中包含了很多数据集。比如波士顿的房价信息，鸢尾花数据集等等。小数据集，下载sklearn的时候也顺带下载了，如果是大数据集还需要另外去下载。

1.sklearn.datasets

load* 获取小规模数据集已经保存到了本地
fetch_* 获取大规模数据集还需要从网上下载这个数据集

数据集是以字典的方式返回的，所以调用数据的时候可以有两种调用方式。 1)dict["key"] = values

2)dict.key = values

学习任何一个深度学习视频都知道，有了数据，需要将数据分成训练集和测试集。 sklearn中使用train_split将数据集分开： sklearn.model_selection.train_split(array, *options)

x:数据集的特征值

y：数据集的标签值

test_size 测试集的大小，一般为float

random_state 随机数种子

return 训练集特征值（x_train），测试纸的特征值（x_test），训练集的目标值（y_train），测试集的目标值（y_test）

def datasets_demo():
    """
    sklearn数据集使用
    :return:
    """
    # 获取数据集
    iris = load_iris()
    print("鸢尾花数据集：n", iris)
    print("查看数据集描述：n", iris["DESCR"])
    print("查看特征值的名字：n", iris.feature_names)
    print("查看特征值：n", iris.data, iris.data.shape)

    # 数据集划分
    x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=22)
    print("训练集的特征值：n", x_train, x_train.shape)

    return None

输出结果：iris数据集内容，DESCR描述，feature,data.shape

字典特征抽取

提取特征的步骤：

1.实例化sklearn功能函数
2.调用fit_transform（数据的根据实例化函数的功能，对数据进行响应的处理。）
3.print

def dict_demo():
   """
   字典特征抽取
   :return:
   """
   data = [{'city': '北京','temperature':100}, {'city': '上海','temperature':60}, {'city': '深圳','temperature':30}]
   # 1、实例化一个转换器类
   transfer = DictVectorizer(sparse=False)

   # 2、调用fit_transform()
   data_new = transfer.fit_transform(data)
   print("data_new:n", data_new(), type(data_new))
   print("特征名字：n", transfer.get_feature_names())

   return None

输出

data_new:
 [[  0.   1.   0. 100.]
 [  1.   0.   0.  60.]
 [  0.   0.   1.  30.]] 
特征名字：
 ['city=上海', 'city=北京', 'city=深圳', 'temperature']

这种方式的输出有很多0（即冗余），因此我们通常使用sparse参数，只输出有数值部分的坐标。

    transfer = DictVectorizer(sparse=True)

输出

data_new:
   (0, 1) 1.0
  (0, 3) 100.0
  (1, 0) 1.0
  (1, 3) 60.0
  (2, 2) 1.0
  (2, 3) 30.0 
特征名字：
 ['city=上海', 'city=北京', 'city=深圳', 'temperature']

文本特征提取

1.根据词频

英文文本特征提取

使用sklearn.feature_extraction.text的CountVectorizer。调用方式同上：

def count_demo():
    """
    文本特征抽取：CountVecotrizer
    :return:
    """
    data = ["life is short,i like like python", "life is too long,i dislike python"]
    # 1、实例化一个转换器类
    transfer = CountVectorizer(stop_words=["is", "too"])

    # 2、调用fit_transform
    data_new = transfer.fit_transform(data)
    print("data_new:n", data_new.toarray())
    print("特征名字：n", transfer.get_feature_names())

    return None

CountVectorizer(stop_words=["is", "too"])通过stop_words 可以去除统计一些word的词频。

输出

data_new:
 [[0 1 2 0 1 1]
 [1 1 0 1 1 0]]
特征名字：
 ['dislike', 'life', 'like', 'long', 'python', 'short']

中文本文特征提取

这个是通过空格来区分单词，对于中文而言，单词间就没有空格，因此需要多一步操作。这里调用一个能够分词的库： jieba

import jieba

def cut_word(text):
    """
    进行中文分词："我爱北京天安门" --> "我 爱 北京 天安门"
    """
    return " ".join(list(jieba.cut(text)))
    #join函数，就是将text中文本加入空格。

#中文特征提取代码
def count_chinese_demo2():
    """
    中文文本特征抽取，自动分词
    :return:
    """
    # 将中文文本进行分词
    data = ["一种还是一种今天很残酷，明天更残酷，后天很美好，但绝对大部分是死在明天晚上，所以每个人不要放弃今天。",
            "我们看到的从很远星系来的光是在几百万年之前发出的，这样当我们看到宇宙时，我们是在看它的过去。",
            "如果只用一种方式了解某样事物，你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。"]

    data_new = []
    for sent in data:
        data_new.append(cut_word(sent))
    # print(data_new)
    # 1、实例化一个转换器类
    transfer = CountVectorizer(stop_words=["一种", "所以"])

    # 2、调用fit_transform
    data_final = transfer.fit_transform(data_new)
    print("data_new:n", data_final.toarray())
    print("特征名字：n", transfer.get_feature_names())

    return None

2.根据词的重要性

如何判断一篇文章在说什么？没错，就是 关键词！在谷歌之前的搜索，都是通过一篇文章中，词的出现频率来对结果进行搜索排序。谷歌搜索的创新就是在于将引用最多的文章放到最前面。所以并不是说一个单词出现的频率越高这个单词就越重要。应该是这篇文章有，而其他文章没有的单词，这个才更有 辨识度。

在sklearn库中，TfidfVectorzer负责这个功能（这个函数比前面根据词频的函数用的更多）

def tfidf_demo():
    """
    用TF-IDF的方法进行文本特征抽取
    :return:
    """
    # 将中文文本进行分词
    data = ["一种还是一种今天很残酷，明天更残酷，后天很美好，但绝对大部分是死在明天晚上，所以每个人不要放弃今天。",
            "我们看到的从很远星系来的光是在几百万年之前发出的，这样当我们看到宇宙时，我们是在看它的过去。",
            "如果只用一种方式了解某样事物，你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。"]

    data_new = []
    for sent in data:
        data_new.append(cut_word(sent))
    # print(data_new)
    # 1、实例化一个转换器类
    transfer = TfidfVectorizer(stop_words=["一种", "所以"])

    # 2、调用fit_transform
    data_final = transfer.fit_transform(data_new)
    print("data_new:n", data_final.toarray())
    print("特征名字：n", transfer.get_feature_names())

    return None

特征预处理

1.归一化

为了有一个量纲，不要让一些数值小的参数被数值大的参数所掩盖，所以我们使用归一化处理，让大家在同一起跑线。计算公式： mx，mi是你指定区间的数值大小。

3 dim 机器学习_黑马程序员3天入门机器学习Day1学习笔记_第4张图片

读入数据使用Pandas的read_csv()函数。归一化的函数

def minmax_demo():
    """
    归一化
    :return:
    """
    # 1、获取数据
    data = pd.read_csv("dating.txt")
    data = data.iloc[:, :3] #只取数据的前三列数据
    print("data:n", data)

    # 2、实例化一个转换器类
    transfer = MinMaxScaler(feature_range=[2, 3])

    # 3、调用fit_transform
    data_new = transfer.fit_transform(data)
    print("data_new:n", data_new)

    return None

标准化

归一化的缺点：如果有几个数值异常，那么就会影响整个归一化矩阵。所以引入了标准化

定义：原始数据转换成为均值为0，标准差为1的范围内

3 dim 机器学习_黑马程序员3天入门机器学习Day1学习笔记_第5张图片

对于归一化来说：如果出现异常点，影响了最大值和最小值，那么结果显然会发生改变
对于标准化来说：如果出现异常点，由于具有一定数据量，少量的异常点对于平均值的影响并不大，从而方差改变较小。

调用sklearn中的StandardScaler()函数

def stand_demo():
    """
    标准化
    :return:
    """
    # 1、获取数据
    data = pd.read_csv("dating.txt")
    data = data.iloc[:, :3]
    print("data:n", data)

    # 2、实例化一个转换器类
    transfer = StandardScaler()

    # 3、调用fit_transform
    data_new = transfer.fit_transform(data)
    print("data_new:n", data_new)
    return None

特征降维

3 dim 机器学习_黑马程序员3天入门机器学习Day1学习笔记_第6张图片

降维：顾明思议，就是降低数据的维度（减少不重要的信息，加快处理的速度）

Filter过滤式：低方差过滤法

如果两个数据的方差很大,则这个数据有意义。

特征方差小：某个特征大多样本相近，那么这些数据就是冗余

特征=方差大：那么这些特征都有意义，需要保留。

最后如何去表达两遍参数之间的相关程度呢？这里我们使用相关系数来表示两个变量的相关程度，公式如下

3 dim 机器学习_黑马程序员3天入门机器学习Day1学习笔记_第7张图片

比如我们的x,y如下图所示

3 dim 机器学习_黑马程序员3天入门机器学习Day1学习笔记_第8张图片

计算结果

3 dim 机器学习_黑马程序员3天入门机器学习Day1学习笔记_第9张图片

相关系数为+0.9942>0，因此x,y是呈现正相关。

r>0 两变量正相关，r<0两变量负相关
|r|=1 两变量完全相关，r=0无相关
|r|<0.4 低度相关，0.4<|r|<0.7显著性相关， |r|>0.7 高度线性相关。

计算相关性使用到了scipy库。 numpy,scipy的关系图：

3 dim 机器学习_黑马程序员3天入门机器学习Day1学习笔记_第10张图片

来自Python numpy，scipy，pandas这些库的区别是什么？

库的调用方法同上： 1）先实例化一个转换器类 2）调用fit_transform

from sklearn.feature_selectioarn.decomposition import PCA
from scipy.stats import pearsonr
def variance_demo():
    """
    过滤低方差特征
    :return:
    """
    # 1、获取数据
    data = pd.read_csv("factor_returns.csv")
    data = data.iloc[:, 1:-2]
    print("data:n", data)

    # 2、实例化一个转换器类
    transfer = VarianceThreshold(threshold=10) #去除低方差数据

    # 3、调用fit_transform
    data_new = transfer.fit_transform(data)
    print("data_new:n", data_new, data_new.shape)

    # 计算某两个变量之间的相关系数
    r1 = pearsonr(data["pe_ratio"], data["pb_ratio"])
    print("相关系数：n", r1)

    r2 = pearsonr(data['revenue'], data['total_expense'])
    print("revenue与total_expense之间的相关性：n", r2)
    plt.figure(figsize=[20, 8], dpi=100)  # figsize 设定fig的长宽高
    plt.scatter(data['revenue'], data['total_expense'])
    plt.show()
    return None

PCA降维

降维中，PCA降维用的比较多，我觉得比较好的PCA讲解视频：中字主成分分析法（PCA）| 分步步骤解析看完你就懂了！ PCA的原理比较复杂，这个视频我觉得讲的很通俗和清楚。如果只是想学一下如何调用就无需关系。看代码就行。 PCA降维代码

from sklearn.decomposition import PCA

def pca_demo():
    """
    PCA降维
    :return:
    """
    data = [[2,8,4,5], [6,3,0,8], [5,4,9,1]]

    # 1、实例化一个转换器类
    #n_components=小数， 表示保留百分之多少的信息
    #整数；减少到多少特征
    transfer = PCA(n_components=0.95)

    # 2、调用fit_transform
    data_new = transfer.fit_transform(data)
    print("data_new:n", data_new)
    return None

n_components=小数，表示保留百分之多少的信息；若为整数；减少到多少特征

完，以上为Day1的内容。

你可能感兴趣的:(3,dim,机器学习)

Hive--桶表 XK&RM Hive hive
目录1.为什么要使用桶表？？？2.桶表分桶规则3.桶表的创建3.1DLL3.2数据3.3DML3.4查看桶表里面的数据3.5临时表创建并加载数据3.6把临时表的数据加载到桶表里面4.桶表的查询4.1桶表查询全表的数据4.2桶表查看第一个桶里面的数据4.3查看第二个桶里面的数据4.4查看第三个桶里面的数据4.5查看桶表固定行数据4.6桶表查询语法4.7其他查询5桶表、分区表的区别6两个桶表之间的Jo
华为OD-2024年E卷-分批萨[100分] 菲儿啊华为od
文章目录题目描述输入描述输出描述用例1解题思路Python3源码题目描述吃货"和"馋嘴"两人到披萨店点了一份铁盘（圆形）披萨，并嘱咐店员将披萨按放射状切成大小相同的偶数个小块。但是粗心的服务员将披萨切成了每块大小都完全不同奇数块，且肉眼能分辨出大小。由于两人都想吃到最多的披萨，他们商量了一个他们认为公平的分法：从"吃货"开始，轮流取披萨。除了第一块披萨可以任意选取外，其他都必须从缺口开始选。他俩选
学习嵌入式必须学习32单片机吗？嵌入式开发胖胖单片机学习嵌入式硬件
不要去学STM32”。我不是说STM32不好，而是这种为了学习单片机而去学习单片机的思路不对。你问，如何系统地入门学习stm32？这本身就是一个错误的问题。假如你会使用8051，会写C语言，那么STM32本身并不需要刻意的学习。你要考虑的是，我可以用STM32实现什么?为什么使用STM32而不是8051?是因为51的频率太低，无法满足计算需求
面试题——Java中的锁 m0_67265654 面试学习路线阿里巴巴 java javascript 开发语言
文章目录谈谈你对线程安全的理解？1、synchronized关键字是怎么用的？1.1构造方法可以使用synchronized关键字修饰么？1.2使用String作为锁对象，会有什么问题？1.3synchronized的底层原理有了解吗？1.4synchronized怎么保证可重入性？可见性？抛异常怎么办？1.4还使用过其他锁吗？（ReentrantLock）1.5ReentrantLock的实现原
【含文档+PPT+源码】基于SpringBoot和Vue的编程学习系统小咕聊编程 spring boot vue.js 学习
项目介绍本课程演示的是一款基于SpringBoot和Vue的编程学习系统，主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的Java学习者。1.包含：项目源码、项目文档、数据库脚本、软件工具等所有资料2.带你从零开始部署运行本套系统3.该项目附带的源码资料可作为毕设使用该SpringBoot+Vue的编程学习系统，后端采用SpringBoot架构，前端采用Vue+ElementUI实现页
Oracle 18c RAC(cdb多租户)+ADG备库部署以及维护 iverycd DataGuard 18c rac dg
Oracle18cRAC+ADG备库部署以及维护一、环境部署1.1主机配置1.2实施步骤1.3部署FAQ二、DataGuard数据库应用日志模式2.1ActiveDataGuard模式2.2Real-TimeApply实时应用模式2.3备库停止日志应用三、维护使用3.1打开与关闭RAC+DG数据库3.2检查主备库的归档日志号3.3检查备库的归档日志同步情况以及应用指标参数3.4查看主备库的模式3.
2024华为OD机试真题-符号运算-(C++/Python)-C卷D卷-200分 2024剑指offer 华为od c++python java
【华为OD机试】-(C卷+D卷)-2024最新真题目录题目描述给定一个表达式，求其分数计算结果。表达式的限制如下：所有的输入数字皆为正整数（包括0）仅支持四则运算（+-*,/）和括号结果为整数或分数，分数必须化为最简格式（比如6，3/4，7/8，90/7）除数可能为0，如果遇到这种情况，直接输出"ERROR"输入和最终计算结果中的数字都不会超出整型范围用例输入一定合法，不会出现括号匹配的情况输入描
libcurl编译是出现的error LNK2019: 无法解析的外部符号 __imp__IdnToAscii@20解决方法李洛克07 技术攻关
网上介绍的都是假的，静态库不能编译过。本人在xp32，win732，win764下面均试过，输出同样的结果。只有编译动态库，引用动态库才能成功。一共两种情况，第一，如果是使用nmake/fmakefile.vcmode=staticVC=10，此处为release版本，如果添加DEBUG=yes为debug版本。则在新建工程，使用libcurl库时时出现：1>libcurld.lib(idn_wi
【论文笔记】3DGS压缩相关工作2篇 AndrewHZ 深度学习新浪潮论文阅读 3DGS 计算机图形学算法三维高斯飞溅压缩方法
1.背景介绍：NVS神经辐射场（NeRFs）引入了一种基于多层感知机（MLP）的新型隐式场景表示方法，它将体密度编码作为几何形状和方向辐射的代理量。渲染通过光线行进的方式来执行。这一解决方案为新视图合成（NVS）带来了前所未有的视觉质量，但代价是训练多层感知机的优化过程极为耗时，且渲染速度很慢。有几种方法加速了训练和渲染过程，通常是利用空间数据结构或者像哈希这样的编码方式，不过牺牲了视觉质量。近期
BZOJ3843: ZCC loves Army L_0_Forever_LF BZOJ 多校 LCT splay
把树转成左儿子右兄弟的那种二叉树的形式发现一个点能且仅能给他的子树传递order，询问3就变成了询问一个点到根有多少个点对于传递message，可以给每个点定一个编号0的虚儿子，给他赋权1，就变成了询问两点间路径的权值和，注意要特判一个点是另一个点的祖先的情况，bzoj上的数据有误，不判这个才能过，hdu上的数据是对的可以去那里交对于操作1，把某个人的一段儿子截下来，可以用n棵splay处理每个人
BZOJ3850: ZCC Loves Codefires L_0_Forever_LF BZOJ 多校贪心数学
考虑最优的顺序满足什么性质设两个部件A,B顺序为A在B前面，费用分别是a,b，耗时ta,tb，中间部分费用和S，耗时和T如果最优顺序中A在B前面(A,B前后的部件显然不需要考虑)，则有ata+Sta+b(ta+T+tb)ST>btb于是Sta#include#include#include#include#include#include#include#include#include#includ
ZC3201 耐压40V输出12V 300mA LDO HPT_Lt 嵌入式硬件
概述ZC3201是一款40V高精度微安级功率LDO稳压器。只有luA的功耗使其适用于大多数高压节电系统。其最大工作电压高达40V.其他功能包括低压差，±1%的极高输出精度，限流保护和高纹波抑制比。ZC3201采用SOT89-3，SOT23-3和SOT23-5封装。特点宽工作电压范围:2.5-40V输出电压:1.8V、2.5V、3.0V、3.3V、3.6V、4.0V、4.2V、5.0V、5.3V、5
AI大模型学习笔记-- 大模型应用技术架构 AI大模型-搬运工人工智能学习笔记语言模型大模型 AI大模型 AI
AI大模型学习笔记--大模型应用技术架构大模型就像是大脑，就像孩子从小学习说话和认知世界一样，通过大量的数据学习，能够理解语言、识别图像、玩游戏、写作、作曲等。如果2023年是AI大模型爆发的一年，很多大厂投入到大模型的研发中，很多创业者通过AI大模型拿到了大笔融资，那对于2024年，将是AI大模型应用大爆发的一年，将有更多的普通人加入到这一浪潮中来。今天，请跟着我一起来揭开大模型应用的神秘面纱，
【蓝桥杯单片机】第十二届省赛 promising-w 蓝桥杯蓝桥杯单片机嵌入式硬件
一、真题二、模块构建1.编写初始化函数(init.c)voidCls_Peripheral(void);关闭ledled对应的锁存器由Y4C控制关闭蜂鸣器和继电器由Y5C控制2.编写LED函数（led.c）voidLed_Disp(unsignedcharucLed);将ucLed取反的值赋给P0开启锁存器关闭锁存器3.编写数码管函数（seg.c）voidSeg_Tran(unsignedchar
Hive 3.1 在 metastore 运行的 remote threads houzhizhen hive hive hadoop 数据仓库
Remotethreads是仅当Hivemetastore作为单独的服务运行是启动，请求需要开启compactor。有以下几种：1.AcidOpenTxnsCounterService统计当前open的事务数从表TXNS中统计状态为open的事务。此事务数量可以再hivemetrics中。2.AcidHouseKeeperService定期调用txnHandler.performTimeOuts(
恒流驱动革新：ZCC6303凭实力替代SY7301 HPT_Lt 嵌入式硬件
在电子设备的稳定运行中，恒流驱动芯片扮演着至关重要的角色，其性能直接影响设备的使用寿命与运行效果。随着技术迭代，ZCC6303恒流驱动芯片凭借显著优势，成为替代SY7301的理想之选，为行业发展注入新活力。性能升级，稳定输出ZCC6303在恒流精度上实现重大突破，相较于SY7301，其输出电流波动更小，能精准控制在极小误差范围内。以LED照明应用为例，使用SY7301时，可能会因电流细微波动导致灯
AI 代理 x Sui：开启 Web3 自动化新时代！ Sui_Network 人工智能 web3 自动化游戏大数据
AI代理正在重塑Web3，它们通过更高的自动化、智能化和适应性，使去中心化应用（DApp）更高效。这些自主程序能够分析数据、与智能合约交互，并实时执行任务，从而提升资产管理效率、增强安全性，并提供更动态的用户体验和交互方式。随着Web3的不断发展，AI代理正成为链上流程优化的重要工具，并不断拓展Web3的可能性。从自动化DeFi策略、实时安全监测，到数据分析洞察，甚至是meme生成，AI代理的应用
AcWing 429. 奖学金（寒假每日一题）入门组程序员朱帅数据结构笔记计算机 c++
题目描述某小学最近得到了一笔赞助，打算拿出其中一部分为学习成绩优秀的前5名学生发奖学金。期末，每个学生都有3门课的成绩:语文、数学、英语。先按总分从高到低排序，如果两个同学总分相同，再按语文成绩从高到低排序，如果两个同学总分和语文成绩都相同，那么规定学号小的同学排在前面，这样，每个学生的排序是唯一确定的。任务：先根据输入的3门课的成绩计算总分，然后按上述规则排序，最后按排名顺序输出前五名学生的学号
aws aurora vs mysql_GitHub - NageNalock/aws-AuroraVsMySQL: Aurora 与 MySQL 对比试验俠之大者 aws aurora vs mysql
RDS-Aurora与RDS-MySQL性能对比实验实验目的使用Sysbench对Aurora与MySQL进行基准测试,对比二者的读写性能.本实验大约耗时30分钟,实验区域为俄勒冈(您也可以根据实际情况自行更改)涉及组件RDS-AuroraRDS-MySQLEC2实验步骤重要本实验默认您已经拥有了AWS账户并创建了IAM用户若未执行以上设置，可参考这里配置VPC将安全组的入站规则设置为Type:A
计算机网络socket实验报告2,计算机网络socket编程实验报告.docx 超级爱喝水
Socket编程实验报告一、程序代码(1)服务器端#include#include#pragmacomment(lib,"ws2_32.lib")voidmain(){WORDwVersionRequested;WSADATAwsaData;interr;wVersionRequested=MAKEWORD(1,1);err=WSAStartup(wVersionRequested,&wsaDat
rust建深海_使用 Rust 构建个人博客（1） - Warp 后端框架 Zeldovich Yakov rust建深海
需求背景一个朋友买了一个云主机(就是300元3年的那种)云主机配置是：CPU：vCPU2内存：2G硬盘：40G带宽：1M公网IP：1个预装的系统是：Windows2008R2这台机器上，跑了一些他自己的东西，虽然机器整体性能不咋的，但是总觉得还可以再“挖掘”一些性能(挤一挤总是会有的)，所以还在跑一个自己的博客。技术选型最初他问我的时候，我就让他用WAMP+WordPress，方便、省事儿，而且W
AI大语言模型(LLM)：电商行业的搜索革命与未来趋势搞技术的妹子人工智能语言模型智能电视
大语言模型：电商行业的搜索革命与未来趋势一、大语言模型在电商搜索中的应用1.提升搜索精准度2.改善搜索召回率3.虚拟购物助手二、大语言模型与生成性AI的结合1.生成性AI：从搜索到对话式购物体验2.提升个性化推荐三、大语言模型的未来展望1.电商与LLM的深度融合2.面临的挑战与机遇随着人工智能的快速发展，电商行业正在经历一场深刻的变革。尤其是在搜索技术方面，大语言模型（LLM）正逐渐成为提升用户体
【量子退火（Quantum Annealing, QA）在Machine Learning Classification中的应用】搞技术的妹子机器学习量子计算人工智能
随着量子计算技术的发展，**量子退火（QuantumAnnealing,QA）成为了优化问题中一种潜力巨大的方法。它不仅可以用于求解传统优化问题，还被逐渐应用于机器学习领域，特别是机器学习分类（MachineLearningClassification）**任务中。在这篇博客中，我们将探讨量子退火在机器学习分类中的应用，并通过一个实际的案例来展示如何使用量子退火优化分类模型。什么是量子退火（Qua
AcWing 寒假每日一题 2021-01-17 奖学金陵游gentian yxc yyds 算法 c++排序
AcWing429.奖学金（传送门）思路分析：这是一个多关键字排序问题。总分，高在前语文，高在前学号，小在前这里提供两种方法：写法1：重载小于号AC代码：#include#includeusingnamespacestd;constintN=310;intn;structStudent{intsto,sum,chinese,math,english;//重载小于号，是固定语法booloperato
16进制（十六进制）和二进制之间的转换驜鸈 java
1.二进制与十六进制的基本关系二进制：每个二进制位（bit）表示一个数字，取值只能是0或1。十六进制：每个十六进制数字可以表示4位二进制数。所以，1个十六进制数字可以表示4位二进制数（即一个半字节或nibble）。而2个十六进制数字就能表示8位二进制数，也就是1字节。2.为什么2个十六进制数表示8位二进制数我们来看看二进制和十六进制的对照关系：十六进制二进制00000100012001030011
【Linux】之【Bug】VMware 虚拟机开机一直卡在黑屏左上角下划线闪烁界面 Htht111 Linux bug linux bug 运维
解决参考：解决Ubuntu20.04开机黑屏光标闪烁进不去系统Centos根目录100%解决思路当前界面ctrl+alt+f3-f6暂时进入终端界面df-h查看发现根目录磁盘空间已满执行命令查看当前目录占用内存明细sudodu-h-x--max-depth=1清理无用的大内存文件或者安装了ncdu也能使用该命令查看内存使用明细删除了几个无用的大内存文件后，关机再开机就能正常进入用户登录界面进行使用
《信息学奥赛一本通编程启蒙C++版》3431-3435（5题） dllglvzhenfeng 小学生C++编程入门小学生C++趣味编程创新 c++开发语言一本通启蒙人工智能算法 GESP CSP-J
3431：【例75.2】区间合并信息学奥赛一本通-编程启蒙（C++版）在线评测系统[例75.2]区间合并信息学奥赛一本通-编程启蒙（C++版）在线评测系统ACWing803.区间合并（C++）ACWing803.区间合并（C++）-CSDN博客算法基础之离散化&区间合并-c++&python算法基础之离散化&区间合并-c++&python_autoitem:add-CSDN博客ACwing803区
基于 Rust 与 GBT32960 规范构建高并发、高可用、高扩展服务端程序编码浪子 Rust学习 php 开发语言
一、需求背景如今，数字化发展特别快，各种设备和系统之间要频繁地交换数据，而且这个过程变得越来越复杂。很多行业都有难题，既要处理大量的数据，又得快速响应各种命令。比如说在智能交通这一块，路上跑的车得和后台管理系统一直保持联系。车要不停地把自己的位置、跑多快、车子有没有毛病这些数据传给后台，同时还要接收后台发来的指令，像限速要调整了，或者重新规划一下行车路线。在工业物联网的场景里，到处都是传感器和执行
二维随机变量 Shockang 机器学习数学通关指南机器学习人工智能数学概率论
前言本文隶属于专栏《机器学习数学通关指南》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见《机器学习数学通关指南》正文1.二维随机变量基础1.1基本定义二维随机变量(X,Y)(X,Y)(X,Y)是由两个定义在同一概率空间上的随机变量XXX和YYY组成的向量样本空间：每个试验结果e∈Se\inSe∈S对应到平面上的一个点(X(e),Y(e))(
似然函数与极大似然估计 Shockang 机器学习数学通关指南机器学习人工智能数学概率论
前言本文隶属于专栏《机器学习数学通关指南》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见《机器学习数学通关指南》正文1.似然函数：直观理解与数学定义核心概念似然函数是机器学习中参数估计的基石，它从数据与模型之间的关系出发，提供了一种优化参数的数学框架。直观理解：假设你正在调整相机参数以拍摄最清晰的照片。似然函数就像是一个"清晰度指标"，告诉
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他