peter6768

sklearn-4特征工程与数据表示

1 分类变量

任务根据美国人年龄，工作，教育水平等特征判定这人年收入比50000美元大还是小

问题有的特征不是数值型，比如性别（男或女），工作类型等，而监督学习模型需要都是数值型的特征，可以通过one-hot编码解决

1.1 one-hot编码（虚拟变量）

举例，如何用one-hot表示星期几？创七个特征分别表示周一到周末，如果是周一，则周一特征值为1，其他全为0

如何使用one-hot 1pandas（更方便） 2sklearn

1.1.1 检查字符串编码的分类数据

调用pd.get_dummies(data)获取onehot处理的数据，然后用logistic回归模型进行预测，发现准确度只有80%，因为使用onehot后一个特征虽然分成多个0-1特征但很多0特征相同，导致结果不理想

解决方法 1在同时包含训练集和测试集的dataframe调用get_dummies 2保证分别调用tr，te的列名相同

1.1.2 数字编码分类变量

直接用onehot的问题 1拼写有误的属性可能会变成独立的特征 2onehot虽然用01表示但模型会将01识别为连续的数，而实际01只想表示两种不同的分类，而不是当作连续数值处理 3使用get_dummies只会处理字符串的值，不会处理其他数值，比如整数

解决 1可用sklearn的OneHotEncoder指定哪些变量连续哪些变量离散 2将df的整数类别列先转化类型为str，再给get_dummies参数传入comumns=[]指定要处理的列

    def test_onehot_classifier(self):
        demo_df = pd.DataFrame({'integer feature': [0,1,2,1], 'categorical feature': ['sock','box','fox','box']})
        display(demo_df)
        demo_df['integer feature'] = demo_df['integer feature'].astype(str)
        display(pd.get_dummies(demo_df, columns=['integer feature', 'categorical feature']))

2 分箱，离散化，线性模型和树

数据预测准度与使用的模型有关，比如线性模型，树模型（决策树）

决策树与输入结构强相关，且无法预测，线性模型无法构造复杂模型，比如非直线模型，此时可以使用特征分箱（binning），也叫离散化（discretization），将数据分为多个特征

2.1 分箱

比如wave数据集，是一个单特征数据集，我们加载特征在-3到3之间的数据，将-3到3分成十个区间，每个点在哪个区间作为特征，总共有10个特征，10个特征用onehot编码，然后对10个特征的分箱训练（分箱训练需要用OneHotEncoder）（这样，就把单特征的wave数据集转化为了10个特征的onehot数据集）

    def test_plot_binning(self):
        bins = np.linspace(-3, 3, 11)
        which_bin = np.digitize(self.wave[0], bins=bins)
        encoder = OneHotEncoder(sparse=False).fit(which_bin)
        line = np.linspace(-3, 3, 1000, endpoint=False).reshape(-1, 1)
        x_bin, line_bin = encoder.transform(which_bin), encoder.transform(np.digitize(line, bins=bins))
        print(f'x_bin first 5: {x_bin[:5]}')
        reg = LinearRegression().fit(x_bin, self.wave[1])
        plot.plot(line, reg.predict(line_bin), label='linear regression binned')
        reg = DecisionTreeRegressor(min_samples_split=3).fit(x_bin, self.wave[1])
        plot.plot(line, reg.predict(line_bin), label='decision tree binned')
        plot.plot(self.wave[0], self.wave[1], 'o', c='k')
        plot.vlines(bins, -3, 3, linewidth=1, alpha=.2)
        plot.legend(loc='best')
        plot.ylabel('regression output')
        plot.xlabel('input feature')
        plot.show()

用分箱数据对wave数据集进行线性回归和决策树回归

结果 1决策树和线性模型完全重合

原因与解释 1因为每个分箱被看作一个特征，所有模型对单个特征的的预测都是相同的

总结 1分箱后，线性模型更加灵活（可预测非线性特征），决策树模型简化了（从过拟合向欠拟合发展） 2一般来说，分箱可以增加线性模型的预测效果（更灵活，可预测非线性模型） 3如果想拟合特征非线性可以考虑分箱

3 交互特征与多项式特征

如果想丰富线性模型的特征，可以给原始数据添加交互特征或多项式特征

用途统计建模或机器学习一些基本分析

3.1 学习原始特征

给分箱的x数据添加原始x数据，可学到偏移和斜率

    def test_plot_bin_gradient(self):
        bins = np.linspace(-3, 3, 11)
        which_bin = np.digitize(self.wave[0], bins=bins)
        # sparse默认为True，会返回降维的系数矩阵，这里False返回完整矩阵，否则np.hstack会报错
        encoder = OneHotEncoder(sparse=False).fit(which_bin)
        line = np.linspace(-3, 3, 1000, endpoint=False).reshape(-1, 1)
        x_bin, line_bin = encoder.transform(which_bin), encoder.transform(np.digitize(line, bins=bins))
        x_combined, line_combined = np.hstack([self.wave[0], x_bin]), np.hstack([line, line_bin])
        reg = LinearRegression().fit(x_combined, self.wave[1])
        print(f'line combine shape {line_combined.shape}')
        plot.plot(line, reg.predict(line_combined), label='linear regression combined')
        for bin in bins:
            plot.plot([bin, bin], [-3, 3], ':', c='k')
        plot.legend(loc='best')
        plot.ylabel('regression output')
        plot.xlabel('input feature')
        plot.plot(self.wave[0], self.wave[1], 'o', c='k')
        plot.show()

思考，为什么斜率是负的？

添加原始特征后，变成y=w1x1+w2。反推的话，斜率为负，即原始特征的系数w1为负，则分箱系数需比未添加原始特征时多。不算了，可能是线性代数解方程，大概算了下可能不对，算的w1小了w2就高，w2小了w1高，线性回归模型约束条件下可能w1为负最好

3.2 学习交互特征

学习交互特征，看下效果

    def test_plot_interaction_feature(self):
        bins, line = np.linspace(-3, 3, 11), np.linspace(-3, 3, 1000, endpoint=False).reshape(-1, 1)
        which_bin = np.digitize(self.wave[0], bins=bins)
        encoder = OneHotEncoder(sparse=False).fit(which_bin)
        x_bin, line_bin = encoder.transform(which_bin), encoder.transform(np.digitize(line, bins=bins))
        x_prod, line_prod = np.hstack([x_bin, self.wave[0] * x_bin]), np.hstack([line_bin, line * line_bin])
        print(f'x prod shape: {x_prod.shape}')
        reg = LinearRegression().fit(x_prod, self.wave[1])
        plot.plot(line, reg.predict(line_prod), label='linear regression product')
        for bin in bins:
            plot.plot([bin, bin], [-3, 3], ':', c='k')
        plot.plot(self.wave[0], self.wave[1], 'o', c='k')
        plot.ylabel('regression output')
        plot.xlabel('input feature')
        plot.show()

3.3 学习多项式特征

利用了泰勒，将拟合曲线展开泰勒级数

添加的特征为输入特征的x次幂，可传参指定

因为一次幂等于x，所以不需要再np.hstack合并特征

    def test_plot_polynomial_feature(self):
        line = np.linspace(-3, 3, 1000, endpoint=False).reshape(-1, 1)
        poly = PolynomialFeatures(degree=10, include_bias=False).fit(self.wave[0])
        x_poly = poly.transform(self.wave[0])
        reg = LinearRegression().fit(x_poly, self.wave[1])
        line_poly = poly.transform(line)
        plot.plot(line, reg.predict(line_poly), label='polynomial regression linear')
        plot.plot(self.wave[0], self.wave[1], 'o', c='k')
        plot.xlabel('input feature')
        plot.ylabel('regression output')
        plot.legend(loc='best')
        plot.show()

高次幂在边界会有极端表现

对比核svm，没有多项式这种极端表现

    def test_plot_svm_wave(self):
        line = np.linspace(-3, 3, 1000, endpoint=False).reshape(-1, 1)
        for gamma in (1, 10):
            svr = SVR(gamma=gamma).fit(*self.wave)
            plot.plot(line, svr.predict(line), label=f'SVR gamma={gamma}')
        plot.plot(*self.wave, 'o', c='k')
        plot.xlabel('input feature')
        plot.ylabel('regression feature')
        plot.legend(loc='best')
        plot.show()

对比发现，svm结果比polynomial好，且不需要显式特征变换

3.4 小结

交互特征作为一种手段，可以应用于其他模型上，比如线性模型，随机森林

新增特征对不同模型来说效果不同，有的会提升准度，有的会降低准度，需取舍

4 单变量非线性变换

除了给数据集添加交互特征核多项式特征，还可以添加非线性特征，比如log，exp，三角函数等特征

4.1 exp

将0-1的随机数按公式变换 y=10*exp(x)，然后统计y分布情况,然后对比下原始数据

    def test_plot_random_distribute(self):
        r = np.random.RandomState(0)
        x_org, w = r.normal(size=(1000, 3)), r.normal(size=3)
        x = r.poisson(10 * np.exp(x_org))
        y = np.dot(x_org, w)

        bins = np.bincount(x[:, 0])
        print(f'bins shape: {bins.shape}, bins [:5]: {bins[:5]}')
        fig, axes = plot.subplots(2, 1, figsize=(10, 10))
        axes[0].bar(range(len(bins)), bins)
        axes[0].set_ylabel('number of appearances')
        axes[0].set_xlabel('x')
        axes[1].hist(x_org[:, 0], bins=30)
        axes[1].set_ylabel('number of appearances')
        axes[1].set_xlabel('y')
        plot.show()

np.poisson表示泊松分布。发现数据处理后变成泊松分布了，数据处理前是正态分布

线性模型无法很好的处理非线性数据，可以试着预测下

    def test_predict_poisson_linear(self):
        r = np.random.RandomState(0)
        x_org, w = r.normal(size=(1000, 3)), r.normal(size=3)
        x, y = r.poisson(10 * np.exp(x_org)), np.dot(x_org, w)
        xtr, xte, ytr, yte = train_test_split(x, y, random_state=0)
        score = Ridge().fit(xtr, ytr).score(xte, yte)
        print(f'ridge predict poisson distribute score: {score}')

将数据处理为线性模型，会对ridge性能有所提升，比如再用对数函数处理回来

4.2 小结

交互特征和多项式特征一定程度可以提高线性模型性能

对基于树的模型一般没有明显提升，因为树可以自己发现重要的交互特征，不需要再处理变换数据

其他模型一定程度也可受益于新增特征，但没线性模型明显

5 自动化特征选择

增加特征缺点模型复杂化，更大可能过拟合

解决方法新增最有用的特征，不要新增无用特征

如何判断特征的用处有多大？ 1单变量统计 2基于模型选择 3迭代选择三种方法都是监督方法

5.1 单变量统计

概念计算每个特征和目标值之间是否存在统计显著性，选择具有最高置信度的特征。对分类问题讲，可以叫做方差分析。

特性单变量的，即每次单独考虑每个特征。比如如果一个特征只有和另一个特征合并时才有意义，此特征将被舍弃

操作 1选处理单变量特征对应的测试，分类问题是f_classif，回归问题是f_regression 2根据测试确定的p值选择一种舍弃特征的方法 3根据阈值舍弃p值过大的特征（阈值需要计算，有SelectKBest和SelectPercentile，前者选固定k个特征，后者选固定百分比的特征）

任务给原始数据添加一些噪声，通过单变量统计删除无用的特征

5.1.1 Percentile

使用SelectPercentile选择特征

    def test_feature_select_base(self):
        # show how to select features
        r = np.random.RandomState(42)
        noise = r.normal(size=(len(self.cancer.data), 50))
        cancer_noise = np.hstack([self.cancer.data, noise])
        xtr, xte, ytr, yte = train_test_split(cancer_noise, self.cancer.target, random_state=0, test_size=.5)
        select = SelectPercentile(percentile=50).fit(xtr, ytr)
        xtr_selected = select.transform(xtr)
        print(f'before select shape: {xtr.shape}, after select shape: {xtr_selected.shape}')

        # show which features are selected
        mask = select.get_support()
        print(f'feature selection mask: {mask}')
        plot.matshow(mask.reshape(1, -1), cmap='gray_r')
        plot.xlabel('sample index')
        plot.show()

发现大部分特征都是原始特征，但仍有部分特征来源噪声

将添加噪声特征的数据和选择特征后的数据用LogisticRegression分类模型训练，发现选择特征的约为94%，未选择特征的约为93%

用处如果比较耗资源，可以用此方法删掉一些特征，但需要注意是否删除的是无用特征

5.2 基于模型选择

概念通过监督学习模型选的特征，然后传入个阈值参数，将监督模型选的特征再用阈值过滤一遍

    def test_feature_select_from_model(self):
        noise = np.random.RandomState(42).normal(size=(len(self.cancer.data), 50))
        cancer_noise = np.hstack([self.cancer.data, noise])
        xtr, xte, ytr, yte = train_test_split(cancer_noise, self.cancer.target, random_state=0)
        select = SelectFromModel(RandomForestClassifier(n_estimators=100, random_state=42), threshold='median').fit(xtr, ytr)
        mask = select.get_support()
        plot.matshow(mask.reshape(1, -1), cmap='gray_r')
        plot.xlabel('sample index')
        plot.show()

相比于Percentile，原始特征多选了两个，用LogisticRegression训练，准度提高到约95%

5.3 迭代特征选择

对比

单变量统计没用监督模型选择特征

基于模型选择用单个模型选择特征

迭代特征选择用很多模型选择特征，每个模型使用不同数量的特征（有两种方法，一种是从0开始逐一添加特征，另一种是先用所有特征然后逐一删除特征）

特点成本高，因为构造了一系列模型并训练

递归特征消除（Recursive Feature Elimination, RFE) 是迭代特征选择的一种方法。先从所有特征建模，然后从模型舍弃一个最不重要特征，然后用剩下特征重新建模，再舍弃一个最不重要特征，循环往复知道剩余特征数量达到预期数量

看下RFE效果

    def test_feature_select_iter(self):
        noise = np.random.RandomState(42).normal(size=(len(self.cancer.data), 50))
        xtr, xte, ytr, yte = train_test_split(np.hstack([self.cancer.data, noise]), self.cancer.target, random_state=0, test_size=.5)
        select = RFE(RandomForestClassifier(n_estimators=100, random_state=42), n_features_to_select=40).fit(xtr, ytr)
        plot.matshow(select.get_support().reshape(1, -1), cmap='gray_r')
        plot.xlabel('sample index')
        plot.show()

发现RFE只漏了一个原始特征，但训练周期更长，因为训练了40次随机森林

5.4 小结

当不确定用什么特征时，可以使用自动化特征选择

如果大概确定用什么特征，可以构造交互特征或多项式特征

6 利用专家知识

即在建模训练时用一些已知的先验经验增加模型准确度

例子预测某人家门口租车情况，即每3小时内租车数量，数据集为mglearn.datasets.load_citibike()

数据集为单特征，特征为租车的时间

6.1 随机森林训练时间

将数据原始特征用随机森林训练，基本什么也没学到

因为决策树无法做预测

6.2 随机森林训练小时数

即使是未来时间租车，小时也总是在0-24范围内，假如用这个特征，那么可以使用随机森林学习

仅训练小时数的单特征准度约为60%

6.3 随机森林训练小时数和星期数

租车和工作日与否有关，可以添加星期几作为一个特征，和小时数作为两个特征训练随机森林模型

准确率大概达到84%

6.4 线性模型训练小时数和星期数

尝试用简单的线性模型训练

发现准确度大概只有13%，分析发现模型将整数编码的星期数和小时数视为连续变量，可以通过onehotEncoder编码将其转为分类变量再次训练

6.5 线性模型训练小时数和星期数onehotEncoder

准确率达到62%

6.6 添加交互特征和多项式特征

准确率达到85%，发现准确率和随机森林的差不多

和随机森林相比的优点是，可以看到特征对应的学习系数，而这在随机森林模型中是看不到的

算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
MCP协议：AI时代的“万能插座”如何重构IT生态与未来
MCP协议：AI时代的“万能插座”如何重构IT生态与未来在人工智能技术爆炸式发展的浪潮中，一个名为ModelContextProtocol（MCP）的技术协议正以惊人的速度重塑IT行业的底层逻辑。2024年11月由Anthropic首次发布，MCP在短短半年内获得OpenAI、谷歌、亚马逊、阿里、腾讯等全球科技巨头的支持，被业内誉为AI时代的HTTP协议或USB-C接口，正在成为连接大模型与现实世
《算法备案全攻略：规范与流程引领数字时代新秩序》算法及大模型备案顾问刘老师算法备案深度学习 AIGC 语言模型算法人工智能
一、算法备案：开启合规新征程（一）备案规定的起源与发展2022年国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》，自2022年3月1日起施行。此后，相关规定不断完善和演进。如国家网信办于2022年8月、10月及2023年1月先后三次公布了《境内互联网信息服务算法备案清单》。同时，2022年发布的最高人民法院《关于规范和加强人工智能司法应用
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python 实战人工智能数学基础：推荐系统应用 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术文章目录1.背景介绍2.核心概念与联系2.1用户画像2.2相似性计算2.2.1基于物品的相似度2.2.2基于用户的相似度2.3协同过滤算法2.3.1基于用户的协同过滤算法2.3.2基于物品的协同过滤算法2.3.3基于上下文的协同过滤算法3.核心算法原理和具体操作步骤以及数学模型公式详细讲解3.1基于用户的协同过滤算法3.2基于物品的协同过滤算法3.3混合协同过滤算法3.
Python桌面应用开发的未来——智能化工具与大模型赋能 IronwoodStag78
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！标题：Python桌面应用开发的未来——智能化工具与大模型赋能随着人工智能技术的飞速发展，传统软件开发模式正在被重新定义。Python作为一门功能强大且灵活的语言，在桌面应用开发领域一直占据重要地位。然而，面对日益复杂的用户需求和快速变化的技术环境，如何提升开发效率、降低开发门槛，成为开发者亟需解决的问题
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI产品经理需要了解的算法知识 AI劳模人工智能产品经理 AI产品经理 AI产品经理入门零基础入门产品经理算法语言模型
1、自然语言生成（NLG）自然语言生成（NaturalLanguageGeneration，简称NLG）是一种人工智能技术，它的目标是将计算机的数据、逻辑或算法产生的信息转换成人类可读的自然语言文本。换句话说，NLG能让机器“学会”写文章、报告、故事或者其他任何形式的文字，就像人类作家那样。这项技术使得机器能够理解复杂的数据并将其转化为易于理解的语言，以适应不同的受众和情境。应用实例：金融报告自动
【Python】OpenAI API 宅男很神经 python 开发语言
【Python与OpenAIAPI深度探索：从基础到未来】第一章：OpenAIAPI概览与核心概念1.1OpenAIAPI是什么？能做什么？OpenAIAPI(ApplicationProgrammingInterface，应用程序编程接口)是一套允许开发者通过编程方式访问和使用OpenAI开发的各种先进人工智能模型的服务。这些模型经过海量数据的训练，能够在多种任务上达到甚至超越人类水平。通过AP
Python：操作 Word 对齐方式 Thomas Kant Python python word c#
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】Python：操作Word对齐方式详解（左对齐/右对齐/居中/两端对齐）在日常办公自动化中，我们经常需要对Word文档中的段落设置对齐方式，如左对齐、右对齐、居中、两端对齐等。本文将带你使用python-docx库
TestCafe ➜ Playwright fixture 架构迁移指南 Thomas Kant 自动化测试 playwright testcafe typescript 测试架构
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】
医疗金融预测与语音识别中的模型优化及可解释性技术突破智能计算研究中心其他
内容概要随着人工智能技术的纵深发展，模型优化与可解释性技术正在重塑医疗诊断、金融预测及语音识别领域的应用范式。在医疗领域，基于自适应学习的动态参数调整机制，结合迁移学习的跨场景知识复用，显著提升了疾病筛查模型的泛化能力；而金融预测场景中，联邦学习框架通过分布式数据协作，在保障隐私安全的前提下，实现了风险预测模型的多维度优化。语音识别领域则依托边缘计算架构，将模型压缩技术与实时推理引擎结合，有效解决
【大模型与机器学习解惑】什么是A/B测试，为何进行A/B测试？
以下内容将围绕机器学习中的A/B测试展开，从概念与背景到实施细节、示例代码、优化思路和未来建议，并在最后给出一个整体的“输出目录”供参考。目录什么是机器学习的A/B测试为何要进行A/B测试A/B测试的实施流程示例代码与详细解释优化方向与未来建议结语1.什么是机器学习的A/B测试A/B测试（也常被称作对照试验、SplitTest）最早多用于互联网产品的功能或界面迭代中，指的是将用户或样本随机分为两组
【kafka】在Linux系统中部署配置Kafka的详细用法教程分享景天科技苑 linux基础与进阶 shell脚本编写实战 kafka linux 分布式 kafka安装配置 kafka优化
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，PyQt5和Tkinter桌面应用开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，云原生K8S，Prometheus监控，数据分析，Django
详解LLMOps，将DevOps用于大语言模型开发
大家好，在机器学习领域，随着技术的不断发展，将大型语言模型（LLMs）集成到商业产品中已成为一种趋势，同时也带来了许多挑战。为了有效应对这些挑战，数据科学家们转向了一种新型的DevOps实践LLM-OPS，专为大型语言模型的开发和维护而设计。本文将介绍LLM-OPS的核心思想，并分析这一策略如何帮助数据科学家更高效地运用DevOps的优秀实践，从而在语言模型的开发和部署过程中，提升工作效率和成果的
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多