zzugsh

机器学习(一) 数据抽取归一化标准化

机器学习

机器学习简介

图灵人工智能之父
马文李闵斯基对人工智能有突出贡献

机器学习: 比如说过滤一些邮件
深度学习: 识别猫的样子等等

计算能力和数据大小还有算法的发展影响人工智能的发展

机器学习深度学习做什么?

可以识别很多东西比如说车辆在街上的电子摄像头
医疗方面可以看X光识别什么病
图片艺术化代替PS的工作自动转化
信贷需求预测
店铺销量预测

包括:

自然语言处理
图像处理
传统预测

机器学习课程:

特征工程
模型策略优化
分类回归和聚类
Tensorflow
神经网络
图像识别
自然语言处理

机器学习概述

什么是机器学习?
机器学习是从数据中自动分析获得规律(模型)，并利用规律进行未知数据进行预测。

为什么需要机器学习?

解放生产力智能客服不知疲倦的可以进行24h的作业
解决专业问题 ET医疗帮助看病
提供社会便利杭州的城市大脑

领域:医疗航空教育物流电商
目的:让机器学习程序替代手动的步骤，减少企业的成本也提高企业的效率

数据集的收集和构成

从历史数据收集规律，一般是文件csv

mysql不用，原因:

性能瓶颈，读取速度遭到限制
格式不太符合机器学习要求的数据格式

pandas:可以直接读取数据，基于numpy:动态语言释放GIL(锁) 四个线程真正的多线程
构成:

可用的数据集
- kaggle特点:
  - 大数据竞赛平台
  - 真实数据
  - 数据量大
- scikit-learn
  - 数据量小
  - 易学习
    具體构成:数据值+目标值

特征工程的定义

pandas: 一个数据读取数据非常方便以及基本的格式处理格式的工具
sklearn: 对于特征的处理提供了强大的接口
特征工程
就是将原始数据转换成更好的代表预测模型潜在问题的特征的过程，从而提高了对未知数据的预测准确性。

scilit-learn库介绍

Python语言是机器学习工具
Scikit-learn包括许多知名的机器学习算法的实现
Scikit-learn文档完善容易上手丰富的API 使得在学术界很受欢迎
稳定版本是0.18

字典特征数据的抽取

特征抽取实例演示
sklearn特征抽取API
字典特征抽取
文本特征抽取

结论 : 特征抽取对文本数据进行特征值化
作用 : 对字典数据进行特征值化
特征抽取API: sklearn.feature_extraction.DictVectorizer

DictVectorizer(sparse = True,…)

DictVectorizer.fit_transform(X)
- X: 字典或者包含字典的迭代器
- 返回值: 返回sparse矩阵
DictVectorizer.inverse_transform(X)
- X:array数组或者sparse矩阵
- 返回值:转换之前数据格式
DictVectorizer.get_feature_names)
- 返回类别名称
DictVectorizer.transform(X)
- 按照原先的标准转换

流程

实例化类 DictVectorizer
调用 fit_DictVectorizer方法输入数据并转换 注意返回格式

code举例:

# 导入包
from sklearn.feature_extraction import DictVectorizer
def dictvec():
    '''字典抽取'''
    # 实例化
    dict = DictVectorizer()
    # 调用fit_transform
    data = dict.fit_transform([{'city': '北京','temperature': 100}, {'city': '上海','temperature':60}, {'city': '深圳','temperature': 30}])
    print(data)
    return None

if __name__ == "__main__":
    dictvec()

输出:

  (0, 1)	1.0 # 节约内存 方便读取处理
  (0, 3)	100.0
  (1, 0)	1.0
  (1, 3)	60.0
  (2, 2)	1.0
  (2, 3)	30.0

code2:

# 导入包
from sklearn.feature_extraction import DictVectorizer
def dictvec():
    '''字典抽取'''
    # 实例化
    dict = DictVectorizer(sparse = False) # 指定False的话
    # 调用fit_transform
    data = dict.fit_transform([{'city': '北京','temperature': 100}, {'city': '上海','temperature':60}, {'city': '深圳','temperature': 30}])
    print(dict.get_feature_names())
    print(dict.inverse_transform(data))
    print(data)
    return None

if __name__ == "__main__":
    dictvec()

输出:

['city=上海', 'city=北京', 'city=深圳', 'temperature']
[{'city=北京': 1.0, 'temperature': 100.0}, {'city=上海': 1.0, 'temperature': 60.0}, {'city=深圳': 1.0, 'temperature': 30.0}]
[[  0.   1.   0. 100.]
 [  1.   0.   0.  60.]
 [  0.   0.   1.  30.]]

矩阵 ndarray的类型维度是2 二维数组
one-hot编码
[[ 0. 1. 0. 100.]
[ 1. 0. 0. 60.]
[ 0. 0. 1. 30.]]
字典数据抽取: 把字典中一些类别的数据，分别转换成特征
[‘city=上海’, ‘city=北京’, ‘city=深圳’, ‘temperature’]
数组形式的话有类别的这些特征先转换成字典数据再进行抽取
one-hot编码
我们做的是为每个类别生成一个布尔值，这些列中只有一列可以为每个样本取值为1，因此，术语一个热编码

文本特征抽取: Count

作用: 对文本数据进行特征值化
类: skearn.feature_extraction.text.CountVectorize

def countvec():
    '''对文本进行特征值化'''
    cv = CountVectorizer()
    data = cv.fit_transform(["hello world",'hello china hello puyang hello guosihan'])
    print(data.toarray()) # 数字代表的是统计次数
    print(cv.get_feature_names()) # 统计所有文章当中没有出现的重复的词 也就是重复的只看做一次
    return None

if __name__ == "__main__":
    # dictvec()
    countvec()

输出:

[[0 0 1 0 1]
 [1 1 3 1 0]]
['china', 'guosihan', 'hello', 'puyang', 'world']

注意:

统计所有文章当中所有的词，重复的只看做一次
对每篇文章，在词的列表里面进行统计每个词出现的次数
单个字母不统计对于单个英文字母不统计

中文的特征值化

code:

def cutword():
    con1 = jieba.cut("今天很残酷，明天很美好，所以不要放弃")
    con2 = jieba.cut("刚开始学习，首先要做到对老师和知识的“敬畏之心”。学习就要先信服老师，不服老师就别学")
    con3 = jieba.cut("所以，刚开始，你要照着老师说的，不打 一点 折扣的去执行，在练习的过程中慢慢体会，才能达到下一个“破”的境界")
    #转换成列表
    content1 = list(con1)
    content2 = list(con2)
    content3 = list(con3)
    #把列表转换成字符串
    c1 = ' '.join(content1)
    c2 = ' '.join(content2)
    c3 = ' '.join(content3)
    return c1,c2,c3

def hanzivec():
    '''中文特征值化'''
    cv = CountVectorizer()
    c1,c2,c3 = cutword()
    data = cv.fit_transform([c1,c2,c3])
    print(data.toarray())  # 数字代表的是统计次数
    print(cv.get_feature_names())
    return None

if __name__ == "__main__":
    # dictvec()
    hanzivec()

输出:

[[0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 1 1 0 0 0 1 0 0 0 0]
 [0 0 1 0 1 0 0 1 1 1 0 2 1 1 0 0 0 0 0 0 1 0 0 0 1 0 0 3 0 0 1]
 [1 1 0 0 0 0 1 0 0 0 1 0 0 1 1 1 1 1 1 0 0 0 0 1 0 1 0 1 1 1 0]]
['一个', '一点', '不服', '不要', '之心', '今天', '体会', '信服', '做到', '别学', '境界', '学习', '就要', '开始', '慢慢', '所以', '才能', '执行', '折扣', '放弃', '敬畏', '明天', '残酷', '照着', '知识', '练习', '美好', '老师', '达到', '过程', '首先']

tf-df分析问题

Tf: term frequency 词的频率
idf: 逆文档频率 inverse document frequency 出现的次数 log(总文档数量/该词出现的文档数)
注: log(数值): 输入的数值越小结果越小
tf * idf 称之为重要性
tf-df主要思想: 如果某个词或者短语在一篇文章中出现的频率比较高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。
作用: 用以评估一个词对于一个文件集或者一个语料库中的其中一份文件的重要程度。

def tfidfvec(): # 调查词汇的重要性
    c1,c2,c3 = cutword()
    print(c1,c2,c3)
    tf = TfidfVectorizer()
    tf = tf.fit_transform([c1,c2,c3])
    print(tf.toarray())  # 数字代表的是统计次数
    print(tf.get_feature_names())
    return None

if __name__ == "__main__":
    # dictvec()
    # hanzivec()
    tfidfvec()

输出:

今天 很 残酷 ， 明天 很 美好 ， 所以 不要 放弃 刚 开始 学习 ， 首先 要 做到 对 老师 和 知识 的 “ 敬畏 之心 ” 。 学习 就要 先 信服 老师 ， 不服 老师 就 别学 所以 ， 刚 开始 ， 你 要 照着 老师 说 的 ， 不 打   一点   折扣 的 去 执行 ， 在 练习 的 过程 中 慢慢 体会 ， 才能 达到 下 一个 “ 破 ” 的 境界
[[0.         0.         0.         0.38988801 0.         0.38988801
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.29651988 0.         0.
  0.         0.38988801 0.         0.38988801 0.38988801 0.
  0.         0.         0.38988801 0.         0.         0.
  0.        ]
 [0.         0.         0.23073104 0.         0.23073104 0.
  0.         0.23073104 0.23073104 0.23073104 0.         0.46146208
  0.23073104 0.1754769  0.         0.         0.         0.
  0.         0.         0.23073104 0.         0.         0.
  0.23073104 0.         0.         0.52643071 0.         0.
  0.23073104]
 [0.26982522 0.26982522 0.         0.         0.         0.
  0.26982522 0.         0.         0.         0.26982522 0.
  0.         0.20520903 0.26982522 0.20520903 0.26982522 0.26982522
  0.26982522 0.         0.         0.         0.         0.26982522
  0.         0.26982522 0.         0.20520903 0.26982522 0.26982522
  0.        ]]

特征预处理-归一化

特征预处理就是通过特定的统计方法(数学方法)将数据转换成算法要求的数据
对数值型数据: 标准缩放

归一化
标准化
缺失值
类别型数据: one-hot编码
时间类型: 时间的切分

sklearn特征预处理API

sklearn.preprocessing

归一化特点: 通过对原始数据进行变换把数据映射到(默认为[0,1])之间
公式:

X’’ = X’ * (mx - mi) + mi
注: 作用于每一列，max为一列的最大值，min为一列的最小值，那么X’‘为最终结果，mxmi分别为指定区间默认mx为1,mi为0.

MinMaxScalar语法
MinMaxScalar(feature_range = (0,1)...)

每个特征缩放到给定范围(默认[0,1])
MinMaxScalar.fit_transform(X)
- X:numpy array格式的数据[n_samples,n_features]
- 返回值: 转换后的形状相同的array

code:

def mm():
    '''归一化处理'''
    mm = MinMaxScaler(feature_range=(2,3))
    data = mm.fit_transform([[90,2,10,40],[60,4,15,45],[75,3,13,46]])
    print(data)
    return None

if __name__ == "__main__":
    # dictvec()
    # hanzivec()
    # tfidfvec()
    mm()

输出:

[[3.         2.         2.         2.        ]
 [2.         3.         3.         2.83333333]
 [2.5        2.5        2.6        3.        ]]

如果一组数据中三个特征同样重要时候，要进行归一化处理。
归一化目的: 使得某一个特征对最终结果不会造成更大的影响

异常点对最大值最小值影响太大
归一化总结: 注意在特定场景下最大值最小值是变化的，另外，最大值与最小值非常容易受异常点影响，所以这种方法鲁棒性较差，只适合传统精确小数据场景。

标准化:(使用最常见的)

注:异常点对标准化影响不大，但是是在一定数据量之上影响不大，从而方差改变较小。
skearn特征化API

sklearn.preprocessing.StandardScaler
处理之后每列来说所有数据都聚集在均值0附近标准差差为1

code:

def stand():
    '''标准化缩放'''
    std = StandardScaler()
    data = std.fit_transform([[1,-1,3],[2,4,2],[4,6,-1]])
    print(data)
    return None

if __name__ == "__main__":
    # dictvec()
    # hanzivec()
    # tfidfvec()
    # mm()
    stand()

(标准化)输出:

[[-1.06904497 -1.35873244  0.98058068]
 [-0.26726124  0.33968311  0.39223227]
 [ 1.33630621  1.01904933 -1.37281295]]

标准化总结:
在已有的样本足够多的情况下比较稳定，适合现代嘈杂大数据场景。
如何处理数据中的缺失值:
一般不建议删除建议去插补平均值和中位数之类的来填补
sklearn填补API: sklearn.preprocessing.Imputer

Imputer流程

初始化Imputer，指定"缺失值"，指定填补策略，指定行或列
缺失值也可以是别的指定要替换的值
调用fit_transform

code:

def imp():
    '''缺失值处理'''
    im = Imputer(missing_values= 'NaN',strategy='mean',axis=0) # 用平均值去填补 axis = 0 是按列
    data = im.fit_transform([[1,2],[np.nan,3],[7,6]])
    print(data)
    return None

if __name__ == "__main__":
    # dictvec()
    # hanzivec()
    # tfidfvec()
    # mm()
    # stand()
    imp()

输出:

[[1. 2.]
 [4. 3.]
 [7. 6.]]

MySQL存储结构深度解析：Buffer Pool与Page管理 hdzw20 mysql复习 mysql 数据库
MySQL存储结构解析：BufferPool与Page管理在MySQL的InnoDB存储引擎中，BufferPool是其核心组件之一，它极大地提升了数据库的性能。理解BufferPool的内部结构和工作机制，对于优化MySQL数据库至关重要。本文将讨论BufferPool的结构、三大链表、改进型LRU算法以及ChangeBuffer机制。1.BufferPool结构：控制块与缓存页BufferPo
广州曼顿2P数字微断：保护电力设备的安全守护者 mdkk678 安全
在现代社会，电力设备的安全运行对各行各业至关重要。然而，电力系统中存在各种电压波动、过载和短路等问题，可能对设备造成损害。为了保护电力设备免受这些问题的影响，广州曼顿推出了2P数字微断器。本文将介绍这一创新产品的特点和优势，以及它对电力设备的保护作用。广州曼顿科技有限公司专注用户侧智慧数字电气产品研制，以及智慧电能服务大数据云平台建设。基于人工智能技术，大幅提升人触电时的生命安全保障，以及电气火灾
【车载测试之CAPL编程系列】：【16】函数定义(2)
车载测试CAPL编程系列：CAPL中的函数定义(2)目录函数定义的基本形式参数类型与返回值函数重载（Overload）返回值限制：不能返回数组AI总结函数定义的基本形式CAPL函数定义具有灵活性，可根据需求设计无返回值、无参数的函数。无返回值、无参数的函数返回值类型：若函数无返回值，可声明为void，且void关键字可省略（CAPL特性，区别于C语言）。参数：允许无参数，但必须保留空括号()。示例
多模态大语言模型arxiv论文略读（151）胖头鱼爱算法 #mllm_arxiv 语言模型人工智能自然语言处理论文阅读论文笔记
ANovelMLLM-basedApproachforAutonomousDrivinginDifferentWeatherConditions➡️论文标题：ANovelMLLM-basedApproachforAutonomousDrivinginDifferentWeatherConditions➡️论文作者：SondaFourati,WaelJaafar,NouraBaccar➡️研究机构:
语言模型 RLHF 实践指南（一）：策略网络、价值网络与 PPO 损失函数
在使用ProximalPolicyOptimization（PPO）对语言模型进行强化学习微调（如RLHF）时，大家经常会问：策略网络的动作概率是怎么来的？价值网络的得分是如何计算的？奖励从哪里来？损失函数怎么构建？微调后的旧轨迹还能用吗？这篇文章将以语言模型强化学习微调为例，结合实际实现和数学公式，深入解析PPO的关键计算流程。1️⃣策略网络：如何计算动作概率？策略网络πθ(a∣s)\pi_\t
多模态大语言模型arxiv论文略读（152）胖头鱼爱算法 #mllm_arxiv 语言模型人工智能自然语言处理论文笔记论文阅读
VidComposition:CanMLLMsAnalyzeCompositionsinCompiledVideos?➡️论文标题：VidComposition:CanMLLMsAnalyzeCompositionsinCompiledVideos?➡️论文作者：YunlongTang,JunjiaGuo,HangHua,SusanLiang,MingqianFeng,XinyangLi,RuiM
Android 高通平台修改摄像头拍照偏暗的问题
Android高通平台某款摄像头拍照会偏暗，修改摄像头拍照偏暗的问题按如下方法修改。开发云-一站式云服务平台.../chromatix_gc02m1/preview/chromatix_gc02m1_preview.h|10+++++-----1filechanged,5insertions(+),5deletions(-)diff--gita/vendor/qcom/proprietary/mm
AI+区块链：代购系统如何破解碳足迹追踪“数据黑箱”？
绿色电商趋势：代购系统如何实现碳足迹追踪与可持续物流？在全球气候危机与可持续发展目标的双重驱动下，绿色电商正从概念走向实践。作为跨境电商的核心环节，代购系统如何通过技术创新实现碳足迹追踪与可持续物流，成为行业突破增长瓶颈、构建差异化竞争力的关键。本文结合技术架构、行业实践与未来趋势，解析代购系统在绿色转型中的路径选择。一、碳足迹追踪：从数据孤岛到全链路透明1.技术架构：区块链+IoT构建可信数据链
Three.js 实现导出模型文件（.glb,.gltf）功能 GLTFExporter
Three.js提供了导出（.glb,.gltf）文件的APIGLTFExporter用于实现场景内容导出模型文件的功能导出模型文件主要使用parse方法，该方法接收三个参数：1.scene：要导出的场景对象。2.onComplete：解析完成后的回调函数，接收一个参数result，表示解析后的glTF数据。3.options：可选参数，用于配置导出的选项。下面是options的一些常用参数选项：
python 包管理工具uv
uv--versionuvpythonfinduvpythonlistexportUV_DEFAULT_INDEX="https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple"#换成私有的repoexportUV_HTTP_TIMEOUT=120uvpythoninstall3.12uvvenvmyenv--python3.12--seeduvhtt
青少年编程与数学 02-022 专业应用软件简介 24 项目管理工具：Trello
青少年编程与数学02-022专业应用软件简介24项目管理工具：Trello引言一、Trello的发展背景与历程1.1创立初衷1.2被Atlassian收购二、Trello的核心功能与特性2.1看板式任务管理（KanbanBoard）2.2卡片内容丰富性2.3自动化与规则引擎（Butler）2.4团队协作与权限管理三、Trello的应用场景与行业应用3.1软件开发与敏捷项目管理3.2市场营销与内容策
Python通关秘籍之基础教程(一） Smile丶Life丶 Python 通关指南：从零基础到高手之路 python 开发语言后端
引言在编程的世界里，Python就像一位温和而强大的导师，它以简洁优雅的语法和强大的功能吸引着无数初学者和专业人士。无论你是想开发网站、分析数据、构建人工智能，还是仅仅想学习编程思维，Python都是你的理想选择。Python的魅力在于它的易读性和广泛的应用场景。它的代码就像英语句子一样自然，即使是完全没有编程经验的人也能快速上手。同时，Python拥有庞大的生态系统，从Web开发（Django、
Android四大组件：Broadcast giaoho 安卓开发学习 android
Android四大组件：Broadcast-1.标准广播（Normalbroadcasts）执行特性：完全异步，广播发出后，所有接收器几乎同时接收，无先后顺序。效率与拦截：效率高，但无法被截断。流程：发出广播后，多个接收器同时接收，中“发出广播”向“广播接收器1、2、3”同时传递。有序广播（Orderedbroadcasts）执行特性：同步执行，同一时刻仅一个接收器接收，执行完逻辑后广播才继续传递
如果让计算机理解人类语言- One-hot 编码（One-hot Encoding，1950s）
如果让计算机理解人类语言-One-hot编码（One-hotEncoding，1950s）flyfish如果让计算机理解人类语言-One-hot编码（One-hotEncoding，1950s）如果让计算机理解人类语言-词袋模型（BagofWords,BoW，1970s）如果让计算机理解人类语言-Word2Vec（WordtoVector，2013）如果让计算机理解人类语言-Qwen3Embedd
Python 包管理工具（uv） cliffordl python python uv 开发语言
Python虚拟环境（conda）Python虚拟环境（venv）Python包管理工具（uv）文章目录1.uv的特点2.安装uv2.1.使用官方推荐方式2.2.使用pip安装（Python>=3.8）2.3.使用conda/mamba安装3.基本使用方法3.1.初始化项目并创建虚拟环境3.1.1.CMD运行结果3.1.2.VScode运行结果3.2.安装依赖3.3.生成依赖文件3.4.使用pyp
Python协程从入门到精通：9个案例解析yield、gevent与asyncio实战 python_chai Python python 开发语言协程并发 yield生成器 gerrnlet gevent
引言痛点分析：传统多线程在高并发场景下的性能瓶颈。协程优势：轻量级、高并发、低资源消耗。本文目标：通过9个代码案例，系统讲解协程的核心技术和应用场景。目录引言1.协程基础：理解yield生成器1.1yield的暂停与恢复机制1.2生产者-消费者模型实战1.3双向通信：send()方法详解2.手动协程控制：greenlet进阶2.1greenlet的显式切换原理2.2多任务协作案例3.自动化协程：g
IDEA Maven报错无法解析 com.taobao:parent:pom:1.0.1【100%解决此类型问题】 Dolphin_Home 私有_案例分析生产环境_场景抽象 Debug intellij-idea maven java
IDEAMaven报错无法解析com.taobao:parent:pom:1.0.1【100%解决此类型问题】报错日志PSD:\Learn_Materials\IDEA_WorkSpace\Demo\spring_test_demo>mvncleaninstall-U[INFO]Scanningforprojects...[WARNING][WARNING]Someproblemswereenco
多模态大模型发展全景：从架构创新到应用突破陈敬雷-充电了么-CEO兼CTO python 大模型多模态大模型 AIGC 机器学习深度学习 DeepSeek
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】《GPT多模态大模型与AIAgent智能体》新出书籍配套视频【陈敬雷】推荐算法系统实战全系列精品课【陈敬雷】文章目录GPT多模态大模型系列四多模态大模型发展全景：从架构创新到应用突破更多技术内容总结GPT多模态大模型系列四多模态大模型
大模型中标斩获3项第一！百度智能云
今年1-4月，百度智能云在主流大模型厂商中一举拿下三项第一！数量最多！中标项目数量7个！行业最全！覆盖最多行业6个！金额最高！中标金额总数最高5600万+南方电网、泰康保险、北京车网、中华总工会、上海城投污水处理有限公司等行业头部客户，纷纷与百度智能云达成合作，体现出大模型技术在政策、市场的双轮驱动下的强劲增长态势。百度智能云将继续深化与行业客户合作，共同探索大模型技术在各行业的应用场景，推动行业
C语言正则表达式使用详解
标准的C和C++都不支持正则表达式，但有正则表达式的函数库提供这功能.C语言处理正则表达式常用的函数有regcomp()、regexec()、regfree()和regerror()。使用正则表达式步骤：1)编译正则表达式regcomp()2)匹配正则表达式regexec()3)释放正则表达式regfree()4)获取regcomp或者regexec产生错误，获取包含错误信息的字符串函数声明如下：
PHP安全编程实践系列（三）：安全会话管理与防护策略软考和人工智能学堂 php #php程序设计经验 php 安全开发语言
前言会话管理是Web应用安全的核心环节，不安全的会话实现可能导致用户账户被劫持、敏感数据泄露等严重后果。本文将深入探讨PHP中的会话安全机制，分析常见会话攻击手段，并提供全面的防护策略和实践方案。一、会话安全基础1.1PHP会话机制工作原理理论：PHP会话是通过会话ID（SessionID）在服务器和客户端之间维持状态的一种机制。关键流程包括：会话初始化：session_start()调用会话ID
Python异步编程终极指南：用协程与事件循环重构你的高并发系统
title:Python异步编程终极指南：用协程与事件循环重构你的高并发系统date:2025/2/24updated:2025/2/24author:cmdragonexcerpt:深入剖析Python异步编程的核心机制。你将掌握：\n事件循环的底层实现原理与调度算法\nasync/await协程的6种高级用法模式\n异步HTTP请求的性能优化技巧（速度提升15倍+）\n常见异步陷阱的26种解决
python 异步编程：协程与 asyncio 花_城 Python 开发语言后端异步协程
文章目录一、协程（coroutine）1.1协程的概念1.2实现协程的方式二、asyncio异步编程2.1事件循环2.2快速上手2.3运行协程2.4await关键字2.5可等待对象2.5.1协程2.5.2任务（Task）2.5.3asyncio.Future三、concurrent.futures.Future（补充）3.1爬虫案例（asyncio+不支持异步的模块）四、asyncio异步迭代器五
进阶之App 测试一只舰性能测试
App知识点什么是activityActivity一个应用程序的组件，它提供一个屏幕来与用户交互。Activity:应用程序中，一个Activity就相当于手机屏幕，它是一种可以包含用户界面的组件，主要用于和用户进行交互。一个应用程序可以包含许多活动，比如事件的点击，一般都会触发一个新的Activity。Activity生命周期四种状态:1、运行2、暂停3、停止4、系统回收（killed）Andr
虚幻引擎UE5专用服务器游戏开发-19 设置头顶状态条可见性控制 AA陈超虚幻 ue5 游戏引擎 c++游戏服务器
头顶状态条的动态显示控制。状态条会根据与玩家角色的距离（默认300单位）进行自动隐藏，并通过定时器（默认0.2秒频率）持续检测距离变化。当角色由本地玩家控制时，状态条会自动隐藏。代码采用服务器-客户端初始化架构，并包含碰撞设置、组件创建等基础角色配置。Source/Crunch/Public/Character/CCharacter.h：变量：//计时器频率UPROPERTY(EditDefaul
LeetCode 第91题：解码方法
题目描述：一条包含字母A-Z的消息通过以下映射进行了编码1-A......26-Z要特别注意，11106可以映射为AAJF或KJF06不是一个合法编码给你一个只含数字的非空字符串s，请计算并返回解码方法的总数。如果没有合法的方法解码整个字符串，返回0示例1：输入：s="12"输出：2解释：它可以解码为"AB"（12）或者"L"（12）。示例2：输入：s="226"输出：3解释：它可以解码为"BZ"
Python面试题：Python中的异步编程：详细讲解asyncio库的使用超哥同学 Python系列 python 开发语言面试编程
Python的异步编程是实现高效并发处理的一种方法，它使得程序能够在等待I/O操作时继续执行其他任务。在Python中，asyncio库是实现异步编程的主要工具。asyncio提供了一种机制来编写可以在单线程内并发执行的代码，适用于I/O密集型任务。以下是对asyncio库的详细讲解，包括基本概念、用法、示例以及注意事项。1.基本概念1.1协程（Coroutines）协程是一个特殊的函数，它可以被
嵌入式学习-Day8 不想学习\？？! 学习
c语言day8通过过指针来访问寄存器#defineGPIO_CTLO((uint32_t*)0x40012000)GPIO_CTLO=0XFFFFFFFF;0x40012000是一个十六进制数值，此时编译器不认为他是一个地址通过强制转换，让编译器认为他是一个地址，(uint32_t*)0x40012000此时可以将0x40012000理解为定义指针变量时，uint32_t*p中的p*（(uint3
新手向:实现验证码程序 nightunderblackcat Java新手开发语言 java maven spring intellij-idea spring boot spring cloud
本文将从零开始，通过一个简单的验证码程序。即使你没有任何编程基础，也能跟着这篇文章一步步学习。第一章：Java开发环境搭建1.1安装JDK要开始Java编程，首先需要安装Java开发工具包(JDK)。JDK是Java开发的核心，包含了运行Java程序所需的工具和库。访问Oracle官网下载适合你操作系统的JDK运行安装程序，按照提示完成安装配置环境变量（这一步很重要，确保你可以在任何目录下运行Ja
百度斩获大模型中标第一，股价上涨5% 大力财经百度
7月7日（周一），百度（BIDU.US）股价上涨5%，收报90.68美元。最新数据显示，2025上半年我国大模型相关项目呈现爆发式增长态势：中标项目累计达1810个，金额突破64亿元，中标项目数超2024全年，市场需求持续释放。其中，百度智能云表现尤为突出，以48个中标项目和5.1亿元中标金额，稳居“双第一”，并在金融、能源、政务、制造等重点行业中持续领跑。依托领先的大模型技术与全栈智能基础设施，
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag

机器学习(一) 数据抽取 归一化 标准化

机器学习

机器学习简介

机器学习概述

数据集的收集和构成

特征工程的定义

scilit-learn库介绍

字典特征数据的抽取

流程

文本特征抽取: Count

中文的特征值化

tf-df分析问题

特征预处理-归一化

标准化:(使用最常见的)

你可能感兴趣的:(人工智能_1)

机器学习(一) 数据抽取归一化标准化