松鼠MaSaKi

XGBOOST_航班延误预测

最近，想尝试一下利用机器学习进行航班的延误预测，一开始的倾向是使用GBDT算法，使用了在scikit-learn上的肿瘤数据作为初步模型测试，使用网格搜索后发现，其预测结果仅仅只有50%不到，还不如KNN——《机器学习之Knn算法》。

后来在网上看到了XGBOOST算法，于是常识了一波，准确率可以达到90%，比knn要强出5%以上，所以在模型的选择上，博主决定使用XGBOOST。

对于GBDT和XGBOOST的原理，以及各超参的控制机理，博主这边还只是初步尝试，后面会较深入的去琢磨一番，然后完善博客，但是工具的使用还是简单的，问题在于数据集。

一、航班数据集

1.1 搜集数据

国内的航班数据几乎没有，也没有免费的公开网站，而公司的数据几乎不可用，因为只有航线、航司、出发、到达、计划时间等，没有博主需要的实际时间、天气状况、航班号等。

为此博主花了一整天时间搜罗各大网站，终于发现了这个国外网站——stat-computing.org，貌似需要。可以查询到美国的航空公司航班准点率数据，博主选取的是2016年的。

此外，还有这位博主，提供的数据也被博主参考了进来——《通过使用 Python 创建机器学习模型来预测航班晚点情况》。

但是唯一遗憾就是缺少天气数据，经过不断的搜索，博主发现了一个美国气象局，可以查到2016年的历史天气数据——ATL亚特兰大国际机场天气状况

亚特兰大国际机场2016年1月部分数据

本想通过爬虫进行爬取数据，但实际情况不允许。不过博主也是讲table标签数据copy下来，然后利用python进行数据的整理与合并。

经过分析，博主个人认为风速和降水量，由于变化幅度大，可以作为影响航班的主要因素，隐藏只提取这两个因素作为天气指数。

1.2 天气数据处理和合并

由于是调研，选取的是美国大型航空公司——DL达美，并选取了五个机场：ATL(佐治亚州亚特兰大：哈茨菲尔德-杰克逊亚特兰大国际机场)、DTW(底特律韦恩县国际机场)、JFK(纽约：约翰·F·肯尼迪国际机场)、MSP(明尼苏达州明尼阿波利斯：明尼阿波利斯圣保罗国际机场）、SEA(华盛顿州：西雅图/塔科马国际机场)

由两个文件，一个是USA_fightDataSet.xlsx，这个Excel文件记录的是起飞时间、机场、计划飞行时间、实际飞行实际、航班号等数据；另一个是由机场和月份组成的60个txt文件，里面是html的table标签数据。

博主要做的就是将table标签里的当天的天气情况，即风速和降水量，插入到表格相应的位置，代码如下：

## 获取天气数据的类方法
import pandas as pd
import numpy as np
np.set_printoptions(threshold=np.inf)
# 获取数据
def getData(url, airport, mon):
    # 读取配置文件
    table = pd.read_html(url);

    # 数据行数
    dayOfMonth = np.array(table[1])[1:, 0]
    size = dayOfMonth.size

    # 选取最后一个元素进行判断，因为爬取的数据有时候最后一个又从1号开始，这里进行判断排除处理
    ele = dayOfMonth[size-1]
    if ele == '1':
        dayOfMonth = np.array(table[1])[1:size, 0]
        wsp_data = np.array(table[5])[1:size, 1]
        precipitation_data = table[7].values[1:size, 0]
    else :
        # 读取数据，这里将header删掉，取数据
        # 日
        dayOfMonth = np.array(table[1])[1:, 0]

        # windSpeed的平均值
        wsp_data = np.array(table[5])[1:, 1]

        # 降水量
        precipitation_data = table[7].values[1:, 0]

    # 填充月份
    size = dayOfMonth.size
    month = np.array([mon for i in range(size)])

    # 填充机场
    airport = np.array([airport for i in range(size)])

    # 输出结果
    return np.vstack([month, dayOfMonth, airport, wsp_data, precipitation_data]).T

# 迭代合并数组，从2开始
def fibonacci(n, airport):
    if n==2 :
        url1 = "D:\\File\\航班预测\\天气数据\\"+airport+"\\table" + str(1) + ".txt"
        url2 = "D:\\File\\航班预测\\天气数据\\"+airport+"\\table" + str(2) + ".txt"
        return np.concatenate([getData(url1, airport, 1), getData(url2, airport, 2)])
    else :
        url = "D:\\File\\航班预测\\天气数据\\"+airport+"\\table" + str(n) + ".txt"
        return np.concatenate([fibonacci(n-1, airport), getData(url, airport, n)])

# 将各机场数据拼接
def getWeatherData():
    result1 = fibonacci(12, 'ATL')
    result2 = fibonacci(12, 'DTW')
    result3 = fibonacci(12, 'JFK')
    result4 = fibonacci(12, 'MSP')
    result5 = fibonacci(12, 'SEA')
    return np.concatenate([result1, result2, result3, result4, result5])

##
## 调用上面的天气数据包，然后与USA_fightDataSet.xlsx表格数据进行合并
import weatherData.getWeatherData as gd
import numpy as np
import openpyxl
np.set_printoptions(threshold=np.inf)

# 获取天气数据结果
result = gd.getWeatherData()

# 获取FlightData表格数据
wb = openpyxl.load_workbook('D:\\File\\航班预测\\天气数据\\USA_fightDataSet.xlsx')
sheet = wb['FlightData_DL']

# 获取fightData的行数,必须+1,因为后面的for循环判断是<判断
rows = sheet.max_row+1

# 获取天气数据的行数
rows_weather = result.shape[0]

# 外层fightData数据
for i in range(3, rows):

    # 获取月份/日期/出发和到达机场名字
    # 注意，openpyxl读取的数据是从1开始计数的
    month = sheet.cell(row=i, column=3).value

    # 表格读取的数据莫名其妙不是字符串，导致后面判断总是false,需要转一下
    dayOfMonth = str(sheet.cell(row=i, column=4).value)
    ori_airport = sheet.cell(row=i, column=9).value  # 出发机场
    dest_airport = sheet.cell(row=i, column=13).value  # 到达机场

    # 内层循环天气数据
    for j in range(0, rows_weather):

        # 获取天气行数据
        weather_row = result[j]

        # 获取天气的各数据
        w_month = weather_row[0]
        w_dayOfMonth = weather_row[1]
        w_airport = weather_row[2]
        w_wsp = weather_row[3] # 风速
        w_precipitation = weather_row[4] # 降水量

        # 循环对比，如果月份/日期/机场名字都对应，则将风速和降水量插入表格
        if month == w_month and dayOfMonth == w_dayOfMonth and ori_airport == w_airport:
            sheet.cell(row=i, column=10).value = w_wsp
            sheet.cell(row=i, column=11).value = w_precipitation
        if month == w_month and dayOfMonth == w_dayOfMonth and dest_airport == w_airport:
            sheet.cell(row=i, column=14).value = w_wsp
            sheet.cell(row=i, column=15).value = w_precipitation

# 保存操作
wb.save('D:\\jdFile\\航班预测\\天气数据\\USA_fightDataSet.xlsx')

表格部分数据

1.3 数据集处理

我们可以看看是否有缺省值，即空值null，进行数据一次处理，补充空值，抽出label，删除无效feature

# 读取路径的xlsx文件
    dataFrame = pd.read_excel(url, sheet_name = sheetname)

    # 判断是否有缺省值,即空值,true表示有空值
    result = dataFrame.isnull().values.any()

    # 有空值，找到空值所在位置
    if result :
        position = dataFrame.isnull().sum()
        print(position)
    print(result)

根据网上说法，xgboost在进行预测的时候，只对数字敏感，而不需要考虑量纲问题，所以对数据清洗的时候，我们可以最大限度保留可能的影响因素。另外，既然是分类树的形式，那么我们为了准确率和速度，必须对数据进行合理的分类，保证离散值足够小，数据处理原则：

1、去掉年份维度，保留季度、月、日、周日期
2、航班号，如果涉及到了历史准点率，则考虑航班号，否则取消航班号维度，因为我们有起飞的时刻，不需要航班号
3、出发到达机场ID或者说起飞城市ID，重要，因为这个维度从宏观上控制了地理位置、地形、海拔等不变因素
4、机场规模要考虑，一般小机场延误情况严重一些（1-小机场，2-中机场，3-大机场）
5、机场的风速，根据表格中的风速(单位是迈，我们转为km/h)，对应风力等级，分为12个级别，减少数据散列程度

风力等级	风速(km/h)
0	<1
1	1-5
2	6-11
3	12-19
4	20-28
5	29-38
6	39-49
7	50-61
8	62-74
9	75-88
10	89-102
11	103-117
12	>117

6、降水量分为6个等级，减少散列程度

降雨等级	雨量(mm)
1	<10
2	10~24.9
3	25~49.9
4	50~99.9
5	100~250
6	>250

7、起飞时刻，这个维度散列值太多，我们可以÷100，将结果向下取整，其实就是小时，24个散列程度
8、飞行时长，对于国内航班，按照小时统计，÷60取整，缩小散列值
9、保留飞行距离

根据以上分析，将相应的数据补充进去

最终处理结果USA_fightDataSet

USA_fightDataSet

二、使用xgboost进行处理

我们根据《机器学习之Knn算法》文章，对数据集进行处理，分出feature、label、向量数据和特征矩阵值，并分解为训练集和测试集

2.1 读取文件数据得到train And test

import pandas as pd
import numpy as np
# np.set_printoptions(threshold=np.inf)

# 创建航班延误数据集对象
class FlightDelay:
    def __init__(self, feature_names, data, target_names, target):
        self.feature_names = feature_names
        self.data = data
        self.target_names = target_names
        self.target = target

# 读取excel文件(**强烈建议转为csv去处理，否则数据太容易被误改)
def getDataSet(url, sheetname):

    # 读取路径的xlsx文件
    dataFrame = pd.read_excel(url, sheet_name = sheetname)

    # 可以打印查看数据的类型是否有str
    # dataInfo = dataFrame.info()

    # 转为数据矩阵
    data_matrix = dataFrame.values

    # 获取feature_names,取第一行为feature,使用columns获取列名，然后使用values获取结果，去除掉最后的label列名
    feature_names = dataFrame.head(n=0).columns.values[:-1]

    # 获取label标签
    target_names = dataFrame.head(n=0).columns.values[-1]

    # feature特征矩阵data,全部取整，保证离散值足够小
    data = data_matrix[:, :-1].astype(int)

    # label标签向量，将小数转为整型
    target = data_matrix[:, -1].astype(int)

    return FlightDelay(feature_names, data, target_names, target)

2.2 xgboost训练数据

import xgboost as xgb
from sklearn.metrics import roc_auc_score
from sklearn.metrics import roc_curve
import matplotlib.pyplot as plt
from sklearn.model_selection import GridSearchCV
import numpy as np
np.set_printoptions(threshold=np.inf)

# XGBOOST进行预测

# 通用参数：#
# booster：我们有两种参数选择，gbtree和gblinear。gbtree是采用树的结构来运行数据，而gblinear是基于线性模型
# silent：静默模式，为1时模型运行不输出
# nthread: 使用线程数，一般我们设置成-1,使用所有线程。如果有需要，我们设置成多少就是用多少线程

# Booster参数：#
# n_estimator:num_boosting_rounds 最大的迭代次数
# learning_rate: 有时也叫作eta，系统默认值为0.3,每一步迭代的步长，很重要。太大了运行准确率不高，太小了运行速度慢。我们一般使用比默认值小一点，0.1左右就很好
# gamma：系统默认为0,在节点分裂时，只有分裂后损失函数的值下降了，才会分裂这个节点。gamma指定了节点分裂所需的最小损失函数下降值。 这个参数的值越大，算法越保守。因为gamma值越大的时候，损失函数下降更多才可以分裂节点。所以树生成的时候更不容易分裂节点
# subsample：系统默认为1，这个参数控制对于每棵树，随机采样的比例。减小这个参数的值，算法会更加保守，避免过拟合。但是，如果这个值设置得过小，它可能会导致欠拟合。 典型值：0.5-1，0.5代表平均采样，防止过拟合
# colsample_bytree：系统默认值为1。我们一般设置成0.8左右，用来控制每棵随机采样的列数的占比(每一列是一个特征)。 典型值：0.5-1
# colsample_bylevel：默认为1,我们也设置为1；这个就相比于前一个更加细致了，它指的是每棵树每次节点分裂的时候列采样的比例
# max_depth： 系统默认值为6，我们常用3-10之间的数字。这个值为树的最大深度。这个值是用来控制过拟合的。max_depth越大，模型学习的更加具体。设置为0代表没有限制
# max_delta_step：默认0,我们常用0.，这个参数限制了每棵树权重改变的最大步长，如果这个参数的值为0,则意味着没有约束。如果他被赋予了某一个正值，则是这个算法更加保守。通常，这个参数我们不需要设置，但是当个类别的样本极不平衡的时候，这个参数对逻辑回归优化器是很有帮助的。
# lambda:也称reg_lambda,默认值为0就，权重的L2正则化项。(和Ridge regression类似)。这个参数是用来控制XGBoost的正则化部分的。这个参数在减少过拟合上很有帮助。
# alpha:也称reg_alpha默认为0，权重的L1正则化项。(和Lasso regression类似)。 可以应用在很高维度的情况下，使得算法的速度更快
# scale_pos_weight：默认为1，在各类别样本十分不平衡时，把这个参数设定为一个正值，可以使算法更快收敛。通常可以将其设置为负样本的数目与正样本数目的比值

# 学习目标参数 #
# objective [缺省值=reg:linear]
# reg:linear– 线性回归
# reg:logistic – 逻辑回归
# binary:logistic – 二分类逻辑回归，输出为概率
# binary:logitraw – 二分类逻辑回归，输出的结果为wTx
# count:poisson – 计数问题的poisson回归，输出结果为poisson分布。在poisson回归中，max_delta_step的缺省值为0.7
# multi:softmax – 设置 XGBoost 使用softmax目标函数做多分类，需要设置参数num_class（类别个数），输出为概率最大的分类
# multi:softprob – 如同softmax，但是输出结果为ndata*nclass的向量，其中的值是每个数据分为每个类的概率

# eval_metric [缺省值=通过目标函数选择]
# rmse: 均方根误差(回归问题默认)
# mae: 平均绝对值误差
# logloss: negative log-likelihood数似然损失，对数损失函数，一般用于分类问题
# error: 二分类错误率。其值通过错误分类数目与全部分类数目比值得到。对于预测，预测值大于0.5被认为是正类，其它归为负类（分类问题默认）
# merror: 多分类错误率，计算公式为(wrong cases)/(all cases)
# mlogloss: 多分类log损失
# auc: 曲线下的面积
# ndcg: Normalized Discounted Cumulative Gain
# map: 平均正确率

def inputDataSet(X_train, X_test, y_train, y_test):

    # 设置xgboost分类器
    xlf = xgb.XGBClassifier(max_depth=6, learning_rate=0.1, n_estimators=1000, objective='binary:logistic',
                            nthread=-1, subsample=0.5, colsample_bytree=0.8)

    # 训练，verbose标识每迭代一次进行输出，可以指定迭代几次输出
    xlf.fit(X_train, y_train, eval_metric='error', verbose=True)

    # 预测准确率得分
    score = xlf.score(X_test, y_test)
    print("预测准确率得分 = {:.2f}".format(score),)

    # AUC模型评分
    y_pred = xlf.predict_proba(X_test)
    auc_score = roc_auc_score(y_test, y_pred[:, 1])
    print("AUC模型评价 = {:.2f}".format(auc_score))

    # roc曲线可视化输出
    roc_function_image(y_test, y_pred)

# 可视化的roc评价函数图像
def roc_function_image(y_test, y_pred):

    # fpr是假阳性率，tpr是真阳性率
    fpr, tpr, _ = roc_curve(y_test, y_pred[:, 1])

    plt.plot(fpr, tpr, color='darkred')
    plt.plot([0, 1], [0, 1], color='grey', lw=1, linestyle='--')
    plt.xlabel('False Positive Rate')
    plt.ylabel('True Positive Rate')
    plt.show()

方法的调用

import getdata.FlightDelay as fd
import getdata.XgboostModel as xm
from sklearn.model_selection import train_test_split

# 导入xlsx文件路径和工作簿名称
url = "D:\\python\\Projects\\USA_flightDelayInfo_dataSet\\USA_fightDataSet.xlsx"
sheet_name = 'DL'

# 调用方法获取数据集
flightDataSet = fd.getDataSet(url, sheet_name)
target_names = flightDataSet.target_names
target = flightDataSet.target
feature_names = flightDataSet.feature_names
data = flightDataSet.data

# 使用train_test_split方法获取训练集和测试集，这里二八分，随机种子为1
X_train, X_test, y_train, y_test = train_test_split(data, target, test_size=0.2, random_state=1)

# 使用xgboost进行模型预测
xm.inputDataSet(X_train, X_test, y_train, y_test)

输出结果：

预测准确率得分 = 0.85
AUC模型评价 = 0.70

roc模型评价曲线

2.3 结果说明

我们的模型预测准确率达到了85%，但事实并非如此，会有一种情况，博主称之为“机器欺骗”：

为1（true）的情况太少，而0（false）的情况太多，导致，模型无论给定结果如何全部输出0，从而凭运气导致预测结果准确率很高，即模型的欺骗行为

为了避免这种情况，我们需要引入ROC(Receiver Operating Characteristic Curve) 受试者工作特征曲线。用来评价二分类问题的模型好坏。

ROC曲线主要是对二分类预测模型的预测概率情况进行描述，真实的结果分为了【0-false，1-true】，那么预测结果是否与真实结果一致，这边产生了四种情况：

预测概率情况矩阵

通俗来讲就是，我实际值是1，你预测为1的概率是多少，预测为0的概率是多少，即TPR+FNR=100%，我们的考察是TPR（True Positive Rate)和FPR(False Positive Rate)，前面输出的函数图像就是这个函数的结果。

AUC（Area Under Curve）这个得分指标其实就是ROC曲线与x轴的面积。

如果图像在y=x这个直线上，说明，auc得分是0.5，则这个模型就跟抛硬币一样，随机预测，根本没有“自己动脑”，这是不理想的，也是auc的底线。如果小于0.5，说明模型的预测与实际总是相反的，这时候我们要考虑对结果进行取反操作，保证预测准确。

所以最理想的就是在0.5以上，切越靠近y轴越精确，即每次的预测都是“有效思考”后的结果。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
深度 Qlearning：在直播推荐系统中的应用 AGI通用人工智能之禅程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
深度Q-learning：在直播推荐系统中的应用关键词：深度Q-learning,强化学习,直播推荐系统,个性化推荐1.背景介绍1.1问题的由来随着互联网技术的飞速发展,直播平台如雨后春笋般涌现。面对海量的直播内容,用户很难快速找到自己感兴趣的内容。因此,个性化推荐系统在直播平台中扮演着越来越重要的角色。1.2研究现状目前,主流的个性化推荐算法包括协同过滤、基于内容的推荐等。这些方法在一定程度上缓
管理员权限的软件不能开机自启动的解决方法 ss_ctrl
这是几种解决方法：1.将启动参数写入到32位注册表里面去在64位系统下我们64位的程序访问此HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows\CurrentVersion\Run注册表路径，是可以正确访问的，32位程序访问此注册表路径时，默认会被系统自动映射到HKEY_LOCAL_MACHINE\SOFTWARE\WOW6432Node\Microsoft
golang学习笔记--MPG模型 xxzed golang #学习笔记学习笔记 golang
MPG模式：M（Machine）：操作系统的主线程P（Processor）：协程执行需要的资源（上下文context），可以看作一个局部的调度器，使go代码在一个线程上跑，他是实现从N：1到N：M映射的关键G（Goroutine）：协程，有自己的栈。包含指令指针（instructionpointer）和其它信息（正在等待的channel等等），用于调度。一个P下面可以有多个G1、当前程序有三个M,
【开发环境搭建】Macbook M1搭建Java开发环境 weixin_44329069 java 开发语言
JDK安装与配置下载并安装JDK：ARM64DMG安装包下载链接：JDK21forMac(ARM64)。双击下载的DMG文件，按照提示安装JDK。配置环境变量：打开终端，使用vim编辑.bash_profile文件：vim~/.bash_profile在文件中添加以下内容来设置JAVA_HOME：exportJAVA_HOME=/Library/Java/JavaVirtualMachines/j
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
ResNet的半监督和半弱监督模型 Valar_Morghulis
Billion-scalesemi-supervisedlearningforimageclassificationhttps://arxiv.org/pdf/1905.00546.pdfhttps://github.com/facebookresearch/semi-supervised-ImageNet1K-models/权重在timm中也有：https://hub.fastgit.org/r
联邦学习 Federated learning Google I/O‘19 笔记努力搬砖的星期五笔记联邦学习机器学习机器学习 tensorflow
FederatedLearning:MachineLearningonDecentralizeddatahttps://www.youtube.com/watch?v=89BGjQYA0uE文章目录FederatedLearning:MachineLearningonDecentralizeddata1.DecentralizeddataEdgedevicesGboard:mobilekeyboa
PCL 怎样可视化深度图像 LeonDL168 PCL 计算机视觉人工智能视觉检测图像处理算法
本小节讲解如何可视化深度图像的两种方法，在3D视窗中以点云形式进行可视化（深度图像来源于点云），另一种是，将深度值映射为颜色，从而以彩色图像方式可视化深度图像。代码首先，在PCL（PointCloudLearning）中国协助发行的书提供光盘的第7章例2文件夹中，打开名为range_image_visualization.cpp的代码文件，同文件夹下可以找到相关的测试点云文件room_scan1.
FISCO BCOS（十七）——— go SDK的使用林中有神君 #FISCO BCOS 2.8.0 golang 服务器 linux fisco bcos 区块链
1、创建一个工作目录root@wyg-virtual-machine:~/fisco#mkdirgoWorkSpace2、下载go-sdkroot@wyg-virtual-machine:~/fisco/
Git报错（一）fatal: Could not read from remote repository. librarycode
解决方案来自CSDN：https://blog.csdn.net/cxwtsh123/article/details/79194263?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.control&dist_request_id=&depth_1-utm_source=distr
VOC数据集转换为CoCo数据集（亲测有效）情书学长人工智能学习笔记图像处理
#VOC数据集格式VOC格式的数据集分为3部分，Annotations、ImageSets、JPEGImages。（一）Annotations：存放数据标注的xml文件，格式如下：CUMID_train0001.pngC:\Users\86182\Desktop\CUMID_train\0001.pngUnknown2040136830MachineUnspecified0011933491451
【Vesta发号器源码】PropertyMachineIdsProvider DeanChangDM
Vesta发号器源码解析——PropertyMachineIdsProvider属性配置文件持有Id的模式,没啥东西，比单个的多了一个获取下一个的方法封装实现上略有一点点区别privatelong[]machineIds;privateintcurrentIndex;publiclonggetNextMachineId(){returngetMachineId();}publiclonggetMa
Awesome TensorFlow weixin_30594001 人工智能移动开发大数据
AwesomeTensorFlowAcuratedlistofawesomeTensorFlowexperiments,libraries,andprojects.Inspiredbyawesome-machine-learning.WhatisTensorFlow?TensorFlowisanopensourcesoftwarelibraryfornumericalcomputationusin
【ShuQiHere】探索人工智能核心：机器学习的奥秘 ShuQiHere 人工智能机器学习
【ShuQiHere】什么是机器学习？机器学习（MachineLearning,ML）是人工智能（ArtificialIntelligence,AI）中最关键的组成部分之一。它使得计算机不仅能够处理数据，还能从数据中学习，从而做出预测和决策。无论是语音识别、自动驾驶还是推荐系统，背后都依赖于机器学习模型。机器学习与传统的编程不同，它不再依赖于人类编写的固定规则，而是通过数据自我改进模型，从而更灵活
综述论文“A Survey of Zero-Shot Learning: Settings, Methods, and Applications” 硅谷秋水机器学习机器学习神经网络深度学习
该零样本学习综述，发表于ACMTrans.Intell.Syst.Technol.10,2,Article13(January2019)摘要：大多数机器学习方法着重于对已经在训练中看到其类别的实例进行分类。实际上，许多应用程序需要对实例进行分类，而这些实例的类以前没有见过。零样本学习（Zero-ShotLearning）是一种强大而有前途的学习范例，其中训练实例涵盖的类别与想分类的类别是不相交的。
go-etcd实战小书go golang 实战演练 golang etcd 服务发现服务注册微服务
etcd简介etcdisastronglyconsistent,distributedkey-valuestorethatprovidesareliablewaytostoredatathatneedstobeaccessedbyadistributedsystemorclusterofmachines.Itgracefullyhandlesleaderelectionsduringnetwork
梯度提升机 (Gradient Boosting Machines, GBM) ALGORITHM LOL boosting 集成学习机器学习
梯度提升机(GradientBoostingMachines,GBM)通俗易懂算法梯度提升机（GradientBoostingMachines，GBM）是一种集成学习算法，主要用于回归和分类问题。GBM本质上是通过训练一系列简单的模型（通常是决策树），然后将这些模型组合起来，从而提高整体预测性能。基本步骤初始模型：首先，我们用一个简单的模型（如一个常数值）作为预测模型，记为F0(x)F_0(x)F
机器学习 VS 表示学习 VS 深度学习 Efred.D 人工智能机器学习深度学习人工智能
文章目录前言一、机器学习是什么?二、表示学习三、深度学习总结前言本文主要阐述机器学习,表示学习和深度学习的原理和区别.一、机器学习是什么?机器学习(machinelearning),是从有限的数据集中学习到一定的规律,再把学到的规律应用到一些相似的样本集中做预测.机器学习的历史可以追溯到20世纪40年代McCulloch提出的人工神经元网络,目前学界大致把机器学习分为传统机器学习和机器学习两个类别
端到端的自动驾驶论文与代码整理大别山伧父自动驾驶
LearningbyCheatinggithubcodearxivpaperconferenceonrobotlearning最新进展(May2021)Checkoutourlatestfollow-upwork:WorldonRails(2020)Checkoutoursubmissiontothe2020CARLAChallenge!pass
JVM 架构 : 运行时数据区 & 内存结构光剑书架上的书
JVM:JavaVirtualMachine架构JVMArchitectureRuntimeDataArea/MemoryStructureClassloaderClassloaderisasubsysteminJVM,whichisprimarilyresponasibleforloadingthejavaclasses,thereare3differentclassloaders:Bootst
Lt-8 Multithreading yanlingyun0210 java
IntendedLearningOutcomesTounderstandtheconceptofconcurrency.Tounderstandthedifferenceofaprocessandathread.TodefineathreadusingtheThreadclassandRunnableinterface.TocontrolthreadswithvariousThreadmethod
如何使用Pytorch-Metric-Learning？鱼儿也有烦恼 PyTorch pytorch
文章目录如何使用Pytorch-Metric-Learning？1.Pytorch-Metric-Learning库9个模块的功能1.1Sampler模块1.2Miner模块1.3Loss模块1.4Reducer模块1.5Distance模块1.6Regularizer模块1.7Trainer模块1.8Tester模块1.9Utils模块2.如何使用PyTorchMetricLearning库中的
risc-v特权模式狮子座硅农（Leo ICer） risc-v
risc-v架构定义了3种工作模式，又称为特权模式（privilegedmode）。机器模式（machinemode），简称M模式；监督模式（supervisormode），简称S模式；用户模式（usermode），简称U模式。risc-v架构定义机器模式为必选模式，另外两种模式为可选模式，通过不同的模式组合可以实现不同的系统。risc-v架构支持几种不同的存储器地址管理机制，包括对物理地址和虚拟
推荐开源项目：PyTorch-Metric-Learning 潘惟妍
推荐开源项目：PyTorch-Metric-Learningpytorch-metric-learningTheeasiestwaytousedeepmetriclearninginyourapplication.Modular,flexible,andextensible.WritteninPyTorch.项目地址:https://gitcode.com/gh_mirrors/py/pytorc
推荐：FastAPI驱动的稳定扩散LLMs演示项目褚知茉Jade
推荐：FastAPI驱动的稳定扩散LLMs演示项目FastAPI-for-Machine-Learning-Live-DemoThisrepositorycontainsthefilestobuildyourveryownAIimagegenerationwebapplication!OutlinedarethecorecomponentsoftheFastAPIwebframework,anda
【python】【Ray的概述】资源存储库 python 开发语言
Overview概述Rayisanopen-sourceunifiedframeworkforscalingAIandPythonapplicationslikemachinelearning.Itprovidesthecomputelayerforparallelprocessingsothatyoudon’tneedtobeadistributedsystemsexpert.Rayminimi
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs