qq_37195826

李宏毅机器学习作业二

前言

第二个作业是年收入判断，任务是做一个线性二元分类器，根据人们的个人资料来判断其年收入是否高于50000美元。这里用了逻辑回归和概率生成模型两种方法。

数据集有X_train,Y_train,X_test三个文件。这三个文件是老师事先帮我们将数据整理成csv格式并且全都是数字的数据。

X_train、 X_test ：每一行包含一个510-dim的特征，代表一个样本。

Y_train: label = 0 表示 "<=50K" 、 label = 1 表示 " >50K " 。
训练数据共54256个

测试集大概20000多个

参数共510个。

那么可以得出结论：

模型的输入是510维

模型输出是一个布尔值表示预测的是或不是。

上课共讲了两种方法，一种是逻辑回归，一种是生成模型。只不过生成模型的w和b是通过平均值和协方差直接求出来，而不需要梯度下降进行收敛获得。具体步骤和用到的Normalize函数和分类函数都一样。

逻辑回归方法

逻辑回归：

1.数据准备

2. 一些有用的函数

3.梯度与损失

4.模型训练

5.绘制损失和精度曲线

6.预测测试标签

一.数据准备

把csv文件解析为numpy数组，据分别存入X_train，Y_train,X_test中

import numpy as np

np.random.seed(0)
X_train_fpath = './X_train.csv'
Y_train_fpath = './Y_train.csv'
X_test_fpath = './X_test.csv'
output_fpath = './output_{}.csv'

with open(X_train_fpath) as f:
    next(f)
    X_train = np.array([line.strip('\n').split(',')[1:] for line in f], dtype=float)
    #line.strip(’\n’) 移除换行符并返回列表。split()通过指定分隔符对字符串进行切片。line.strip(’\n’).split(’,’) 通过逗号进行切片。
with open(Y_train_fpath) as f:
    next(f)
    Y_train = np.array([line.strip('\n').split(',')[1] for line in f], dtype=float)
with open(X_test_fpath) as f:
    next(f)
    X_test = np.array([line.strip('\n').split(',')[1:] for line in f], dtype=float)

对数据进行标准化并划分训练集和验证集的函数定义

def _normalize(X, train=True, specified_column=None, X_mean=None, X_std=None):
    if specified_column == None:        # 如果等于None的话，意味着所有列都需要标准化
        specified_column = np.arange(X.shape[1])       # 新建一个数组，是0-X.shape[1]即0-509
    if train:    # 如果train为True，那么表示处理training data，否则就处理testing data,即不再另算X_mean和X_std
        X_mean = np.mean(X[:, specified_column], 0).reshape(1, -1)
        # 对X的所有行以及特定列的数组中求各列的平均值（因为axis的参数为0），然后重组为一行的数组
        X_std = np.std(X[:, specified_column], 0).reshape(1, -1)
        # 同X_mean
    X[:, specified_column] = (X[:, specified_column] - X_mean) / (X_std + 1e-8) # X_std加入一个很小的数防止分母除以0
    return X, X_mean, X_std

# 将训练集拆成训练集和验证集，默认值是0.25，可以调
def _train_dev_split(X, Y, dev_ratio=0.25):
    train_size = int(len(X) * (1 - dev_ratio))
    return X[:train_size], Y[:train_size], X[train_size:], Y[train_size:]

X_train, X_mean, X_std = _normalize(X_train, train=True)
X_test, _, _ = _normalize(X_test, train=False, specified_column=None, X_mean=X_mean, X_std=X_std)

dev_ratio = 0.1
X_train, Y_train, X_dev, Y_dev = _train_dev_split(X_train, Y_train, dev_ratio=dev_ratio)

train_size = X_train.shape[0]
dev_size = X_dev.shape[0]
test_size = X_test.shape[0]
data_dim = X_train.shape[1]

print('Size of training set: {}'.format(train_size))
print('Size of development set: {}'.format(dev_size))
print('Size of testing set: {}'.format(test_size))
print('Dimension of data: {}'.format(data_dim))

打印结果

二.一些有用的函数

按顺序打乱X和Y，即打乱后，X[i]对应的仍是Y[i]，上面加了seed

def _shuffle(X, Y):
    randomize = np.arange(len(X))        # 建立一个0-X的列表
    np.random.shuffle(randomize)         # 生成大小为randomize的随机列表，
    return (X[randomize], Y[randomize])

sigmoid函数和逻辑回归的方程

def _sigmoid(z):
    return np.clip(1 / (1.0 + np.exp(-z)), 1e-8, 1 - (1e-8))  
#为避免溢出，设置了最大最小值，即如果sigmoid函数的最小值比1e-8小，只会输出1e-8；而比1 - (1e-8)大，则只输出1 - (1e-8)


def _f(X, w, b):
    return _sigmoid(np.matmul(X, w) + b) # 在np.matmul(X, w)的基础上，数列中的每个值都加b得到最终的数列

将sigmoid中获得的值四舍五入转换成0或1(int型)，注意如果正好为0.5，(虽然几率很小)结果是0

def _predict(X, w, b):
    return np.round(_f(X, w, b)).astype(np.int64)

模型正确率

def _accuracy(Y_pred, Y_label):
    acc = 1 - np.mean(np.abs(Y_pred - Y_label)) # np.abs(Y_pred - Y_label) 如果预测正确，则结果是0，否则结果是1，那么我们求mean平均值的话所得值是1的概率(mean相当于 1的个数/总个数)
    return acc

三.梯度与损失

计算交叉熵，和要调整的w参数的gradient与b参数的gradient

def _cross_entropy_loss(y_pred, Y_label):
    cross_entropy = -np.dot(Y_label, np.log(y_pred)) - np.dot((1 - Y_label), np.log(1 - y_pred))
    return cross_entropy

def _gradient(X, Y_label, w, b):
    y_pred = _f(X, w, b)                                  # 预测值
    pred_error = Y_label - y_pred                         # 真实值-预测值
    w_grad = -np.sum(pred_error * X.T, 1)                 # X.T就是X的转置，axis取值为1时代表将每一行的元素相加，实际上返回的是1行510列的数组
    b_grad = -np.sum(pred_error)                          # 对b求偏微分后的结果，因为逻辑回归和线性回归的损失函数相似，可由线性回归对b进行求偏微分得到
    return w_grad, b_grad

四.模型训练

使用小批次梯度下降法来训练。训练集被分为许多小批次，针对每一个小批次，分别计算其梯度以及损失，并根据该批次来更新模型的参数。

当一次迭代完成，也就是整个训练集的所有小批次都被使用过一次以后，我们将所有训练资料打散并且重新分成新的小批次，进行下一个迭代，直到事先设定的迭代数量达成为止。

# 使用0初始化w和b参数
w = np.zeros((data_dim,))
b = np.zeros((1,))


max_iter = 10  # 迭代次数
batch_size = 8  # 训练的批次中的数据个数
learning_rate = 0.2 # 学习率


# 将每次迭代的损失和正确率都保存，以方便画出来
train_loss = []  # 训练集损失
dev_loss = []    # 验证集损失
train_acc = []   # 训练集正确率
dev_acc = []     # 验证集正确率
# 记录参数更新的次数
step = 1

# 迭代训练
for epoch in range(max_iter):
    # 随机的将训练集X和Y按顺序打乱
    X_train, Y_train = _shuffle(X_train, Y_train)

    # 小批量训练
    for idx in range(int(np.floor(train_size / batch_size))):                     # 每个批次8个数据，一共48830个数据，共48830/8=6103次批次
        X = X_train[idx * batch_size:(idx + 1) * batch_size]                      # 分别取X和Y中的对应8个数据(每个批次8个数据)
        Y = Y_train[idx * batch_size:(idx + 1) * batch_size]

        # 计算w参数和b参数的梯度
        w_grad, b_grad = _gradient(X, Y, w, b)


        # 更新参数，自适应学习率，学习率除以更新次数的根
        w = w - learning_rate / np.sqrt(step) * w_grad
        b = b - learning_rate / np.sqrt(step) * b_grad

        step = step + 1   # 更新次数+1

    # 计算训练集和验证集的损失和正确率
    y_train_pred = _f(X_train, w, b)                                              # 计算预测的值，注意此时数据格式为float
    Y_train_pred = np.round(y_train_pred)                                         # 将数据格式转换为bool类型
    train_acc.append(_accuracy(Y_train_pred, Y_train))                            # 将这一轮迭代的正确率记录下来
    train_loss.append(_cross_entropy_loss(y_train_pred, Y_train) / train_size)    # 将这一次迭代的损失记录下来

    y_dev_pred = _f(X_dev, w, b)   # 同样的方法处理验证集
    Y_dev_pred = np.round(y_dev_pred)
    dev_acc.append(_accuracy(Y_dev_pred, Y_dev))
    dev_loss.append(_cross_entropy_loss(y_dev_pred, Y_dev) / dev_size)

 # 输出最后依次迭代的结果
print('Training loss: {}'.format(train_loss[-1]))
print('Development loss: {}'.format(dev_loss[-1]))
print('Training accuracy: {}'.format(train_acc[-1]))
print('Development accuracy: {}'.format(dev_acc[-1]))

输出最后迭代的结果

五.绘制损失和精度曲线

import matplotlib.pyplot as plt

# Loss curve
plt.plot(train_loss)
plt.plot(dev_loss)
plt.title('Loss')
plt.legend(['train', 'dev'])
plt.savefig('loss.png')
plt.show()

# Accuracy curve
plt.plot(train_acc)
plt.plot(dev_acc)
plt.title('Accuracy')
plt.legend(['train', 'dev'])
plt.savefig('acc.png')
plt.show()

loss和准确率图像

六.预测测试标签

预测testing data 并找出权重中最大的十项特征，即关联结果最紧密的参数。

predictions = _predict(X_test, w, b)
with open(output_fpath.format('logistic'), 'w') as f:                #预测测试集并且存在 output_logistic.csv 中。
    f.write('id,label\n')
    for i, label in  enumerate(predictions):
        f.write('{},{}\n'.format(i, label))

# 找到权重中最大的前十项，即关联结果的最紧密的参数
ind = np.argsort(np.abs(w))[::-1]                                     # 将数组从小到大排好后从最后往前取
with open(X_test_fpath) as f:
    content = f.readline().strip('\n').split(',')
features = np.array(content)
for i in ind[0:10]:
    print(features[i], w[i])

预测结果保存为csv文件

权重最大的十项

概率生成模型

一.数据准备

数据的预处理和标准化与逻辑回归一样。分别将数据中的两个类别的数据分开，这样才可以计算两个类别的数据平均值1，2

with open(X_train_fpath) as f:
    next(f)
    X_train = np.array([line.strip('\n').split(',')[1:] for line in f], dtype=float)
with open(Y_train_fpath) as f:
    next(f)
    Y_train = np.array([line.strip('\n').split(',')[1] for line in f], dtype=float)
with open(X_test_fpath) as f:
    next(f)
    X_test = np.array([line.strip('\n').split(',')[1:] for line in f], dtype=float)

# Normalize training and testing data
X_train, X_mean, X_std = _normalize(X_train, train=True)
X_test, _, _ = _normalize(X_test, train=False, specified_column=None, X_mean=X_mean, X_std=X_std)


X_train_0 = np.array([x for x, y in zip(X_train, Y_train) if y == 0]) # 训练集中属于类别0的数据
X_train_1 = np.array([x for x, y in zip(X_train, Y_train) if y == 1]) # 训练集中属于类别0的数据

二.平均值和协方差

计算平均值和协方差，为了有效减少参数，避免Overfitting，给描述这两个类别的高斯分布相同的协方差矩阵。

mean_0 = np.mean(X_train_0, axis = 0)# 1
mean_1 = np.mean(X_train_1, axis = 0)# 1

# 计算协方差矩阵1，2
cov_0 = np.zeros((data_dim, data_dim))# 1
cov_1 = np.zeros((data_dim, data_dim))# 2
#计算
for x in X_train_0:
    cov_0 += np.dot(np.transpose([x - mean_0]), [x - mean_0]) / X_train_0.shape[0]
for x in X_train_1:
    cov_1 += np.dot(np.transpose([x - mean_1]), [x - mean_1]) / X_train_1.shape[0]

# 共享协方差矩阵计算
cov = (cov_0 * X_train_0.shape[0] + cov_1 * X_train_1.shape[0]) / (X_train_0.shape[0] + X_train_1.shape[0])

三.计算权重和偏差

通过奇异值分解得到共用协方差矩阵逆。有了数据平均值和协方差矩阵的逆，可以直接将唯一的权重矩阵与偏差向量计算出来。

# 通过奇异值分解得到矩阵逆。
u, s, v = np.linalg.svd(cov, full_matrices=False)
inv = np.matmul(v.T * 1 / s, u.T)                    # 计算协方差矩阵的逆

# 有了数据平均值和协方差矩阵的逆，可以直接将唯一的权重矩阵与偏差向量计算出来
w = np.dot(inv, mean_0 - mean_1)
b =  (-0.5) * np.dot(mean_0, np.dot(inv, mean_0)) + 0.5 * np.dot(mean_1, np.dot(inv, mean_1))\
    + np.log(float(X_train_0.shape[0]) / X_train_1.shape[0])

四.预测测试集标签

预测并打印最重要的十个权重

# 计算训练精度
Y_train_pred = 1 - _predict(X_train, w, b)
print('Training accuracy: {}'.format(_accuracy(Y_train_pred, Y_train)))

# 预测测试集
predictions = 1 - _predict(X_test, w, b)
with open(output_fpath.format('generative'), 'w') as f:          #预测测试集并且存在 output_generative.csv 中。
    f.write('id,label\n')
    for i, label in  enumerate(predictions):
        f.write('{},{}\n'.format(i, label))

# 打印出最重要的十个权重
ind = np.argsort(np.abs(w))[::-1]
with open(X_test_fpath) as f:
    content = f.readline().strip('\n').split(',')
features = np.array(content)
for i in ind[0:10]:
    print(features[i], w[i])

总结

以上是第二个作业

【动手学深度学习】4.10 实战Kaggle比赛：预测房价 XiaoJ1234567 《动手学深度学习》深度学习人工智能
目录4.10实战Kaggle比赛：预测房价1）数据预处理2）模型定义与训练3）模型评估与预测4）模型训练与预测提交5）示例超参数（可调）4.10实战Kaggle比赛：预测房价数据来源：Kaggle房价预测比赛.1）数据预处理读取数据importpandasaspdtrain_data=pd.read_csv('../data/kaggle_house_pred_train.csv')test_da
【机器学习-08】参数调优宝典：网格搜索与贝叶斯搜索等攻略云天徽上机器学习机器学习人工智能
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
微信小程序--顶部轮播图 wendyNo 小程序小程序
效果图市面是手机尺寸有很多，那如何让我们的轮播图根据手机来进行自适应呢？常见的手机尺寸：wxmlWXSS.banneritem{width:100%;}.banneritemimage{width:100%;}JSconstapp=getApp();varpage=1;Page({data:{bannerUrls:[//轮播图的图片{url:'/images/banner1.jpeg',linkU
PHP Laravel 如何查询字段类型为json的数据-WhereJsonContains、orWhereJsonContains
创建表CREATETABLE`suppliers`(`id`bigintunsignedNOTNULLAUTO_INCREMENT,`supplier_name`varchar(255)CHARACTERSETutf8mb4COLLATEutf8mb4_unicode_ciDEFAULTNULLCOMMENT'供应商名称',`address`jsonDEFAULTNULLCOMMENT'地址：数据
NLP-D7-李宏毅机器学习---X-Attention&&GAN&BERT&GPT 甄小胖机器学习自然语言处理机器学习 bert
—0521今天4:30就起床了！真的是迫不及待想看新的课程！！！昨天做人脸识别系统的demo查资料的时候，发现一个北理的大四做cv的同学，差距好大！！！我也要努力呀！！不是比较，只是别人可以做到这个程度，我也一定可以！！！要向他学习！！！开始看课程啦！-----0753看完了各种attention，由于attention自己计算的限制，当N很大的时候会产生计算速度问题，从各种不同角度（人工知识输入
排序的艺术：Spring Data JPA 如何玩转关联实体排序 (. 运算符的奥秘) ✨ 小丁学Java Spring Data JPA jpa
这次我们来深入探讨SpringDataJPA分页排序中一个非常实用但又容易混淆的技巧：如何优雅地对关联实体（或嵌套属性）进行排序。排序的艺术：SpringDataJPA如何玩转关联实体排序(.运算符的奥秘)你好，我是坚持哥！在构建Web应用时，分页查询是家常便饭。SpringDataJPA(JavaPersistenceAPI)提供了强大的Pageable接口，让分页和排序变得异常简单。但当你的排
TDengine 集群节点管理 TDengine （老段） TDengine SQL 手册 tdengine 数据库时序数据库大数据物联网 iotdb iot
简介组成TDengine集群的物理实体是dnode(datanode的缩写)，它是一个运行在操作系统之上的进程。在dnode中可以建立负责时序数据存储的vnode(virtualnode)，在多节点集群环境下当某个数据库的replica为3时，该数据库中的每个vgroup由3个vnode组成；当数据库的replica为1时，该数据库中的每个vgroup由1个vnode组成。如果要想配置某个数据库为
使用 p6spy，拦截到持久层执行的sql及参数 Peter-OK 一些问题 p6spy sql
声明：文章内容是自己使用后整理，大部分工具代码出自大牛，但因无法确认出处，故仅在此处由衷的对无私分享源代码的作者表示感谢与致敬！本人在拦截到sql的基础上加了分析功能和异常告警功能1、导入p6spy的jar包，如果是maven项目引入pomp6spyp6spy3.9.12、修改datasource数据源的driverClassName驱动和url地址为com.p6spy.engine.spy.P6
spring-data-jpa+spring+hibernate+druid配置
参考链接：http://doc.okbase.net/liuyitian/archive/109276.htmlhttp://my.oschina.net/u/1859292/blog/312188最新公司的web项目需要用到spring-data-jpa作为JPA的实现框架，同时使用阿里巴巴的开源数据库连接池druid。关于这两种框架的介绍我在这里就不多赘述。直接进入配置页面：spring的配置
Spring Data Jpa +alibaba druid+query dsl 实现多数据源下海揽月 spring data jpa java
SpringDataJpa+alibabadruid+querydsl实现多数据源,主要通过配置来实现多个数据源的操作，无需动态切换1.maven配置org.springframework.bootspring-boot-starter-data-jpa2.3.12.RELEASEcom.alibabadruid-spring-boot-starter1.1.24com.querydslquery
Spring Boot + Spring JPA + JDBC + Druid实现动态数据源切换 Apr01Chell 代码片段 spring java 数据库
SpringBoot+SpringJPA+JDBC+Druid实现动态数据源切换目录SpringBoot+SpringJPA+JDBC+Druid实现动态数据源切换AbstractRoutingDataSource源码分析需求代码实现DynamicDataSourceDBContextHolderDruidDbConfigDataSourcePropertiesAllDataSourcesExec
HCIE数通认证难不难？通过率如何？
揭秘华为顶级网络专家门槛风浪越大，鱼越贵——HCIE数通正是ICT领域那尾“金枪鱼”一、HCIE数通：华为认证体系的“金字塔尖”1.作为华为认证最高级别，HCIE-Datacom专为培养数据通信领域专家设计2.能力要求，掌握大中型复杂网络的规划、部署、运维及优化能力，支持云、存储、语音等融合业务3.技术深度，覆盖VXLAN、EVPN、SRv6、堆叠/集群等前沿技术，新增智简园区（iMasterNC
MaxCompute数据迁移至OSS完全指南大模型大数据攻城狮 odps 大数据阿里云 maxcompute dataworks tunnel sdk oss
目录1.为什么要把MaxCompute的数据搬到OSS？2.工具与环境准备：别急，先把家伙事儿备齐3.迁移方式总览：选对路子事半功倍4.用DataWorks实现数据迁移：点几下鼠标就搞定4.1配置数据源4.2创建同步任务4.3调度与运行5.用INSERT语句写入OSS外部表：SQL爱好者的最爱5.1创建OSS外部表5.2插入数据6.用Tunnel命令行实现数据迁移：硬核玩家的选择6.1Tunnel
板凳-------Mysql cookbook学习（十一--------4)
唐宇迪机器学习实战课程笔记https://blog.csdn.net/weixin_54338498/article/details/128818007?spm=1001.2101.3001.6650.1&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ECtr-1-12881
AAAI—24—Main—paper（关于Multi—Modal的全部文章摘要）
我们生活在一个由多种模态（Multimodal）信息构成的世界，包括视觉信息、听觉信息、文本信息、嗅觉信息等等，当研究的问题或者数据集包含多种这样的模态信息时我们称之为多模态学习多模态机器学习旨在处理学习（视觉，听觉，语言等）不同模态融合交织的信息。下游任务（1）视觉问答1.视觉问答(visualquestionanswering,VQA).给予视觉输入(图像或视频),VQA代表了正确提供一个问题
Pandas 学习（数学建模篇）停走的风数学建模 pandas 学习
今天学习数学建模2023年C篇（228）优秀论文2023高教社杯全国大学生数学建模竞赛C题论文展示（C228）-2023C题论文-中国大学生在线一.pd.DataFramepd.DataFrame()是pandas库中用于创建二维表格数据结构（DataFrame）的核心函数。它的作用是将各种格式的数据（如字典、列表、Series等）转换为带有行索引和列标签的表格形式，便于数据处理和分析.impor
Shusen Wang推荐系统学习 --召回 ItemCF 我.佛.糍.粑学习深度学习人工智能推荐算法
学习b站up主ShusenWang的推荐系统基于物品的协同过滤（ItrmCF）中心思想就是，如果你喜欢a，b，c三件商品，d商品与abc相似，那么你也可能喜欢d商品对此就要计算物品的相似程度物品相似度物品相似度的思想是，一个物品的相同用户很多就意味着这两件物品是相似的sim(i1,i2):=∣V∣∣W1∣∣W2∣sim(i_{1},i_{2}):={\frac{\big|\mathcal{V}\b
达梦数据库linux环境实时主备搭建过程张晓杰^.^ 数据库服务器网络
一.数据准备：1.安装单机1.1创建用户和组groupadd-g12349dinstalluseradd-u12345-gdinstall-m-d/home/dmdba-s/bin/bashdmdbapasswddmdba1.2创建文件dmsoft:存放DMInstall.bin和key/home/dmdba/dmdbms：存放数据库的安装目录/data:实例目录/data/dmarch:存放归档
有效避免 Cannot read property ‘xxx‘ of undefined 这类运行时错误。避免因数据字段缺失导致的报错 @Dream_Chaser vue前端前端 javascript 开发语言
‌hasOwnProperty方法‌是JavaScript对象的内置方法用于检测对象自身（非原型链）是否包含指定属性返回布尔值（true/false）constfetchedData={"order":"21570921","orderType":"1",//其他属性...};constitem={value:"orderType"//我们想检查fetchedData是否有这个属性};if(fet
linux 定时任务小小小欣
crontab-e0*/1***/usr/bin/curlhttp://manage.baicmotorsales.com/Lists/clueData每一小时访问一次这个方法servicecrondrestart重启任务crontab-l查看定时任务tail-f/var/log/cron查看任务日志
神经网络初步学习3——数据与损失 X Y O 神经网络学习人工智能
一、传统机器学习与神经网络前言：该部分需要一定的机器学习与数学基础（很浅的基础），如果有不理解的地方可以自行查阅。（1）区别这里不妨以图像识别为例子：（1）在传统的机器学习视角中：我们需要人工手动去设置并提取我们的特征量，例如常见的SIFT、SURF和HOG等，随后需要我们选择合适的分类器（例如：SVM、KNN等分类器）,接着把我们的参数训练出来。（2）而在神经网络的视角中：我们只需要把图片喂给它
Android MVVM架构与数据绑定：深入实战与技巧码上有潜笔记本 android 架构
AndroidMVVM架构与数据绑定：深入实战与技巧MVVM（Model-View-ViewModel）模式是Android开发中常用的一种高效架构模式，尤其是在结合Android架构组件时，可以极大简化代码结构和提高可维护性。本篇博文将带你深入了解MVVM架构的原理与**数据绑定（DataBinding）**技术，提供丰富的代码示例，帮助你从基础掌握到高级实战。1.MVVM架构概述MVVM架构模
leetcode393. UTF-8 编码验证 wl1929 leetcode
classSolution{publicbooleanvalidUtf8(int[]data){intnumberOfBytesToProcess=0;for(inti=0;i=8?binRep.substring(binRep.length()-8):"00000000".substring(binRep.length()%8)+binRep;if(numberOfBytesToProcess=
C练题笔记之：Leetcode-393. UTF-8 编码验证月团子 c语言 leetcode 算法
题目：给定一个表示数据的整数数组data，返回它是否为有效的UTF-8编码。UTF-8中的一个字符可能的长度为1到4字节，遵循以下的规则：对于1字节的字符，字节的第一位设为0，后面7位为这个符号的unicode码。对于n字节的字符(n>1)，第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。这是UTF-8编码的工
leetcode 393. UTF-8 编码验证
题目描述：给定一个表示数据的整数数组data，返回它是否为有效的UTF-8编码。UTF-8中的一个字符可能的长度为1到4字节，遵循以下的规则：对于1字节的字符，字节的第一位设为0，后面7位为这个符号的unicode码。对于n字节的字符(n>1)，第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。这是UTF-8编码
【LeetCode】393. UTF-8 编码验证 pass night leetcode 算法职场和发展
题目393.UTF-8编码验证给定一个表示数据的整数数组data，返回它是否为有效的UTF-8编码。UTF-8中的一个字符可能的长度为1到4字节，遵循以下的规则：对于1字节的字符，字节的第一位设为0，后面7位为这个符号的unicode码。对于n字节的字符(n>1)，第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码
Hive 事务表(ACID)问题梳理
文章目录问题描述分析原因什么是事务表概念事务表和普通内部表的区别相关配置事务表的适用场景注意事项设计原理与实现文件管理格式参考博客问题描述工作中需要使用pyspark读取Hive中的数据，但是发现可以获取metastore，外部表的数据可以读取，内部表数据有些表报错信息是：AnalysisException:org.apache.hadoop.hive.ql.metadata.HiveExcept
使用FinancialDatasets工具包进行财务数据分析 Zbb159 数据分析数据挖掘
##技术背景介绍在现代金融分析中，获取准确且及时的财务数据是至关重要的。FinancialDatasets提供了一个强大的API，可以获取超过16,000个股票的财务数据，时间跨度超过30年。通过与OpenAI的集成，我们能够创建智能化的财务分析助手，为投资者提供深度的市场洞察。##核心原理解析FinancialDatasets工具包通过RESTAPI接口访问财务数据，为每个公开交易的公司提供详细
Spring Data Neo4j 与后端人工智能算法的数据交互 AI大模型应用实战 spring neo4j 人工智能 ai
SpringDataNeo4j与后端人工智能算法的数据交互关键词：SpringDataNeo4j、图数据库、人工智能算法、数据交互、知识图谱、图神经网络、数据集成摘要：本文深入探讨了如何利用SpringDataNeo4j框架实现后端人工智能算法与图数据库的高效数据交互。文章首先介绍了图数据库和人工智能算法的基本概念，然后详细解析了SpringDataNeo4j的核心架构和原理。接着，通过实际代码示
怎样查询汇率实时行情,含汇率转换大大的卷接口 python 大数据前端
汇率转换接口支持多种货币之间的转换。只需简单的API调用，您就可以轻松获取最新的汇率信息。例如，您可以通过以下链接将人民币（CNY）转换为美元（USD）：PHP请求案例：返回数据结果：{"code":1,"msg":"操作成功","data":{"from":"CNY","from_name":"人民币","to":"USD","to_name":"美元","exchange":"0.140583
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu

李宏毅机器学习作业二

逻辑回归方法

一.数据准备

打印结果

二.一些有用的函数

三.梯度与损失

四.模型训练

五.绘制损失和精度曲线

六.预测测试标签

概率生成模型

一.数据准备

二.平均值和协方差

三.计算权重和偏差

四.预测测试集标签

总结

你可能感兴趣的:(机器学习,big,data)