锌a

2021 CCF大数据与计算智能大赛个贷违约预测top 73 解决方案

目录

一、概述
二、解题过程
- 2.1 数据
- 2.2 构建基线
- 2.3 进阶思路一
- 2.4 进阶思路二
- 2.5 进阶思路三
- 2.6 融合
- 2.7 调优提分过程
- 2.8 其他工作
三、结语

一、概述

这是我第二次参加大数据类型的竞赛，也是第一次接触金融类的题目，这一题可以称作CCF BDCI这一年的究极卷王题，3200个队伍参加，1300多个队伍提交，比其他赛题多了几倍，最后尽力也只拿下B榜73/3246的名次。
在次记录自己的解题过程以及所思所想。
赛题地址：https://www.datafountain.cn/competitions/530

二、解题过程

2.1 数据

本次的数据由3个表组成，分别为个人贷款违约记录数据train_public.csv，某网络信用贷产品违约记录数据train_internet_public.csv，测试集test_public.csv。
数据说明请参考：https://www.datafountain.cn/competitions/530/datasets

通过查看数据，我们可以得知，这三个表可以大致理解为：和测试集分布较为接近的训练集（一万条）train_public，和测试集分布不同的训练集补充train_inte（70多万条），测试集。
很显然，本题的意思在于从补充测试集中找寻合适的数据扩充到原本的数据集中进行训练，然后预测提分，怎么样找到合适的数据成为本题的关键。

对于原始的数据，有一些初步的处理：

对于时间类型的数据，转化为统一的time格式，并可以细化为年，月，周等
对于string类型表达的数据，如工作类型等编码为数字类型
将空值用均值进行填充

对三张表均进行上述操作，构建最基本的三张表

2.2 构建基线

参考社区分享的基线，构建LGBM模型

        clf = LGBMClassifier(
            n_estimators=4000,
            learning_rate=0.03,
            num_leaves=2 ** 5,
            colsample_bytree=.65,
            subsample=.9,
            max_depth=5,
            #             max_bin=250,
            reg_alpha=.3,
            reg_lambda=.3,
            min_split_gain=.01,
            min_child_weight=2,
        )

首先测试仅将train_public一万条数据导入lgbm中进行训练并测试，采用5折交叉验证，最终的结果为0.8786，这即为最初的基线，在我看来，跑通代码是比赛的第一步，也是较为关键的一步o(╥﹏╥)o

2.3 进阶思路一

同样参考社区提出的方法，第一个思路在于先使用train_public训练lgbm，然后使用训练得到的lgbm预测扩充数据集train_inte，设定一个筛选阈值，从中选择预测较为准确的样本。举个例子，我们根据原始训练集训练了lgbm，然后使用该lgbm预测train_inte，发现预测值<0.08的值（预测为0）其真实标签也为0，即预测全对，则我们将预测值<0.08的样本全部纳入原本训练集中进行扩充，此时数据来到7-10万条，代码大致如下：

#首先训练原始样本
oof_preds, IntePre, importances = train_model(train_data, train_inteSame, y, folds)

IntePre['isDef'] = train_inte['is_default']
from sklearn.metrics import roc_auc_score

roc_auc_score(IntePre['isDef'], IntePre.isDefault)
## 选择阈值0.05，从internet表中提取预测小于该概率的样本，并对不同来源的样本赋予来源值
InteId = IntePre.loc[IntePre.isDefault < 0.08, 'loan_id'].tolist()

train_data['dataSourse'] = 1
test_public['dataSourse'] = 1
train_inteSame['dataSourse'] = 0
train_inteSame['isDefault'] = train_inte['is_default']
use_te = train_inteSame[train_inteSame.loan_id.isin(InteId)].copy()
#扩充数据
data = pd.concat([train_data, test_public, use_te]).reset_index(drop=True)

del data
del train_data, test_public

print(train.columns)
print(test.columns)
y = train['isDefault']
#再度训练以及预测
folds = KFold(n_splits=15, shuffle=True, random_state=2021)
oof_preds, test_preds, importances = train_model(train, test, y, folds)

使用该方法可以有效扩充数据集，线上分来到0.8852

2.4 进阶思路二

使用伪标签，该方法即先使用2.3中得到的模型预测测试集，然后再次设定一个阈值，将符合阈值的测试集数据纳入到训练集中，标签根据预测结果给定，此举可以进一步扩充数据集，使得模型看到更多类型的数据。
但值得注意的是，该方法要看赛事官方是否允许，本题中并未禁止
使用该方法后，线上分来到0.8925

2.5 进阶思路三

第三个思路我们在最后几天才想到，即使用聚类的思想，将三张表凑在一起进行聚类，将与测试集聚类在一起的样本挑出来作为训练样本。
经过实验我们发现聚类的结果将大部分训练集和测试集分为一类，可见其分布一致，而train_inte中的数据被分为几类，从中挑选与测试集聚类结果尽量相同的样本，经过我们的挑选，在40万-60万之间（多次实验，记不清了）。
参考代码（此处我们使用了Kmeans，但实际上我们还使用过BIRCH，最后时间紧迫来不及详细测试孰优孰劣）：

# 综合分类数据集
from numpy import where
from sklearn.datasets import make_classification
from sklearn.cluster import Birch,MiniBatchKMeans,KMeans
from matplotlib import pyplot
import pandas as pd
import re
import numpy as np
from sklearn.preprocessing import LabelEncoder
# 定义数据集

train_data = pd.read_csv(r'D:\比赛\CCF_BDCI_Money\raw_data\train_public.csv')
test_public = pd.read_csv(r'D:\比赛\CCF_BDCI_Money\raw_data\test_public.csv')
train_inte = pd.read_csv(r'D:\比赛\CCF_BDCI_Money\raw_data\train_internet.csv')

def findDig(val):
    fd = re.search('(\d+-)', val)
    if fd is None:
        return '1-'+val
    return val + '-01'

work_year_dict = {
    '< 1 year': 0,
    '1 year': 1,
    '2 years': 2,
    '3 years': 3,
    '4 years': 4,
    '5 years': 5,
    '6 years': 6,
    '7 years': 7,
    '8 years': 8,
    '9 years': 9,
    '10+ years': 10,
}

class_dict = {
    'A': 1,
    'B': 2,
    'C': 3,
    'D': 4,
    'E': 5,
    'F': 6,
    'G': 7,
}

timeMax = pd.to_datetime('1-Dec-21')
train_data['work_year'] = train_data['work_year'].map(work_year_dict)
test_public['work_year'] = test_public['work_year'].map(work_year_dict)
train_inte['work_year'] = train_inte['work_year'].map(work_year_dict)

train_data['class'] = train_data['class'].map(class_dict)
test_public['class'] = test_public['class'].map(class_dict)
train_inte['class'] = train_inte['class'].map(class_dict)


train_data['earlies_credit_mon'] = pd.to_datetime(train_data['earlies_credit_mon'].map(findDig))
test_public['earlies_credit_mon'] = pd.to_datetime(test_public['earlies_credit_mon'].map(findDig))
train_inte['earlies_credit_mon'] = pd.to_datetime(train_inte['earlies_credit_mon'].map(findDig))

cat_cols = ['employer_type', 'industry']

for col in cat_cols:
    lbl = LabelEncoder().fit(train_data[col])
    train_data[col] = lbl.transform(train_data[col])
    test_public[col] = lbl.transform(test_public[col])
    train_inte[col] = lbl.transform(train_inte[col])


col_to_drop = ['issue_date', 'earlies_credit_mon','post_code','region']
train_data = train_data.drop(col_to_drop, axis=1)
test_public = test_public.drop(col_to_drop, axis=1 )
train_inte = train_inte.drop(col_to_drop, axis = 1)

train_inte = train_inte.drop(['sub_class'], axis = 1)

same_cols = list(set(train_data.columns.tolist()) & set(test_public.columns.tolist()) & set(train_inte.columns.tolist()))

data = pd.DataFrame()

import pdb
for col in same_cols:
    data[col] = pd.concat([train_data[col], test_public[col], train_inte[col]])
    data[col] = data[col].fillna(data[col].mean())

y = np.zeros(len(data))
i = 0
print(data.shape)
data = data.sample(765000)
data = data.reset_index(drop = True)

feat =[f for f in data.columns if f not in ['loan_id', 'user_id', 'isDefault']]
label_csv = pd.DataFrame()
label_csv['loan_id'] = data['loan_id']
label_csv['user_id'] = data['user_id']
col_name = 0

model = KMeans(n_clusters=3 , max_iter=1000)
model.fit(data[feat])
label_csv['kmeans_predict'] = model.predict(data[feat])
# print(label_csv)
label_csv.to_csv('聚类测试_3_no_batch.csv',index=False)

最后聚类得到的文件经过lgbm训练也能达到0.895附近

2.6 融合

最后我们将几种思路用过线上分加权平均，得到最终结果

2.7 调优提分过程

在具体比赛中，很多结果不是一蹴而就的，而是经过了多次调参的结果，在操作中，以下参数对结果影响较大：

学习率大小
思路中提到的阈值
在调模型过程中，我仔细对比了数据，发现部分对于借贷而言是没有作用的，故删除，这一举措对线上分影响较大，我删去的特征有借贷具体的月、周、日，最早确立信贷的月份，邮编，地区等。当然具体问题具体分析，每道题都有不相关的特征，删除这些或有奇效。
Kfold折数，15折效果明显优于5折

2.8 其他工作

在比赛中，我们还做了许多其他方面的努力，但对于最终的结果并未产生足够的效果，列举为：

我们发现，数据中有一些噪声，如借贷人最早确立信贷的时间，居然有2070年的，我们查看了测试集的分布，添加时间约束，将样本筛选时间在1996-2002之间，但却使得线上分下降
我们做了一些新的特征，如，我们根据债务收入比和其借贷金额算出其工资等，但对于线上分的影响也是负面的
我们尝试使用xgboost，catboost，随机森林等集成学习模型训练融合，但结果不尽人意

三、结语

感谢你能看到这里，希望我的经历能帮助到你。
竞赛新手，深知才疏学浅，如有错误之处欢迎评论区指出，在此不胜感激。

你可能感兴趣的:(一些比赛,big,data,数据挖掘,机器学习,数据分析,人工智能)

言语理解是语言类考试（如公务员考试、事业单位考试等）中常见的一种题型，主要考察考生对语言文字的理解、分析和运用能力。以下是一些言语理解的核心技巧：流量留公务员公务员
言语理解是语言类考试（如公务员考试、事业单位考试等）中常见的一种题型，主要考察考生对语言文字的理解、分析和运用能力。以下是一些言语理解的核心技巧：###一、阅读技巧1.**快速浏览与精读结合**-**快速浏览**：先快速浏览文章或文段，了解大致内容和结构，抓住中心思想和主旨。例如，对于一篇议论文，可以先看开头和结尾，中间部分快速扫过，初步把握作者的观点和论证思路。-**精读关键部分**：在确定了文
六大技术支柱推动元宇宙发展:从区块链到物联网
元宇宙作为数字世界与现实世界深度融合的产物，其发展依赖于六大技术支柱的协同创新，这一技术集合被形象地称为“BIGANT”（大蚂蚁）。以下是对六大技术支柱的详细解析，重点阐述区块链与物联网的核心作用：一、区块链技术（Blockchain）：构建元宇宙的信任基石去中心化经济体系区块链通过NFT（非同质化通证）、DAO（去中心化自治组织）、智能合约等技术，为元宇宙提供了去中心化的价值流转机制。例如：NF
【机器学习|学习笔记】随机森林（Random Forest, RF）详解，附代码。努力毕业的小土博^_^ 机器学习基础算法优质笔记1 机器学习学习笔记随机森林人工智能
【机器学习|学习笔记】随机森林（RandomForest,RF）详解，附代码。【机器学习|学习笔记】随机森林（RandomForest,RF）详解，附代码。文章目录【机器学习|学习笔记】随机森林（RandomForest,RF）详解，附代码。前言起源随机子空间法与Bagging的萌芽原理算法机制理论保障发展应用优缺点优点缺点Python实现示例（Scikit-learn）欢迎铁子们点赞、关注、收藏
SQL查询实战：高效数据检索全攻略六七_Shmily 数据库 sql 数据库
SQLDQL详解：SELECT查询与核心子句DQL（DataQueryLanguage）是SQL中最常用的部分，核心是SELECT语句，用于从数据库检索数据。以下是完整结构和各子句的详细解析：SELECT[DISTINCT]column_list--选择字段FROMtable_sources--数据来源[JOIN_TYPEJOINtableONjoin_condition]--多表连接[WHERE
Analyze Data Faster Crack SEO-狼术 net Delphi 控件 .net
AnalyzeDataFasterCrackQuicklygroup,filter,andsummarizelargedatasetstorevealtrends,simplifyreporting,andsupportmoreinformeddecisions.Apivotgridisapowerfuldataanalysistoolthatletsusersquicklyorganizeand
python3 annotations weixin_30615767 python 开发工具
引文与描述：AddingarbitrarymetadataannotationstoPythonfunctionsandvariables说说我的体会：类似编译的作用，能够帮助你尽早地避免错误1.不支持Python2+>>>deftest_annotation_py2(a_str:str):File"",line1deftest_annotation_py2(a_str:str):^SyntaxE
LSA主题模型：基于奇异值分解的主题模型 AI天才研究院 AI人工智能与大数据 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LSA主题模型：基于奇异值分解的主题模型1.背景介绍主题模型是一种无监督的机器学习技术，用于发现大规模文本语料库中隐藏的语义结构。它能够自动识别文档集合中的主题，并根据这些主题对文档进行聚类和分类。主题模型在文本挖掘、信息检索、推荐系统等领域有着广泛的应用。LSA（LatentSemanticAnalysis）是一种经典的主题模型算法，基于奇异值分解（SVD）对词-文档矩阵进行分解，从而揭示词语和
人工智能驱动下的可再生能源气象预测：构建绿色能源时代的新大脑一ge科研小菜菜人工智能人工智能能源
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注一、背景：新能源快速发展下的预测焦虑为应对气候变化和实现碳中和目标，全球能源系统正在加速从“化石主导”向“可再生主导”过渡。风能、太阳能等清洁能源已成为未来能源结构的关键支柱。根据国际能源署（IEA）预测，到2050年，全球超70%的电力将来自可再生能源。然而，可再生能源具有显著的**“天气依赖性”和“波动不确定性”**，风速、光照、温度、湿度等
筑牢 AIGC 安全防线：警惕提示词注入攻击 CS创新实验室 AIGC AIGC 安全大模型提示词提示词注入
在AIGC（生成式人工智能）技术蓬勃发展的当下，其在各个领域的应用日益广泛。然而，随着AIGC技术的深入应用，安全问题也逐渐凸显，提示词注入攻击便是其中不容忽视的一大威胁。对于AIGC开发者而言，深入了解提示词注入攻击并做好防范工作，是保障AIGC系统安全稳定运行的关键。提示词注入攻击的基本知识提示词注入攻击是指攻击者通过精心设计和构造提示词，利用AIGC模型对输入文本的处理机制，干扰模型的正常运
AI人工智能助力联邦学习通信效率优化的解决方案 AI智能应用人工智能 ai
AI驱动的联邦学习通信效率优化：从理论到实践的全面解决方案元数据框架标题AI驱动的联邦学习通信效率优化：从理论到实践的全面解决方案关键词联邦学习（FederatedLearning）、通信优化（CommunicationEfficiency）、AI赋能（AI-Enabled）、参数压缩（ParameterCompression）、客户端选择（ClientSelection）、联邦蒸馏（Federa
通义WebSailor：开启网络智能体新时代云资源服务商人工智能 ai
引言：WebSailor的横空出世在人工智能技术迅猛发展的当下，新的模型和智能体不断涌现，一次次刷新着人们对AI能力的认知。2024年7月7日，阿里云的一则消息犹如一颗重磅炸弹投入AI领域的湖面，激起千层浪——通义正式开源网络智能体WebSailor。这一开源举措，瞬间吸引了全球AI开发者、研究者以及科技爱好者的目光，在业界引发了强烈震动。一时间，技术论坛、社交媒体上关于WebSailor的讨论铺
AI人工智能领域，Stable Diffusion掀起的技术风暴 AI大模型应用工坊人工智能 stable diffusion ai
AI人工智能领域，StableDiffusion掀起的技术风暴关键词：AI人工智能、StableDiffusion、技术风暴、图像生成、扩散模型摘要：本文深入探讨了AI人工智能领域中StableDiffusion所掀起的技术风暴。首先介绍了StableDiffusion的背景，包括其目的、预期读者和文档结构等。详细阐述了核心概念与联系，通过文本示意图和Mermaid流程图进行清晰展示。对核心算法原
AI人工智能浪潮中，GPT的技术优势凸显 AI学长带你学AI 人工智能 gpt ai
AI人工智能浪潮中，GPT的技术优势凸显关键词：人工智能、GPT、自然语言处理、深度学习、Transformer、大语言模型、技术优势摘要：本文深入探讨了在人工智能浪潮中GPT(GenerativePre-trainedTransformer)系列模型的技术优势。我们将从GPT的核心架构出发，分析其独特的技术特点，包括自注意力机制、预训练-微调范式、零样本学习能力等。通过与传统NLP方法的对比，揭
构建一个Python爬虫系统：从各大旅游网站抓取旅游价格数据并进行数据分析 Python爬虫项目 2025年爬虫实战项目 python 爬虫旅游自动化开发语言 selenium 数据分析
一、前言随着互联网的普及和旅游业的发展，旅游价格的实时获取和分析变得尤为重要。对于旅游爱好者、企业、甚至是政府部门而言，实时获取旅游价格数据并进行分析能够帮助他们做出更好的决策。然而，许多旅游网站的数据并不公开，爬取这些网站的数据并加以分析成为一个实际需求。本博客将介绍如何构建一个Python爬虫系统，该系统能够从多个主要旅游网站（如携程、飞猪、途牛、马蜂窝等）抓取旅游价格数据，定时更新数据，并进
修改/proc/pid/limits的max open files值
如2965进程的Maxopenfiles[root@utilshkwxadmin]#cat/proc/2965/limitsLimitSoftLimitHardLimitUnitsMaxcputimeunlimitedunlimitedsecondsMaxfilesizeunlimitedunlimitedbytesMaxdatasizeunlimitedunlimitedbytesMaxstac
AI伦理与安全之-哥斯拉与缰绳：如何让“哥斯拉”听懂人类的“悄悄话”？众链网络 AI伦理与安全 AI 人工智能 AI工具 AI智能体
相关文章:AI伦理与安全AI伦理与安全之-镜子与偏见：我们教给它的，究竟是智慧还是偏见？AI伦理与安全之-哥斯拉与缰绳：如何让“哥斯拉”听懂人类的“悄悄话”？AI伦理与安全之-梦境与幻觉：它为何会一本正经地胡说八道？在上一篇中，我们谈到AI像一面“镜子”，会映照出我们数据中的偏见。但那只是AI伦理问题中的“序章”。一个更深邃、更终极的挑战，正横亘在人类与超人工智能（ASI）的未来之间。这个挑战，就
max open files mysql_MySQL性能优化之open_files_limit，table_open_cache和max_connections配置关系... Moriarty K max open files mysql
MySQL的变量open_files_limit，table_open_cache和max_connections是相互关联的。如果对有些变量进行了设置，有的变量没有设置，mysql会根据一定的计算公式进行计算得出其他的，当然有些时候会触发mysql的一些警告来。本文探讨的均基于Linux系统首先，mysql会基于max_connections和table_open_cache的值计算最低需要的文
关于 Linux中系统调优的一些笔记山河已无恙 Linux笔记 Linux 性能调优 1024程序员节 linux 运维
写在前面推送的的邮件里看到有大佬讲的公共课，听了之后这里整理学习笔记。因为是公开课，所以讲的很浅，没接触过，这里做为了解，长长见识。博文内容包括系统调优原理概述如何检测系统的性能瓶颈如何进行内核参数调优如何限制服务的资源占用自定义tuned调优配置集我突然又明白，死亡是聪明的兄长，我们可以放心地把自己托付给他，他会知道在我们有所准备的适当时刻前来。我也突然懂得，原来痛苦、失望和悲愁不是为了惹恼我们
俄罗斯方块AI深度解析：从算法原理到实现细节智算菩萨 Python小游戏项目实战人工智能算法
俄罗斯方块AI深度解析：从算法原理到实现细节前言俄罗斯方块，这个诞生于1984年的经典游戏，至今仍然是人工智能研究领域的热门课题。当简单的几何形状在网格中不断下落时，看似简单的规则背后却隐藏着复杂的策略决策问题。本文将深入剖析一个基于Python实现的俄罗斯方块AI系统，探讨其如何通过精巧的算法设计实现近乎完美的自动游戏表现。游戏状态的数字化抽象在构建任何游戏AI之前，我们首先需要将人类直观理解的
大语言模型的具身化——LLM-based Agents实战 apollowin123 人工智能语言模型深度学习
1.概述1.1Agent是什么长期以来，研究者们一直在追求与人类相当、乃至超越人类水平的通用人工智能（ArtificialGeneralIntelligence，AGI）。早在1950年代，AlanTuring就将「智能」的概念扩展到了人工实体，并提出了著名的图灵测试。这些人工智能实体通常被称为——代理（Agent）。「代理」这一概念起源于哲学，描述了一种拥有欲望、信念、意图以及采取行动能力的实体
ace.js在线代码编辑器实战明月566 js 在线代码编辑器 js代码编辑器语法检测 ace.js ace.js在线代码编辑器
背景ACE简介：功能实现1、引入js2、添加控件3、初始化组件4、保存时代码语法检测5、效果图及完整示例代码：6、官网在线测试：7、遇到的一些问题：背景项目需要，在一些场景，用户需要手动编写一些js脚本来实现自己的功能；前期一直用文本框显示，不便于编辑和查看。因此需要引入一个在线代码编辑器。效果如下：ACE简介：ACE是一个开源的、独立的、基于浏览器的代码编辑器，可以嵌入到任何web页面或Java
人工智能在医疗领域的应用：技术革新与未来展望
人工智能（AI）技术正在重塑医疗行业的面貌。从辅助诊断到药物研发，从健康管理到手术机器人，AI的广泛应用不仅提升了医疗效率，还为精准医疗和个性化治疗提供了新可能。根据2025年多份研究报告及政策文件，全球AI医疗市场正以39.4%的年复合增长率高速扩张，预计到2025年，中国市场规模将达349亿元，全球规模则可能突破千亿美元18。本文将从应用场景、技术驱动、挑战与政策支持等维度，探讨AI在医疗领域
10.5 实战ChatGLM3私有数据微调之提示工程：批量生成数据稳定性秘籍少林码僧掌握先机！从 0 起步实战 AI 大模型微调打造核心竞争力机器学习深度学习人工智能语言模型
实战ChatGLM3私有数据微调之提示工程：批量生成数据稳定性秘籍在当今人工智能蓬勃发展的时代，大语言模型（LLMs）如ChatGLM3的出现，为自然语言处理领域带来了革命性的变化。企业和开发者们纷纷寻求利用这些强大的模型来构建定制化的应用，以满足特定业务需求。其中，使用私有数据对ChatGLM3进行微调，成为了实现差异化竞争和提供个性化服务的关键途径。然而，在微调过程中，确保批量生成数据的稳定性
【机器学习笔记 Ⅱ】9 模型评估巴伦是只猫机器学习机器学习笔记人工智能
评估机器学习模型是确保其在实际应用中有效性和可靠性的关键步骤。以下是系统化的评估方法，涵盖分类、回归、聚类等任务的评估指标和技术：一、分类模型评估1.基础指标2.高级指标ROC-AUC：通过绘制真正例率（TPR）vs假正例率（FPR）曲线下面积评估模型整体性能。AUC=1：完美分类；AUC=0.5：随机猜测。适用于二分类及多分类（OvR或OvO策略）。混淆矩阵：可视化模型在各类别上的具体错误（如将
【机器学习笔记 Ⅱ】7 多类分类巴伦是只猫机器学习机器学习笔记分类
1.多类分类（Multi-classClassification）定义多类分类是指目标变量（标签）有超过两个类别的分类任务。例如：手写数字识别：10个类别（0~9）。图像分类：区分猫、狗、鸟等。新闻主题分类：政治、经济、体育等。特点互斥性：每个样本仅属于一个类别（区别于多标签分类）。输出要求：模型需输出每个类别的概率分布，且概率之和为1。实现方式One-vs-Rest(OvR)：训练K个二分类器（
【附源码】基于flask框架求职招聘网站 (python+mysql+论文)
本系统（程序+源码）带文档lw万字以上文末可获取本课题的源码和程序系统程序文件列表系统的选题背景和意义选题背景：随着互联网技术的飞速发展，网络求职招聘已经成为了现代人才市场的一大趋势。传统的求职招聘方式逐渐被线上平台所取代，这主要得益于网络平台的便捷性、实时性和广泛性。然而，现有的求职招聘网站虽然数量众多，但质量参差不齐，用户体验也各不相同。一些求职者和招聘者在面对海量信息时，往往会感到无所适从，
大语言模型（LLM）课程学习（Curriculum Learning）、数据课程（data curriculum）指南：从原理到实践
在人工智能的浪潮之巅，我们总会惊叹于GPT-4、Llama3.1、Qwen2.5这些顶尖大语言模型（LLM）所展现出的惊人能力。它们似乎无所不知，能写诗、能编程、能进行复杂的逻辑推理。一个自然而然的问题是：它们是如何“学”会这一切的？大多数人会回答：“用海量数据喂出来的。”这个答案只说对了一半。如果你认为只要把互联网上能找到的所有数据（比如15万亿个token）随机打乱，然后“一锅烩”地喂给模型，
Halcon例程学习四：pcb_inspection.hdev CVer_ Halcon例程学习学习
一、例程介绍这个例程主要是检测pcb电路板中的一些电路线缺陷二、例程相关算子gray_opening_shape()//特定形状结构元的灰度开运算gray_closing_shape(）//特定形状结构元的灰度闭运算dyn_threshold（）//动态二值化操作三、例程处理流程1.对原图像进行灰度开运算，图像先腐蚀再膨胀。经过灰度开运算后，图像整体会变暗一些，并且会将黑色区域中的白色缺陷进行填充
2.线性神经网络--Softmax回归温柔济沧海深度学习神经网络回归人工智能
2.1从零实现Softmax回归#数据集导入importtorchimporttorchvisionfromtorchvisionimporttransformsimportmatplotlib.pyplotaspltfromtqdmimporttqdmfromtorch.utils.dataimportDataLoader#####################################
人工智能学习资源 Hemy08 人工智能学习
无机器学习基础：https://www.coursera.org/learn/machine-learning有机器学习基础：MachineYearning深度学习入门：https://www.coursera.org/learn/neural-networks-deep-learning
html页面js获取参数值 0624chenhong html
1.js获取参数值js function GetQueryString(name) { var reg = new RegExp("(^|&)"+ name +"=([^&]*)(&|$)"); var r = windo
MongoDB 在多线程高并发下的问题 BigCat2013 mongodb DB 高并发重复数据
最近项目用到 MongoDB , 主要是一些读取数据及改状态位的操作. 因为是结合了最近流行的 Storm进行大数据的分析处理，并将分析结果插入Vertica数据库，所以在多线程高并发的情境下, 会发现 Vertica 数据库中有部分重复的数据. 这到底是什么原因导致的呢？笔者开始也是一筹莫展，重复去看 MongoDB 的 API , 终于有了新发现： com.mongodb.DB 这个类有
c++ 用类模版实现链表(c++语言程序设计第四版示例代码) CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T> class Node { private: Node<T> * next; public: T data;
最近情况麦田的设计者感慨考试生活
在五月黄梅天的岁月里，一年两次的软考又要开始了。到目前为止，我已经考了多达三次的软考，最后的结果就是通过了初级考试（程序员）。人啊，就是不满足，考了初级就希望考中级，于是，这学期我就报考了中级，明天就要考试。感觉机会不大，期待奇迹发生吧。这个学期忙于练车，写项目，反正最后是一团糟。后天还要考试科目二。这个星期真的是很艰难的一周，希望能快点度过。
linux系统中用pkill踢出在线登录用户被触发 linux
由于linux服务器允许多用户登录，公司很多人知道密码，工作造成一定的障碍所以需要有时踢出指定的用户 1/#who 查出当前有那些终端登录（用 w 命令更详细） # who root pts/0 2010-10-28 09:36 (192
仿QQ聊天第二版肆无忌惮_ qq
在第一版之上的改进内容: 第一版链接: http://479001499.iteye.com/admin/blogs/2100893 用map存起来号码对应的聊天窗口对象,解决私聊的时候所有消息发到一个窗口的问题. 增加ViewInfo类,这个是信息预览的窗口,如果是自己的信息,则可以进行编辑. 信息修改后上传至服务器再告诉所有用户,自己的窗口
java读取配置文件知了ing
1，java读取.properties配置文件 InputStream in; try { in = test.class.getClassLoader().getResourceAsStream("config/ipnetOracle.properties");//配置文件的路径 Properties p = new Properties()
__attribute__ 你知多少？矮蛋蛋 C++gcc
原文地址: http://www.cnblogs.com/astwish/p/3460618.html GNU C 的一大特色就是__attribute__ 机制。__attribute__ 可以设置函数属性（Function Attribute ）、变量属性（Variable Attribute ）和类型属性（Type Attribute ）。 __attribute__ 书写特征是：
jsoup使用笔记 alleni123 java 爬虫 JSoup
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.7.3</version> </dependency> 2014/08/28 今天遇到这种形式，
JAVA中的集合 Collectio 和Map的简单使用及方法百合不是茶 list map set
List ,set ,map的使用方法和区别 java容器类类库的用途是保存对象，并将其分为两个概念： Collection集合：一个独立的序列，这些序列都服从一条或多条规则;List必须按顺序保存元素，set不能重复元素；Queue按照排队规则来确定对象产生的顺序（通常与他们被插入的
杀LINUX的JOB进程 bijian1013 linux unix
今天发现数据库一个JOB一直在执行，都执行了好几个小时还在执行，所以想办法给删除掉系统环境： ORACLE 10G Linux操作系统操作步骤如下：第一步.查询出来那个job在运行，找个对应的SID字段 select * from dba_jobs_running--找到job对应的sid &n
Spring AOP详解 bijian1013 java spring AOP
最近项目中遇到了以下几点需求，仔细思考之后，觉得采用AOP来解决。一方面是为了以更加灵活的方式来解决问题，另一方面是借此机会深入学习Spring AOP相关的内容。例如，以下需求不用AOP肯定也能解决，至于是否牵强附会，仁者见仁智者见智。 1.对部分函数的调用进行日志记录，用于观察特定问题在运行过程中的函数调用
[Gson六]Gson类型适配器(TypeAdapter) bit1129 Adapter
TypeAdapter的使用动机 Gson在序列化和反序列化时，默认情况下，是按照POJO类的字段属性名和JSON串键进行一一映射匹配，然后把JSON串的键对应的值转换成POJO相同字段对应的值，反之亦然，在这个过程中有一个JSON串Key对应的Value和对象之间如何转换(序列化/反序列化)的问题。以Date为例，在序列化和反序列化时，Gson默认使用java.
【spark八十七】给定Driver Program，如何判断哪些代码在Driver运行，哪些代码在Worker上执行 bit1129 driver
Driver Program是用户编写的提交给Spark集群执行的application，它包含两部分作为驱动： Driver与Master、Worker协作完成application进程的启动、DAG划分、计算任务封装、计算任务分发到各个计算节点(Worker)、计算资源的分配等。计算逻辑本身，当计算任务在Worker执行时，执行计算逻辑完成application的计算任务
nginx 经验总结 ronin47 nginx 总结
　　　深感nginx的强大，只学了皮毛，把学下的记录。　　　获取Header 信息，一般是以$http_XX（ＸＸ是小写）获取body,通过接口，再展开，根据Ｋ取Ｖ　　　获取uri,以$arg_XX &n
轩辕互动-1.求三个整数中第二大的数2.整型数组的平衡点 bylijinnan 数组
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class ExoWeb { public static void main(String[] args) { ExoWeb ew=new ExoWeb(); System.out.pri
Netty源码学习-Java-NIO-Reactor bylijinnan java 多线程 netty
Netty里面采用了NIO-based Reactor Pattern 了解这个模式对学习Netty非常有帮助参考以下两篇文章： http://jeewanthad.blogspot.com/2013/02/reactor-pattern-explained-part-1.html http://gee.cs.oswego.edu/dl/cpjslides/nio.pdf
AOP通俗理解 cngolon spring AOP
1.我所知道的aop 初看aop,上来就是一大堆术语，而且还有个拉风的名字，面向切面编程，都说是OOP的一种有益补充等等。一下子让你不知所措，心想着：怪不得很多人都和我说aop多难多难。当我看进去以后，我才发现：它就是一些java基础上的朴实无华的应用，包括ioc，包括许许多多这样的名词，都是万变不离其宗而已。 2.为什么用aop&nb
cursor variable 实例 ctrain variable
create or replace procedure proc_test01 as type emp_row is record( empno emp.empno%type, ename emp.ename%type, job emp.job%type, mgr emp.mgr%type, hiberdate emp.hiredate%type, sal emp.sal%t
shell报bash: service: command not found解决方法 daizj linux shell service jps
今天在执行一个脚本时，本来是想在脚本中启动hdfs和hive等程序，可以在执行到service hive-server start等启动服务的命令时会报错，最终解决方法记录一下：脚本报错如下： ./olap_quick_intall.sh: line 57: service: command not found ./olap_quick_intall.sh: line 59
40个迹象表明你还是PHP菜鸟 dcj3sjt126com 设计模式 PHP 正则表达式 oop
你是PHP菜鸟，如果你：1. 不会利用如phpDoc 这样的工具来恰当地注释你的代码2. 对优秀的集成开发环境如Zend Studio 或Eclipse PDT 视而不见3. 从未用过任何形式的版本控制系统，如Subclipse4. 不采用某种编码与命名标准，以及通用约定，不能在项目开发周期里贯彻落实5. 不使用统一开发方式6. 不转换（或）也不验证某些输入或SQL查询串（译注：参考PHP相关函
Android逐帧动画的实现 dcj3sjt126com android
一、代码实现： private ImageView iv; private AnimationDrawable ad; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout
java远程调用linux的命令或者脚本 eksliang linux ganymed-ssh2
转载请出自出处： http://eksliang.iteye.com/blog/2105862 Java通过SSH2协议执行远程Shell脚本(ganymed-ssh2-build210.jar) 使用步骤如下： 1.导包官网下载: http://www.ganymed.ethz.ch/ssh2/ ma
adb端口被占用问题 gqdy365 adb
最近重新安装的电脑，配置了新环境，老是出现： adb server is out of date. killing... ADB server didn't ACK * failed to start daemon * 百度了一下，说是端口被占用，我开个eclipse，然后打开cmd，就提示这个，很烦人。一个比较彻底的解决办法就是修改
ASP.NET使用FileUpload上传文件 hvt .net C#hovertree asp.net webform
前台代码： <asp:FileUpload ID="fuKeleyi" runat="server" /> <asp:Button ID="BtnUp" runat="server" onclick="BtnUp_Click" Text="上传" />
代码之谜（四）- 浮点数（从惊讶到思考） justjavac 浮点数精度代码之谜 IEEE
在『代码之谜』系列的前几篇文章中，很多次出现了浮点数。浮点数在很多编程语言中被称为简单数据类型，其实，浮点数比起那些复杂数据类型（比如字符串）来说，一点都不简单。单单是说明 IEEE浮点数就可以写一本书了，我将用几篇博文来简单的说说我所理解的浮点数，算是抛砖引玉吧。一次面试记得多年前我招聘 Java 程序员时的一次关于浮点数、二分法、编码的面试，多年以后，他已经称为了一名很出色的
数据结构随记_1 lx.asymmetric 数据结构笔记
第一章 1.数据结构包括数据的逻辑结构、数据的物理/存储结构和数据的逻辑关系这三个方面的内容。 2.数据的存储结构可用四种基本的存储方法表示，它们分别是顺序存储、链式存储、索引存储和散列存储。 3.数据运算最常用的有五种，分别是查找/检索、排序、插入、删除、修改。 4.算法主要有以下五个特性：输入、输出、可行性、确定性和有穷性。 5.算法分析的
linux的会话和进程组网络接口 linux
会话：一个或多个进程组。起于用户登录，终止于用户退出。此期间所有进程都属于这个会话期。会话首进程：调用setsid创建会话的进程1.规定组长进程不能调用setsid，因为调用setsid后，调用进程会成为新的进程组的组长进程.如何保证？先调用fork，然后终止父进程，此时由于子进程的进程组ID为父进程的进程组ID，而子进程的ID是重新分配的，所以保证子进程不会是进程组长，从而子进程可以调用se
二维数组元素的连续求解 1140566087 二维数组 ACM
import java.util.HashMap; public class Title { public static void main(String[] args){ f(); } // 二位数组的应用 //12、二维数组中，哪一行或哪一列的连续存放的0的个数最多，是几个0。注意，是“连续”。 public static void f(){
也谈什么时候Java比C++快 windshome java C++
刚打开iteye就看到这个标题“Java什么时候比C++快”，觉得很好笑。你要比，就比同等水平的基础上的相比，笨蛋写得C代码和C++代码，去和高手写的Java代码比效率，有什么意义呢？我是写密码算法的，深刻知道算法C和C++实现和Java实现之间的效率差，甚至也比对过C代码和汇编代码的效率差，计算机是个死的东西，再怎么优化，Java也就是和C

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他