qq_39199884

Datawhale 零基础入门数据挖掘-Task2 数据分析

1.赛题数据

赛题以预测二手车的交易价格[price]为任务。
该数据来自某交易平台的二手车交易记录，总数据量超过40w，包含31列变量信息，其中15列为匿名变量。
为了保证比赛的公平性，将会从中抽取15万条作为训练集，5万条作为测试集A，5万条作为测试集B，同时会对name、model、brand和regionCode等信息进行脱敏。

2.数据分析
2.1 载入各种数据科学以及可视化库

#coding:utf-8
#导入warnings包，利用过滤器来实现忽略警告语句。
import warnings
warnings.filterwarnings('ignore')
 
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno

通过分析Task 2的代码，大部分的数据处理都是关于Pandas的，这里首先附上Pandas的中文链接并对部分代码进行分析。

2.2载入数据

## 1) 载入训练集和测试集；
path = './datalab/231784/'
Train_data = pd.read_csv(path+'used_car_train_20200313.csv', sep=' ')
Test_data = pd.read_csv(path+'used_car_testA_20200313.csv', sep=' ')

2.2 总览数据概况

describe种有每列的统计量，个数count、平均值mean、方差std、最小值min、中位数25% 50% 75% 以及最大值看这个信息主要是瞬间掌握数据的大概的范围以及每个值的异常值的判断，比如有的时候会发现999 9999 -1等值这些其实都是nan的另外一种表达方式，有的时候需要注意下
info 通过info来了解数据每列的type，有助于了解是否存在除了nan以外的特殊符号异常

## 1) 通过describe()来熟悉数据的相关统计量
Train_data.describe()

## 2) 通过info()来熟悉数据类型
Train_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150000 entries, 0 to 149999
Data columns (total 31 columns):
SaleID               150000 non-null int64
name                 150000 non-null int64
regDate              150000 non-null int64
model                149999 non-null float64
brand                150000 non-null int64
bodyType             145494 non-null float64
fuelType             141320 non-null float64
gearbox              144019 non-null float64
power                150000 non-null int64
kilometer            150000 non-null float64
notRepairedDamage    150000 non-null object
regionCode           150000 non-null int64
seller               150000 non-null int64
offerType            150000 non-null int64
creatDate            150000 non-null int64
price                150000 non-null int64
v_0                  150000 non-null float64
v_1                  150000 non-null float64
v_2                  150000 non-null float64
v_3                  150000 non-null float64
v_4                  150000 non-null float64
v_5                  150000 non-null float64
v_6                  150000 non-null float64
v_7                  150000 non-null float64
v_8                  150000 non-null float64
v_9                  150000 non-null float64
v_10                 150000 non-null float64
v_11                 150000 non-null float64
v_12                 150000 non-null float64
v_13                 150000 non-null float64
v_14                 150000 non-null float64
dtypes: float64(20), int64(10), object(1)
memory usage: 35.5+ MB

可以看到model bodyType fuelType gearbox四列有缺失值，其中model只有一个缺失值，这种只含有极少缺失值的情况可以考虑删除有缺失值的一行。bodyType fuelType gearbox则缺失值较多，因为是类别特征，考虑用众数或者中位数进行填充，也可以进行聚类填充。

Test_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 30 columns):
SaleID               50000 non-null int64
name                 50000 non-null int64
regDate              50000 non-null int64
model                50000 non-null float64
brand                50000 non-null int64
bodyType             48587 non-null float64
fuelType             47107 non-null float64
gearbox              48090 non-null float64
power                50000 non-null int64
kilometer            50000 non-null float64
notRepairedDamage    50000 non-null object
regionCode           50000 non-null int64
seller               50000 non-null int64
offerType            50000 non-null int64
creatDate            50000 non-null int64
v_0                  50000 non-null float64
v_1                  50000 non-null float64
v_2                  50000 non-null float64
v_3                  50000 non-null float64
v_4                  50000 non-null float64
v_5                  50000 non-null float64
v_6                  50000 non-null float64
v_7                  50000 non-null float64
v_8                  50000 non-null float64
v_9                  50000 non-null float64
v_10                 50000 non-null float64
v_11                 50000 non-null float64
v_12                 50000 non-null float64
v_13                 50000 non-null float64
v_14                 50000 non-null float64
dtypes: float64(20), int64(9), object(1)
memory usage: 11.4+ MB

其中bodyType fuelType gearbox有缺失，与训练集相似。
可以使用missingno库对缺失值进行可视化，更直观的了解数据的缺失情况。图中的空白处代表数据的缺失，可以了解数据缺失值的位置。
2.3 判断数据缺失和异常

## 1) 查看每列的存在nan情况
Train_data.isnull().sum()

SaleID                  0
name                    0
regDate                 0
model                   1
brand                   0
bodyType             4506
fuelType             8680
gearbox              5981
power                   0
kilometer               0
notRepairedDamage       0
regionCode              0
seller                  0
offerType               0
creatDate               0
price                   0
v_0                     0
v_1                     0
v_2                     0
v_3                     0
v_4                     0
v_5                     0
v_6                     0
v_7                     0
v_8                     0
v_9                     0
v_10                    0
v_11                    0
v_12                    0
v_13                    0
v_14                    0
dtype: int64

# nan可视化
missing = Train_data.isnull().sum()
missing = missing[missing > 0]
missing.sort_values(inplace=True)
missing.plot.bar()

通过以上两句可以很直观的了解哪些列存在 “nan”, 并可以把nan的个数打印，主要的目的在于 nan存在的个数是否真的很大，如果很小一般选择填充，如果使用lgb等树模型可以直接空缺，让树自己去优化，但如果nan存在的过多、可以考虑删掉

# 可视化看下缺省值
msno.matrix(Train_data.sample(250))

测试集的缺失值

# 可视化看下缺省值
msno.matrix(Test_data.sample(250))

测试集的缺省和训练集的差不多情况, 可视化有四列有缺省，notRepairedDamage缺省得最多

接着看一下我们之前使用pandas.info()时得到的结构，发现有一个object数据类型，我们观察一下这个与众不同的数据，因为是类别特征，所以使用value_counts()看下每个类别的数量。

df_feature['notRepairedDamage'].value_counts()

0.0    148610
-       32355
1.0     19035
Name: notRepairedDamage, dtype: int64

可以看到notRepairedDamage这一列也是有缺失值的，但并不是用nan表示所有前面并没有识别出来，由于缺失值较多，并且类别较少，可以先将缺失值作为一个类别。

接着观察一下我们要预测的price列，可以看到数据是长尾分布，不符合正态分布，所以用np.log1p做log(1+x)变换，使其更贴近正态分布。

fig,axes = plt.subplots(ncols=2,nrows=2)
fig.set_size_inches(12, 10)
sns.distplot(df_train["price"],ax=axes[0][0])
stats.probplot(df_train["price"], dist='norm', fit=True, plot=axes[0][1])
sns.distplot(np.log1p(df_train["price"]),ax=axes[1][0])
stats.probplot(np.log1p(df_train["price"]), dist='norm', fit=True, plot=axes[1][1])

同时对price用pandas.describe()查看下数据。可以看到最大值值为99999，最小值为11。

df_train['price'].describe()

count    150000.000000
mean       5923.327333
std        7501.998477
min          11.000000
25%        1300.000000
50%        3250.000000
75%        7700.000000
max       99999.000000
Name: price, dtype: float64

最小值为11…，看一下price<20的数据，可以看到大部分都是有缺失值的，所有在对缺失值处理时可以考虑将bodyType fuelType gearbox三列同时缺失的数据删去。

df_train[df_train['price'] < 20]

接着看看其他几列的数据

plt.figure(figsize=(20, 18))
i = 1
for f in categorical_features + numeric_features:
    if df_feature[f].nunique() <= 50:
        plt.subplot(5, 3, i)
        i += 1
        v = df_feature[~df_feature['price'].isnull()].groupby(f)['price'].agg({f + '_price_mean': 'mean'}).reset_index()
        fig = sns.barplot(x=f, y=f + '_price_mean', data=v)
        for item in fig.get_xticklabels():
            item.set_rotation(90)
plt.tight_layout()
plt.show()

可以看出不同品牌的二手车价格差异比较明显，这是可以理解的，不同品牌的保值不同。同时车身类型也是有着比较大的差异，已行驶距离是影响二手车价格的一个很重要的指标，从图中可以看出随着行驶公里的增加，交易价格在不断下降，但是有一个异常点就是0.5万公里的时候，反而价格低很多。个人猜测可能是汽车存在故障，所以在行驶这么短距离就出售，导致价格很低。

还有一个对二手车交易影响很大的因素是使用时间，我们可以通过用汽车开始售卖时间creatDate与汽车注册日期regDate的差值，来计算汽车的使用时间。在处理时间时会发现给出的原始数据会出现19970007这样的异常时间，这里将月份为00的作为1月，通过datetime函数对时间类型进行划分并得到相应的年月日数据。

def date_parse(x):
    year = int(str(x)[:4])
    month = int(str(x)[4:6])
    day = int(str(x)[6:8])

    if month < 1:
        month = 1

    date = datetime(year, month, day)
    return date


df_feature['regDate'] = df_feature['regDate'].apply(date_parse)
df_feature['creatDate'] = df_feature['creatDate'].apply(date_parse)
df_feature['regDate_year'] = df_feature['regDate'].dt.year

# 汽车使用时间
df_feature['car_age_day'] = (df_feature['creatDate'] - df_feature['regDate']).dt.days
df_feature['car_age_year'] = round(df_feature['car_age_day'] / 365, 0)

画出汽车使用时间与交易价格的柱状图。

plt.figure(figsize=(14, 6))
group = df_feature.groupby('car_age_year').agg({'price': 'mean'}).reset_index()
ax = sns.barplot(data=df_feature, x=group['car_age_year'], y=group['price'])
ax.set_xticklabels(ax.get_xticklabels(), rotation=0)
plt.show()

最后还有一个车型数据没有分析，通过value_count可以知道在训练集中有248种，而在测试集中有247种，因为数量比较多所以画的图比较模糊，但是可以看出不同车型还是有比较大的差异。

plt.figure(figsize=(40, 5))
group = df_feature.groupby('model').agg({'price': 'mean'}).reset_index()
ax = sns.barplot(data=df_feature, x=group['model'], y=group['price'])
ax.set_xticklabels(ax.get_xticklabels(), rotation=90)
plt.show()

同时给出的原始数据还有v_0 - v_14共15个匿名特征，简单的看下它们与price的pearson相关系数。

corrMatt = df_train[numeric_features].corr()
mask = np.array(corrMatt)
mask[np.tril_indices_from(mask)] = False
fig,ax= plt.subplots()
fig.set_size_inches(20,10)
sns.heatmap(corrMatt, mask=mask,vmax=.8, square=True,annot=True)
bottom, top = ax.get_ylim()
ax.set_ylim(bottom + 0.5, top - 0.5)

可以看出匿名特征应该是非常重要的了，其中v_0，v_8，v_10与price呈正相关且相关性很强，v_3与price的负相关性很强。同时也可以看到，这几个匿名特征之间也存在联系，如v_2和v_7，v_4和v_9等高度线性相关。可以考虑在特征提取的时候删去重复的，也可以添加到不同模型中增加模型的差异性，提高模型融合效果。当然如果用的是xgboost、lightgbm这些模型的话就不那么重要了。
再看一下训练集和测试集中匿名数据的分布。

plt.figure(figsize=(15, 15))
i = 1
for f in numeric_features[2:-1]:
    plt.subplot(5, 3, i)
    i += 1
    sns.distplot(df_feature[~df_feature['price'].isnull()][f], label='train', color='b', hist=False)
    sns.distplot(df_feature[df_feature['price'].isnull()][f], label='test', color='g', hist=False)
plt.tight_layout()
plt.show()

3.经验总结

给出的EDA步骤为广为普遍的步骤，在实际的不管是工程还是比赛过程中，这只是最开始的一步，也是最基本的一步。

接下来一般要结合模型的效果以及特征工程等来分析数据的实际建模情况，根据自己的一些理解，对实际问题做出判断和深入的理解。

EDA在比赛中非常重要。基本上EDA就是拿了数据以后画画图看看feature有哪些特别之处，我经常看到Kaggle上面很多长篇大论式的Kernel开头导入数据以后就开始EDA, 这些人是不是时间很多闲得慌喜欢画图扯淡闹着玩呢?不是的，认真的EDA说明他们是严肃的数据玩家。比赛和理想情况不太一样，数据虽然是主办方提供的，但是毕竟还是源自真实，很有可能出现missing vlaues, 或者呈现其他的特点(比如重复的feature, 数据集中在某一区间内)，挖掘这些数据的特点，选取合适的feature，甚至创造新的(magic） feature, 比直接上来生搬硬套模型有用得多。其次，数据量大的时候，training花费的时间是很多的，能早早发现数据的特点，有的放矢地train，才是高效之道。
最后不断进行EDA与数据处理和挖掘，来到达更好的数据结构和分布以及较为强势相关的特征。

吴恩达的翻译Agent项目，复现教程来了！ datawhale
原创郭才高DatawhaleDatawhale教程作者：郭才高，Datawhale创作者1.TranslationAgent复现效果展示#执行任务#调用编译后的工作流，传入初始状态字典result=app.invoke({ "source_lang": "English", #源语言为英语 "target_lang": "中文", #目标语言为中文 "source_text": ""
周报 | 25.3.3-25.3.9文章汇总双木的木大模型专栏深度学习拓展阅读人工智能 linux 服务器 deepseek llama YOLO transformer
为了更好地整理文章和发表接下来的文章，以后每周都汇总一份周报。周报|25.2.24-25.3.2文章汇总-CSDN博客Datawhale|最新「大模型简史」整理！从Transformer（2017）到DeepSeek-R1（2025）--建议收藏！-CSDN博客AI生成未来|CVPR2025|多模态六边形战士Magma：会点按钮会搬砖，标注竟让AI长出“时空大脑“_magma-8b-CSDN博客机
Datawhale AI夏令营第四期 AIGC方向 task02学习笔记流火_授衣 AI 人工智能 AIGC 学习
探探前沿：了解一下AI生图技术的能力&局限今天我们的任务是对baseline的代码有一个更加细致的理解，然后我们会学习如何借助AI来提升我们的自学习能力，从而帮助大家在后面的学习工作中如何从容迎接各种挑战。授人以鱼不如授人以渔，你可以从中学大模型的提问技巧来实现快速学习，学会如何制作一个话剧连环画。‘自其不变者而观之，则物与我皆无尽也’，拥抱AI、学习AI、运用AI解决各种变化的问题，一起加油！！
社会科学市场博弈和价格预测之时间序列挖掘（Datawhale AI 夏令营）会飞的Anthony 人工智能人工智能
深入理解赛题——探索性数据分析首先，我们先介绍一下什么是EDA：探索性数据分析（ExploratoryDataAnalysis,EDA）是一组数据分析技术，旨在总结其主要特征，通常通过可视化手段来实现。EDA的目标是通过数据的统计摘要和图形展示来发现数据的结构、异常值、模式、趋势、关系以及变量之间的相互作用。为什么进行EDA？在现在的数据挖掘类比赛中，模型和方法选择空间往往很小，同时存在不少自动机
王坚院士谈算力革命，“对年轻人要足够地致敬” datawhale
DatawhaleDatawhale分享央视新闻，面对面：王坚院士来源：央视新闻，仅用于学术分享。**Datawhale整理了采访全文，供大家阅读。主持人：作为政协委员，今年您的提案里面会侧重于什么问题？王坚院士：我想我们今天讲的这个技术变革也好，特别是讲到人工智能也好，确实是一个时代的变革，是一个百年未遇的科技变革的时候。所以我今天比较关心的是人工智能+，我们怎么能有一些机制上的创新。王坚，全国
我没有大模型经验，可以给个机会吗？ datawhale
QuokkaDatawhaleDatawhale分享作者：Quokka，编辑：Datawhale版权声明：版权属于原作者，仅用于学术分享，如有侵权，联系删文。**作者|Quokka原文链接：https://zhuanlan.zhihu.com/p/...做大模型一年半，经历了无数场面试。经验我最常听到的候选人（尤其是学生）的说辞是：我没有大模型经验，可以给个机会吗？答案是，我们并不看重候选人的大模
DeepMind首席科学家最新万字访谈：模型「慢思考」，能力大幅提升！ datawhale
DatawhaleDatawhale分享访谈：JackRae，编译：数字开物2月25日，谷歌DeepMind首席科学家JackRae接受访谈，就谷歌思维模型的发展进行深入讨论。JackRae指出，推理模型是AI发展的新范式，推理模型并非追求即时响应，而是通过增加推理时的思考时间来提升答案质量，这导致了一种新的ScalingLaw，“慢思考”模式是提升AI性能的有效途径。JackRae认为长语境对于
Datawhale 数学建模导论国赛B学习笔记瓜瓜蛋数学建模学习笔记
贪心算法贪心算法(Greedyalgorithm)（贪婪算法）基本思想：多机调度问题是一个多项式复杂程度的非确定性问题(Non-deterministicPolynomial)，具有一定的复杂程度，当前没有有效的解决方法。相较于其它算法，贪心算法求解不从整体最优上加以考虑,。而是寻求某种意义上的局部最优解，从而做出当下最好的选择。因此，在求解并行机调度问题上，贪心算法容易获得近似最优解的答案，更有
分享一个学习Ollama的开源项目，轻松上手大模型部署可可南木机器学习人工智能
最近deepseek火得不行，很多人都想在家里部署一个来玩一下，所以到处找资源学习。机缘巧合下搜到了这个项目，内容相当给力，不敢私藏，分享出来给需要的同学。项目地址：https://github.com/datawhalechina/handy-ollamalink在线阅读：https://datawhalechina.github.io/handy-ollama/link效果预览：感谢所有对该项
免费无限次！671B满血版DeepSeek R1隐藏入口，优秀平台推荐！ datawhale
DatawhaleDatawhale推荐平台：AskManyAI**DeepSeek官网挤爆了，各种前几天大火的第三方平台也接连崩溃。我整理了一下问题，可以分成3类：回答卡顿，慢的要死，半天出不来结果，得反复重试服务器崩了，不知道啥时候能修复挂羊头卖狗肉，用8B蒸馏小模型冒充DeepSeekR1满血版，回答效果很差不能联网搜索不能支持图片对话不能支持文档对话这两天找遍各个渠道，深度体验了市面上接近
核心团队来自百度，大模型AI Agents创业团队招聘啦！ datawhale
DatawhaleDatawhale分享初创公司：浮点奇迹，方向：AIAgents**团队简介我们是浮点奇迹团队，一个AIAgents赛道初创公司，创始团队主要来自百度的AI、搜索核心算法部门，有业界领先的大模型自研能力和十亿规模平台型C端产品研发能力；我们专注打造AIAgents原生的互联网内容平台，我们的长期愿景是重新定义互联网的信息生产和分发，加速高价值长尾信息的流动和传播。目前，我们正在寻
【LLM】大模型基础--大规模预训练语言模型的开源教程笔记 Langchain 笔记人工智能 langchain llama 大模型产品经理大模型基础
1.引言本文以DataWhale大模型开源教程为学习路线，进行一整个大模型的入门操作什么是语言模型语言模型是一种对词元序列（token）的概率分布，可以用于评估文本序列的合理性并生成新的文本。从生成文本的方式来看，LM（languagemodle）可以简单的分为：自回归模型非自回归模型特点逐字生成文本，每个词的生成都依赖于上文，关联性好一次性生成整个文本序列，不捕捉上文信息优点内容质量高生成速度快
DataWhale 组队学习 wow-agent task2 体验总结归纳菜鸟码农01 学习 datawhale
一、Llama-index知识体验1.ReActAgent与业务自动化ReActAgent：通过ReActAgent，业务逻辑可以自动转换为代码，只要有相应的API，模型就可以调用。这种自动化能力使得许多业务场景变得更加高效和智能化。LlamaIndex开源工具：LlamaIndex提供了一些开源工具，帮助开发者实现这些功能。通过访问官网，开发者可以获取这些工具并应用到自己的项目中。2.Agent
DataWhale组队学习 LeetCode task4 菜鸟码农01 学习 leetcode 算法
目录1.二分查找算法介绍1.1二分查找算法简介1.2二分查找算法步骤1.3二分查找算法思想2.简单二分查找2.1题目：704.二分查找2.2解题思路3.二分查找细节3.1区间的开闭问题3.2mid的取值问题3.3出界条件的判断3.4搜索区间范围的选择4.二分查找的两种思路4.1直接法4.2排除法5.总结1.二分查找算法介绍1.1二分查找算法简介二分查找算法（BinarySearchAlgorith
DataWhale组队 LeetCode task1 菜鸟码农01 leetcode 算法
目录1.数据结构2.算法3.程序设计总结1.算法复杂度的评估方法2.问题规模n3.时间复杂度4.空间复杂度的定义5.空间复杂度的组成6.空间复杂度的计算总结一、什么是算法？算法的用处是什么？算法+数据结构=程序这一公式简洁地表达了程序设计的核心要素。算法是解决问题的步骤或方法，而数据结构则是数据的组织、存储和管理方式。程序则是算法和数据结构的具体实现。1.数据结构数据结构是带有结构特性的数据元素的
DataWhale 数学建模导论学习笔记（第一章） ryanYu_127 学习笔记
要点：利用Python作为计算工具帮助解决数学模型。一、前期准备工作1.AnacondaNavigator帮助安装了NumPy所需的功能包。2.通过Jupyter_Lab,可以直接测试代码运行的结果。3.通过vscode可以修改文本并即时看到预览结果，解决一些符号、公式、表格显示不正常的问题。4.这也是我第一次使用CSDN记录自己的学习笔记。二、进入第一章正题解析方法与几何建模：1.前面的向量和矩
Datawhale数学建模导论课程第八章学习心得(I)一时间序列与投资模型星.惜尘数学建模
学习链接：Datawhale数学建模教程Descriptionhttps://datawhalechina.github.io/intro-mathmodel/#/CH8/%E7%AC%AC8%E7%AB%A0-%E6%97%B6%E9%97%B4%E5%BA%8F%E5%88%97?id=_811-%e6%97%b6%e9%97%b4%e5%ba%8f%e5%88%97%e7%9a%84%e5%
李沐：读博这五年总结 datawhale
李沐DatawhaleDatawhale干货作者：李沐，卡内基梅隆大学前言12年8月提着一个行李箱降落在匹兹堡机场。没找住的地方，也不知道CMU应该怎么去。对未来一片迷茫，但充满乐观。现在，刚完成了博士期间最后的一场报告，在同样的机场，不过是在等待离开的航班。回想过去的五年，是折腾的五年，也是自我感悟和提升的五年。这里我尝试记录这五年主要做过的事情和其中的感想，希望对大家有所启发。第0年：3/11
获得清华博士学位的条件之一：不辱师门 datawhale
贾庆山老师DatawhaleDatawhale干货分享：贾庆山老师，编辑：哈哈镜V一个群体PermanentheadDamage的博士生群体PermanentheadDamage=Ph.D博士生一年级的同学们，不要担忧或高兴得太早，抱歉你们还没有经历Qualification——预备考试，你们暂且不能被称为博士，只能称自己是要努力成为博士预备生的学生。等过了一年到了博二，你们会疑惑，自己读的是工学
完整的671B R1塞进本地，详尽教程来了！ datawhale
李锡涵DatawhaleDatawhale干货作者：李锡涵，编译：机器之心本文作者：李锡涵（XihanLi）作者简介：伦敦大学学院（UCL）计算机系博士研究生，谷歌开发者专家，主要研究方向为学习优化，在NeurIPS、ICLR、AAMAS、CIKM等会议发表过学术论文，CircuitTransformer作者，图书《简明的TensorFlow2》（https://tf.wiki）作者过年这几天，D
DeepSeek实习感受与大模型择业思考！ datawhale
郑思泽DatawhaleDatawhale经验作者：郑思泽，北京大学博士、字节TopSeed知乎：郑思泽，已获作者授权地址：https://zhuanlan.zhihu.com/p/...转眼距离博士毕业已经六个月了，过去的一年时光可谓心路坎坷，时常陷于纠结犹豫之中，前一阵还收到邀请分享就业心得。因为行程安排没有能参加，趁着今天放假，就直接记录一段这段时间的心情和事情，记录的内容里，我的选择有对有
组队学习首次开放许愿啦！下个月想学什么，听你的 datawhale
原创DatawhaleDatawhaleDatawhale学习开源贡献：Datawhale团队许愿你想学习的课程组队学习新增许愿环节，每个人都可以在留言区写下你想学习的内容。许愿规则▶许愿的内容不能太广。举个栗子，不推荐大家直接许愿：「机器学习」，而是许愿：「机器学习入门概念讲解」，或者具体到某个算法：「线性回归的公式推导+代码实战」，这样便于我们在1个月内完成制作。▶不限制课程难度，只要是刚需就
DataWhale wow-agent task 2: llama-index搭建电商数据库查询&课本问答agent Meteora1024875 数据库 llama
创建demoagentllama-index默认调用OpenAI大模型，调用其他模型需要继承CustomLLM类自定义一个类。教程中还实现了一个流式输出的功能，即各大ai聊天平台上的打字机效果。这节课构建的agent暂且不需要记忆对话历史。llama-index库之于openai库的优势方便连接外部数据SQL数据库操作配置对话模型创建数据库对话引擎llama中的NLSQLTableQueryEng
周报 | 25.1.27-25.2.2文章汇总双木的木深度学习拓展阅读 python拓展学习人工智能 transformer 算法深度学习 YOLO chatgpt llama
为了更好地整理文章和发表接下来的文章，以后每周都汇总一份周报。周报|25.1.20-25.1.26文章汇总-CSDN博客机器学习AI算法工程|DeepSeekV3两周使用总结-CSDN博客Datawhale|一文详尽之SFT（监督微调，建议收藏）！-CSDN博客arXiv每日学术速递|强强联合：CNN与Transformer融合创新提升模型性能！！-CSDN博客AI生成未来|字节提出VideoWo
Stable Diffusion创始人：DeepSeek没有抄袭！ Datawhale stable diffusion 人工智能
Datawhale分享观点：EmadMostaque，编译：Datawhale视频中英对照如下：Distillationisnothingnew,andthere'snowaytokindofstopthisfromthemodelbasis.蒸馏技术并不是什么新事物，而且从模型的角度来看，没有办法完全阻止这种情况的发生。Butifyouactuallylookatwhatthepapersays
【AI Agent系列】【MetaGPT多智能体学习】1. 再理解 AI Agent - 经典案例和热门框架综述同学小张大模型人工智能学习 gpt 笔记 MetaGPT agi 智能体
本系列文章跟随《MetaGPT多智能体课程》（https://github.com/datawhalechina/hugging-multi-agent），深入理解并实践多智能体系统的开发。本文为该课程的第二章（智能体综述及多智能体框架介绍)笔记）。文章目录0.温故而知新-再看AIAgent是什么1.一个AIAgent实例介绍-BabyAGI2.多智能体框架比较3.警告？0.温故而知新-再看AIA
【深度强化学习】DQN：深度Q网络算法——从理论讲解到源码解析视觉萌新、深度强化学习深度Q网络 DQN
【深度强化学习】DQN：深度Q网络算法——从理论讲解到源码解析介绍常用技巧算法步骤DQN源码实现网络结构训练策略DQN算法进阶双深度Q网络（DoubleDQN）竞争深度Q网络（DuelingDQN）优先级经验回放（PER）噪声网络（noisy）本文图片与源码均来自《EasyRL》：https://github.com/datawhalechina/easy-rl介绍核心思想：训练动作价值函数Q
DataWhale Pandas数据分析 Task01：预备知识 Shawnxs_ DataWhale Pandas数据分类 python pandas
文章目录练习Ex1：利用列表推导式写矩阵乘法Ex2：更新矩阵Ex3：卡方统计量Ex4：改进矩阵计算的性能Ex5：连续整数的最大长度心得体会练习Ex1：利用列表推导式写矩阵乘法一般的矩阵乘法根据公式，可以由三重循环写出：In[138]:M1=np.random.rand(2,3)In[139]:M2=np.random.rand(3,4)In[140]:res=np.empty((M1.shape[
Day04-线性代数-特征值和特征向量(DataWhale) liying_tt 数学基础线性代数
七、特征值和特征向量AAA是n阶方阵，数λ\lambdaλ，若存在非零列向量α⃗\vec{\alpha}α，使得Aα⃗=λα⃗A\vec{\alpha}=\lambda\vec{\alpha}Aα=λα，则λ\lambdaλ是特征值，α⃗\vec{\alpha}α是对应于λ\lambdaλ的特征向量λ\lambdaλ可以为0α⃗\vec{\alpha}α不能为0⃗\vec{0}0，且为列向量Aα⃗
用Transformer实现OCR字符识别！ Datawhale 大数据数据挖掘编程语言 python 计算机视觉
Datawhale干货作者：安晟、袁明坤，Datawhale成员在CV领域中，transformer除了分类还能做什么？本文将采用一个单词识别任务数据集，讲解如何使用transformer实现一个简单的OCR文字识别任务，并从中体会transformer是如何应用到除分类以外更复杂的CV任务中的。全文分为四部分：一、数据集简介与获取二、数据分析与关系构建三、如何将transformer引入OCR四
linux系统服务器下jsp传参数乱码 3213213333332132 java jsp linux windows xml
在一次解决乱码问题中，发现jsp在windows下用js原生的方法进行编码没有问题，但是到了linux下就有问题， escape,encodeURI,encodeURIComponent等都解决不了问题但是我想了下既然原生的方法不行，我用el标签的方式对中文参数进行加密解密总该可以吧。于是用了java的java.net.URLDecoder,结果还是乱码，最后在绝望之际，用了下面的方法解决了
Spring 注解区别以及应用 BlueSkator spring
1. @Autowired @Autowired是根据类型进行自动装配的。如果当Spring上下文中存在不止一个UserDao类型的bean，或者不存在UserDao类型的bean，会抛出 BeanCreationException异常，这时可以通过在该属性上再加一个@Qualifier注解来声明唯一的id解决问题。 2. @Qualifier 当spring中存在至少一个匹
printf和sprintf的应用 dcj3sjt126com PHP sprintf printf
<?php printf('b: %b c: %c d: %d <bf>f: %f', 80,80, 80, 80); echo ' '; printf('%0.2f %+d %0.2f ', 8, 8, 1235.456); printf('th
config.getInitParameter 171815164 parameter
web.xml <servlet> <servlet-name>servlet1</servlet-name> <jsp-file>/index.jsp</jsp-file> <init-param> <param-name>str</param-name>
Ant标签详解--基础操作 g21121 ant
Ant的一些核心概念： build.xml：构建文件是以XML 文件来描述的，默认构建文件名为build.xml。 project：每个构建文
[简单]代码片段_数据合并 53873039oycg 代码
合并规则:删除家长phone为空的记录,若一个家长对应多个孩子,保留一条家长记录,家长id修改为phone,对应关系也要修改。代码如下:
java 通信技术云端月影 Java 远程通信技术
在分布式服务框架中，一个最基础的问题就是远程服务是怎么通讯的，在Java领域中有很多可实现远程通讯的技术，例如：RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等，这些名词之间到底是些什么关系呢，它们背后到底是基于什么原理实现的呢，了解这些是实现分布式服务框架的基础知识，而如果在性能上有高的要求的话，那深入了解这些技术背后的机制就是必须的了，在这篇blog中我们将来
string与StringBuilder 性能差距到底有多大 aijuans
之前也看过一些对string与StringBuilder的性能分析，总感觉这个应该对整体性能不会产生多大的影响，所以就一直没有关注这块！由于学程序初期最先接触的string拼接，所以就一直没改变过自己的习惯！
今天碰到 java.util.ConcurrentModificationException 异常 antonyup_2006 java 多线程工作 IBM
今天改bug，其中有个实现是要对map进行循环，然后有删除操作，代码如下： Iterator<ListItem> iter = ItemMap.keySet.iterator(); while(iter.hasNext()){ ListItem it = iter.next(); //...一些逻辑操作 ItemMap.remove(it); } 结果运行报Con
PL/SQL的类型和JDBC操作数据库百合不是茶 PL/SQL表标量类型游标 PL/SQL记录
PL/SQL的标量类型: 字符,数字,时间,布尔,%type五中类型的 --标量：数据库中预定义类型的变量 --定义一个变长字符串 v_ename varchar2(10); --定义一个小数,范围 -9999.99~9999.99 v_sal number(6,2); --定义一个小数并给一个初始值为5.4 :=是pl/sql的赋值号
Mockito：一个强大的用于 Java 开发的模拟测试框架实例 bijian1013 mockito 单元测试
Mockito框架： Mockito是一个基于MIT协议的开源java测试框架。 Mockito区别于其他模拟框架的地方主要是允许开发者在没有建立“预期”时验证被测系统的行为。对于mock对象的一个评价是测试系统的测
精通Oracle10编程SQL(10)处理例外 bijian1013 oracle 数据库 plsql
/* *处理例外 */ --例外简介 --处理例外-传递例外 declare v_ename emp.ename%TYPE; begin SELECT ename INTO v_ename FROM emp where empno=&no; dbms_output.put_line('雇员名：'||v_ename); exceptio
【Java】Java执行远程机器上Linux命令 bit1129 linux命令
Java使用ethz通过ssh2执行远程机器Linux上命令，封装定义Linux机器的环境信息 package com.tom; import java.io.File; public class Env { private String hostaddr; //Linux机器的IP地址 private Integer po
java通信之Socket通信基础白糖_ java socket 网络协议
正处于网络环境下的两个程序，它们之间通过一个交互的连接来实现数据通信。每一个连接的通信端叫做一个Socket。一个完整的Socket通信程序应该包含以下几个步骤： ①创建Socket； ②打开连接到Socket的输入输出流； ④按照一定的协议对Socket进行读写操作； ④关闭Socket。 Socket通信分两部分：服务器端和客户端。服务器端必须优先启动，然后等待soc
angular.bind boyitech AngularJS angular.bind AngularJS API bind
angular.bind 描述：上下文，函数以及参数动态绑定，返回值为绑定之后的函数. 其中args是可选的动态参数，self在fn中使用this调用。使用方法： angular.bind(se
java-13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 bylijinnan java
import java.util.ArrayList; import java.util.List; public class KickOutBadGuys { /** * 题目：13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 * Maybe you can find out
Redis.conf配置文件及相关项说明（自查备用） Kai_Ge redis
Redis.conf配置文件及相关项说明 # Redis configuration file example # Note on units: when memory size is needed, it is possible to specifiy # it in the usual form of 1k 5GB 4M and so forth: #
[强人工智能]实现大规模拓扑分析是实现强人工智能的前奏 comsci 人工智能
真不好意思,各位朋友...博客再次更新... 节点数量太少,网络的分析和处理能力肯定不足,在面对机器人控制的需求方面,显得力不从心.... 但是,节点数太多,对拓扑数据处理的要求又很高,设计目标也很高,实现起来难度颇大...
记录一些常用的函数 dai_lm java
public static String convertInputStreamToString(InputStream is) { StringBuilder result = new StringBuilder(); if (is != null) try { InputStreamReader inputReader = new InputStreamRead
Hadoop中小规模集群的并行计算缺陷 datamachine mapreduce hadoop 并行计算
注：写这篇文章的初衷是因为Hadoop炒得有点太热，很多用户现有数据规模并不适用于Hadoop，但迫于扩容压力和去IOE（Hadoop的廉价扩展的确非常有吸引力）而尝试。尝试永远是件正确的事儿，但有时候不用太突进，可以调优或调需求，发挥现有系统的最大效用为上策。 -----------------------------------------------------------------
小学4年级英语单词背诵第二课 dcj3sjt126com english word
egg 蛋 twenty 二十 any 任何 well 健康的，好 twelve 十二 farm 农场 every 每一个 back 向后，回 fast 快速的 whose 谁的 much 许多 flower 花 watch 手表 very 非常，很 sport 运动 Chinese 中国的
自己实践了github的webhooks, linux上面的权限需要注意 dcj3sjt126com github webhook
环境, 阿里云服务器 1. 本地创建项目, push到github服务器上面 2. 生成www用户的密钥 sudo -u www ssh-keygen -t rsa -C "[email protected]" 3. 将密钥添加到github帐号的SSH_KEYS里面 3. 用www用户执行克隆, 源使
Java冒泡排序蕃薯耀冒泡排序 Java冒泡排序 Java排序
冒泡排序 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 10:40:14 星期二 http://fanshuyao.iteye.com/
Excle读取数据转换为实体List【基于apache-poi】 hanqunfeng apache
1.依赖apache-poi 2.支持xls和xlsx 3.支持按属性名称绑定数据值 4.支持从指定行、列开始读取 5.支持同时读取多个sheet 6.具体使用方式参见org.cpframework.utils.excelreader.CP_ExcelReaderUtilTest.java 比如： Str
3个处于草稿阶段的Javascript API介绍 jackyrong JavaScript
原文： http://www.sitepoint.com/3-new-javascript-apis-may-want-follow/?utm_source=html5weekly&utm_medium=email 本文中，介绍3个仍然处于草稿阶段，但应该值得关注的Javascript API. 1) Web Alarm API &
6个创建Web应用程序的高效PHP框架 lampcy Web 框架 PHP
以下是创建Web应用程序的PHP框架，有coder bay网站整理推荐： 1. CakePHP CakePHP是一个PHP快速开发框架，它提供了一个用于开发、维护和部署应用程序的可扩展体系。CakePHP使用了众所周知的设计模式，如MVC和ORM，降低了开发成本，并减少了开发人员写代码的工作量。 2. CodeIgniter CodeIgniter是一个非常小且功能强大的PHP框架，适合需
评"救市后中国股市新乱象泛起"谣言 nannan408
首先来看百度百家一位易姓作者的新闻：三个多星期来股市持续暴跌，跌得投资者及上市公司都处于极度的恐慌和焦虑中，都要寻找自保及规避风险的方式。面对股市之危机，政府突然进入市场救市，希望以此来重建市场信心，以此来扭转股市持续暴跌的预期。而政府进入市场后，由于市场运作方式发生了巨大变化，投资者及上市公司为了自保及为了应对这种变化，中国股市新的乱象也自然产生。首先，中国股市这两天
页面全屏遮罩的实现方式 Rainbow702 html css 遮罩 mask
之前做了一个页面，在点击了某个按钮之后，要求页面出现一个全屏遮罩，一开始使用了position:absolute来实现的。当时因为画面大小是固定的，不可以resize的，所以，没有发现问题。最近用了同样的做法做了一个遮罩，但是画面是可以进行resize的，所以就发现了一个问题，当画面被reisze到浏览器出现了滚动条的时候，就发现，用absolute 的做法是有问题的。后来改成fixed定位就
关于angularjs的点滴 tntxia AngularJS
angular是一个新兴的JS框架，和以往的框架不同的事，Angularjs更注重于js的建模，管理，同时也提供大量的组件帮助用户组建商业化程序，是一种值得研究的JS框架。 Angularjs使我们可以使用MVC的模式来写JS。Angularjs现在由谷歌来维护。这里我们来简单的探讨一下它的应用。首先使用Angularjs我
Nutz--->>反复新建ioc容器的后果 xiaoxiao1992428 DAO mvc IOC nutz
问题： public class DaoZ { public static Dao dao() { // 每当需要使用dao的时候就取一次 Ioc ioc = new NutIoc(new JsonLoader("dao.js")); return ioc.get(

Datawhale 零基础入门数据挖掘-Task2 数据分析

你可能感兴趣的:(Datawhale,零基础入门数据挖掘)