AndrewMe8211

Kaggle实战：Store Sales - Time Series Forecasting

（菜鸡梦呓，大佬轻喷）

数据浏览

train.csv

The training data, comprising time series of features store_nbr, family, and onpromotion as well as the target sales.

store_nbr identifies the store at which the products are sold.
family identifies the type of product sold.
sales gives the total sales for a product family at a particular store at a given date. Fractional values are possible since products can be sold in fractional units (1.5 kg of cheese, for instance, as opposed to 1 bag of chips).
onpromotion gives the total number of items in a product family that were being promoted at a store at a given date.

test.csv

The test data, having the same features as the training data. You will predict the target sales for the dates in this file.

The dates in the test data are for the 15 days after the last date in the training data.

sample_submission.csv

A sample submission file in the correct format.

stores.csv

Store metadata, including city, state, type, and cluster.

cluster is a grouping of similar stores.

oil.csv

Daily oil price. Includes values during both the train and test data timeframes. (Ecuador is an oil-dependent country and it’s economical health is highly vulnerable to shocks in oil prices.)

holidays_events.csv

Holidays and Events, with metadata

NOTE: Pay special attention to the transferred column. A holiday that is transferred officially falls on that calendar day, but was moved to another date by the government. A transferred day is more like a normal day than a holiday. To find the day that it was actually celebrated, look for the corresponding row where type is Transfer. For example, the holiday Independencia de Guayaquil was transferred from 2012-10-09 to 2012-10-12, which means it was celebrated on 2012-10-12. Days that are type Bridge are extra days that are added to a holiday (e.g., to extend the break across a long weekend). These are frequently made up by the type Work Day which is a day not normally scheduled for work (e.g., Saturday) that is meant to payback the Bridge.
Additional holidays are days added a regular calendar holiday, for example, as typically happens around Christmas (making Christmas Eve a holiday).

Additional Notes

Wages in the public sector are paid every two weeks on the 15 th and on the last day of the month. Supermarket sales could be affected by this.
A magnitude 7.8 earthquake struck Ecuador on April 16, 2016. People rallied in relief efforts donating water and other first need products which greatly affected supermarket sales for several weeks after the earthquake.

总结

稍微总结一下，现有的可用数据如下：

在train.csv中

每一个货物有这些特征：

store_nbr：所在商店
family：所属商品类型
sales：所属商品类型在货物所在商店当日的销售额
onpromotion：所属商品类型在货物所在商店当日的进货数量

在stores.csv中

每一个商店有如下特征：

city：所在城市
state：所在州
type：类型
cluster：聚类，也就是一群类似的商店抱的团（只不过不知道哪里类似…）

在oil.csv中

每天的油价dcoilwtico

在holidays_events.csv中

date：日期
type：类型，包括节假日holiday，时间Event等等
locale：事件范围，全国的，本地的等等
locale_name：事件范围的地点，如果是国家性的就对应厄瓜多尔，如果是某个地方的节日就对应某个地方
description：描述，也就是节日的名字
transferred：是否是推迟后的节日。如果是推迟后的，那么就没那么重要了

在transactions.csv中

就是每天的交易额

其他

test.csv：训练好模型后就用这里面的数据来求答案了
sample_submission.csv：一个答案的格式示例

数据清洗和特征工程

先读入数据：

def ReadInData(file):
    path = 'store-sales-time-series-forecasting/'
    return pd.read_csv(path + file)

df_holidays_events = ReadInData('holidays_events.csv')
df_oil = ReadInData('oil.csv')
df_stores = ReadInData('stores.csv')
df_train = ReadInData('train.csv')
df_test = ReadInData("test.csv")
df_transactions = ReadInData('transactions.csv')

缺失值处理

oil.csv中dcoilwtico属性下有一部分缺失值，观察油价图形:

def DrawLine(X_data, Y_data):
    fig = plt.figure()
    axes = fig.add_subplot(1, 1, 1)
    axes.plot(X_data, Y_data)
    plt.show()
DrawLine(df_oil['date'], df_oil['dcoilwtico'])

发现油价变动较大

因此使用平均值来填充意义不大，因此使用前一个数据填充:

df_oil_withoutNA = df_oil.fillna(method="pad")
DrawLine(df_oil_withoutNA['date'], df_oil_withoutNA['dcoilwtico'])

特征整合

观察发现在其他的文件里面有一些可以整合到训练集(train.csv)和测试集(test.csv)里面的特征:

stores.csv中的city，state，type，cluster
oil.csv中的dcoilwtico
holidays_events.csv中的locale，locale_name，description，transferred
transaction中的交易额

因此先对其他文件里面的索引重命名，然后使用merge函数对其进行合并操作：

def Add_Feature():
    df_holidays_events.rename(columns={'date': 'date',
                                       'type': 'Daily_holiday_type',
                                       'locale': 'Daily_holiday_locale',
                                       'locale_name': 'Daily_holiday_locale_name',
                                       'description': "Daily_holiday_description",
                                       'transferred': "Daily_holiday_transferred"},
                              inplace=True)
    df_stores.rename(columns={'store_nbr': 'store_nbr',
                              'city': 'stores_city',
                              'state': 'store_state',
                              'type': 'store_type',
                              'cluster': 'store_cluster'},
                     inplace=True)
    df_transactions.rename(columns={'transactions': 'Daily_transactions'})
    DfTrainNew = pd.merge(df_train, df_holidays_events, how='left', left_on='date', right_on='date')
    DfTestNew = pd.merge(df_test, df_holidays_events, how='left', left_on='date', right_on='date')
    DfTrainNew = pd.merge(DfTrainNew, df_oil_withoutNA, how='left', left_on='date', right_on='date')
    DfTestNew = pd.merge(DfTestNew, df_oil_withoutNA, how='left', left_on='date', right_on='date')
    DfTrainNew = pd.merge(DfTrainNew, df_stores, how='left', left_on='store_nbr', right_on='store_nbr')
    DfTestNew = pd.merge(DfTestNew, df_stores, how='left', left_on='store_nbr', right_on='store_nbr')
    DfTrainNew = pd.merge(DfTrainNew, df_transactions, how='left', on=['date', 'store_nbr'])
    DfTestNew = pd.merge(DfTestNew, df_transactions, how='left', on=['date', 'store_nbr'])
    return DfTrainNew, DfTestNew


res = Add_Feature()
df_train_New = res[0]
df_test_New = res[1]

操作完后，统计一下非NA值的个数，来看看数据合并的效果：

def LookIn(DF_In):
    print("length:{}".format(len(DF_In)))
    for i in DF_In.columns:
        a = DF_In[i].describe()
        print("Name:{} Rate:{}%".format(i, 100 * a['count'] / len(DF_In[i])))


print("df_train_New:>>>>>>")
LookIn(df_train_New)
print("df_test_New:>>>>>>")
LookIn(df_test_New)
print("df_test:>>>>>>")
LookIn(df_test)

效果稍微有点出乎意料：

df_train_New:>>>>>>
length:3054348
Name:id Rate:100.0%
Name:date Rate:100.0%
Name:store_nbr Rate:100.0%
Name:family Rate:100.0%
Name:sales Rate:100.0%
Name:onpromotion Rate:100.0%
Name:Daily_holiday_type Rate:16.45274212368728%
Name:Daily_holiday_locale Rate:16.45274212368728%
Name:Daily_holiday_locale_name Rate:16.45274212368728%
Name:Daily_holiday_description Rate:16.45274212368728%
Name:Daily_holiday_transferred Rate:16.45274212368728%
Name:dcoilwtico Rate:71.17852975495916%
Name:stores_city Rate:100.0%
Name:store_state Rate:100.0%
Name:store_type Rate:100.0%
Name:store_cluster Rate:100.0%
Name:transactions Rate:91.84385669216475%
df_test_New:>>>>>>
length:28512
Name:id Rate:100.0%
Name:date Rate:100.0%
Name:store_nbr Rate:100.0%
Name:family Rate:100.0%
Name:onpromotion Rate:100.0%
Name:Daily_holiday_type Rate:6.25%
Name:Daily_holiday_locale Rate:6.25%
Name:Daily_holiday_locale_name Rate:6.25%
Name:Daily_holiday_description Rate:6.25%
Name:Daily_holiday_transferred Rate:6.25%
Name:dcoilwtico Rate:75.0%
Name:stores_city Rate:100.0%
Name:store_state Rate:100.0%
Name:store_type Rate:100.0%
Name:store_cluster Rate:100.0%
Name:transactions Rate:0.0%
df_test:>>>>>>
length:28512
Name:id Rate:100.0%
Name:date Rate:100.0%
Name:store_nbr Rate:100.0%
Name:family Rate:100.0%
Name:onpromotion Rate:100.0%

不难发现，交易额合并后，测试集里面的所有样本都没有对应的销售额，因此销售额这个特征也许不应该这样用

之后看了看训练集数据后发现了一个更大的问题，就是经过增加特征后，训练集里面的样本数量变多了…花了一下午的时间才发现，原来同一天可以有很多节日…

很无语，只好暂时简单粗暴的去个重，有更好的办法就再说吧：

df_train_New.drop_duplicates(subset='id', keep='first', inplace=True)

当然还有一个问题，那就是大量的空缺值的问题。现阶段暂时先删掉这些东西：

df_train_New.dropna(axis=0, inplace=True)

下面也许可以先尝试一下建模，到时候再迭代修改就行

但是建模之前先要把数据映射一下，不然数据进不了机器学习模型的

数据映射

def PreWork():
    df_train_New.dropna(axis=0, inplace=True)
    df_train_New.drop_duplicates(subset='id', keep='first', inplace=True)
    df_train_New['date'] = df_train_New['date'].apply(lambda X: int(str(X).split('-')[0] +
                                                                    str(X).split('-')[1] +
                                                                    str(X).split('-')[2]))
    df_train_New['family'] = pd.factorize(df_train_New['family'])[0].astype(int)
    df_train_New['Daily_holiday_type'] = pd.factorize(df_train_New['Daily_holiday_type'])[0].astype(int)
    df_train_New['Daily_holiday_locale'] = pd.factorize(df_train_New['Daily_holiday_locale'])[0].astype(int)
    df_train_New['Daily_holiday_locale_name'] = pd.factorize(df_train_New['Daily_holiday_locale_name'])[0].astype(int)
    df_train_New['Daily_holiday_description'] = pd.factorize(df_train_New['Daily_holiday_description'])[0].astype(int)
    df_train_New['Daily_holiday_transferred'] = pd.factorize(df_train_New['Daily_holiday_transferred'])[0].astype(int)
    df_train_New['stores_city'] = pd.factorize(df_train_New['stores_city'])[0].astype(int)
    df_train_New['store_state'] = pd.factorize(df_train_New['store_state'])[0].astype(int)
    df_train_New['store_type'] = pd.factorize(df_train_New['store_type'])[0].astype(int)


PreWork()

建模

这个题给了每个商品很多特征，然后需要预测另外一些商品的价格。根据这个题的特点，发现可以先试一试决策树或者随机森林模型。至于题目里面说的时间序列预测…暂时还比较迷。

然后对训练集先用两个模型试试，然后使用MAE来评一下误差度：

def BuildDecisionTree(x_F, Y_F, DataLog):
    x_ = DataLog[x_F]
    Y_ = DataLog[Y_F]
    model = DecisionTreeRegressor(random_state=1, max_depth=100)
    a_x, b_x, a_y, b_y = train_test_split(x_, Y_, random_state=1)
    model.fit(a_x, a_y)
    predictions = model.predict(b_x)
    delta = mean_absolute_error(b_y, predictions)
    print("DecisionTree:mean_absolute_error delta:{}".format(delta))


def BuildRandomForest(x_F, Y_F, DataLog):
    x_ = DataLog[x_F]
    Y_ = DataLog[Y_F]
    model = RandomForestRegressor(random_state=1, max_depth=100)
    a_x, b_x, a_y, b_y = train_test_split(x_, Y_, random_state=1)
    model.fit(a_x, a_y)
    predictions = model.predict(b_x)
    delta = mean_absolute_error(b_y, predictions)
    print("RandomForest:mean_absolute_error delta:{}".format(delta))

X_Feature = ['id', 'date', 'store_nbr', 'family', 'onpromotion',
             'Daily_holiday_type', 'Daily_holiday_locale',
             'Daily_holiday_locale_name', 'Daily_holiday_description',
             'Daily_holiday_transferred', 'dcoilwtico', 'stores_city', 'store_state',
             'store_type', 'store_cluster', 'transactions']
Y_Feature = 'sales'
BuildRandomForest(X_Feature, Y_Feature, df_train_New)
BuildDecisionTree(X_Feature, Y_Feature, df_train_New)

当然随机森林不出意外的要精确一些：

RandomForest:mean_absolute_error delta:73.51907510982585
DecisionTree:mean_absolute_error delta:97.08605686543322

于是尝试用随机森林模型来预测一下测试集


def Forecast():
    model = RandomForestRegressor(random_state=1, max_depth=100)
    model.fit(df_train_New[X_Feature], df_train_New[Y_Feature])
    Aim = df_test_New[X_Feature]
    predictions = model.predict(Aim)
    res = pd.DataFrame(predictions)
    path = "store-sales-time-series-forecasting/submission.csv"
    res.to_csv(path)


Forecast()

然后把预测数据修改一下索引，放到kaggle上面去：

芜湖！

To Be Continue：

【十自然语言处理项目实战】【10.2 数据收集与预处理】再见孙悟空_ #自然语言处理人工智能知识图谱 transformer 自然语言处理数据收集自然语言处理预处理自然语言处理项目
各位在数据泥潭里打滚的勇士们，今天咱们要聊的这个话题，就像学做川菜必须掌握的"火锅底料炒制法"——数据收集与预处理！这玩意儿看着像脏活累活，实则是决定你模型上限的生死关卡。作为一个曾把BERT训成人工智障的老司机，这就把五年掉坑经验熬成一锅十全大补汤！（戴上橡胶手套准备掏数据）一、数据收集的野路子：比盗墓还刺激的冒险1.1公开数据集寻宝图（附藏宝坐标）①正道的光：Kaggle（数据界的沃尔玛）：搜
kaggle-ISIC 2024 - 使用 3D-TBP 检测皮肤癌-学习笔记 supernova121 学习笔记
问题描述：通过从3D全身照片(TBP)中裁剪出单个病变来识别经组织学确诊的皮肤癌病例数据集描述：图像+临床文本信息评价指标：pAUC，用于保证敏感性高于指定阈值下的AUC主流方法分析（文本）基于CatBoost、LGBM和XGBoost三者的组合，为每个算法创建了XX个变体，总共XX个模型，进行集成学习。CatBoost在传统梯度提升决策树（GBDT）基础上，引入了一系列关键技术创新，以提升处理类
基于python的手写数字识别knn_用sklearn中的KNN实现Kaggle手写数字识别普和司
importcsvfromsklearnimportneighbors#导入训练数据和测试数据defloadData(filename1,filename2,trainDataSet,trainTargetSet,testDataSet):withopen(filename1,'r')ascsvfile1:lines1=csv.reader(csvfile1)dataSet=list(lines1
kaggle竞赛（初识）薛定谔的码* 人工智能
PART0:Kaggle介绍Kaggle是什么？答案很简单Kaggle是数据挖掘比赛火起来的，以至于中国兴起了很多很多类似的比赛；Kaggle是一个数据科学竞赛的平台，很多公司会发布一些接近真实业务的问题，吸引爱好数据科学的人来一起解决。Kaggle提供了一个介于“完美”与真实之间的过渡，问题的定义基本良好，却夹着或多或少的难点，一般没有完全成熟的解决方案。在参赛过程中与论坛上的其他参赛者互动，能
python3中的os.path模块 hgz_dm 编程语言 python3 os.path
os.path模块主要用于获取文件的属性，这里对该模块中一些常用的函数做些记录。os.abspath(path):获取文件的绝对路径。这里path指的是路径，例如我这里输入“data.csv”[In]os.path.abspath('data.csv')[Out]'E:\\kaggle\\Titanic\\data.csv'os.path.basename(path):获取文件名称。该函数默认通过
基于机器学习的恶意软件检测系统的详细设计与实现源码空间站11 机器学习人工智能课程设计 python 网络安全信息安全恶意软件检测
以下是一个基于机器学习的恶意软件检测系统的详细设计与实现，适合作为课程作业或项目开发。我们将实现一个通过机器学习模型分析恶意软件特征来检测文件是否为恶意软件的系统。总体思路数据准备：选择现有的恶意软件数据集（如Kaggle的恶意软件数据集）或构造模拟数据集。数据集中包含文件的特征（如二进制特征、字符串特征、API调用特征等）和标签（"恶意"或"正常"）。特征提取：提取文件的静态特征（如文件大小、字
chatglm3如何进行微调 learner_ctr 人工智能 chatglm3 llm
一、需要的环境内存：因为在loadmodel时，是先放在内存里面，所以内存不能小，最好在30GB左右显存：如果用half()精度来loadmodel的话(int4是不支持微调的)，显存在16GB就可以，比如可以用kaggle的t4gpu，这款性能相当于2070系列，但是显存翻倍python：3.10即可需要安装的包和版本：!pipinstallmodelscope-ihttps://pypi.tu
编程小白冲Kaggle每日打卡（6）--kaggle学堂：＜Python＞功能和获取帮助 AZmax01 编程小白冲Kaggle每日打卡 python 开发语言
Kaggle官方课程链接：FunctionsandGettingHelp本专栏旨在Kaggle官方课程的汉化，让大家更方便地看懂。目录FunctionsandGettingHelpGettingHelpDefiningfunctionsDocstringsFunctionsthatdon'treturnDefaultargumentsFunctionsAppliedtoFunctionsYourT
1.7 Kaggle大白话：Eedi竞赛Transformer框架解决方案07-调用AI模型输出结果 AI量金术师 Kaggle竞赛人工智能 transformer 深度学习 python 算法
目录0.本栏目竞赛汇总表1.本文主旨2.调用AI模型输出结果架构3.模型准备3.1代码实现3.2大白话模型准备4.数据处理4.1代码实现4.2大白话数据处理5.特征提取5.1代码实现5.2大白话特征提取6.相似度匹配6.1代码实现6.2大白话相似度匹配7.系列总结7.1章节回顾7.2竞赛排名7.3其他优秀项目（皆为竞赛金牌）0.本栏目竞赛汇总表Kaggle竞赛汇总1.本文主旨大白话：上一篇文章中，
编程小白冲Kaggle每日打卡（17）--kaggle学堂：＜机器学习简介＞随机森林 AZmax01 编程小白冲Kaggle每日打卡机器学习随机森林人工智能
Kaggle官方课程链接：RandomForests本专栏旨在Kaggle官方课程的汉化，让大家更方便地看懂。RandomForests使用更复杂的机器学习算法。介绍决策树给你留下了一个艰难的决定。一棵有很多叶子的深树会被过度拟合，因为每一个预测都来自它叶子上少数房子的历史数据。但是，叶子很少的浅树表现不佳，因为它无法在原始数据中捕捉到尽可能多的区别。即使是当今最复杂的建模技术也面临着欠拟合和过拟
0. Kaggle实战：Kaggle竞赛实战记录列表（持续更新） AI量金术师 Kaggle竞赛人工智能 python 开发语言机器学习金融
目录1.专栏描述2.Kaggle竞赛列表2.1Eedi-MiningMisconceptionsinMathematics（持续更新中）1.专栏描述本专栏专注于记录与分享Kaggle竞赛的解题思路、项目框架及代码实现。通过通俗易懂的讲解和简单明了的测试数据，帮助每位读者轻松掌握参赛技巧，快速提升实战能力，一起探索数据科学的魅力！2.Kaggle竞赛列表2.1Eedi-MiningMisconcep
编程小白冲Kaggle每日打卡（7）--kaggle学堂：＜Python＞布尔型和条件形 AZmax01 编程小白冲Kaggle每日打卡 python 开发语言
Kaggle课程官网链接：BooleansandConditionals本专栏旨在Kaggle官方课程的汉化，让大家更方便地看懂。目录BooleansandConditionalsBooleansComparisonOperationsCombiningBooleanValuesConditionalsBooleanconversionYourTurnBooleansandConditionals
编程小白冲Kaggle每日打卡（4）--kaggle学堂：＜编程简介＞列表 AZmax01 编程小白冲Kaggle每日打卡机器学习人工智能 python
Kaggle课程官网链接：IntrotoLists本专栏旨在Kaggle官方课程的汉化，让大家更方便地看懂。IntrotoLists整理您的数据，以便您能够高效地使用它。Introduction在进行数据科学研究时，您需要一种组织数据的方法，以便高效地使用它。Python有许多数据结构可用于保存数据，如列表、集合、字典和元组。在本教程中，您将学习如何使用Python列表。Motivation在“花
编程小白冲Kaggle每日打卡（5）--kaggle学堂：＜Python＞Hello,Python! AZmax01 编程小白冲Kaggle每日打卡 python 机器学习深度学习
Kaggle课程官方链接：Hello,Python本专栏旨在Kaggle官方课程的汉化，让大家更方便地看懂。Hello,PythonPython语法、变量赋值和数字的快速介绍本课程涵盖了您需要的关键Python技能，以便您可以开始将Python用于数据科学。这门课程非常适合那些有一些编程经验的人，他们想把Python添加到他们的技能库中。（如果你是第一次编程，我们鼓励你查看我们的编程入门课程，该课
自编大模型系列之 01 使用 Python 从头构建 LLaMA 3 编写您自己的十亿参数LLM（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 python llama 开发语言
LLaMA3是继Mistral之后最有前途的开源模型之一，可以解决各种任务。我之前在Medium上写过一篇博客，介绍如何使用LLaMA架构从头开始创建一个具有超过230万个参数的LLM。现在LLaMA-3已经发布，我们将以更简单的方式重新创建它。我们不会在本博客中使用GPU，但您至少需要17GB的RAM，因为我们将加载一些大小超过15GB的文件。如果这对您来说是个问题，您可以使用Kaggle作为解
编程小白冲Kaggle每日打卡（14）--kaggle学堂：＜机器学习简介＞你的第一个机器学习模型 AZmax01 编程小白冲Kaggle每日打卡机器学习人工智能
Kaggle官方课程链接：YourFirstMachineLearningModel本专栏旨在Kaggle官方课程的汉化，让大家更方便地看懂。YourFirstMachineLearningModel建立你的第一个模型。好哇！选择建模数据你的数据集有太多的变量，你无法理解，甚至无法很好地打印出来。你如何将如此庞大的数据量缩减到你能理解的程度？我们将从使用直觉选择几个变量开始。后续课程将向您展示自动
《机器学习实战》专栏 No12：项目实战—端到端的机器学习项目Kaggle糖尿病预测带娃的IT创业者机器学习实战机器学习人工智能分类算法 python
《机器学习实战》专栏第12集：项目实战——端到端的机器学习项目Kaggle糖尿病预测本集为专栏最后一集，本专栏的特点是短平快，聚焦重点，不长篇大论纠缠于理论，而是在介绍基础理论框架基础上，快速切入实战项目和代码，所有代码都经过实践检验，是读者入门和熟悉上手的上佳知识材料在本集中，我们将通过Kaggle平台的经典糖尿病预测（PimaIndiansDiabetesDataset）数据集，系统回顾完整的
人工智能与机器学习入门：决策树应用决策树机器学习入门
在人工智能与机器学习入门：使用Kaggle完成Titanic推断学习一文中，给出了使用Kaggle进行机器学习入门的方法，本文基于上文的需求。尝试使用决策树模型来训练数据，并进行test数据集的测试。什么是决策树决策树，简单来讲可以认为是一个大的ifelse判断树，有了决策树后，测试集中的数据便可以使用该决策树进行判断了。比如根据Titanic的训练数据构造了上次决策树后，便可以根据测试数据的性别
编程小白冲Kaggle每日打卡（8）--kaggle学堂：＜Python＞列表 AZmax01 编程小白冲Kaggle每日打卡 python windows 开发语言
Kaggle课程官方链接：Lists本专栏旨在Kaggle官方课程的汉化，让大家更方便地看懂。Lists¶列表以及你可以用它们做的事情。包括索引、切片和变异Python中的列表表示值的有序序列。以下是一个如何创建它们的示例：primes=[2,3,5,7]我们可以把其他类型的东西放在列表中：planets=['Mercury','Venus','Earth','Mars','Jupiter','S
机器学习基本篇胖胖的小肥猫机器学习
1基本概念机器学习，分为回归，分类，聚类，降维有监督学习回归，分类，有特征，有标签，进行训练，然后对新数据进行预测无监督学习聚类，降维。题目越多，训练越好，2基本流程数据预处理——模型训练与评估可以优化为获取数据——数据预处理——EDA分析——特征工程——模型训练——可解释性分析2.0数据获取利用kaggle,天池等平台的开源数据，2.1预处理目的：让数据更符合逻辑让数据更容易计算借助函数实现变换
更符合DeepSeek的提问方式，学术论文方面的能力我总结了这几十个提示词！ AIWritePaper官方账号 AIWritePaper DeepSeek 学术论文人工智能 chatgpt 数据分析 prompt 论文阅读
DeepSeek提问技巧总结1.聚焦核心，细化问题：提问时应精准明确，避免过于宽泛或模糊。例如不要问“如何学习机器学习？”而应问“零基础如何机器学习”。对于复杂问题，可将其拆解为多个小问题，逐一提问。比如先问“学习机器学习先学习python更好吗？”再问“如何用Kaggle进行机器学习相关的数据竞赛？”2.提供背景，结构化描述：在提问时，提供问题的背景信息或目标，以便DeepSeek更准确地理解需
DeepSeek API 输出解析【非流式输出篇】 - OpenAI SDK Hoper.J AIGC DeepSeek DeepSeek API AI
代码文件下载：Code在线链接：Kaggle|Colab前置文章：DeepSeekAPI的获取与对话示例文章目录如何切换平台认识输出DeepSeek-ChatDeepSeek-Reasoner附录如何切换平台本文不引入环境变量，如果对其感兴趣可以阅读《初识LLMAPI：环境配置与多轮对话演示》的「环境变量配置」部分。代码文件已包含文章中所有平台的正确配置。以DeepSeek单轮对话的代码样例进行讲
【深度学习实战：kaggle自然场景的图像分类-----使用keras框架实现vgg16的迁移学习】机器学习司猫白深度学习分类 keras
Hello大家好，今天和大家分享一个kaggle自然场景的图像分类的竞赛，使用的keras框架实现vgg16的迁移学习完成自然场景分类，对数据集感兴趣的同学可以在上方下载数据集。项目简介本次数据集来自kaggle，该数据集包括自然场景的图像。模型应该预测每个图像的正确标签。您的目标是实现分类问题的高精度。数据集train.csv-训练集test.csv-测试集SceneImages-图像文件夹训练
视频分析：基于目标检测（YOLO）实现走路看手机检测、玩手机检测、跌倒检测等 shiter 人工智能系统解决方案与技术架构音视频深度学习人工智能
文章大纲背景行为检测的定义与挑战视频分析数据集目标检测数据集自制数据集思路Kaggle数据集COCO数据集OpenImagesDatasetV7人类行为视频分析yolo进行行为分析的检测看手机行为检测--方法与数据集方法数据集跌倒行为检测--方法与数据集跌倒检测-数据集跌倒检测-目标检测跌倒检测-姿态估计参考文献与学习路径背景行为检测在自动驾驶、视频监控等领域的广阔应用前景使其成为了视频分析的研究
kaggle花分类比赛91.168% 仙尊方媛分类数据挖掘机器学习 keras tensorflow
之前一直都没注意显存，也没注意数据格式，直到跑模型的时候电脑直接崩了，因为排队用TPU，感觉人多，就直接在自己电脑上跑，我自己是有一张8G的4070,没想到啊，光是读取数据，就占用了6G历次成绩这个是用分布式gpu跑的，kaggle给配了两张16G显存的卡，TPU我前面56个人，人太多了,分辨率本身有影响，我使用192×192这里使用512×512的分辨率，效果明显提高了，Tan和Le，2019年
DeepSeek API 的获取与对话示例 Hoper.J AIGC DeepSeek API AI
代码文件下载：Code在线链接：Kaggle|Colab文章目录注册并获取API环境依赖设置API单轮对话多轮对话流式输出更换模型注册并获取API访问https://platform.deepseek.com/sign_in进行注册并登录：新用户注册后将赠送10块钱余额，有效期为一个月：点击左侧的APIkeys（或者访问https://platform.deepseek.com/api_keys）
使用 Python 的 LSTM 进行股市预测无水先生数据分析深度学习人工智能综合 python lstm 开发语言
目录一、说明二、为什么需要时间序列模型？三、下载数据3.1从Alphavantage获取数据3.1从Kaggle获取数据3.3数据探索3.4数据可视化四、将数据拆分为训练集和测试集五、数据标准化六、通过平均进行一步预测6.1标准平均值6.2指数移动平均线6.3如果指数移动平均线这么好，为什么还需要更好的模型？6.4预测未来不止一步七、LSTM简介：预测未来的股票走势7.1数据生成器7.2数据增强7
【AI日记】25.01.25 AI完全体 AI日记人工智能 kaggle 比赛机器学习读书
【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】【AI日记】【读书与思考】AIkaggle比赛：ForecastingStickerSales读书书名：法治的细节律己AI：8小时，良作息：00:30-8:30，良短视频：大于1小时，差读书和写作：1小时，优饮食：安全健康
Kaggle房价预测一名小菜鸟的学习之路深度学习pytorch 深度学习机器学习 python 人工智能神经网络
Kaggle房价预测作为深度学习基础篇章的总结，我们将对本章内容学以致用。下面，让我们动手实战一个Kaggle比赛：房价预测。本节将提供未经调优的数据的预处理、模型的设计和超参数的选择。我们希望读者通过动手操作、仔细观察实验现象、认真分析实验结果并不断调整方法，得到令自己满意的结果。%matplotlibinlineimporttorchimporttorch.nnasnnimportnumpya
6 回归集成：xgb、lgb、cat 汀沿河 #2比赛常用的代码回归数据挖掘人工智能
这个代码是从kaggle上拷贝过来的：如何使用三个树模型模块化训练；文本特征如何做，如何挖掘；时间特征的处理；模型权重集成；importpandasaspdimportmathimportnumpyasnpimportjoblibimportoptunafromlightgbmimportLGBMRegressorfromcatboostimportCatBoostRegressorfromxgb
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户