数据派THU

手把手教你用Kaggle开启机器学习之旅（附资源链接）

作者：NITYTESH AGARWAL

翻译：闫晓雨

校对：白静

本文约3200字，建议阅读10分钟。

本文分析了Kaggle利于数据科学领域新手学习的几点特征，并带你学习ML相关知识。

我经常被朋友和大学生问到“如何入门机器学习或数据科学”。

所以，这是我的答案……

前言

早些时候，我不太确定。我会说类似“学这门课”或“读这本教程”或“先学Python（这是我做过的事情）”。但是现在，随着我越来越深入这个领域，我开始意识到我采取的措施的缺点。

所以，事后看来，我认为“入门” 机器学习或数据科学的最佳途径可能是通过Kaggle。

在这篇文章中，我将告诉您为什么我这么认为，以及如果我的推理令您信服，您将如何做到这一点。

注意：我是一名学生。我不是专业的数据科学家或机器学习工程师。我绝对不是Kaggle的专家。所以，请有保留地采纳我的意见和观点。 :-)

但首先，请允许我介绍一下Kaggle并澄清一些关于它的误解。

你可能听说过Kaggle作为一个网站，为机器学习比赛颁发令人难以置信的现金奖励。

Kaggle举办的比赛获得最高奖金

（是的，这些是百万美元以上的奖金！）

正是这种名气也引起了很多关于平台的误解，让新手们入门比原来更加犹豫不决。

如果你之前从未听说过Kaggle，也不要担心，因此，不要在意下面提到的任何误解。这篇文章仍然完全有道理。对待下一部分就当我向你介绍Kaggle一样。

误解

1. “Kaggle是一个举办机器学习竞赛的网站”

这是对“Kaggle是什么”的不完整描述！我认为竞赛（以及它们丰厚的现金奖励）并不是Kaggle的真谛。看看他们网站的标题——

竞赛仅仅是Kaggle的一部分

除了举办竞赛，（它目前已经举办过大概300场比赛），Kaggle还主持了3项非常重要的内容：

Datasets
https://www.kaggle.com/datasets

即使是与任何竞赛都无关的那些：与仅仅300个竞赛（在撰写本文时）相比，它包含9500多个数据集。因此，您可以通过选择任何您感兴趣的数据集来提高您的技能。

我觉得最有趣的一些数据集

Kernels：
https://www.kaggle.com/kernels

它们只是Kaggle的Jupyter笔记本版本，反过来，它只是一种非常有效和酷炫的共享代码方式，以及大量的可视化，输出和解释。“内核”选项卡将您带到一个公共内核列表，人们用它来展示一些新工具或分享他们对某些特定数据集的专业知识或见解。

Learn：
https://www.kaggle.com/learn/overview

此选项卡包含免费且实用的实践课程，这些课程涵盖了快速入门所需的最低前置课程。他们最好的地方是什么？——一切都是使用Kaggle的内核完成的（如上所述）。这意味着您可以互动和学习……通过数小时的学习材料不再被动阅读！

所有这些共同使Kaggle不仅仅是一个举办比赛的网站。现在，它已成为一个完整的基于项目的数据科学学习环境。在本节之后，我将详细讨论Kaggle的这个方面。

2. “只有专家（具有多年经验的博士或经验丰富的机器学习从业者）才能参加并赢得Kaggle比赛”

如果您这么认为，我恳请您阅读下面这篇文章：

高中生自学成为AI大神——如果你深入到人工智能的世界，你肯定知道谷歌云拥有的平台Kaggle：

https://mashable.com/2017/07/28/16-year-old-ai-genius/

觉得文章太长不想看的，可以浏览下面的文章摘要：

一个高中的孩子仅因为好奇并投入比赛就（或者不那么简单，或许？）成为了Kaggle比赛大神。用他自己的话说：

“我不知道算法背后的所有数学原理，但就实际使用算法而言，我认为对其运作方式有一个合理的了解更为重要。”

3. “在参加Kaggle比赛之前，我应该再参加一些课程并学习先进的机器学习概念，这样我的胜算更大”

机器学习中最重要的部分是探索数据分析（或EDA）和特征工程，而不是模型拟合。事实上，许多Kaggle大神认为，新人会很快掉进复杂的模型的坑里，而事实上简单的模型就可以让你走得很远。

爱因斯坦曾经说过：

“任何一个有智力的笨蛋都可以把事情搞得更大，更复杂。往相反的方向前进则需要天分，以及很大的勇气。”

此外，许多挑战都有结构化数据，这意味着所有数据都存在于整齐的行和列中。没有复杂的文本或图像数据。因此，简单的算法（没有花里胡哨的神经网络）通常是这种数据集的获胜算法。在这种情况下，EDA可能是获胜解决方案与其他解决方案的区别所在。

现在，让我们继续讨论为什么你应该使用Kaggle来入门机器学习或数据科学。

你为什么要从Kaggle开始？

理由1：准确了解入门必备内容

关于Kaggle Learn的机器学习课程不会教你机器学习算法背后的理论和数学。相反，它专注于仅教授在分析和建模数据集时绝对必要的事物。类似地，那里的Python课程不会让你成为Python的专家，但它将确保你了解足够知识以进入下一个级别。

关于Kaggle Learn的机器学习课程：

https://www.kaggle.com/learn/machine-learning

Python课程：

https://www.kaggle.com/learn/python

这样可以最大限度地减少您在被动学习中花费的时间，并确保您已准备好尽快应对有趣的挑战。

理由2：体现了注重实践的精神

我相信做项目是最有效的方式，完成一个项目，你就学会了整个过程。我的意思是说，不是在你学到东西之后搜索相关的项目，而是从项目开始并学习使项目变为现实所需的一切可能更好。

正如惠特尼约翰逊在Masters of Scale podcast中所说：

“基本上，你，我，每个人，我们都想学习，跳跃，然后重复。”

Masters of Scale podcast：

https://mastersofscale.com/stacy-brown-philpot-keep-humans-in-the-equation/

我相信学习这种方式更令人兴奋和有效。

几周前我写了一篇关于上述方法的文章。名为——“ 零基础如何（和为什么）开始构建有用的，现实世界的软件 ”。所以，如果你没有看过可以看一下：

https://medium.freecodecamp.org/how-and-why-to-start-building-useful-real-world-software-with-no-experience-46f265eaf38

我花了一番时间才承认只读一本书不是学习而是娱乐，我相信课程和教程也是如此

但是当你没有一个项目可以实践一波时，这个想法完全没用。做一个有趣的项目很难，因为：

a. 很难找到一个有趣的想法

由于需要有合适的数据集，因此实现数据科学项目的想法似乎更加困难。

b. 我不知道该怎么处理我的知识中的漏洞

有时当我开始某个项目时，感觉就像有很多东西我仍然不知道。我觉得我甚至不知道学习前置课程去构建这个东西的先决条件。我触及到知识盲区了吗？我如何去学习我不知道的东西？

那就是所有的动力开始消失的时候。

c. 我经常被“卡住”

似乎在构建过程中我在消除一个又一个路障。如果能有一群人一起学并知道如何解决这个问题，那就太好了。

以下是Kaggle如何为所有问题提供解决方案：

解决方案a：Datasets和Competitions ：

https://www.kaggle.com/datasets

https://www.kaggle.com/competitions

大约有300个竞赛挑战，全部附带公共数据集，总共9500多个数据集（并且不断增加）这个地方就像是数据科学/机器学习项目的创意宝库。

解决方案b：Kernels和Learn ：

https://www.kaggle.com/kernels

https://www.kaggle.com/learn/overview

让我告诉你Kernels是如何使用的。

所有数据集都有一个公共的Kernels选项卡，人们可以在这里发布他们的分析，以造福整个社区。因此，只要您不知道下一步该做什么，您就可以通过查看这些Kernels帖子来获得一些想法。此外，很多Kernels帖都是专为帮助初学者而编写的。

解决方案c：Kernels和Discussion ：

https://www.kaggle.com/kernels

https://www.kaggle.com/discussion

除了我刚才描述的公共的Kernel之外，每个竞赛和每个数据集也都有自己的讨论论坛。所以，你总能找个一个提问的地方。

除此之外，在比赛期间，许多参与者撰写了有趣的问题，凸显了数据集的特征和怪癖，一些参与者甚至在论坛上发布了代码性能良好的基准。比赛结束后，获奖者分享他们的获奖方案是很常见的。

就像下面这篇文章写的“向最好的学习”：

http://blog.kaggle.com/2014/08/01/learning-from-the-best/

理由3：解决真实问题的真实数据=>真正的动机

Kaggle上的挑战是由为解决现实问题的公司举办的。他们提供的数据集是真实的。所有奖金都是真实的。这意味着您可以通过解决实际问题来学习数据科学/机器学习并练习您的技能。

如果您以前尝试过竞争性编程，那么当我说这些网站上承载的问题有时太不现实时，您可能会与我联系。我的意思是为什么我要编写一个程序来找出数组中毕达哥拉斯三元组的数量？那要实现什么！？

我并不想断言这些问题很容易；我发现它们非常困难。我也没想要降低托管此类问题的网站的重要性；它们是测试和改进数据结构和算法知识的好方法。

我只是说这对我来说太虚无缥缈了。当您尝试解决的问题是真实的时，您将始终希望努力改进您的解决方案。这将提供学习和成长的动力。这就是参加Kaggle挑战所能获得的。

争论的另一面：“机器学习不是Kaggle竞赛”

我将不再提及本次辩论的另一面，它认为机器学习不是Kaggle比赛，而且Kaggle比赛只代表了实际数据科学工作的“旅游观光”。

好吧，也许这是真的。也许真正的数据科学工作与Kaggle竞赛中的方法不同。我没有以专业的身份工作，所以我不知道如何评论。

但我所做的，很多时候，是使用教程和课程来学习一些东西。每一次，我觉得教程/课程与学习动机之间存在脱节。我会学到一些东西，因为它在教程/课程中存在，并希望它可以在一些遥远的，神秘的未来中使用。

另一方面，当我正在进行Kaggle挑战时，我确实需要不断学习。曾经有一个阶段，我会立即应用我学到的东西，看看它的效果。这给了我学习所有知识的动力和凝聚力。

如何开始？

Kaggle拥有所有那些有野心的现实世界的问题有一个缺点，它可能是初学者进入的一个令人生畏的地方。我理解这种感觉，因为我最近开始在Kaggle上入门。但是，一旦我克服了最初的障碍，我对它的社区以及它给我的学习机会感到非常景仰。

所以，在这里我试着说明如何开始：

第1步：掌握必要的基础知识

选择一种语言：Python或R语言。

完成后，请前往Kaggle Learn快速了解该语言的基础知识，机器学习和数据可视化技术。

Kaggle Learn：

https://www.kaggle.com/learn/overview

关于Kaggle Learn的课程

第2步：找到一个有趣的挑战/数据集

我建议您在开始时选择一个playground比赛或一个比较受欢迎的比赛。通过这种方式，您可以确保找到至少一些旨在帮助新手的公共Kernel帖子。

记住你的目标不是赢得比赛。它是学习和提高您的数据科学/机器学习的知识。

如果您仍不确定，请任选其中一个

第3步：探索公共内核

它们将帮助您了解该领域的一般工作流程以及其他人为此竞赛所采取的特定方法。

通常，这些内核会告诉您机器学习/数据科学中您不知道的内容。当你遇到一个不熟悉的术语时，不要感到沮丧。

了解您需要知道的是知识的第一步。

它们只是您需要学习以帮助您成长的东西。但在你这样做之前……

第4步：开发自己的Kernel

继续自己的分析工作。利用您当前的知识尽可能多地构建。将你在先前步骤中学到的所有内容应用到你自己的Kernel中。

第5步：了解您的需求并返回第4步

现在，你学习了。有时，它只是一篇短文，而在其他时候它可能是一个干货满满的教程/课程。请记住，您需要回到第3步并使用您在Kernel中学到的知识。这样您就可以创建所需的循环——“学习，跨越和重复”！

第6步：返回第3步以完善分析

一旦构建了完整的预测模型，就可以实现此步骤。所以，祝贺你！

现在您可能希望完善分析。要做到这一点，你可以回到第3步，看看其他人做了什么。这可以为您提供有关改进模型的想法。或者，如果你觉得你已经尝试了所有东西，但碰壁了，那么在论坛上寻求帮助可能会有所帮助。

这是一个讨论的例子

https://www.kaggle.com/c/amazon-employee-access-challenge/discussion/4838

棒！

现在去做更多挑战，分析更多数据集，学习更新的东西！

与其他资源的链接

1. 学习Python

Python已经变得非常受欢迎。这意味着有大量优秀的指南和教程可以帮助您开始使用该语言。这是我第一次学习Python时使用的两种资源：

Python3教程
https://www.python-course.eu/python3_interactive.php

从O'Reilly学习Python
http://shop.oreilly.com/product/0636920028154.do

显然，这些并没有为学习Python提供明确的资源列表，但这些是我入门时最适合我的资源。

2. 机器学习文章

在深入了解某个领域之前，您可能想知道它是什么。所以，这里有一些文章对机器学习进行了有趣的介绍：

EliteDataScience上的“如何学习机器学习之自学入门”一篇写得很好的文章，在介绍机器学习方面做得很好，甚至还开设了自学课程！
https://elitedatascience.com/learn-machine-learning

Vishal Maini的“人类学习机器学习指南”本指南旨在供任何人使用。将讨论概率、统计、编程、线性代数和微积分的基本概念，从本系列获得干货无需预备知识。”
https://medium.com/machine-learning-for-humans/why-machine-learning-matters-6164faf1df12

Vishal Maini的“最佳机器学习资源”本文是上述系列的一部分。我单独提到它是因为它有一套与机器学习相关的非常好非常全面的链接。
https://medium.com/machine-learning-for-humans/how-to-learn-machine-learning-24d53bb64aa1

Adam Geitgey的“机器学习很有趣”阅读本系列文章，了解机器学习的优点。虽然这篇比较高深，但它可以作为了解该领域的更多动力。
https://medium.com/@ageitgey

3. 数据科学博客

以下是一些与数据科学相关的好博客，您可以查看：

方差解释
http://varianceexplained.org/

成为一名数据科学家
https://www.becomingadatascientist.com

Mark Meloon
https://www.markmeloon.com/

Julia Silge
https://juliasilge.com/blog/

好吧那么。谢谢你的阅读。我希望这对你有所帮助。

我真的相信通过做项目来学习是一种非常有益的体验，但这很难。Kaggle让你轻松自如。Kaggle竞赛负责提出任务，为您获取数据，将其清理成一些可用的形式，并有一个预先定义的指标来优化。

但正如其他人所指出的那样，这是数据科学家80％的工作。所以，虽然Kaggle是一个开始你旅程的好工具，但仅仅把你带到最后是不够的。您需要在数据科学产品组合中展示其他内容。

如何构建数据科学产品组合：

https://towardsdatascience.com/how-to-build-a-data-science-portfolio-5f566517c79c

因此，我正在尝试创建一个社区——Build to Learn。在这里，人们可以分享他们的项目想法（欢迎稀奇古怪的想法！）或对工具的渴望，并在其他成员的帮助下构建它们。它是由Web开发人员，移动应用程序开发人员和机器学习工程师组成的社区。因此，无论您的想法或问题属于哪个领域，您都可以期待与其他成员一起获得至少一些帮助。

如果你想做一些有趣的辅助项目，但似乎无法得到一个有趣的想法，或者你有一个想法，但不知道从哪里开始，或者你只是被困在当前项目的某个地方，这种社区可能正是你所需要的。如果您觉得这很有趣，可以点击下方链接加入Slack。

Slack：

https://join.slack.com/t/build-to-learn/shared_invite/enQtMzg3MzYyNTA5MjAzLWU4M2RkOGY3OWE1OTE5NTIzMGQ5MzZhMmZmOWQyZDVhNWVkMmRjODc3ZWM5ZDA5MDM3YzRiZDM4YTczYTNmMDk

请在下面的评论部分告诉我您的想法。您也可以在Twitter或LinkedIn上与我联系。你可以给我发一封电子邮[email protected]。另外，你可以在Twitter上关注我；我不会发垃圾消息哒;-)

Twitter：

https://twitter.com/nityeshaga

LinkedIn：

https://www.linkedin.com/in/nityeshaga/

最初发表在Zeolearn博客上：

https://www.zeolearn.com/magazine/using-kaggle-to-guide-your-learning-why-and-how-should-you-start

原文标题：

Use Kaggle to start (and guide) your ML/ Data Science journey—Why and How

原文链接：

https://towardsdatascience.com/use-kaggle-to-start-and-guide-your-ml-data-science-journey-f09154baba35

译者简介

闫晓雨，本科毕业于北京林业大学，即将就读于南加州大学应用生物统计与流行病硕士项目。继续在生统道路上摸爬滚打，热爱数据，期待未来。

翻译组招募信息

工作内容：需要一颗细致的心，将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生，或在海外从事相关工作，或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到：定期的翻译培训提高志愿者的翻译水平，提高对于数据科学前沿的认知，海外的朋友可以和国内技术应用发展保持联系，THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利：来自于名企的数据科学工作者，北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~

转载须知

如需转载，请在开篇显著位置注明作者和出处（转自：数据派ID：datapi），并在文章结尾放置数据派醒目二维码。有原创标识文章，请发送【文章名称-待授权公众号名称及ID】至联系邮箱，申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱（见下方）。未经许可的转载以及改编者，我们将依法追究其法律责任。

点击“阅读原文”拥抱组织

你可能感兴趣的:(手把手教你用Kaggle开启机器学习之旅（附资源链接）)

关于tomcat gloria123_ tomcat java
**web应用服务器安装在服务端的服务产品，在web服务器上放置一些允许客户端直接访问的资源，启动服务，客户端通过ip+端口号即可以访问web应用服务器上的资源下载tomcat压缩包并解压后：tomcat:bin目录:存放启动和停止服务等的脚本mac电脑通过命令sudoshstartup.sh来启动，windows系统通过bat可以手动启动conf目录：存放tomcat服务器配置文件web.xml
C# &Unity 唐老狮 No.8 模拟面试题咩咩-哈基米版 C#&&Unity 面试题与算法合集 c#unity 开发语言
本文章不作任何商业用途仅作学习与交流安利唐老狮与其他老师合作的网站,内有大量免费资源和优质付费资源,我入门就是看唐老师的课程打好坚实的基础非常非常重要:全部-游习堂-唐老狮创立的游戏开发在线学习平台-PoweredByEduSoho如果你发现了文章内特殊的字体格式,那是AI补充的知识,我发现原网站下面有答案,我将会把答案以不同样式穿插在回答之中目录C#1.如果我们想为Unity中的Transfor
Docker高级应用-限制容器的cpu和内存云原生的爱好者 docker 容器运维
一、为什么要用docker限制容器的cpu和内存1.资源隔离与公平分配防止资源争用：在多容器环境中，限制CPU和内存可以避免某个容器占用过多资源，影响其他容器的运行。确保公平性：通过限制资源，确保每个容器都能获得所需的计算能力，避免资源被少数容器独占。2.提高系统稳定性防止内存泄漏：限制内存可以避免容器因内存泄漏耗尽主机内存，导致系统崩溃。避免CPU过载：限制CPU使用可以防止容器过度占用CPU，
docker运行容器命令 redis 指定端口 big maom~~ docker redis eureka 容器运维
我整理的一些关于【Docker】的项目学习资料（附讲解～～）和大家一起分享、学习一下：https://edu.51cto.com/surl=QsXoR2使用Docker运行Redis容器并指定端口的详细指南本文旨在帮助初学者理解如何使用Docker来运行Redis容器，并指定端口。Docker是一个开源平台，允许开发者将应用和其依赖打包成一个标准的单元——容器。通过使用Docker，开发者可以确保
ollama教程——使用Ollama与LangChain实现Function Calling(函数调用)的详细教程（二）【附完整源码】 walkskyer ollama入门教程 langchain ollama LLM
ollama入门系列教程简介与目录相关文章:Ollama教程——入门：开启本地大型语言模型开发之旅Ollama教程——模型：如何将模型高效导入到Ollama框架Ollama教程——兼容OpenAIAPI：高效利用兼容OpenAI的API进行AI项目开发Ollama教程——使用LangChain：Ollama与LangChain的强强联合Ollama教程——生成内容API：利用Ollama的原生AP
HarmonyNext实战案例：基于ArkTS的高性能分布式机器学习应用开发 harmonyos-next
HarmonyNext实战案例：基于ArkTS的高性能分布式机器学习应用开发引言在HarmonyNext生态系统中，分布式机器学习是其核心特性之一。通过分布式机器学习，开发者可以充分利用多设备的计算资源，实现复杂模型的训练与推理。本文将深入探讨如何使用ArkTS12+语法开发一个高性能的分布式机器学习应用，涵盖从基础概念到高级技巧的全面讲解。通过本案例，您将学习到如何利用HarmonyNext的分
内容中台的核心架构是什么？清风徐徐de来其他
模块化架构设计解析内容中台的模块化架构通过分层解耦实现灵活扩展，其核心由基础资源层、能力服务层与业务应用层构成。基础层以统一数据治理体系为支撑，通过标准化接口实现结构化与非结构化数据的统一存储，例如Baklib采用分布式存储架构保障数据安全性与访问效率。服务层整合智能分发引擎与API协同策略，支持动态编排内容处理流程，如自动标签生成与多版本管理。应用层通过可配置化组件对接多终端场景，确保知识库构建
YashanDB归档管理数据库
本文内容来自YashanDB官网，原文内容请见https://doc.yashandb.com/yashandb/23.3/zh/%E6%95%B0%E6%8D%AE%...YashanDB通过开启归档模式来进行redo日志文件自动归档，用以支持生产环境中的数据热备份以及高可用主备部署场景的主备同步。当故障发生时，可以通过历史全量数据数据备份以及归档的redo日志文件重做完成数据库重建。V$DAT
卸载YashanDB服务端数据库
本文内容来自YashanDB官网，原文内容请见doc.yashandb.com/yashandb/23…本文介绍使用yasboot命令卸载YashanDB服务端的过程，相关操作需在对应服务器的安装用户（yashan）install目录（/home/yashan/install）下执行。步骤1：检查并关闭仲裁模式请检查当前环境是否开启了仲裁，若已开启仲裁，需关闭仲裁再卸载。$yasbootelect
清华大学出品《DeepSeek从入门到精通》超详细使用手册pdf 2501_90570130 pdf 人工智能
链接：https://pan.quark.cn/s/70da09749050清华大学新闻与传播学院团队发布了长达104页的DeepSeek详细使用手册，该手册成为国产AI工具DeepSeek深度使用的标杆指南。手册内容涵盖基础入门、核心能力与模型对比、进阶提示语策略、场景化应用以及人机协作与能力进阶等方面。它不仅适合新手快速掌握DeepSeek的基础操作，还为进阶用户提供了系统性方法论。
从零开始学习黑客技术，看这一篇就够了网络安全-旭师兄学习 web安全 python 密码学网络安全
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包黑客，对于很多人来说，是一个神秘的代名词，加之影视作品夸张的艺术表现，使得黑客这个本来只专注于技术的群体，散发出亦正亦邪的神秘色彩。黑客源自英文hacker一词，最初曾指热心于计算机技术、水平高超的电脑高手，尤其是程序设计人员，逐渐区分为白帽、灰帽、黑帽等。其中，白帽黑客被称为道德黑客。他们不会非法入侵用户网络，而是通过一系列测试检查
计算机网络：电路交换，报文交换，分组交换 LG.YDX 计算机网络计算机网络网络
一、电路交换：核心思想在通信前建立一条专用物理路径（电路），整个通信过程中独占该路径，结束后释放资源。特点1.建立连接（尝试占用通信资源）2.通信（一直占用通信资源）3.释放连接（归还通信资源）优点：•实时性强（如语音通话、视频会议）。•数据传输顺序和完整性有保障。缺点：•资源浪费（空闲时链路无法被其他用户使用）。•连接建立/释放时间长（不适合突发性数据传输）。线路分配的灵活性差。节点交换不支持“
面试题之webpack file-loader和url-loader 阿丽塔~ webpack 前端 node.js 面试
在面试中，关于Webpack中file-loader和url-loader的区别是一个常见的问题。file-loader和url-loader的区别1.功能定义file-loader：主要用于处理静态资源文件（如图片、字体等），将其复制到输出目录，并返回文件的URL。适用于较大文件或需要单独存储的资源。url-loader：是file-loader的扩展，它在处理文件时会先判断文件大小。如果文件大
高级java每日一道面试题-2025年2月20日-数据库篇-大表如何优化 ? java我跟你拼了 java每日一道面试题数据库 java 大表优化索引分页
如果有遗漏,评论区告诉我进行补充面试官:大表如何优化?我回答:在Java高级面试中讨论大表优化问题时，理解并能详细阐述各种优化策略和技术实现是至关重要的。以下是结合提供的信息进行综合后的详细解析：大表优化的背景当数据库中的单表记录数变得非常庞大时，数据库操作（CRUD）的性能会显著下降，这不仅影响应用的响应速度，还可能导致系统资源耗尽，影响业务的稳定性。因此，对大表进行有效的优化是提升数据库性能的
VS2017拉取Gitlab上项目 daboluo@Niko gitlab 项目管理 git
VS2017拉取Gitlab上项目简介一、需要准备的资源二、操作步骤简介最近的项目在Gitlab上，网上找了发现没有解决问题，于是自己熟悉了下。记录一下从gitlab仓库git到vs2017的过程。一、需要准备的资源安装好VisualStudio2017(其他版本也可以，操作可能会不太一样)。管理员为你创建的GitLab账号、密码。GitLab账号权限可以查看的项目。二、操作步骤可以先用web登录
地理信息系统（ArcGIS）在水文水资源、水环境中的技术应用岁月如歌，青春不败水文水资源 arcgis 水文模型水文资源水文水资源水质模型洪水地理信息系统
在水文水环境保护中，对于信息的采集、处理和分析是关键步骤。水文水环境及其相关数据均具有空间分布特征，传统的方法难以发挥作用。地理信息系统（GIS）强大的空间数据管理和分析功能，在空间信息处理上有独到的优势，是研究区域水文水环境的空间差异的有力工具，GIS在水文水环境中的应用对解决水文水环境中许多问题起着重要的作用与意义。一：ARCGIS数据管理1.1ArcGIS界面及数据加载1.2ArcGIS常见
绘图神器draw.io下载独木人生 IT工具 draw.io
你可以在draw.io的官方网站（https://www.draw.io/）上下载绘图神器draw.io。官方网站提供了针对不同操作系统的下载选项，包括Windows、Mac、Linux等。只需点击对应的操作系统下载链接，然后根据提示进行安装即可。
MySQL自动建立集合自动分片_mongodb撤销集合分片西风吹浮华 MySQL自动建立集合自动分片
mongodb撤销集合分片2019年08月16日16:39:41WFkwYu阅读数31更多版权声明：本文为博主原创文章，遵循CC4.0BY-SA版权协议，转载请附上原文出处链接和本声明。mongodb撤销集合分片基本步骤：停止所有有关和mongodb连接的应用程序导出需要撤销的集合数据禁用分片的自动平衡删除该集合导入集合数据开启分片的自动平衡1、停止所有有关和mongodb连接的应用程序(根据实际
AI人才争夺战升级、算力投资加码与阿里千亿AI豪赌：重塑未来科技格局的三大核心战场 meisongqing 人工智能科技
2025年3月，全球科技领域最引人注目的动态，莫过于AI人才争夺的白热化、算力投资的规模化竞赛，以及阿里巴巴以3800亿元重注押宝AI的豪赌。这三股力量交织，不仅推动了中国科技产业的深度变革，更预示着一场全球技术话语权的重新洗牌。---一、AI人才争夺战：从“高薪挖角”到“生态争夺”全球AI产业的爆发式增长，使得顶尖人才成为最稀缺的资源。据预测，到2030年，中国AI人才缺口将达400万，而美国A
解决方案评测｜通义万相AI绘画创作【阿里产品系测评】一键难忘精通AI实战千例专栏合集 AI作画通义万相
文章目录解决方案评测｜通义万相AI绘画创作一、活动参与及部署体验二、针对通义万相AI绘画创作方案的详细评测反馈1）资源部署及场景API调用体验过程是否得到足够的引导，操作是否顺畅？2）该方案是否满足您的需求？3）针对业务场景，该方案还有哪些可以改进的图片生成能力或在您的业务场景中，还希望它可以提供哪些新的功能？4）同比其他类似产品方案，该方案在成本、易用性、应用场景上是否有竞争力？您是否愿意推荐团
Infor CloudSuite软件二次开发：InforCloudSuite移动应用开发 kkchenjj 工业软件二次开发全集架构工业软件 ERP 开发语言
InforCloudSuite软件二次开发：InforCloudSuite移动应用开发InforCloudSuite简介InforCloudSuite平台概述InforCloudSuite是一个集成的企业资源规划(ERP)解决方案，专为特定行业设计，提供了一系列的云应用，旨在优化业务流程，提升运营效率。该平台涵盖了供应链管理、财务、人力资源、客户关系管理等多个领域，通过其先进的功能和模块，企业可以
Unity游戏引擎喜欢星期五游戏引擎 unity
在数字创意的世界里，Unity引擎以其强大的功能和灵活性，已经成为无数开发者心中构建梦想游戏的首选工具。今天，我们就来深入探讨Unity的奥秘，解锁它如何帮助我们实现那些令人惊叹的游戏项目。unity博文的概要：1.入门教程和资源分享初学者指南：这类博文为刚接触Unity的新手提供入门指导，介绍Unity界面布局、基本操作和简单的游戏开发流程。资源推荐：分享对开发者非常有帮助的Unity插件、模型
【贪心算法2】 m0_46150269 贪心算法算法
力扣122.买卖股票最佳时机Ⅱ链接:link思路要求最大利润，可以分解成子问题求解，在最低价格买入，最高价格卖出。假如第0天价格最低，第3天价格最高，利润=prices[3]-pricnes[0],可以将利润公式拆解成(prices[3]-prices[2])+(prices[2]-prices[1])+(prices[1]-prices[0])最终变成了求相邻两天的利润，所以可以得到一个关于利润
LangChain大模型应用开发指南-大模型Memory不止于对话喝不喝奶茶丫 langchain 人工智能大模型大模型应用 AI大模型 Memory 大语言模型
上节课，我我为您介绍了LangChain中最基本的链式结构，以及基于这个链式结构演化出来的ReAct对话链模型。今天我将由简入繁，为大家拆解LangChain内置的多种记忆机制。本教程将详细介绍这些记忆组件的工作原理、特性以及使用方法。【一一AGI大模型学习所有资源获取处一一】①人工智能/大模型学习路线②AI产品经理资源合集③200本大模型PDF书籍④超详细海量大模型实战项目⑤LLM大模型系统学习
学睿德毅育贤才，AI 剪辑绽华彩互联网之声人工智能
AI技术正以前所未有的速度重塑着短视频剪辑领域。学睿德毅,作为该领域的先锋探索者,正凭借其卓越的课程体系与专业的教学模式,为广大有志于短视频创作的学员开启一扇通往全新创作天地的大门。多元课程,进阶之路学睿德毅精心打造了丰富多元的课程体系。“小白AI短视频训练营”,恰似一把钥匙,为零基础学员开启AI短视频创作的大门。在这里,学员能够借助AI技术,探索记录生活的全新视角,以独特的剪辑手法展现生活的精彩
【Spring】Spring boot 的 AutoConfigurationImportSelector 自动配置原理九师兄 boot spring boot java 数据库
1.美图2.概述SpringBoot启动的时候加载主配置类,开启了自动配置功能@EnableAutoConfiguration参考：Spring:@EnableAutoConfiguration注解@EnableAutoConfiguration是SpringBoot框架中的一个核心注解，它的作用是自动配置SpringBoot应用程序的各种组件、功能和模块。该注解的原理主要涉及以下几个方面：1.1
llama.cpp框架下GGUF格式及量化参数全解析 Black_Rock_br 人工智能
前言：在人工智能领域，语言模型的高效部署和推理一直是研究热点。随着模型规模的不断扩大，如何在有限的硬件资源上实现快速、高效的推理，成为了一个关键问题。`llama.cpp`框架以其出色的性能和灵活性，为这一问题提供了有效的解决方案。其中，GGUF格式和模型量化参数是实现高效推理的重要技术手段。本文将对`llama.cpp`框架下的GGUF格式及量化参数进行详细解析，帮助读者更好地理解和应用这些技术
【Python爬虫实战】从多类型网页数据到结构化JSON数据的高效提取策略易辰君 python爬虫 python 爬虫开发语言
个人主页：https://blog.csdn.net/2401_86688088?type=blog系列专栏：https://blog.csdn.net/2401_86688088/category_12797772.html目录前言一、数据类型及其对应的提取策略（一）文本数据（二）数值数据（三）链接（四）图像数据（五）表格数据（六）JSON数据（七）动态数据（八）元数据（九）总结二、结构化数据提
基于jsp+servlet+mysql实现增删改查蟹黄味汉堡 mysql servlet jsp
#声明单纯记录学习计算机当中所遇到的问题把解决问题的方法分享给大家希望大佬不要喷我这个小白#链接mysql数据库publicclassBaseDao{publicConnectiongetConnection()throwsClassNotFoundException,SQLException{//url里的demo4为数据库名称Stringurl="jdbc:mysql://localhost:
LeetCode刷题实战：删除字符串中的所有相邻重复项（栈的经典应用） sprite_雪碧 leetcode 算法数据结构
题目描述题目链接：1047.删除字符串中的所有相邻重复项-力扣（LeetCode）给定一个由小写字母组成的字符串s，重复项删除操作会选择两个相邻且相同的字符并删除它们。此操作反复进行，直到无法继续删除。返回最终的字符串。答案保证唯一。输入：s="abbaca"输出："ca"解释：删除"bb"得到"aaca"，再删除"aa"得到"ca"。问题分析与解法思路暴力解法的缺陷最直观的暴力解法是重复扫描字符
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理