大数据-数据挖掘第7页

oracle大数据量查询sql优化

纯手打，编辑工具用的不熟练，格式不会整，见谅，严禁抄袭！数据库版本19c，数据量>5亿1.查询强行指定索引在查询时，oracle会对sql进行优化，但有时，优化后，会不走索引造成查询速度过慢，比如使用模糊匹配，或者查询使用到了联合索引，却未使用联合索引的第一个字段作为查询条件。造成索引失效的方式很多，不再赘述。写法：select/*+index(表名索引名)*/字段1,字段2from表2.如果为分

雪夜明月·2024-09-01 19:37

大数据量sql优化

说明：表里有406243206多数据，每天需要捞出100万的数据进行处理。条件有day_id,sub,…等相关条件，表中已经建立了联合索引，但还是会出现慢sql，sql运行时常10多s的都有。优化方案：1、先根据条件查询出最大的ID，和最小的IDselectIDfromxxxwheredata_day_id=#{dayId}andsub_biz_type=#{subBizType}andflow_

菜鸟小学弟·2024-09-01 19:35

汇编之mov、movsx、movzx

表现示例mov将数据从一个位置复制到另一个位置直接数据传输传输数据，不改变数据内容传输数据，不改变数据内容moveax,ebxmovsx将源操作数符号扩展到目标操作数有符号扩展数据将较小数据类型符号扩展到较大数据类型将较小数据类型符号扩展到较大数据类型

TIF星空·2024-09-01 17:51

游卡，三七互娱，得物，顺丰，快手，oppo，莉莉丝，康冠科技，途游游戏，埃科光电25秋招内推

游卡，三七互娱，得物，顺丰，快手，oppo，莉莉丝，康冠科技，途游游戏，埃科光电25秋招内推①顺丰【招聘岗位】研发、算法、大数据、产品、项管、设计、人资等【官方内推码】4FOLXH【一键内推】https

2401_86288678·2024-09-01 13:29

Python大数据之Hadoop学习——day06_hive学习02

一.hive内外表操作1.建表语法create[external]table[ifnotexists]表名(字段名字段类型,字段名字段类型,...)[partitionedby(分区字段名分区字段类型)]#分区表固定格式[clusteredby(分桶字段名)into桶个数buckets]#分桶表固定格式[sortedby(排序字段名asc|desc)][rowformatdelimitedfiel

笨小孩124·2024-09-01 11:18

大数据毕业设计hadoop+spark+hive微博舆情情感分析知识图谱微博推荐系统

（一）Selenium自动化Python爬虫工具采集新浪微博评论、热搜、文章等约10万条存入.csv文件作为数据集；（二）使用pandas+numpy或MapReduce对数据进行数据清洗，生成最终的.csv文件并上传到hdfs；（三）使用hive数仓技术建表建库，导入.csv数据集；（四）离线分析采用hive_sql完成，实时分析利用Spark之Scala完成;（五）统计指标使用sqoop导入m

qq_79856539·2024-09-01 11:16

基于hadoop+spark的旅游大数据分析平台

S2023132基于hadoop+spark的旅游大数据分析平台使用BeautifulSoup爬取数据，爬取成功以后使用spark分析数据，将分析的结果保存到mysql，flask读取mysql数据，结合

源码空间站11·2024-09-01 11:16

大数据毕业设计天hadoop+spark+hive游戏推荐系统游戏数据分析可视化大屏 steam游戏爬虫游戏大数据机器学习知识图谱计算机毕业设计机器学习深度学习人工智能知识图谱

|—||一、选题的目的和意义用户往往因为不能及时查看游戏信息而造成许多烦恼。另一方面，游戏商城平台没能进行系统的管理与维护使游戏信息没能及时的更新。而传统的游戏信息管理，采用的还是手工备案、人工查询的方式。但是随之游戏信息的增多这种管理方式的工作量不断加大，这种做法就存在费时费力、缺乏时效性、不利于调动人员的积极性等缺点。一旦网站建立好之后，一方面，用户可以在第一时间在系统里查询所需的信息，另一方

2401_84159688·2024-09-01 11:45

Java算法之归并排序（Merge Sort）

归并排序以其稳定性和高效率而著称，尤其适用于大数据集的排序。算法原理归并排序的基本步骤包括：分解：将数组递归地分成两半，直到每个子数组只有一个元素。

持续输出...·2024-09-01 10:37

腾讯开源之道：基于Apache之道的开源实践与探索

作为开源界备受关注的会议之一，今年的ApacheConAsia将持续3天，开设14+分论坛，内容覆盖从大数据到搜索再到消息队列等数十个不同类别。

CSDN云计算·2024-09-01 09:30

docker部署Elasticsearch和Kibana

它构建在ApacheLucene搜索引擎库的基础上，提供了一个RESTfulAPI和易于使用的工具，使得在大数据量情况下进行搜索和分析变得高效和简单。1.2为什么使用Elasticsearch？

youm.·2024-09-01 09:59

外行学习快速入行大数据开发指南

大数据是对海量数据进行存储、计算、统计、分析处理的一系列处理手段，处理的数据量通常是TB级，甚至是PB或EB级的数据，这是传统数据处理手段所无法完成的，其涉及的技术有分布式计算、高并发处理、高可用处理、

weixin_45732643·2024-09-01 03:58

php案例分析百度云_基于阿里云平台的大数据教学案例 —— B站弹幕数据分析

简介：实验基于所学的大数据处理知识，结合阿里云大数据相关产品，分组完成一个大数据分析项目，数据集可以使用开源数据集或自行爬取，最终完成一个完整的实验报告：1、能够使用阿里云大数据相关产品完成数据分析、数据建模与模型优化

weixin_39892311·2024-09-01 03:58

基于Hadoop的高校教学管理平台设计与实现

文中就高校大数据平台的关键技术和架构进行阐述，结合高校实际情况，设计高校大数据平台架构，通过搭建Hadoop集群环境，以业务系统和平台之间的数据交互验证平台设计的可行性和优势。

这是辰辰啊·2024-09-01 00:38

基于Spark的云南旅游大数据分析平台

一、项目概述Hi，大家好，今天分享的项目是《基于Spark的云南旅游大数据分析平台》。随着旅游业的发展和数字化进程的加速，智慧旅游已成为旅游业的重要发展方向。

Sweican·2024-08-31 19:09

中标 | 极客天成分布式存储软件成功中标华泰证券并行文件系统软件项目

华泰证券并行文件系统软件项目是服务于华泰证券量化投研的重点项目,是华泰证券能否取得可持续性竞争优势的关键所在,华泰证券多年深耕信用量化投研领域，基于大数据、人工智能、NLP等技术自主研发。

极客天成ScaleFlash·2024-08-31 14:31

《数字时代的学与教》第四模块共读心得

教师选用何种教学策略不是凭老师的经验，而是大数据统计出学生的学习诉求、学生对教学内容的掌握情况来决定的。

屏西小学陈欣艳·2024-08-31 12:10

数据爬虫工作中的IP清理频率

在大数据和信息时代，数据爬虫已经成为获取信息的重要手段。然而，频繁的数据抓取往往会引发目标网站的反爬虫机制，导致IP地址被封禁。

KookeeyLena3·2024-08-31 12:19

人心

人心人性是复杂，无法用所谓的理性和数据来分析，所有的分析从本质是错的，虽然常常会自我感觉良好，比如经济发展水平的分析，数据一大套一大套，成果一大堆一大堆，大数据啊！

苏鹰鹰哥·2024-08-31 11:39

大数据产品化的窗口期

已经之身大数据行业三四年，按理说应该可以说点所谓的经验。但是，现在大数据行业似乎有行无市。看起来高大上，但距离日常好像很远。

可鱼KEYU·2024-08-31 10:57

布隆过滤器：大数据的高效守门员（在 Spring Boot 项目中实现布隆过滤器）

文章目录手写SpringBoot启动器：实现布隆过滤器布隆过滤器基本概念布隆过滤器原理应用场景SpringBoot实现示例添加依赖示例代码解析总结手写SpringBoot启动器：实现布隆过滤器在大数据和高性能计算领域

无理 Java·2024-08-31 08:19

MySQL高级课程：索引设计与性能优化的最佳实践

为了保证MySQL数据库在高并发、大数据量场景下的高效运行，索引设计与性能优化成为数据库管理的重要一环。本课程将深入探讨MySQL索引设计和性能优化的最佳实践，帮助你掌握从理论到实战的优化技巧。

勤劳兔码农·2024-08-31 04:25

【MYSQL】在MySQL中设置 max_allowed_packet、wait_timeout 和 interactive_timeout

目录重要配置参数临时设置参数1.使用SQL语句设置1.检查当前设置持久化设置修改配置文件在Linux上重启MySQL服务：在Windows上重启MySQL服务：注意事项示例：使用BLOB存储大数据总结解决连接断开问题的总结在处理大于

丶2136·2024-08-31 04:22

《C++与新兴数据库技术的完美交互：开启高效数据处理新时代》

一、新兴数据库技术的崛起随着大数据、云计算和人工智能等技术的飞速发展，传统的关系型数据库在某些场景下已经难以满足日益增长的需求。新兴的数据库技术，如NoSQL数据库、NewSQL数据库、分布式

程序猿阿伟·2024-08-31 03:14

双十一云起实验室体验专场，七大场景，体验有礼

\大数据计算场景《基于EMR离线数据分析》E-MapReduce（简称“EMR”）是

阿里云天池·2024-08-31 01:30

Linux基础入门

课程链接：黑马程序员新版Linux零基础快速入门到精通，全涵盖linux系统知识、常用软件环境部署、Shell脚本、云平台实践、大数据集群项目实战等_哔哩哔哩_bilibili声明：该文章为本人的学习笔记

LIPAH·2024-08-31 00:27

【选型】数据库 Mysql MariaDB 存储引擎选择

MysqlMariaDB存储引擎选择MariaDB新增十多个存储引擎，比较有特色的有：（1）Aria：适用于快速读取快速写入场景，替代为人诟病的MyISAM，支持事务，支持崩溃恢复；（2）TokuDB：适用于大数据量写入场景

我是Superman丶·2024-08-31 00:56

【Python进阶】Python爬虫的基本概念，带你进一步了解Python爬虫！！！

网络爬虫在信息获取、数据挖掘、搜索引擎构建等方面发挥着关键作用。二、工作流程确定目标网站：明确需要抓取数据的网站和具体页面。分析网页结构：使用开发者工具查看网页的HTML结构，确定数据存放的位置。

程序员陌陌·2024-08-30 21:05

python 数据挖掘与机器学习

近年来，Python编程语言受到越来越多科研人员的喜爱，在多个编程语言排行榜中持续夺冠。同时，伴随着深度学习的快速发展，人工智能技术在各个领域中的应用越来越广泛。机器学习是人工智能的基础，因此，掌握常用机器学习算法的工作原理，并能够熟练运用Python建立实际的机器学习模型，是开展人工智能相关研究的前提和基础。模块一：课前准备Python编程基础与进阶Python编程入门1、Python环境搭建（

科研的力量·2024-08-30 19:57

2022-05-17

所以，疫情真的让我们失去了很多：亲朋好友间的欢聚说走就走的旅行想见却不能见无处安放的理想…………疫情之下，你的行踪不再是秘密不要担心忘记自己去过哪里大数据都会帮你记得

爱米儿·2024-08-30 19:01

新型冠状病毒感染肺炎防护，喝酒能杀病毒吗？板蓝根能预防感染

截止今日大数据统计：确诊新型冠状病毒感染肺炎者，11823人。疑似病例者17988人，死亡者259人，治愈人数243人。新型冠状病毒感染肺炎，还在不断扩散蔓延。

文娱综艺·2024-08-30 17:28

【赵渝强老师】基于大数据组件的平台架构

在了解了大数据各个生态圈所包含的组件及其功能特性后，就可以利用这些组件来搭建一个大数据平台从而实现数据的存储和数据的计算。下图展示了大数据平台的整体架构。

赵渝强老师·2024-08-30 16:07

kafka的安装与测试

kafka的安装与测试一、概念定义：kafka是一个分布式的基于发布/订阅模式的消息队列（MessageQueue),主要用于大数据实时处理领域使用消息队列的一个好处1.解耦：不需要两台服务器保持同时在线

无情白·2024-08-30 16:04

[Datawhale AI 夏令营][第五期]智能识别系统-Task1笔记

任务是发布在MARS大数据服务平台的2024“大运河杯”数据开发应用创新大赛——城市治理。了解智慧河长的朋友可能听说类似的项目，它们可以识别河道中出现的一些问题。

keexh·2024-08-30 15:58

三防平板：定制化服务的趋势——以智慧医疗为例

来百度APP畅享高清图片智慧医疗，即通过智能设备、大数据、云计算等技术，实现医疗服务的数字化、智能化和个性化。在这个背景下，三防平板凭借

livefan·2024-08-30 15:24

深度学习赋能数据分析，联蔚盘云引领业务革新

一、引言随着大数据时代的到来，深度学习技术正逐渐成为企业数据分析的新引擎。联蔚盘云凭借其在深度学习领域的深厚积累，为企业提供高效、精准的数据分析解决方案，助力企业实现业务革新与增长。

联蔚盘云·2024-08-30 14:20

小白学习大数据测试之hadoop hdfs和MapReduce小实战

转发是对小编的最大支持在湿货|大数据测试之hadoop单机环境搭建(超级详细版)这个基础上，我们来运行一个官网的MapReducedemo程序来看看效果和处理过程。

大数据学习02·2024-08-30 11:39

模糊C-means算法原理及Python实践

Python实践一、目标函数二、隶属度矩阵和聚类中心三、算法步骤四、终止条件五、算法特点六、Python实现模糊C-means（FuzzyC-Means，简称FCM）算法是一种经典的模糊聚类算法，它在数据分析、数据挖掘

doublexiao79·2024-08-30 11:32

游卡，三七互娱，得物，顺丰，快手，oppo，莉莉丝，康冠科技，途游游戏，埃科光电25秋招内推

游卡，三七互娱，得物，顺丰，快手，oppo，莉莉丝，康冠科技，途游游戏，埃科光电25秋招内推①顺丰【招聘岗位】研发、算法、大数据、产品、项管、设计、人资等【官方内推码】4FOLXH【一键内推】https

weixin_53585422·2024-08-30 11:29

联发科Wi-Fi7基带芯片MT7996AV和收发芯片MT7977AN工艺全景图

芯品快报：亚德诺（ADI）超静音步进电机驱动芯片——TMC2209芯品快报：德州仪器（TI）的高性能、集成式的双全桥电机驱动器——DRV8412IPBrain小组集成电路大数据平台2024年07月11日

Victor-Tian·2024-08-30 10:58

【闲谈】聚类算法的金融数据挖掘应用及实践

目录一数据挖掘技术在金融领域应用概述二聚类算法介绍三聚类算法在金融数据挖掘中的应用1.聚类算法在客户细分领域的应用2.聚类算法在客户信用评估领域的应用四算法实践与个人体会1.聚类算法的实践——以k-means

爱写代码的July·2024-08-30 05:51

【IEEE出版 | 往届会后三个月检索】第五届大数据、人工智能与软件工程国际研讨会（ICBASE 2024，9月20-22）

第五届大数据、人工智能与软件工程国际研讨会（ICBASE2024）将于2024年09月20-22日在中国温州隆重举行。会议主要围绕大数据、人工智能与软件工程等研究领域展开讨论。

i嗑盐の小F·2024-08-30 03:10

python爬虫：通过DBLP数据库获取数据挖掘顶会KDD在2023年的论文收录和相关作者信息

Task1读取网站主页整个页面的html内容并解码为文本串（可使用urllib.request的相应方法），将其以UTF-8编码格式写入page.txt文件。Code1importurllib.requestwithurllib.request.urlopen('https://dblp.dagstuhl.de/db/conf/kdd/kdd2023.html')asresponse:html=r

千里澄江·2024-08-30 01:58

虚拟机安装hadoop，hbase（单机伪集群模式）

虚拟机安装Hadoop，Hbase工作中遇到了大数据方面的一些技术栈，没有退路可言，只能去学习掌握它，就像当初做爬虫一样（虽然很简单），在数据爆发的现在，传统的数据库mysql，oracle显然在处理大数据量级的数据时显得力不从心

流~星~雨·2024-08-29 21:31

hive中的数据同步到hbase

关于hadoop，hive，hbase这三个技术栈我写了两篇博客简单的分享了我对这三个技术栈的一些看法，在我目前的认知里，hadoop提供hdfs这个组件来存储大数据量的数据（相比于mysql，oracle

流~星~雨·2024-08-29 21:31

Apache Kafka 快速学习大纲

Kafka概述定义Kafka传统定义：Kafka是一个分布式的基于发布/订阅模式的消息队列（MessageQueue），主要应用于大数据实时处理领域。

aaaak_·2024-08-29 19:46

大数据实训笔记7：kafka

概述Kafka是一个开源的分布式事件流平台(EventStreamingPlatform)，被数千家公司用于高性能数据管道、流分析、数据集成和关键任务应用。Producer：消息生产者，就是向kafkabroker发消息的客户端。Consumer：消息消费者，向kafkabroker取消息的客户端。ConsumerGroup（CG）：消费者组，由多个consumer组成。消费者组内每个消费者负责消

Roslin_v·2024-08-29 19:14

程序猿成长之路之数据挖掘篇——Kmeans聚类算法

Kmeans是一种可以将一个数据集按照距离（相似度）划分成不同类别的算法，它无需借助外部标记，因此也是一种无监督学习算法。什么是聚类用官方的话说聚类就是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。用自己的话说聚类是根据不同样本数据间的相似度进行种类划分的算法。这种划分可以基于我们的业务需求或建模需求来完成，也可以单纯地帮助我们探索数据的自然结构和分布。什么是K-means聚类用官方的

zygswo·2024-08-29 18:39

这几个高级爬虫软件和插件真的强！

亮数据（BrightData）亮数据是一款强大的数据采集工具，以其全球代理IP网络和强大数据采集技术而闻名。它能够轻松采集各种网页数据，包括产品信息、价格、评论和社交媒体数据等。

@Python大数据分析·2024-08-29 17:05

开始学习大数据

我是一个java开发人员，做java服务器开发已经有一年的时间了，而实际的开发经验有两年的时间，最开始的一年的时间，我从事与Android开发。而为什么从Android开发转到Java服务器开发，有如下原因：1.我自己对于做界面不太喜欢，而且也没有足够的耐心去调试界面，而且对于深度，我有足够的畏惧，因为越学到后面，就必须要对面Android的内核，这个是当时自己没有足够的多的信息继续走Androi

昨天的殇·2024-08-29 16:51

推荐频道

大数据-数据挖掘

oracle大数据量查询sql优化

大数据量sql优化

汇编之mov、movsx、movzx

游卡，三七互娱，得物，顺丰，快手，oppo，莉莉丝，康冠科技，途游游戏，埃科光电25秋招内推

Python大数据之Hadoop学习——day06_hive学习02

大数据毕业设计hadoop+spark+hive微博舆情情感分析 知识图谱微博推荐系统

基于hadoop+spark的旅游大数据分析平台

大数据毕业设计天hadoop+spark+hive游戏推荐系统 游戏数据分析可视化大屏 steam游戏爬虫 游戏大数据 机器学习 知识图谱 计算机毕业设计 机器学习 深度学习 人工智能 知识图谱

Java算法之归并排序（Merge Sort）

腾讯开源之道：基于Apache之道的开源实践与探索

docker部署Elasticsearch和Kibana

外行学习快速入行大数据开发指南

php案例分析百度云_基于阿里云平台的大数据教学案例 —— B站弹幕数据分析

基于Hadoop的高校教学管理平台设计与实现

基于Spark的云南旅游大数据分析平台

中标 | 极客天成分布式存储软件成功中标华泰证券并行文件系统软件项目

《数字时代的学与教》第四模块共读心得

数据爬虫工作中的IP清理频率

人心

大数据产品化的窗口期

布隆过滤器：大数据的高效守门员（在 Spring Boot 项目中实现布隆过滤器）

MySQL高级课程：索引设计与性能优化的最佳实践

【MYSQL】在MySQL中设置 max_allowed_packet、wait_timeout 和 interactive_timeout

《C++与新兴数据库技术的完美交互：开启高效数据处理新时代》

双十一云起实验室体验专场，七大场景，体验有礼

Linux基础入门

【选型】数据库 Mysql MariaDB 存储引擎选择

【Python进阶】Python爬虫的基本概念，带你进一步了解Python爬虫！！！

python 数据挖掘与机器学习

2022-05-17

新型冠状病毒感染肺炎防护，喝酒能杀病毒吗？板蓝根能预防感染

【赵渝强老师】基于大数据组件的平台架构

kafka的安装与测试

[Datawhale AI 夏令营][第五期]智能识别系统-Task1笔记

三防平板：定制化服务的趋势——以智慧医疗为例

深度学习赋能数据分析，联蔚盘云引领业务革新

小白学习大数据测试之hadoop hdfs和MapReduce小实战

模糊C-means算法原理及Python实践

游卡，三七互娱，得物，顺丰，快手，oppo，莉莉丝，康冠科技，途游游戏，埃科光电25秋招内推

联发科Wi-Fi7基带芯片MT7996AV和收发芯片MT7977AN工艺全景图

【闲谈】聚类算法的金融数据挖掘应用及实践

【IEEE出版 | 往届会后三个月检索】第五届大数据、人工智能与软件工程国际研讨会（ICBASE 2024，9月20-22）

python爬虫：通过DBLP数据库获取数据挖掘顶会KDD在2023年的论文收录和相关作者信息

虚拟机安装hadoop，hbase（单机伪集群模式）

hive中的数据同步到hbase

Apache Kafka 快速学习大纲

大数据实训笔记7：kafka

程序猿成长之路之数据挖掘篇——Kmeans聚类算法

这几个高级爬虫软件和插件真的强！

开始学习大数据

大数据毕业设计hadoop+spark+hive微博舆情情感分析知识图谱微博推荐系统

大数据毕业设计天hadoop+spark+hive游戏推荐系统游戏数据分析可视化大屏 steam游戏爬虫游戏大数据机器学习知识图谱计算机毕业设计机器学习深度学习人工智能知识图谱