Java架构没有996

关于大数据相关的问答汇总，持续更新中~

NO.1 想要学好大数据需掌握哪些技术？

答：1，Java编程技术

Java编程技术是大数据学习的基础，Java是一种强类型语言，拥有极高的跨平台能力，可以编写桌面应用程序、Web应用程序、分布式系统和嵌入式系统应用程序等，是大数据工程师最喜欢的编程工具，因此，想学好大数据，掌握Java基础是必不可少的!

2.Linux命令

对于大数据开发通常是在Linux环境下进行的，相比Linux操作系统，Windows操作系统是封闭的操作系统，开源的大数据软件很受限制，因此，想从事大数据开发相关工作，还需掌握Linux基础操作命令。

3. Hadoop

Hadoop是大数据开发的重要框架，其核心是HDFS和MapReduce，HDFS为海量的数据提供了存储，MapReduce为海量的数据提供了计算，因此，需要重点掌握，除此之外，还需要掌握Hadoop集群、Hadoop集群管理、YARN以及Hadoop高级管理等相关技术与操作!

4. Hive

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行，十分适合数据仓库的统计分析。对于Hive需掌握其安装、应用及高级操作等。

5. Avro与Protobuf

Avro与Protobuf均是数据序列化系统，可以提供丰富的数据结构类型，十分适合做数据存储，还可进行不同语言之间相互通信的数据交换格式，学习大数据，需掌握其具体用法。

6.ZooKeeper

ZooKeeper是Hadoop和Hbase的重要组件，是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组件服务等，在大数据开发中要掌握ZooKeeper的常用命令及功能的实现方法。

7. HBase

HBase是一个分布式的、面向列的开源数据库，它不同于一般的关系数据库，更适合于非结构化数据存储的数据库，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，大数据开发需掌握HBase基础知识、应用、架构以及高级用法等。

8.phoenix

phoenix是用Java编写的基于JDBC API操作HBase的开源SQL引擎，其具有动态列、散列加载、查询服务器、追踪、事务、用户自定义函数、二级索引、命名空间映射、数据收集、行时间戳列、分页查询、跳跃查询、视图以及多租户的特性，大数据开发需掌握其原理和使用方法。

9. Redis

Redis是一个key-value存储系统，其出现很大程度补偿了memcached这类key/value存储的不足，在部分场合可以对关系数据库起到很好的补充作用，它提供了Java，C/C++，C#，PHP，JavaScript，Perl，Object-C，Python，Ruby，Erlang等客户端，使用很方便，大数据开发需掌握Redis的安装、配置及相关使用方法。

10. Flume

Flume是一款高可用、高可靠、分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据;同时，Flume提供对数据进行简单处理，并写到各种数据接受方(可定制)的能力。大数据开发需掌握其安装、配置以及相关使用方法。

11. SSM

SSM框架是由Spring、SpringMVC、MyBatis三个开源框架整合而成，常作为数据源较简单的web项目的框架。大数据开发需分别掌握Spring、SpringMVC、MyBatis三种框架的同时，再使用SSM进行整合操作。

12.Kafka

Kafka是一种高吞吐量的分布式发布订阅消息系统，其在大数据开发应用上的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群来提供实时的消息。大数据开发需掌握Kafka架构原理及各组件的作用和使用方法及相关功能的实现!

13.Scala

Scala是一门多范式的编程语言，大数据开发重要框架Spark是采用Scala语言设计的，想要学好Spark框架，拥有Scala基础是必不可少的，因此，大数据开发需掌握Scala编程基础知识!

14.Spark

Spark是专为大规模数据处理而设计的快速通用的计算引擎，其提供了一个全面、统一的框架用于管理各种不同性质的数据集和数据源的大数据处理的需求，大数据开发需掌握Spark基础、SparkJob、Spark RDD、spark job部署与资源分配、Spark shuffle、Spark内存管理、Spark广播变量、Spark SQL、Spark Streaming以及Spark ML等相关知识。

15.Azkaban

Azkaban是一个批量工作流任务调度器，可用于在一个工作流内以一个特定的顺序运行一组工作和流程，可以利用Azkaban来完成大数据的任务调度，大数据开发需掌握Azkaban的相关配置及语法规则。

16.Python与数据分析

Python是面向对象的编程语言，拥有丰富的库，使用简单，应用广泛，在大数据领域也有所应用，主要可用于数据采集、数据分析以及数据可视化等，因此，大数据开发需学习一定的Python知识。

只有完整的学完以上技术，才能算得上大数据开发人才，真正从事大数据开发相关工作，工作才更有底气，升职加薪不成问题

关注公众号每天持续更新哦，希望对您有所帮助

NO.2新手入门大数据怎么做？

答：现在大数据行业已经趋于稳定，越来越多的中小企业从最初的跟风到冷静下来，如果确实想转行，最基础的，Linux的基础操作，还有就是掌握一门语言，推荐Python，简单易学，且很适合后期的数据挖掘和人工智能，hadoop生态圈的各个产品，离线分析和实时分析，当然，hive和spark了，不过前期你需要会scala，目前金融行业对数据的实时要求很高，哈哈，对于一个小白，这些已经够你学习好长时间得了

关注公众号每天持续更新哦，希望对您有所帮助

NO.3 什么是大数据,怎样利用大数据卖货？

答：在写这篇大数据文章之前，我发现身边很多IT人对于这些热门的新技术、新趋势往往趋之若鹜却又很难说的透彻，如果你问他大数据是什么？估计很少能说出一二三来。究其原因，一是因为大家对大数据这类新技术有着相同的原始渴求，至少知其然在聊天时不会显得很“土鳖”；二是在工作和生活环境中真正能参与实践大数据的案例实在太少了，所以大家没有必要花时间去知其所以然。

如果你说大数据就是数据大，或者侃侃而谈4个V，也许很有深度的谈到BI或预测的价值，又或者拿Google和Amazon举例，技术流可能会聊起hadoop和Cloud Computing，不管对错，只是无法勾勒对大数据的整体认识，不说是片面，但至少有些管窥蠡测、隔衣瘙痒了。……也许，“解构”是最好的方法。

第一层面是理论，理论是认知的必经途径，也是被广泛认同和传播的基线。我会从大数据的特征定义理解行业对大数据的整体描绘和定性；从对大数据价值的探讨来深入解析大数据的珍贵所在；从对大数据的现在和未来去洞悉大数据的发展趋势；从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。

　　第二层面是技术，技术是大数据价值体现的手段和前进的基石。我将分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。

　　第三层面是实践，实践是大数据的最终价值体现。我将分别从互联网的大数据，政府的大数据，企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。

　和大数据相关的理论

古语云：三分技术，七分数据，得数据者得天下。先不论谁说的，但是这句话的正确性已经不用去论证了。维克托·迈尔-舍恩伯格在《大数据时代》一书中举了百般例证，都是为了说明一个道理：在大数据时代已经到来的时候要用大数据思维去发掘大数据的潜在价值。书中，作者提及最多的是Google如何利用人们的搜索记录挖掘数据二次利用价值，比如预测某地流感爆发的趋势；Amazon如何利用用户的购买和浏览历史数据进行有针对性的书籍购买推荐，以此有效提升销售量；Farecast如何利用过去十年所有的航线机票价格打折数据，来预测用户购买机票的时机是否合适。

从大数据的价值链条来分析，存在三种模式：

　　1- 手握大数据，但是没有利用好；比较典型的是金融机构，电信行业，政府机构等。

　　2- 没有数据，但是知道如何帮助有数据的人利用它；比较典型的是IT咨询和服务企业，比如，埃森哲，IBM，Oracle等。

　　3- 既有数据，又有大数据思维；比较典型的是Google，Amazon，Mastercard等。

现在和未来

　　我们先看看大数据在当下有怎样的杰出表现：

　　大数据帮助政府实现市场经济调控、公共卫生安全防范、灾难预警、社会舆论监督；

　　大数据帮助城市预防犯罪，实现智慧交通，提升紧急应急能力；

　　大数据帮助医疗机构建立患者的疾病风险跟踪机制，帮助医药企业提升药品的临床使用效果，帮助艾滋病研究机构为患者提供定制的药物；

　　大数据帮助航空公司节省运营成本，帮助电信企业实现售后服务质量提升，帮助保险企业识别欺诈骗保行为，帮助快递公司监测分析运输车辆的故障险情以提前预警维修，帮助电力公司有效识别预警即将发生故障的设备；

　　大数据帮助电商公司向用户推荐商品和服务，帮助旅游网站为旅游者提供心仪的旅游路线，帮助二手市场的买卖双方找到最合适的交易目标，帮助用户找到最合适的商品购买时期、商家和最优惠价格；

　　大数据帮助企业提升营销的针对性，降低物流和库存的成本，减少投资的风险，以及帮助企业提升广告投放精准度；

　　大数据帮助娱乐行业预测歌手，歌曲，电影，电视剧的受欢迎程度，并为投资者分析评估拍一部电影需要投入多少钱才最合适，否则就有可能收不回成本；

　　大数据帮助社交网站提供更准确的好友推荐，为用户提供更精准的企业招聘信息，向用户推荐可能喜欢的游戏以及适合购买的商品。

　　其实，这些还远远不够，未来大数据的身影应该无处不在，就算无法准确预测大数据终会将人类社会带往到哪种最终形态，但我相信只要发展脚步在继续，因大数据而产生的变革浪潮将很快淹没地球的每一个角落。

　　比如，Amazon的最终期望是：“最成功的书籍推荐应该只有一本书，就是用户要买的下一本书。”

　　Google也希望当用户在搜索时，最好的体验是搜索结果只包含用户所需要的内容，而这并不需要用户给予Google太多的提示。

　　而当物联网发展到达一定规模时，借助条形码、二维码、RFID等能够唯一标识产品，传感器、可穿戴设备、智能感知、视频采集、增强现实等技术可实现实时的信息采集和分析，这些数据能够支撑智慧城市，智慧交通，智慧能源，智慧医疗，智慧环保的理念需要，这些都所谓的智慧将是大数据的采集数据来源和服务范围。

　　未来的大数据除了将更好的解决社会问题，商业营销问题，科学技术问题，还有一个可预见的趋势是以人为本的大数据方针。人才是地球的主宰，大部分的数据都与人类有关，要通过大数据解决人的问题。

　　比如，建立个人的数据中心，将每个人的日常生活习惯，身体体征，社会网络，知识能力，爱好性情，疾病嗜好，情绪波动……换言之就是记录人从出生那一刻起的每一分每一秒，将除了思维外的一切都储存下来，这些数据可以被充分的利用：

　　医疗机构将实时的监测用户的身体健康状况；

　　教育机构更有针对的制定用户喜欢的教育培训计划；

　　服务行业为用户提供即时健康的符合用户生活习惯的食物和其它服务；

　　社交网络能为你提供合适的交友对象，并为志同道合的人群组织各种聚会活动；

　　政府能在用户的心理健康出现问题时有效的干预，防范自杀，刑事案件的发生；

　　金融机构能帮助用户进行有效的理财管理，为用户的资金提供更有效的使用建议和规划；

　　道路交通、汽车租赁及运输行业可以为用户提供更合适的出行线路和路途服务安排；

　　……

　　当然，上面的一切看起来都很美好，但是否是以牺牲了用户的自由为前提呢？只能说当新鲜事物带来了革新的同时也同样带来了“病菌”。比如，在手机未普及前，大家喜欢聚在一起聊天，自从手机普及后特别是有了互联网，大家不用聚在一起也可以随时随地的聊天，只是“病菌”滋生了另外一种情形，大家慢慢习惯了和手机共渡时光，人与人之间情感交流仿佛永远隔着一张“网”。

随着数据越来越多，在缺乏监管之后，必然会有一场激烈的博弈：是以商业为中心还是以个人为中心。

关注公众号每天持续更新哦，希望对您有所帮助

NO.4大数据有没有数量级的标准？

答：现在大数据的概念非常火热，总是有很多创业团队、研究机构来炒大数据的概念。但深究之后发现，所谓大数据不过只是对小规模的业务数据做了一下数据挖掘而已，甚至于年数据量不过百万条的也自称是大数据平台。

那么，行业内是否应该有一个约定的标准，比如每日新生的有效数据量达到一个什么量级才有资格称为大数据？

大数据不仅仅是数量级的评定，还有多源性，可变特征，复杂度等等纬度。

我理解这个问题应该是问多大的数据称为大数据？回答这个问题还是先要理解大数据的概念，和具备大数据的思维。数据分为格式化数据和非格式化数据，比如每天监控器的图像数据数量巨大但是没有价值隔一天就扫除掉了，我们也不会理解这是大数据。所以，有价值的数据超出了原有的存储能力，我们认为是大数据。

还有就是即时数据处理的速度或者存储数据的处理调用速度满足不了日常的使用需求，我们说是大数据。

第三个，就是数据纬度多，复杂度多，合适多样，我们称为大数据。

所以，不能单独用数据量来衡量，比如一份较小的数据，但每天都需要被保存，而且横向与其他数据需要关联，那他就是大数据。而一份很大的数据，没有什么价值，也没有关键性，也不叫大数据！

关注公众号每天持续更新哦，希望对您有所帮助

NO.5如何避开互联网公司的大数据杀熟现象？

答：某航班的飞机若在同一用户账号上一定时间内被频繁搜索，很有可能就会涨价，而当你换一部手机时查看时，价格又回落为正常状态；

某线上产品对被判定为消费能力较高的客户和经常购买的刚需客户进行溢价，消费能力较低的客户则可以用更低的价格购买到该产品；

在游戏经常充值的“氪金”玩家并不会因为充值量大而更多受到游戏开发者的眷顾，反而是“萌新”更容易在抽奖中抽到珍品，因为要鼓励新人消费。

“大数据杀熟”是个罗生门，没有哪家公司敢承认，但许多消费者都认为自己中过招。

其实题主这个问题可以算半个伪命题——因为，仅凭我们自己，压根无法避开大数据杀熟，除非断绝互联网，而这对一个现代青年来说几乎不可能。所以在此，我只能用一些微乎其微的小方法教大家减少一点点“大数据杀熟”对我们个体带来经济的损失——其实在这个过程中，你在时间与精力上的损失未必就没有经济损失珍贵。

关掉cookie

Cookie是指某些网站为了辨别用户身份、进行时域跟踪而储存在用户本地终端上的数据，听起来很复杂，简单来说，Cookie就是服务器暂存放在你电脑上的一笔资料，好让服务器用来识别你的计算机。当你在浏览网站的时候，Cookie会帮你在网站上所打的文字或是一些选择，都记录下来。当下次你再光临同一个网站，服务器会根据Cookie里的内容来判断使用者，推送出个性化的网页内容给你。Cookie会让你的工作与娱乐更简单方便，例如记住曾填写过的用户名和密码、浏览历史便于下次打开，但你曾做过的偏好选择也正是大数据“套路”你的来源。

所以如果你想让浏览器拒绝网站存放Cookie到你的计算机，可按"工具→Internet选项"，切换到"安全"标签，选择"自定义级别"，找到Cookie部分，全都设为关闭，按下"确定"按钮后，再关闭浏览器即可。不过当你关闭Cookie之后，很多网站的个性化服务功能也不能再使用了。

减少自己信息的暴露

你的每一次搜索（以及搜索的频繁程度和时间），每一次收藏，每一次浏览，每一次购买都会记录在个人账号之中，尤其在现在网络实名制几乎已全面覆盖各主流APP的情况下，几乎意味着以上数据都记录在你的手机号上，搜索公司可以将你的数据卖给其他公司，这也是你为何总会收到垃圾广告短信的原因之一。减少自己信息的暴露，不使用购物类APP，而是使用网页版进行浏览以及购买。例如苹果自带的Safari、Google的Chrome浏览器等，都有无痕模式，开启后确实能让你的信息暴露得更少一点。

谨慎勾选手机权限

无论是iOS还是安卓系统，几乎每个APP在第一次打开使用时都要跳出弹框请求地理位置、麦克风和摄像头、相册、通知推送的权利，有的会请求开放通讯录，有的软件会在漫长的使用“生涯”中不断跳出提醒。但我的建议与选择是，只开必要的，例如地图软件请求地理位置合理，通讯录就不合理，同理修图软件请求相册合理，地理位置就不合理。在权限开放上采用“极简”的处理风格。

购买时货比三家，或者换台设备

实在需要购买，又不得不搜索时，可以用本机看好产品，然后借用朋友的手机进行购买，这种方式在机票预订和酒店预订上效果还不错。

话说回来，这些小技巧都是治标不治本，在现代互联网资本的运作下，我们普通用户殚精竭虑省下的那点小钱如滴进大海里的一滴水，对互联网来说无足轻重，而对我们消费者来说，这滴水能否省下都还是个问号——下班的你站在街头要打车，会因为不平等溢价而改乘公共交通工具吗？你在购买刚需物件时会因为上涨的百十来块钱而选择不购买了吗？

当我们孜孜不倦为了节省一点钱去换软件、删记录时，时间与精力的流逝让我们疲惫不堪。

关注公众号每天持续更新哦，希望对您有所帮助

NO.6 Hadoop一般用在哪些业务场景?

答：Hadoop可以做大数据量存储，它是分布式，可以存储离线的数据，不需要实时性的数据，就像云盘，网盘那样，你用的时候，可以直接读取就行。

你也可以将历史数据存储在Hadoop上，通过整体来分析数据，比抽样的数据要全，更可靠。

还可以处理大型文件，比如PB级别的，因为它的HDFS是分布式存储数据的，它会将数据按块来进行存储，一般是128M，现在3.0是256M。

Hadoop可以做日志处理: 通过MapReduce编程可以抽取想要的内容，也可以结合Flume来收集想要的数据，并通过Hive将数据保存到表，实际上数据底层还是存储在Hadoop上，进行日志分析。

Hadoop支持并行计算，因为它是分布式的，数据是存储在不同的机器上，如果你的需求满足分布式计算，那你就可以用MR来就行海量计算。我曾经用MR做过算法，那是2年前啦。

Hadoop还可以将数据从oracle、mysql、DB2、mongdb等的数据进行ETL处理后，存储在HDFS上进行保存。它有三个副本，非常可靠。

Hadoop还可以通过使用HBase做数据分析，因为HBase是基于Hadoop的数据库，可以实现实时性，高效和随机读写。

关注微信还有大量大数据相关视频等你来看

你可能感兴趣的:(数据合集)

LeetCode 刷题：数据结构与算法的实战经验分享
LeetCode刷题：数据结构与算法的实战经验分享关键词：LeetCode、数据结构、算法、刷题经验、实战摘要：本文将围绕LeetCode刷题展开，深入探讨数据结构与算法在实际刷题过程中的应用。通过分享实战经验，帮助读者更好地理解和掌握数据结构与算法知识，提升解题能力。文章将从背景介绍入手，阐述刷题的目的和意义，接着详细解释核心概念，分析它们之间的关系，然后介绍核心算法原理和具体操作步骤，结合数学
高压电缆护层电流监测系统的技术实现李子圆圆人工智能
目录文章目录概要高精度电流监测的技术实现多级预警机制的构建逻辑极端环境下的稳定运行技术远程运维的技术支撑概要高压电缆护层作为电力传输的关键防护结构，其接地电流的异常变化是判断设备状态的重要指标。TLKS-PLGD高压电缆护层电流监测系统通过传感器技术与智能算法的结合，构建了一套完整的电缆安全监测方案。高精度电流监测的技术实现高精度电流监测的技术实现护层电流监测的核心在于数据采集的精准性。该系统采用
【Linux | 网络】socket编程 - 使用TCP实现服务端向客户端提供简单的服务是阿建吖! 【网络】【Linux】网络 linux tcp/ip
目录一、Comm.hpp（公共数据）二、Log.hpp（日志）三、InetAddr.hpp（管理sockaddr_in相关信息）四、NoCopy.hpp（防拷贝）五、Lockguard.hpp（自动管理锁）六、Thread.hpp（封装线程）七、ThreadPool.hpp（线程池）八、dict.txt（配置文件、简单字典）九、Translate.hpp（提供翻译服务）十、Daemon.hpp（使
构建安全密码存储策略：核心原则与最佳实践 weixin_47233946 信息安全安全
密码是用户身份认证的第一道防线，其存储安全性直接关系到用户隐私和企业信誉。近年来频发的数据泄露事件揭示了密码管理的关键性。本文将深入探讨从加密算法到系统性防护的完整密码存储方案，帮助开发者构建企业级安全防御体系。一、密码存储基本准则绝对禁止明文存储：即使采用数据库加密措施，直接存储用户原始密码仍存在不可逆泄露风险。运维人员权限滥用或备份文件泄露都可能成为突破口。加密≠安全：AES等对称加密存在密钥
python汇率_用Python抓取汇率
抓取的是中行的数据:网址代码#-*-coding:utf-8-*-importreimporturllib.requesturl='http://www.boc.cn/sourcedb/whpj/index.html'#网址req=urllib.request.Request(url)response=urllib.request.urlopen(req)the_page=response.rea
数据结构实验解析(C++版)——实验一复杂度分析拯救三金数据结构 c++算法
目录一、实验例题例题1例题2二、实验原理与背景知识1、实验原理2、背景知识三、解题思路与算法1、解题思路2、算法四、代码实现例题1代码例题2代码五、实验结果分析与总结1、实验结果分析2、该实验与数据结构的联系一、实验例题例题1时间空间限制时间限制：1SEC空间限制：128MB问题描述分析以下代码：for(i=1;iusingnamespacestd;intmain(){longlongn;//输入
Hive 事务表(ACID)问题梳理
文章目录问题描述分析原因什么是事务表概念事务表和普通内部表的区别相关配置事务表的适用场景注意事项设计原理与实现文件管理格式参考博客问题描述工作中需要使用pyspark读取Hive中的数据，但是发现可以获取metastore，外部表的数据可以读取，内部表数据有些表报错信息是：AnalysisException:org.apache.hadoop.hive.ql.metadata.HiveExcept
使用FinancialDatasets工具包进行财务数据分析 Zbb159 数据分析数据挖掘
##技术背景介绍在现代金融分析中，获取准确且及时的财务数据是至关重要的。FinancialDatasets提供了一个强大的API，可以获取超过16,000个股票的财务数据，时间跨度超过30年。通过与OpenAI的集成，我们能够创建智能化的财务分析助手，为投资者提供深度的市场洞察。##核心原理解析FinancialDatasets工具包通过RESTAPI接口访问财务数据，为每个公开交易的公司提供详细
爬虫小结 Crescent_P python小项目 python 数据分析
python爬虫小组作业上周布置了python的小组作业,每一组要求爬取老师指定的信息,本组抽到的题目如下:从中国银行网址：http://www.boc.cn/sourcedb/whpj/获取主要外汇（美元、欧元、英镑、加拿大元、澳大利亚元、日元、韩元、新台币、澳门元和港币）的牌价信息，计算出它们的每天平均价。要求把今年5月份每天平均价格保存到Excel文件中，每种外汇的数据保存在一个工作表中，并
Spring Data Neo4j 与后端人工智能算法的数据交互 AI大模型应用实战 spring neo4j 人工智能 ai
SpringDataNeo4j与后端人工智能算法的数据交互关键词：SpringDataNeo4j、图数据库、人工智能算法、数据交互、知识图谱、图神经网络、数据集成摘要：本文深入探讨了如何利用SpringDataNeo4j框架实现后端人工智能算法与图数据库的高效数据交互。文章首先介绍了图数据库和人工智能算法的基本概念，然后详细解析了SpringDataNeo4j的核心架构和原理。接着，通过实际代码示
怎样查询汇率实时行情,含汇率转换大大的卷接口 python 大数据前端
汇率转换接口支持多种货币之间的转换。只需简单的API调用，您就可以轻松获取最新的汇率信息。例如，您可以通过以下链接将人民币（CNY）转换为美元（USD）：PHP请求案例：返回数据结果：{"code":1,"msg":"操作成功","data":{"from":"CNY","from_name":"人民币","to":"USD","to_name":"美元","exchange":"0.140583
【HCIA】TCP三次握手、4次断开详解戏精亿点点菜 tcp/ip 网络服务器
TCP（传输控制协议）是一种面向连接的、可靠的、基于字节流的传输层通信协议。在TCP/IP协议族中，TCP负责在两个网络实体之间建立、维护和终止连接。TCP连接的建立和终止分别通过三次握手和四次断开来完成。一、三次挥手TCP三次握手是建立TCP连接的过程，它确保了通信双方都准备好进行数据传输。过程如下：客户端->服务器:SYN,ISN=x服务器->客户端:SYN,ACK,ISN=y,ACK(x+1
Python爬虫实战：使用最新技术爬取头条新闻数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 音视频
一、前言：Python爬虫在现代数据获取中的重要性在当今信息爆炸的时代，数据已经成为最宝贵的资源之一。作为数据获取的重要手段，网络爬虫技术在各个领域发挥着越来越重要的作用。Python凭借其简洁的语法、丰富的库生态系统和强大的社区支持，已经成为网络爬虫开发的首选语言。本文将详细介绍如何使用Python及其最新的爬虫技术来爬取头条新闻数据。我们将从基础概念讲起，逐步深入到高级技巧，最后给出完整的爬虫
Python爬虫实战：爬取ETF基金持仓变化 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
1.项目背景ETF（Exchange-TradedFund，交易型开放式指数基金）作为一种在交易所上市交易的基金，其持仓信息对于投资者具有重要参考价值。了解ETF的持仓变化，可以帮助投资者判断市场趋势和资金流向。本文将通过Python爬虫技术，自动化地获取ETF基金的持仓变化数据，进行存储和分析。2.技术选型与环境准备2.1技术选型编程语言：Python3.8+爬虫框架：Scrapy数据解析：Be
SpringBoot+Mybatis+MySQL+Vue+ElementUI前后端分离版：整体布局、架构调整（二）喜欢敲代码的程序员前后端分离 SpringBoot Spring spring boot mybatis mysql vue.js elementui
目录一、前言二、后端调整1.实体类调整2.菜单相关接口3.用户相关接口4.新增工具类5.新增菜单树返回类6.配置类、拦截器三、前端调整1.请求调整2.页面布局、样式调整1.user.vue2.index.vue3.请求拦截四、开发过程中的问题五、附：源码1.源码下载地址六、结语一、前言此文章在上次的基础上进行了部分调整，并根据用户体验（我自己）确认了页面整体布局和数据呈现，暂定就先这样，后续有需要
【数据结构】复杂度分析
目录一、算法1.基本概念2.描述方法3.算法效率二、算法的时间复杂度三、算法的空间复杂度一、算法1.基本概念通俗的讲，算法是解决问题的方法，比如在现实生活中一道菜谱，一个安装轮椅的操作指南等。严格的说，算法是对特定问题求解步骤的一种描述，是指令的有限序列。算法具有的基本特性有：（1）有穷性。一个算法必须总是在执行有穷步之后结束，且每一步都在有求时间内完成。（2）确定性。算法中的每一条指令必须有确切
【Python】（一）面试题和Py基础题戏精亿点点菜 python 开发语言
1.技术面试题（1）TCP与UDP的区别是什么？答：TCP（TransmissionControlProtocol，传输控制协议）提供的是面向连接，可靠的字节流服务。即客户和服务器交换数据前，必须现在双方之间建立一个TCP连接，之后才能传输数据。并且提供超时重发，丢弃重复数据，检验数据，流量控制等功能，保证数据能从一端传到另一端。UDP（UserDataProtocol，用户数据报协议）是一个简单
Python 爬虫实战：实时采集外汇汇率数据的全方位指南 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
引言在全球化的金融市场中，外汇汇率的实时数据对于投资者、企业和研究人员来说至关重要。通过自动化的方式获取这些数据，不仅可以提高效率，还能为决策提供及时的支持。本文将深入探讨如何使用Python爬虫技术，结合最新的工具和方法，实时采集外汇汇率数据。一、外汇汇率数据的获取途径1.1使用官方API接口许多金融机构和数据提供商提供了官方的API接口，供开发者获取外汇汇率数据。例如：AlphaVantage
ResNet：深度卷积神经网络的里程碑心想事“程” 小知识点 cnn 人工智能神经网络
一、引言在深度学习的发展历程中，深度卷积神经网络（CNN）不断演进，旨在提升对图像等数据的特征提取与分类能力。然而，随着网络层数的增加，传统CNN面临着梯度消失、梯度爆炸以及退化等棘手问题，训练变得愈发困难。2015年，由微软研究院提出的ResNet（ResidualNetworks，残差网络）横空出世，它以独特的残差学习思想，成功攻克了这些难题，在ImageNet竞赛中大放异彩，开创了深度神经网
C语言指针进阶完全指南：从多级指针到函数指针的深度探索给老吕螺丝 #C语言 c语言开发语言
掌握指针基础后，你将开启C语言真正的力量之门。本文通过实战代码示例和内存布局图解，带你系统攻克指针进阶技术。一、指针核心回顾与进阶重点核心概念：指针本质：存储内存地址的变量间接访问：通过地址操作数据指针大小：64位系统固定8字节（与类型无关）进阶重点：多级指针：处理复杂间接关系动态内存管理：精准控制内存生命周期函数指针：实现代码抽象与回调复杂结构：构建链表等动态数据结构二、多级指针：指针的指针内存
视觉算法之卷积神经网络清风AI 深度学习算法详解及代码复现计算机视觉 cnn 神经网络深度学习 python 课程设计毕业设计
定义与特点卷积神经网络(ConvolutionalNeuralNetwork,CNN)是一种专为处理具有网格结构的数据而设计的深度学习模型。其独特的结构和功能使其在图像处理、语音识别等领域展现出卓越的性能:CNN的核心设计理念源于对生物视觉系统的模仿。通过模拟大脑皮层中视网膜和视觉皮层的层次化结构,CNN能够有效地捕捉图像中的局部特征并逐步抽象为高层语义信息。这种设计使得CNN特别擅长处理图像和音
nRF52832 低功耗设计与优化 mftang zephyr架构蓝牙应用笔记 Nordic MCU系列笔记 Zephyr RTOS zephyr架构蓝牙应用笔记
目录概述1技术背景2优化策略2.1系统级电源管理2.2时钟系统优化2.3GPIO配置优化3蓝牙协议栈优化3.1连接参数优化3.2广播优化4电源管理实践4.1功耗状态转换图4.2典型功耗分布5低功耗设计最佳实践5.1事件驱动架构5.2定时任务管理5.3数据批处理6高级优化技术6.1电压调节优化6.2RAM保持策略6.3动态功耗分析7功耗测量与验证8常见问题解决8.1功耗高于预期8.2唤醒延迟过长8.
第二十八：Fiddler抓包-抓取Android7.0以上的Https包(三)-夜神模拟器+Xposed+JustTrustMe 卢卡平头哥 Fiddler fiddler https android
一.简介1.二次加密：有的APP，在涉及到关键数据通信时，会将正文二次加密后才通过HTTPS发送1.1.抓包抓到的是一堆二进制base642.自带HTTPClient：像支付宝那样的变态，自己带一个基于so的HTTPClient库2.1.对于关键数据，都不走URLConnection和OkHttp，而是走自己的HTTPClient库2.2.甚至一些
教你如何用 localStorage+Vue 状态管理玩转数据持久化！
收藏点赞关注不迷路！教你如何用localStorage+Vue状态管理玩转数据持久化！在Vue项目中，我们经常使用状态管理（如Vuex或Pinia）来管理用户登录状态、主题、页面设置等全局数据。但很多朋友会遇到一个问题：“我刷新页面之后，状态就丢了啊！”这时候，localStorage就是你的好搭档！它能让你在用户刷新页面或关闭浏览器后，还能保留关键数据。今天我们就来聊聊：如何优雅地将localS
数据链路层 Ragef 网络 MTU ARP
目录以太网以太网帧格式MTUMTU与IP、UDP\TCP的影响IPUDPTCPARP协议ARP工作流程ARP数据报的格式以太网"以太网"不是一种具体的网络,而是一种技术标准以太网是当前应用最广泛的局域网技术;和以太网并列的还有令牌环网,无线LAN等以太网帧格式帧格式如下图所示：目的地址：接收方的MAC地址，用于标识帧的目的地。源地址：发送方的MAC地址，用于标识帧的来源。类型：这个字段指示帧中封装
FastAPI依赖注入：构建高可维护API的核心理念与实战源滚滚AI编程 fastapi log4j
依赖注入（DependencyInjection,DI）作为FastAPI的核心设计模式，通过解耦组件依赖关系、提升代码复用性和可测试性，已成为现代API开发的基石。本文将深入解析其工作原理、高级特性及企业级应用场景。一、依赖注入的核心价值解耦与模块化将数据库连接、认证逻辑等基础设施与业务逻辑分离，避免代码冗余。示例：路由函数无需手动创建数据库连接，通过Depends(get_db)自动注入[ci
【AI大模型】深入解析预训练：大模型时代的核心引擎我爱一条柴ya 学习AI记录深度学习人工智能 ai python AI编程算法
预训练已成为现代人工智能，尤其是自然语言处理和计算机视觉领域的基石技术。它彻底改变了模型开发范式，催生了BERT、GPT等革命性模型。本文将系统阐述预训练的核心概念、原理、方法、应用及挑战。一、预训练的本质：为何需要它？核心问题：数据标注的瓶颈监督学习依赖海量高质量标注数据，获取成本极高（时间、金钱、专业知识）。对于复杂任务（如理解语义、生成文本），标注难度呈指数级上升。标注数据稀缺导致模型泛化能
MySQL存储结构深度解析：Buffer Pool与Page管理 hdzw20 mysql复习 mysql 数据库
MySQL存储结构解析：BufferPool与Page管理在MySQL的InnoDB存储引擎中，BufferPool是其核心组件之一，它极大地提升了数据库的性能。理解BufferPool的内部结构和工作机制，对于优化MySQL数据库至关重要。本文将讨论BufferPool的结构、三大链表、改进型LRU算法以及ChangeBuffer机制。1.BufferPool结构：控制块与缓存页BufferPo
广州曼顿2P数字微断：保护电力设备的安全守护者 mdkk678 安全
在现代社会，电力设备的安全运行对各行各业至关重要。然而，电力系统中存在各种电压波动、过载和短路等问题，可能对设备造成损害。为了保护电力设备免受这些问题的影响，广州曼顿推出了2P数字微断器。本文将介绍这一创新产品的特点和优势，以及它对电力设备的保护作用。广州曼顿科技有限公司专注用户侧智慧数字电气产品研制，以及智慧电能服务大数据云平台建设。基于人工智能技术，大幅提升人触电时的生命安全保障，以及电气火灾
如何设计可扩展的后端系统架构？破碎的天堂鸟学习教程系统架构
设计可扩展的后端系统架构需综合考虑核心原则、架构模式、扩展策略、数据存储、容错机制及监控体系。以下是基于行业实践的详细指南：一、可扩展架构的核心原则无状态性（Statelessness）服务不保存客户端状态，请求可被任意实例处理，便于水平扩展。实现：通过负载均衡器（如Nginx、HAProxy）分发请求至多个无状态实例。松散耦合（LooseCoupling）模块间通过API或消息队列通信，减少依赖
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。