乐姐

大数据学习方向

一、大数据运维之Linux基础

打好Linux基础，以便更好地学习Hadoop，hbase,NoSQL，Spark，Storm，docker,openstack等。因为企业

中的项目基本上都是使用Linux环境下搭建或部署的。

1）Linux系统概述

2）系统安装及相关配置

3）Linux网络基础

4）OpenSSH实现网络安全连接

5）vi文本编辑器

6）用户和用户组管理

7）磁盘管理

8）Linux文件和目录管理

9）Linux终端常用命令

10）linux系统监测与维护

二、大数据开发核心技术 - Hadoop 2.x从入门到精通

大数据的基石：其一，分布式文件系统HDFS用于存储海量数据，无论是Hive、HBase或者Spark数据存储在其上面；其二是分布式资源管理框架

YARN，是Hadoop 云操作系统（也称数据系统），管理集群资源和分布式数据处理框架MapReduce、Spark应用的资源调度与监控；分布式并行计算框架

MapReduce目前是海量数据并行处理的一个最常用的框架。Hadoop 2.x的编译、环境搭建、HDFS Shell使用，YARN 集群资源管理与任务监控，MapReduce编

程，分布式集群的部署管理（包括高可用性HA）必须要掌握的。

想成为云计算大数据Spark高手，看这里！戳我阅读

年薪50W的Java程序员转大数据学习路线戳我阅读

大数据人工智能发展趋势与前景戳我阅读

最全最新的大数据系统交流路径！!戳我阅读

2019最新！大数据工程师就业薪资，让人惊艳！戳我阅读

一、初识Hadoop 2.x

1）大数据应用发展、前景

2）Hadoop 2.x概述及生态系统

3）Hadoop 2.x环境搭建与测试

二、深入Hadoop 2.x

1）HDFS文件系统的架构、功能、设计

2）HDFS Java API使用

3）YARN 架构、集群管理、应用监控

4）MapReduce编程模型、Shuffle过程、编程调优

三、高级Hadoop 2.x

1）分布式部署Hadoop 2.x

2）分布式协作服务框架Zookeeper

3）HDFS HA架构、配置、测试

4）HDFS 2.x中高级特性

5）YARN HA架构、配置

6）Hadoop 主要发行版本（CDH、HDP、Apache）

三、大数据开发核心技术 - 大数据仓库Hive

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行

运行。其优点是学习成本低，可以通类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

一、Hive 初识入门

1）Hive功能、体系结构、使用场景

2）Hive环境搭建、初级使用

3）Hive原数据配置、常见交互方式

二、Hive深入使用

1）Hive中的内部表、外部表、分区表

2）Hive 数据迁移

3）Hive常见查询（select、where、distinct、join、group by）

4）Hive 内置函数和UDF编程

三、Hive高级进阶

1）Hive数据的存储和压缩

2）Hive常见优化（数据倾斜、压缩等）

四、结合实际案例分析

1）依据业务设计表

2）数据清洗、导入（ETL）

3）使用HiveQL，统计常见的网站指标

四、大数据协作框架 - Sqoop/Flume/Oozie

Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如： MySQL

,Oracle ,Postgres等）中的数据导进到关系型数据库中。Sqoop项目开始于2009年，最早是作为Hadoop的一个第三方模块存在，后来为了让使用者能够快速部

署，也为了让开发人员能够更快速的迭代开发，Sqoop独立成为一个Apache项目。

一、数据转换工具Sqoop

1）Sqoop功能、使用原则

2）将RDBMS数据导入Hive表中（全量、增量）

3）将HDFS上文件导出到RDBMS表中

二、文件收集框架Flume

1）Flume 设计架构、原理（三大组件）

2）Flume初步使用，实时采集数据

3）如何使用Flume监控文件夹数据，实时采集录入HDFS中 4）任务调度框架Oozie

三、Oozie功能、安装部署

1）使用Oozie调度MapReduce Job和HiveQL

2）定时调度任务使用

五、大数据Web开发框架 - 大数据WEB 工具Hue

Hue是一个开源的Apache Hadoop UI系统，最早是由Cloudera Desktop演化而来，由Cloudera贡献给开源社区，它是基于Python Web框架Django实现的。通

过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据，例如操作HDFS上的数据，运行MapReduce Job等等。

1）Hue架构、功能、编译

2）Hue集成HDFS

3）Hue集成MapReduce

4）Hue集成Hive、DataBase

5）Hue集成Oozie

六、大数据核心开发技术 - 分布式数据库HBase从入门到精通

HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。HBase在

Hadoop之上提供了类似于Bigtable的能力，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大

规模结构化存储集群

一、HBase初窥使用

1）HBase是什么、发展、与RDBMS相比优势、企业使用

2）HBase Schema、表的设计

3）HBase 环境搭建、shell初步使用（CRUD等）

二、HBase 深入使用

1）HBase 数据存储模型

2）HBase Java API使用（CRUD、SCAN等）

3）HBase 架构深入剖析

4）HBase 与MapReduce集成、数据导入导出

三、HBase 高级使用

1）如何设计表、表的预分区（依据具体业务分析讲解）

2）HBase 表的常见属性设置（结合企业实际）

3）HBase Admin操作（Java API、常见命令）

四、进行分析

1）依据需求设计表、创建表、预分区

2）进行业务查询分析

3）对于密集型读和密集型写进行HBase参数调优

七、大数据核心开发技术 - Storm实时数据处理

Storm是Twitter开源的分布式实时大数据处理框架，被业界称为实时版Hadoop。随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍，比如网站统计、

推荐系统、预警系统、金融系统(高频交易、股票)等等，大数据实时处理解决方案（流计算）的应用日趋广泛，目前已是分布式技术领域最新爆发点，而Storm更是

流计算技术中的佼佼者和主流。按照storm作者的说法，Storm对于实时计算的意义类似于Hadoop对于批处理的意义。Hadoop提供了map、reduce原语，使我

们的批处理程序变得简单和高效。同样，Storm也为实时计算提供了一些简单高效的原语，而且Storm的Trident是基于Storm原语更高级的抽象框架，类似于基于

Hadoop的Pig框架，让开发更加便利和高效。本课程会深入、全面的讲解Storm，并穿插企业场景实战讲述Storm的运用。淘宝双11的大屏幕实时监控效果冲击

了整个IT界，业界为之惊叹的同时更是引起对该技术的探索。可以自己开发升级版的“淘宝双11”？

1）Storm简介和课程介绍

2）Storm原理和概念详解

3）Zookeeper集群搭建及基本使用

4）Storm集群搭建及测试

5）API简介和入门案例开发

6）Spout的Tail特性、storm-starter及maven使用、Grouping策略

7）实例讲解Grouping策略及并发

8）并发度详解、案例开发（高并发运用）

9）案例开发——计算网站PV，通过2种方式实现汇总型计算。

10）案例优化引入Zookeeper锁控制线程操作

11）计算网站UV(去重计算模式)

12）【运维】集群统一启动和停止shell脚本开发

13）Storm事务工作原理深入讲解 14）Storm事务API及案例分析

15）Storm事务案例实战之 ITransactionalSpout

16）Storm事务案例升级之按天计算

17）Storm分区事务案例实战

18）Storm不透明分区事务案例实战

19）DRPC精解和案例分析

20）Storm Trident 入门

21）Trident API和概念

22）Storm Trident实战之计算网站PV

23）ITridentSpout、FirstN(取Top N)实现、流合并和Join

24）Storm Trident之函数、流聚合及核心概念State

25）Storm Trident综合实战一（基于HBase的State）

26）Storm Trident综合实战二

27）Storm Trident综合实战三

28）Storm集群和作业监控告警开发

八、Spark技术实战之基础篇 -Scala语言从入门到精通

为什么要学习Scala？源于Spark的流行，Spark是当前最流行的开源大数据内存计算框架，采用Scala语言实现，各大公司都在使用Spark：IBM宣布承诺大力推进

Apache Spark项目，并称该项目为：在以数据为主导的，未来十年最为重要的新的开源项目。这一承诺的核心是将Spark嵌入IBM业内领先的分析和商务平台，

Scala具有数据处理的天然优势，Scala是未来大数据处理的主流语言

1)-Spark的前世今生

2)-课程介绍、特色与价值

3)-Scala编程详解：基础语法

4)-Scala编程详解：条件控制与循环

5)-Scala编程详解：函数入门

6)-Scala编程详解：函数入门之默认参数和带名参数

7)-Scala编程详解：函数入门之变长参数

8)-Scala编程详解：函数入门之过程、lazy值和异常

9)-Scala编程详解：数组操作之Array、ArrayBuffer以及遍历数组

10)-Scala编程详解：数组操作之数组转换

11)-Scala编程详解：Map与Tuple

12)-Scala编程详解：面向对象编程之类

13)-Scala编程详解：面向对象编程之对象

14)-Scala编程详解：面向对象编程之继承

15)-Scala编程详解：面向对象编程之Trait

16)-Scala编程详解：函数式编程

17)-Scala编程详解：函数式编程之集合操作

18)-Scala编程详解：模式匹配

19)-Scala编程详解：类型参数

20)-Scala编程详解：隐式转换与隐式参数

21)-Scala编程详解：Actor入门

九、大数据核心开发技术 - 内存计算框架Spark

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点。启用了内存分布数据集，除

了能够提供交互式查询外，它还可以优化迭代工作负载。Spark Streaming: 构建在Spark上处理Stream数据的框架，基本的原理是将Stream数据分成小的时间片断

（几秒），以类似batch批量处理的方式来处理这小部分数据

1）Spark 初识入门

2）Spark 概述、生态系统、与MapReduce比较

3）Spark 编译、安装部署（Standalone Mode）及测试

4）Spark应用提交工具（spark-submit，spark-shell）

5）Scala基本知识讲解（变量，类，高阶函数）

6）Spark 核心RDD

7）RDD特性、常见操作、缓存策略

8）RDD Dependency、Stage常、源码分析

9）Spark 核心组件概述

10）案例分析

11）Spark 高阶应用

12）Spark on YARN运行原理、运行模式及测试

13）Spark HistoryServer历史应用监控

14）Spark Streaming流式计算

15）Spark Streaming 原理、DStream设计

16）Spark Streaming 常见input、out

17）Spark Streaming 与Kafka集成

18）使用Spark进行分析

十、大数据核心开发技术 - Spark深入剖析

1）Scala编程、Hadoop与Spark集群搭建、Spark核心编程、Spark内核源码深度剖析、Spark性能调优

2）Spark源码剖析

十一、企业大数据平台高级应用

完成大数据相关企业场景与解决方案的剖析应用及结合一个电子商务平台进行实战分析，主要包括有：企业大数据平台概述、搭建企业

大数据平台、真实服务器手把手环境部署、使用CM 5.3.x管理CDH 5.3.x集群

1）企业大数据平台概述

2）大数据平台基本组件

3）Hadoop 发行版本、比较、选择

4）集群环境的准备（系统、基本配置、规划等）

5）搭建企业大数据平台

6）以实际企业项目需求为依据，搭建平台

7）需求分析（主要业务）

8）框架选择（Hive\HBase\Spark等）

9）真实服务器手把手环境部署

10）安装Cloudera Manager 5.3.x

11）使用CM 5.3.x安装CDH 5.3.x

12）如何使用CM 5.3.x管理CDH 5.3.x集群

13）基本配置，优化

14）基本性能测试

15）各个组件如何使用

十二、项目实战：驴妈妈旅游网大型离线数据电商分析平台

离线数据分析平台是一种利用hadoop集群开发工具的一种方式，主要作用是帮助公司对网站的应用有一个比较好的了解。尤其是在电商、旅游、银行、证券、游戏

等领域有非常广泛，因为这些领域对数据和用户的特性把握要求比较高，所以对于离线数据的分析就有比较高的要求了。本课程讲师本人之前在游戏、旅游等公司

专门从事离线数据分析平台的搭建和开发等，通过此项目将所有大数据内容贯穿，并前后展示！

1）Flume、Hadoop、Hbase、Hive、Oozie、Sqoop、离线数据分析，SpringMVC，Highchat

2）Flume+Hadoop+Hbase+SpringMVC+MyBatis+MySQL+Highcharts实现的电商离线数据分析

3）日志收集系统、日志分析、数据展示设计

十三、项目实战：基于1号店的电商实时数据分析系统

1）全面掌握Storm完整项目开发思路和架构设计

2）掌握Storm Trident项目开发模式

3）掌握Kafka运维和API开发、与Storm接口开发

4）掌握HighCharts各类图表开发和实时无刷新加载数据

5）熟练搭建CDH5生态环境完整平台

6）灵活运用HBase作为外部存储

7）可以做到以一己之力完成从后台开发（Storm、Kafka、Hbase开发）

到前台HighCharts图表开发、Jquery运用等，所有工作一个人搞定！

可以一个人搞定淘宝双11大屏幕项目！

十四、项目实战：基于美团网的大型离线电商数据分析平台

本项目使用了Spark技术生态栈中最常用的三个技术框架，Spark Core、Spark SQL和Spark Streaming，进行离线计算和实时计算业务模块的开发。实现了包括用

户访问session分析、页面单跳转化率统计、热门商品离线统计、广告点击流量实时统计4个业务模块。过合理的将实际业务模块进行技术整合与改造，

该项目完全涵盖了Spark Core、Spark SQL和Spark Streaming这三个技术框架中几乎所有的功能点、知识点以及性能优化点。仅一个项目，即可全面掌握Spark

技术在实际项目中如何实现各种类型的业务需求！在项目中，重点讲解了实际企业项目中积累下来的宝贵的性能调优、troubleshooting以及数据倾斜解决方案等知识和技术

1）真实还原完整的企业级大数据项目开发流程：

项目中采用完全还原企业大数据项目开发场景的方式来讲解，

每一个业务模块的讲解都包括了数据分析、需求分析、方案设计、数据库设计、编码实现、功能测试、性能调优、troubleshooting与解决数据倾斜（后期运维）等环节

，真实还原企业级大数据项目开发场景。

让学员掌握真实大数据项目的开发流程和经验！

2）现场Excel手工画图与写笔记：所有复杂业务流程、架构原理

、Spark技术原理、业务需求分析、技术实现方案等知识的讲解

，采用Excel画图或者写详细比较的方式进行讲解与分析，

细致入微、形象地透彻剖析理论知识，帮助学员更好的理解、记忆与复习巩固。

十五、机器学习及实践

基于PyMC语言以及一系列常用的Python数据分析框架，如NumPy、SciPy和Matplotlib，通过概率编程的方式，讲解了贝叶斯推断的原理和实现方法。

该方法常常可以在避免引入大量数学分析的前提下，有效地解决问题。课程中使用的案例往往是工作中遇到的实际问题，有趣并且实用。回归等算法有较为深入的了解，以Python编程语言为基础，在不涉及大量数学模型与复杂编程知识的前提下，熟悉并且掌握当下最流行的机器学习算法，如回归、决策树、SVM等，并通过代码实例来展示所讨论的算法的实际应用。

1）Mahout、Spark MLlib概述

2）机器学习概述

3）线性回归及Mahout、SparkMLlib案例

4）Logistic回归、softmax分类及Mahout、SparkMLlib案例

5）KNN及Mahout、SparkMllib案例

6）SVM及Mahout、SparkMllib案例

7）决策树及Mahout、SparkMllib案例

8）随机森林及Mahout、SparkMllib案例

9）GBDT及Mahout、SparkMllib案例

10）KMeans及Mahout、SparkMllib案例

11）贝叶斯及Mahout、SparkMllib案例

12）集成学习

13）特征处理及模型优化

十六、推荐系统

开发推荐系统的方法，尤其是许多经典算法，重点探讨如何衡量推荐系统的有效性。课程内容分为基本概念和进展两部分：前者涉及协同推荐、基于

内容的推荐、基于知识的推荐、混合推荐方法，推荐系统的解释、评估推荐系统和实例分析；后者包括针对推荐系统的攻击、在线消费决策、推荐系统和下一代互联网以及普适环境中的推荐

1）协同过滤推荐

2）基于内容的推荐

3）基于知识的推荐

4）混合推荐方法

5）推荐系统的解释

6）评估推荐系统

7）案例研究

十七、分布式搜索引擎Elasticsearch开发

联网+、大数据、网络爬虫、搜索引擎等等这些概念，如今可谓炙手可热

1）Elasticsearch概念

2）Elasticsearch安装和插件介绍

3）Elasticsearch基本使用和简单查询

4）Elasticsearch的Java客户端使用

5）Elasticsearch索引和Mapping

6）Elasticsearch搜索深入

7）Elasticsearch与Spring集成

8）Elasticsearch实战

十八、大数据高并发系统架构实战方案(LVS负载均衡、Nginx、共享存储、海量数据、队列缓存 )

随着互联网的发展，高并发、大数据量的网站要求越来越高。而这些高要求都是基础的技术和细节组合而成的。

十九、大数据高并发服务器实战

随着Web技术的普及，Internet上的各类网站第天都在雪崩式增长。但这些网站大多在性能上没做过多考虑。当然,它们情况不同。有的是Web技术本身的原因（主

要是程序代码问题）,还有就是由于Web服务器未进行优化。不管是哪种情况，一但用户量在短时间内激增，网站就会明显变慢，甚至拒绝放访问。要想有效地解决

这些问题，就只有依靠不同的优化技术。本课程就是主要用于来解决大型网站性能问题，能够承受大数据、高并发。主要涉及技术有：nginx、tomcat、memcached、redis缓存、负载均衡等高级开发技术

大数据分析、数据可视化

二十、Tableau商业智能与可视化应用实战

Tableau的数据连接与编辑、图形编辑与展示功能，包括数据连接与管理、基础与高级图形分析、地图分析、高级数据操作、基础统计分析、如何与R集成进行高级分析、分析图表整合以及分析成果共享等主要内容。

1）什么是数据可视化？

2）如何用图表讲故事

3）Tableau发展历程

4）Tableau家族产品

5）Tableau产品优势

6）Tableau Desktop安装配置

7）Tableau的导航与菜单

8）Tableau设计流程最佳实践

9）Tableau数据类型与文件

10）Tableau数据源初探

11）数据源深入

12）工作表

13）Tableau中的函数与计算

14）Tableau高级分析与项目实战

15）Tableau中的排序与筛选器

16）Tableau中的参数

17）Tableau图表分析

18）Tableau地图绘制与图像

19）Tableau 仪表盘和故事

20）项目一_教育网站指标评估

21）项目二_网站用户行为分析

22）项目三_零售行业进销存分析

二十一、Echarts从入门到上手实战

对数据可视化技术有一个全面、系统、深入的了解，最终达到能够利用Echarts图表结合后端数据进行前端可视化报表展示的目的，

1）数据可视化概述

2）什么是数据可视化？

3）经典可视化案例

4）大数据可视化的价值

5）数据可视化工具、案例、书籍

6）Echarts概述

7）Echarts特性介绍

8）如何快速上手开发一个Echarts可视化图表

9）如何阅读Echarts官方文档

10）Echarts学习必备基础知识

11）Echarts3.x与Echarts2.x的区别

12）Echarts基础架构与常见名词术语

13）Echarts标准开发模板

14）十大常见图表_小结

15）Echarts图表高级

16）北上广最佳前10航行路线图

17）豆瓣最新热映电影排名分析

18）图表适用场景

19）数据可视化方法

20）数据可视化误区

二十二、Vue.js快速上手

Vue.js是一套构建用户界面的轻量级MVVM框架，与其他重量级框架不同的是， Vue.js 的核心库只关注视图层，并且非常容易学习，很容易与其它前端技术或已有的项目整合。本课程主要分两部分讲解：1.掌握Vue.js设计规范的语法；

1）Vue.js简介和MVC、MVP以及MVVM架构

2）Vue.js介绍、开发工具的介绍以及HelloWorld程序演示

3）Vue.js的构造器和扩展

4）Vue实例的属性

5）Vue实例生命周期

6）计算属性及案例

7）方法调用

8）观察属性

9）文本、HTML插值

10）属性插值和表达式

11）指令的格式

12）条件指令

13）v-show指令

14）v-bind指令

15）列表渲染

16）过滤器

17）事件处理

18）事件修饰符

19）表单处理

20）自定义组件

21）过渡效果

22）动画效果

23）过渡和动画的回调函数

24）路由技术

25）混合

26）Render函数

27）单文件工程

28）单元测试

29）服务器端渲染

30）生产环境部署

31）动态评分案例

32）图片轮播案例

33）OLTP系统的管理界面

34）聊天室案例

你可能感兴趣的:(大数据,大数据,大数据学习,大数据开发,大数据入门,人工智能)

史上最强！Spring Boot 3.3 高效批量插入万级数据的多种方案 m0_74825074 面试学习路线阿里巴巴 spring boot 后端 java
SpringBoot3.3多种方式实现高效批量插入万级数据，史上最强！在大数据处理场景下，如何高效地将大量数据插入数据库是一个重要课题。本文基于SpringBoot3.3及MyBatis-Plus，介绍几种高效的批量插入数据的方法，包括：使用JDBC批处理使用自定义SQL批处理单条插入（for循环）拼接SQL语句插入MyBatis-Plus的saveBatch方法循环插入+开启批处理模式每种方式都
2024年AIGC技术未来发展趋势与挑战：从应用创新到伦理监管小宝哥Code ChatGPT与AIGC AIGC
生成式人工智能（AIGC，ArtificialIntelligenceGeneratedContent）作为人工智能领域的一个重要分支，正在快速发展并改变着多个行业的格局。2024年，AIGC技术持续取得突破，并进入更多实际应用场景。本文将详细介绍AIGC的基本概念、原理、最新前沿技术及发展趋势。1.生成式人工智能（AIGC）基本概念与原理生成式人工智能（AIGC）是指通过人工智能技术，尤其是深度
AI 集群：Exo 项目详解 ivwdcwso 运维人工智能 AI Exo
引言随着人工智能技术的迅猛发展，越来越多的人希望在家中运行自己的AI集群。传统的AI集群通常需要昂贵的硬件和复杂的配置，但Exo项目正是为了解决这个问题而诞生的。Exo项目旨在让你利用日常电子设备，轻松搭建一个高效的AI集群。本文将详细介绍Exo项目的特点、安装步骤和实战示例。©ivwdcwso(ID:u012172506)Exo项目特点1.广泛的模型支持Exo支持多种流行的AI模型，包括但不限于
多租户架构未提供足够的租户安全培训和教育图幻未来网络安全
多租户架构下租户安全培训与教育的需求分析与解决方案引言随着云计算和大数据技术的飞速发展，多租户架构已成为企业数字化转型的重要基石。多租户架构允许一个应用程序实例为多个租户提供服务，从而降低了企业的运营成本。然而，这种架构也带来了一系列的安全挑战。为了解决这些问题，企业需要加强对租户的安全培训和教育，确保租户了解如何在使用多租户架构时保护自己的数据和应用程序。本文将探讨多租户架构下的租户安全培训和教
python 监控键盘输入_python 监控键盘输入 weixin_39717121 python 监控键盘输入
软件测试精品文章汇总测试基础python测试开发库及项目谷歌如何测试软件python工具书籍下载-持续更新2018软件测试标准汇总下载python测试开发自学每周一练python测试工具开发自学每周一练-2018-06软件测试工具书籍与面试题汇总下载(持续更新)python测试开发自动化测试数据分析...文章python人工智能命理2019-05-131907浏览量Shell历史记录异地留痕审计与
一文了解大数据概论程序员
一.大数据概论1.1大数据概念大数据（bigdata）：指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。主要解决，海量数据的存储和海量数据的分析计算问题。按顺序给出数据存储单位：bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。1Byte=8bit
进阶之路：从传统编程到AI大模型与Prompt驱动的爬虫技术大模型老炮人工智能 prompt 爬虫语言模型大模型学习 AI大模型
前言爬虫相信很多人都对此有所了解，它主要依靠编写代码实现对网页结构的解析，通过模拟浏览器行为获取目标数据！随着人工智能技术的发展，LLM大模型的出现为爬虫技术带来了新的思路。与传统的编程模式不同，使用AI大模型+prompt可以显著提高程序员的编程效率。通过结合人工智能和自然语言处理技术，开发者可以更加高效地编写爬虫代码，并实现对网页内容的智能解析和提取。前置内容下面我将通过爬取豆瓣电影top25
开源模型应用落地-qwen模型小试-Qwen2.5-7B-Instruct-LangGraph-链式处理（一）开源技术探险家开源模型-实际应用落地 #深度学习自然语言处理语言模型 langchain
一、前言在当今人工智能快速发展的时代，大语言模型不断迭代升级，为各种复杂任务的处理提供了强大的支持。LangGraph作为一种创新的架构，其链式处理机制为充分发挥LLMs的潜力提供了新的途径。Qwen2.5模型是一款备受瞩目的大语言模型，它具备出色的语言理解和生成能力，在广泛的自然语言处理任务中都展现出了卓越的性能。其在语言的准确性、逻辑性以及对复杂语义的把握上都有着突出的表现，为基于它进行的各类
一文搞懂python的face_recognition人脸识别库码上飞扬 python 开发语言人脸识别
随着人工智能和机器学习的快速发展，人脸识别技术在安全监控、身份验证、智能相册等领域的应用越来越广泛。Python作为一门简洁高效的编程语言，其丰富的库支持使得人脸识别的实现变得更加容易。本文将介绍如何使用Python的face_recognition库来实现基本的人脸识别功能。一、face_recognition库简介1.1什么是face_recognition库？face_recognition
AIGC常见基础概念 GISer_Jinger 人工智能 AIGC 机器学习 ai
AIGC（AIGeneratedContent，人工智能生成内容）是近年来快速发展的领域，涉及文本生成、图像生成、音频生成、视频生成等。以下是AIGC常见的面试题目及其详解：1.AIGC基础概念什么是AIGC？它的主要应用场景有哪些？定义：AIGC是指利用人工智能技术自动生成内容，包括文本、图像、音频、视频等。应用场景：文本生成：新闻写作、广告文案、代码生成（如GitHubCopilot）。图像生
AI时代的人类增强：道德考虑与身体增强的未来发展策略分析预测 AI大模型应用之禅 AI大模型与大数据 java python javascript kotlin golang 架构人工智能
人类增强、AI、道德、身体增强、未来发展策略、预测1.背景介绍人类文明自诞生以来，就一直在探索如何超越自身的局限性。从使用工具到发明火，从农业文明到工业革命，每一次进步都代表着人类对自身能力的提升。如今，人工智能（AI）的快速发展，为人类提供了前所未有的机会，让我们迈向一个全新的时代——AI时代的人类增强时代。AI时代的人类增强，是指通过人工智能技术，提升人类的认知能力、身体能力和生活质量。这不仅
Janus Pro：DeepSeek 开源革新，多模态 AI 的未来后端
JanusPro是DeepSeek开发的一个开源多模态人工智能框架，它通过集成视觉和语言处理能力，提供了高性能的多模态任务处理能力。在线体验：https://deepseek-januspro.com/背景JanusPro于2025年1月发布，是一个开源的多模态AI框架，能够同时处理视觉和语言信息。它采用了独特的多模态架构，包括解耦的视觉编码框架和统一的Transformer架构，以及SigLIP
《深度剖析Q-learning中的Q值：解锁智能决策的密码》人工智能深度学习
在人工智能的飞速发展进程中，强化学习作为一个关键领域，为智能体与环境交互并学习最优行为策略提供了有效框架。其中，Q-learning算法凭借其独特的魅力，在机器人控制、自动驾驶、游戏AI等众多领域大放异彩。而Q-learning中的Q值，更是理解这一算法的核心关键，它如同智能体的“智慧密码”，指导着智能体在复杂环境中做出最优决策。Q值的直观定义：行为价值的“预言家”从直观层面理解，Q值代表着智能体
江大白 | 斯坦福大学教授李飞飞团队：关于 2024年人工智能发展报告总结！双木的木深度学习拓展阅读人工智能
本文来源公众号“江大白”，仅用于学术分享，侵权删，干货满满。原文链接：斯坦福大学教授李飞飞团队：关于2024年人工智能发展报告总结！导读斯坦福大学教授李飞飞团队总结、解析了2024年人工智能发展报告，涵盖AI研究进展、技术性能提升、经济影响及医疗教育突破，重点分析大型模型成本、多模态模型崛起、AI可靠性挑战和生成式AI影响，是了解AI现状与未来的必读内容！斯坦福大学教授李飞飞团队关于2024年人工
DeepSeek：通用人工智能的技术前沿与创新突破热爱分享的博士僧人工智能
一、DeepSeek的定位与背景DeepSeek（深度求索）是一家聚焦**通用人工智能（AGI）**研发的中国科技公司，成立于2023年，核心团队由全球顶尖AI科学家、工程师组成。公司以“探索智能本质，实现AGI造福人类”为使命，致力于突破大模型技术的边界，推动AI从专用向通用演进。其研发方向覆盖自然语言处理、多模态交互、强化学习等领域，并在模型架构、训练效率及实际应用场景中取得显著成果。二、核心
AiLab: 探索人工智能的前沿实验室 m0_75126181 人工智能
AiLab:引领人工智能创新的实验平台在人工智能快速发展的今天,如何让更多人了解并参与到AI技术的创新中来,成为一个重要的课题。AiLab(人工智能实验室)应运而生,作为一个面向全球开发者和组织的开放平台,AiLab致力于推动AI技术的普及与创新。AiLab的使命与愿景AiLab的核心使命是帮助开发者和组织快速上手AI技术,体验最新的AI创新成果。通过提供丰富的实验项目、教育资源和研究成果,AiL
如何用Python训练一个AI模型（超详细教程）非常详细收藏我这一篇就够了！程序员二飞人工智能架构算法制造自然语言处理
引言人工智能（AI）——一个熟悉又神秘的词汇。我们常听说它可以生成诗歌、编写代码、创作艺术，甚至回答各种问题。然而，当你想亲手实现一个“AI模型”时，却可能感到无从下手。这篇教程正是为你准备的，将带你从零开始，逐步掌握从“AI新手”到“能够搭建AI模型”的核心技能。前排提示，文末有大模型AGI-CSDN独家资料包哦！一、AI的基本概念1.什么是AI模型？AI模型是通过训练得到的一种程序，能够利用海
Python生态系统中拥有丰富的第三方库 ___Y1 python python
Python生态系统中拥有丰富的第三方库，这些库覆盖了几乎所有领域，包括科学计算、数据分析、机器学习、人工智能、Web开发等。这些库的存在极大地丰富了Python的功能，使其成为一门强大而灵活的编程语言。以下是一些常用的Python第三方库：1.**科学计算与数据处理：**-**NumPy：**提供高性能的多维数组对象，以及相关工具，用于处理这些数组。-**Pandas：**提供数据结构和数据分析
人工智能 Python ZSup{A} 人工智能 java 前端服务器
人工智能Python（一）一．基本语法1.在python中严格区分大小写2.Python中的每一行就是一条语句，每条语句以换行结束3.Python每一行语句不要过长（规范中建议每行不要超过80个字符）“rulers”:[80]4.一条语句可以分多行编写，语句后面以\结尾5.Python是缩进严格的语言，所以在Python中不要随便写缩进6.在Python使用#表示注释，#后面的内容都属于注释，注释
中国BI步入增长大周期，腾讯云ChatBI加速AI+BI融合大数据在线 AI 云静思园人工智能腾讯云大数据 ChatBI AI+BI
过去十年，大数据技术的快速发展，让数据消费前进一大步，数据价值得到一定程度的挖掘与释放，真正开启了“用数”的大时代。但数据分析繁杂的技术栈、复杂的处理过程以及程式化的交互方式，让“数据消费”的门槛始终降不下来，一定程度制约着企业迈向“用好数”的新阶段。如今，随着大模型和生成式AI的迅猛发展，数据消费正迎来一场巨大变革。大模型与数据分析天然的融合属性，使得商业智能（以下简称：BI）迎来全面重塑，BI
【人工智能】Python常用库-PyTorch常用方法教程 IT古董人工智能机器学习 Python 人工智能 python pytorch 机器学习
PyTorch是一个强大的开源深度学习框架，以其灵活性和动态计算图而广受欢迎。以下是PyTorch的详细教程，涵盖从基础到实际应用的使用方法。1.安装与导入1.1安装PyTorch访问PyTorch官方网站，根据系统、Python版本和CUDA支持选择安装命令。常用安装命令：pipinstalltorchtorchvisiontorchaudio1.2导入库importtorchimporttor
【人工智能】Python常用库-TensorFlow常用方法教程 IT古董人工智能机器学习 Python 人工智能 python tensorflow 机器学习
TensorFlow是一个广泛应用的开源深度学习框架，支持多种机器学习任务，如深度学习、神经网络、强化学习等。以下是TensorFlow的详细教程，涵盖基础使用方法和示例代码。1.安装与导入安装TensorFlow：pipinstalltensorflow导入TensorFlow：importtensorflowastfimportnumpyasnp验证安装：print(tf.__version_
【人工智能】Python常用库-Matplotlib常用方法教程 IT古董人工智能机器学习 Python 人工智能 python matplotlib
Matplotlib是一个强大的Python数据可视化库，用于绘制各种图形。以下是Matplotlib常用方法的详细说明及示例，帮助你快速上手。1.安装和导入Matplotlib安装Matplotlib：pipinstallmatplotlib导入Matplotlib：importmatplotlib.pyplotasplt2.基本绘图绘制简单折线图importmatplotlib.pyplota
乐学智伴：基于人工智能与大数据的学生个性化学习辅助平台 IT源码大师人工智能大数据学习
详细描述：1.引言：教育科技的时代背景在信息化和数字化的浪潮下，教育领域正经历着深刻的变革。传统的教学模式以教师为中心，难以满足学生个性化学习的需求。随着人工智能、大数据和云计算等技术的快速发展，教育科技（EdTech）为个性化学习提供了全新的解决方案。通过智能化工具和数据分析，学生可以根据自身的学习特点和进度，制定个性化的学习计划，从而提高学习效率和效果。“乐学智伴”是一款基于人工智能与大数据技
android前台服务 Android西红柿 Android基础 android
关于作者：CSDN内容合伙人、技术专家，从零开始做日活千万级APP。专注于分享各领域原创系列文章，擅长java后端、移动开发、商业变现、人工智能等，希望大家多多支持。未经允许不得转载目录一、导读二、使用2.1添加权限2.2新建一个服务2.3构建通知消息2.4启动与停止服务三、推荐阅读一、导读我们继续总结学习基础知识，温故知新。今天记录下android前台服务（ForegroundService），
Hive存储系统全面测试报告蚂蚁质量软件测试测试用例功能测试
引言在大数据时代，数据存储和处理技术的重要性日益凸显。ApacheHive作为一个基于Hadoop的数据仓库工具，因其能够提供类SQL查询功能（HiveQL）而广受欢迎。Hive的设计初衷是为了简化大数据集的查询和管理，它允许用户通过简单的SQL语句来操作存储在Hadoop分布式文件系统（HDFS）上的大规模数据集。然而，随着数据量的激增和业务需求的多样化，Hive存储系统的功能、性能和安全性面临
企业数字化转型AI能力中台（总体架构、系统功能）建设方案公众号：优享智库数字化转型数据治理主数据数据仓库人工智能架构
**企业数字化转型AI能力中台建设方案**一、建设背景与目标随着大数据、云计算、人工智能等技术的快速发展，企业正面临着数字化转型的重要机遇。为了提升企业的智能化水平，加快业务创新，建设AI能力中台成为企业的迫切需求。本方案旨在为企业打造一套功能完善的AI能力中台，实现数据采集与整合、算法模型管理、智能分析与可视化等核心功能，推动企业在各个业务领域实现智能化升级和创新。二、总体架构设计AI能力中台采
单片机与人工智能：融合创新的未来之路嵌入式大圣单片机人工智能嵌入式硬件
摘要：本文深入探讨了单片机与人工智能的融合，阐述了单片机在人工智能应用中的角色、挑战与机遇。通过对相关技术的分析、实际案例的展示以及未来发展趋势的展望，揭示了这一融合在推动科技创新和产业发展中的巨大潜力。目录一、引言二、单片机与人工智能的基础概念三、单片机与人工智能的融合技术四、单片机与人工智能融合的应用场景五、单片机与人工智能融合面临的挑战六、单片机与人工智能融合的发展趋势七、结论一、引言随着科
构建高效AI中台：解析人工智能中台架构的五大核心层脱泥不tony 人工智能架构大语言模型大模型 AI大模型 LLM AI
在人工智能技术蓬勃发展的今天，企业迫切需要一种高效、灵活的方式来整合、管理和应用AI技术。人工智能中台（AIMiddlePlatform）应运而生，它为企业提供了一个统一的技术平台，能够有效支撑多样化的业务需求，实现数字化转型。在本文中，我们将详细解析人工智能中台的整体架构，逐层深入，帮助大家理解如何从底层硬件到上层应用，实现全方位的AI能力构建。一、基础设施层（IaaS）：奠定坚实基础任何一个高
Baklib揭示内容中台与人工智能技术的创新协同效应清风徐徐de来其他
内容概要在当今信息爆炸的时代，内容的高效生产与分发已成为各行业竞争的关键。内容中台与人工智能技术的结合，为企业提供了一种新颖的解决方案，使得内容创造的流程更加智能化和高效化。内容中台作为信息流动的核心，能够集中管理和分发多元化的内容资源，为各类用户需求提供服务。同时，人工智能技术则在数据分析、用户行为预测、个性化推荐等方面展现出强大的能力。两者相辅相成，推动了在内容生产过程中的创新与发展。以下表格
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round