cbl709

Hadoop运行包含第三方依赖库的MapReduce作业

本文来源于我的个人技术博客:www.chenbiaolong.com，欢迎访问

概述

最近打算学习一下利用hadoop搭建机器学习平台，因为mahout这个机器学习库资料比较多，因此就根据《mahout in action》这本书学习了一下如何搭建hadoop+mahout的机器学习平台。
由于mahout in action只是列出了部分代码，具体的环境搭建书上写的并不多。在编写依赖于mahout的MapReduce函数时经常会出现ClassNotFoundException: org.apache.mahout.math.Vector等类似错误。在网上找了很多的资料，但大都是从配置服务器HADOOP_CLASSPATH等角度出发的。这些方法要求将第三方依赖库拷贝到对应的HADOOP_CLASSPATH路径下,或者更改相应的环境变量使hadoop能识别相应的依赖库。这种做法的问题是需要更改服务器的工作环境，当未来应用程序需要更新依赖库时需要替换服务器的jar包。而且，即使我将mahout的两个主要依赖包mahout-core-0.9.jar和mahout-math-0.9.jar加入到对应的HADOOP_CLASSPATH路径依然无法解决ClassNotFoundException问题。注意到这两个jar包都拥有package org.apache.mahout.math包，里面的class却并不一样。我写的MapReduce函数中用到的org.apache.mahout.math.Vector和org.apache.mahout.math.VectorWritable分别在mahout-math-0.9.jar和mahout-core-0.9.jar定义，因此我怀疑这两个jar包有冲突，实际运行时只加载了一个jar包(不是JAVA程序员，可能理解有误)。为了验证这个猜想，我将两个jar包分别设置到HADOOP_CLASSPATH变量中：

只加载mahout-core-0.9.jar（包含VectorWritable定义）

export HADOOP_CLASSPATH=/usr/hdp/2.2.0.0-2041/mahout/mahout-core-0.9.jar

然后尝试运行自己编写的MapReduce jar包：HelloHadoop.jar

hadoop jar HelloHadoop.jar mapred1 /user/chenbiaolong/data/mywiki.txt /user/chenbiaolong/wiki_output

其中mywiki.txt是测试数据，事先已经上传到HDFS中，具体内容将在下一小节说明。
运行这条指令，果然出现了类未找到的错误：

[hdfs@localhost wiki]$ hadoop jar HelloHadoop.jar mapred1 /user/chenbiaolong/data/mywiki.txt /user/chenbiaolong/wiki_output
15/04/01 15:46:27 INFO impl.TimelineClientImpl: Timeline service address: http://localhost:8188/ws/v1/timeline/
15/04/01 15:46:27 INFO client.RMProxy: Connecting to ResourceManager at localhost/127.0.0.1:8050
15/04/01 15:46:28 INFO input.FileInputFormat: Total input paths to process : 1
15/04/01 15:46:28 INFO mapreduce.JobSubmitter: number of splits:1
15/04/01 15:46:28 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1427799851545_0007
15/04/01 15:46:28 INFO impl.YarnClientImpl: Submitted application application_1427799851545_0007
15/04/01 15:46:28 INFO mapreduce.Job: The url to track the job: http://localhost:8088/proxy/application_1427799851545_0007/
15/04/01 15:46:28 INFO mapreduce.Job: Running job: job_1427799851545_0007
15/04/01 15:46:36 INFO mapreduce.Job: Job job_1427799851545_0007 running in uber mode : false
15/04/01 15:46:36 INFO mapreduce.Job:  map 0% reduce 0%
15/04/01 15:46:42 INFO mapreduce.Job:  map 100% reduce 0%
15/04/01 15:46:47 INFO mapreduce.Job: Task Id : attempt_1427799851545_0007_r_000000_0, Status : FAILED
Error: java.lang.ClassNotFoundException: org.apache.mahout.math.Vector
    at java.net.URLClassLoader$1.run(URLClassLoader.java:366)
    at java.net.URLClassLoader$1.run(URLClassLoader.java:355)
    at java.security.AccessController.doPrivileged(Native Method)
    at java.net.URLClassLoader.findClass(URLClassLoader.java:354)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:425)
    at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:308)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:358)
    at java.lang.Class.forName0(Native Method)
    at java.lang.Class.forName(Class.java:270)
    at org.apache.hadoop.conf.Configuration.getClassByNameOrNull(Configuration.java:2015)
    at org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:1980)
    at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:2074)
    at org.apache.hadoop.mapreduce.task.JobContextImpl.getReducerClass(JobContextImpl.java:210)
    at org.apache.hadoop.mapred.ReduceTask.runNewReducer(ReduceTask.java:611)
    at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:389)
    at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:163)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:415)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1628)
    at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:158)

只加载mahout-math-0.9.jar(包含Vector定义)
过程类似，直接给出操作过程：

[hdfs@localhost wiki]$ export HADOOP_CLASSPATH=/usr/hdp/2.2.0.0-2041/mahout/mahout-math-0.9.jar 
[hdfs@localhost wiki]$ hadoop jar HelloHadoop.jar mapred1 /user/chenbiaolong/data/mywiki.txt /user/chenbiaolong/wiki_output
Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/mahout/math/VectorWritable
    at mapred1.run(mapred1.java:59)
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
    at mapred1.main(mapred1.java:83)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:606)
    at org.apache.hadoop.util.RunJar.run(RunJar.java:221)
    at org.apache.hadoop.util.RunJar.main(RunJar.java:136)
Caused by: java.lang.ClassNotFoundException: org.apache.mahout.math.VectorWritable
    at java.net.URLClassLoader$1.run(URLClassLoader.java:366)
    at java.net.URLClassLoader$1.run(URLClassLoader.java:355)
    at java.security.AccessController.doPrivileged(Native Method)
    at java.net.URLClassLoader.findClass(URLClassLoader.java:354)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:425)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:358)
    ... 9 more

可见，mahout-math-0.9.jar和mahout-core-0.9.jar是冲突的，HADOOP运行只能加载一个jar包。

Mahout+Hadoop MapReduce函数编写

本文所用的例子是根据《mahout in action》第6.2节分析维基百科数据的例子来的。不过这里只是为了熟悉mahout的用法，因此对这个例子进行了大幅度简化，只实现了第一个mapreduce，并且测试数据也是自己写的小文件。
首先，给出自己写的测试文件mywiki.txt内容

100 101 102 103
101 100 105 106
102 100
103 109 101 102
104 100 103
105 106
106 110 107
107 101 100
108 101 100
109 102 103
110 108 105

这里每一行都是一组数据，代表意思为userID itemID itemID。userID和itemID均为网页编号，比如第一行100 101 102 103表示编号为100的网页有链接到101 102 103网页的超链接。具体的实现理论背景请参阅mahout in action相关章节。
这里我们先只实现第一个mapreduce函数，需要得到的reduce结果格式为
userid:100,vector:{101:1.0,102:1.0,103:1.0}。即将原先的itemID变为itemID:item个数的vector形式。
具体的函数编写在windows环境下用IDEA完成，环境的搭建过程参考我的上一篇文章。这里只给出pom.xml文件内容


<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0modelVersion>
    <groupId>com.jd.bigdatagroupId>
    <artifactId>bigdataartifactId>
    <version>1.0-SNAPSHOTversion>
        <repositories>
            <repository>
                <id>apacheid>
                <url>http://maven.apache.orgurl>
            repository>
        repositories>
    <dependencies>
    <dependency>
        <groupId>org.apache.hadoopgroupId>
        <artifactId>hadoop-commonartifactId>
        <version>2.6.0version>
    dependency>
        <dependency>
            <groupId>org.apache.hadoopgroupId>
            <artifactId>hadoop-coreartifactId>
            <version>1.2.1version>
        dependency>
        <dependency>
            <groupId>org.apache.hadoopgroupId>
            <artifactId>hadoop-examplesartifactId>
            <version>1.2.1version>
        dependency>
        <dependency>
            <groupId>org.apache.mahoutgroupId>
            <artifactId>mahout-examplesartifactId>
            <version>0.9version>
        dependency>
        <dependency>
            <groupId>org.apache.mahoutgroupId>
            <artifactId>mahout-integrationartifactId>
            <version>0.9version>
            <exclusions>
                <exclusion>
                    <groupId>org.mortbay.jettygroupId>
                    <artifactId>jettyartifactId>
                exclusion>
                <exclusion>
                    <groupId>org.apache.cassandragroupId>
                    <artifactId>cassandra-allartifactId>
                exclusion>
                <exclusion>
                    <groupId>me.prettyprintgroupId>
                    <artifactId>hector-coreartifactId>
                exclusion>
            exclusions>
        dependency>
    dependencies>

    project>

具体的mapreduce函数如下

package org.apache.mahout.wiki;
import java.io.IOException;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.conf.*;
import org.apache.hadoop.io.*;
import org.apache.hadoop.mapreduce.*;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import org.apache.hadoop.util.ToolRunner;
import org.apache.mahout.math.RandomAccessSparseVector;
import org.apache.mahout.math.VectorWritable;
import org.apache.mahout.math.Vector;

public class mapred1 extends Configured implements org.apache.hadoop.util.Tool {
    public static class WikipediaToItemPrefsMapper
            extends Mapper<LongWritable,Text,LongWritable,LongWritable> {
        private static final Pattern NUMBERS = Pattern.compile("(\\d+)");
        public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
            String line = value.toString();
            Matcher m = NUMBERS.matcher(line);
            m.find();
            LongWritable userID = new LongWritable(Long.parseLong(m.group()));
            LongWritable itemID = new LongWritable();
            while (m.find()) {
                itemID.set(Long.parseLong(m.group()));
                context.write(userID, itemID);
            }
        }
    }

    public int run(String[] args)  throws Exception {
        if (args.length < 2) {
            return 2;
        }
        Job job = new Job(getConf());
        job.setJarByClass(mapred1.class); //
        job.setMapOutputKeyClass(LongWritable.class);
        job.setMapOutputValueClass(LongWritable.class);
        job.setMapperClass(WikipediaToItemPrefsMapper.class);
        job.setReducerClass( WikipediaToUserVectorReducer.class);
        job.setInputFormatClass(TextInputFormat.class);
        job.setOutputFormatClass(TextOutputFormat.class);
        job.setOutputKeyClass(LongWritable.class);
        job.setOutputValueClass(VectorWritable.class);
        FileInputFormat.addInputPath(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        job.waitForCompletion(true);
        return 0;
    }
    public static class WikipediaToUserVectorReducer extends
            Reducer<LongWritable,LongWritable,LongWritable,VectorWritable> {
        public void reduce(LongWritable userID,
                           Iterable itemPrefs,
                           Context context)
                throws IOException, InterruptedException {

            Vector userVector = new RandomAccessSparseVector(Integer.MAX_VALUE, 100);
            for (LongWritable itemPref : itemPrefs) {
                userVector.set((int)itemPref.get(), 1.0f);
            }
            context.write(userID, new VectorWritable(userVector));
        }
    }

    public static void main(String[] args) throws Exception {
        int  res = ToolRunner.run(new Configuration(), new mapred1(), args);
        System.exit(res);
    }

    }

这个mapreduce函数相对比较简单，map函数给出的结果是一个userID和一个itemID的数据集，reduce函数根据userID设置对应itemID的vector。这里一个itemID的vector对应值只有0和1两种，因为网页链接只有有和没有两种情况。

将mapreduce函数和mahout依赖打成jar包

这里需要解决概述小节中提到的包依赖和包冲突问题。主要参考文章How-to: Include Third-Party Libraries in Your MapReduce Job.这篇文章中提到了用3种方案解决第三方依赖包的依赖问题，我这里用的是第二种方案。
打开IDEA的File-->Project Structure对话框，在Project Setting的Artifacts配置要生成的jar包属性。在左边栏中新建一个lib目录，将依赖的jar包文件添加到该目录里面：我们这个工程主要有mahout-core和mahout-math两个jar包依赖。具体如下图：
:
确认后将生成的jar包上传到Hadoop服务器集群的namenode节点。这时再继续用hadoop jar命令运行

[hdfs@localhost wiki]$ hadoop jar HelloHadoop.jar org.apache.mahout.wiki.mapred1 /user/chenbiaolong/data/mywiki.txt /user/chenbiaolong/wiki_output
15/04/01 17:07:38 INFO impl.TimelineClientImpl: Timeline service address: http://localhost:8188/ws/v1/timeline/
15/04/01 17:07:38 INFO client.RMProxy: Connecting to ResourceManager at localhost/127.0.0.1:8050
15/04/01 17:07:39 INFO input.FileInputFormat: Total input paths to process : 1
15/04/01 17:07:39 INFO mapreduce.JobSubmitter: number of splits:1
15/04/01 17:07:39 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1427799851545_0008
15/04/01 17:07:40 INFO impl.YarnClientImpl: Submitted application application_1427799851545_0008
15/04/01 17:07:40 INFO mapreduce.Job: The url to track the job: http://localhost:8088/proxy/application_1427799851545_0008/
15/04/01 17:07:40 INFO mapreduce.Job: Running job: job_1427799851545_0008
15/04/01 17:07:47 INFO mapreduce.Job: Job job_1427799851545_0008 running in uber mode : false
15/04/01 17:07:47 INFO mapreduce.Job:  map 0% reduce 0%
15/04/01 17:07:53 INFO mapreduce.Job:  map 100% reduce 0%
15/04/01 17:08:00 INFO mapreduce.Job:  map 100% reduce 100%
15/04/01 17:08:00 INFO mapreduce.Job: Job job_1427799851545_0008 completed successfully
15/04/01 17:08:00 INFO mapreduce.Job: Counters: 49
    File System Counters
        FILE: Number of bytes read=420
        FILE: Number of bytes written=227085
        FILE: Number of read operations=0
        FILE: Number of large read operations=0
        FILE: Number of write operations=0
        HDFS: Number of bytes read=256
        HDFS: Number of bytes written=250
        HDFS: Number of read operations=6
        HDFS: Number of large read operations=0
        HDFS: Number of write operations=2
    Job Counters 
        Launched map tasks=1
        Launched reduce tasks=1
        Data-local map tasks=1
        Total time spent by all maps in occupied slots (ms)=4194
        Total time spent by all reduces in occupied slots (ms)=4046
        Total time spent by all map tasks (ms)=4194
        Total time spent by all reduce tasks (ms)=4046
        Total vcore-seconds taken by all map tasks=4194
        Total vcore-seconds taken by all reduce tasks=4046
        Total megabyte-seconds taken by all map tasks=12883968
        Total megabyte-seconds taken by all reduce tasks=12429312
    Map-Reduce Framework
        Map input records=11
        Map output records=23
        Map output bytes=368
        Map output materialized bytes=420
        Input split bytes=120
        Combine input records=0
        Combine output records=0
        Reduce input groups=11
        Reduce shuffle bytes=420
        Reduce input records=23
        Reduce output records=11
        Spilled Records=46
        Shuffled Maps =1
        Failed Shuffles=0
        Merged Map outputs=1
        GC time elapsed (ms)=108
        CPU time spent (ms)=2280
        Physical memory (bytes) snapshot=1490120704
        Virtual memory (bytes) snapshot=6737338368
        Total committed heap usage (bytes)=2288517120
    Shuffle Errors
        BAD_ID=0
        CONNECTION=0
        IO_ERROR=0
        WRONG_LENGTH=0
        WRONG_MAP=0
        WRONG_REDUCE=0
    File Input Format Counters 
        Bytes Read=136
    File Output Format Counters 
        Bytes Written=250
[hdfs@localhost wiki]$

可以看出程序已经可以正常运行了，解决了相应的依赖问题。查看reduce的输出结果：

[hdfs@localhost wiki]$ hdfs dfs -cat /user/chenbiaolong/wiki_output/part-r-00000
100 {101:1.0,103:1.0,102:1.0}
101 {106:1.0,100:1.0,105:1.0}
102 {100:1.0}
103 {101:1.0,109:1.0,102:1.0}
104 {103:1.0,100:1.0}
105 {106:1.0}
106 {107:1.0,110:1.0}
107 {101:1.0,100:1.0}
108 {101:1.0,100:1.0}
109 {103:1.0,102:1.0}
110 {108:1.0,105:1.0}
[hdfs@localhost wiki]$

可以看出mapreduce函数得到了我们需要的结果。

依赖解决原理分析

为什么通过上小节这种方式可以解决依赖问题呢？How-to: Include Third-Party Libraries in Your MapReduce Job这篇文章说明了原因：

Include the referenced JAR in the lib subdirectory of the submittable JAR: A MapReduce job will unpack the JAR from this subdirectory into mapred.local.dir/taskTracker/ {user.name}/jobcache/$jobid/jars on the TaskTracker nodes and point your tasks to this directory to make the JAR available to your code. If the JARs are small, change often, and are job-specific this is the preferred method.

在利用hadoop jar命令运行作业时，hadoop会自动解压作业jar包里lib文件夹的jar文件。因此当我们在lib文件夹加入所依赖的第三方jar包（mahout-core和mahout-math）时，hadoop将会自动将这两个jar包解压，并不会判断这两个jar包是否冲突。因为mahout-core和mahout-math虽然共同拥有org.apache.mahout.math这个包路径，但里面的class并没有重复冲突。因此当这两个jar包解压时得到的org.apache.mahout.math是mahout-core和mahout-math的合集，也就不会出现前面提到的类未找到错误了。

参考文献

(1) How-to: Include Third-Party Libraries in Your MapReduce Job
(2) Hadoop 实现协同过滤算法（1）

Kafka：架构与核心机制 J老熊 kafka 架构分布式面试系统架构后端
ApacheKafka是一种高吞吐量的分布式消息队列，广泛应用于实时数据流处理和大数据架构中。本文将详细探讨Kafka的架构、Replica管理、消息读取、分区策略、可靠性保障等核心机制。1.Kafka的架构1.1组件概述Kafka的架构由多个组件构成，主要包括以下部分：Broker：Kafka集群中的服务器，每个Broker存储一部分消息。Kafka集群通常由多个Broker组成，以提高可用性和
车联网安全黄一113530 网络安全网络安全渗透测试
1、智能汽车安全如何分类？智能汽车终极发展阶段是无人驾驶，车联网则是无人驾驶实现的基础，然而车联网技术应用过程中却会带来信息安全问题，具体可分为以下三种：一、用户隐私汽车智能化是建立在车辆动态数据收集及应用上的，如车辆行驶、车体、动力、安全及环境数据等层面，尤其是车辆行驶数据一直都被视为变现的大数据金矿，无论是车联网前装的车商，还是车联网后装的互联网科技公司，都在用户不知情的情况下收集车主驾驶历史
【趋势】《2024—2026金融科技十大趋势预测》一览学客汇商业研究商业观察人工智能大数据金融科技科技洞察 IT趋势金融行业预测
本白皮书基于新华三在金融行业的前沿实践和IDC的全球研究成果，深入分析了金融科技领域的十大关键趋势，旨在为金融机构提供前瞻性的战略指导和业务创新的参考。导言当前，在地缘政治冲突加剧、商业经济市场环境高度不确定、数字化业务加速发展的背景下，金融行业处于深度变革的潮流中，金融机构亟需重新思考其在技术支出、业务决策及业务创新发展等方面的投资重点。此外，金融机构也越来越需要借助大数据和AI技术来提升业务的
【爬虫】使用 Scrapy 框架爬取豆瓣电影 Top 250 数据的完整教程 m0_74825360 面试学习路线阿里巴巴爬虫 scrapy
前言在大数据和网络爬虫领域，Scrapy是一个功能强大且广泛使用的开源爬虫框架。它能够帮助我们快速地构建爬虫项目，并高效地从各种网站中提取数据。在本篇文章中，我将带大家从零开始使用Scrapy框架，构建一个简单的爬虫项目，爬取豆瓣电影Top250的电影信息。Scrapy官方文档：ScrapyDocumentation豆瓣电影Top250：豆瓣电影Top250本文的爬虫项目配置如下：系统：Windo
CDH大数据平台梦龙zmc 大数据大数据
CDH概念CDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的核心元素-可伸缩存储和分布式计算-以及基于web的用户界面和重要的企业功能。CDH是Apache许可的开放源码，是唯一
Spring Boot集成RocketMQ实现分布式事务 missterzy 分布式与微服务消息队列（MQ）java-rocketmq spring boot rocketmq
RocketMQ是由阿里巴巴集团开发的一款高性能、高可靠、分布式的开源消息中间件，它在2012年对外开源，并于2016年捐赠给Apache软件基金会，随后在2017年成为了Apache的顶级项目。RocketMQ的设计旨在满足互联网业务场景中的海量消息传递需求，尤其擅长处理高并发、大数据量以及实时计算场景。主要特点和功能包括：1.分布式架构：RocketMQ采用了分布式部署架构，允许生产者、消费者
Java 大视界 -- Java 大数据中的自然语言生成技术与实践（63）青云交大数据新视界 Java 大视界大数据自然语言生成基于规则模型基于统计模型基于深度学习模型新闻写作智能客服
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
动态规划详解-最小路径和问题【python】数据分析螺丝钉 LeetCode刷题与模拟面试动态规划算法 leetcode python 数据结构
作者介绍：10年大厂数据\经营分析经验，现任大厂数据部门负责人。会一些的技术：数据分析、算法、SQL、大数据相关、python欢迎加入社区：码上找工作作者专栏每日更新：LeetCode解锁1000题:打怪升级之旅python数据分析可视化：企业实战案例备注说明：方便大家阅读，统一使用python，带必要注释，公众号数据分析螺丝钉一起打怪升级1.问题介绍和应用场景最小路径和问题是一个常见的动态规划问
Java 大视界 -- Java 大数据中的知识图谱构建与应用（62）青云交大数据新视界 Java 大视界大数据知识图谱信息抽取知识融合智能搜索智能推荐风险评估
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
[Python从零到壹] 七十七.图像识别及经典案例篇之目标检测入门普及和ImageAI对象检测详解 Eastmount Python从零到壹 python 目标检测 ImageAI 图像是被基础系列
欢迎大家来到“Python从零到壹”，在这里我将分享约200篇Python系列文章，带大家一起去学习和玩耍，看看Python这个有趣的世界。所有文章都将结合案例、代码和作者的经验讲解，真心想把自己近十年的编程经验分享给大家，希望对您有所帮助，文章中不足之处也请海涵。Python系列整体框架包括基础语法10篇、网络爬虫30篇、可视化分析10篇、机器学习20篇、大数据分析20篇、图像识别30篇、人工智
用 Java 的思路快速学习 Scala 进朱者赤其他大数据 scala Scala
引言Scala是一种结合了面向对象和函数式编程的现代编程语言，广泛应用于大数据处理框架如ApacheSpark和ApacheFlink。对于熟悉Java的开发者来说，Scala的学习曲线相对平缓。本文将通过类比Java中的概念，帮助Java开发者快速上手Scala。1.基本语法1.1.数据类型以下是Scala和Java数据类型的汇总表格：Scala数据类型Java数据类型说明Intint32位整数
python鸢尾花数据集knn_【python+机器学习1】python 实现 KNN weixin_39629269 python鸢尾花数据集knn
欢迎关注哈希大数据微信公众号【哈希大数据】1KNN算法基本介绍K-NearestNeighbor(k最邻近分类算法)，简称KNN，是最简单的一种有监督的机器学习算法。也是一种懒惰学习算法，即开始训练仅仅是保存所有样本集的信息，直到测试样本到达才开始进行分类决策。KNN算法的核心思想：要想确定测试样本属于哪一类，就先寻找所有训练样本中与该测试样本“距离”最近的前K个样本，然后判断这K个样本中大部分所
函数计算 FC 诚邀您参加【Cloud Up 挑战赛】赢取丰厚奖品！ github
亲爱的开发者们，函数计算FC团队向你们发出诚挚邀请，加入我们即将举办的【CloudUp挑战赛】，这不仅是一场技术盛宴，更是一次展示才华与创新的机会。从互联网应用开发到AI、大数据，再到现代化应用开发，本次赛事覆盖了所有你渴望掌握的技能点，旨在为你提供一个实践平台，将理论知识转化为解决实际业务问题的能力。挑战赛为期三周，活动时间为2024年11月25日至12月13日，立即参与：https://dev
未来商贸物流：人工智能与大数据的深度融合呆码科技临沂软件开发软件开发商贸物流科技人工智能
未来商贸物流：人工智能与大数据的深度融合在当今数字化浪潮汹涌澎湃的时代，商贸物流行业正站在变革的十字路口，而人工智能与大数据宛如一对闪耀的双子星，为其照亮前行的道路，深度融合之下，一个全新的未来画卷正徐徐展开。智能预测需求：精准把握市场脉搏传统的商贸物流往往依赖过往经验和粗略的市场调研来预估货物需求，这就如同在迷雾中摸索，充满不确定性。而如今，借助大数据的海量存储与超强分析能力，以及人工智能的深度
【大数据之路11】多范式编程语言 Scala 程序员老五大数据 scala 开发语言
多范式编程语言Scala1.Scala概述1.Scala介绍2.学习Scala的必要性1.基于编程语⾔⾃身2.基于活跃度2.Scala基础语法1.HelloScala2.变量定义1.变量与常量2.Scala自动类型识别3.lazy懒加载3.数据类型1.相关概述1.Scala数据类型列表2.测试代码3.Scala数据类型结构图2.Scala基本类型操作3.编码规范4.流程控制1.if2.块表达式3.
2024年大数据最全数据仓库｜数据库面试题总结_面试题数据仓库 2301_82243558 程序员大数据数据仓库数据库
这里值得注意的是不要想着为每个字段建立索引，因为优先使用索引的优势就在于其体积小。索引有哪几种类型？主键索引:数据列不允许重复，不允许为NULL，一个表只能有一个主键。唯一索引:数据列不允许重复，允许为NULL值，一个表允许多个列创建唯一索引。可以通过ALTERTABLEtable_nameADDUNIQUE(column);创建唯一索引可以通过ALTERTABLEtable_nameADDUNI
AI Agent：一场智能革命的开始机器人openai区块链
在当今科技日新月异的时代，AI（人工智能）技术正以前所未有的速度改变着我们的生活和工作方式。其中，AIAgent作为AI领域的一个新兴分支，正逐渐展现出其巨大的潜力和价值。本文将深入探讨AIAgent的发展现状、核心优势以及未来的发展方向，带您领略这一前沿技术的无限魅力。一、AIAgent的发展现状：技术突破与广泛应用近年来，随着大数据、云计算和机器学习等技术的飞速发展，AIAgent的技术水平得
C# 与.NET 日志变革：JSON 让程序“开口说清话” 步、步、为营 c#.net json
一、引言：日志新时代的开启在软件开发的漫长旅程中，日志一直是我们不可或缺的伙伴。它就像是应用程序的“黑匣子”，默默地记录着程序运行过程中的点点滴滴，为我们在调试、排查问题以及性能优化时提供关键线索。在早期，文本日志是我们最常用的记录方式，它简单直接，就像我们随手写下的日记，记录着事件发生的时间、内容等基本信息。然而，随着软件系统规模的不断扩大，架构日益复杂，尤其是在微服务、大数据分析以及云原生应用
python方差分析误差棒_一文讲透，带你学会用Python绘制带误差棒的柱状图和条形图... 加勒比考斯 python方差分析误差棒
Python数据可视化，作为数据常用的必备技能，是目前大数据和数据分析的一个热门，而matplotlib库作为Python中最为常用和经典的二维绘图库，受到了很多人的青睐，最近已经和大家共同探讨了多种类型的图表的绘制，其中关于误差棒图，咱们已经在上次一起讨论过了，今天咱们继续深入研究误差棒图相关的知识。那今天咱们聊点什么呢？咱们一起探讨一下如何在Python中绘制带误差棒的柱状图和条形图吧！首先，
【大数据入门核心技术-Hive】（十六）hive表加载csv格式数据或者json格式数据 forest_long 大数据技术入门到21天通关大数据 hive hadoop 开发语言后端数据仓库
一、环境准备hive安装部署参考：【大数据入门核心技术-Hive】（三）Hive3.1.2非高可用集群搭建【大数据入门核心技术-Hive】（四）Hive3.1.2高可用集群搭建二、hive加载Json格式数据1、数据准备vistu.json[{"id":111,"name":"name111"},{"id":222,"name":"name22"}]上传到hdfshadoopfs-putstu.j
镜舟科技荣登《2024 中国大数据产业年度「国产化」优秀代表厂商》榜单！数据库软件数据分析
在近日于上海成功举办的“释放×数效应·共创智+未来”2024第七届金猿&魔方论坛上，镜舟科技凭借其在数据分析领域的卓越贡献和国产化技术实力，入选《2024中国大数据产业年度「国产化」优秀代表厂商》榜单，展现了其在国产化、信创道路上的成果。镜舟科技自2022年成立以来，始终致力于帮助中国企业建立卓越的数据分析系统，形成自身的“数据护城河”。基于开源项目StarRocks进行深度研发，镜舟科技推出2款
云起无垠入选中国信息通信研究院2024年度首期“磐安”优秀案例人工智能
近日，中国信通院举办的深度观察报告会系列论坛在北京顺利召开。在数字生态治理分论坛上，2024年度首期“磐安”优秀案例——AI+数字安全应用优秀案例遴选结果正式公布，云起无垠凭借其在生成式AI网络安全攻防对抗垂直领域扎实的研究及应用成果，成功入选该年度首期“磐安”优秀案例。当下，数字化浪潮席卷全球，信息技术广泛渗透各个产业。云计算、大数据、人工智能、物联网等前沿技术深度融合，传统制造业生产线、现代服
东华发思特&巨杉数据库：打造智慧城市分布式大数据联合解决方案巨杉数据库SequoiaDB SequoiaDB巨杉数据库巨杉数据库 sequoiadb 东华发思特联合解决方案
合作伙伴公司简介东华发思特为东华软件旗下控股子公司，是一家通过高新技术企业认定的技术企业，拥有CMMI3、ISO27001、ISO9000、ISO20000等高级行业资质认证。公司组建了一批视野开拓、经验丰富的管理和研发团队，如今已打造了一系列新型智慧城市产品体系，以HarryData大数据中台和BobbyLink物联网中台为核心，以数字政府、数字文旅、数字乡村、城市精细化管理平台等为产业互联网助
数据治理组织架构产品经理自我修养大数据
企业数据治理体系除了在技术方面的实施架构，还需要管理方面的组织架构支撑。一般在数据治理建设初期，集团会先成立数据治理管理委员会。从上至下由决策层、管理层、执行层构成。决策层决策、管理层制定方案、执行层实施。层级管理、统一协调。4.2.1组织架构1）决策层提供数据标准管理的决策职能，通俗理解即拍板定方案。2）管理层审议数据标准管理相关制度对跨部门难的数据标准管理争议事项进行讨论并决策管理重大数据标准
基于数据可视化+SpringBoot+Vue的医院综合管理平台设计和实现(源码+论文+部署讲解等) java李杨勇 Java精品毕设实战案例 Java毕业设计实战案例信息可视化 spring boot vue.js 医院综合管理平台 Java毕业设计
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
【数据治理】数据治理框架概述野老杂谈数据治理数据治理框架 DAMA-DMBOK COBIT 企业数据治理数据管理
欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️大数据平台建设指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台的核心技术和方法。⭐️《遇见Python：初识、了解与热恋》：涵盖了Pytho
大数据治理：概念、框架与实践一ge科研小菜鸡大数据 Python 大数据
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注引言随着数据量的爆炸性增长，大数据治理（BigDataGovernance）成为数据管理领域的重要议题。大数据治理旨在对海量数据进行有效管理，确保数据的质量、可用性、安全性和合规性，同时为企业决策提供有力支持。本文系统介绍大数据治理的概念、核心框架、实施步骤及典型应用案例，结合实际场景提供技术支持和代码示例。一、大数据治理的定义与重要性1.什么是
【Springer斯普林格出版，Ei稳定，往届快速见刊检索】第四届电子信息工程、大数据与计算机技术国际学术会议（ EIBDCT 2025）艾思科蓝 AiScholar 学术会议计算机科学电子信息科学与技术大数据信息可视化可信计算技术深度学习人工智能自然语言处理信息与通信
第四届电子信息工程、大数据与计算机技术国际学术会议（EIBDCT2025）20254thInternationalConferenceonElectronicInformationEngineering,BigDataandComputerTechnology中国-青岛|2025年2月21-23日|www.eibdct.net组织单位长春电子科技大学、加拿大魁北克大学、美国新泽西理工学院、美国欧道
软考信安26~大数据安全需求分析与安全保护工程 jnprlxc 软考~信息安全工程师需求分析安全运维笔记
1、大数据安全威胁与需求分析1.1、大数据相关概念发展大数据是指非传统的数据处理工具的数据集，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低等特征。大数据的种类和来源非常多，包括结构化、半结构化和非结构化数据。1.2、大数据安全威胁分析（1）“数据集“安全边界日渐模糊，安全保护难度提升（2）敏感数据泄露安全风险增大（3）数据失真与大数据污染安全风险（4）大数据处理平台业务连续性与拒
大数据学习（七）Python3操作livy（使用pylivy模块）猪笨是念来过倒大数据大数据 python
Livy是一个用于与Spark交互的开源REST接口。pylivy是Livy的Python客户端，可以在Spark集群上轻松实现远程代码执行。安装$pipinstall-Ulivy请注意，pylivy需要Python3.6或更高版本。用法所述LivySession类的主界面提供由pylivy：from
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri