甄情

Flink实战之StreamingFileSink如何写数据到其它HA的Hadoop集群

前言

我们公司使用的集群都是 EMR 集群，于是就分别创建了一个 flink 集群专门用户实时计算，一个 hadoop 集群专门用于 spark、hive 的离线计算。两个集群是完全隔离的。但是有一些实时数据的采集需求，需要把数据写入到我们做离线计算的集群，有人说我只需要在 StreamingFileSink 需要传入的hdfs 路径前加上离线集群的 ip 就好了，比如：hdfs://otherIp:/usr/hive/warehouse/ 这样固然能写入数据，但是我们的hadoop 集群都是 HA 的。namenode 切换的时候会导致写不进去数据，所以此方法不可行。本文主要提供 flink 写入其它 HA 集群的方法和思路

原因查找

如果我们直接通过指定 StreamingFileSink 的写入路径为其它 HA 的 Hadoop 集群时，比如：hdfs://HDFS42143/usr/hive/warehouse/hour_hive ，会出现这样的异常

大家都知道我们在创建 HA 集群时，需要指定一个 nameservice，这个 nameservice 可以是你喜欢的符号，然后还需要一些额外的 HA 配置。比如

dfs.client.failover.proxy.provider.HDFS42142=org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider
dfs.nameservices=HDFS42142
dfs.namenode.rpc-address.HDFS42142.nn1=172.xx.xx.01:port
dfs.namenode.rpc-address.HDFS42142.nn2=172.xx.xx.02:port
dfs.ha.namenodes.HDFS42142=nn1,nn2

可是在 StreamingFileSink源码里面没有找到含有的 hadoop 配置的构造方法。怎么搞呢？我们可以先理解以下StreamingFileSink的写入原理

StreamingFileSink 源码剖析

一般我们创建 StreamingFileSink 都会使用以下方式

package com.tuya.sink;

import com.tuya.AppArgs;
import com.tuya.sink.filesystem.HdfsBucketAssigner;
import com.tuya.sink.filesystem.MyRollingPolicy;
import org.apache.flink.api.common.serialization.SimpleStringEncoder;
import org.apache.flink.core.fs.Path;
import org.apache.flink.formats.parquet.avro.ParquetAvroWriters;
import org.apache.flink.streaming.api.functions.sink.filesystem.StreamingFileSink;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

/**
 * desc:
 *
 * @author scx
 * @create 2019/10/24
 */
public class FileSinkFactory {

    private static final Logger LOG = LoggerFactory.getLogger(FileSinkFactory.class);


    /**
     * 多久检测一次process状态文件
     */
    private static final long CHECK_INTERVAL = 30 * 1000L;

    /**
     * 默认多久未写入的文件为超时(超时后会生成一个新的文件)
     */
    private static final long DEFAULT_INACTIVITY_INTERVAL = 30 * 60L * 1000L;

    /**
     * 默认多久滚动生成一个hdfs文件
     */
    private static final long DEFAULT_ROLLOVER_INTERVAL = 40 * 60L * 1000L;

    /**
     * hdfs文件最大限制 128M
     */
    private static final long DEFAULT_MAX_PART_SIZE = 1024L * 1024L * 128L;


    public static <T> StreamingFileSink<T> bulkSink(AppArgs appArgs, Class<T> clazz) {
        return StreamingFileSink.forBulkFormat(new Path(appArgs.getHdfsPath()),
                ParquetAvroWriters.forReflectRecord(clazz))
                .withBucketAssigner(new HdfsBucketAssigner<>())
                .withBucketCheckInterval(CHECK_INTERVAL)
                .build();
    }

    public static <T> StreamingFileSink<T> rowSink(AppArgs appArgs, Class<T> clazz) {
        return StreamingFileSink.forRowFormat(new Path(appArgs.getHdfsPath()),
                new SimpleStringEncoder<T>())
                .withBucketAssigner(new HdfsBucketAssigner<>())
                .withRollingPolicy(new MyRollingPolicy<>(appArgs, DEFAULT_MAX_PART_SIZE, DEFAULT_ROLLOVER_INTERVAL, DEFAULT_INACTIVITY_INTERVAL))
                .withBucketCheckInterval(CHECK_INTERVAL)
                .build();
    }
}

为了处理无界的流数据，StreamingFileSink 会将数据写入到桶中。如何分桶是可以配置的，比如我配置的就是自定义的HdfsBucketAssigner，是根据数据的事件时间写入到不同的桶中。

默认策略是基于时间的分桶，这种策略每个小时创建并写入一个新的桶，从而得到流数据在特定时间间隔内接收记录所对应的文件。
桶目录中包含多个实际输出数据的部分文件（part file），对于每一个接收桶数据的 Sink Subtask ，至少存在一个部分文件（part file）。额外的部分文件（part file）将根据滚动策略创建，滚动策略是可以配置的，比如我配置的就是MyRollingPolicy 。默认的策略是根据文件大小和超时时间来滚动文件。超时时间指打开文件的最长持续时间，以及文件关闭前的最长非活动时间。

StreamingFileSink.forBulkFormat 和 StreamingFileSink.forRowFormat 分别表示行编码格式和块编码格式的写入。由于我使用的是行编码格式并且两者内部获取 hdfs 的 filesyStem 逻辑基本一致，就从 StreamingFileSink.forRowFormat 为入口分析。

在 StreamingFileSink 源码中重写了 initializeState 方法，该方法会在程序启动的时候调用一次

	@Override
	public void initializeState(FunctionInitializationContext context) throws Exception {
		final int subtaskIndex = getRuntimeContext().getIndexOfThisSubtask();
		this.buckets = bucketsBuilder.createBuckets(subtaskIndex);

		final OperatorStateStore stateStore = context.getOperatorStateStore();
		bucketStates = stateStore.getListState(BUCKET_STATE_DESC);
		maxPartCountersState = stateStore.getUnionListState(MAX_PART_COUNTER_STATE_DESC);

		if (context.isRestored()) {
			buckets.initializeState(bucketStates, maxPartCountersState);
		}
	}

主要查看这一行 this.buckets = bucketsBuilder.createBuckets(subtaskIndex) 使用bucketsBuilder根据task下表创建所有 bucket 的管理者 buckets

BucketsBuilder 有两个实现类，分别是BulkFormatBuilder、RowFormatBuilder.
查看RowFormatBuilder实现类

	@PublicEvolving
	public static class RowFormatBuilder<IN, BucketID> extends StreamingFileSink.BucketsBuilder<IN, BucketID> {
		//省略部分代码

		@Override
		Buckets<IN, BucketID> createBuckets(int subtaskIndex) throws IOException {
			return new Buckets<>(
					basePath,
					bucketAssigner,
					bucketFactory,
					new RowWisePartWriter.Factory<>(encoder),
					rollingPolicy,
					subtaskIndex);
		}
	}

createBuckets 方法会返回一个 Buckets 对象，继续进入 Buckets 构造方法内

	Buckets(
			final Path basePath,
			final BucketAssigner<IN, BucketID> bucketAssigner,
			final BucketFactory<IN, BucketID> bucketFactory,
			final PartFileWriter.PartFileFactory<IN, BucketID> partFileWriterFactory,
			final RollingPolicy<IN, BucketID> rollingPolicy,
			final int subtaskIndex) throws IOException {

		this.basePath = Preconditions.checkNotNull(basePath);
		//省略部分代码
		try {
			this.fsWriter = FileSystem.get(basePath.toUri()).createRecoverableWriter();
		} catch (IOException e) {
			LOG.error("Unable to create filesystem for path: {}", basePath);
			throw e;
		}
		//省略部分代码
	}

在这里我们终于看到熟悉的 FileSystem 了，FileSystem.get(basePath.toUri()) 通过我们传入的 basePath 路径来获得一个 FileSystem，点进去

/**
	 * Returns a reference to the {@link FileSystem} instance for accessing the
	 * file system identified by the given {@link URI}.
	 *
	 * @param uri
	 *        the {@link URI} identifying the file system
	 * @return a reference to the {@link FileSystem} instance for accessing the file system identified by the given
	 *         {@link URI}.
	 * @throws IOException
	 *         thrown if a reference to the file system instance could not be obtained
	 */
	public static FileSystem get(URI uri) throws IOException {
		return FileSystemSafetyNet.wrapWithSafetyNetWhenActivated(getUnguardedFileSystem(uri));
	}

FileSystemSafetyNet.wrapWithSafetyNetWhenActivated 方法封装了FileSystem 来防止未关闭流而导致的资源泄漏问题，不是我们观察的重点，进入getUnguardedFileSystem 方法。

	public static FileSystem getUnguardedFileSystem(final URI fsUri) throws IOException {
		checkNotNull(fsUri, "file system URI");

		LOCK.lock();
		try {
			final URI uri;
			//判断我们的写入的路径有没有传入scheme,即：hdfs://,file://等前缀
			if (fsUri.getScheme() != null) {
				//如果传入了scheme直接赋值给uri
				uri = fsUri;
			}
			//省略部分代码

			final FSKey key = new FSKey(uri.getScheme(), uri.getAuthority());

			// 先检查缓存
			{
				FileSystem cached = CACHE.get(key);
				if (cached != null) {
					return cached;
				}
			}

			//如果FS_FACTORIES为空进行一下初始化加载
			if (FS_FACTORIES.isEmpty()) {
				initialize(new Configuration());
			}

			final FileSystem fs;
			final FileSystemFactory factory = FS_FACTORIES.get(uri.getScheme());

			//如果fileSystem工厂存在，创建fileSystem
			if (factory != null) {
				fs = factory.create(uri);
			}
			else {
				try {
					//不存在使用失败重试的factory进行创建fileSystem
					fs = FALLBACK_FACTORY.create(uri);
				}
				catch (UnsupportedFileSystemSchemeException e) {
					throw new UnsupportedFileSystemSchemeException(
							"Could not find a file system implementation for scheme '" + uri.getScheme() +
									"'. The scheme is not directly supported by Flink and no Hadoop file " +
									"system to support this scheme could be loaded.", e);
				}
			}

			CACHE.put(key, fs);
			return fs;
		}
		finally {
			LOCK.unlock();
		}
	}

上面代码简单进行了注释，首先判断fsUri 的 schema 是否存在，如果不存在或进行一些默认操作。我们配置的是hdfs://HDFS42143/usr/hive/warehouse/hour_hive ，scheme 为 hdfs，然后先检查缓存是否已经存在，存在的话直接返回。不存在的话判断 FS_FACTORIES 中是否存在，如果继续不存在就使用默认的FALLBACK_FACTORY 工厂创建 filesystem 。这里主要看 initialize 方法

	public static void initialize(Configuration config) throws IOException, IllegalConfigurationException {
		LOCK.lock();
		try {
			//省略部分代码
			for (FileSystemFactory factory : RAW_FACTORIES) {
				factory.configure(config);
				String scheme = factory.getScheme();

				FileSystemFactory fsf = ConnectionLimitingFactory.decorateIfLimited(factory, scheme, config);
				FS_FACTORIES.put(scheme, fsf);
			}
			// configure the default (fallback) factory
			FALLBACK_FACTORY.configure(config);
			//省略部分代码
		}
		finally {
			LOCK.unlock();
		}
	}

在 initialize 方法里我们可以看到遍历 RAW_FACTORIES 集合，首先调用configure 方法加载配置，然后把该集合内的 FileSystemFactory 实例以其所支持的 schema 为 key，本身对象为 value 放到FS_FACTORIES 的 map 中，下面还对 FALLBACK_FACTORY 进行了 configure 配置加载。需要注意的是initialize方法会在很多地方被调用，比如jobManager、taskManager启动的时候。
看到这里有两个疑问，RAW_FACTORIES 和 FALLBACK_FACTORY 分别是在哪里创建的
首先看 RAW_FACTORIES

	/** All available file system factories. */
		private static final List<FileSystemFactory> RAW_FACTORIES = loadFileSystems();
		private static List<FileSystemFactory> loadFileSystems() {
		final ArrayList<FileSystemFactory> list = new ArrayList<>();
		list.add(new LocalFileSystemFactory());
		LOG.debug("Loading extension file systems via services");
		try {
			ServiceLoader<FileSystemFactory> serviceLoader = ServiceLoader.load(FileSystemFactory.class);
			Iterator<FileSystemFactory> iter = serviceLoader.iterator();

			while (iter.hasNext()) {
				try {
					FileSystemFactory factory = iter.next();
					list.add(factory);
					LOG.debug("Added file system {}:{}", factory.getScheme(), factory.getClass().getName());
				}
				catch (Throwable t) {
					ExceptionUtils.rethrowIfFatalErrorOrOOM(t);
					LOG.error("Failed to load a file system via services", t);
				}
			}
		}
		catch (Throwable t) {
			ExceptionUtils.rethrowIfFatalErrorOrOOM(t);
			LOG.error("Failed to load additional file systems via services", t);
		}
		return Collections.unmodifiableList(list);
	}

RAW_FACTORIES 是创建的静态变量，然后从静态方法 loadFileSystems 加载。需要注意的是，loadFileSystems 方法中首先会加一个默认的 factory 即LocalFileSystemFactory。然后其它的 factory使用ServiceLoader.load(FileSystemFactory.class) 通过 SPI 获取，但是我并没有发现Flink源码在 src/main/resources/META-INF/services/org.apache.flink.core.fs.FileSystemFactory 目录下配置FileSystemFactory的实现类，也就是说这些需要我们自己配置，如果不配置，那么默认情况下 SPI 获得的 FileSystemFactory 是为空的。也就是说RAW_FACTORIES 只有一个 LocalFileSystemFactory 实例。而LocalFileSystemFactory 的 scheme 为 file。

然后看 FALLBACK_FACTORY

		private static final FileSystemFactory FALLBACK_FACTORY = loadHadoopFsFactory();
		private static FileSystemFactory loadHadoopFsFactory() {
		final ClassLoader cl = FileSystem.class.getClassLoader();

		// first, see if the Flink runtime classes are available
		final Class<? extends FileSystemFactory> factoryClass;
		try {
			factoryClass = Class
					.forName("org.apache.flink.runtime.fs.hdfs.HadoopFsFactory", false, cl)
					.asSubclass(FileSystemFactory.class);
		}
		catch (ClassNotFoundException e) {
			LOG.info("No Flink runtime dependency present. " +
					"The extended set of supported File Systems via Hadoop is not available.");
			return new UnsupportedSchemeFactory("Flink runtime classes missing in classpath/dependencies.");
		}
		catch (Exception | LinkageError e) {
			LOG.warn("Flink's Hadoop file system factory could not be loaded", e);
			return new UnsupportedSchemeFactory("Flink's Hadoop file system factory could not be loaded", e);
		}

		// check (for eager and better exception messages) if the Hadoop classes are available here
		try {
			Class.forName("org.apache.hadoop.conf.Configuration", false, cl);
			Class.forName("org.apache.hadoop.fs.FileSystem", false, cl);
		}
		catch (ClassNotFoundException e) {
			LOG.info("Hadoop is not in the classpath/dependencies. " +
					"The extended set of supported File Systems via Hadoop is not available.");
			return new UnsupportedSchemeFactory("Hadoop is not in the classpath/dependencies.");
		}

		// Create the factory.
		try {
			return factoryClass.newInstance();
		}
		catch (Exception | LinkageError e) {
			LOG.warn("Flink's Hadoop file system factory could not be created", e);
			return new UnsupportedSchemeFactory("Flink's Hadoop file system factory could not be created", e);
		}
	}

这里就很简单了，直接通过反射的方式新建 org.apache.flink.runtime.fs.hdfs.HadoopFsFactory 实例，也就是说 FALLBACK_FACTORY 的值为 HadoopFsFactory，scheme 为 *

到这里我们先总结一下

我们的 HA 集群的路径为 hdfs://HDFS42143/usr/hive/warehouse/hour_hive，scheme 为 hdfs
我们对 HA 集群的 CRUD 操作的 FileSystem 是在FileSystem.getUnguardedFileSystem方法中获得的
RAW_FACTORIES 集合内的factory都是通过JavaSPI的方式加载的，并且只有一个实例 LocalFileSystemFactory，支持的 scheme为 file
FALLBACK_FACTORY 的值为 HadoopFsFactory，支持的 scheme 为 *

我们的 HA 集群就是使用 FALLBACK_FACTORY创建的 fileSystem。在上面的 initialize(Configuration config) 方法中会执行 FALLBACK_FACTORY.configure(config);

进入 HadoopFsFactory

public class HadoopFsFactory implements FileSystemFactory {

	private static final Logger LOG = LoggerFactory.getLogger(HadoopFsFactory.class);

	/** Flink's configuration object. */
	private Configuration flinkConfig;

	/** Hadoop's configuration for the file systems. */
	private org.apache.hadoop.conf.Configuration hadoopConfig;

	@Override
	public String getScheme() {
		// the hadoop factory creates various schemes
		return "*";
	}

	@Override
	public void configure(Configuration config) {
		flinkConfig = config;
		hadoopConfig = null; // reset the Hadoop Config
	}

	@Override
	public FileSystem create(URI fsUri) throws IOException {
		checkNotNull(fsUri, "fsUri");

		final String scheme = fsUri.getScheme();
		checkArgument(scheme != null, "file system has null scheme");

		// from here on, we need to handle errors due to missing optional
		// dependency classes
		try {
			// -- (1) get the loaded Hadoop config (or fall back to one loaded from the classpath)

			final org.apache.hadoop.conf.Configuration hadoopConfig;
			if (this.hadoopConfig != null) {
				hadoopConfig = this.hadoopConfig;
			}
			else if (flinkConfig != null) {
				hadoopConfig = HadoopUtils.getHadoopConfiguration(flinkConfig);
				this.hadoopConfig = hadoopConfig;
			}
			else {
				LOG.warn("Hadoop configuration has not been explicitly initialized prior to loading a Hadoop file system."
						+ " Using configuration from the classpath.");

				hadoopConfig = new org.apache.hadoop.conf.Configuration();
			}

			// -- (2) get the Hadoop file system class for that scheme

			final Class<? extends org.apache.hadoop.fs.FileSystem> fsClass;
			try {
				fsClass = org.apache.hadoop.fs.FileSystem.getFileSystemClass(scheme, hadoopConfig);
			}
			catch (IOException e) {
				throw new UnsupportedFileSystemSchemeException(
						"Hadoop File System abstraction does not support scheme '" + scheme + "'. " +
								"Either no file system implementation exists for that scheme, " +
								"or the relevant classes are missing from the classpath.", e);
			}

			// -- (3) instantiate the Hadoop file system

			LOG.debug("Instantiating for file system scheme {} Hadoop File System {}", scheme, fsClass.getName());

			final org.apache.hadoop.fs.FileSystem hadoopFs = fsClass.newInstance();

			// -- (4) create the proper URI to initialize the file system

			final URI initUri;
			if (fsUri.getAuthority() != null) {
				initUri = fsUri;
			}
			else {
				LOG.debug("URI {} does not specify file system authority, trying to load default authority (fs.defaultFS)");

				String configEntry = hadoopConfig.get("fs.defaultFS", null);
				if (configEntry == null) {
					// fs.default.name deprecated as of hadoop 2.2.0 - see
					// http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/DeprecatedProperties.html
					configEntry = hadoopConfig.get("fs.default.name", null);
				}

				if (LOG.isDebugEnabled()) {
					LOG.debug("Hadoop's 'fs.defaultFS' is set to {}", configEntry);
				}

				if (configEntry == null) {
					throw new IOException(getMissingAuthorityErrorPrefix(fsUri) +
							"Hadoop configuration did not contain an entry for the default file system ('fs.defaultFS').");
				}
				else {
					try {
						initUri = URI.create(configEntry);
					}
					catch (IllegalArgumentException e) {
						throw new IOException(getMissingAuthorityErrorPrefix(fsUri) +
								"The configuration contains an invalid file system default name " +
								"('fs.default.name' or 'fs.defaultFS'): " + configEntry);
					}

					if (initUri.getAuthority() == null) {
						throw new IOException(getMissingAuthorityErrorPrefix(fsUri) +
								"Hadoop configuration for default file system ('fs.default.name' or 'fs.defaultFS') " +
								"contains no valid authority component (like hdfs namenode, S3 host, etc)");
					}
				}
			}

			// -- (5) configure the Hadoop file system

			try {
				hadoopFs.initialize(initUri, hadoopConfig);
			}
			catch (UnknownHostException e) {
				String message = "The Hadoop file system's authority (" + initUri.getAuthority() +
						"), specified by either the file URI or the configuration, cannot be resolved.";

				throw new IOException(message, e);
			}

			HadoopFileSystem fs = new HadoopFileSystem(hadoopFs);

			// create the Flink file system, optionally limiting the open connections
			if (flinkConfig != null) {
				return limitIfConfigured(fs, scheme, flinkConfig);
			}
			else {
				return fs;
			}
		}
		catch (ReflectiveOperationException | LinkageError e) {
			throw new UnsupportedFileSystemSchemeException("Cannot support file system for '" + fsUri.getScheme() +
					"' via Hadoop, because Hadoop is not in the classpath, or some classes " +
					"are missing from the classpath.", e);
		}
		catch (IOException e) {
			throw e;
		}
		catch (Exception e) {
			throw new IOException("Cannot instantiate file system for URI: " + fsUri, e);
		}
	}
}

代码都比较简单，在

	@Override
	public void configure(Configuration config) {
		flinkConfig = config;
		hadoopConfig = null; // reset the Hadoop Config
	}

我们可以看到 hadoopConfig 会被设置为 null，然后把配置赋值给 flinkConfig 然后在

			final org.apache.hadoop.conf.Configuration hadoopConfig;
			if (this.hadoopConfig != null) {
				hadoopConfig = this.hadoopConfig;
			}
			else if (flinkConfig != null) {
				hadoopConfig = HadoopUtils.getHadoopConfiguration(flinkConfig);
				this.hadoopConfig = hadoopConfig;
			}
			else {
				LOG.warn("Hadoop configuration has not been explicitly initialized prior to loading a Hadoop file system."
						+ " Using configuration from the classpath.");

				hadoopConfig = new org.apache.hadoop.conf.Configuration();
			}

hadoopConfig 通过 HadoopUtils.getHadoopConfiguration 方法从 flinkConfig 解析。
在最下面通过反射的方式创建 HadoopFileSystem
我们进入 HadoopUtils.getHadoopConfiguration 方法

public static Configuration getHadoopConfiguration(org.apache.flink.configuration.Configuration flinkConfiguration) {

		Configuration result = new HdfsConfiguration();
		boolean foundHadoopConfiguration = false;

		//从flink配置中读取fs.hdfs.hdfsdefault配置
		final String hdfsDefaultPath =
			flinkConfiguration.getString(ConfigConstants.HDFS_DEFAULT_CONFIG, null);

		//加载 fs.hdfs.hdfsdefault 路径的资源
		if (hdfsDefaultPath != null) {
			result.addResource(new org.apache.hadoop.fs.Path(hdfsDefaultPath));
			LOG.debug("Using hdfs-default configuration-file path form Flink config: {}", hdfsDefaultPath);
			foundHadoopConfiguration = true;
		} else {
			LOG.debug("Cannot find hdfs-default configuration-file path in Flink config.");
		}
		//从flink配置中获取fs.hdfs.hdfssite的值
		final String hdfsSitePath = flinkConfiguration.getString(ConfigConstants.HDFS_SITE_CONFIG, null);
		//加载 fs.hdfs.hdfssite 路径的资源
		if (hdfsSitePath != null) {
			result.addResource(new org.apache.hadoop.fs.Path(hdfsSitePath));
			LOG.debug("Using hdfs-site configuration-file path form Flink config: {}", hdfsSitePath);
			foundHadoopConfiguration = true;
		} else {
			LOG.debug("Cannot find hdfs-site configuration-file path in Flink config.");
		}

		String[] possibleHadoopConfPaths = new String[4];
		//从flink配置中获取fs.hdfs.hadoopconf的配置路径
		possibleHadoopConfPaths[0] = flinkConfiguration.getString(ConfigConstants.PATH_HADOOP_CONFIG, null);
		//从环境变量中获取HADOOP_CONF_DIR的路径
		possibleHadoopConfPaths[1] = System.getenv("HADOOP_CONF_DIR");
		//从环境变量中获取HADOOP_HOME的路径
		final String hadoopHome = System.getenv("HADOOP_HOME");
		if (hadoopHome != null) {
			possibleHadoopConfPaths[2] = hadoopHome + "/conf";
			possibleHadoopConfPaths[3] = hadoopHome + "/etc/hadoop"; // hadoop 2.2
		}
		//从这些可能的路径中加载hadoop配置资源
		for (String possibleHadoopConfPath : possibleHadoopConfPaths) {
			if (possibleHadoopConfPath != null) {
				if (new File(possibleHadoopConfPath).exists()) {
					if (new File(possibleHadoopConfPath + "/core-site.xml").exists()) {
						result.addResource(new org.apache.hadoop.fs.Path(possibleHadoopConfPath + "/core-site.xml"));
						LOG.debug("Adding " + possibleHadoopConfPath + "/core-site.xml to hadoop configuration");
						foundHadoopConfiguration = true;
					}
					if (new File(possibleHadoopConfPath + "/hdfs-site.xml").exists()) {
						result.addResource(new org.apache.hadoop.fs.Path(possibleHadoopConfPath + "/hdfs-site.xml"));
						LOG.debug("Adding " + possibleHadoopConfPath + "/hdfs-site.xml to hadoop configuration");
						foundHadoopConfiguration = true;
					}
				}
			}
		}

		if (!foundHadoopConfiguration) {
			LOG.debug("Could not find Hadoop configuration via any of the supported methods " +
				"(Flink configuration, environment variables).");
		}

		return result;
	}

代码已经加了简单的注释，通过这段代码我们可以发现 hadoop 配置都是通过 flink 配置以及环境变量中获得。而我们的flink集群的环境变量中是不可能存在我们另外一个 hadoop 集群的配置的。所以此时我们有两种解决办法。

解决办法

第一种：
通过上面的分析，我们可以知道我们的hadoop配置是通过 flink 配置加载以及flink运行时机器的环境变量解析的，所以我们可以通过，在flink的配置文件中增加我们另外一个 HA 集群的配置路径。注意，此种方法有风险，因为我们的 checkpoint 集群通常是在本地的，如果你直接把另外一个集群的配置 copy 过来又可能会导致 flink 本地的 HA 集群报异常，所以你需要增加一个配置为：hdfs.dfs.nameservices=HDFS42142,HDFS42198。需要注意的是你要把这些配置同步到其它 flink机器上。

第二种：
这种方法为新建一个 CustomerHadoopFsFactory 类，该类在从 flink 配置中获取 hadoop 配置之后添加自己的 HA 集群的配置，在上面的分析我们知道所有的factory实例都是通过 SPI 获得，所以需要自己在src/main/resources/META-INF/services/ 目录新建org.apache.flink.core.fs.FileSystemFactory 文件，文件内容为自定义CustomerHadoopFsFactory 类的权限定名，该类比较简单。并且适用于所有 flink 集群的所有机器。

总结

以上两种方法都能够解决 StreamingFileSink 如何写数据到其它 HA 的Hadoop 集群的问题。第一种不太灵活，需要把另外一个集群的配置文件移到flink集群，并且每台机器都要配置。第二种就比较灵活了，配置可以通过flink启动传入，或者放到 properties 文件中，自己读取加载。我使用的第二种方式，为了避免有些人不懂如何创建，怎么放置，附上我的使用方式截图

你可能感兴趣的:(大数据)

2023-08-19 余則徐
2023.8.19.达视津气象2023.8.19.达视津气象阴晴不定朋友们早上好！今天是2023.8.19.星期六，农历七月初四的6:41；这个时间的干支历法是癸卯年庚申月己酉日丁卯时。气象预报不准，是常态；以前不准，现在有了超级计算机进行大数据运算了，还是不准：超级计算机运算，不如老农民抬头看天。而老农民却说，我不但要抬头看天，还要低头看河滩哪里有王八蛋。原来王八是可以预测每年有没有水患的！如果
喜爱购有什么新消息？如何打造百城万店氧惠好物
自2020年10月起，西安喜爱购商贸商贸股份有限公司全力打造的“百城万店”新零售商业模式应运而生。在探索新零售的道路上,通过互联网、大数据、云计算、人工智能等新技术,重构“人、货、场”商业元素,秉持“舍利差赚服务”经营理念,在全国至少一百个城市的“一千户以上的中高端社区”,打造至少两万家“一区一店”社区生活超市。大家好！我是氧惠最大团队&联合创始人氧惠达人导师。氧惠佣金更高，模式更好，终端用户不流
305李03days作业#裂变实验室# 李_d891
A账号大数据里加的人B账号精筛选一遍的客户C账号vip客户深度信任客户今天事情有点多，没有好好学习，明天重新写一个补到新作业里。
Apache Ignite 的并发控制：实现高性能事务处理的关键 AI天才研究院 AI实战 AI人工智能与大数据 LLM大模型落地实战指南大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着大数据时代的到来，数据量的增长和计算能力的提升使得传统的数据库和计算模型已经无法满足业务需求。为了应对这些挑战，分布式计算和存储技术得到了广泛的研究和应用。ApacheIgnite是一款高性能的分布式数据库和计算平台，它可以提供实时性能和高可用性，同时支持事务处理和并发控制。在这篇文章中，我们将深入探讨ApacheIgnite的并发控制机制，以及如何实现高性能事务处理。我们将从以下
DolphinScheduler 如何高效调度 AnalyticDB on Spark 作业？ DolphinScheduler社区 spark 大数据分布式
DolphinScheduler是一个分布式易扩展的可视化DAG工作流任务调度开源系统，能高效地执行和管理大数据流程。用户可以在DolphinSchedulerWeb界面轻松创建、编辑和调度云原生数据仓库AnalyticDBMySQL版的Spark作业。前提条件AnalyticDBforMySQL集群的产品系列为企业版、基础版或湖仓版。AnalyticDBforMySQL集群中已创建Job型资源组
10分钟搞定 MinIO 单节点多磁盘部署！打造稳定高可用对象存储【二】
MinIO是一个**高性能、开源的对象存储系统**，主要用于存储非结构化数据（如图片、视频、文档、备份等），与AmazonS3完全兼容。它被广泛用于云原生应用、大数据分析、AI模型存储、容器平台（如Kubernetes）等场景。MinIO支持多种部署模式，其中：单节点单磁盘（Single-NodeSingle-Drive）模式适用于开发测试、小规模应用或资源受限的场景。它的部署简单，不依赖集群、分
时序数据库在数据库领域的应用前景数据库管理艺术数据库时序数据库 struts ai
时序数据库在数据库领域的应用前景关键词：时序数据库、时间序列数据、物联网、监控系统、金融分析、大数据、实时分析摘要：本文深入探讨了时序数据库在现代数据管理中的关键作用和应用前景。我们将从时序数据的基本特性出发，分析时序数据库的核心架构和设计原理，比较主流时序数据库产品的技术特点，并通过实际案例展示其在物联网、金融科技、运维监控等领域的应用价值。文章还将提供时序数据库选型指南，探讨未来技术发展趋势，
【软考速通笔记】系统架构设计师⑱——大数据架构设计理论与实践小康师兄系统架构设计师笔记系统架构大数据 Lanbda Kappa 数据湖批处理
文章目录一、前言二、传统数据库遇到的问题2.1问题的根源2.2传统解决方法三、大数据基础3.1大数据处理技术3.2大数据利用过程3.3大数据处理系统面临的挑战3.4大数据具有的属性和特征四、Lanbda架构4.1批处理层4.2加速层4.3服务层五、Kappa架构5.1实时层5.2服务层六、Lambda和Kappa对比七、其他一、前言笔记目录大纲请查阅：【软考速通笔记】系统架构设计师——导读关注【小
深入解析Hadoop中的推测执行：原理、算法与策略码字的字节 hadoop布道师 hadoop 算法推测执行
Hadoop推测执行概述在分布式计算环境中，任务执行速度的不均衡是一个普遍存在的挑战。Hadoop作为主流的大数据处理框架，通过引入推测执行（SpeculativeExecution）机制有效缓解了这一问题。该技术本质上是一种乐观的容错策略，当系统检测到某些任务执行明显落后于预期进度时，会自动在其它计算节点上启动相同任务的冗余副本，最终选择最先完成的任务结果作为输出。核心设计动机推测执行的诞生源于
阿里云态势感知和安骑士有什么区别？阿腾云
阿里云态势感知和安骑士均是阿里云云盾安全产品，态势感知属于安全管理类的产品，安骑士数据服务器安全类产品，阿里云百科网来详细说下阿里云态势感知和安骑士之间的区别：态势感知和安骑士的区别简单来说，安骑士是检测云服务器漏洞的，态势感知提供安全类的大数据分析服务。态势感知：安全大数据分析平台，通过机器学习和结合全网威胁情报，发现传统防御软件无法覆盖的网络威胁，溯源攻击手段、并且提供可行动的解决方案。安骑士
大模型软件的多租户架构设计 AI天才研究院 AI人工智能与大数据 ChatGPT java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
大模型软件的多租户架构设计关键词：大模型软件、多租户架构、设计、性能优化、安全性摘要：随着大数据和人工智能技术的迅猛发展，大模型软件在各个领域得到了广泛应用。然而，如何在大模型软件中实现高效的多租户架构设计，成为当前技术领域的一个关键挑战。本文将深入探讨大模型软件的多租户架构设计，包括其背景、核心概念、算法原理、系统架构、项目实战以及最佳实践等，旨在为开发者提供一套系统化、全面化的设计指南。设计过
【原创文集】如果时光会说话 7a82ff5fbe9b
大数据工程学院21计科本2王玉艳1528662159515286621595.如果时光会说话，它会不会知道未来发生的事情然后跟人类讲呢？从2006年的非典到2019年的新冠疫情，发生了太多太多的让人类遭遇苦难的病毒。如果时光会说话，它是否会将即将发生的事与我们一说，让人类避免所遭遇的一切呢？如果时光会说话，不知道它看见这些在它身体里所发生的一切，它会不会感到悲哀呢？如果时光会说话，我会问问它新冠疫
深入解析 Spark：关键问题与答案汇总 ※尘 sql hive spark
在大数据处理领域，Spark凭借其高效的计算能力和丰富的功能，成为了众多开发者和企业的首选框架。然而，在使用Spark的过程中，我们会遇到各种各样的问题，从性能优化到算子使用等。本文将围绕Spark的一些核心问题进行详细解答，帮助大家更好地理解和运用Spark。Spark性能优化策略Spark性能优化是提升作业执行效率的关键，主要可以从以下几个方面入手：首先，资源配置优化至关重要。合理设置Exec
大数据领域如何用好 Eureka 实现服务治理大数据洞察大数据 eureka 云原生 ai
大数据领域Eureka服务治理实践：架构适配与最佳实践元数据框架标题大数据领域Eureka服务治理实践：架构适配、实现机制与最佳实践关键词Eureka；服务治理；大数据分布式系统；服务发现；负载均衡；故障恢复；云原生适配摘要Eureka作为Netflix开源的AP型服务发现组件，以其高可用性、动态适配性和轻量级特性，成为微服务架构的核心工具。然而，大数据领域的超大规模分布式、高并发数据流动、动态资
Eureka在大数据推荐系统中的服务治理实践大数据洞察 eureka 大数据云原生 ai
Eureka在大数据推荐系统中的服务治理实践：从理论到落地的全面解析元数据框架标题：Eureka在大数据推荐系统中的服务治理实践：从理论到落地的全面解析关键词：Eureka；服务治理；大数据推荐系统；分布式架构；服务发现；高可用性；动态扩展摘要：本文结合Eureka的核心特性与大数据推荐系统的需求，从第一性原理推导、架构设计、实现机制到实际应用，全面解析Eureka在推荐系统中的服务治理实践。通过
Eureka 为大数据领域服务治理带来的新思路大数据洞察大数据AI应用大数据与AI人工智能 eureka 大数据云原生 ai
Eureka为大数据领域服务治理带来的新思路关键词：Eureka，大数据，服务治理，分布式系统，微服务摘要：本文深入探讨了Eureka为大数据领域服务治理带来的新思路。首先介绍了大数据领域服务治理的背景和现状，阐述了Eureka的核心概念与工作原理。接着详细分析了Eureka核心算法原理，结合Python代码进行说明，并给出相关数学模型和公式。通过项目实战案例，展示了Eureka在大数据服务治理中
新能源汽车大数据画像：从零到一实现K-means用户分群新能源汽车研发＆测试入门指南学习笔记新星杯+王者杯汽车大数据 kmeans
基于大数据分析的新能源汽车画像研究全攻略：从原理到实战前言在"软件定义汽车"的时代浪潮下，新能源汽车正经历着从交通工具向智能移动终端的进化。本文将带你深入探索如何通过大数据技术构建精准的用户与产品画像，揭秘车企数字化转型的核心技术。全文涵盖完整的技术链路和实战案例，助你快速掌握这一前沿领域。关键词：新能源汽车；用户画像挖掘；大数据分析；K-means聚类目录一、大数据分析技术基石二、新能源汽车画像
Flink在物联网实时大数据处理中的最佳实践大数据洞察大数据AI应用大数据与AI人工智能 flink 物联网 struts ai
Flink在物联网实时大数据处理中的最佳实践关键词：Flink、物联网、实时大数据处理、最佳实践、数据流摘要：本文围绕Flink在物联网实时大数据处理中的最佳实践展开。首先介绍了相关背景知识，接着深入浅出地解释了Flink、物联网和实时大数据处理的核心概念以及它们之间的关系。然后详细阐述了Flink处理物联网数据的核心算法原理、数学模型和公式。通过实际项目案例，展示了开发环境搭建、代码实现和解读。
信小易官网查询入口：信小易大数据信用检测平台！无忧达人
信小易一个全能型的信用软件，信小易在一几年就上线的大数据信用平台，有着专业的大数据信用行业经验，从个人信用到企业信用，车辆大数据信小易全都有涉足，是一个非常完善的平台。信小易官网查询入口，对于想使用信小易的人来说，第一步我们需要找到信小易的查询入口，然后就可以进行大数据信用的查询服务了，可以查询自己的信用情况，查询结果也是非常准确。信小易查询入口放在文末了，划到文章结尾就可以看到查询入口信小易是一
【学术会议投稿】Vue.js组件开发实战：从零构建高效可复用组件小周不想卷艾思科蓝学术会议投稿 vue.js
【IEEE出版|会后3-4个月EI检索】第三届云计算、大数据应用与软件工程国际学术会议(CBASE2024）_艾思科蓝_学术一站式服务平台更多学术会议请看：https://ais.cn/u/nuyAF3目录引言一、Vue.js组件开发基础二、构建高效可复用组件三、Vue.js组件的高级特性四、Vue.js的优点与缺点Vue.js的优点Vue.js的缺点引言在现代前端开发中，Vue.js凭借其简洁的
时序数据库的工业级对决：对比 Apache IoTDB 和 InfluxDB 时序数据说时序数据库 apache iotdb 数据库大数据开源
在数字化浪潮中，物联网（IoT）与工业大数据领域蓬勃发展，时序数据呈爆发式增长。时序数据库作为管理这类数据的核心工具，其性能、功能和适应性直接影响到整个系统的运行效率与价值实现。ApacheIoTDB和InfluxDB作为时序数据库领域的佼佼者，被广泛应用于各类场景。深入剖析二者区别，对开发者、企业架构师和数据管理者而言，不仅能为项目选型提供科学依据，还能助力挖掘数据的最大价值。一、诞生背景与社区
时序数据库IoTDB与OpenTSDB的对比分析时序数据说时序数据库 iotdb opentsdb 数据库大数据
在物联网与大数据场景下，时序数据库的选择对于系统性能、数据存储与分析能力至关重要。本文将围绕ApacheIoTDB与OpenTSDB这两款开源时序数据库进行对比分析，从分布式架构、部署易用性、分析与计算能力、性能表现以及产品迭代与维护情况五个关键维度展开，旨在为面临海量设备接入和实时数据分析需求的物联网架构师提供客观的技术选型参考。一、分布式架构‌ApacheIoTDB‌：IoTDB原生支持分布式
女性职业新趋势：揭秘未来高薪热门行业氧惠爱高省
女生在职业选择上拥有广阔的空间，尤其是在当前快速发展的社会背景下，一些行业不仅成为了高薪热门，还提供了多样化的职业路径。以下是一些可能成为女生高薪热门选择的行业：➤推荐网购返利app“氧惠”，一个领隐藏优惠券+现金返利的平台。氧惠只提供领券返利链接，下单全程都在淘宝、京东、拼多多等原平台，更支持抖音、快手电商、外卖红包返利等。科技与互联网行业人工智能与大数据：随着人工智能和大数据技术的广泛应用，相
深入解析Hadoop中的Region分裂与合并机制码字的字节 hadoop布道师 hadoop 大数据分布式 Region 分裂合并
Hadoop与Region的基本概念Hadoop的分布式架构基础作为大数据处理的核心框架，Hadoop通过分布式存储和计算解决了海量数据的处理难题。其架构核心由HDFS（HadoopDistributedFileSystem）和MapReduce组成，前者负责数据的分布式存储，后者实现分布式计算。在HDFS中，数据被分割成固定大小的块（默认128MB）分散存储在集群节点上，而MapReduce则通
深入解析Hadoop RPC：技术细节与推广应用码字的字节 hadoop布道师 Hadoop RPC
HadoopRPC框架概述在分布式系统的核心架构中，远程过程调用（RPC）机制如同神经网络般连接着各个计算节点。Hadoop作为大数据处理的基石，其自主研发的RPC框架不仅支撑着内部组件的协同运作，更以独特的工程哲学诠释了分布式通信的本质。透明性：隐形的通信桥梁HadoopRPC最显著的特征是其对通信细节的完美封装。当NameNode接收DataNode的心跳检测，或ResourceManager
深入解析Hadoop：大数据处理的基石学习的锅 hadoop 大数据分布式
随着信息技术的快速发展和互联网的普及，数据的产生速度极具增加。面对如此海量的数据，传统的数据处理工具显得力不从心。在这种背景下，诞生了一系列用于处理大数据的框架与工具，而ApacheHadoop便是其中最为知名和应用最广泛的一个。本文将深入解析Hadoop的基本原理、架构及其在大数据处理中的重要性。1.Hadoop的起源与发展Hadoop起源于Google公司的三篇奠基性论文：GoogleFile
大数据技术关键技术组件
大数据技术是一组用于处理、分析和管理大规模数据集的复杂方法和技术。这些数据集的特点是容量大、增长速度快，且结构多样化，包括结构化、半结构化和非结构化数据。传统数据库管理和分析工具在处理此类数据时效率低下或无法胜任，因此需要专门的大数据技术栈来支持高效的数据处理和智能决策。大数据技术的关键组件通常包括：分布式存储系统：HadoopDistributedFileSystem(HDFS)：一个高度可扩展
大数据领域HDFS的集群资源管理优化大数据洞察大数据与AI人工智能大数据AI应用大数据 hdfs hadoop ai
大数据领域HDFS的集群资源管理优化关键词：HDFS；集群资源管理；存储优化；性能调优；副本策略；负载均衡；NameNode优化摘要：HDFS（Hadoop分布式文件系统）作为大数据领域的基石，承载着海量数据的存储与管理重任。随着数据规模爆炸式增长和业务复杂度提升，HDFS集群的资源管理面临着"存不下、跑不快、管不好"的三重挑战：存储资源浪费与不足并存、计算与存储资源匹配失衡、集群运维效率低下。本
深入探索Hadoop技术：全面学习指南
引言在大数据时代，高效地存储、处理和分析海量数据已成为企业决策与创新的关键驱动力。Hadoop，作为开源的大数据处理框架，以其强大的分布式存储和并行计算能力，以及丰富的生态系统，为企业提供了应对大规模数据挑战的有效解决方案。本文旨在为初学者和进阶者提供一份详尽的Hadoop技术学习指南，涵盖HDFS、MapReduce、YARN等核心组件，以及Hive、Pig、HBase等生态系统工具，助您踏上H
防不胜防!第六届研究所老姜（姜新宁）算力3.0亏损被骗曝光,巨额损失真相令人胆寒心惊！大盛律道
数字经济十选五投资诈骗套路频出，投资者股民的“钱袋子”多有损失，以投资理财获取大数据数字经济投资算法为由，将投资者的积蓄收入囊中，成为不法分子常用的诈骗手段之一。为守护好投资者的“钱袋子”，小编持续开展曝光数字经济诈骗行动，维护“投资者”合法权益。近年来，股市波动不断，投资者们无不渴望找到稳健的投资途径。而一些不法分子趁机利用第六届研究所荐股群的手段，设下重重陷阱，致使投资者损失惨重。骗子冒充姜新
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =