Apache Tika源码研究（三）

上文我们基本知道Tika是通过SAXParser来解析XHTML文档的，下面我通过一个具体的解析类HtmlParser入手，来看看网页文件的解析过程。

首先看看HtmlParser类的继承层次，HtmlParser继承自抽象类AbstractParser，而AbstractParser实现了Parser接口

Apache Tika源码研究（三）

Parser接口声明的方法方法如下：

/**

 * Tika parser interface.

 */

public interface Parser extends Serializable {



    /**

     * Returns the set of media types supported by this parser when used

     * with the given parse context.

     *

     * @since Apache Tika 0.7

     * @param context parse context

     * @return immutable set of media types

     */

    Set<MediaType> getSupportedTypes(ParseContext context);



    /**

     * Parses a document stream into a sequence of XHTML SAX events.

     * Fills in related document metadata in the given metadata object.

     * <p>

     * The given document stream is consumed but not closed by this method.

     * The responsibility to close the stream remains on the caller.

     * <p>

     * Information about the parsing context can be passed in the context

     * parameter. See the parser implementations for the kinds of context

     * information they expect.

     *

     * @since Apache Tika 0.5

     * @param stream the document stream (input)

     * @param handler handler for the XHTML SAX events (output)

     * @param metadata document metadata (input and output)

     * @param context parse context

     * @throws IOException if the document stream could not be read

     * @throws SAXException if the SAX events could not be processed

     * @throws TikaException if the document could not be parsed

     */

    void parse(

            InputStream stream, ContentHandler handler,

            Metadata metadata, ParseContext context)

            throws IOException, SAXException, TikaException;



}

第一个方法返回支持的媒体类型集合

第二个方法为正式的解析方法

抽象类AbstractParser只对上面接口的void parse()方法进行了一层包装，类似于模板方法，方便其他类调用，其代码如下：

public abstract class AbstractParser implements Parser {



    /**

     * Serial version UID.

     */

    private static final long serialVersionUID = 7186985395903074255L;



    /**

     * Calls the

     * {@link Parser#parse(InputStream, ContentHandler, Metadata, ParseContext)}

     * method with an empty {@link ParseContext}. This method exists as a

     * leftover from Tika 0.x when the three-argument parse() method still

     * existed in the {@link Parser} interface. No new code should call this

     * method anymore, it's only here for backwards compatibility.

     *

     * @deprecated use the {@link Parser#parse(InputStream, ContentHandler, Metadata, ParseContext)} method instead

     */

    public void parse(

            InputStream stream, ContentHandler handler, Metadata metadata)

            throws IOException, SAXException, TikaException {

        parse(stream, handler, metadata, new ParseContext());

    }



}

下面来分析HtmlParser类的关键部分，HtmlParser的部分源码如下：

**

 * HTML parser. Uses TagSoup to turn the input document to HTML SAX events,

 * and post-processes the events to produce XHTML and metadata expected by

 * Tika clients.

 */

public class HtmlParser extends AbstractParser {



    /** Serial version UID */

    private static final long serialVersionUID = 7895315240498733128L;



    private static final Set<MediaType> SUPPORTED_TYPES =

        Collections.unmodifiableSet(new HashSet<MediaType>(Arrays.asList(

                MediaType.text("html"),

                MediaType.application("xhtml+xml"),

                MediaType.application("vnd.wap.xhtml+xml"),

                MediaType.application("x-asp"))));



    private static final ServiceLoader LOADER =

            new ServiceLoader(HtmlParser.class.getClassLoader());



    /**

     * HTML schema singleton used to amortise the heavy instantiation time.

     */

    private static final Schema HTML_SCHEMA = new HTMLSchema();



    public Set<MediaType> getSupportedTypes(ParseContext context) {

        return SUPPORTED_TYPES;

    }



    public void parse(

            InputStream stream, ContentHandler handler,

            Metadata metadata, ParseContext context)

            throws IOException, SAXException, TikaException {

        // Automatically detect the character encoding

        AutoDetectReader reader = new AutoDetectReader(

                new CloseShieldInputStream(stream), metadata, LOADER);

        try {

            Charset charset = reader.getCharset();

            String previous = metadata.get(Metadata.CONTENT_TYPE);

            if (previous == null || previous.startsWith("text/html")) {

                MediaType type = new MediaType(MediaType.TEXT_HTML, charset);

                metadata.set(Metadata.CONTENT_TYPE, type.toString());

            }

            // deprecated, see TIKA-431

            metadata.set(Metadata.CONTENT_ENCODING, charset.name());



            // Get the HTML mapper from the parse context

            HtmlMapper mapper =

                    context.get(HtmlMapper.class, new HtmlParserMapper());



            // Parse the HTML document

            org.ccil.cowan.tagsoup.Parser parser =

                    new org.ccil.cowan.tagsoup.Parser();



            // TIKA-528: Reuse share schema to avoid heavy instantiation

            parser.setProperty(

                    org.ccil.cowan.tagsoup.Parser.schemaProperty, HTML_SCHEMA);

            // TIKA-599: Shared schema is thread-safe only if bogons are ignored

            parser.setFeature(

                    org.ccil.cowan.tagsoup.Parser.ignoreBogonsFeature, true);



            parser.setContentHandler(new XHTMLDowngradeHandler(

                    new HtmlHandler(mapper, handler, metadata)));



            parser.parse(reader.asInputSource());

        } finally {

            reader.close();

        }

    }



  //其他方法略



}

该类的注释写得很清楚，这里用到了一个TagSoup组件，用来解析HTML的，转换为格式良好的XHTML结构

Set<MediaType> getSupportedTypes(ParseContext context)方法返回支持的媒体类型集合

void parse(InputStream stream, ContentHandler handler,Metadata metadata, ParseContext context)方法即为具体的解析HTML文档的方法

编码识别类AutoDetectReader
AutoDetectReader reader = new AutoDetectReader(new CloseShieldInputStream(stream), metadata, LOADER);
该类继承自BufferedReader，封装了输入流stream，AutoDetectReader类的源码如下：

/**

 * An input stream reader that automatically detects the character encoding

 * to be used for converting bytes to characters.

 *

 * @since Apache Tika 1.2

 */

public class AutoDetectReader extends BufferedReader {



    private static final ServiceLoader DEFAULT_LOADER =

            new ServiceLoader(AutoDetectReader.class.getClassLoader());



    private static Charset detect(

            InputStream input, Metadata metadata,

            List<EncodingDetector> detectors)

            throws IOException, TikaException {

        // Ask all given detectors for the character encoding

        for (EncodingDetector detector : detectors) {

            Charset charset = detector.detect(input, metadata);

            if (charset != null) {

                return charset;

            }

        }



        // Try determining the encoding based on hints in document metadata

        MediaType type = MediaType.parse(metadata.get(Metadata.CONTENT_TYPE));

        if (type != null) {

            String charset = type.getParameters().get("charset");

            if (charset != null) {

                try {

                    return CharsetUtils.forName(charset);

                } catch (Exception e) {

                    // ignore

                }

            }

        }



        throw new TikaException(

                "Failed to detect the character encoding of a document");

    }



    private final Charset charset;



    private AutoDetectReader(InputStream stream, Charset charset)

            throws IOException {

        super(new InputStreamReader(stream, charset));

        this.charset = charset;



        // TIKA-240: Drop the BOM if present

        mark(1);

        if (read() != '\ufeff') { // zero-width no-break space

            reset();

        }

    }



    private AutoDetectReader(

            BufferedInputStream stream, Metadata metadata,

            List<EncodingDetector> detectors)

            throws IOException, TikaException {

        this(stream, detect(stream, metadata, detectors));

    }



    public AutoDetectReader(

            InputStream stream, Metadata metadata,

            ServiceLoader loader) throws IOException, TikaException {

        this(new BufferedInputStream(stream), metadata,

                loader.loadServiceProviders(EncodingDetector.class));

    }



    public AutoDetectReader(InputStream stream, Metadata metadata)

            throws IOException, TikaException {

        this(new BufferedInputStream(stream), metadata, DEFAULT_LOADER);

    }



    public AutoDetectReader(InputStream stream)

            throws IOException, TikaException {

        this(stream, new Metadata());

    }



    public Charset getCharset() {

        return charset;

    }



    public InputSource asInputSource() {

        InputSource source = new InputSource(this);

        source.setEncoding(charset.name());

        return source;

    }



}

这里最关键的方法是

static Charset detect(InputStream input, Metadata metadata,List<EncodingDetector> detectors)

通过该方法获取文档的编码类型

List<EncodingDetector>即为编码识别类的集合，源自loader.loadServiceProviders(EncodingDetector.class)方法，加载编码识别类列表
接下来分析ServiceLoader类的源码：

/**

 * Internal utility class that Tika uses to look up service providers.

 *

 * @since Apache Tika 0.9

 */

public class ServiceLoader {



    /**

     * The default context class loader to use for all threads, or

     * <code>null</code> to automatically select the context class loader.

     */

    private static volatile ClassLoader contextClassLoader = null;



    /**

     * The dynamic set of services available in an OSGi environment.

     * Managed by the {@link TikaActivator} class and used as an additional

     * source of service instances in the {@link #loadServiceProviders(Class)}

     * method.

     */

    private static final Map<Object, Object> services =

            new HashMap<Object, Object>();



    /**

     * Returns the context class loader of the current thread. If such

     * a class loader is not available, then the loader of this class or

     * finally the system class loader is returned.

     *

     * @see <a href="https://issues.apache.org/jira/browse/TIKA-441">TIKA-441</a>

     * @return context class loader, or <code>null</code> if no loader

     *         is available

     */

    static ClassLoader getContextClassLoader() {

        ClassLoader loader = contextClassLoader;

        if (loader == null) {

            loader = ServiceLoader.class.getClassLoader();

        }

        if (loader == null) {

            loader = ClassLoader.getSystemClassLoader();

        }

        return loader;

    }



    /**

     * Sets the context class loader to use for all threads that access

     * this class. Used for example in an OSGi environment to avoid problems

     * with the default context class loader.

     *

     * @param loader default context class loader,

     *               or <code>null</code> to automatically pick the loader

     */

    public static void setContextClassLoader(ClassLoader loader) {

        contextClassLoader = loader;

    }



    static void addService(Object reference, Object service) {

        synchronized (services) {

            services.put(reference, service);

        }

    }



    static Object removeService(Object reference) {

        synchronized (services) {

            return services.remove(reference);

        }

    }



    private final ClassLoader loader;



    private final LoadErrorHandler handler;



    private final boolean dynamic;



    public ServiceLoader(

            ClassLoader loader, LoadErrorHandler handler, boolean dynamic) {

        this.loader = loader;

        this.handler = handler;

        this.dynamic = dynamic;

    }



    public ServiceLoader(ClassLoader loader, LoadErrorHandler handler) {

        this(loader, handler, false);

    }



    public ServiceLoader(ClassLoader loader) {

        this(loader, LoadErrorHandler.IGNORE);

    }



    public ServiceLoader() {

        this(getContextClassLoader(), LoadErrorHandler.IGNORE, true);

    }



    /**

     * Returns an input stream for reading the specified resource from the

     * configured class loader.

     *

     * @param name resource name

     * @return input stream, or <code>null</code> if the resource was not found

     * @see ClassLoader#getResourceAsStream(String)

     * @since Apache Tika 1.1

     */

    public InputStream getResourceAsStream(String name) {

        if (loader != null) {

            return loader.getResourceAsStream(name);

        } else {

            return null;

        }

    }



    /**

     * Loads and returns the named service class that's expected to implement

     * the given interface.

     *

     * @param iface service interface

     * @param name service class name

     * @return service class

     * @throws ClassNotFoundException if the service class can not be found

     *                                or does not implement the given interface

     * @see Class#forName(String, boolean, ClassLoader)

     * @since Apache Tika 1.1

     */

    @SuppressWarnings("unchecked")

    public <T> Class<? extends T> getServiceClass(Class<T> iface, String name)

            throws ClassNotFoundException {

        if (loader == null) {

            throw new ClassNotFoundException(

                    "Service class " + name + " is not available");

        }

        Class<?> klass = Class.forName(name, true, loader);

        if (klass.isInterface()) {

            throw new ClassNotFoundException(

                    "Service class " + name + " is an interface");

        } else if (!iface.isAssignableFrom(klass)) {

            throw new ClassNotFoundException(

                    "Service class " + name

                    + " does not implement " + iface.getName());

        } else {

            return (Class<? extends T>) klass;

        }

    }



    /**

     * Returns all the available service resources matching the

     *  given pattern, such as all instances of tika-mimetypes.xml 

     *  on the classpath, or all org.apache.tika.parser.Parser 

     *  service files.

     */

    public Enumeration<URL> findServiceResources(String filePattern) {

       try {

          Enumeration<URL> resources = loader.getResources(filePattern);

          return resources;

       } catch (IOException ignore) {

          // We couldn't get the list of service resource files

          List<URL> empty = Collections.emptyList();

          return Collections.enumeration( empty );

      }

    }



    /**

     * Returns all the available service providers of the given type.

     *

     * @param iface service provider interface

     * @return available service providers

     */

    public <T> List<T> loadServiceProviders(Class<T> iface) {

        List<T> providers = new ArrayList<T>();

        providers.addAll(loadDynamicServiceProviders(iface));

        providers.addAll(loadStaticServiceProviders(iface));

        return providers;

    }



    /**

     * Returns the available dynamic service providers of the given type.

     * The returned list is newly allocated and may be freely modified

     * by the caller.

     *

     * @since Apache Tika 1.2

     * @param iface service provider interface

     * @return dynamic service providers

     */

    @SuppressWarnings("unchecked")

    public <T> List<T> loadDynamicServiceProviders(Class<T> iface) {

        List<T> providers = new ArrayList<T>();



        if (dynamic) {

            synchronized (services) {

                for (Object service : services.values()) {

                    if (iface.isAssignableFrom(service.getClass())) {

                        providers.add((T) service);

                    }

                }

            }

        }



        return providers;

    }



    /**

     * Returns the available static service providers of the given type.

     * The providers are loaded using the service provider mechanism using

     * the configured class loader (if any). The returned list is newly

     * allocated and may be freely modified by the caller.

     *

     * @since Apache Tika 1.2

     * @param iface service provider interface

     * @return static service providers

     */

    @SuppressWarnings("unchecked")

    public <T> List<T> loadStaticServiceProviders(Class<T> iface) {

        List<T> providers = new ArrayList<T>();



        if (loader != null) {

            List<String> names = new ArrayList<String>();



            String serviceName = iface.getName();

            Enumeration<URL> resources =

                    findServiceResources("META-INF/services/" + serviceName);

            for (URL resource : Collections.list(resources)) {

                try {

                    collectServiceClassNames(resource, names);

                } catch (IOException e) {

                    handler.handleLoadError(serviceName, e);

                }

            }



            for (String name : names) {

                try {

                    Class<?> klass = loader.loadClass(name);

                    if (iface.isAssignableFrom(klass)) {

                        providers.add((T) klass.newInstance());

                    }

                } catch (Throwable t) {

                    handler.handleLoadError(name, t);

                }

            }

        }



        return providers;

    }



    private static final Pattern COMMENT = Pattern.compile("#.*");



    private static final Pattern WHITESPACE = Pattern.compile("\\s+");



    private void collectServiceClassNames(URL resource, Collection<String> names)

            throws IOException {

        InputStream stream = resource.openStream();

        try {

            BufferedReader reader =

                new BufferedReader(new InputStreamReader(stream, "UTF-8"));

            String line = reader.readLine();

            while (line != null) {

                line = COMMENT.matcher(line).replaceFirst("");

                line = WHITESPACE.matcher(line).replaceAll("");

                if (line.length() > 0) {

                    names.add(line);

                }

                line = reader.readLine();

            }

        } finally {

            stream.close();

        }

    }



}

ServiceLoader类的主要功能是加载服务类，分为动态加载服务类和静态加载服务类，分别对应List<T> loadDynamicServiceProviders(Class<T> iface)方法和List<T> loadStaticServiceProviders(Class<T> iface)方法

HtmlParser类的私有成员static final ServiceLoader LOADER =new ServiceLoader(HtmlParser.class.getClassLoader())是只调用静态加载方法

List<T> loadStaticServiceProviders(Class<T> iface)方法（this.dynamic值为false）
加载jar文件里面路径为META-INF/services/org.apache.tika.detect.EncodingDetector的文件

#  Licensed to the Apache Software Foundation (ASF) under one or more

#  contributor license agreements.  See the NOTICE file distributed with

#  this work for additional information regarding copyright ownership.

#  The ASF licenses this file to You under the Apache License, Version 2.0

#  (the "License"); you may not use this file except in compliance with

#  the License.  You may obtain a copy of the License at

#

#       http://www.apache.org/licenses/LICENSE-2.0

#

#  Unless required by applicable law or agreed to in writing, software

#  distributed under the License is distributed on an "AS IS" BASIS,

#  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.

#  See the License for the specific language governing permissions and

#  limitations under the License.



org.apache.tika.parser.html.HtmlEncodingDetector

org.apache.tika.parser.txt.UniversalEncodingDetector

org.apache.tika.parser.txt.Icu4jEncodingDetector

通过加载该文件获取编码识别类列表，最后AutoDetectReader类调用static Charset detect(InputStream input, Metadata metadata,List<EncodingDetector> detectors)方法获取文档的编码类型

至于TagSoup组件我这里转载一篇博文供参考：

TagSoup开发指南

http://cactus-jing.iteye.com/blog/1070620

对于TagSoup可能有些人会比较陌生，TagSoup是Java语言开发的，通过SAX引擎解析结构糟糕、令人抓狂的不规范HTML文档的小工具。TagSoup可以将一个HTML文档转换为结构良好的XML文档（近似于XHTML），方便开发人员对获取的HTML文档进行解析等操作。同时TagSoup提供了命令行程序，可以运行TagSoup来对HTML文档进行解析。

但是TagSoup的缺陷就是，官方网站（ http://home.ccil.org/~cowan/XML/tagsoup/）上不提供API文档的链接，同时也不提供开发指南，只提供了一个40页的幻灯片（ http://home.ccil.org/~cowan/XML/tagsoup/），是其在Extreme Markup Languages 2004上的演讲。这对于将TagSoup整合到自己的应用程序中还是遇到了很大的挑战！

使用TagSoup的开发流程：

创建Parser实例；
提供自己的SAX2内容处理器
提供只想需要解析的HTML的InputSource实例；
开始parse（）！

由于个人能力有限，这几句话把我直接搞懵了，所以决定仔细研究下。

TagSoup包含2个包、16个类文件（文件数目还是比较少的，但是功能很强大！）。其中核心类包括Parser、PYXScanner、XMLWriter。

org.ccil.cowan.tagsoup.Parser，该类继承自org.xml.sax.helpers.DefaultHandler，可知该类是一个SAX型的解析器；
org.ccil.cowan.tagsoup.PYXScanner，该类实现了Scanner接口，用于读取解析后的内容；
org.ccil.cowan.tagsoup.XMLWriter，该类继承自org.xml.sax.helpers.XMLFilterImpl，同时实现org.xml.sax.ContentHandler接口（这个是最主要的），也就是说XMLWriter是TagSoup为我们提供的HTML解析成XML文档的默认实现。

那么找到了这三个核心类，就按照上面的流程开始解析吧，以下是我个人写的一个小例子：

StringReader xmlReader = new StringReader("");

StringReader sr = new StringReader(html);

InputSource src = new InputSource(sr);//构建InputSource实例

Parser parser = new Parser();//实例化Parse

XMLWriter writer = new XMLWriter();//实例化XMLWriter，即SAX内容处理器

parser.setContentHandler(writer);//设置内容处理器

parser.parse(src);//解析

Scanner scan = new PYXScanner();

scan.scan(xmlReader, parser);//通过xmlReader读取解析后的结果

char[] buff = new char[1024];

while(xmlReader.read(buff) != -1) {

    System.out.println(new String(buff));//打印解析后的结构良好的HTML文档

}

tagsoup-1.2.jar (87.9 KB)

Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
最简单将静态网页挂载到服务器上(不用nginx) 全能全知者服务器 nginx 运维前端 html 笔记
最简单将静态网页挂载到服务器上(不用nginx)如果随便弄个静态网页挂在服务器都要用nignx就太麻烦了，所以直接使用Apache来搭建一些简单前端静态网页会相对方便很多检查Web服务器服务状态：sudosystemctlstatushttpd#ApacheWeb服务器如果发现没有安装web服务器：安装Apache：sudoyuminstallhttpd启动Apache：sudosystemctl
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
maven-assembly-plugin 打包实例带着二娃去遛弯
1.先在pom.xml文件中添加assembly打包插件org.apache.maven.pluginsmaven-assembly-plugin2.6assembly/assembly.xmlmake-assemblypackagesingle说明:1.需要修改的可能就是descriptors标签下面的打包配置文件目录,指定assembly.xml的路径.2.可以添加多个打包配置文件,进行多种形
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
java 技术架构相关文档圣心 java 架构开发语言
在Java中，有许多不同的技术和架构，这里我将列举一些常见的Java技术和架构，并提供一些相关的文档资源。SpringFrameworkSpring是一个开源的Java/JavaEE全功能框架，以Apache许可证形式发布，提供了一种实现企业级应用的方法。官方文档：SpringFrameworkSpringBootSpringBoot是Spring的一个子项目，旨在简化创建生产级的Spring应用
Apache Shiro安全框架(2)-用户认证 heyrian Java shiro
身份认证在shiro中用户需要提供用户的principals（身份）和credentials（证明）来证明该用户属于当前系统用户。常见的认证方式即用户名/密码。在解释身份认证之前，我们先来看看shiro中的Subject和Realm,这是身份认证的两个关键的概念。Subjectsubject代表当前用户，内部主要维护当前用户信息。shiro中所有的subject都交给SecurityManager
Apache HBase基础（基本概述，物理架构，逻辑架构，数据管理，架构特点，HBase Shell） May--J--Oldhu HBase HBase shell hbase物理架构 hbase逻辑架构 hbase
NoSQL综述及ApacheHBase基础一.HBase1.HBase概述2.HBase发展历史3.HBase应用场景3.1增量数据-时间序列数据3.2信息交换-消息传递3.3内容服务-Web后端应用程序3.4HBase应用场景示例4.ApacheHBase生态圈5.HBase物理架构5.1HMaster5.2RegionServer5.3Region和Table6.HBase逻辑架构-Row7.
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
Superset二次开发之源码DependencyList.tsx 分析 aimmon Superset二次开发 Superset BI 二次开发 typescript 前端
功能点路径superset-frontend\src\dashboard\components\nativeFilters\FiltersConfigModal\FiltersConfigForm\DependencyList.tsx/***LicensedtotheApacheSoftwareFoundation(ASF)underone*ormorecontributorlicenseagre
史上最全的maven的pom.xml文件详解 Meta999 Maven
注：详解文件中，用红色进行标注的是平常项目中常用的配置节点。要详细学习！转载的，太经典了、、、、欢迎收藏xxxxxxxxxxxx4.0.0xxxxxxjar1.0-SNAPSHOTxxx-mavenhttp://maven.apache.orgAmavenprojecttostudymaven.jirahttp://jira.baidu.com/[email protected]
利用apache-pdfbox库修改pdf文件模板，进行信息替换区块链攻城狮 pdf 合同模板 pdf生成合同生成
publicStringcreateSignFile(Longid)throwsIOException{//1.验证企业信息CompanyDOcompany=validateCompanyExists(id);//2.验证签约状态if(company.getSignStatus()!=0){throwexception(COMPANY_SIGN_STATUS_NOT_ZERO);}//3.获取合同
Apache DataFusion Python 绑定教程柏赢安Simona
ApacheDataFusionPython绑定教程datafusion-pythonApacheDataFusionPythonBindings项目地址:https://gitcode.com/gh_mirrors/data/datafusion-python项目介绍ApacheDataFusion是一个基于ApacheArrow的内存查询引擎，提供了高性能的查询处理能力。DataFusion的
压测服务器并使用 Grafana 进行可视化豆瑞瑞 grafana
简介仓库代码GitCode-全球开发者的开源社区,开源代码托管平台参考Welcome!-TheApacheHTTPServerProjectGrafana|查询、可视化、警报观测平台https://prometheus.io/docs/introduction/overview/
2.Jmeter安装配置，核心目录详情，组件和作用域 XXX-17 Jmeter jmeter 软件测试接口测试
一、Jmeter安装配置以及核心目录详情Jmeter基于java语言来开发，java需要jdk环境。1.安装jdk并且配置jdk的环境变量。2.jmeter只需要解压就可以使用了。3.在D:\apache-jmeter-5.5\bin目录下双击jmeter.bat文件就可以启动使用了backups：自动备份的目录bin：启动文件、配置文件（jmeter.bat是启动问题，jmeter.propti
BindingException: Invalid bound statement (not found) 小卡车555 MyBatis mybatis java mysql
Mybatis出现绑定异常问题的解决org.apache.ibatis.binding.BindingException:Invalidboundstatement(notfound)一般的原因是Mapperinterface和xml文件的定义对应不上，需要检查包名，namespace，函数名称等能否对应上，需要比较细致的对比，我经常就是写错了一两个字母搞的很长时间找不到错误按以下步骤一一执行：1
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
NoClassDefFoundError: org.apache.poi.POIXMLDocument问题排查解决 qinmingjun718 apache
java.lang.NoClassDefFoundError:org/apache/poi/POIXMLDocumentPart这错很明显就是没找到这个类POIXMLDocumentPart就是找不到类问题原因是大概是因为poi从3.1.X低版本版本升级到pio4.1.2高版本的后与org.apache.poi.xwpf.converter.core-1.0.6.jar不兼容问题，导致这个情况的主
使用poi替换XWPFTableCell内容，并设置行间距 RR369_yyh javaUtil java poi
使用poi读取word文档（docx类型），进行数据替换。另外，为了记录poi设置行间距的api，真是找了好几十分钟才找到啊啊啊啊！！！importorg.apache.poi.xwpf.usermodel.*;importorg.springframework.util.StringUtils;importjava.io.File;importjava.io.FileInputStream;im
揭秘OozieBundle：架构组件与核心概念光剑书架上的书计算大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
揭秘OozieBundle：架构、组件与核心概念1.背景介绍在大数据领域，数据处理工作流程通常由多个复杂的作业组成,这些作业之间存在着依赖关系。ApacheOozie作为一个工作流调度系统,可以有效管理这些复杂的工作流程。OozieBundle是Oozie提供的一种特殊的工作流程,用于协调和控制多个相关的工作流程。OozieBundle的主要目的是将多个相关的工作流程组织在一起,并根据它们之间的依
Apache POI用法 JH3073 apache
一、ApachePOI是什么ApachePOI是用Java编写的免费开源的跨平台的JavaAPI，ApachePOI提供API给Java程序对MicrosoftOffice格式档案读和写的功能，其中使用最多的就是使用POI操作Excel文件。二、POI结构HSSF－提供读写MicrosoftExcelXLS格式档案的功能XSSF－提供读写MicrosoftExcelOOXMLXLSX格式档案的功能
【LINUX】在ubuntu中安装tomcat 缘起性本空 linux 运维服务器
#instaljdkaptinstallopenjdk-8-jdk-y#enterinstallpathcd/home/a/#copytomcatpackagecp/mnt/hgfs/Share/apache-tomcat-9.0.93.tar.gz.#unpresstomcatpackagetar-xfapache-tomcat-9.0.93.tar.gz#enterbinpathcdapach
最好用的e2e框架，使用 Cypress 让产品持续稳定交付 Node全栈 java python 编程语言软件测试 html
以前我们经常使用nightwatch，现在都已经切换到cypress了，可以说cypress目前最好用的e2e框架。具体原因和对比，就是本文要讲的内容。背景ApacheAPISIXDashboard的设计是为了让用户通过前端界面尽可能方便地操作ApacheAPISIX。从项目初始化到现在，已经有552commits、发布了10个版本。在如此之快的产品迭代过程中，确保开源产品质量显的尤为重要。为此，
Linux下apache的安装轴儿
1.获取软件：http://httpd.apache.org/httpd-2.4.25.tar.gz并上传至服务器。运行以上命令时，可能会出现“APRnotfound.”的错误。此时需要下载依赖包。2.下载安装依赖包：创建文件夹：mkdir/usr/httpd-refercd/usr/httpd-refer/下载依赖包：wgethttp://p5osdejt4.bkt.clouddn.com/ap
使用 Apache Cassandra 实现 LLM 缓存：提升 AI 应用性能的实用指南 afTFODguAKBF apache 缓存人工智能 python
使用ApacheCassandra实现LLM缓存：提升AI应用性能的实用指南引言在当今的AI驱动的应用程序中，大语言模型（LLM）扮演着越来越重要的角色。然而，频繁调用LLMAPI不仅会增加延迟，还会导致高昂的成本。为了解决这个问题，实现有效的缓存策略变得至关重要。本文将介绍如何使用ApacheCassandra®或AstraDB来实现LLM缓存，从而显著提升您的AI应用性能和成本效率。为什么选择
CentOS下php安装mcrypt扩展天咋哭了
（以下步骤均为本人实际操作，可能与你的安装方法有所区别，但我会尽量排除疑惑）大致步骤（1）安装mcrypt，（2）安装php对mcrypt的扩展，（3）重启apache（1）、确认你的linux没有安装mcrypt库，如果已安装，跳过安装步骤[root@test-206~]#yumlistinstalled|grepmcryptlibmcrypt.x86_642.5.8-4.el5.centosi
javaweb基于ssm框架学生信息管理(成绩)系统设计与实现 ancen_73bd
开发平台、开发工具、应用服务器的介绍开发平台：Windows开发工具：idea+mySql应用服务器：ApacheTomcat8.0学生成绩管理系统主要用于学校学生成绩信息管理，能实现学生、老师、院系、班级、课程的增删改查操作，同时学生能进行选课和退课操作，老师能对学生的成绩录入和修改操作。系统流程图功能结构图部分截图免费源码获得：扫码关注微信公众号：ancenok，然后回复：013
ASP.NET Core 入门教学二十八 linux打包部署充值内卷 asp.net linux 后端
在Linux上打包和部署ASP.NETCore应用程序涉及几个步骤。以下是一个详细的指南，帮助你在Linux系统上完成这一过程。1.准备工作确保你的Linux系统已经安装了以下软件：.NETSDK（用于构建应用程序）.NETRuntime（用于运行应用程序）Apache或Nginx（作为反向代理服务器）你可以使用以下命令安装.NETSDK和Runtime：sudoaptupdatesudoapti
Hadoop学习第三课（HDFS架构--读、写流程）小小程序员呀~ 数据库 hadoop 架构 big data
1.块概念举例1：一桶水1000ml，瓶子的规格100ml=>需要10个瓶子装完一桶水1010ml，瓶子的规格100ml=>需要11个瓶子装完一桶水1010ml，瓶子的规格200ml=>需要6个瓶子装完块的大小规格，只要是需要存储，哪怕一点点，也是要占用一个块的块大小的参数：dfs.blocksize官方默认的大小为128M官网：https://hadoop.apache.org/docs/r3.
ios内付费 374016526 ios 内付费
近年来写了很多IOS的程序，内付费也用到不少，使用IOS的内付费实现起来比较麻烦，这里我写了一个简单的内付费包，希望对大家有帮助。具体使用如下: 这里的sender其实就是调用者，这里主要是为了回调使用。 [KuroStoreApi kuroStoreProductId:@"产品ID" storeSender:self storeFinishCallBa
20 款优秀的 Linux 终端仿真器 brotherlamp linux linux视频 linux资料 linux自学 linux教程
终端仿真器是一款用其它显示架构重现可视终端的计算机程序。换句话说就是终端仿真器能使哑终端看似像一台连接上了服务器的客户机。终端仿真器允许最终用户用文本用户界面和命令行来访问控制台和应用程序。（LCTT 译注：终端仿真器原意指对大型机-哑终端方式的模拟，不过在当今的 Linux 环境中，常指通过远程或本地方式连接的伪终端，俗称“终端”。）你能从开源世界中找到大量的终端仿真器，它们
Solr Deep Paging(solr 深分页) eksliang solr深分页 solr分页性能问题
转载请出自出处：http://eksliang.iteye.com/blog/2148370 作者：eksliang(ickes) blg:http://eksliang.iteye.com/ 概述长期以来，我们一直有一个深分页问题。如果直接跳到很靠后的页数，查询速度会比较慢。这是因为Solr的需要为查询从开始遍历所有数据。直到Solr的4.7这个问题一直没有一个很好的解决方案。直到solr
数据库面试题 18289753290 面试题数据库
1.union ,union all 网络搜索出的最佳答案： union和union all的区别是,union会自动压缩多个结果集合中的重复结果，而union all则将所有的结果全部显示出来，不管是不是重复。 Union：对两个结果集进行并集操作，不包括重复行，同时进行默认规则的排序； Union All：对两个结果集进行并集操作，包括重复行，不进行排序； 2.索引有哪些分类？作用是
Android TV屏幕适配酷的飞上天空 android
先说下现在市面上TV分辨率的大概情况两种分辨率为主 1.720标清，分辨率为1280x720. 屏幕尺寸以32寸为主，部分电视为42寸 2.1080p全高清，分辨率为1920x1080 屏幕尺寸以42寸为主，此分辨率电视屏幕从32寸到50寸都有适配遇到问题，已1080p尺寸为例：分辨率固定不变，屏幕尺寸变化较大。如：效果图尺寸为1920x1080，如果使用d
Timer定时器与ActionListener联合应用永夜-极光 java
功能:在控制台每秒输出一次代码: package Main; import javax.swing.Timer; import java.awt.event.*; public class T { private static int count = 0; public static void main(String[] args){
Ubuntu14.04系统Tab键不能自动补全问题解决随便小屋 Ubuntu 14.04
Unbuntu 14.4安装之后就在终端中使用Tab键不能自动补全，解决办法如下： 1、利用vi编辑器打开/etc/bash.bashrc文件（需要root权限） sudo vi /etc/bash.bashrc 接下来会提示输入密码 2、找到文件中的下列代码 #enable bash completion in interactive shells #if
学会人际关系三招轻松走职场 aijuans 职场
要想成功，仅有专业能力是不够的，处理好与老板、同事及下属的人际关系也是门大学问。如何才能在职场如鱼得水、游刃有余呢？在此，教您简单实用的三个窍门。　　第一，多汇报最近，管理学又提出了一个新名词“追随力”。它告诉我们，做下属最关键的就是要多请示汇报，让上司随时了解你的工作进度，有了新想法也要及时建议。不知不觉，你就有了“追随力”，上司会越来越了解和信任你。　　第二，勤沟通团队的力
《O2O：移动互联网时代的商业革命》读书笔记 aoyouzi 读书笔记
移动互联网的未来：碎片化内容+碎片化渠道=各式精准、互动的新型社会化营销。 O2O：Online to OffLine 线上线下活动 O2O就是在移动互联网时代，生活消费领域通过线上和线下互动的一种新型商业模式。手机二维码本质：O2O商务行为从线下现实世界到线上虚拟世界的入口。线上虚拟世界创造的本意是打破信息鸿沟，让不同地域、不同需求的人
js实现图片随鼠标滚动的效果百合不是茶 JavaScript 滚动属性的获取图片滚动属性获取页面加载
1,获取样式属性值 top 与顶部的距离 left 与左边的距离 right 与右边的距离 bottom 与下边的距离 zIndex 层叠层次例子:获取左边的宽度,当css写在body标签中时 <div id="adver" style="position:absolute;top:50px;left:1000p
ajax同步异步参数async bijian1013 jquery Ajax async
开发项目开发过程中，需要将ajax的返回值赋到全局变量中，然后在该页面其他地方引用，因为ajax异步的原因一直无法成功，需将async:false，使其变成同步的。格式： $.ajax({ type: 'POST', ur
Webx3框架（1） Bill_chen eclipse spring maven 框架 ibatis
Webx是淘宝开发的一套Web开发框架，Webx3是其第三个升级版本；采用Eclipse的开发环境，现在支持java开发；采用turbine原型的MVC框架，扩展了Spring容器，利用Maven进行项目的构建管理，灵活的ibatis持久层支持，总的来说，还是一套很不错的Web框架。 Webx3遵循turbine风格，velocity的模板被分为layout/screen/control三部
【MongoDB学习笔记五】MongoDB概述 bit1129 mongodb
MongoDB是面向文档的NoSQL数据库，尽量业界还对MongoDB存在一些质疑的声音，比如性能尤其是查询性能、数据一致性的支持没有想象的那么好，但是MongoDB用户群确实已经够多。MongoDB的亮点不在于它的性能，而是它处理非结构化数据的能力以及内置对分布式的支持(复制、分片达到的高可用、高可伸缩)，同时它提供的近似于SQL的查询能力，也是在做NoSQL技术选型时，考虑的一个重要因素。Mo
spring/hibernate/struts2常见异常总结白糖_ Hibernate
Spring ①ClassNotFoundException: org.aspectj.weaver.reflect.ReflectionWorld$ReflectionWorldException 缺少aspectjweaver.jar，该jar包常用于spring aop中 ②java.lang.ClassNotFoundException: org.sprin
jquery easyui表单重置(reset)扩展思路 bozch form jquery easyui reset
在jquery easyui表单中尚未提供表单重置的功能，这就需要自己对其进行扩展。扩展的时候要考虑的控件有： combo,combobox,combogrid,combotree,datebox,datetimebox 需要对其添加reset方法，reset方法就是把初始化的值赋值给当前的组件，这就需要在组件的初始化时将值保存下来。在所有的reset方法添加完毕之后，就需要对fo
编程之美-烙饼排序 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; /* *《编程之美》的思路是：搜索+剪枝。有点像是写下棋程序：当前情况下，把所有可能的下一步都做一遍；在这每一遍操作里面，计算出如果按这一步走的话，能不能赢（得出最优结果）。 *《编程之美》上代码有很多错误，且每个变量的含义令人费解。因此我按我的理解写了以下代码： */
Struts1.X 源码分析之ActionForm赋值原理 chenbowen00 struts
struts1在处理请求参数之前，首先会根据配置文件action节点的name属性创建对应的ActionForm。如果配置了name属性，却找不到对应的ActionForm类也不会报错，只是不会处理本次请求的请求参数。如果找到了对应的ActionForm类，则先判断是否已经存在ActionForm的实例，如果不存在则创建实例，并将其存放在对应的作用域中。作用域由配置文件action节点的s
[空天防御与经济]在获得充足的外部资源之前,太空投资需有限度 comsci 资源
这里有一个常识性的问题: 地球的资源,人类的资金是有限的,而太空是无限的..... 就算全人类联合起来,要在太空中修建大型空间站,也不一定能够成功,因为资源和资金,技术有客观的限制.... &
ORACLE临时表—ON COMMIT PRESERVE ROWS daizj oracle 临时表
ORACLE临时表转临时表：像普通表一样，有结构，但是对数据的管理上不一样，临时表存储事务或会话的中间结果集，临时表中保存的数据只对当前会话可见，所有会话都看不到其他会话的数据，即使其他会话提交了，也看不到。临时表不存在并发行为，因为他们对于当前会话都是独立的。创建临时表时，ORACLE只创建了表的结构（在数据字典中定义），并没有初始化内存空间，当某一会话使用临时表时，ORALCE会
基于Nginx XSendfile+SpringMVC进行文件下载 denger 应用服务器 Web nginx 网络应用 lighttpd
在平常我们实现文件下载通常是通过普通 read-write方式，如下代码所示。 @RequestMapping("/courseware/{id}") public void download(@PathVariable("id") String courseID, HttpServletResp
scanf接受char类型的字符 dcj3sjt126com c
/* 2013年3月11日22:35:54 目的：学习char只接受一个字符 */ # include <stdio.h> int main(void) { int i; char ch; scanf("%d", &i); printf("i = %d\n", i); scanf("%
学编程的价值 dcj3sjt126com 编程
发一个人会编程, 想想以后可以教儿女, 是多么美好的事啊, 不管儿女将来从事什么样的职业, 教一教, 对他思维的开拓大有帮助像这位朋友学习: http://blog.sina.com.cn/s/articlelist_2584320772_0_1.html VirtualGS教程 (By @林泰前): 几十年的老程序员，资深的
二维数组（矩阵）对角线输出飞天奔月二维数组
今天在BBS里面看到这样的面试题目, 1，二维数组（N*N），沿对角线方向，从右上角打印到左下角如N=4： 4*4二维数组 { 1 2 3 4 } { 5 6 7 8 } { 9 10 11 12 } {13 14 15 16 } 打印顺序 4 3 8 2 7 12 1 6 11 16 5 10 15 9 14 13 要
Ehcache（08）——可阻塞的Cache——BlockingCache 234390216 并发 ehcache BlockingCache 阻塞
可阻塞的Cache—BlockingCache 在上一节我们提到了显示使用Ehcache锁的问题，其实我们还可以隐式的来使用Ehcache的锁，那就是通过BlockingCache。BlockingCache是Ehcache的一个封装类，可以让我们对Ehcache进行并发操作。其内部的锁机制是使用的net.
mysqldiff对数据库间进行差异比较 jackyrong mysqld
mysqldiff该工具是官方mysql-utilities工具集的一个脚本，可以用来对比不同数据库之间的表结构，或者同个数据库间的表结构如果在windows下，直接下载mysql-utilities安装就可以了，然后运行后，会跑到命令行下： 1）基本用法 mysqldiff --server1=admin:12345
spring data jpa 方法中可用的关键字 lawrence.li java spring
spring data jpa 支持以方法名进行查询/删除/统计。查询的关键字为find 删除的关键字为delete/remove (>=1.7.x) 统计的关键字为count (>=1.7.x) 修改需要使用@Modifying注解 @Modifying @Query("update User u set u.firstna
Spring的ModelAndView类 nicegege spring
项目中controller的方法跳转的到ModelAndView类，一直很好奇spring怎么实现的？ /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version 2.0 (the "License"); * yo
搭建 CentOS 6 服务器(13) - rsync、Amanda rensanning centos
（一）rsync Server端 # yum install rsync # vi /etc/xinetd.d/rsync service rsync { disable = no flags = IPv6 socket_type = stream wait
Learn Nodejs 02 toknowme nodejs
（1）npm是什么 npm is the package manager for node 官方网站：https://www.npmjs.com/ npm上有很多优秀的nodejs包，来解决常见的一些问题，比如用node-mysql，就可以方便通过nodejs链接到mysql，进行数据库的操作在开发过程往往会需要用到其他的包，使用npm就可以下载这些包来供程序调用 &nb
Spring MVC 拦截器 xp9802 spring mvc
Controller层的拦截器继承于HandlerInterceptorAdapter HandlerInterceptorAdapter.java 1 public abstract class HandlerInterceptorAdapter implements HandlerIntercep

Apache Tika源码研究（三）

你可能感兴趣的:(apache)