flamingsky007

lucence

时间关系暂时做到这，还有很多没有完善的，比如对压缩文件的处理，对索引与搜索的优化等。应早日完善。

package com.aheadsoft.lucene.test;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.io.InputStream;
import java.util.Date;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.queryParser.ParseException;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopScoreDocCollector;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.pdfbox.pdfparser.PDFParser;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.util.PDFTextStripper;
import org.apache.poi.POIXMLDocument;
import org.apache.poi.POIXMLTextExtractor;
import org.apache.poi.hslf.HSLFSlideShow;
import org.apache.poi.hslf.model.Slide;
import org.apache.poi.hslf.model.TextRun;
import org.apache.poi.hslf.usermodel.SlideShow;
import org.apache.poi.hssf.extractor.ExcelExtractor;
import org.apache.poi.hssf.usermodel.HSSFWorkbook;
import org.apache.poi.hwpf.extractor.WordExtractor;
import org.apache.poi.openxml4j.opc.OPCPackage;
import org.apache.poi.xwpf.extractor.XWPFWordExtractor;
import org.wltea.analyzer.lucene.IKAnalyzer;
import org.wltea.analyzer.lucene.IKQueryParser;
import org.wltea.analyzer.lucene.IKSimilarity;

public class LuceneUtil
{
/**
* 创建目录
* @param indexPath 索引文件路径
* @param dataPath 要创建索引的文件目录
* @throws IOException
*/
public static void createIndex(String indexPath,String dataPath) throws IOException
{
   File dataDir = new File(dataPath);
    if (!dataDir.exists() || !dataDir.isDirectory()) {
         throw new IOException(dataDir
           + " does not exist or is not a directory");
       }
   File indexDir = new File(indexPath);
//   Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_CURRENT); // 创建一个语法分析器
   Analyzer analyzer = new IKAnalyzer();
         IndexWriter writer = null;
         // 文件目录
         Directory directory = null;
         try {
             // 索引文件可放的位置：索引可以存放在两个地方1.硬盘，2.内存；
             // 放在硬盘上可以用FSDirectory()，放在内存的用RAMDirectory()不过一关机就没了
             directory = FSDirectory.open(indexDir); // 把索引文件存储到磁盘目录
             // 创建一个IndexWriter(存放索引文件的目录,分析器,Field的最大长度)
             // 可见构造它需要一个索引文件目录，一个分析器(一般用标准的这个)，一个参数是标识是否清空索引目录
             //create：此参数为Boolean型，true表示重新创建整个索引， false 表示增量式创建
             //create - true to create the index or overwrite the existing one; false to append to the existing index
             writer = new IndexWriter(directory, analyzer, true,
                     IndexWriter.MaxFieldLength.UNLIMITED);
             // 索引合并因子
             // 一、SetMergeFactor（合并因子）
             // SetMergeFactor是控制segment合并频率的，其决定了一个索引块中包括多少个文档，当硬盘上的索引块达到多少时，
             // 将它们合并成一个较大的索引块。当MergeFactor值较大时，生成索引的速度较快。MergeFactor的默认值是10，建议在建立索引前将其设置的大一些。
             writer.setMergeFactor(1000);
             // 二、SetMaxBufferedDocs（最大缓存文档数）
             // SetMaxBufferedDocs是控制写入一个新的segment前内存中保存的document的数目，
             // 设置较大的数目可以加快建索引速度，默认为10。
//             writer.setMaxBufferedDocs(100);
             // 三、SetMaxMergeDocs（最大合并文档数）
             // SetMaxMergeDocs是控制一个segment中可以保存的最大document数目，值较小有利于追加索引的速度，默认Integer.MAX_VALUE，无需修改。
             writer.setMaxMergeDocs(1000);
             //四、在创建大量数据的索引时，我们会发现索引过程的瓶颈在于大量的磁盘操作，如果内存足够大的话，
             // 我们应当尽量使用内存，而非硬盘。可以通过SetMaxBufferedDocs来调整，增大Lucene使用内存的次数。
//             writer.setMaxBufferedDocs(100);
             // 五、SetUseCompoundFile这个方法可以使Lucene在创建索引库时，会合并多个 Segments 文件到一个 .cfs 中。
             // 此方式有助于减少索引文件数量，对于将来搜索的效率有较大影响。
             // 压缩存储（True则为复合索引格式）
             writer.setUseCompoundFile(true);
             indexDirectory(writer, dataDir);
             // 对索引进行优化
             writer.optimize();
             // 若需要从索引中删除某一个或者某一类文档，IndexReader提供了两种方法：
             // reader.DeleteDocument(int docNum)
             // reader.DeleteDocuments(Term term)
             //
             // 前者是根据文档的编号来删除该文档，docNum是该文档进入索引时Lucene的编号，是按照顺序编的；后者是删除满足某一个条件的多个文档。
             //
             // 在执行了DeleteDocument或者DeleteDocuments方法后，系统会生成一个*.del的文件，该文件中记录了删除的文档，但并未从物理上删除这些文档。
             //此时，这些文档是受保护的，当使用Document
             // doc = reader.Document(i)来访问这些受保护的文档时，Lucene会报“Attempt to access a
             // deleted document”异常。如果一次需要删除多个文档时，可以用两种方法来解决：
             //
             // 1. 删除一个文档后，用IndexWriter的Optimize方法来优化索引，这样我们就可以继续删除另一个文档。
             //
             // 2.
             // 先扫描整个索引文件，记录下需要删除的文档在索引中的编号。然后，一次性调用DeleteDocument删除这些文档，再调用IndexWriter的Optimize方法来优化索引。

         } catch (IOException e) {
             e.printStackTrace();
         } finally {
             if (writer != null) {
                 try {
                     writer.close(); // 关闭IndexWriter时,才把内存中的数据写到文件
                 } catch (IOException e) {
                     e.printStackTrace();
                 }
             }
             if (directory != null) {
                 try {
                     directory.close(); // 关闭索引存放目录
                 } catch (IOException e) {
                     e.printStackTrace();
                 }
             }
         }
}
/**
     * 递归文件
     *
     * @param writer
     * @param dir
     * @throws IOException
     */
    private static void indexDirectory(IndexWriter writer, File dataDir)
            throws IOException {

        File[] files = dataDir.listFiles();
        for (File src : files) {
            if (src.isDirectory()) {
                // 如果是文件继续递归
                indexDirectory(writer, src); // recurse

            } else {
                indexFile(writer, src);
            }
        }
    }
    /**
     * 建立索引表
     *
     * @param writer
     * @param src
     * @throws IOException
     */
    private static void indexFile(IndexWriter writer, File src)
            throws IOException {
        // 如果文件时隐藏或者文件不存在或则文件不能读，则返回
        if (src.isHidden() || !src.exists() || !src.canRead()) {
            return;
        }
        // 显示读取的文件内容
        String text = loadFileToString(src);

        Document doc = new Document();

        //NOT_ANALYZED_NO_NORMS NOT_ANALYZED不分词，NO_NORMS不使用已定义的Analyzer来分词
        //Field.Store.YES 可直接取其内容 Field.Store.NO 查询到相关记录时无法取其内容。
        doc.add(new Field("contents", src.getName()+text, Field.Store.YES,
                Field.Index.ANALYZED));
        //大段文本内容,会用来检索,但是检索后不需要从index中取内容,可以根据url去load真实的内容
        doc.add(new Field("filename", src.getName(), Field.Store.YES,
                Field.Index.ANALYZED));
        writer.addDocument(doc);

    }

    /**
     * 将文件读出来转化为字符串
     *
     * @param file
     *            源文件，不能是文件夹
     * @return
     */
    private static String loadFileToString(File file)
    {
     String text ="";
     if(file.getName().endsWith(".txt"))
     {
      try
   {
       long start = new Date().getTime();
       text= readTxt(file);
     long end = new Date().getTime();

     System.out.println("Indexing "+file.getName()+" took "
                   + (end - start) + " milliseconds size is " +file.length());

   } catch (Exception e)
   {
    System.out.println("读取TXT文件时出错！");
    e.printStackTrace();
   }
     }else if(file.getName().endsWith(".doc")||file.getName().endsWith(".docx"))
     {
      try
   {
       long start = new Date().getTime();
    text= readDoc(file);
     long end = new Date().getTime();

     System.out.println("Indexing "+file.getName()+" took "
                   + (end - start) + " milliseconds size is " +file.length());
   } catch (Exception e)
   {
    System.out.println("读取doc文件时出错！");
    e.printStackTrace();
   }
     }else if(file.getName().endsWith(".xls")||file.getName().endsWith(".xlsx"))
     {
      try
   {
       long start = new Date().getTime();
       text= readExcel(file);
     long end = new Date().getTime();
       System.out.println("Indexing "+file.getName()+" took "
                   + (end - start) + " milliseconds size is " +file.length());

   } catch (Exception e)
   {
    System.out.println("读取excel文件时出错！");
    e.printStackTrace();
   }
     }else if(file.getName().endsWith(".ppt")||file.getName().endsWith(".pptx"))
     {
      try
   {
       long start = new Date().getTime();
       text= readPpt(file);
     long end = new Date().getTime();

       System.out.println("Indexing "+file.getName()+" took "
                   + (end - start) + " milliseconds size is " +file.length());

   } catch (Exception e)
   {
    System.out.println("读取ppt文件时出错！");
    e.printStackTrace();
   }
     }else if(file.getName().endsWith(".pdf"))
     {
      try
   {
       long start = new Date().getTime();
       text= readPdf(file);
     long end = new Date().getTime();

       System.out.println("Indexing "+file.getName()+" took "
                   + (end - start) + " milliseconds size is " +file.length());

   } catch (Exception e)
   {
    System.out.println("读取pdf文件时出错！");
    e.printStackTrace();
   }
     }else
     {
      try
   {
       long start = new Date().getTime();
       text= readTxt(file);
     long end = new Date().getTime();

       System.out.println("Indexing "+file.getName()+" took "
                   + (end - start) + " milliseconds size is " +file.length());


   } catch (Exception e)
   {
    System.out.println("读取其它文件格式时出错！");
    e.printStackTrace();
   }
     }



     return text;
    }
    /**
     * 读取Txt文件格式
     * @param xls
     * @return
     * @throws Exception
     */
    private static String readTxt(File txt)throws Exception {

      BufferedReader br = null;
         try {
             // 字符缓冲流，是个装饰流，提高文件读取速度
             br = new BufferedReader(new FileReader(txt));
             StringBuffer sb = new StringBuffer();
             String line = br.readLine();
             while (null != line) {
                 sb.append(line);
                 line = br.readLine();
             }
             return sb.toString();
         } catch (FileNotFoundException e) {
             System.out.println("文件不存在!");
             return null;
         } catch (IOException e) {
             e.printStackTrace();
             return null;
         } finally {
             try {
                 br.close();
             } catch (IOException e) {
                 System.out.println("关闭流出现异常");
                 e.printStackTrace();
             }
         }
    }
    /**
     * 读取XLS文件格式
     * @param xls
     * @return
     * @throws Exception
     */
    private static String readExcel(File xls)throws Exception {
        // 创建输入流读取xls文件
        InputStream in = new FileInputStream(xls);//xls文件存储地址
        HSSFWorkbook workbook = new HSSFWorkbook(in);   //读取一个文件
        ExcelExtractor extractor = new ExcelExtractor(workbook);

extractor.setFormulasNotResults(true);
extractor.setIncludeSheetNames(false);

String text = extractor.getText(); //Retrieves the text contents of the file
return text;

    }
/**
* 读取word文档
* @param doc
* @return
* @throws Exception
*/
    private static String readDoc(File doc) throws Exception {
        // 创建输入流读取DOC文件
        FileInputStream in = new FileInputStream(doc);
        String text="";
        if(doc.getName().endsWith(".doc"))
        {
         WordExtractor extractor = null; // 创建WordExtractor
         extractor = new WordExtractor(in);// 对DOC文件进行提取
         text = extractor.getText();
        }else
        {
         //docx
          OPCPackage opcPackage = POIXMLDocument.openPackage(doc.getAbsolutePath());
             POIXMLTextExtractor ex = new XWPFWordExtractor(opcPackage);

text= ex.getText();

        }

        return text;

}

    private static String readPpt(File ppt)throws Exception {
         // 创建输入流读取ppt文件
        FileInputStream is = new FileInputStream(ppt);
        SlideShow ss = new SlideShow(new HSLFSlideShow(is));//is 为文件的InputStream，建立SlideShow
        Slide[] slides = ss.getSlides();//获得每一张幻灯片

        String text = new String();
        for(int i=0;i<slides.length;i++){
            TextRun[] t = slides[i].getTextRuns();//为了取得幻灯片的文字内容，建立TextRun
            for(int j=0;j<t.length;j++){
            //System.out.println(t[j].getText());//这里会将文字内容加到content中去
            text += t[j].getText();
            }
        }
        return text;
     }

    private static String readPdf(File pdf){
         // 创建输入流读取pdf文件
         String result="";
         FileInputStream is = null;
         PDDocument document = null;
          try {
              is = new FileInputStream(pdf);
              PDFParser parser = new PDFParser(is);
              parser.parse();
              document = parser.getPDDocument();
              PDFTextStripper stripper = new PDFTextStripper();
              result = stripper.getText(document);

}catch (Exception e) {

                e.printStackTrace();
              } finally {
                  if (is != null) {
                    try {
                          is.close();
                     } catch (Exception e) {
                        e.printStackTrace();
                     }
                   }
                if (document != null) {
                   try {
                    document.close();
                  } catch (Exception e) {
                       e.printStackTrace();
                  }
                 }
         }
        return result;
      }

    public static void main(String[] args) throws ParseException
{
     try
{
//   createIndex("E://index", "E://index//data");
   search("E://index", "公    司","contents");
} catch (IOException e)
{
   e.printStackTrace();
}

}

    public static void search(String indexDir, String keyword,String field) throws CorruptIndexException, IOException, ParseException
{

     IndexSearcher is = new IndexSearcher(FSDirectory.open(new File(indexDir)),true);//read-only
      //在索引器中使用IKSimilarity相似度评估器,用哪个分词算法好，可以根据实际要求来定,个人认为StandardAnalyzer比IKAnalyzer高效
        is.setSimilarity(new IKSimilarity());
        Query query = IKQueryParser.parse(field, keyword);
//        QueryParser parser = new QueryParser(Version.LUCENE_CURRENT, field, new StandardAnalyzer(Version.LUCENE_CURRENT));
//
//        Query query = parser.parse(keyword);
//        BooleanQuery q = new BooleanQuery();
//        q.add(query,Occur.MUST);

        TopScoreDocCollector collector = TopScoreDocCollector.create(10 , false);

        long start = new Date().getTime();// start time
//        TopDocs topDocs = is.search(query , 5);
        is.search(query, collector);
        ScoreDoc[] hits = collector.topDocs().scoreDocs;

        System.out.println(hits.length);
        for (int i = 0; i < hits.length; i++)
        {
         Document doc = is.doc(hits[i].doc);//new method is.doc()
//         System.out.println(doc.getField("filename")+"   "+doc.getField("contents")+" "+hits[i].toString()+" ");
         System.out.println(doc.getField("filename")+"   " +hits[i].toString()+" ");
     }
        long end = new Date().getTime();//end time

        System.out.println("Found " + collector.getTotalHits() +
               " document(s) (in " + (end - start) +
               " milliseconds) that matched query '" +
                 keyword + "':");
}
}

本文来自CSDN博客，转载请标明出处：http://blog.csdn.net/cbdhxka/archive/2010/01/07/5151660.aspx

Xcode工程pod方式引用第三方SnapKit库流程及问题总结 f8之4 iOS Xcode 笔记 Xcode pod SnapKit
Xcode工程pod方式引用第三方SnapKit库流程及问题总结Podfile文件生成Podfile文件编辑Podfile文件下载库代码问题总结Xcode路径错误CocoaPods版本太低不能写入目录Podfile文件Podfile位于项目目录的根目录下，这里面主要声明了导入第三方库的名称及版本号。生成Podfile文件命令行先cd进入工程所在的目录，执行podinit命令该命令执行成功，目录下会
Swagger：API文档的得力助手 KBkongbaiKB java spring 开发语言
在当今软件开发领域，高效的开发流程与清晰的文档规范对于项目的成功实施起着至关重要的作用。Swagger作为一款强大的API文档生成工具，正逐渐成为开发者们的得力助手。一、Swagger的核心价值（一）自动化文档生成Swagger能够根据代码中的注释和注解，自动生成详细的API文档。这大大减少了开发者手动编写文档的时间和工作量，同时也确保了文档与代码的一致性。当代码发生变化时，只需更新相应的注释或注
ubuntu共享文件夹到windows xf807989 linux ubuntu linux 运维
1.sudoaptupdate2.sudoaptinstallsamba3.sudogedit/etc/samba/smb.conf末尾加4.sudoservicesmbdrestart也可以sudosystemctlrestartsmbd5.设置防火墙允许smabasudoufwallowsamba6.设置共享密码sudosmbpasswd-a密码7.\192.168.136.129\share
【diffusers极速入门（四）】EMA 操作是什么？多恩Stone Diffusion AIGC Transformer 人工智能深度学习 pytorch python AIGC diffusers
系列文章目录【diffusers极速入门（一）】pipeline实际调用的是什么？call方法!【diffusers极速入门（二）】如何得到扩散去噪的中间结果？Pipelinecallbacks管道回调函数【diffusers极速入门（三）】生成的图像尺寸与UNet和VAE之间的关系本文将介绍diffusers中常见的EMA操作。提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章
spark官方配置参数详解我丶怀念的 spark scala d s
以下是整理的Spark中的一些配置参数，官方文档请参考SparkConfiguration。Spark提供三个位置用来配置系统：Spark属性：控制大部分的应用程序参数，可以用SparkConf对象或者Java系统属性设置环境变量：可以通过每个节点的conf/spark-env.sh脚本设置。例如IP地址、端口等信息日志配置：可以通过log4j.properties配置Spark属性Spark属性
Scala 默认参数值、命名参数小黑王HK 大数据 Scala 默认参数值命名参数
默认参数值Scala提供了给参数设置默认值的机制，这样，便可以令调用者在调用方法时省略这些参数。#定义具有默认参数的方法deflog(kkk:String,iii:String="GG")=println(s"$kkk$iii")#忽略具有默认值的参数log("hhhhhhh")如果调用者省略了某一参数，那么此参数之后的参数需要指定名称。deflll(kkk:String="GG",ggg:Str
SpringBoot使用 easy-captcha 实现验证码登录功能八月五实战项目 spring boot 后端 java
文章目录一、环境准备1.解决思路2.接口文档3.redis下载二、后端实现1.引入依赖2.添加配置3.后端代码实现4.前端代码实现在前后端分离的项目中，登录功能是必不可少的。为了提高安全性，通常会加入验证码验证。easy-captcha是一个简单易用的验证码生成库，支持多种类型的验证码（如字符、中文、算术等）。本文将介绍如何在SpringBoot后端和Vue.js前端中集成easy-captcha
XML DOM 节点 shangaoo xml 前端 javascript
在DOM中，XML文档中的每个成分都是一个节点。DOM节点根据DOM，XML文档中的每个成分都是一个节点。DOM是这样规定的：整个文档是一个文档节点每个XML元素是一个元素节点包含在XML元素中的文本是文本节点每一个XML属性是一个属性节点注释是注释节点DOM实例请看下面的XML文件（books.xml）：books.xml文件代码：EverydayItalianGiadaDeLaurentiis
DTD - XML 构建模块 kekexi1i xml 算法
XML和HTML文档的主要的构建模块是元素标签。XML文档构建模块所有的XML文档（以及HTML文档）均由以下简单的构建模块构成：元素属性实体PCDATACDATA元素元素是XML以及HTML文档的主要构建模块。HTML元素的例子是"body"和"table"。XML元素的例子是"note"和"message"。元素可包含文本、其他元素或者是空的。空的HTML元素的例子是"hr"、"br"以及"i
4.scala默认参数值 qwy715229258163 scala scala 开发语言后端
Scala具备给参数提供默认值的能力，这样调用者就可以忽略这些具有默认值的参数。deflog(message:String,level:String="INFO")=println(s"$level:$message")log("Systemstarting")//printsINFO:Systemstartinglog("Usernotfound","WARNING")//printsWARNI
Python 中的异常处理：try except Exception as e 三带俩王 python
在Python编程中，异常处理是一项至关重要的技能，它可以帮助我们提高程序的稳定性和可靠性。其中，tryexceptExceptionase语句是一种常见的异常处理方式。在这篇博客中，我们将深入探讨这个语句的要点和高级用法。一、异常处理的重要性在编程过程中，错误是不可避免的。这些错误可能是由于用户输入错误、文件不存在、网络连接问题等原因引起的。如果我们不处理这些错误，程序可能会崩溃，导致数据丢失或
linux环境变量配置文件区别 /etc/profile和~/.bash_profile 思静鱼 Linux&运维安装 linux
在Linux系统中，环境变量可以定义用户会话的行为，而这些变量的加载和配置通常涉及多个文件，如~/.bash_profile和/etc/profile。这些文件的作用和加载时机各有不同。以下是对它们的详细区别和用途的说明：文章目录1.环境变量配置文件的主要分类2.文件的加载时机和优先级3.常见文件的作用和示例4.推荐的配置方法5.总结1.环境变量配置文件的主要分类文件名作用范围加载时机说明/etc
Svelte 最新中文文档翻译（5）—— 基础标记
前言Svelte，一个非常“有趣”、用起来“很爽”的前端框架。从Svelte诞生之初，就备受开发者的喜爱，根据统计，从2019年到2024年，连续6年一直是开发者最感兴趣的前端框架No.1：Svelte以其独特的编译时优化机制著称，具有轻量级、高性能、易上手等特性，非常适合构建轻量级Web项目，也是我做个人项目的首选技术栈。目前Svelte基于Svelte5发布了最新的官方文档，但却缺少对应的中文
Apache Airflow 2.1.2：开源工作流管理系统的全面指南銀河鐵道的企鵝
本文还有配套的精品资源，点击获取简介：ApacheAirflow2.1.2是一个开源的工作流管理系统，用于编排、调度和监控复杂的业务逻辑。它基于DAG（有向无环图）概念，通过Python代码定义任务的Operator，定义任务的执行顺序和条件。该版本提供了任务调度、监控、错误处理、插件扩展和多环境管理等核心功能。解压后包含许可证文件、文档和源代码目录等，且介绍了安装和运行步骤。Airflow适用于
支持生成式 AI：聊天与文档检索的结合 drebander AI 编程人工智能 springAI
生成式AI已成为现代应用的重要组成部分，从实时聊天到文档检索，再到智能问答系统，其核心是能够理解上下文并生成有用的回答。在生成式AI中，聊天会话内存（ChatConversationMemory）和检索增强生成（RAG,RetrievalAugmentedGeneration）是两个关键功能，分别解决了上下文管理和大规模文档检索问题。本文将介绍SpringAI如何支持这两个功能，并通过实际应用场景
飞速搭震撼上线开启软件开发智能化新篇章低代码
近日，飞速低代码开发平台迎来了一项具有里程碑意义的重大更新——“飞速搭”正式上线。飞速搭通过深度融合前沿的人工智能技术，实现了从需求文档到应用发布的无缝衔接，一键智能生成应用，为软件开发领域带来了全新的突破和变革。“飞速搭”的实现路径高效而清晰。用户只需将需求文档或需求描述输入给预训练的大模型，这一步骤极大地简化了传统软件开发中繁琐的需求分析和文档编写过程，使用户能够更专注于核心需求的表达。大模型
《CPython Internals》阅读笔记：p360-p377 python
《CPythonInternals》学习第20天，p360-p377总结，总计18页。一、技术总结1.seaborn可视化工具。2.dtrace(1)安装sudoapt-getinstallsystemtap-sdt-dev(2)编译./configure--with-dtracemakecleanmake3.snakeviz适用于cProfile的可视化工具。二、英语总结(生词：0)无。关于英语
【python】csv模块 m 宽 python python 开发语言
importcsv#用列表方式写入withopen("test.csv","w",newline="")asf:#注意，执行newline=""那么数据会自动换行,如果不指定，那么会多换一行writer=csv.writer(f)writer.writerow(["symbol","date","close"])writer.writerow(["rb2101","20200907","3736"
如何在容器内开发由数入道 docker 容器
在Docker容器内开发是现代开发的一种流行方式，特别是在需要一致性环境和依赖隔离的情况下。以下是详细的思路、方法和步骤，以及一个具体实例说明如何在容器内开发。一、为什么在容器内开发？一致性环境：容器内的开发环境与生产环境一致，避免“本地运行正常，服务器出问题”。依赖隔离：容器隔离不同项目的依赖，避免冲突。团队协作：通过共享Dockerfile或docker-compose，开发团队成员可以使用相
解决Python中libhdfs.so的共享库找不到的问题 code_welike python 开发语言 Python
解决Python中libhdfs.so的共享库找不到的问题在Python开发过程中，有时会遇到导入共享库时出现"ImportError:Cannotfindthesharedlibrary:libhdfs.so"的错误。这个错误通常发生在使用Python访问Hadoop分布式文件系统（HadoopDistributedFileSystem，简称HDFS）时，由于缺少libhdfs.so共享库文件而
【Wordpress网站制作】无法安装插件/主题等权限问题 TUTO_TUTO wordpress 有用没用小功能 apache apache 服务器 linux
前言自学笔记，解决问题为主，亲测有效，欢迎补充。本文重点：解决无法安装插件/主题问题问题描述：OS系统，XAMPP+Wordpress，在安装【插件】和下载【主题/模版】的时候，遇到以下问题。Installationfailed:Couldnotcreatedirectory./Applications/XAMPP/xamppfiles/htdocs/mactestwp/wp-content/up
【Leetcode 每日一题】40. 组合总和 II 冠位观测者 Leetcode Daily leetcode 算法数据结构
问题背景给定一个候选人编号的集合candidatescandidatescandidates和一个目标数targettargettarget，找出candidatescandidatescandidates中所有可以使数字和为targettargettarget的组合。candidatescandidatescandidates中的每个数字在每个组合中只能使用一次。注意：解集不能包含重复的组合。数
25.日常算法三问走天下 #每日算法题算法哈希算法
1.仅仅反转字母题目来源给你一个字符串s，根据下述规则反转字符串：所有非英文字母保留在原有位置。所有英文字母（小写或大写）位置反转。返回反转后的s。示例1：输入：s=“ab-cd”输出：“dc-ba”classSolution{public:stringreverseOnlyLetters(strings){intleft=0,right=s.size();while(lefthash;for(a
IBM X3400服务器网卡深度解析与应用指南易个小小钡原子
本文还有配套的精品资源，点击获取简介：IBMX3400服务器的网络适配器是连接服务器与网络的关键硬件，具备高可靠性和稳定性。本文将探讨IBMX3400网卡的特性、功能以及驱动程序安装与管理。网卡支持多种网络协议如TCP/IP、UDP，确保高效准确的数据传输。IBM官方提供的网卡驱动程序对于硬件的正确识别和性能至关重要，同时需确保其与WindowsServer2003等操作系统的兼容性。官方文档提供
.Net HTTP 请求封装代码 code36 C#&.Net开发 http 网络协议 .net
有了这些方法请求第三api接口就不用慌了，拷贝就可以用了定义了一个请求的接口IHttpClientMananger：1）POST请求泛型数据//////POST请求泛型数据//////请求的对象///地址///参数///头部数据///TaskPostEntityAsync(stringurl,HttpContenthttpContent,Dictionaryheads=null);2）Form表单
选择最佳线路（二）周山至水数翠峰算法数据结构贪心算法
如何要改进？在上文中，讨论了最佳线路计算的数据结构的算法。但在交通线路的描述中，对网站线路孤立的起点，为了防止计算中无效循环，人为增加了下一结点为-1的虚拟点。但增加结点ID为-1的点，与现实不符。本文试图取消ID为-1的结点，并对算法进行修改。修改后的深圳地铁的描述为string[]nsStr=["1:1","0:1>2:1>6:1>16:1","1:4>3:6>7:3>15:1","2:1>4
Redis service failed to start的解决方法关关钧 redis 数据库 python
当进入cmd后，运行命令启动redis服务：redis-server.exe--service-start--service-nameredisserver1然而却报错了：Redisservicefailedtostart.解决方法：1、在解压的目录下找到redis.windows-service.conf2、打开redis.windows-service.conf，搜索logfile3、根据lo
C#集合排序的三种方法（List＜T＞.Sort、LINQ 的 OrderBy、IComparable＜T＞接口）我曾经是个程序员常用代码片段 c#开发语言
见过不少人、经过不少事、也吃过不少苦，感悟世事无常、人心多变，靠着回忆将往事串珠成链，聊聊感情、谈谈发展，我慢慢写、你一点一点看......1、使用List.Sort方法与自定义比较器public class Person{ public stringName{ get; set;} public intAge{ get; set;}}public class PersonComparer
在C#中动态编译和执行代码我曾经是个程序员高阶高效代码 c#开发语言
见过不少人、经过不少事、也吃过不少苦，感悟世事无常、人心多变，靠着回忆将往事串珠成链，聊聊感情、谈谈发展，我慢慢写、你一点一点看......publicstaticvoidCompileAndExecute(stringcode){//创建语法树SyntaxTreesyntaxTree=CSharpSyntaxTree.ParseText(code);//设置编译选项stringassemblyN
Python中常见的几种输出形式 .zhy. Python python 开发语言
目录一、标准输出（print函数）特点适用场景二、格式化占位符输出（%操作符）特点适用场景三、格式化输出（str.format()方法）特点适用场景四、格式化字符串常量输出（f-string）特点适用场景五、总结一、标准输出（print函数）这是最基本的输出方式，使用print函数简单直观，适用于快速输出数据。print函数可以输出多种类型的数据，如字符串、数字、列表等，并且默认在输出结束后换行。
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc

lucence

你可能感兴趣的:(Date,exception,String,File,Lucene,文档)