使用ictclas4j过程中产生的内存不足问题及其解决方法

在读取中文pdf文档的内容并对用ictclas4j对其进行分词过程中,在读取pdf这一步上面没有问题(即没有报错,可以正确运行,但是会出现一些乱码,这可能是由于pdfbox包的不够完善,可以通过用xpdf来读取进行一定的改善。)

但是到了分词这一步上面有时候会报错:

Exception in thread "main" java.lang.OutOfMemoryError: Java heap space
    at java.util.Arrays.copyOf(Unknown Source)
    at java.lang.AbstractStringBuilder.expandCapacity(Unknown Source)
    at java.lang.AbstractStringBuilder.append(Unknown Source)
    at java.lang.StringBuilder.append(Unknown Source)
    at org.ictclas4j.segment.SegTag.split(SegTag.java:125)
    at emily.function.TextExtraction.classifyWord(TextExtraction.java:43)
    at emily.function.TextExtraction.getExtractText(TextExtraction.java:26)
    at emily.function.BuildXMLDocument.builder(BuildXMLDocument.java:60)
    at emily.function.Main.main(Main.java:16)
解决: 

在run->open run dialog->(x)=argument

新设置参数 -Xmx800m

 

(完)

create@2010-01-28

你可能感兴趣的:(java,thread)