分词-TFIDF-特征降维（信息增益）

前提：首先说明一下TFIDF的部分是借用

http://www.cnblogs.com/ywl925/archive/2013/08/26/3275878.html

这篇博文写的代码，因为工作需要在后面加上了使用信息增益的方法进行特征降维。

TFIDF的介绍在此就不赘述了，直接将公式摆出来。

TF公式：

以上式子中是该词在文件中的出现次数，而分母则是在文件中所有字词的出现次数之和。

IDF公式：

|D|：语料库中的文件总数
：包含词语的文件数目（即的文件数目）如果该词语不在语料库中，就会导致被除数为零，因此一般情况下使用

然后

信息增益

其公式为：

假如有变量X，其可能的取值有n种，每一种取到的概率为Pi，那么X的熵就定义为

熵公式

也就是说X可能的变化越多，X所携带的信息量越大，熵也就越大。对于文本分类或聚类而言，就是说文档属于哪个类别的变化越多，类别的信息量就越大。所以特征T给聚类C或分类C带来的信息增益为

IG(T)=H(C)-H(C|T)

H(C|T)包含两种情况：一种是特征T出现，标记为t，一种是特征T不出现，标记为t'。所以

H(C|T)=P(t)H(C|t)+P(t')H(C|t‘)

本例属于文本分类其p(t)为该词在所有分类中出现的概率，H(C|t)该词出现的条件下分类的熵。

本例的数据为自行搜索的不良信息中的两类，暴力和反动。提供两种筛选方式一种设立阈值另一种是进行排序后选取前多少个为特征值。

涉及的文件

停用词表和分词jar包：http://files.cnblogs.com/files/mansiisnam/%E6%96%87%E4%BB%B6.zip

代码如下

package TIDF;



import java.io.*;

import java.util.*;

import org.wltea.analyzer.lucene.IKAnalyzer;



/**

 * 分词-TFIDF-信息增益

 * @author LJ

 * 

 * @datetime 2015-6-15 

 */

public class TestTfIdf {

    public static final String stopWordTable = "C:/Users/zzw/Desktop/sc_ot-tingyongzhongwen_hc/stopWordTable.txt"; // 加载停用词库



    private static ArrayList<String> FileList = new ArrayList<String>(); // 文件列表



    // 递归读取该路径下文件返回文件列表

    public static List<String> readDirs(String filepath)

            throws FileNotFoundException, IOException {

        try {

            File file = new File(filepath);

            if (!file.isDirectory()) {

                System.out.println("输入的[]");

                System.out.println("filepath:" + file.getAbsolutePath());

            } else {

                String[] flist = file.list();

                for (int i = 0; i < flist.length; i++) {

                    File newfile = new File(filepath + "\\" + flist[i]);

                    if (!newfile.isDirectory()) {

                        FileList.add(newfile.getAbsolutePath());

                    } else if (newfile.isDirectory()) {

                        readDirs(filepath + "\\" + flist[i]);

                    }

                }

            }

        } catch (FileNotFoundException e) {

            System.out.println(e.getMessage());

        }

        return FileList;

    }



    // 读入文件

    public static String readFile(String file) throws FileNotFoundException,

            IOException {

        StringBuffer strSb = new StringBuffer();

        InputStreamReader inStrR = new InputStreamReader(new FileInputStream(

                file), "gbk");

        BufferedReader br = new BufferedReader(inStrR);

        String line = br.readLine();

        while (line != null) {

            strSb.append(line).append("\r\n");

            line = br.readLine();

        }



        return strSb.toString();

    }



    // 分词处理

    public static ArrayList<String> cutWords(String file) throws IOException {



        ArrayList<String> fenci = new ArrayList<String>();

        ArrayList<String> words = new ArrayList<String>();

        String text = TestTfIdf.readFile(file);



        IKAnalyzer analyzer = new IKAnalyzer();

        fenci = analyzer.split(text); // 分词处理

        BufferedReader StopWordFileBr = new BufferedReader(

                new InputStreamReader(new FileInputStream(new File(

                        stopWordTable))));

        // 用来存放停用词的集合

        Set<String> stopWordSet = new HashSet<String>();

        // 初如化停用词集

        String stopWord = null;

        for (; (stopWord = StopWordFileBr.readLine()) != null;) {

            stopWordSet.add(stopWord);

        }

        for (String word : fenci) {

            if (stopWordSet.contains(word)) {

                continue;

            }

            words.add(word);

        }

        System.out.println(words);

        return words;

    }



    // 统计一个文件中每个词出现的次数

    public static HashMap<String, Integer> normalTF(ArrayList<String> cutwords) {

        HashMap<String, Integer> resTF = new HashMap<String, Integer>();



        for (String word : cutwords) {

            if (resTF.get(word) == null) {

                resTF.put(word, 1);

                System.out.println(word);

            } else {

                resTF.put(word, resTF.get(word) + 1);

                System.out.println(word.toString());

            }

        }

        System.out.println(resTF);

        return resTF;

    }



    // 计算一个文件每个词tf值

    @SuppressWarnings("unchecked")

    public static HashMap<String, Float> tf(ArrayList<String> cutwords) {

        HashMap<String, Float> resTF = new HashMap<String, Float>();



        int wordLen = cutwords.size();

        HashMap<String, Integer> intTF = TestTfIdf.normalTF(cutwords);



        Iterator iter = intTF.entrySet().iterator();

        while (iter.hasNext()) {

            Map.Entry entry = (Map.Entry) iter.next();

            resTF.put(entry.getKey().toString(), Float.parseFloat(entry

                    .getValue().toString())

                    / wordLen);

            System.out.println(entry.getKey().toString() + " = "

                    + Float.parseFloat(entry.getValue().toString()) / wordLen);

        }

        return resTF;

    }



    // tf times for file 。。。。。。。

    public static HashMap<String, HashMap<String, Integer>> normalTFAllFiles(

            String dirc) throws IOException {

        FileList.clear();

        HashMap<String, HashMap<String, Integer>> allNormalTF = new HashMap<String, HashMap<String, Integer>>();



        List<String> filelist = TestTfIdf.readDirs(dirc);

        for (String file : filelist) {

            HashMap<String, Integer> dict = new HashMap<String, Integer>();

            ArrayList<String> cutwords = TestTfIdf.cutWords(file);

            dict = TestTfIdf.normalTF(cutwords);

            allNormalTF.put(file, dict);

        }

        return allNormalTF;

    }



    // 返回所有文件tf值

    public static HashMap<String, HashMap<String, Float>> tfAllFiles(String dirc)

            throws IOException {

        FileList.clear();

        HashMap<String, HashMap<String, Float>> allTF = new HashMap<String, HashMap<String, Float>>();

        List<String> filelist = TestTfIdf.readDirs(dirc);



        for (String file : filelist) {

            HashMap<String, Float> dict = new HashMap<String, Float>();

            ArrayList<String> cutwords = TestTfIdf.cutWords(file);

            dict = TestTfIdf.tf(cutwords);

            allTF.put(file, dict);

        }

        return allTF;

    }



    // 计算该目录下所有词的idf

    @SuppressWarnings("unchecked")

    public static HashMap<String, Float> idf(

            HashMap<String, HashMap<String, Float>> all_tf, String file)

            throws IOException {

        FileList.clear();

        HashMap<String, Float> resIdf = new HashMap<String, Float>();

        HashMap<String, Integer> dict = new HashMap<String, Integer>();

        int docNum = readDirs(file).size();

        for (int i = 0; i < docNum; i++) {

            HashMap<String, Float> temp = all_tf.get(FileList.get(i));

            Iterator iter = temp.entrySet().iterator();

            while (iter.hasNext()) {

                Map.Entry entry = (Map.Entry) iter.next();

                String word = entry.getKey().toString();

                if (dict.get(word) == null) {

                    dict.put(word, 1);

                } else {

                    dict.put(word, dict.get(word) + 1);

                }

            }

        }

        // 生成文件记录所有词和包含该词的文件数

        StringBuilder sb1 = new StringBuilder();

        Iterator iter1 = dict.entrySet().iterator();

        while (iter1.hasNext()) {

            Map.Entry entry = (Map.Entry) iter1.next();

            if (entry.getKey().toString() != null) {

                sb1.append(entry.getKey().toString() + " "

                        + dict.get(entry.getKey()) + "\r\n");

            }

        }

        File filewriter = new File("E:/allCount.txt");

        FileWriter fw = new FileWriter(filewriter.getAbsoluteFile());

        BufferedWriter bb = new BufferedWriter(fw);

        bb.write(sb1.toString());

        bb.close();

        System.out.println(dict);

        // 计算idf

        System.out.println("IDF for every word is:");

        Iterator iter_dict = dict.entrySet().iterator();

        while (iter_dict.hasNext()) {

            Map.Entry entry = (Map.Entry) iter_dict.next();

            float value = (float) Math.log(docNum

                    / Float.parseFloat(entry.getValue().toString()));

            resIdf.put(entry.getKey().toString(), value);

            System.out.println(entry.getKey().toString() + " = " + value);

        }

        return resIdf;

    }



    // 返回该目录下所有词以及包含词的文件数

    @SuppressWarnings("unchecked")

    public static HashMap<String, Integer> idf_dict(

            HashMap<String, HashMap<String, Float>> all_tf, String file)

            throws IOException {

        FileList.clear();

        HashMap<String, Integer> dict = new HashMap<String, Integer>();

        List<String> filelist = readDirs(file);

        int docNum = filelist.size();



        for (int i = 0; i < docNum; i++) {

            HashMap<String, Float> temp = all_tf.get(filelist.get(i));

            Iterator iter = temp.entrySet().iterator();

            while (iter.hasNext()) {

                Map.Entry entry = (Map.Entry) iter.next();

                String word = entry.getKey().toString();

                if (dict.get(word) == null) {

                    dict.put(word, 1);

                } else {

                    dict.put(word, dict.get(word) + 1);

                }

            }

        }

        System.out.println(dict);

        return dict;

    }



    // 计算TFIDF值

    @SuppressWarnings("unchecked")

    public static void tf_idf(HashMap<String, HashMap<String, Float>> all_tf,

            HashMap<String, Float> idfs, String file) throws IOException {

        HashMap<String, HashMap<String, Float>> resTfIdf = new HashMap<String, HashMap<String, Float>>();

        FileList.clear();

        int docNum = readDirs(file).size();

        for (int i = 0; i < docNum; i++) {

            String filepath = FileList.get(i);

            HashMap<String, Float> tfidf = new HashMap<String, Float>();

            HashMap<String, Float> temp = all_tf.get(filepath);

            Iterator iter = temp.entrySet().iterator();

            while (iter.hasNext()) {

                Map.Entry entry = (Map.Entry) iter.next();

                String word = entry.getKey().toString();

                Float value = (float) Float.parseFloat(entry.getValue()

                        .toString())

                        * idfs.get(word);

                tfidf.put(word, value);

            }

            resTfIdf.put(filepath, tfidf);

        }

        System.out.println("TF-IDF for Every file is :");

        DisTfIdf(resTfIdf); // 显示TFIDF

    }



    // 返回计算的TFIDF值

    @SuppressWarnings("unchecked")

    public static HashMap<String, HashMap<String, Float>> tf_idf_return(

            HashMap<String, HashMap<String, Float>> all_tf,

            HashMap<String, Float> idfs, String file) throws IOException {

        FileList.clear();

        HashMap<String, HashMap<String, Float>> resTfIdf = new HashMap<String, HashMap<String, Float>>();

        int docNum = readDirs(file).size();

        for (int i = 0; i < docNum; i++) {

            @SuppressWarnings("unused")

            HashMap<String, Float> tfidf_reduce = new HashMap<String, Float>();

            String filepath = FileList.get(i);

            HashMap<String, Float> tfidf = new HashMap<String, Float>();

            HashMap<String, Float> temp = all_tf.get(filepath);

            Iterator iter = temp.entrySet().iterator();

            while (iter.hasNext()) {

                Map.Entry entry = (Map.Entry) iter.next();

                String word = entry.getKey().toString();

                Float value = (float) Float.parseFloat(entry.getValue()

                        .toString())

                        * idfs.get(word);

                tfidf.put(word, value);



            }

            resTfIdf.put(filepath, tfidf);

        }

        return resTfIdf;

    }



    // TFIDF显示输出 并建立文件存储该信息

    @SuppressWarnings("unchecked")

    public static void DisTfIdf(HashMap<String, HashMap<String, Float>> tfidf)

            throws IOException {

        StringBuilder stall = new StringBuilder();

        Iterator iter1 = tfidf.entrySet().iterator();

        while (iter1.hasNext()) {

            Map.Entry entrys = (Map.Entry) iter1.next();

            System.out.println("FileName: " + entrys.getKey().toString());

            System.out.print("{");

            HashMap<String, Float> temp = (HashMap<String, Float>) entrys

                    .getValue();

            Iterator iter2 = temp.entrySet().iterator();

            while (iter2.hasNext()) {

                Map.Entry entry = (Map.Entry) iter2.next();

                System.out.print(entry.getKey().toString() + " = "

                        + entry.getValue().toString() + ", ");

                stall.append(entrys.getKey().toString() + " "

                        + entry.getKey().toString() + " "

                        + entry.getValue().toString() + "\r\n");

            }

            System.out.println("}");

        }

        File filewriter = new File("E:/allTFIDF.txt");

        FileWriter fw = new FileWriter(filewriter.getAbsoluteFile());

        BufferedWriter bz = new BufferedWriter(fw);

        bz.write(stall.toString());

        bz.close();

    }



    // 单属性熵

    public static double Entropy(double[] p, double tot) {

        double entropy = 0.0;

        for (int i = 0; i < p.length; i++) {

            if (p[i] > 0.0) {

                entropy += -p[i] / tot * Math.log(p[i] / tot) / Math.log(2.0);

            }

        }

        return entropy;

    }



    // 信息增益特征降维

    @SuppressWarnings("unchecked")

    private static void Total(int N,

            HashMap<String, HashMap<String, Float>> result,

            HashMap<String, Integer> idfs_dict_neg,

            HashMap<String, Integer> idfs_dict_pos, String file)

            throws IOException {

        FileList.clear();

        double[] classCnt = new double[N]; // 类别数组

        double totalCnt = 0.0; // 总文件数

        for (int c = 0; c < N; c++) {

            classCnt[c] = 125; // 每个类别的文件数目

            totalCnt += classCnt[c];

        }

        int docNum = readDirs(file).size();

        int num = 0; // 词f的编号

        int numb = 0; // 词f的编号

        double totalEntroy = Entropy(classCnt, totalCnt); // 总的熵

        HashMap<String, Integer> count = new HashMap<String, Integer>();// 存储词及其编号

        HashMap<String, Integer> countG = new HashMap<String, Integer>();// 存储特征降维后word和其编号

        HashMap<String, Double> countG1 = new HashMap<String, Double>();// 存储特征降维后word和其信息增益

        HashMap<String, Double> infogains = new HashMap<String, Double>();// 存储词和该词的信息增益

        StringBuilder st = new StringBuilder();// 缓存文件名,词,信息增益,TFIDF

        StringBuilder ss = new StringBuilder();// 缓存未特征处理的类别,单词的编号,单词的TFIDF值

        StringBuilder sr = new StringBuilder();// 缓存经过特征处理后的类别,单词的编号,单词的TFIDF值

        for (int i = 0; i < docNum; i++) {

            String filepath = FileList.get(i);

            HashMap<String, Float> temp = result.get(filepath);

            Iterator iter = temp.entrySet().iterator();

            if (filepath.contains("dubo")) {

                ss.append(1 + "  "); // 将赌博类定义为类别1

            } else if (filepath.contains("fangdong")) {

                ss.append(2 + "  "); // 将反动类定义为类别2

            }

            while (iter.hasNext()) {

                Map.Entry entry = (Map.Entry) iter.next();

                String f = entry.getKey().toString();

                double[] featureCntWithF = new double[N]; // 包括词F的分布（类别1,2分别包含该词的文件数）

                double[] featureCntWithoutF = new double[N]; // 不包括词F的分布

                double totalCntWithF = 0.0; // 所有类别中包括词F的文件数

                double totalCntWithoutF = 0.0; // 所有类别中不包括词F的文件数

                for (int c = 0; c < N; c++) {

                    Iterator iter_dict = null;

                    switch (c) {

                    case 0:

                        iter_dict = idfs_dict_neg.entrySet().iterator();

                        break;

                    case 1:

                        iter_dict = idfs_dict_pos.entrySet().iterator();

                        break;

                    }

                    while (iter_dict.hasNext()) {

                        Map.Entry entry_neg = (Map.Entry) iter_dict.next();

                        if (f.equals(entry_neg.getKey().toString())) { // 该词在该类别中出现

                            featureCntWithF[c] = Double.parseDouble(entry_neg

                                    .getValue().toString()); // 将该出现该词的文件数赋值给数组

                            break;

                        } else {

                            featureCntWithF[c] = 0.0;

                        }

                    }

                    featureCntWithoutF[c] = classCnt[c] - featureCntWithF[c]; // 不包括词F的文件数等于该类别总数减去包含该词的文件数

                    totalCntWithF += featureCntWithF[c];

                    totalCntWithoutF += featureCntWithoutF[c];

                }

                double entropyWithF = Entropy(featureCntWithF, totalCntWithF);

                double entropyWithoutF = Entropy(featureCntWithoutF,

                        totalCntWithoutF);

                double wf = totalCntWithF / totalCnt;

                double infoGain = totalEntroy - wf * entropyWithF - (1.0 - wf) // 信息增益的公式

                        * entropyWithoutF;

                infogains.put(f, infoGain);

                st.append(filepath + " " + f + " " + "信息增益" + "="

                        + infoGain // 缓存格式

                        + " " + "tfidf" + "=" + entry.getValue().toString()

                        + "\r\n");



                // }

                // 方式一：直接用阈值选取特征值可以省去下面再次遍历的过程

                // if(infogains.get(f)>0.004011587943125061){

                // 给词f编号

                if (count.get(f) == null) {

                    num++;

                    count.put(f, num);

                }

                ss.append(count.get(f) + ":" + entry.getValue() + " "); // 缓存格式

                // }

            }

            ss.append("\r\n");

        }

        File fileprepare = new File("E:/test.txt");

        FileWriter fz = new FileWriter(fileprepare.getAbsoluteFile());

        BufferedWriter bz = new BufferedWriter(fz);

        bz.write(ss.toString());

        bz.close();

        File filewriter = new File("E:/jieguo.txt");

        FileWriter fw = new FileWriter(filewriter.getAbsoluteFile());

        BufferedWriter bw = new BufferedWriter(fw);

        bw.write(st.toString());

        bw.close();

        // 方式二：将信息增益从大到小排列,选取前特定数的词为特征词

        // 对信息增益排序（从大到小）

        ArrayList<Map.Entry<String, Double>> infoIds = new ArrayList<Map.Entry<String, Double>>(

                infogains.entrySet());

        Collections.sort(infoIds, new Comparator<Map.Entry<String, Double>>() {

            public int compare(Map.Entry<String, Double> o1,

                    Map.Entry<String, Double> o2) {

                if (o2.getValue() - o1.getValue() > 0) {

                    return 1; // 降序排列

                } else {

                    return -1;

                }

            }

        });

        // 选取信息增益为前2000的词做特征词

        for (int c = 0; c < 2000; c++) {

            countG1.put(infoIds.get(c).getKey(), infoIds.get(c).getValue()); // 将处理后的数据存储到countG1中

        }

        // 再次遍历

        for (int i = 0; i < docNum; i++) {

            String filepath = FileList.get(i);

            HashMap<String, Float> temp = result.get(filepath);

            Iterator iter = temp.entrySet().iterator();

            if (filepath.contains("dubo")) {

                sr.append(1 + "  ");

            } else if (filepath.contains("fangdong")) {

                sr.append(2 + "  ");

            }

            while (iter.hasNext()) {

                Map.Entry entry = (Map.Entry) iter.next();

                // for(Iterator<Feature>

                // i=index.featureIterator();i.hasNext();){

                String f = entry.getKey().toString();

                // 判断该词是特征降维后的那些词

                if (countG1.get(f) != null) {

                    // 给该词编号

                    if (countG.get(f) == null) {

                        numb++;

                        countG.put(f, numb);

                    }

                    sr.append(countG.get(f) + ":" + entry.getValue() + " ");

                }

            }

            sr.append("\r\n");

        }

        File fileprepare1 = new File("E:/testt.txt");

        FileWriter fr = new FileWriter(fileprepare1.getAbsoluteFile());

        BufferedWriter br = new BufferedWriter(fr);

        br.write(sr.toString());

        br.close();

    }



    public static void main(String[] args) throws IOException {

        // TODO Auto-generated method stub

        String file = "C:/Users/zzw/Desktop/项目管理/语料/test"; // 总的数据路径

        String file1 = "C:/Users/zzw/Desktop/项目管理/语料/test/赌博"; // 类1数据路径

        String file2 = "C:/Users/zzw/Desktop/项目管理/语料/test/反动"; // 类2数据路径

        HashMap<String, HashMap<String, Float>> all_tf = tfAllFiles(file);

        HashMap<String, HashMap<String, Float>> all_tf_neg = tfAllFiles(file1); // file1文件的tf值和路径

        HashMap<String, HashMap<String, Float>> all_tf_pos = tfAllFiles(file2); // file2文件的tf值和路径

        System.out.println();

        HashMap<String, Integer> idfs_dict_neg = idf_dict(all_tf_neg, file1); // 返回file1下所有词以及包含词的文件数

        HashMap<String, Integer> idfs_dict_pos = idf_dict(all_tf_pos, file2); // 返回file2下所有词以及包含词的文件数

        HashMap<String, Float> idfs = idf(all_tf, file);

        System.out.println();

        tf_idf(all_tf, idfs, file);

        HashMap<String, HashMap<String, Float>> result = tf_idf_return(all_tf,

                idfs, file);

        int N = 2; // 输入类别数

        /*

         * 信息增益公式 IG(T)=H(C)-H(C|T) H(C|T)=P(t)H(C|t)+P(t')H(C|t‘)

         */

        Total(N, result, idfs_dict_neg, idfs_dict_pos, file); // 按信息增益进行特征降维



    }



}

各个文件结果如下：

allCount.txt

allTFIDF.txt

test.txt

jieguo.txt

testt.txt

本人也是初学者，如有问题，万望大神指正！

android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
水平垂直居中的几种方法（总结） LJ小番茄 CSS_玄学语言 html javascript 前端 css css3
1.使用flexbox的justify-content和align-items.parent{display:flex;justify-content:center;/*水平居中*/align-items:center;/*垂直居中*/height:100vh;/*需要指定高度*/}2.使用grid的place-items:center.parent{display:grid;place-item
每日一题——第八十四题互联网打工人no1 C语言程序设计每日一练 c语言
题目：编写函数1、输入10个职工的姓名和职工号2、按照职工由大到小顺序排列，姓名顺序也随之调整3、要求输入一个职工号，用折半查找法找出该职工的姓名#define_CRT_SECURE_NO_WARNINGS#include#include#defineMAX_EMPLOYEES10typedefstruct{intid;charname[50];}Empolyee;voidinputEmploye
WPF中的ComboBox控件几种数据绑定的方式互联网打工人no1 wpf c#
一、用字典给ItemsSource赋值（此绑定用的地方很多，建议熟练掌握）在XMAL中：在CS文件中privatevoidBindData(){DictionarydicItem=newDictionary();dicItem.add(1,"北京");dicItem.add(2,"上海");dicItem.add(3,"广州");cmb_list.ItemsSource=dicItem;cmb_l
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
【加密社】Solidity 中的事件机制及其应用加密社闲侃区块链智能合约区块链
加密社引言在Solidity合约开发过程中，事件（Events）是一种非常重要的机制。它们不仅能够让开发者记录智能合约的重要状态变更，还能够让外部系统（如前端应用）监听这些状态的变化。本文将详细介绍Solidity中的事件机制以及如何利用不同的手段来触发、监听和获取这些事件。事件存储的地方当我们在Solidity合约中使用emit关键字触发事件时，该事件会被记录在区块链的交易收据中。具体而言，事件
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
MYSQL面试系列-04 king01299 面试 mysql 面试
MYSQL面试系列-0417.关于redolog和binlog的刷盘机制、redolog、undolog作用、GTID是做什么的？innodb_flush_log_at_trx_commit及sync_binlog参数意义双117.1innodb_flush_log_at_trx_commit该变量定义了InnoDB在每次事务提交时，如何处理未刷入（flush）的重做日志信息（redolog）。它
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
mac电脑命令行获取电量小米人er 我的博客 macos 命令行
在macOS上，有几个命令行工具可以用来获取电量信息，最常用的是pmset命令。你可以通过以下方式来查看电池状态和电量信息：查看电池状态：pmset-gbatt这个命令会返回类似下面的输出：Nowdrawingfrom'BatteryPower'-InternalBattery-0(id=1234567)95%;discharging;4:02remainingpresent:true输出中包括电
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
Java 重写(Override)与重载(Overload) 叨唧唧的
Java重写(Override)与重载(Overload)重写(Override)重写是子类对父类的允许访问的方法的实现过程进行重新编写,返回值和形参都不能改变。即外壳不变，核心重写！重写的好处在于子类可以根据需要，定义特定于自己的行为。也就是说子类能够根据需要实现父类的方法。重写方法不能抛出新的检查异常或者比被重写方法申明更加宽泛的异常。例如：父类的一个方法申明了一个检查异常IOExceptio
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
你可能遗漏的一些C#/.NET/.NET Core知识点追逐时光者 C#.NET DotNetGuide编程指南 c#.net .netcore microsoft
前言在这个快速发展的技术世界中，时常会有一些重要的知识点、信息或细节被忽略或遗漏。《C#/.NET/.NETCore拾遗补漏》专栏我们将探讨一些可能被忽略或遗漏的重要知识点、信息或细节，以帮助大家更全面地了解这些技术栈的特性和发展方向。拾遗补漏GitHub开源地址https://github.com/YSGStudyHards/DotNetGuide/blob/main/docs/DotNet/D
「豆包Marscode体验官」 | 云端 IDE 启动 & Rust 体验张风捷特烈 ide rust 开发语言后端
theme:cyanosis我正在参加「豆包MarsCode初体验」征文活动MarsCode可以看作一个运行在服务端的远程VSCode开发环境。对于我这种想要学习体验某些语言，但不想在电脑里装环境的人来说非常友好。本文就来介绍一下在MarsCode里，我的体验rust开发体验。一、MarsCode是什么它的本质是:提供代码助手和云端IDE服务的web网站，可通过下面的链接访问https://www
2.2.6 通知类控件 Toast、Menu 常思行
本文例程下载：WillFlow_Toast、WillFlowMenu一、什么是Toast？Toast也被叫做吐司，是Android系统提供的一种非常好的提醒方式，在程序中可以使用它将一些短小的信息通知给用户，它有如下两个特点：Toast是没有焦点的Toast显示的时间有限过一定的时间就会自动消失所以一般来讲Toast的使用并不会影响我们的正常操作，并且它通常不会占用太大的屏幕空间，有着良好的用户体
Some jenkins settings SnC_
Jenkins连接到特定gitlabproject的特定branch我采用的方法是在pipeline的script中使用git命令来指定branch。如下：stage('Clonerepository'){steps{gitbranch:'develop',credentialsId:'gitlab-credential-id',url:'http://gitlab.com/repo.git'}}
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
多线程之——ExecutorCompletionService 阿福德
在我们开发中，经常会遇到这种情况，我们起多个线程来执行，等所有的线程都执行完成后，我们需要得到个线程的执行结果来进行聚合处理。我在内部代码评审时，发现了不少这种情况。看很多同学都使用正确，但比较啰嗦，效率也不高。本文介绍一个简单处理这种情况的方法：直接上代码：publicclassExecutorCompletionServiceTest{@TestpublicvoidtestExecutorCo
python多线程程序设计之一 IT_Beijing_BIT #Python 程序设计语言 python
python多线程程序设计之一全局解释器锁线程APIsthreading.active_count()threading.current_thread()threading.excepthook(args,/)threading.get_native_id()threading.main_thread()threading.stack_size([size])线程对象成员函数构造器start/ru
BART&BERT Ambition_LAO 深度学习
BART和BERT都是基于Transformer架构的预训练语言模型。模型架构：BERT(BidirectionalEncoderRepresentationsfromTransformers)主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即
spring如何整合druid连接池？惜.己 spring spring junit 数据库 java idea 后端 xml
目录spring整合druid连接池1.新建maven项目2.新建mavenModule3.导入相关依赖4.配置log4j2.xml5.配置druid.xml1)xml中如何引入properties2)下面是配置文件6.准备jdbc.propertiesJDBC配置项解释7.配置druid8.测试spring整合druid连接池1.新建maven项目打开IDE（比如IntelliJIDEA,Ecl
vue项目element-ui的table表格单元格合并酋长哈哈 vue.js elementui javascript 前端
一、合并效果二全部代码exportdefault{name:'CellMerge',data(){return{tableData:[{id:'1',name:'王小虎',amount1:'165',amount2:'3.2',amount3:10},{id:'1',name:'王小虎',amount1:'162',amount2:'4.43',amount3:12},{id:'1',name:'
python tif转png Python与遥感 python 开发语言
importosfromosgeoimportgdalimportnumpyasnpfromPILimportImage#提取432三波段fromspectralimport*#输入文件夹路径defget_img(dataset_img):width=dataset_img.RasterXSize#获取行列数height=dataset_img.RasterYSizebands=dataset_i
mac 备份android 手机通讯录导入iphone,iphone如何导出通讯录（轻松教你iPhone备份通讯录的方法）... weixin_39762838 mac 备份android 手机通讯录导入iphone
在日新月异的手机更替中，换手机已经成为一个非常稀松平常的事情，但将旧手机上面的通讯录导入到新手机还是让不少小伙伴为难，本篇将给大家详细讲解这方面的知识：“苹果手机通讯录怎么导入到新手机”及“安卓手机通讯录导入到新手机”的方法。一、苹果手机通讯录导入到新手机常用方法(SIM卡导入)在苹果手机主频幕上找到“设置”，单击进入设置菜单，下拉菜单列表，点击“邮件、通讯录、日历”，然后找到“导入SIM卡通讯录
android 更改窗口的层次,浮窗开发之窗口层级 Ms.Bu android 更改窗口的层次
最近在项目中遇到了这样的需求：需要在特定的其他应用之上悬浮自己的UI交互(拖动、输入等复杂的UI交互)，和九游的浮窗类似，不过我们的比九游的体验更好，我们越过了很多授权的限制。浮窗效果很多人都知道如何去实现一个简单的浮窗，但是却很少有人去深入的研究背后的流程机制，由于项目中浮窗交互比较复杂，遇到了些坑查看了很多资料，故总结浮窗涉及到的知识点：窗口层级关系(浮窗是如何“浮”的)？浮窗有哪些限制，如何
矩阵求逆（JAVA）利用伴随矩阵 qiuwanchi 利用伴随矩阵求逆矩阵
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(利用伴随矩阵) * @author 邱万迟
单例（Singleton）模式 aoyouzi 单例模式 Singleton
3.1 概述如果要保证系统里一个类最多只能存在一个实例时，我们就需要单例模式。这种情况在我们应用中经常碰到，例如缓存池，数据库连接池，线程池，一些应用服务实例等。在多线程环境中，为了保证实例的唯一性其实并不简单，这章将和读者一起探讨如何实现单例模式。 3.2
[开源与自主研发]就算可以轻易获得外部技术支持,自己也必须研发 comsci 开源
现在国内有大量的信息技术产品，都是通过盗版，免费下载，开源，附送等方式从国外的开发者那里获得的。。。。。。虽然这种情况带来了国内信息产业的短暂繁荣，也促进了电子商务和互联网产业的快速发展，但是实际上，我们应该清醒的看到，这些产业的核心力量是被国外的
页面有两个frame,怎样点击一个的链接改变另一个的内容 Array_06 UI XHTML
<a src="地址" targets="这里写你要操作的Frame的名字" />搜索然后你点击连接以后你的新页面就会显示在你设置的Frame名字的框那里 targerts="",就是你要填写目标的显示页面位置 ===================== 例如： <frame src=&
Struts2实现单个/多个文件上传和下载 oloz 文件上传 struts
struts2单文件上传：步骤01:jsp页面  　　<form action="fileUplo
推荐10个在线logo设计网站 362217990 logo
在线设计Logo网站。 1、http://flickr.nosv.org（这个太简单） 2、http://www.logomaker.com/?source=1.5770.1 3、http://www.simwebsol.com/ImageTool 4、http://www.logogenerator.com/logo.php?nal=1&tpl_catlist[]=2 5、ht
jsp上传文件香水浓 jsp fileupload
1. jsp上传 Notice： 1. form表单 method 属性必须设置为 POST 方法，不能使用 GET 方法 2. form表单 enctype 属性需要设置为 multipart/form-data 3. form表单 action 属性需要设置为提交到后台处理文件上传的jsp文件地址或者servlet地址。例如 uploadFile.jsp 程序文件用来处理上传的文
我的架构经验系列文章 - 前端架构 agevs JavaScript Web 框架 UI jQuer
框架层面：近几年前端发展很快，前端之所以叫前端因为前端是已经可以独立成为一种职业了，js也不再是十年前的玩具了，以前富客户端RIA的应用可能会用flash/flex或是silverlight，现在可以使用js来完成大部分的功能，因此js作为一门前端的支撑语言也不仅仅是进行的简单的编码，越来越多框架性的东西出现了。越来越多的开发模式转变为后端只是吐json的数据源，而前端做所有UI的事情。MVCMV
android ksoap2 中把XML(DataSet) 当做参数传递 aijuans android
我的android app中需要发送webservice ，于是我使用了 ksop2 进行发送，在测试过程中不是很顺利,不能正常工作.我的web service 请求格式如下 [html] view plain copy <Envelope xmlns="http://schemas.
使用Spring进行统一日志管理 + 统一异常管理 baalwolf spring
统一日志和异常管理配置好后，SSH项目中，代码以往散落的log.info() 和 try..catch..finally 再也不见踪影！统一日志异常实现类： [java] view plain copy package com.pilelot.web.util; impor
Android SDK 国内镜像 BigBird2012 android sdk
一、镜像地址： 1、东软信息学院的 Android SDK 镜像，比配置代理下载快多了。配置地址， http://mirrors.neusoft.edu.cn/configurations.we#android 2、北京化工大学的： IPV4:ubuntu.buct.edu.cn IPV4:ubuntu.buct.cn IPV6:ubuntu.buct6.edu.cn
HTML无害化和Sanitize模块 bijian1013 JavaScript AngularJS Linky Sanitize
一.ng-bind-html、ng-bind-html-unsafe AngularJS非常注重安全方面的问题，它会尽一切可能把大多数攻击手段最小化。其中一个攻击手段是向你的web页面里注入不安全的HTML，然后利用它触发跨站攻击或者注入攻击。考虑这样一个例子，假设我们有一个变量存
[Maven学习笔记二]Maven命令 bit1129 maven
mvn compile compile编译命令将src/main/java和src/main/resources中的代码和配置文件编译到target/classes中，不会对src/test/java中的测试类进行编译 MVN编译使用 maven-resources-plugin:2.6:resources maven-compiler-plugin:2.5.1:compile &nbs
【Java命令二】jhat bit1129 Java命令
jhat用于分析使用jmap dump的文件，，可以将堆中的对象以html的形式显示出来，包括对象的数量，大小等等，并支持对象查询语言。 jhat默认开启监听端口7000的HTTP服务，jhat是Java Heap Analysis Tool的缩写 1. 用法： [hadoop@hadoop bin]$ jhat -help Usage: jhat [-stack <bool&g
JBoss 5.1.0 GA:Error installing to Instantiated: name=AttachmentStore state=Desc ronin47
进到类似目录 server/default/conf/bootstrap，打开文件 profile.xml找到： Xml代码<bean name="AttachmentStore" class="org.jboss.system.server.profileservice.repository.AbstractAtta
写给初学者的6条网页设计安全配色指南 brotherlamp UI ui自学 ui视频 ui教程 ui资料
网页设计中最基本的原则之一是，不管你花多长时间创造一个华丽的设计，其最终的角色都是这场秀中真正的明星——内容的衬托我仍然清楚地记得我最早的一次美术课，那时我还是一个小小的、对凡事都充满渴望的孩子，我摆放出一大堆漂亮的彩色颜料。我仍然记得当我第一次看到原色与另一种颜色混合变成第二种颜色时的那种兴奋，并且我想，既然两种颜色能创造出一种全新的美丽色彩，那所有颜色
有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。写一个函数实现。复杂度是什么。 bylijinnan java 算法面试
import java.util.Random; import java.util.Set; import java.util.TreeSet; /** * http://weibo.com/1915548291/z7HtOF4sx * #面试题#有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。 * 写一个函数实现。复杂度是什么
struts2获得request、session、application方式 chiangfai application
1、与Servlet API解耦的访问方式。 a.Struts2对HttpServletRequest、HttpSession、ServletContext进行了封装，构造了三个Map对象来替代这三种对象要获取这三个Map对象，使用ActionContext类。 -----> package pro.action; import java.util.Map; imp
改变python的默认语言设置 chenchao051 python
import sys sys.getdefaultencoding() 可以测试出默认语言，要改变的话，需要在python lib的site-packages文件夹下新建： sitecustomize.py，这个文件比较特殊，会在python启动时来加载，所以就可以在里面写上： import sys sys.setdefaultencoding('utf-8') &n
mysql导入数据load data infile用法 daizj mysql 导入数据
我们常常导入数据！mysql有一个高效导入方法，那就是load data infile 下面来看案例说明基本语法： load data [low_priority] [local] infile 'file_name txt' [replace | ignore] into table tbl_name [fields [terminated by't'] [OPTI
phpexcel导入excel表到数据库简单入门示例 dcj3sjt126com PHP Excel
跟导出相对应的，同一个数据表，也是将phpexcel类放在class目录下，将Excel表格中的内容读取出来放到数据库中 <?php error_reporting(E_ALL); set_time_limit(0); ?> <html> <head> <meta http-equiv="Content-Type"
22岁到72岁的男人对女人的要求 dcj3sjt126com
22岁男人对女人的要求是：一，美丽，二，性感，三，有份具品味的职业，四，极有耐性，善解人意，五，该聪明的时候聪明，六，作小鸟依人状时尽量自然，七，怎样穿都好看，八，懂得适当地撒娇，九，虽作惊喜反应，但看起来自然，十，上了床就是个无条件荡妇。 32岁的男人对女人的要求，略作修定，是：一，入得厨房，进得睡房，二，不必服侍皇太后，三，不介意浪漫蜡烛配盒饭，四，听多过说，五，不再傻笑，六，懂得独
Spring和HIbernate对DDM设计的支持 e200702084 DAO 设计模式 spring Hibernate 领域模型
A：数据访问对象 DAO和资源库在领域驱动设计中都很重要。DAO是关系型数据库和应用之间的契约。它封装了Web应用中的数据库CRUD操作细节。另一方面，资源库是一个独立的抽象，它与DAO进行交互，并提供到领域模型的“业务接口”。资源库使用领域的通用语言，处理所有必要的DAO，并使用领域理解的语言提供对领域模型的数据访问服务。
NoSql 数据库的特性比较 geeksun NoSQL
Redis 是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。目前由VMware主持开发工作。 1. 数据模型作为Key-value型数据库，Redis也提供了键（Key）和值（Value）的映射关系。除了常规的数值或字符串，Redis的键值还可以是以下形式之一： Lists （列表） Sets
使用 Nginx Upload Module 实现上传文件功能 hongtoushizi nginx
转载自： http://www.tuicool.com/wx/aUrAzm 普通网站在实现文件上传功能的时候，一般是使用Python，Java等后端程序实现，比较麻烦。Nginx有一个Upload模块，可以非常简单的实现文件上传功能。此模块的原理是先把用户上传的文件保存到临时文件，然后在交由后台页面处理，并且把文件的原名，上传后的名称，文件类型，文件大小set到页面。下
spring-boot-web-ui及thymeleaf基本使用 jishiweili spring thymeleaf
视图控制层代码demo如下： @Controller @RequestMapping("/") public class MessageController { private final MessageRepository messageRepository; @Autowired public MessageController(Mes
数据源架构模式之活动记录 home198979 PHP 架构活动记录数据映射
hello!架构一、概念活动记录（Active Record）：一个对象，它包装数据库表或视图中某一行，封装数据库访问，并在这些数据上增加了领域逻辑。对象既有数据又有行为。活动记录使用直截了当的方法，把数据访问逻辑置于领域对象中。二、实现简单活动记录活动记录在php许多框架中都有应用，如cakephp。 <?php /** * 行数据入口类 *
Linux Shell脚本之自动修改IP pda158 linux centos Debian 脚本
作为一名 Linux SA，日常运维中很多地方都会用到脚本，而服务器的ip一般采用静态ip或者MAC绑定，当然后者比较操作起来相对繁琐，而前者我们可以设置主机名、ip信息、网关等配置。修改成特定的主机名在维护和管理方面也比较方便。如下脚本用途为：修改ip和主机名等相关信息，可以根据实际需求修改，举一反三！ #!/bin/sh #auto Change ip netmask ga
开发环境搭建独浮云 eclipse jdk tomcat
最近在开发过程中，经常出现MyEclipse内存溢出等错误，需要重启的情况，好麻烦。对于一般的JAVA+TOMCAT项目开发，其实没有必要使用重量级的MyEclipse，使用eclipse就足够了。尤其是开发机器硬件配置一般的人。 &n

分词-TFIDF-特征降维（信息增益）

你可能感兴趣的:(id)