EasyJava2017
diff --git a/‎build.gradle
Lines changed: 4 additions & 0 deletions b/‎build.gradle
Lines changed: 4 additions & 0 deletions
diff --git a/‎src/main/java/com/light/saber/textrank/BM25.java
Lines changed: 108 additions & 0 deletions b/‎src/main/java/com/light/saber/textrank/BM25.java
Lines changed: 108 additions & 0 deletions
diff --git a/‎src/main/java/com/light/saber/textrank/HtmlUtil.java
Lines changed: 61 additions & 0 deletions b/‎src/main/java/com/light/saber/textrank/HtmlUtil.java
Lines changed: 61 additions & 0 deletions
diff --git a/‎src/main/java/com/light/saber/textrank/TextRankKeyword.java
Lines changed: 103 additions & 0 deletions b/‎src/main/java/com/light/saber/textrank/TextRankKeyword.java
Lines changed: 103 additions & 0 deletions
@@ -62,5 +62,9 @@ dependencies {
     // https://mvnrepository.com/artifact/com.alibaba/fastjson
     compile group: 'com.alibaba', name: 'fastjson', version: '1.2.47'
 
+    // https://mvnrepository.com/artifact/org.htmlparser/htmlparser
+	compile group: 'org.htmlparser', name: 'htmlparser', version: '2.1'
+	// https://mvnrepository.com/artifact/com.hankcs/hanlp
+	compile group: 'com.hankcs', name: 'hanlp', version: 'portable-1.6.4'
 
 }
@@ -0,0 +1,108 @@
+package com.light.saber.textrank;
+
+import java.util.List;
+import java.util.Map;
+import java.util.TreeMap;
+
+/**
+ * 搜索相关性评分算法
+ *
+ * @author hankcs
+ */
+public class BM25 {
+    /**
+     * 调节因子
+     */
+    final static float k1 = 1.5f;
+    /**
+     * 调节因子
+     */
+    final static float b = 0.75f;
+    /**
+     * 文档句子的个数
+     */
+    int D;
+    /**
+     * 文档句子的平均长度
+     */
+    double avgdl;
+    /**
+     * 拆分为[句子[单词]]形式的文档
+     */
+    List<List<String>> docs;
+    /**
+     * 文档中每个句子中的每个词与词频
+     */
+    Map<String, Integer>[] f;
+    /**
+     * 文档中全部词语与出现在几个句子中
+     */
+    Map<String, Integer> df;
+    /**
+     * IDF
+     */
+    Map<String, Double> idf;
+
+    public BM25(List<List<String>> docs) {
+        this.docs = docs;
+        D = docs.size();
+        for (List<String> sentence : docs) {
+            avgdl += sentence.size();
+        }
+        avgdl /= D;
+        f = new Map[D];
+        df = new TreeMap<String, Integer>();
+        idf = new TreeMap<String, Double>();
+        init();
+    }
+
+    /**
+     * 在构造时初始化自己的所有参数
+     */
+    private void init() {
+        int index = 0;
+        for (List<String> sentence : docs) {
+            Map<String, Integer> tf = new TreeMap<String, Integer>();
+            for (String word : sentence) {
+                Integer freq = tf.get(word);
+                freq = (freq == null ? 0 : freq) + 1;
+                tf.put(word, freq);
+            }
+            f[index] = tf;
+            for (Map.Entry<String, Integer> entry : tf.entrySet()) {
+                String word = entry.getKey();
+                Integer freq = df.get(word);
+                freq = (freq == null ? 0 : freq) + 1;
+                df.put(word, freq);
+            }
+            ++index;
+        }
+        for (Map.Entry<String, Integer> entry : df.entrySet()) {
+            String word = entry.getKey();
+            Integer freq = entry.getValue();
+            idf.put(word, Math.log(D - freq + 0.5) - Math.log(freq + 0.5));
+        }
+    }
+
+    public double sim(List<String> sentence, int index) {
+        double score = 0;
+        for (String word : sentence) {
+            if (!f[index].containsKey(word)) continue;
+            int d = docs.get(index).size();
+            Integer wf = f[index].get(word);
+            score += (idf.get(word) * wf * (k1 + 1)
+                    / (wf + k1 * (1 - b + b * d
+                    / avgdl)));
+        }
+
+        return score;
+    }
+
+    public double[] simAll(List<String> sentence) {
+        double[] scores = new double[D];
+        for (int i = 0; i < D; ++i) {
+            scores[i] = sim(sentence, i);
+        }
+        return scores;
+    }
+}
@@ -0,0 +1,61 @@
+package com.light.saber.textrank;
+
+import org.htmlparser.NodeFilter;
+import org.htmlparser.Parser;
+import org.htmlparser.beans.StringBean;
+import org.htmlparser.filters.CssSelectorNodeFilter;
+import org.htmlparser.util.NodeList;
+
+public class HtmlUtil {
+
+    public static String getText(String html, String id) {
+        try {
+            Parser parser = new Parser(html);
+            NodeFilter filter = new CssSelectorNodeFilter("#" + id);
+            NodeList nList = parser.extractAllNodesThatMatch(filter);
+            return nList == null || nList.size() == 0 ? null : nList.elementAt(
+                    0).toPlainTextString();
+        } catch (Exception e) {
+            e.printStackTrace();
+            return null;
+        }
+    }
+
+    public static String getTextByClass(String html, String css_class) {
+        try {
+            Parser parser = new Parser(html);
+            NodeFilter filter = new CssSelectorNodeFilter("." + css_class);
+            NodeList nList = parser.extractAllNodesThatMatch(filter);
+            return nList == null || nList.size() == 0 ? null : nList.elementAt(
+                    0).toPlainTextString();
+        } catch (Exception e) {
+            e.printStackTrace();
+            return null;
+        }
+    }
+
+
+    /**
+     * 获取网页中纯文本信息
+     *
+     * @param html
+     * @return
+     * @throws Exception
+     * @throws Exception
+     */
+    public static String getText(String html) throws Exception {
+        StringBean bean = new StringBean();
+        bean.setLinks(false);
+        bean.setReplaceNonBreakingSpaces(true);
+        bean.setCollapse(true);
+
+        // 返回解析后的网页纯文本信息
+        Parser parser = Parser.createParser(html, "utf-8");
+        parser.visitAllNodesWith(bean);
+        parser.reset();
+        String text = bean.getStrings();
+        String reg = "[^\u4e00-\u9fa5]";
+        text = text.replaceAll(reg, " ");
+        return text;
+    }
+}
@@ -0,0 +1,103 @@
+package com.light.saber.textrank;
+
+
+import com.hankcs.hanlp.HanLP;
+import com.hankcs.hanlp.dictionary.stopword.CoreStopWordDictionary;
+import com.hankcs.hanlp.seg.common.Term;
+
+import java.util.*;
+import java.util.stream.Collectors;
+
+/**
+ * TextRank关键词提取
+ *
+ * @author hankcs
+ */
+public class TextRankKeyword {
+    public static final int MAX_KEY_WORDS = 7;
+    /**
+     * 阻尼系数（ＤａｍｐｉｎｇＦａｃｔｏｒ），一般取值为0.85
+     */
+    static final float d = 0.618f;
+    /**
+     * 最大迭代次数
+     */
+    static final int max_iter = 2000;
+    static final float min_diff = 0.001f;
+
+    public TextRankKeyword() {
+        // jdk bug : Exception in thread "main" java.lang.IllegalArgumentException: Comparison method violates its general contract!
+        System.setProperty("java.util.Arrays.useLegacyMergeSort", "true");
+    }
+
+
+    public String getKeyword(String title, String content) {
+        List<Term> termList = HanLP.segment(title + content);
+        List<String> wordList = new ArrayList<String>();
+        for (Term t : termList) {
+            if (shouldInclude(t)) {
+                wordList.add(t.word);
+            }
+        }
+        Map<String, Set<String>> words = new HashMap<String, Set<String>>();
+        Queue<String> que = new LinkedList<String>();
+        for (String w : wordList) {
+            if (!words.containsKey(w)) {
+                words.put(w, new HashSet<String>());
+            }
+            que.offer(w);
+            if (que.size() > 5) {
+                que.poll();
+            }
+
+            for (String w1 : que) {
+                for (String w2 : que) {
+                    if (w1.equals(w2)) {
+                        continue;
+                    }
+
+                    words.get(w1).add(w2);
+                    words.get(w2).add(w1);
+                }
+            }
+        }
+        Map<String, Float> score = new HashMap<String, Float>();
+        for (int i = 0; i < max_iter; ++i) {
+            Map<String, Float> m = new HashMap<String, Float>();
+            float max_diff = 0;
+            for (Map.Entry<String, Set<String>> entry : words.entrySet()) {
+                String key = entry.getKey();
+                Set<String> value = entry.getValue();
+                m.put(key, 1 - d);
+                for (String other : value) {
+                    int size = words.get(other).size();
+                    if (key.equals(other) || size == 0) continue;
+                    m.put(key, m.get(key) + d / size * (score.get(other) == null ? 0 : score.get(other)));
+                }
+                max_diff = Math.max(max_diff, Math.abs(m.get(key) - (score.get(key) == null ? 0 : score.get(key))));
+            }
+            score = m;
+            if (max_diff <= min_diff) break;
+        }
+        List<Map.Entry<String, Float>> entryList = new ArrayList<Map.Entry<String, Float>>(score.entrySet());
+        Collections.sort(entryList, (o1, o2) -> (o1.getValue() - o2.getValue() > 0 ? -1 : 1));
+
+        List<Map.Entry<String, Float>> list = entryList.stream().filter(w -> w.getKey().length() > 1).collect(Collectors.toList());
+        String result = "";
+        int nKeyword = MAX_KEY_WORDS > list.size() ? list.size() : MAX_KEY_WORDS;
+        for (int i = 0; i < nKeyword; ++i) {
+            result += list.get(i).getKey() + ';';
+        }
+        return result;
+    }
+
+    /**
+     * 是否应当将这个term纳入计算，词性属于名词、动词、副词、形容词
+     *
+     * @param term
+     * @return 是否应当
+     */
+    public boolean shouldInclude(Term term) {
+        return CoreStopWordDictionary.shouldInclude(term);
+    }
+}
Original file line number	Diff line number	Diff line change
`@@ -62,5 +62,9 @@ dependencies {`
`62`	`62`	`// https://mvnrepository.com/artifact/com.alibaba/fastjson`
`63`	`63`	`compile group: 'com.alibaba', name: 'fastjson', version: '1.2.47'`
`64`	`64`
	`65`	`+ // https://mvnrepository.com/artifact/org.htmlparser/htmlparser`
	`66`	`+ compile group: 'org.htmlparser', name: 'htmlparser', version: '2.1'`
	`67`	`+ // https://mvnrepository.com/artifact/com.hankcs/hanlp`
	`68`	`+ compile group: 'com.hankcs', name: 'hanlp', version: 'portable-1.6.4'`
`65`	`69`
`66`	`70`	`}`