一種基于結(jié)構(gòu)和內(nèi)容二級過濾的 Web 數(shù)據(jù)相似性檢測方法
本發(fā)明公開了一種基于結(jié)構(gòu)和內(nèi)容二級過濾的 Web 數(shù)據(jù)相似性檢測方法,在傳統(tǒng)的通用相似性檢測 方法的基礎(chǔ)上,發(fā)掘出 Web 數(shù)據(jù)結(jié)構(gòu)和內(nèi)容分布的特點,對檢測的文檔集進行兩級過濾;兩級過濾中的 第一級過濾是結(jié)構(gòu)相似性過濾,對每個Web文檔建模為Tag樹結(jié)構(gòu),從而剔除在結(jié)構(gòu)上不相似的文檔集, 并對剩余的文檔進行關(guān)鍵內(nèi)容抽取,將其表示成元組向量的形式,將關(guān)鍵信息連接起來生成字符串集; 兩級過濾中的第二級過濾則對第一級過濾后生成的字符串集進行 Trie
武漢大學(xué)
2021-04-14