一種自適應(yīng)增量式的深層網(wǎng)絡(luò)數(shù)據(jù)源發(fā)現(xiàn)方法
本發(fā)明公開了一種自適應(yīng)增量式的深網(wǎng)數(shù)據(jù)源發(fā)現(xiàn)方法,將深 層網(wǎng)絡(luò)數(shù)據(jù)源發(fā)現(xiàn)過程分為站點定位和站內(nèi)搜索兩個階段,在站點定 位階段引進站點發(fā)現(xiàn)機制可以高效擴充站點數(shù)據(jù)以提高爬行效率;在 站點和站內(nèi)鏈接選取采用自適應(yīng)的排序機制,能夠更快的發(fā)現(xiàn)深層網(wǎng) 絡(luò)站點和可查詢表單。本方法實現(xiàn)了增量自動高效采集深網(wǎng)數(shù)據(jù)源, 可用于深層網(wǎng)絡(luò)數(shù)據(jù)集成和暗網(wǎng)爬蟲,同時也適用于構(gòu)建在線數(shù)據(jù)庫 目錄站點。
華中科技大學(xué)
2021-04-14