一種自適應增量式的深層網(wǎng)絡數(shù)據(jù)源發(fā)現(xiàn)方法
本發(fā)明公開了一種自適應增量式的深網(wǎng)數(shù)據(jù)源發(fā)現(xiàn)方法,將深 層網(wǎng)絡數(shù)據(jù)源發(fā)現(xiàn)過程分為站點定位和站內搜索兩個階段,在站點定 位階段引進站點發(fā)現(xiàn)機制可以高效擴充站點數(shù)據(jù)以提高爬行效率;在 站點和站內鏈接選取采用自適應的排序機制,能夠更快的發(fā)現(xiàn)深層網(wǎng) 絡站點和可查詢表單。本方法實現(xiàn)了增量自動高效采集深網(wǎng)數(shù)據(jù)源, 可用于深層網(wǎng)絡數(shù)據(jù)集成和暗網(wǎng)爬蟲,同時也適用于構建在線數(shù)據(jù)庫 目錄站點。
華中科技大學
2021-04-14