關鍵詞:社區發現算法 爬蟲 賭博網站識別 pagerank算法
摘要:為了實現準確批量檢測賭博網站,依據現階段賭博網站的特點,區別于傳統的賭博網站檢測技術,以域名作為研究對象,對已有賭博網站下鏈接進行爬取,截取新增域名作為待分類數據,利用社區發現算法聚類新域名后,結合Page Rank算法獲得的PR值排序,實現批量分類賭博網站和白名單網站,最終可實現單次批量獲取60%以上賭博網站。
現代計算機雜志要求:
{1}基金項目:獲得基金資助產出的文章應注明基金項目名稱,并在括號內注明其項目編號。
{2}稿件內容來稿請按如下順序撰寫:論文標題,作者姓名,內容提要,關鍵詞,正文,(征引書目),參考文獻。
{3}本刊全彩印刷,要求圖文并茂,圖片高清美觀。
{4}本刊采用頁下注釋。正文中注號用阿拉伯數字加圓圈標注于相關句子的右上角,通常應在相關標點之外。
{5}正文:文內標題簡捷、層次分明。文字、標點及數字的運用應符合規范。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社