A Deep Learning Model for Malicious Url Filtering


Creative Commons License

Arslan R. S.

Avrupa Bilim ve Teknoloji Dergisi, no.29, pp.122-128, 2021 (Other Refereed National Journals)

  • Publication Type: Article / Article
  • Publication Date: 2021
  • Doi Number: 10.31590/ejosat.1011961
  • Title of Journal : Avrupa Bilim ve Teknoloji Dergisi
  • Page Numbers: pp.122-128

Abstract

Many web applications are exposed to various security threats and network attacks with the use of new techniques in web attacks. Url addresses are also the focus of this security architecture. Many web applications are accesses via Url addresses. This makes it a tool that hackers can use to commit crimes. In order to protect the end users, how to detect and filter these addresses is a problem that needs to be solved. In this study, a deep neural network (DNN) is designed for the detection of malicious Urls. In the first stage of the study, Url addresses were processed by making text-based analysis. Afterwards, the DNN model consisting of 1 input, 3 hidden and 1 output layers is trained for classification. The model was tested with the ISCX-URL2016 dataset and the experimental results showed that the proposed structure is suitable for high precision classification. The dataset includes 7781 benign, 7930 defacement, 7586 phishing, 6712 malware and 6698 spam urls. There are 79 features for each sample. As a result of the experiments, 95.4% accuracy, 95.5% precision, 95.4% sensitivity and f-score values were achieved for the problem consisting of 5 classes. In the first stage of this study, features were extracted using the Doc2vec network. In the classification made using Doc2vec, the accuracy value of 88.1% for the multi-class problem was increated to 95,4% in this study. It has been shown that text-based analysis is more successful for multiclass classification then vector-based analysis. After all, using Url addresses is an effective method to determine the intentions of website visitors. The use of deep learning models has important theoretical and scientific value for web research and provides different possibilities for the security internet environment.

Web saldırılarında yeni tekniklerin kullanımı ile birlikte birçok web uygulaması çeşitli güvenlik tehditlerine ve ağ saldırılarına maruz kalmaktadır. URL adresleri de bu güvenlik mimarisinin odak noktasını oluşturmaktadır. Birçok web uygulamasına URL adresleri üzerinden erişim sağlanmaktadır. Bu durum siber korsanların, URL adreslerini suç işlemek için kullanabilecekleri bir araç haline getirmektedir. Son kullanıcıları korumak amacıyla bu adreslerin tespit edilerek nasıl filtreleneceği çözülmesi gereken bir problemdir. Bu çalışmada kötü amaçlı URL adreslerinin tespiti için derin öğrenme ağı(DNN) tasarlanmıştır. Çalışmanın ilk aşamasında URL adresleri metin tabanlı analiz yapılarak işlenmiştir. Sonrasında 1 giriş, 3 gizli ve 1 çıkış katmanından oluşan DNN modeli sınıflandırma için eğitilmiştir. Model ISCX-URL2016 veriseti ile test edilmiş olup deneysel sonuçlar önerilen yapının yüksek hassasiyetli sınıflandırma için uygun olduğunu göstermiştir. Verisetinde iyicil 7781, tahrif edilmiş 7930, kimlik avı 7586, kötü amaçlı yazılım dağıtan 6712 ve spam türünde 6698 örnek bulunmaktadır. Her bir örnek için 79 özellik bulunmaktadır. Deneyler sonucunda 5 sınıftan oluşan problem için %95,4 doğruluk, %95,5 kesinlik, %95,4 duyarlılık ve f skoru değerine ulaşılmıştır. Bu çalışmanın birinci aşamasında Doc2Vec ağı kullanılarak özellikler çıkarılmıştır. Doc2Vec kullanılarak yapılan sınıflandırmada çok sınıflı problem için alınan %88.1 doğruluk değeri, bu çalışmada %95,4’e yükseltilmiştir. Metin tabanlı analizin vektör tabanlı analize göre çoklu sınıflandırma için daha başarılı olduğu gösterilmiştir. Sonuçta, web sitelerini ziyaret edenlerin niyetlerini belirlemek için URL adreslerini kullanmak etkin bir yöntemdir. Derin öğrenme modellerinin kullanılması web araştırmaları için önemli teorik ve bilimsel değere sahiptir ve güvenlik internet ortamı için farklı imkânlar sağlamaktadır.