Avrupa Bilim ve Teknoloji Dergisi, no.29, pp.122-128, 2021 (Peer-Reviewed Journal)
Many web applications are exposed to various security threats and network attacks with the use of new techniques in web attacks. Url
addresses are also the focus of this security architecture. Many web applications are accesses via Url addresses. This makes it a tool
that hackers can use to commit crimes. In order to protect the end users, how to detect and filter these addresses is a problem that
needs to be solved. In this study, a deep neural network (DNN) is designed for the detection of malicious Urls. In the first stage of the
study, Url addresses were processed by making text-based analysis. Afterwards, the DNN model consisting of 1 input, 3 hidden and 1
output layers is trained for classification. The model was tested with the ISCX-URL2016 dataset and the experimental results showed
that the proposed structure is suitable for high precision classification. The dataset includes 7781 benign, 7930 defacement, 7586
phishing, 6712 malware and 6698 spam urls. There are 79 features for each sample. As a result of the experiments, 95.4% accuracy,
95.5% precision, 95.4% sensitivity and f-score values were achieved for the problem consisting of 5 classes. In the first stage of this
study, features were extracted using the Doc2vec network. In the classification made using Doc2vec, the accuracy value of 88.1% for
the multi-class problem was increated to 95,4% in this study. It has been shown that text-based analysis is more successful for
multiclass classification then vector-based analysis. After all, using Url addresses is an effective method to determine the intentions of
website visitors. The use of deep learning models has important theoretical and scientific value for web research and provides
different possibilities for the security internet environment.
Web saldırılarında yeni tekniklerin kullanımı ile birlikte birçok web uygulaması çeşitli güvenlik tehditlerine ve ağ saldırılarına maruz
kalmaktadır. URL adresleri de bu güvenlik mimarisinin odak noktasını oluşturmaktadır. Birçok web uygulamasına URL adresleri
üzerinden erişim sağlanmaktadır. Bu durum siber korsanların, URL adreslerini suç işlemek için kullanabilecekleri bir araç haline
getirmektedir. Son kullanıcıları korumak amacıyla bu adreslerin tespit edilerek nasıl filtreleneceği çözülmesi gereken bir problemdir.
Bu çalışmada kötü amaçlı URL adreslerinin tespiti için derin öğrenme ağı(DNN) tasarlanmıştır. Çalışmanın ilk aşamasında URL
adresleri metin tabanlı analiz yapılarak işlenmiştir. Sonrasında 1 giriş, 3 gizli ve 1 çıkış katmanından oluşan DNN modeli
sınıflandırma için eğitilmiştir. Model ISCX-URL2016 veriseti ile test edilmiş olup deneysel sonuçlar önerilen yapının yüksek
hassasiyetli sınıflandırma için uygun olduğunu göstermiştir. Verisetinde iyicil 7781, tahrif edilmiş 7930, kimlik avı 7586, kötü amaçlı
yazılım dağıtan 6712 ve spam türünde 6698 örnek bulunmaktadır. Her bir örnek için 79 özellik bulunmaktadır. Deneyler sonucunda 5
sınıftan oluşan problem için %95,4 doğruluk, %95,5 kesinlik, %95,4 duyarlılık ve f skoru değerine ulaşılmıştır. Bu çalışmanın birinci
aşamasında Doc2Vec ağı kullanılarak özellikler çıkarılmıştır. Doc2Vec kullanılarak yapılan sınıflandırmada çok sınıflı problem için
alınan %88.1 doğruluk değeri, bu çalışmada %95,4’e yükseltilmiştir. Metin tabanlı analizin vektör tabanlı analize göre çoklu
sınıflandırma için daha başarılı olduğu gösterilmiştir. Sonuçta, web sitelerini ziyaret edenlerin niyetlerini belirlemek için URL
adreslerini kullanmak etkin bir yöntemdir. Derin öğrenme modellerinin kullanılması web araştırmaları için önemli teorik ve bilimsel
değere sahiptir ve güvenlik internet ortamı için farklı imkânlar sağlamaktadır.