Avrupa Bilim ve Teknoloji Dergisi, no.27, pp.792-801, 2021 (Peer-Reviewed Journal)
Today, many transactions are transferred to the digital environment and it is difficult to protect our data in this environment. Due to the
fact that many things are connected to the internet, web security is emerging as a big problem. The most common way to initiate Internetborne attacks is using malicious URL addresses. Hackers engaged in malicious activity obtain a lot of data with using the websites they
have prepared for this purpose. The traditional way to detect such malicious URL addresses or websites is using a blacklist. However,
this method does not succeed in detecting newly created malicious URLs. In this study, an approach using machine learning is proposed
to increase efficiency in detecting malicious URLs and prevent dependence on some databases such as blacklists. While different
machine learning algorithms is used for classification, Doc2Vec approach is used for feature extraction. Classification is made using
only the features obtained from URL addresses. In the first stage of the tests conducted with the ISCX2016URL data set, URLs are
classified as malicious or benign. With the Logistic Regression algorithm, 99.2% accuracy was achieved, while the precision, recall and
F-score values were 98.9%, 99.1% and 99.2%, respectively. In the second stage of the tests, the malicious URLs belonging to the classes
spam, phishing, malware and defacement are tested. Malicious URLs are classified with SVC with 88.1% accuracy. It is possible to
implement the resulting model on any Proxy server or on a network controller platform.
Günümüzde birçok işlem dijital ortama taşınmakta ve verilerimizi bu ortamda korumak zorlaşmaktadır. Birçok cihazın internete bağlı
olması web güvenliği için büyük bir sorun olmaktadır. İnternet kaynaklı saldırıları başlatmanın en yaygın yolu da kötü amaçlı URL
adreslerini kullanmaktır. Kötücül faaliyette bulunan korsanlar bu amaçla hazırladıkları web sitelerini kullanarak birçok veriyi elde
etmektedirler. Bu tür kötü amaçlı URL adreslerini veya web sitelerini tespit etmenin geleneksel yolu kara liste kullanmaktır. Ancak bu
yöntem yeni oluşturulan kötü amaçlı URL’lerin tespit edilmesinde başarılı olmamaktadır. Bu çalışmada, kötücül URL adreslerinin
tespitinde verimliliği artırmak ve kara liste gibi bir takım veri tabanlarına bağımlılığı önlemek için makine öğrenmesi kullanan bir
yaklaşım önerildi. Makine öğreniminde sınıflandırma için farklı algoritmalar denenirken, özellik çıkarımı için Doc2Vec yaklaşımı
kullanılmıştır. Sadece URL adreslerinden elde edilen özellikler kullanılarak sınıflandırma yapılmaktadır. ISCX2016URL veri seti ile
yapılan testlerin birinci aşamasında URL adresinin kötücül ve iyicil olarak sınıflandırma için Logistic Regresyon algoritması ile %99,2
doğruluk yakalanırken, kesinlik, duyarlılık ve F-skoru değerlerinde sırasıyla %98,9, %99,1 ve %99,2 değerleri yakalanmıştır. Testlerin
ikinci aşamasında ise kötücül URL adreslerinin spam, kimlik avı, kötücül amaçlı yazılım dağıtan ve tahrif edilmiş sınıflarına aitlikleri
test edilmiştir. Sonuçta SVC sınıflandırıcı ile %88,1 doğruluk ile kötücül URL adresleri sınıflandırılmıştır. Sonuçta ortaya çıkan modeli
herhangi bir vekil sunucuda veya bir ağ denetleyici platforma üzerinde uygulamak mümkündür.