Veri analizinde, anomali tespiti (aynı zamanda aykırı değer tespiti), verilerin çoğunluğundan önemli ölçüde farklılaşarak şüphe uyandıran nadir öğelerin, olayların veya gözlemlerin tanımlanmasıdır1. Tipik olarak anormal öğeler, banka dolandırıcılığı, yapısal bir kusur, tıbbi sorunlar veya bir metindeki hatalar gibi bir tür soruna dönüşecektir. Anormallikler ayrıca aykırı değerler, yenilikler, gürültü, sapmalar ve istisnalar olarak da adlandırılmaktadır2.
Özellikle, kötüye kullanım ve ağa izinsiz giriş tespiti bağlamında, ilginç nesneler genellikle nadir nesneler değil, beklenmedik etkinlik patlamalarıdır. Bu model, bir aykırı değerin nadir bir nesne olarak genel istatistiksel tanımına uymaz ve uygun şekilde bir araya getirilmediği sürece birçok aykırı değer algılama yöntemi (özellikle denetimsiz yöntemler) bu tür verilerde başarısız olmaktadır. Bunun yerine, bir küme analizi algoritması, bu modellerin oluşturduğu mikro kümeleri tespit edebilmektedir3.
Üç geniş anomali tespit tekniği kategorisi mevcuttur4. Denetimsiz anomali tespit teknikleri, veri setindeki örneklerin çoğunluğunun normal olduğu varsayımı altında, veri setinin geri kalanına en az uyan örnekleri arayarak etiketlenmemiş bir test veri setindeki anormallikleri tespit etmektedir. Denetimli anomali tespit teknikleri, "normal" ve "anormal" olarak etiketlenmiş bir veri seti gerektirir ve bir sınıflandırıcının eğitimini içermektedir (diğer birçok istatistiksel sınıflandırma probleminden temel fark, aykırı değer tespitinin doğal dengesiz doğasıdır). Yarı denetimli anomali tespit teknikleri, belirli bir normal eğitim veri setinden normal davranışı temsil eden bir model oluşturur ve ardından kullanılan model tarafından bir test örneğinin oluşturulma olasılığını test etmektedir.
Anomali tespiti, izinsiz giriş tespiti, dolandırıcılık tespiti, arıza tespiti, sistem sağlığının izlenmesi, sensör ağlarında olay tespiti, ekosistem bozukluklarının tespiti ve makine görüsü kullanarak görüntülerde kusur tespiti gibi çeşitli alanlarda uygulanabilmektedir5. Genellikle veri kümesinden anormal verileri çıkarmak için ön işlemede kullanılmaktadır. Denetimli öğrenmede, veri kümesinden anormal verilerin çıkarılması, genellikle doğrulukta istatistiksel olarak önemli bir artışla sonuçlanmaktadır67.
Literatürde birkaç anomali tespit tekniği önerilmiştir8. Popüler tekniklerden bazıları şunlardır:
Farklı yöntemlerin performansı büyük ölçüde veri kümesine ve parametrelere bağlıdır. Birçok veri kümesi ve parametre karşılaştırıldığında yöntemlerin diğerine göre çok az sistematik avantajı vardır.
İzinsiz giriş tespit sistemleri (intrusion detection systems; IDS) için anomali tespiti 1986 yılında Dorothy Denning tarafından önerildi34. IDS için anomali tespiti normalde eşikler ve istatistiklerle gerçekleştirilirdi, ancak aynı zamanda yumuşak hesaplama ve endüktif öğrenme ile de yapılabilirdi35. 1999 tarafından önerilen istatistik türleri, kullanıcıların profillerini, iş istasyonlarını, ağları, uzak ana bilgisayarları, kullanıcı gruplarını ve frekansları, ortalamaları, varyansları, kovaryansları ve standart sapmaları temel alan programları içeriyordu36. İzinsiz giriş tespitinde anomali tespitinin karşılığı, kötüye kullanım tespitidir.
Denetimli öğrenmede, anomali tespiti, öğrenme algoritmasına öğrenilecek uygun bir veri seti sağlamak için genellikle veri ön işlemede önemli bir adımdır. Bu aynı zamanda veri temizleme olarak da bilinmektedir. Anormal örnekleri tespit ettikten sonra, sınıflandırıcılar bunları kaldırmaktadır. Ancak bazen bozuk veriler hala öğrenme için faydalı örnekler sağlayabilmektedir. Kullanılacak uygun örnekleri bulmak için yaygın bir yöntem, gürültülü verileri tanımlamaktır. Gürültülü değerleri bulmak için bir yaklaşım, bozulmamış veri ve bozuk veri modellerini kullanarak verilerden olasılıklı bir model oluşturmaktır37.
Aşağıda, bir anomali eklenmiş İris çiçeği veri kümesinin bir örneği verilmiştir. Bir anormallik dahil edildiğinde, sınıflandırma algoritması kalıpları düzgün bir şekilde bulmakta zorluk çekebilmektedir veya hatalarla karşılaşabilmektedir.
Veri kümesi sırası | Sepal uzunluk | Sepal genişlik | Petal uzunluğu | Petal genişliği | Türleri |
---|---|---|---|---|---|
1 | 5.1 | 3.5 | 1.4 | 0.2 | I. setosa |
2 | 4.9 | 3.0 | 1.4 | 0.2 | I. setosa |
3 | 4.7 | 3.2 | 1.3 | 0.2 | I. setosa |
4 | 4.6 | 3.1 | 1.5 | 0.2 | I. setosa |
5 | 5.0 | BOŞ | 1.4 | BOŞ | I. setosa |
Bir Anomali ile Fischer'ın İris Verileri
Anomali ortadan kaldırılarak, eğitimin sınıflandırmalardaki kalıpları daha kolay bulmasına olanak sağlanacaktır.
Veri madenciliğinde, yüksek boyutlu veriler ayrıca yoğun şekilde büyük veri kümeleriyle yüksek hesaplama zorlukları ortaya çıkaracaktır. Kendisini bir sınıflandırıcı veya algılama algoritmasıyla alakasız bulabilecek çok sayıda örneği kaldırarak, en büyük veri setlerinde bile çalışma zamanı önemli ölçüde azaltılabilmektedir.
Orijinal kaynak: anomali tespiti. Creative Commons Atıf-BenzerPaylaşım Lisansı ile paylaşılmıştır.
Hodge, V. J.; Austin, J. (2004). "A Survey of Outlier Detection Methodologies" (PDF). Artificial Intelligence Review. 22 (2): 85–126. CiteSeerX 10.1.1.318.4023. doi:10.1007/s10462-004-4304-y. S2CID 3330313. ↩
Chandola, V.; Banerjee, A.; Kumar, V. (2009). "Anomaly detection: A survey". ACM Computing Surveys. 41 (3): 1–58. doi:10.1145/1541880.1541882. S2CID 207172599. ↩
Bergmann, Paul; Kilian Batzner; Michael Fauser; David Sattlegger; Carsten Steger (2021). "The MVTec Anomaly Detection Dataset: A Comprehensive Real-World Dataset for Unsupervised Anomaly Detection". International Journal of Computer Vision. 129 (4): 1038–1059. doi:10.1007/s11263-020-01400-4. ↩
omek, Ivan (1976). "An Experiment with the Edited Nearest-Neighbor Rule". IEEE Transactions on Systems, Man, and Cybernetics. 6 (6): 448–452. doi:10.1109/TSMC.1976.4309523. ↩
Smith, M. R.; Martinez, T. (2011). "Improving classification accuracy by identifying and removing instances that should be misclassified" (PDF). The 2011 International Joint Conference on Neural Networks. p. 2690. CiteSeerX 10.1.1.221.1371. doi:10.1109/IJCNN.2011.6033571. ISBN <bdi>978-1-4244-9635-8</bdi>. S2CID 5809822. ↩
Breunig, M. M.; Kriegel, H.-P.; Ng, R. T.; Sander, J. (2000). LOF: Identifying Density-based Local Outliers (PDF). Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data. SIGMOD. pp. 93–104. doi:10.1145/335191.335388. ISBN <bdi>1-58113-217-4</bdi>. ↩
Liu, Fei Tony; Ting, Kai Ming; Zhou, Zhi-Hua (March 2012). "Isolation-Based Anomaly Detection". ACM Transactions on Knowledge Discovery from Data. 6 (1): 1–39. doi:10.1145/2133360.2133363. S2CID 207193045. ↩
Schubert, E.; Zimek, A.; Kriegel, H. -P. (2012). "Local outlier detection reconsidered: A generalized view on locality with applications to spatial, video, and network outlier detection". Data Mining and Knowledge Discovery. 28: 190–237. doi:10.1007/s10618-012-0300-z. S2CID 19036098. ↩
Fanaee-T, H.; Gama, J. (2016). "Tensor-based anomaly detection: An interdisciplinary survey". Knowledge-Based Systems. 98: 130–147. doi:10.1016/j.knosys.2016.01.027. ↩
Zimek, A.; Schubert, E.; Kriegel, H.-P. (2012). "A survey on unsupervised outlier detection in high-dimensional numerical data". Statistical Analysis and Data Mining. 5 (5): 363–387. doi:10.1002/sam.11161. ↩
Schölkopf, B.; Platt, J. C.; Shawe-Taylor, J.; Smola, A. J.; Williamson, R. C. (2001). "Estimating the Support of a High-Dimensional Distribution". Neural Computation. 13 (7): 1443–71. CiteSeerX 10.1.1.4.4106. doi:10.1162/089976601750264965. PMID 11440593. S2CID 2110475. ↩
J. An and S. Cho, "Variational autoencoder based anomaly detection using reconstruction probability", 2015. ↩
He, Z.; Xu, X.; Deng, S. (2003). "Discovering cluster-based local outliers". Pattern Recognition Letters. 24 (9–10): 1641–1650. CiteSeerX 10.1.1.20.4242. doi:10.1016/S0167-8655(03)00003-5. ↩
Campello, R. J. G. B.; Moulavi, D.; Zimek, A.; Sander, J. (2015). "Hierarchical Density Estimates for Data Clustering, Visualization, and Outlier Detection". ACM Transactions on Knowledge Discovery from Data. 10 (1): 5:1–51. doi:10.1145/2733381. S2CID
Zimek, A.; Campello, R. J. G. B.; Sander, J. R. (2014). "Ensembles for unsupervised outlier detection". ACM SIGKDD Explorations Newsletter. 15: 11–22. doi:10.1145/2594473.2594476. S2CID 8065347. ↩
Denning, D. E. (1987). "An Intrusion-Detection Model" (PDF). IEEE Transactions on Software Engineering. SE-13 (2): 222–232. CiteSeerX 10.1.1.102.5127. doi:10.1109/TSE.1987.232894. S2CID
Jones, Anita K.; Sielken, Robert S. (1999). "Computer System Intrusion Detection: A Survey". Technical Report, Department of Computer Science, University of Virginia, Charlottesville, VA. CiteSeerX 10.1.1.24.7802. ↩