anomali tespiti ne demek?

Veri analizinde, anomali tespiti (aynı zamanda aykırı değer tespiti), verilerin çoğunluğundan önemli ölçüde farklılaşarak şüphe uyandıran nadir öğelerin, olayların veya gözlemlerin tanımlanmasıdır1. Tipik olarak anormal öğeler, banka dolandırıcılığı, yapısal bir kusur, tıbbi sorunlar veya bir metindeki hatalar gibi bir tür soruna dönüşecektir. Anormallikler ayrıca aykırı değerler, yenilikler, gürültü, sapmalar ve istisnalar olarak da adlandırılmaktadır2.

Özellikle, kötüye kullanım ve ağa izinsiz giriş tespiti bağlamında, ilginç nesneler genellikle nadir nesneler değil, beklenmedik etkinlik patlamalarıdır. Bu model, bir aykırı değerin nadir bir nesne olarak genel istatistiksel tanımına uymaz ve uygun şekilde bir araya getirilmediği sürece birçok aykırı değer algılama yöntemi (özellikle denetimsiz yöntemler) bu tür verilerde başarısız olmaktadır. Bunun yerine, bir küme analizi algoritması, bu modellerin oluşturduğu mikro kümeleri tespit edebilmektedir3.

Üç geniş anomali tespit tekniği kategorisi mevcuttur4. Denetimsiz anomali tespit teknikleri, veri setindeki örneklerin çoğunluğunun normal olduğu varsayımı altında, veri setinin geri kalanına en az uyan örnekleri arayarak etiketlenmemiş bir test veri setindeki anormallikleri tespit etmektedir. Denetimli anomali tespit teknikleri, "normal" ve "anormal" olarak etiketlenmiş bir veri seti gerektirir ve bir sınıflandırıcının eğitimini içermektedir (diğer birçok istatistiksel sınıflandırma probleminden temel fark, aykırı değer tespitinin doğal dengesiz doğasıdır). Yarı denetimli anomali tespit teknikleri, belirli bir normal eğitim veri setinden normal davranışı temsil eden bir model oluşturur ve ardından kullanılan model tarafından bir test örneğinin oluşturulma olasılığını test etmektedir.

Uygulamalar

Anomali tespiti, izinsiz giriş tespiti, dolandırıcılık tespiti, arıza tespiti, sistem sağlığının izlenmesi, sensör ağlarında olay tespiti, ekosistem bozukluklarının tespiti ve makine görüsü kullanarak görüntülerde kusur tespiti gibi çeşitli alanlarda uygulanabilmektedir5. Genellikle veri kümesinden anormal verileri çıkarmak için ön işlemede kullanılmaktadır. Denetimli öğrenmede, veri kümesinden anormal verilerin çıkarılması, genellikle doğrulukta istatistiksel olarak önemli bir artışla sonuçlanmaktadır67.

Popüler teknikler

Literatürde birkaç anomali tespit tekniği önerilmiştir8. Popüler tekniklerden bazıları şunlardır:

  • Yoğunluğa dayalı teknikler (k-en yakın komşu91011, yerel aykırı değer faktörü12, izolasyon ormanları1314 ve bu kavramın daha birçok varyasyonu15).
  • Yüksek boyutlu veriler için alt uzay16, korelasyon tabanlı17 ve tensör tabanlı18 aykırı değer tespiti19.
  • Tek sınıf destek vektör makineleri20.
  • Çoğalıcı sinir ağları21, otomatik kodlayıcılar, değişken otomatik kodlayıcılar22, uzun kısa süreli bellek sinir ağları23
  • Bayes ağları24.
  • Gizli Markov modelleri 25.
  • Küme analizine dayalı aykırı değer tespiti2627.
  • Birliktelik kurallarından ve sık öğe kümelerinden sapmalar.
  • Bulanık mantık tabanlı aykırı değer tespiti.
  • Özellik torbalama2829, puan normalleştirme3031 ve farklı çeşitlilik kaynaklarını kullanan topluluk teknikleri3233.

Farklı yöntemlerin performansı büyük ölçüde veri kümesine ve parametrelere bağlıdır. Birçok veri kümesi ve parametre karşılaştırıldığında yöntemlerin diğerine göre çok az sistematik avantajı vardır.

Veri güvenliği uygulamaları

İzinsiz giriş tespit sistemleri (intrusion detection systems; IDS) için anomali tespiti 1986 yılında Dorothy Denning tarafından önerildi34. IDS için anomali tespiti normalde eşikler ve istatistiklerle gerçekleştirilirdi, ancak aynı zamanda yumuşak hesaplama ve endüktif öğrenme ile de yapılabilirdi35. 1999 tarafından önerilen istatistik türleri, kullanıcıların profillerini, iş istasyonlarını, ağları, uzak ana bilgisayarları, kullanıcı gruplarını ve frekansları, ortalamaları, varyansları, kovaryansları ve standart sapmaları temel alan programları içeriyordu36. İzinsiz giriş tespitinde anomali tespitinin karşılığı, kötüye kullanım tespitidir.

Veri ön işleme

Denetimli öğrenmede, anomali tespiti, öğrenme algoritmasına öğrenilecek uygun bir veri seti sağlamak için genellikle veri ön işlemede önemli bir adımdır. Bu aynı zamanda veri temizleme olarak da bilinmektedir. Anormal örnekleri tespit ettikten sonra, sınıflandırıcılar bunları kaldırmaktadır. Ancak bazen bozuk veriler hala öğrenme için faydalı örnekler sağlayabilmektedir. Kullanılacak uygun örnekleri bulmak için yaygın bir yöntem, gürültülü verileri tanımlamaktır. Gürültülü değerleri bulmak için bir yaklaşım, bozulmamış veri ve bozuk veri modellerini kullanarak verilerden olasılıklı bir model oluşturmaktır37.

Aşağıda, bir anomali eklenmiş İris çiçeği veri kümesinin bir örneği verilmiştir. Bir anormallik dahil edildiğinde, sınıflandırma algoritması kalıpları düzgün bir şekilde bulmakta zorluk çekebilmektedir veya hatalarla karşılaşabilmektedir.

Veri kümesi sırasıSepal uzunlukSepal genişlikPetal uzunluğuPetal genişliğiTürleri
15.13.51.40.2I. setosa
24.93.01.40.2I. setosa
34.73.21.30.2I. setosa
44.63.11.50.2I. setosa
55.0BOŞ1.4BOŞI. setosa

Bir Anomali ile Fischer'ın İris Verileri

Anomali ortadan kaldırılarak, eğitimin sınıflandırmalardaki kalıpları daha kolay bulmasına olanak sağlanacaktır.

Veri madenciliğinde, yüksek boyutlu veriler ayrıca yoğun şekilde büyük veri kümeleriyle yüksek hesaplama zorlukları ortaya çıkaracaktır. Kendisini bir sınıflandırıcı veya algılama algoritmasıyla alakasız bulabilecek çok sayıda örneği kaldırarak, en büyük veri setlerinde bile çalışma zamanı önemli ölçüde azaltılabilmektedir.

Yazılım

  • ELKI, birkaç anormallik algılama algoritması ve bunlar için indeks hızlandırma içeren açık kaynaklı bir Java veri madenciliği araç takımıdır.
  • Scikit-Learn, denetimsiz anormallik algılaması sağlamak için işlevsellik oluşturan açık kaynaklı bir Python kitaplığıdır.

Ayrıca bakınız

  • Değişiklik algılama
  • İstatiksel süreç kontrolü
  • Yenilik algılama
  • Hiyerarşik geçici bellek

Kaynakça

Orijinal kaynak: anomali tespiti. Creative Commons Atıf-BenzerPaylaşım Lisansı ile paylaşılmıştır.

Footnotes

  1. Hodge, V. J.; Austin, J. (2004). "A Survey of Outlier Detection Methodologies" (PDF). Artificial Intelligence Review. 22 (2): 85–126. CiteSeerX 10.1.1.318.4023. doi:10.1007/s10462-004-4304-y. S2CID 3330313.

  2. Chandola, V.; Banerjee, A.; Kumar, V. (2009). "Anomaly detection: A survey". ACM Computing Surveys. 41 (3): 1–58. doi:10.1145/1541880.1541882. S2CID 207172599.

  3. Bergmann, Paul; Kilian Batzner; Michael Fauser; David Sattlegger; Carsten Steger (2021). "The MVTec Anomaly Detection Dataset: A Comprehensive Real-World Dataset for Unsupervised Anomaly Detection". International Journal of Computer Vision. 129 (4): 1038–1059. doi:10.1007/s11263-020-01400-4.

  4. omek, Ivan (1976). "An Experiment with the Edited Nearest-Neighbor Rule". IEEE Transactions on Systems, Man, and Cybernetics. 6 (6): 448–452. doi:10.1109/TSMC.1976.4309523.

  5. Smith, M. R.; Martinez, T. (2011). "Improving classification accuracy by identifying and removing instances that should be misclassified" (PDF). The 2011 International Joint Conference on Neural Networks. p. 2690. CiteSeerX 10.1.1.221.1371. doi:10.1109/IJCNN.2011.6033571. ISBN <bdi>978-1-4244-9635-8</bdi>. S2CID 5809822.

  6. Breunig, M. M.; Kriegel, H.-P.; Ng, R. T.; Sander, J. (2000). LOF: Identifying Density-based Local Outliers (PDF). Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data. SIGMOD. pp. 93–104. doi:10.1145/335191.335388. ISBN <bdi>1-58113-217-4</bdi>.

  7. Liu, Fei Tony; Ting, Kai Ming; Zhou, Zhi-Hua (March 2012). "Isolation-Based Anomaly Detection". ACM Transactions on Knowledge Discovery from Data. 6 (1): 1–39. doi:10.1145/2133360.2133363. S2CID 207193045.

  8. Schubert, E.; Zimek, A.; Kriegel, H. -P. (2012). "Local outlier detection reconsidered: A generalized view on locality with applications to spatial, video, and network outlier detection". Data Mining and Knowledge Discovery. 28: 190–237. doi:10.1007/s10618-012-0300-z. S2CID 19036098.

  9. Fanaee-T, H.; Gama, J. (2016). "Tensor-based anomaly detection: An interdisciplinary survey". Knowledge-Based Systems. 98: 130–147. doi:10.1016/j.knosys.2016.01.027.

  10. Zimek, A.; Schubert, E.; Kriegel, H.-P. (2012). "A survey on unsupervised outlier detection in high-dimensional numerical data". Statistical Analysis and Data Mining. 5 (5): 363–387. doi:10.1002/sam.11161.

  11. Schölkopf, B.; Platt, J. C.; Shawe-Taylor, J.; Smola, A. J.; Williamson, R. C. (2001). "Estimating the Support of a High-Dimensional Distribution". Neural Computation. 13 (7): 1443–71. CiteSeerX 10.1.1.4.4106. doi:10.1162/089976601750264965. PMID 11440593. S2CID 2110475.

  12. J. An and S. Cho, "Variational autoencoder based anomaly detection using reconstruction probability", 2015.

  13. He, Z.; Xu, X.; Deng, S. (2003). "Discovering cluster-based local outliers". Pattern Recognition Letters. 24 (9–10): 1641–1650. CiteSeerX 10.1.1.20.4242. doi:10.1016/S0167-8655(03)00003-5.

  14. Campello, R. J. G. B.; Moulavi, D.; Zimek, A.; Sander, J. (2015). "Hierarchical Density Estimates for Data Clustering, Visualization, and Outlier Detection". ACM Transactions on Knowledge Discovery from Data. 10 (1): 5:1–51. doi:10.1145/2733381. S2CID

  15. Zimek, A.; Campello, R. J. G. B.; Sander, J. R. (2014). "Ensembles for unsupervised outlier detection". ACM SIGKDD Explorations Newsletter. 15: 11–22. doi:10.1145/2594473.2594476. S2CID 8065347.

  16. Denning, D. E. (1987). "An Intrusion-Detection Model" (PDF). IEEE Transactions on Software Engineering. SE-13 (2): 222–232. CiteSeerX 10.1.1.102.5127. doi:10.1109/TSE.1987.232894. S2CID

  17. Jones, Anita K.; Sielken, Robert S. (1999). "Computer System Intrusion Detection: A Survey". Technical Report, Department of Computer Science, University of Virginia, Charlottesville, VA. CiteSeerX 10.1.1.24.7802.

Kategoriler