Impala, Apache Hadoop ekosistemi üzerinde çalışan, büyük veri kümelerini SQL kullanarak sorgulamak için tasarlanmış, açık kaynaklı bir Massive Parallel Processing (MPP) SQL sorgu motorudur. Hızlı ve etkileşimli sorgu yetenekleri sunar.
-
Temel Özellikler:
- Hız: Impala, verileri bellekte işleyerek ve optimize edilmiş sorgu planları kullanarak düşük gecikme süresi sağlar.
- SQL Uyumluluğu: Standart SQL sözdizimini destekler, bu da SQL bilenlerin kolayca kullanabilmesini sağlar.
- Hadoop Entegrasyonu: HDFS ve Apache Hive gibi Hadoop bileşenleriyle sorunsuz bir şekilde entegre olur.
- Ölçeklenebilirlik: Büyük veri kümelerini işleyebilmek için yatay olarak ölçeklenebilir.
- Eş Zamanlılık: Aynı anda birden fazla sorguyu destekler.
-
Kullanım Alanları:
- İş Zekası (BI): Büyük veri kümeleri üzerinde hızlı raporlama ve analiz yapma.
- Veri Keşfi: Verileri etkileşimli olarak keşfetme ve anlamlandırma.
- Gerçek Zamanlı Analiz: Verileri neredeyse gerçek zamanlı olarak analiz etme.
-
Mimari:
- Impala Daemon: Sorguları yürütmekten sorumlu olan ana bileşendir. Her Hadoop düğümünde çalışır.
- Impala Statestore: Daemon'ların durumunu izler ve küme sağlığını yönetir.
- Impala Catalog Service: Metadata bilgilerini (tablolar, şemalar vb.) yönetir.
Önemli Kavramlar: