Konfiguracja Celery Kubernetes Executor dla Airflow 2.0

Michał Miłosz
Michał Miłosz
April 6, 2026
12 min read
Loading the Elevenlabs Text to Speech AudioNative Player...

Wprowadzenie

Apache Airflow 2.0 wprowadził wiele ulepszeń, które umożliwiają bardziej elastyczne i skalowalne zarządzanie data pipeline. Jednym z kluczowych elementów tej wersji jest wsparcie dla Celery Kubernetes Executor. W tym artykule pokażemy, jak skonfigurować to rozwiązanie, aby efektywnie zarządzać zadaniami w środowisku chmurowym.

Dlaczego Celery Kubernetes Executor?

Celery Kubernetes Executor łączy zalety Celery Executor i Kubernetes Executor, oferując:

  • Dynamiczne skalowanie zadań w oparciu o zasoby Kubernetes.
  • Lepszą izolację zadań dzięki wykorzystaniu kontenerów.
  • Możliwość obsługi dużych i złożonych data pipeline.

Kroki konfiguracji

Aby skonfigurować Celery Kubernetes Executor, wykonaj poniższe kroki:

1. Przygotowanie środowiska

Upewnij się, że masz zainstalowany Apache Airflow 2.0 oraz dostęp do klastra Kubernetes. Dodatkowo, skonfiguruj broker wiadomości, taki jak Redis lub RabbitMQ, który będzie używany przez Celery.

2. Aktualizacja pliku konfiguracyjnego Airflow

W pliku airflow.cfg ustaw następujące wartości:

[core]
executor = CeleryKubernetesExecutor

[celery]
broker_url = redis://localhost:6379/0
result_backend = db+postgresql://user:password@localhost:5432/airflow

[kubernetes]
namespace = airflow
worker_container_repository = your-docker-repo/airflow-worker
worker_container_tag = latest

3. Tworzenie obrazów Docker

Utwórz niestandardowy obraz Docker dla swoich pracowników Airflow, który zawiera wszystkie zależności wymagane przez Twoje zadania. Przykład pliku Dockerfile:

FROM apache/airflow:2.0.0
RUN pip install pandas scikit-learn

4. Wdrożenie na Kubernetes

Użyj Helm lub manifestów YAML, aby wdrożyć Airflow w klastrze Kubernetes. Upewnij się, że konfiguracja obejmuje Celery Kubernetes Executor.

Podsumowanie

Celery Kubernetes Executor w Airflow 2.0 to potężne narzędzie, które pozwala na efektywne skalowanie data pipeline w środowiskach chmurowych. Dzięki odpowiedniej konfiguracji możesz wykorzystać pełny potencjał zarówno Celery, jak i Kubernetes, aby zarządzać złożonymi przepływami pracy.

Share this post
Data Engineering
Michał Miłosz
MORE POSTS BY THIS AUTHOR
Michał Miłosz

Curious how we can support your business?

TALK TO US