Jak uprościć konfigurację Airflow 2.0 za pomocą wersji i serializacji DAG

May 8, 2025
6 min read
Loading the Elevenlabs Text to Speech AudioNative Player...

Wydanie nowej wersji niektórych programów może stwarzać poważne wyzwania dla inżynierów danych. Ci, którzy używają Przepływ powietrza Apache i już napotkałeś Airflow 2.0 z pewnością zgodzi się, że nawet drobne modyfikacje mogą całkowicie zmodyfikować sposób działania DAG, a nawet je zablokować. Czy przepływ powietrza zmienił się na lepsze? Jak możesz uprościć jego konfigurację za pomocą wersji i serializacji DAG? Chociaż niektóre funkcje wcześniejszych wersji zostały zachowane, w nowym Airflow wprowadzono kilka ważnych zmian; na przykład jest dostarczany z kompletnym interfejsem API REST. Może to stanowić nowe wyzwania podczas aktualizacji. Na szczęście istnieją również modyfikacje, które mogą uprościć codzienną pracę inżynierów danych. Przeczytaj poniżej o wersji i serializacji DAG.

Airflow 2.0 — co się zmieniło?

Wprowadzenie nowej wersji niektórych programów jest zawsze poprzedzone mieszanką emocji i troski ze strony profesjonalistów, którzy używają go na co dzień. Czy zmiany wpłyną na efektywność zespołu w pozytywny czy negatywny sposób? Czy nowy program będzie odpowiadał potrzebom Twojej firmy? Czy łatwo będzie się do tego przyzwyczaić? Jest wiele pytań, na które należy odpowiedzieć, ale Airflow 2.0 jest już tutaj, więc prawdopodobnie możesz spróbować odpowiedzieć na nie samodzielnie lub dołączyć do dyskusji. Zawsze możesz skontaktować się z nami w celu uzyskania pomocy technicznej, ale przedtem oto niektóre z najbardziej zauważalnych zmian, o których powinieneś wiedzieć:

  • Przeprojektowany interfejs użytkownika — nowy, przejrzysty i czytelny pulpit nawigacyjny to z pewnością pozytywna zmiana.
  • Wydajny harmonogram — harmonogram jest jedną z podstawowych funkcji Airflow i teraz, ze względu na modyfikacje, jego wydajność jest znacznie lepsza niż wcześniej. Możliwe jest również uruchomienie wielu instancji harmonogramu w modelu aktywnym/aktywnym, co zwiększa dostępność i przełączania awaryjne, co ma kluczowe znaczenie dla stabilności danego rozwiązania Airflow.
  • Kompletny interfejs API REST — nowy w pełni obsługiwany interfejs API może powodować pewne problemy podczas aktualizacji oprogramowania, ale z pewnością ułatwia dostęp do platform stron trzecich.
  • Inteligentne czujniki — w nowych Airflow zaobserwujesz lepszą wydajność długotrwałych zadań dzięki centralizacji DAG i przetwarzaniu wsadowym.
  • Serializacja DAG — w nowej wersji Airflow serwer systemowy analizuje DAG inaczej, ponieważ tylko harmonogram potrzebuje dostępu do pliku DAG.
  • Wersja DAG — użytkownicy zyskują dodatkowe wsparcie dla przechowywania wielu wersji serializowanych DAG.
  • Grupy zadań — Zamiast używać podDAG, które powodowały problemy z wydajnością, istnieje możliwość korzystania z grup zadań do organizowania zadań w widoku wykresu DAG. Jest wykonywany w interfejsie Airflow, więc nie wpływa to na wydajność. Mniejsza złożoność przy użyciu mniejszej ilości kodu.

Na pewno wprowadzono wiele ulepszeń i normalne jest, że użytkownicy potrzebują trochę czasu, aby się do nich przyzwyczaić. W tym artykule chcielibyśmy skupić się na dwóch ostatnich zmianach i wyjaśnić, w jaki sposób ułatwiają one konfigurację Airflow 2.0.

Serializacja DAG przed i teraz

Serializacja jest dość ważną funkcją Apache Airflow. Termin ten odnosi się do przechowywania serializowanej reprezentacji DAG w bazie danych. Są przechowywane w lekkim formacie JSON. Po prostu harmonogram może analizować pliki DAG i przechowywać reprezentację w bazie danych, dzięki czemu może być później pobrany przez serwer WWW w celu wypełnienia interfejsu użytkownika. Przetwarzanie DAG zarówno na serwerze WWW, jak i harmonogramie jest raczej nieefektywne z powodu niepotrzebnego powielania, co negatywnie wpływa na ogólną wydajność Airflow. W starej wersji Airflow zarówno serwer WWW, jak i harmonogram wymagały dostępu do plików DAG, aby je odczytać i przeanalizować. W Airflow 2.0 analizowanie i serializacja może być wykonywana z harmonogramem uzyskującym dostęp tylko do bazy danych metadanych, a serwer WWW uzyskuje dostęp tylko do metadanych. Poprawia to wydajność Airflow poprzez zmniejszenie obciążenia serwera WWW, ponieważ nie ma potrzeby analizowania DAG z plików DAG. Serializowane DAG są po prostu pobierane z bazy danych. Co istotne, dzięki zmianom w nowej wersji Airflow, ponieważ dostęp do plików DAG przez serwer WWW nie jest już konieczny, konfiguracja Airflow i wdrożenie DAG jest znacznie łatwiejsze niż dotychczas.

Wersja DAG — co się zmieniło?

Jak wiadomo, rurociągi danych są reprezentowane w przepływie powietrza przez DAG. Firma jest jak żywy organizm — zmienia się w czasie, a po pewnym czasie może mieć inne potrzeby biznesowe niż kiedyś. Zmiany DAG, a także wymagania biznesowe, ewoluują. Dla tych, którzy codziennie pracują z Airflow, nie jest tajemnicą, że dodawanie zadań do istniejącego DAG miało jeden, specyficzny efekt uboczny — zadania „bez statusu” zostały przedstawione w przeglądzie historii. Może to spowodować problemy z analizą dzienników i wyświetlaniem kodu przypisanego do bieżącego programu Dagrun.Ważne jest, aby użytkownicy Airflow mogli sprawdzić, w jaki sposób dany DAG był uruchamiany w przeszłości. Na szczęście nowa wersja Apache Airflow oferuje rozwiązania wielu wcześniejszych problemów. Po uaktualnieniu do wersji 2.0 zyskujesz dodatkowe wsparcie dla przechowywania wielu wersji serializowanych DAG. Relacje między DAGRuns i DAG zostaną poprawnie przedstawione.

Czy możesz płynnie przejść z poprzedniej wersji do Airflow 2.0?

Apache Airflow 2.0 zapewnia użytkownikom dość interesujące modyfikacje i nowe funkcje. Szkoda byłoby nie wykorzystywać tego wszystkiego w celu poprawy wydajności Twojej firmy. Pamiętaj, że Airflow 2.0 nie ma architektury monolitycznej. Nowe funkcjonalności są podzielone na podstawowe i 61 pakietów dostawców, a każdy z nich jest przeznaczony dla określonej usługi zewnętrznej lub bazy danych. Dzięki temu możesz skorzystać z niestandardowej instalacji Airflow 2.0, aby skonfigurować to narzędzie biznesowe do konkretnych potrzeb. Być może nie masz pewności, jak poprawnie zainstalować nową wersję Airflow lub jak najlepiej ją skonfigurować, aby jak najlepiej ją wykorzystać. Na szczęście nie jesteś sam. Nasz doświadczony zespół może pomóc w procesie instalacji i konfiguracji oraz przygotować szkolenie dla Twojego wewnętrznego zespołu. Daj nam znać Jeśli potrzebujesz naszej pomocy. Sprawdź nasz blog, aby uzyskać więcej informacji na temat przepływu powietrza:

Share this post
DevOps
MORE POSTS BY THIS AUTHOR

Curious how we can support your business?

TALK TO US