Platforma mLoPS do skalowania treningu i wnioskowania modelu uczenia głębokiego

Challenge
Klient stanął przed wyzwaniem skalowania modeli głębokiego uczenia w celu efektywnego zarządzania dużym natężeniem ruchu i dużymi zbiorami danych obrazów. Wymagały one rozwiązania, które uprościłoby dostęp do tych modeli, umożliwiając naukowcom danych szybkie testowanie i wdrażanie ich przy jednoczesnym uniknięciu złożoności zarządzania infrastrukturą.


Our approach
Nasz zespół podjął projekt MLOP skoncentrowany na wdrożeniu aplikacji internetowej w usłudze Azure Kubernetes Service (AKS) w celu demokratyzacji dostępu do modelu uczenia głębokiego. Wykorzystując potężną infrastrukturę platformy Azure, zaprojektowaliśmy rozwiązanie zapewniające skalowalność, opłacalność i łatwość użytkowania dla naukowców zajmujących się danymi.
Kluczowe składniki rozwiązania obejmowały:
- Zautomatyzowane procesy CI/CD zgodne ze standardami organizacyjnymi i najlepszymi praktykami.
- Poziome i pionowe automatyczne skalowanie zasobów w celu optymalizacji wykorzystania pracowników i GPU.
- Rurociągi do tworzenia wersji modeli, monitorowania i przekwalifikowania w celu zapewnienia dostosowania modeli do danych i dryfu koncepcyjnego.
- Konteneryzacja przeszkolonych modeli ML jako mikrousług w celu optymalizacji wnioskowania modelu zarówno dla przewidywań online, jak i wsadowych.
The outcome
Wdrożenie aplikacji internetowej na AKS przyniosło znaczne korzyści, w tym opłacalną skalowalność i wydajną obsługę dużego ruchu i dużych zbiorów danych. Dostosowywanie autoskalowania Kubernetes stanowiło tańszą i bardziej elastyczną alternatywę dla zarządzanych punktów końcowych Azure Machine Learning (AML). Optymalizacja wykorzystania GPU dodatkowo zminimalizowała koszty poprzez zmniejszenie niedostatecznego wykorzystania poprzez udostępnianie pamięci między pracownikami.
Dodatkowo wdrożenie potoków CI/CD za pomocą akcji GitHub umożliwiło bezproblemowe testowanie, walidację i wdrażanie, umożliwiając klientowi szybką iterację i dostarczanie zwiększonej wartości użytkownikom.


Business Impact
Rozwiązanie przekształciło operacje modelu głębokiego uczenia się klienta, umożliwiając szybsze cykle rozwojowe i obniżając koszty operacyjne. Wykorzystując infrastrukturę platformy Azure i najnowocześniejsze technologie, takie jak Docker, Kubernetes i PyTorch, stworzyliśmy skalowalną i przyjazną dla użytkownika platformę. Projekt ten podkreśla nasze zaangażowanie w napędzanie innowacji i wymiernych wyników biznesowych w dynamicznej branży FMCG.
"Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique. Duis cursus, mi quis viverra ornare, eros dolor interdum nulla, ut commodo diam libero vitae erat."
Porozmawiajmy i pracujmy razem
Skontaktujemy się z Tobą w ciągu 4 godzin w dni robocze (od poniedziałku do piątku, od 9:00 do 17:00 CET).

Partner ds. Usług