Interaktion zwischen HPC, KI und Forschungsdaten

Acronym: HAI

Koordination: Dr. Matthias Lieber, NHR@TUD

Weitere Projektbeteiligte: Prof. C.B. (TUDa), Dr. Charlotte Debus (NHR@KIT), Dr. Siavash Ghiasvand (ScaDS.AI), Prof. Harald Koestler NHR@FAU, Jaison Lewis (NHR@Göttingen), Prof. Sarah Neuwirth (NHR@SW), Lincoln Sherpa (NHR@TUD), Dr. Christian Terboven (NHR4CES@RWTH).

Beteiligte Zentren: NHR4CES@RWTH, NHR4CES@TUDa, NHR@FAU, NHR@Göttingen, NHR@KIT, NHR@SW, NHR@TUD

Motivation: Data-Analytics und KI-Pipelines stellen hohe Anforderungen an die Softwareentwicklung und die Rechenressourcen

Ziele und Vorgehen: Dieses Projekt zielt darauf ab, Strategien und Werkzeuge für eine effiziente und kollaborative Entwicklung sowie hohe Recheneffizienz mit drei Schwerpunkten beizutragen: (1) Datenverarbeitungspipelines mit LLM-automatisiertem Data Engineering für schnelle Entwicklung; (2) effiziente Nutzung von HPC-Ressourcen für skalierbares Modelltraining; und (3) kollaborative Code-Entwicklung und -Ausführung, verbunden mit FAIRem Datenmanagement.

Innovation und Perspektiven: HAI wird sich an den Anwendungsfällen der NHR-Nutzer:innen orientieren und deren Produktivität und Kompetenzen erhöhen. Es wird Strategien zur Steigerung der Effizienz und Nutzbarkeit von HPC-Ressourcen beitragen, indem es Werkzeuge, Tutorials und Dokumentation zur Verfügung stellt. Die Software wird Open Source bereitgestellt und kann auch von anderen Rechenzentren genutzt werden.

Projektlaufzeit: 24 Monate. Projektstart: Q4-2024