Ref: #73246

Senior HPC Plattform Ingenieur – Remote

Senior HPC Plattform Ingenieur - Remote - 3 Monate+

Für einen globalen Kunden aus dem Bereich IT-Infrastrukturdienste suchen wir einen HPC Infrastructure & Scheduler Integration Engineer für die Entwicklung, den Aufbau und den Betrieb einer PBS-basierten High-Performance-Computing-Plattform.
Der Vertrag ist auf 3 Monate befristet und kann verlängert werden.
Sie werden von zu Hause aus arbeiten und gelegentlich nach Stockholm, Schweden, reisen (Sie müssen reisefähig sein).

Diese Rolle konzentriert sich auf die Integration von Rechen-, Speicher- und Orchestrierungsschichten mit dem Scheduler, um eine zuverlässige Auftragsausführung, effiziente Skalierung und nahtlose Integration mit modernen Plattformen wie Cloud, Kubernetes und MLOps-Tools zu gewährleisten.

Die Rolle

  • Entwicklung und Pflege von Scheduler-Integrationen, einschließlich Hooks, Prolog/Epilog-Skripten und benutzerdefinierter Automatisierung
  • Automatisierung des gesamten Lebenszyklus eines Auftrags von der Einreichung über die Ausführung bis zum Abbruch
  • Entwicklung und Verwaltung von HPC-Umgebungen in Bare-Metal-, virtualisierten und hybriden Cloud-Konfigurationen
  • Integration des Schedulers in Speichersysteme (z.B. Lustre), Netzwerke (InfiniBand/Ethernet) und Identitätsdienste (LDAP/Kerberos)
  • Überbrückung von HPC-Workloads mit modernen Plattformen wie Kubernetes, MLOps-Frameworks und Cloud-Bursting-Lösungen
  • Optimierung von Planungsleistung, Ressourcenzuweisung und Clusterauslastung
  • Implementierung der Beobachtbarkeit (Protokollierung, Metriken, Dashboards) und Unterstützung der Reaktion auf Vorfälle und der Ursachenanalyse

Erforderliche Qualifikationen

Kernkompetenzen

  • Starke Linux-Systemtechnik (RHEL, Rocky oder SLES)
  • Erfahrung mit HPC-Schedulern (PBS Pro/OpenPBS bevorzugt; Slurm/Torque akzeptabel)
  • Skripting- und Automatisierungskenntnisse (Python und Bash erforderlich; Go oder Rust von Vorteil)
  • Solides Verständnis von verteilten Systemen und Cluster-Betrieb

HPC-Kompetenz

  • Erfahrung mit MPI-Workloads (OpenMPI, MPICH)
  • Vertrautheit mit GPU-Scheduling (NVIDIA-Stack, MIG/MPS)
  • Kenntnisse über parallele Dateisysteme (Lustre stark bevorzugt)
  • Verständnis von Scheduling-Konzepten (Warteschlangen, Prioritäten, Backfill, Fairshare, Reservierungen)

Infrastruktur & Integration

  • Erfahrung mit Konfigurationsmanagement (Ansible, Puppet, etc.)
  • Erfahrung mit CI/CD für Infrastruktur und API-gesteuerte Integrationen
  • Vertrautheit mit Cloud-Plattformen und hybriden HPC-Architekturen

Bevorzugte Erfahrung

  • Entwicklung von benutzerdefinierten PBS-Hooks oder Scheduler-Erweiterungen in der Produktion
  • Entwicklung von hybriden HPC + Kubernetes oder Cloud Bursting-Lösungen
  • Skalierbarer Betrieb (10k+ Cores, Multi-Petabyte-Speicher)
  • Erfahrung mit Sicherheits-/Compliance-Frameworks (z.B. NIST, STIGs)
  • Starke schichtenübergreifende Debugging-Fähigkeiten (Netzwerk, Speicher, Scheduler)

Wenn Sie interessiert sind, teilen Sie uns bitte Ihren aktuellen Lebenslauf und Ihre beste Kontaktnummer mit.
choe.carr@next-ventures.com // +44(0)2038689173

Fügen Sie eine Lebenslaufdatei an. Akzeptierte Dateitypen werden DOC, DOCX, PDF, HTML und TXT.

Wir laden Ihre Bewerbung hoch. Es kann einige Augenblicke dauern, bis Sie Ihren Lebenslauf lesen können. Bitte warten!