Senior HPC Plattform Ingenieur – Remote

Practice Cloud & Infrastructure
Location Stockholm, Sweden

Senior HPC Plattform Ingenieur - Remote - 3 Monate+

Für einen globalen Kunden aus dem Bereich IT-Infrastrukturdienste suchen wir einen HPC Infrastructure & Scheduler Integration Engineer für die Entwicklung, den Aufbau und den Betrieb einer PBS-basierten High-Performance-Computing-Plattform.
Der Vertrag ist auf 3 Monate befristet und kann verlängert werden.
Sie werden von zu Hause aus arbeiten und gelegentlich nach Stockholm, Schweden, reisen (Sie müssen reisefähig sein).

Diese Rolle konzentriert sich auf die Integration von Rechen-, Speicher- und Orchestrierungsschichten mit dem Scheduler, um eine zuverlässige Auftragsausführung, effiziente Skalierung und nahtlose Integration mit modernen Plattformen wie Cloud, Kubernetes und MLOps-Tools zu gewährleisten.

Die Rolle

Entwicklung und Pflege von Scheduler-Integrationen, einschließlich Hooks, Prolog/Epilog-Skripten und benutzerdefinierter Automatisierung
Automatisierung des gesamten Lebenszyklus eines Auftrags von der Einreichung über die Ausführung bis zum Abbruch
Entwicklung und Verwaltung von HPC-Umgebungen in Bare-Metal-, virtualisierten und hybriden Cloud-Konfigurationen
Integration des Schedulers in Speichersysteme (z.B. Lustre), Netzwerke (InfiniBand/Ethernet) und Identitätsdienste (LDAP/Kerberos)
Überbrückung von HPC-Workloads mit modernen Plattformen wie Kubernetes, MLOps-Frameworks und Cloud-Bursting-Lösungen
Optimierung von Planungsleistung, Ressourcenzuweisung und Clusterauslastung
Implementierung der Beobachtbarkeit (Protokollierung, Metriken, Dashboards) und Unterstützung der Reaktion auf Vorfälle und der Ursachenanalyse

Erforderliche Qualifikationen

Kernkompetenzen

Starke Linux-Systemtechnik (RHEL, Rocky oder SLES)
Erfahrung mit HPC-Schedulern (PBS Pro/OpenPBS bevorzugt; Slurm/Torque akzeptabel)
Skripting- und Automatisierungskenntnisse (Python und Bash erforderlich; Go oder Rust von Vorteil)
Solides Verständnis von verteilten Systemen und Cluster-Betrieb

HPC-Kompetenz

Erfahrung mit MPI-Workloads (OpenMPI, MPICH)
Vertrautheit mit GPU-Scheduling (NVIDIA-Stack, MIG/MPS)
Kenntnisse über parallele Dateisysteme (Lustre stark bevorzugt)
Verständnis von Scheduling-Konzepten (Warteschlangen, Prioritäten, Backfill, Fairshare, Reservierungen)

Infrastruktur & Integration

Erfahrung mit Konfigurationsmanagement (Ansible, Puppet, etc.)
Erfahrung mit CI/CD für Infrastruktur und API-gesteuerte Integrationen
Vertrautheit mit Cloud-Plattformen und hybriden HPC-Architekturen

Bevorzugte Erfahrung

Entwicklung von benutzerdefinierten PBS-Hooks oder Scheduler-Erweiterungen in der Produktion
Entwicklung von hybriden HPC + Kubernetes oder Cloud Bursting-Lösungen
Skalierbarer Betrieb (10k+ Cores, Multi-Petabyte-Speicher)
Erfahrung mit Sicherheits-/Compliance-Frameworks (z.B. NIST, STIGs)
Starke schichtenübergreifende Debugging-Fähigkeiten (Netzwerk, Speicher, Scheduler)

Wenn Sie interessiert sind, teilen Sie uns bitte Ihren aktuellen Lebenslauf und Ihre beste Kontaktnummer mit.
choe.carr@next-ventures.com // +44(0)2038689173

Vorname:

Nachname:

E-Mail Adresse:

Telefonnummer:

LinkedIn URL oder Link zu Ihrem Portfolio:

Lebenslauf als Datei hochladen:

Lebenslauf als Datei hochladen: …

Fügen Sie eine Lebenslaufdatei an. Akzeptierte Dateitypen werden DOC, DOCX, PDF, HTML und TXT.

Mit dem Einreichen dieses Antrags erteilen Sie uns die Erlaubnis, Ihre personenbezogenen Daten zu speichern und sie unter Berücksichtigung Ihrer Eignung für die Position zu verwenden, einschließlich der Weitergabe an die Einstellungsfirma.

By submitting this application, you agree to our Terms of Service.

Menschen, die Arbeit suchen, sollten hier nichts hinlegen.

Wir laden Ihre Bewerbung hoch. Es kann einige Augenblicke dauern, bis Sie Ihren Lebenslauf lesen können. Bitte warten!