Les missions du poste

Vous êtes

Vous avez conçu et déployé des plateformes en production, et non de simples prototypes destinés à impressionner lors de présentations. Vous savez que Kubernetes est puissant, mais aussi qu'il peut rapidement devenir complexe si les choix de conception ne tiennent pas compte de la scalabilité et de la maintenabilité. Vous avez déjà été appelé(e) à 2 heures du matin, et vous avez mis cette expérience à profit pour concevoir des systèmes qui ne nécessitent pas d'appels à ces heures-là.

Quand on vous dit « il faut déployer ce nouveau service d'IA », vous ne vous contentez pas de créer un pod et de considérer le travail comme terminé. Vous vous renseignez sur les modèles de trafic, les modes de défaillance et les conséquences d'une augmentation de capacité décuplé en six mois. Vous êtes à l'aise avec la rédaction de Terraform, le débogage de scripts Python, et l'explication des compromis à un chercheur qui souhaite simplement accélérer l'entraînement de son modèle. L'autonomie ne vous fait pas peur. Vous préférez relever un défi complexe et avoir la liberté de le résoudre plutôt que d'être microgéré(e) à coups de listes de contrôle.

Vos missions :

- Réaliser des activités de développement complexes pouvant nécessiter une analyse approfondie, notamment en matière de déploiement et de maintenance cloud, ainsi que de maintenance et de mise à l'échelle des systèmes distribués.

- Promouvoir les bonnes pratiques via les RFC et le mentorat.

- Contribuer à l'évolution de nos processus (environnements de déploiement, de développement et pipelines CI/CD).

- Mener des investigations sur les causes profondes, des tests de déploiement automatisés et résoudre les incidents de production.

- Concevoir, déployer et maintenir l'infrastructure de la plateforme à l'aide de Kubernetes, Pulumi et Terraform.

- Adapter les ressources de calcul GPU et CPU pour prendre en charge les charges de travail d'entraînement et d'inférence des modèles d'IA, dont la croissance est imprévisible.

- Développer des outils de surveillance, d'alerte et d'observabilité permettant de détecter les problèmes avant les clients, en utilisant des outils tels que Prometheus, Grafana ou équivalents.

Ce dont vous aurez besoin :

- Certification en développement logiciel

- Minimum 3 ans d'expérience, notamment en gestion de plateformes complexes utilisant la technologie Kubernetes

- Excellentes compétences en dépannage

- Expérience en conception et exploitation de systèmes distribués (Kubernetes, Pulumi, NATS, Redis)

- Maîtrise du scripting Bash et de la programmation en Python ou TypeScript

- Capacité à travailler de manière autonome et à prendre en charge des problèmes de bout en bout, de la définition au déploiement et à la surveillance

- Maitrise de l'Anglais oral et écrit

Votre profil :

- Vous pouvez expliquer un compromis complexe en matière d'infrastructure à un chercheur en deux phrases, sans en omettre les nuances ni adopter un ton condescendant

- En cas de panne en production, vous gardez votre calme, collectez des données et travaillez méthodiquement sur le problème au lieu de procéder par tâtonnements et de redémarrer sans cesse

- Vous vous intéressez au « pourquoi » d'une demande : si quelqu'un demande un nouveau service, vous cherchez à comprendre le problème à résoudre avant de commencer à allouer des ressources

- Vous êtes suffisamment curieux pour tester de nouveaux outils et suffisamment pragmatique pour savoir quand l'outil existant reste la solution optimale

- Vous pouvez travailler avec une équipe distribuée sur différents fuseaux horaires, ce qui implique une communication écrite claire et... La collaboration asynchrone vous est naturelle.

Ansys fait désormais partie de Synopsys. Synopsys, Inc. (Nasdaq : SNPS) accélère l'innovation technologique, du silicium aux systèmes. Catalyseurs de l'ère de l'intelligence omniprésente, nous fournissons des solutions de conception, allant de l'automatisation de la conception électronique à la propriété intellectuelle du silicium, en passant par la conception de systèmes et la simulation et l'analyse multiphysiques. Nous travaillons en étroite collaboration avec nos clients dans un large éventail de secteurs afin de maximiser leurs capacités de R&D et leur productivité, stimulant ainsi l'innovation d'aujourd'hui qui nourrit l'ingéniosité de demain. Pour en savoir plus, rendez-vous sur www.synopsys.com.

Ansys est le leader mondial de la simulation d'ingénierie et aide les entreprises les plus innovantes du monde à fournir à leurs clients des produits radicalement meilleurs. En offrant le meilleur et le plus large portefeuille de logiciels de simulation d'ingénierie, Ansys aide les entreprises à résoudre les défis de conception les plus complexes et à concevoir des produits qui n'ont de limite que leur imagination.

Postuler sur le site du recruteur

L’emploi par métier dans le domaine Recherche à Cergy