company logo

Preferred Networks

Machine Learning Platform Engineer (Scheduler)

機械学習プラットフォームエンジニア(スケジューラ)

Tags: Full-time, 4~5 YOE, Business Japanese, Remote

Remote (Remote) / Chiyoda-ku, Tokyo, Japan・Fetched 30+ days ago

Job Description

Job Description / 職務内容
本ポジションではカジュアル面談を受け付けています。こちらのフォームからお気軽にご応募ください。
[株式会社Preferred Networks "Infrastructure" 領域カジュアル面談応募フォーム](https://docs.google.com/forms/d/e/1FAIpQLSf3gUARsdrHSlyiHytuOBYpSvXqVA0kulZmWEZjhyfqDoknHw/viewform)

---
他の領域を中心に担当するポジションもあります(どこからでも同じ部門への配属になります)。
- [機械学習プラットフォームエンジニア](https://open.talentio.com/r/1/c/preferred/pages/88331)
- [機械学習プラットフォームエンジニア(サービス開発)](https://open.talentio.com/r/1/c/preferred/pages/100139)
- [機械学習プラットフォームエンジニア(パフォーマンス)](https://open.talentio.com/r/1/c/preferred/pages/100137)
- [機械学習プラットフォームエンジニア(ネットワーキング)](https://open.talentio.com/r/1/c/preferred/pages/100141)
---
Preferred Networks の機械学習プラットフォームで用いられている Kubernetes クラスタのスケジューラの設計、開発、運用を行うエンジニアを募集します。

LLM をはじめとする大規模な機械学習を行うためにはクラスタの計算資源を効率よくかつ公平に利用し、複数のサーバにまたがる多数のワークロードを協調動作させる必要があるため、これらのワークロードをどのように配置、スケジューリングするかは機械学習プラットフォームにおける重要な分野の一つです。Preferred Networks では 2018 年から Kubernetes のスケジューラを含むさまざまな拡張点を利用し、これらの課題解決に取り組んでいます。本ポジションでは、大規模な機械学習を効率的に行える機械学習プラットフォームを実現するために、クラスタのスケジューリングの課題に取り組みます。

**業務内容の一例**
- 分散学習で用いられる gang スケジューリングの研究開発
- [https://github.com/pfnet/scheduler-plugins](https://github.com/pfnet/scheduler-plugins) で gang スケジューリングの実装を OSS として公開しています
- 多種多様なワークロードをより効率的にクラスタにパッキングをするための研究開発(ビンパッキング問題)
- マルチテナントにおける公平なスケジューリングのための設計、開発
- Kubernetes へのバグ報告やパッチの提供

これらの業務を行うにあたり、オープンソースをはじめとする技術情報や技術動向の調査、必要なソフトウェア開発を行うことも業務に含まれます。また、これらのシステムの運用も業務の対象です。

**本ポジションの魅力**
- Kubernetes クラスタのスケジューラの分野において深い経験ができる
- Kubernetes を始めとする OSS コミュニティでの貢献の経験ができる
- ミートアップやカンファレンスでの外部発表が推奨されている
- HPC(高性能計算) とクラウドネイティブの境界領域というますます重要になる分野の経験ができる
- GPUと自社開発のMN-Coreという複数のアクセラレータが混在する機械学習プラットフォームという他社にはない環境で先進的なスケジューラの課題に取り組むことができる
- オンプレミスとパブリッククラウドのハイブリッド環境での経験が得られる
- バックグラウンドや専門性の異なるメンバーから学びや刺激を受けながら働くことができる

**チームでの働き方**
- 関西在住のメンバもおりリモートワークが主体
- オフィスに出社して勤務している方もいます

PFN のさまざまな研究開発や事業は機械学習やシミュレーションを中心とした膨大な計算量とデータによって支えられています。この計算基盤は設計から運用までを基本的に自社で行っており、PFNの価値と競争力の源泉となっています。先進的なデータセンタ設備、ハードウェア、ソフトウェアの研究開発を実施し、効率のよい大規模な計算基盤とそれを利用するためのサービスを構築・運用しています。機械学習プラットフォームチームでは研究開発を加速させるため、Kubernetes をはじめとするクラウドネイティブ技術を活用して大規模な機械学習プラットフォームの開発運用に挑戦しています。

PFN は社外のお客様向けにクラウドサービスとして PFN 独自の AI プロセッサーである MN-Core シリーズの提供を始めており、順次設備とユーザの拡大を進めています。本ポジションでは社内向けのプラットフォームに加えて、MN-Core シリーズを社外向けのクラウドサービスとして提供するためのプラットフォームの開発・運用にも取り組みます。社外向けのプラットフォームは社内向けと比較してより厳密なテナント間の分離や高いセキュリティが求められるため、社内向けとは異なる設計の新しいプラットフォームとして開発運用しています。
- [AIプロセッサーMN-Core 2を計算資源とした AI向けクラウドサービスPreferred Computing Platformを提供開始 - 株式会社Preferred Networks](https://www.preferred.jp/ja/news/pr20241021/)
- [Preferred Computing Platform (PFCP)](https://pfcomputing.com/)


**本ポジションに関連する対外発表資料**
- [PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜|PPT (発表動画)](https://www.slideshare.net/pfi/pfn-ml-ml-on-kubernetes-pfn)
- [分散キャッシュシステム on Kubernetes / Kubernetes Meetup Tokyo 60 - Speaker Deck(発表動画)](https://speakerdeck.com/pfn/k8s-tokyo-60-distributed-cache-system)
- [PFN の機械学習向け Kubernetes クラスタ におけるノード障害の運用自動化・省力化 - Speaker Deck(発表動画)](https://speakerdeck.com/pfn/pfn-private-cloud-meetup-5)
- [生成AI向け機械学習クラスタ 構築のレシピ 北海道石狩編 - Speaker Deck](https://speakerdeck.com/pfn/20240615-cloudnativedayssummer-pfn)
Qualifications / 応募資格(必須)
- ソフトウェア開発経験 (Go または Rust)
- 次のうち1つ以上の分野での実務経験
- Web アプリケーション(バックエンド・フロントエンド)の開発・運用(TypeScript, Go)、品質管理・セキュリティ業務
- Linux サーバの運用
- AWS や Google Cloud などのパブリッククラウドを用いたシステムの開発・運用・品質管理・セキュリティ業務
- ビジネスレベルの日本語能力(JLPT N2 相当)
より高く評価されるスキル・経験 / Ways to stand out from the crowd
- Kubernetes の sig-schduling や Kueue をはじめとするジョブスケジューラの知見
- Slurm などの HPC 向けのスケジューラの開発、運用経験
- コンピュータ サイエンスまたは関連する技術分野における学位、または関連分野における2年以上の実務経験
- クラウドネイティブなアプリケーション・インフラストラクチャ (特に Kubernetes) の実務経験
- 大規模な Linux サーバ群の監視・運用技術・自動化・運用省力化技術
- 大規模計算機システムのパフォーマンス・チューニング技術
- 一定規模の商用サービスにおいて、複数のエンジニアを率いてプロダクトの全体設計 / 開発 / オペレーション構築をリードした経験
- 分散システムに関する知識と経験
- 機械学習・深層学習の基礎知識
- OSSへのコントリビューション経験
- 複数の関係チームと適切にコミュニケーションを取りプロジェクトをリードできる能力
- カンファレンスやミートアップでの登壇経験
Portrait of a person / 求める人材像
- 様々な分野への関心、新たな技術領域の知見獲得の意欲のある方
- チームを支える圧倒的な強みを持っている方、もしくは、チームを越えた幅広い経験を持っている方
- 同職種・他職種に関わらずリスペクトして一緒に楽しく働ける方
- 強みを活かして、チームメンバと助け合える方
- 誰の持ち物かに関わらず自分事として捉え課題解決を推進できる方
- 様々な専門性を持つ人がいる環境で新しいことを吸収し、楽しめる方
Salary /賃金
経験、業績、能力、貢献に応じて、当社規定により優遇
Experience, performance, skills, contribution are taken into consideration.
Location / 勤務地
[Otemachi Bldg., 1-6-1 Otemachi, Chiyoda-ku, Tokyo, Japan 100-0004 リモート勤務制度あり (日本国内に限る) / Remote work system available (limited to work in Japan)]