company logo

Preferred Networks

Machine Learning Platform Engineer (Networking)

機械学習プラットフォームエンジニア(ネットワーキング)

Tags: Full-time, 3 YOE, Business Japanese, Remote

Remote (Remote) / Chiyoda-ku, Tokyo, Japan・Fetched 30+ days ago

Job Description

Job Description / 職務内容
本ポジションではカジュアル面談を受け付けています。こちらのフォームからお気軽にご応募ください。
[株式会社Preferred Networks "Infrastructure" 領域カジュアル面談応募フォーム](https://docs.google.com/forms/d/e/1FAIpQLSf3gUARsdrHSlyiHytuOBYpSvXqVA0kulZmWEZjhyfqDoknHw/viewform)

---
他の領域を中心に担当するポジションもあります(どこからでも同じ部門への配属になります)。
- [機械学習プラットフォームエンジニア](https://open.talentio.com/r/1/c/preferred/pages/88331)
- [機械学習プラットフォームエンジニア(サービス開発)](https://open.talentio.com/r/1/c/preferred/pages/100139)
- [機械学習プラットフォームエンジニア(パフォーマンス)](https://open.talentio.com/r/1/c/preferred/pages/100137)
- [機械学習プラットフォームエンジニア(スケジューラ)](https://open.talentio.com/r/1/c/preferred/pages/100142)
---
Preferred Networks の機械学習プラットフォームで用いられている Kubernetes クラスタのネットワークの設計、開発、運用を行うエンジニアを募集します。

LLM をはじめとする大規模な機械学習を行うためには複数のサーバにまたがる多数のアクセラレータを協調動作させる必要があるため、サーバやアクセラレータ間を繋ぐネットワークは機械学習プラットフォームにおける重要な分野の一つです。本ポジションでは、大規模な機械学習を効率的に行える機械学習プラットフォームを実現するために、コンテナネットワークやデータセンターネットワークにおける課題に取り組みます。

**業務内容の一例**
- 大規模な機械学習で必要になる RDMA (Remote Direct Memory Access) に対応した Kubernetes クラスタを構成するためのコンテナネットワークの設計と開発
- マルチテナントに対応するために必要なネットワークのアイソレーションの方式調査、設計、開発
- オンプレミスとパブリッククラウドを活用したハイブリッド構成の機械学習プラットフォームの拠点間ネットワークの設計と開発
- コンテナネットワークの土台となるデータセンターネットワークの設計や将来を見据えた改善方法の検討、改善の実施
- ネットワークの状態を確認するのに必要なモニタリングシステムの設計と開発
- 多数のサーバやスイッチからなる機械学習プラットフォームのネットワーク運用を効率化するための自動化

これらの業務を行うにあたって、オープンソースをはじめとする技術情報や技術動向の調査、ハードウェアやソフトウェアの動作検証、必要なソフトウェアを開発することも業務に含まれます。また、この過程におけるトラブルシューティングや開発したシステムの運用も業務の対象です。

**本ポジションの魅力**
- Kubernetes クラスタのネットワークスタックにおいてコンテナネットワークからデータセンターネットワークまでの幅広い領域の経験ができる
- GPUと自社開発のMN-Coreという複数のアクセラレータが混在する機械学習プラットフォームという他社にはない環境で先進的なネットワークの課題に取り組むことができる
- オンプレミスとパブリッククラウドのハイブリッド環境での経験が得られる
- バックグラウンドや専門性の異なるメンバーから学びや刺激を受けながら働くことができる
- Kubernetes を始めとする OSS コミュニティへの貢献、ミートアップやカンファレンスでの外部発表が推奨されている


**チームでの働き方**
- 関西在住のメンバもおりリモートワークが主体
- オフィスに出社して勤務している方もいます

PFN のさまざまな研究開発や事業は機械学習やシミュレーションを中心とした膨大な計算量とデータによって支えられています。この計算基盤は設計から運用までを基本的に自社で行っており、PFNの価値と競争力の源泉となっています。先進的なデータセンタ設備、ハードウェア、ソフトウェアの研究開発を実施し、効率のよい大規模な計算基盤とそれを利用するためのサービスを構築・運用しています。機械学習プラットフォームチームでは研究開発を加速させるため、Kubernetes をはじめとするクラウドネイティブ技術を活用して大規模な機械学習プラットフォームの開発運用に挑戦しています。

PFN は社外のお客様向けにクラウドサービスとして PFN 独自の AI プロセッサーである MN-Core シリーズの提供を始めており、順次設備とユーザの拡大を進めています。本ポジションでは社内向けのプラットフォームに加えて、MN-Core シリーズを社外向けのクラウドサービスとして提供するためのプラットフォームの開発・運用にも取り組みます。社外向けのプラットフォームは社内向けと比較してより厳密なテナント間の分離や高いセキュリティが求められるため、社内向けとは異なる設計の新しいプラットフォームとして開発運用しています。
- [AIプロセッサーMN-Core 2を計算資源とした AI向けクラウドサービスPreferred Computing Platformを提供開始 - 株式会社Preferred Networks](https://www.preferred.jp/ja/news/pr20241021/)
- [Preferred Computing Platform (PFCP)](https://pfcomputing.com/)


**本ポジションに関連する対外発表資料**
- [PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜|PPT (発表動画)](https://www.slideshare.net/pfi/pfn-ml-ml-on-kubernetes-pfn)
- [分散キャッシュシステム on Kubernetes / Kubernetes Meetup Tokyo 60 - Speaker Deck(発表動画)](https://speakerdeck.com/pfn/k8s-tokyo-60-distributed-cache-system)
- [PFN の機械学習向け Kubernetes クラスタ におけるノード障害の運用自動化・省力化 - Speaker Deck(発表動画)](https://speakerdeck.com/pfn/pfn-private-cloud-meetup-5)
- [生成AI向け機械学習クラスタ 構築のレシピ 北海道石狩編 - Speaker Deck](https://speakerdeck.com/pfn/20240615-cloudnativedayssummer-pfn)
Qualifications / 応募資格(必須)
- ソフトウェアの開発経験
- 次のいずれかの実務経験があること
- Linuxサーバを用いたシステムの設計、開発、または運用の経験
- ネットワーク(データセンタ、サービスプロバイダ、エンタープライズのいずれか)の設計、開発、または運用の経験
- ビジネスレベルの日本語能力(JLPT N2 相当)
より高く評価されるスキル・経験 / Ways to stand out from the crowd
- コンピュータ サイエンスまたは関連する技術分野における学位、または関連分野における2年以上の実務経験
- 機械学習やHPC (High Performance Computing) 向けネットワークの設計、開発、運用の経験
- CNI plugin をはじめとした Kubernetes クラスタのネットワークに関する知識や運用経験
- ネットワーク関連のソフトウェアの開発経験 (SDN, CNI plugin, プロトコルの実装, ネットワーク自動化など)
- ネットワークシミュレータ/エミュレータを用いたネットワークの検証自動化の経験
- Linux のネットワークスタックや eBPF に関する知識や経験
- 大規模ネットワークのモニタリングやネットワーク自動化に関する経験
- オープンソースへのコントリビューションの経験
Portrait of a person / 求める人材像
- 様々な分野への関心、新たな技術領域の知見獲得の意欲のある方
- チームを支える圧倒的な強みを持っている方、もしくは、チームを越えた幅広い経験を持っている方
- 同職種・他職種に関わらずリスペクトして一緒に楽しく働ける方
- 強みを活かして、チームメンバと助け合える方
- 誰の持ち物かに関わらず自分事として捉え課題解決を推進できる方
- 様々な専門性を持つ人がいる環境で新しいことを吸収し、楽しめる方
Salary /賃金
経験、業績、能力、貢献に応じて、当社規定により優遇
Experience, performance, skills, contribution are taken into consideration.
Location / 勤務地
[Otemachi Bldg., 1-6-1 Otemachi, Chiyoda-ku, Tokyo, Japan 100-0004 リモート勤務制度あり (日本国内に限る) / Remote work system available (limited to work in Japan)]