company logo

Preferred Networks

Machine Learning Platform Engineer

機械学習プラットフォームエンジニア

Tags: Full-time, 3 YOE, Business Japanese, Remote

Remote (Remote) / Chiyoda-ku, Tokyo, Japan・Fetched 30+ days ago

Job Description

Job Description / 職務内容
本ポジションではカジュアル面談を受け付けています。こちらのフォームからお気軽にご応募ください。
[株式会社Preferred Networks "Infrastructure" 領域カジュアル面談応募フォーム](https://docs.google.com/forms/d/e/1FAIpQLSf3gUARsdrHSlyiHytuOBYpSvXqVA0kulZmWEZjhyfqDoknHw/viewform)

---
本ポジションでは、社内向けの機械学習プラットフォームと社外向けのクラウドサービス双方の開発・運用を共に行っていただくエンジニアを募集します。下記は業務内容の一例です。列挙された以外にも様々な業務があり、幅広い領域の先端的な課題に取り組みます。

**業務内容の一例**

- 自由度・拡張性・使いやすさのトレードオフを見極めた大規模機械学習プラットフォームの機能設計と開発
- 機械学習ワークフローツール、実験管理ツール、GPU や MN-Core 向け統合開発環境の構築
- Kubernetes 機能を使用した分散キャッシュシステムの開発と運用
- 大規模な機械学習ワークロードの実行をサポートするCI基盤やコンテナイメージレジストリキャッシュの開発
- 複数のテナントが使用する Kubernetes クラスタの権限、ネットワーク等の分離設計と導入
- テナントユーザ向けのモニタリングサービスの開発と運用
- クラスタを使いやすくするためのユーザポータル開発、運用管理システムの開発
- 自動化等による運用効率の改善
- 自動サーバプロビジョニング、パブリッククラウド連携による運用効率化、インフラ健全性の自動診断と保守省力化
- 計算資源(GPU、MN-Core を含む)配分の最適化
- Kubernetes scheduler の機能拡張、リソース利用量制限拡張の開発、利用実績に基づくリソース要求量提案機能の開発

**本ポジションの魅力**

- オンプレミスの大規模な機械学習クラスタで高レイヤから低レイヤまですべてをコントロールする経験ができる
- オンプレミスとパブリッククラウドのハイブリッドな構成でどちらの経験もできる
- HPC(高性能計算) とクラウドネイティブの境界領域というますます重要になる分野の経験ができる
- 外販のクラウドサービスとして Kubernetes を中心とする機械学習プラットフォームの立ち上げを経験できる
- Kubernetes を始めとする OSS コミュニティへの貢献、ミートアップでの登壇が推奨されている

**チームでの働き方**

- 関西在住のメンバもおりリモートワークが主体
- オフィスに出社して勤務している方もいます

PFN のさまざまな研究開発や事業は機械学習やシミュレーションを中心とした膨大な計算量とデータによって支えられています。この計算基盤は設計から運用までを基本的に自社で行っており、PFNの価値と競争力の源泉となっています。先進的なデータセンタ設備、ハードウェア、ソフトウェアの研究開発を実施し、効率のよい大規模な計算基盤とそれを利用するためのサービスを構築・運用しています。機械学習プラットフォームチームでは研究開発を加速させるため、Kubernetes をはじめとするクラウドネイティブ技術を活用して大規模な機械学習プラットフォームの開発運用に挑戦しています。

PFN はパートナー企業向けに PFN 独自のアクセラレータである MN-Core シリーズの提供を始めており、順次設備とユーザの拡大を進めています。本ポジションでは社内向けのプラットフォームに加えて、MN-Core シリーズを社外向けのクラウドサービスとして提供するためのプラットフォームの開発・運用にも取り組みます。社外向けのプラットフォームは社内向けと比較してより厳密なテナント間の分離や高いセキュリティが求められるため、社内向けとは異なる設計の新しいプラットフォームとして開発運用しています。

**本ポジションに関連する対外発表資料**
[PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜|PPT](https://www.slideshare.net/pfi/pfn-ml-ml-on-kubernetes-pfn) [(発表動画)](https://www.youtube.com/live/Qfqu8oaPwqo?feature=shared)
[分散キャッシュシステム on Kubernetes / Kubernetes Meetup Tokyo 60 - Speaker Deck](https://speakerdeck.com/pfn/k8s-tokyo-60-distributed-cache-system)[(発表動画)](https://www.youtube.com/live/O110RJIFMw8?si=7dUAWdAfNI16RHU5&t=2683)
[PFN の機械学習向け Kubernetes クラスタ におけるノード障害の運用自動化・省力化 - Speaker Deck](https://speakerdeck.com/pfn/pfn-private-cloud-meetup-5)[(発表動画)](https://youtu.be/gKHWj9dv1Po?si=nGcnAqAzQwcJOgnh&t=2700)
[Kubernetes クラスタの PodSecurityPolicy を Gatekeeper に移行しました - Preferred Networks Research and Development](https://tech.preferred.jp/ja/blog/migration-from-psp-to-gatekeeper/)
Qualifications / 応募資格(必須)
- ソフトウェア開発経験 (Go または Rust)
- 次のうち1つ以上の分野での実務経験
- Web アプリケーション(バックエンド・フロントエンド)の開発・運用(TypeScript, Go)、品質管理・セキュリティ業務
- Linux サーバの運用
- AWS や Google Cloud などのパブリッククラウドを用いたシステムの開発・運用・品質管理・セキュリティ業務
- ビジネスレベルの日本語能力(JLPT N2 相当)
より高く評価されるスキル・経験 / Ways to stand out from the crowd
- コンピュータ サイエンスまたは関連する技術分野における学位、または関連分野における2年以上の実務経験
- クラウドネイティブなアプリケーション・インフラストラクチャ (特に Kubernetes) の実務経験
- 大規模な Linux サーバ群の監視・運用技術・自動化・運用省力化技術
- 大規模計算機システムのパフォーマンス・チューニング技術
- 一定規模の商用サービスにおいて、複数のエンジニアを率いてプロダクトの全体設計 / 開発 / オペレーション構築をリードした経験
- 分散システムに関する知識と経験
- 機械学習・深層学習の基礎知識
- OSSへのコントリビューション経験
- 複数の関係チームと適切にコミュニケーションを取りプロジェクトをリードできる能力
- カンファレンスやミートアップでの登壇経験
Portrait of a person / 求める人材像
- 様々な分野への関心、新たな技術領域の知見獲得の意欲のある方
- チームを支える圧倒的な強みを持っている方、もしくは、チームを越えた幅広い経験を持っている方
- 同職種・他職種に関わらずリスペクトして一緒に楽しく働ける方
- 強みを活かして、チームメンバと助け合える方
- 誰の持ち物かに関わらず自分事として捉え課題解決を推進できる方
- 様々な専門性を持つ人がいる環境で新しいことを吸収し、楽しめる方
Salary /賃金
経験、業績、能力、貢献に応じて、当社規定により優遇
Experience, performance, skills, contribution are taken into consideration.
Location / 勤務地
[Otemachi Bldg., 1-6-1 Otemachi, Chiyoda-ku, Tokyo, Japan 100-0004 リモート勤務制度あり (日本国内に限る) / Remote work system available (limited to work in Japan)]