SRE Next 2025 Day1

2025年7月12日から hiruta

Day1のセッションメモになります。

Fast by Friday: Making performance analysis fast and easy

月曜日　パフォーマンス

火曜日問題のチェックリスト

水曜日プロファイリング

木曜日レイテンシ、ログ、クリティカルパス分析

金曜日パフォーマンスエンジニアリング

https://www.oreilly.co.jp/books/9784814400072

https://www.brendangregg.com/Slides/eBPFSummit2023_FastByFriday

SRE へのサポートケースをAIに管理させる方法

少人数でSRE業務を回ししていると月100件の問い合わせでインフラ改善の工数に割り当てられない

問い合わせは、Toil

LLMはドメイン知識はもっていないので、VertexAI Agent Builder ( Gemini )で定型的な問い合わせはVertexAI Searchのデータソースに入っているドキュメントを検索、自動回答する仕組みの構築

定型的なタスクは減ることで、インフラ改善の工数に割り当てられるようになった。（時間がかかるタスクのため、総時間は減ってはいない）

今後Agent、MCPにも取り組んでいくとのこと

クラウド開発の舞台裏とSRE文化の醸成

ガバメントクラウド認定のためには、デジタル庁からの要求を満たす必要がある

業務上個人情報が扱われるのでセキュリティ、ガバナンスは重視されている

IAM、リソースからの権限管理は実装されるとのこと

オフィスビルを監視しよう：フィジカル×デジタルにまたがるSLI/SLO設計と運用の難しさ

QRでゲート認証する場合、映り込んでいるQRで永遠認証されないことがおこりうる

ものの監視でも、CUJ、ユーザ体験の整理が求められる

認証カメラ自体の監視は一定期間ハートビートを飛ばし届かないときにアラートする。（SRE NEXTで提供しているWi-FIのモニタリングも一時的にとどかないことがあるよう）

100% AI コード生成開発！ AI Agent 時代の信頼性と開発効率のためのガードレール

事前に作りたいものを与えることがポイントになる

AIが作ってきたコードはエラー、再度修正、エラーとオーバーヘッドになる。Vibe Codingでも要求使用をinstructionsに与えないと、全然違うものをつくってしまう。

エラーを気づけるようにしたいので、MCPなり利用

サービス連携の“謎解き”を可能にする Datadogによる分散トレース導入の一歩

サービス間で、trace idを連携するには、tracerのInject、Extractを利用

モニタリング統一への道のり – 分散モニタリングツール統合のためのオブザーバビリティプロジェクト

18:00からのアンカンファレンスでも議論になりましたが、監視ツールがバラバラだとそれぞれの監視している指標が違う、統一されていないとシステムの一環した監視ができない課題

対話型音声AIアプリケーションの信頼性向上の取り組み ~ Webアプリケーション以外でどうSREを実践するのか ~

インプットに対するアウトプット。タスクを細分化する工夫

WebSocketはTaskが入れ替わってしまうと通話が切断する問題があるので、drainingを伸ばす

音声アプリケーションのCUJは定量化しにくい

会話できたかどうかがユーザ体験。Trackingすることで指標化

〜『世界中の家族のこころのインフラ』を目指して”次の10年”へ〜 SREが導いたグローバルサービスの信頼性向上戦略とその舞台裏

S3は東京リージョンにあると、署名付URLを発行して画像を表示すると東京リージョンへのアクセスが発生するので海外からだとレイテンシーが高くなりユーザ体験がわるくなる

現に、Cloud Runのカスタムドメイン、カスタムドメインのホスティングがUSにあるため、東京リージョンなど特定リージョンのレイテンシが劣化することがあるので、全世界からアクセスされるアプリケーションでは世界上のユーザ体験を平等にするのは苦労がありそう

キャッシュすることでアクセスする対策

Route53 Latency base routing

Amazon CloudFront Origin Shield

システムから事業へ〜SREが描く“その先”のキャリア〜

SRE＝事業価値の最大化に責任を負う役割、例えば、Toil削減→障害を減らすことが事業のも目的ではない

クラウドインフラ構築記

現在AWSの構築支援に携わっております。今注視しているのは、GKE、BigQuery、Google Dataflowなどサービスを展開しているGoolge Cloud Platformです。

SRE Next 2025 Day1

Fast by Friday: Making performance analysis fast and easy

SRE へのサポートケースをAIに管理させる方法

クラウド開発の舞台裏とSRE文化の醸成

オフィスビルを監視しよう：フィジカル×デジタルにまたがるSLI/SLO設計と運用の難しさ

100% AI コード生成開発！ AI Agent 時代の信頼性と開発効率のためのガードレール

サービス連携の“謎解き”を可能にする Datadogによる分散トレース導入の一歩

モニタリング統一への道のり – 分散モニタリングツール統合のためのオブザーバビリティプロジェクト

対話型音声AIアプリケーションの信頼性向上の取り組み ~ Webアプリケーション以外でどうSREを実践するのか ~

〜『世界中の家族のこころのインフラ』を目指して”次の10年”へ〜 SREが導いたグローバルサービスの信頼性向上戦略とその舞台裏

システムから事業へ〜SREが描く“その先”のキャリア〜

Fast by Friday: Making performance analysis fast and easy

SRE へのサポートケースをAIに管理させる方法

クラウド開発の舞台裏とSRE文化の醸成

オフィスビルを監視しよう：フィジカル×デジタルにまたがるSLI/SLO設計と運用の難しさ

100% AI コード生成開発！ AI Agent 時代の信頼性と開発効率のためのガードレール

サービス連携の“謎解き”を可能にする Datadogによる分散トレース導入の一歩

モニタリング統一への道のり – 分散モニタリングツール統合のためのオブザーバビリティプロジェクト

対話型音声AIアプリケーションの信頼性向上の取り組み ~ Webアプリケーション以外でどうSREを実践するのか ~

〜『世界中の家族のこころのインフラ』を目指して”次の10年”へ〜 SREが導いたグローバルサービスの信頼性向上戦略とその舞台裏

システムから事業へ 〜SREが描く“その先”のキャリア〜

システムから事業へ〜SREが描く“その先”のキャリア〜