Day1のセッションメモになります。
Fast by Friday: Making performance analysis fast and easy
月曜日 パフォーマンス
火曜日 問題のチェックリスト
水曜日 プロファイリング
木曜日 レイテンシ、ログ、クリティカルパス分析
金曜日 パフォーマンスエンジニアリング
https://www.oreilly.co.jp/books/9784814400072
https://www.brendangregg.com/Slides/eBPFSummit2023_FastByFriday
SRE へのサポートケースをAIに管理させる方法
少人数でSRE業務を回ししていると月100件の問い合わせでインフラ改善の工数に割り当てられない
問い合わせは、Toil
LLMはドメイン知識はもっていないので、VertexAI Agent Builder ( Gemini )で定型的な問い合わせはVertexAI Searchのデータソースに入っているドキュメントを検索、自動回答する仕組みの構築
定型的なタスクは減ることで、インフラ改善の工数に割り当てられるようになった。(時間がかかるタスクのため、総時間は減ってはいない)
今後Agent、MCPにも取り組んでいくとのこと
クラウド開発の舞台裏とSRE文化の醸成
ガバメントクラウド認定のためには、デジタル庁からの要求を満たす必要がある
業務上個人情報が扱われるのでセキュリティ、ガバナンスは重視されている
IAM、リソースからの権限管理は実装されるとのこと
オフィスビルを監視しよう:フィジカル×デジタルにまたがるSLI/SLO設計と運用の難しさ
QRでゲート認証する場合、映り込んでいるQRで永遠認証されないことがおこりうる
ものの監視でも、CUJ、ユーザ体験の整理が求められる
認証カメラ自体の監視は一定期間ハートビートを飛ばし届かないときにアラートする。(SRE NEXTで提供しているWi-FIのモニタリングも一時的にとどかないことがあるよう)
100% AI コード生成開発! AI Agent 時代の信頼性と開発効率のためのガードレール
事前に作りたいものを与えることがポイントになる
AIが作ってきたコードはエラー、再度修正、エラーとオーバーヘッドになる。Vibe Codingでも要求使用をinstructionsに与えないと、全然違うものをつくってしまう。
エラーを気づけるようにしたいので、MCPなり利用
サービス連携の“謎解き”を可能にする Datadogによる分散トレース導入の一歩
サービス間で、trace idを連携するには、tracerのInject、Extractを利用
モニタリング統一への道のり – 分散モニタリングツール統合のためのオブザーバビリティプロジェクト
18:00からのアンカンファレンスでも議論になりましたが、監視ツールがバラバラだとそれぞれの監視している指標が違う、統一されていないとシステムの一環した監視ができない課題
対話型音声AIアプリケーションの信頼性向上の取り組み ~ Webアプリケーション以外でどうSREを実践するのか ~
インプットに対するアウトプット。タスクを細分化する工夫
WebSocketはTaskが入れ替わってしまうと通話が切断する問題があるので、drainingを伸ばす
音声アプリケーションのCUJは定量化しにくい
会話できたかどうかがユーザ体験。Trackingすることで指標化
〜『世界中の家族のこころのインフラ』を目指して”次の10年”へ〜 SREが導いたグローバルサービスの信頼性向上戦略とその舞台裏
S3は東京リージョンにあると、署名付URLを発行して画像を表示すると東京リージョンへのアクセスが発生するので海外からだとレイテンシーが高くなりユーザ体験がわるくなる
現に、Cloud Runのカスタムドメイン、カスタムドメインのホスティングがUSにあるため、東京リージョンなど特定リージョンのレイテンシが劣化することがあるので、全世界からアクセスされるアプリケーションでは世界上のユーザ体験を平等にするのは苦労がありそう
キャッシュすることでアクセスする対策
Route53 Latency base routing
Amazon CloudFront Origin Shield
システムから事業へ 〜SREが描く“その先”のキャリア〜
SRE=事業価値の最大化に責任を負う役割、例えば、Toil削減→障害を減らすことが事業のも目的ではない