Project

General

Profile

#dd_sushi 〜 Datadog and Sushi の秋

https://datadog.connpass.com/event/41367/

Jaws Festa 東海道でdatadogの日本語解説をした
Metricsを構造化して問題解決する

Datadog Supportポータル

AWS Lambda/API GWのモニタリング
→Re Inventでもやるよ

Kubernatesもやる

GCP/Azureのメトリクスが大幅に追加される
Stackdriver(CloudWatchみたいなもの)

Application Performance Monitoringもやる

タイムズスクエアの45階に移転
もう300人ぐらいの人になる

Anormary(変則値)検知→過去の変動傾向に対して逸脱しているものを検知

Airbnb Stripe Grubhubとかが客でDatadog Summitをやった

Jira, Zendeskのインテグレーションもリリースする予定

Enterprise Planが拡張、カスタマイズサポートを正式な契約としてやる

re:inventのダイアモンドスポンサーになった!8社しかない
accenture newrelic intel tableau

datadogは何を目指しているのか?
"Everything should be monitored in one place." → CPO
→Datadog APM→Analutycsまでやっていくぞ!(方向性)
これができると問題解決までの対応が。。。

Datadogのモニタリング理論

APM

Traceというやつ、プロセスの集合体として
リクエスト数 レイテンシ エラーなどが見れる
リクエストごとにどのように時間がつくられるかが見れる
Traceagentというのをインストールすると使える

ほった

Regressionでノイズ除去

神龍の研究
→正しい問いと素早い検証をする事が大切
ー監視環境、ツールを知る
ー自分のインラフを知る
ー考える&サイクルを回す
を3が大切で、これをかけた値が高ければ良い

周期的なエッジアクセスに対してどうアラート検知するの?
→アノマリー、アウトライヤー、レグレッション

アノマリー
全体の動向を把握したい、空間軸で見る事に弱い、周期性
→カスタムメトリクス・workメトリクスが多い (注文が少ない)
* イメージ:avg.system.load{*}

アウトライヤー
個別の動向を把握したい、時間軸に弱い、同一素材との比較
→メトリクス全般に見かける (ホストが落ちてる)
* イメージ:avg.system.load{*} by host

**まずは閾値かchange rate値での検知はできないかを検討する
→これができる場合に上記のようなアルゴリズムを作ると悲しい事が起こる

アノマリーはseasonal、傾向があって、値がずれているやつを検知

Algorithm: Basic 学習しない
Algorithm: Roburst 変化に弱い、2−3週間のデータが必要
Algorithm: Agile トレンドを強くフォロー
Algorithm: Adaptive 上記3つから適当なのを選んでやる

アルゴリズム系の特にアノマリーの場合は、後に消える事がある?

DBSCAN va MAD → サーバー毎に周期がある場合など

CPUにアノマリーをかけちゃうのはよくない?

Linear Regressionでノイズを決してトレンドがわかる

Datadog Advent Calender 2016に書いてくれ!!w

CyberAgent

Scala/Akka kamon datadog spark docker EMR + Spot
Beanstalk DynamoDB

Scala akka、非同期メッセージ通信 弾力、耐障害性、即応
エコシステム、社内事例 JVMベースだからエコシステムに乗れる

計測:理解しやすくする1つのアプローチ Kamon
”Reactive Application Monitoring”というコンセプト

DatadogはStackDriverと比べるととてつもなくトレンディ

Counter Histogram MinMaxCounter

Kubernates(GKE)環境におけるdatadog利用
デジタルアドバタイジングコンソーシアム
(GCP Japan Blogにのってます)

Kubernatesとか、swarm ECS GKEとか使ってる?
翌日みたいにすぐにGKEに反映される

Pod:コンテナのグループ化したもの
仮想NICを共有するとかの特徴がある
Node>pod>container(Nginx)
Node>pod>container(Nginx)(java)
Replica Setで作り直される Deploymentsでなんとかかんとか

Daemon SetでPodの横並びのコンテナだけ動かせる

ServiceでPort-ForwarderやLoad Balancerの役割をする
Podへは環境変数で接続先ホストとかポートが渡される

ELBとかGCLBからServiceに投げてなんとかかんとか
すべてのnodeでdd-agentがうごかす
Service Discovery機能を使うと良い感じです
GKEではetcdに自由にアクセスできない

HPAはまだ検証中で商用投入はまだ
まだコンテナ化できていない部分がある

makarelとdatadogの使い分け:節操なく使っている

devopsとかそんなのないっていう会社の話

いろいろな確認とか承認とかレビューとかをなしにすると、
色々な面倒なのがなくなってプロセスが早くなる
問題が毎日3回おきても10分ぐらいでやると99.9989%を達成できる
→OODA
乱暴でも全然大丈夫じゃね?

つらい:レビュー テスト ステージング
モニタリングで便利になる 開発プロセス全体に良い影響

Added by aretan 2016-11-08 ago

datadog.jpg View (7.71 KB) 2018-03-09