こんにちは。
私は運用環境上のデータべースの定点データを集めて、分析環境で時系列分析を行っています。
時系列分析のために、毎日決まった時刻に運用環境のデータベースの差分を取り、差分があったデータのみ、当日の日付を付与して分析環境に取り込んでいます。
例えばこのようなデータがあったとして:
id version modified_at
--------------------------
1 1.0.0 2024-4-15
2 2.0.0 2024-4-16
3 1.0.0 2024-4-15
4/16の差分を取り込むと、取り込まれるデータは:
日付 id version modified_at
--------------------------
2024-4-16 2 2.0.0 2024-4-16
となる。
分析環境には、以下のようなデータが存在することになる:
日付 id version modified_at
--------------------------
2024-4-15 1 1.0.0 2024-4-15
2024-4-15 2 1.0.0 2024-4-15
2024-4-16 2 2.0.0 2024-4-16
2024-4-15 3 1.0.0 2024-4-15
このデータを可視化したいとき、日付をディメンションにすると、日付ごとに集計がされますが、差分があったデータしか表示されないことになります。
私が望むことは、私は差分があったデータのみを保持しているので、当日の日付がないが過去の日付のデータがある場合は、過去の日付のデータで一番日付が新しいデータを使って集計されることです。
つまり、時系列分析するときに、ディメンションに、"日付以前のデータの中で最新のデータ"で集計されることです。
日付をディメンション:
version(個数)
1.0.0 2.0.0
--------------------------
4/15 3 0
4/16 0 1
望むこと:
version(個数)
1.0.0 2.0.0
--------------------------
4/15 3 0
4/16 2 1
これを実現するにはどのような工夫が必要でしょうか?