Q in QuickSight シナリオの回答精度向上に取り組む可能性があり、特に業界専門用語や独自指標の認識精度を改善したいと考えています。
■ 背景・現状
- データQ&Aでは、トピック機能のシノニム設定により一定の精度改善を実現(業界用語が大量にあり、シノニムの設定が大変ではある)
- シナリオでは、既存ダッシュボードをデータソースとして活用することになる
- トピックのシノニム機能が使えないため、業界特有の用語や社内独自の指標名に対する理解が不十分で、意図した回答が得られないことがある
■ 現在検討しているアプローチ
以下の方法を検討していますが、有効性について知見をいただきたいです。
方法1:コンテキスト用データセットの作成
- 用語定義や指標の説明を含むデータセットを別途作成
- 同じシナリオにデータとして含めることで、Qがビジネス用語を理解できるようにする
- (懸念)データを組み合わせた分析を行わせる場合は内部的にデータを結合するため、プライマリキーの型を一致させる必要がある?
方法2:データセットのフィールド説明の充実
- QuickSightのデータセット設定で、各フィールドに詳細な説明を追加
■ 質問事項
- 上記のアプローチは効果がありそうですか?(試す価値はあるか)
- シナリオの精度向上のために、他に推奨される方法はありますか?
- データセット名、フィールド名、フィールドの説明など、どの要素がQの理解に最も影響しますか?
- 業界用語や専門用語を認識させるために、実践できる工夫があれば教えてください
■ 環境
よろしくお願いいたします。
@emikitani さん、ご質問ありがとうございます。
- 上記のアプローチは効果がありそうですか?(試す価値はあるか)
ぜひ試していただきたいです。
もし質問に認識させたい専門用語が含まれていて、その理解がないと回答できないようなケースの場合、初めのStepとしてその用語に関連するデータを検索するという動作をします。
手元で用語集のCSV(用語,説明 のみ)と仮のデータセット(用語集と被らない内容の説明書きを補足で追記)を用意して試してみましたが、方法1、方法2ともに意図した分析の結果となりました。
検索の際には、用語集にヒットすればその用語に関連する対象行を取得し、補足書きにヒットすれば関連する対象行を取得します。
逆に、用語集を削除し、用語集がないと難しい質問を行った場合は、意図しない回答が返って来たことも確認できました。
また、「プライマリキーの型を一致」についてですが、同一の方がより結合の認識をさせやすいですが、結合を示すようなコンテキストファイルや指示を追加するアプローチも可能かと思われます。
- シナリオの精度向上のために、他に推奨される方法はありますか?
今出していただいた内容を、組み合わせて検討いただくのが良いのではと思います。
別途他にあれば追記いたします。
- データセット名、フィールド名、フィールドの説明など、どの要素がQの理解に最も影響しますか?
メタデータとして、データセット名はデータセットを見つけやすくするのに役立ち、フィールド名はフィールドを特定しやすくしたり、説明とも合わせて、フィールドの意味を理解するのに役立ちます。
どの観点で精度を向上させたいかによって、使い分けとなりますが、最も効果的なのは組み合わせて適用する事かと思います。
- 業界用語や専門用語を認識させるために、実践できる工夫があれば教えてください
方法1、2についてですが、用語の意味が理解できれば良いのであれば方法1、用語とデータ(レコード)との関連性をデータセット内で明示的に示す必要があれば方法2のアプローチが良いのではないかと思います。
方法2では、データの意味がより直接的にクリアになると考えられる一方で、運用面で言うと、量にもよりますが、データセットに対するメンテナンス負荷が高くなると推測されますので、運用面も考慮いただくと良いかと存じます。
2 Likes
Hikaru
3
@emikitani さん、その後いかがでしょうか。
もしご不明点があれば気軽にご質問くださいませ。もし疑問が解決しているようでしたらぜひ回答者の投稿にSolution✅マークの付与をお願いいたします。
@nanamikt @Hikaru
ご回答ありがとうございます。方法1、2、共に検討可能と理解しました。解決済みとします。
カラム数が多い(100 以上)ので、いずれも大変だな、と思っています。簡単にデータを理解できる手法があると嬉しいと思います。