マルチモーダルLLMにおける幻覚（ハルシネーション）の原因と対策　クリエイティブでの活用も推奨　AWSなどが網羅的に調査

2024.05.092025.03.08

テキストだけでなく画像や動画などの視覚情報も理解し、それらを組み合わせて高度なタスクを遂行するマルチモーダルの大規模言語モデル（マルチモーダルLLM）が注目を集めています。

そんな中、モデルが生成した内容が入力された情報と矛盾したり、事実とかけ離れたりする現象である「ハルシネーション」の問題が、マルチモーダルLLMにおいても問題となっています。

そこで今回Amazon Prime Videoなどの研究者らは、マルチモーダルLLMにおけるハルシネーションの原因や評価方法、対策などについて詳しく調査しています。

参照論文情報

著者：Zechen Bai, Pichao Wang, Tianjun Xiao, Tong He, Zongbo Han, Zheng Zhang, Mike Zheng Shou

背景

マルチモーダルLLMが注目を集めるようになりました。マルチモーダルLLMは主に、画像や動画などの視覚情報を理解し、それに基づいて言語生成を行うことができるモデルを指します。今後も、さらに異なるモダリティ（情報の種類）に対応できるようになることが期待されています。

しかし、マルチモーダルLLMにおいてもハルシネーションの問題が顕在化しています。生成されたテキストと入力された視覚情報が不整合するといった現象です。存在しないオブジェクトを言及したり、オブジェクトの属性や関係性を誤って説明したりするなどのケースがあります。

ハルシネーションに起因する信頼性や安全性への懸念から、マルチモーダルLLMの社会実装が阻まれる恐れがあります。そのため、解決に向けた取り組みが求められています。

今回研究者らは、マルチモーダルLLMのハルシネーション問題に関する最新の動向を整理し、課題と将来の方向性を示しています。

プレミアム会員限定の記事です

記事の購読には、アカウント作成後の決済が必要です。

ログイン