LLMに心の目を与えるプロンプティング手法 マルチモーダルモデルに匹敵する空間推論性能を達成

研究者らは、LLMに「心の目」を授けるプロンプト手法を考案しました。 実験の結果、LLMの空間推論能力(物体の位置関係や動きを理解し、推論する能力)が大幅に向上することが示されています。 本記事の関連研究: スクショからHTMLとCSSのコードをLLMが生成する『Design2Code』タスク、プロンプト手法やファインチューニングで高い性能を確認 マルチモーダルLLMの技術や開発トレンド、26種類のモデル例を網羅的にまとめた報告 Appleが開発、スマホのスクリーンを理解してユーザーと対話できる『ReALM』端末上で動く軽量モデル GPT-4Vで画像分析する際、画像に「ドットマトリックス」を重…