Apple Vision Pro時代の「視線トラッキングUI」はここまで進化する ―― Appleの視線登録特許を解説 (US12625546B2)

XRデバイスや空間コンピューティングでは、「どこを見ているか」、つまりユーザーの視線がマウスやタッチに代わる重要な入力になります。
しかし、視線操作が便利になる前には、ユーザーの目の動きや注視傾向をデバイスに覚えさせる「登録」が必要です。
この登録が面倒だったり、何をすればよいか分かりにくかったりすると、せっかくの未来的な体験は一気にストレスになります。

今回紹介するAppleの特許は、まさにこの“最初の体験”を快適にするためのものです。
単に目を測定するだけでなく、光るターゲット、変化するUI、音のフィードバック、アクセシビリティ対応を組み合わせ、ユーザーが自然に視線登録を完了できるようにしています。
Vision Proのようなヘッドマウントデバイスの使い勝手を左右する、地味ですが非常に重要な技術です。
この記事では、Appleの特許 US12625546B2 の内容から、視線追跡に必要な視線登録UIをわかりやすく解説します。

発明の概要
発明のポイント
他の図面の説明
応用可能性
まとめ

発明の概要

特許番号：US 12625546 B2
タイトル：User Interfaces For Gaze Tracking Enrollment
発明者：Giancarlo Yerkes, Amy E. Dedonato, Adam L. Amadio, Kaely Coon, Stephen O. Lemay, William A. Sorrentino III, Lynn I. Streja, Israel Pastrana Vicente
出願人：Apple Inc.
出願日：2023/9/21
登録日：2026/5/12
特許の詳細については US12625546B2 を参照してください。

この特許は、「XRデバイスがユーザーの視線を正確に把握するための登録作業を、分かりやすく、楽しく、失敗しにくくするUI」に関するものです。

XRとはExtended Realityの略で、VR、AR、MRのように、現実空間とコンピュータ生成映像を組み合わせた体験を含む広い概念です。Apple Vision Proのようなデバイスでは、ユーザーがどこを見ているかを認識することが、アプリの選択、ボタン操作、文字入力、空間内のオブジェクト操作に直結します。

ただし、視線トラッキングは「カメラで目を見ればすぐ分かる」という単純な技術ではありません。
人によって目の形、まぶたの状態、瞳孔の見え方、眼鏡やコンタクトの影響、周囲の明るさが異なります。そのため、システムは使用前にユーザーの目の特徴を学習する必要があります。この学習プロセスが視線トラッキング登録（gaze tracking enrollment）です。

従来の視線登録では、ユーザーに画面上の点を順番に見てもらう方式が一般的でした。しかし、この方式には弱点があります。今どこを見ればよいのか、登録が進んでいるのか、失敗したのか、あとどれくらいで終わるのかが分かりにくいのです。特にXR空間では、表示対象が平面画面ではなく三次元空間に浮かぶため、ユーザーの不安や迷いはさらに大きくなります。

Appleは、視線登録を「退屈な初期設定」ではなく、「ユーザーが自然に目を動かしたくなるインタラクティブな体験」に変えようとしています。この特許では、視線に反応してターゲットの形や明るさが変わり、登録が進むと音や表示でフィードバックされ、場合によっては手のジェスチャやアクセシビリティ設定に応じた別ルートも提示されます。

この記事で分かることは、Appleがどのように視線登録UIを設計しているのか、なぜ単なるセンサー技術ではなくUI設計が重要なのか、そしてこの技術が将来のXRデバイスやアクセシビリティ機能にどうつながるのか、という点です。

発明のポイント

視線トラッキングの基本構造 (Fig.5)

Fig. 5は、視線トラッキングの基本構成図です。図には、ユーザーの眼（592）、レンズまたは光学要素（520）、光源（530）、視線トラッキングカメラ（540）、ディスプレイ（510）、コントローラ（110）が示されています。

上側の構成（130A）では、ミラー（550）が、眼（592）から戻ってくる赤外または近赤外の反射光をカメラ（540）へ反射し、ディスプレイ（510）からの可視光は透過してユーザーの眼へ到達するという構成になっています。
下側の構成（130B）では、ミラーを介さず、眼（592）から反射したIR/NIR光は、カメラ（540）が直接受光する構成になっています。ミラーを使わないぶん、光学部品の数を抑えられる可能性があります。

グリントの位置関係を使うことで、システムはユーザーの視線方向を推定しやすくなります。Fig. 5は、このような光学的な視線検出の考え方を示しています。
視線トラッキングの技術については、「視線を追跡する技術」をご参照ください。

従来技術との差異は、単に視線方向を推定するだけでなく、ユーザーの視線を正確に把握するための登録作業のUIと結びつけている点にあります。視線検出はハードウェアだけでは不十分です。ユーザーに適切なターゲットを見せ、正しく注視できたかを判断し、十分なデータが集まったかを知らせるUIがあって初めて、実用的な視線操作になります。

応用例としては、Vision Proのようなヘッドセットだけでなく、将来のスマートグラス、車載ARディスプレイ、医療用の視線入力装置、手を使いにくい環境での産業用端末にも展開できそうです。目の動きが正確に分かれば、「見る」という自然な行為が、そのまま入力になります。

（正確な図面は、US12610171B2 をご参照ください。）

視線を追跡する技術

人の視線を検出する視線追跡技術の基本的な原理から、その応用分野について詳しく解説します。

視線の動きに応じて変化する登録ターゲット (Fig.7I)

Fig. 7Iは、視線登録中での視線トラッキングの状況の表示例です。ここでは、三次元環境（712）の中に登録用の要素（730）が表示されています。登録要素（730）は、複数の部分（730A, 730B, 730C, 730D）で構成されており、ユーザーの視線の動きに応じて表示が変化します。

図中には、視線（750D）に対応する経路（732）と、視線（750E）に対応する経路（734）が示されています。つまり、ユーザーはシステムの指示に従って必ず同じ開始点から同じ方向に目を動かすという動作は行っていません。経路732と734はいずれも有効な視線経路として扱われます。つまり、システムはユーザーに厳密な動作を強制するのではなく、ある程度自然な目の動きを許容しながら登録データを取得します。

登録要素（730）の各部分（730A〜730D）は、ユーザーが見た部分の表示を変え、経過状況が分かるように示します。これは、スマートフォンの画面で「進捗バー」が伸びていくようなものですが、XR空間では、もっと直感的にユーザーが見た場所そのものが変化するため、「自分の視線が認識されている」という感覚を得やすくなります。

この発明の技術的意義は、視線登録の成功率を上げるだけではありません。ユーザーの心理的負担を下げることにもあります。何も反応がないUIでは、ユーザーは「今の見方で合っているのか」と不安になります。しかし、見た場所が変化すれば、システムが反応していることがすぐに分かります。これにより、登録時間の短縮、誤操作の低減、バッテリー消費の抑制にもつながります。

（正確な図面は、US12610171B2 をご参照ください。）

視線ターゲットとジェスチャを組み合わせる登録UI (Fig.15C)

Fig. 15Cは、電子デバイス（1500）が視線登録用のユーザーインターフェースを表示している場面を示す図です。ユーザーは、画面またはXR空間上に表示された視線ターゲットを見ながら、必要に応じてジェスチャ入力を行います。

ここでは、視線だけでなく、手のジェスチャや選択入力と組み合わせて登録を進める設計になっています。たとえば、ユーザーがターゲット（1522b）を見ている状態で、ピンチのような空中ジェスチャを行うと、システムは「このターゲットに対する視線登録情報が記録された」と判断できます。

視線入力には「見る」と「選ぶ」の区別が難しいという問題があるため、視線だけでなくジェスチャを使う必要があります。人は単に眺めているだけの場合もあれば、意図的に選択したい場合もあります。ジェスチャを組み合わせることで、システムは「ユーザーがこのターゲットを意図的に選択した」と判断しやすくなります。

従来のタッチUIでは、指で触れた場所がそのまま入力になります。しかしXRでは、空間上のターゲットを見て、手で合図するという複合入力が自然です。Fig. 15Cは、その複合入力の入口を示しています。

（正確な図面は、US12610171B2 をご参照ください。）

アクセシビリティに応じて登録ルートを変える (Fig.18E)

Fig. 18Eは、ユーザー登録の流れにおいて、アクセシビリティ条件に応じた選択肢を提示する場面を示しています。
ここでは、ユーザーの状態や設定に応じて、登録プロセスの一部をスキップできる選択肢が表示されます。Appleは、視線登録を「全員が同じ手順で行うもの」と考えていないので、登録プロセスそのものをユーザーに合わせて変化させる考え方を示しています。たとえば、運動機能に制約があるユーザーにとって、手のジェスチャを伴う登録は難しい場合があります。その場合、システムはジェスチャ入力を使わない登録方法を提示することができます。

Fig. 18Fは、アクセシビリティ条件が満たされていない場合、つまり通常の登録ルートとして、視線ターゲットを見ながらジェスチャを行う登録画面（1830）が表示される例です。ユーザーは、1つ以上の視線ターゲットを見て、その間に空中ジェスチャを実行します。

ユーザーの運動能力に応じて、あるユーザーにはスキップや代替ルートを提示し、別のユーザーには通常の視線＋ジェスチャ登録を提示します。つまり、同じデバイスでも、登録UIはユーザーの状態によって変わります。

（正確な図面は、US12610171B2 をご参照ください。）

他の図面の説明

（図面は、US12610171B2 をご参照ください。）

Fig. 1A：XR体験を提供するコンピュータシステムの全体構成
Fig. 1Aは、コンピュータシステム（101）が、コントローラ（110）、表示生成コンポーネント（120）、入力デバイス（125）、出力デバイス（155）、センサー（190）などを含む全体構成を示しています。視線登録UIは、このようなXR環境（100）の中で動作します。

Fig. 1B〜1P：ヘッドマウントデバイスの構造例
Fig. 1B〜1Pは、XR体験を提供するヘッドマウントデバイスの各種構成例です。

Fig. 2：コントローラの構成
Fig. 2は、コントローラ（110）の内部構成を示しています。処理ユニット（202）、通信インターフェース（208）、I/Oデバイス（206）、メモリ（220）などがあり、視線データ、手のトラッキング、XR体験の管理がここで処理されます。

Fig. 3：表示生成コンポーネントの構成
Fig. 3は、表示生成コンポーネント（120）の構成です。XRディスプレイ（312）、画像センサー（314）、処理ユニット（302）、メモリ（320）などが示されます。

Fig. 4：手のトラッキング
Fig. 4は、手の動きやジェスチャを検出する構成です。カメラやセンサーにより手（406）の形状や姿勢を検出し、手のモデル（410, 412, 414, 416）として扱います。視線＋ジェスチャ登録の土台になります。

Fig. 6：グリント支援型の視線トラッキング処理
Fig. 6は、画像取得（600）、瞳孔とグリントの検出（620）、追跡（640）、信頼判定（650）、視線推定（680）という流れを示します。どのように視線推定が行われるかを説明するフロー図です。

Fig. 7A〜7Y：視線登録UIの基本シーケンス
Fig. 7A〜7Yは、三次元環境（712）内でターゲット（714）や登録要素（720, 730, 740, 760, 770）が変化する一連の例です。ユーザーの視線（750A〜750F）に応じて、ターゲットが伸びる、明るくなる、中央に集まる、移動するなどの反応を示します。

Fig. 8：登録進捗インジケータを表示する方法
Fig. 8は、ターゲットを表示し、ユーザーの視線を検出し、一定時間注視された場合に登録進捗UIへ置き換える処理を示します。視線登録における進捗を表示するための基本フローです。

Fig. 9：UI要素を動かす方法
Fig. 9は、視線が向けられたUI要素を別の場所へアニメーション移動させる方法です。視線に反応してUIが動くことで、ユーザーは登録の進行を直感的に理解できます。

Fig. 10：UI要素の外観を変える方法
Fig. 10は、視線が短時間向けられた場合と、しきい値時間を超えて向けられた場合で、UI要素の外観を変える方法を示します。軽い注視と確定的な注視を区別する考え方です。

Fig. 11：時間とともに動くUI要素を追跡する方法
Fig. 11は、登録要素が時間とともに移動し、ユーザーがそれを目で追うことで視線情報を取得する方法です。静止点を見るだけでなく、動く対象を追わせることで、より豊かなデータを得られます。

Fig. 12A〜12X：明るさや音を使った視線登録
Fig. 12A〜12Xは、視線ターゲット（1224a, 1224b, 1226a〜1226f）などを使い、異なる明るさや音声フィードバックを伴って登録を進める例です。ターゲットの縮小、音量やピッチの変化、ステージ完了音などが使われます。

Fig. 13：視線登録方法のフロー
Fig. 13は、複数段階の視線登録プロセスを示すフロー図です。明るさの異なる登録UIを用いることで、さまざまな照明条件に対応した視線データを取得する意図が読み取れます。

Fig. 14：視線登録中のフィードバック方法
Fig. 14は、ユーザーがターゲットを見続けているかどうかに応じて、音や表示でフィードバックを行う方法を示します。登録中の不安を減らし、正しい操作へ誘導するための仕組みです。

Fig. 15A〜15Y：視線ターゲットと選択入力を使った登録
Fig. 15A〜15Yは、デバイス（1500）、表示部（1502）、センサー（1504）、視線ターゲット（1522a〜1522f）、ユーザー入力（1526）などを使う登録例です。ユーザーがターゲットを見ながら入力を行うことで、ターゲットごとの視線情報を記録します。

Fig. 16：視線ターゲット選択による登録方法
Fig. 16は、視線ターゲットを表示し、選択入力が検出されたときに、ユーザーの視線がどのターゲットに向いていたかを判定する方法を示します。視線と選択入力を組み合わせる基本フローです。

Fig. 17：音声フィードバックによる登録支援
Fig. 17は、ターゲットごとに異なる音声フィードバックを出す方法を示します。音により、どのターゲットが認識されたか、登録が進んだか、完了したかをユーザーに知らせます。

Fig. 18A〜18H：ユーザー登録とアクセシビリティ対応
Fig. 18A〜18Hは、デバイス（1800）、表示部（1802）、入力センサー（1804）、物理入力デバイス（1806a〜1806c）を使ったユーザー登録UIです。アクセシビリティ条件に応じて、手の登録、目の登録、スキップ、別方式の登録を提示します。

Fig. 19：ユーザー登録方法のフロー
Fig. 19は、アクセシビリティ条件に応じて登録プロセスを変える方法を示すフロー図です。条件が満たされる場合にはスキップ選択肢を表示し、満たされない場合には通常の登録へ進みます。

応用可能性

この特許技術の応用先としては、Apple Vision Proのようなヘッドマウントデバイスです。視線が正確に取れれば、アプリの選択、ウィンドウ操作、文字入力、ゲーム操作、映像編集、3Dモデル操作などが大きく変わります。ここで、重要なのは「最初の登録体験」です。どれほど高度な視線追跡技術でも、初期設定が分かりにくければユーザーは離れてしまいます。この特許は、技術性能だけでなく、ユーザーが迷わず、楽しみながら、自然に登録できる体験を重視しています。
今後は、視線登録がさらに短時間化し、ほとんど意識せずに完了する方向へ進むと考えられます。たとえば、初回起動時に空間内のいくつかのアイコンを見るだけで登録が進み、ゲームのチュートリアルのような体験の中でキャリブレーションが終わるかもしれません。
視線登録で得られるデータは、単なるポインティング精度の向上にとどまりません。ユーザーがどの距離の対象を見やすいか、どの方向の視線移動が苦手か、どの明るさで検出精度が落ちるか、といった情報も推定できる可能性があります。これにより、UIの配置、文字サイズ、通知位置、仮想キーボードの設計まで個人化されるかもしれません。
もちろん、視線データは非常にセンシティブです。どこを見ているかは、興味、迷い、疲労、注意状態を反映する可能性があります。そのため、今後の実装では、プライバシー保護、端末内処理、データ最小化、ユーザーへの透明性がますます重要になるでしょう。

（応用可能性については、個人の見解です。）