OpenAI Sora: Sora | OpenAI
現在のSoraのモデルにはまだ改善の余地があると書かれている。
複雑なシーンの物理シミュレーションが難しいようだ。
複雑でなくても、例えば、ガラスが割れるような多くの基本的な物理的な現象もできていない。
物理的にありえないシーンも連発する。
特定の因果関係、プロンプトに含まれる空間的な詳細(左右を識別するなど)を混同したり、時間をかけて展開するイベントの正確な記述(特定のカメラの軌道など)など
これを見ていると、まだまだ、道のりは長い気がしてきます。
広告
スポンサーリンク
目次
新しいオオカミが、突然現れる。(マジックのように増えていってしまう)
Prompt: Five gray wolf pups frolicking and chasing each other around a remote gravel road, surrounded by grass. The pups run and leap, chasing each other, and nipping at each other, playing.(プロンプト:草に囲まれた遠く離れた砂利道で、5匹の灰色のオオカミの子供たちがじゃれ合い、お互いを追いかけ回しています。子犬たちは走り回り、飛び跳ね、お互いを追いかけ、噛みつきながら遊んでいます。)
3匹に見える。
4匹になった。
何匹いるんだ?
ガラスが割れるような基本的な物理現象をモデル化できていない
Soraはシミュレーターとして多くの制限を持っています。例えば、ガラスが割れるような多くの基本的な相互作用の物理を正確にモデル化していません。食べ物を食べるといった他の相互作用も、常に正しいオブジェクト状態の変化をもたらすわけではありません。
不正確な物理モデリングと不自然なオブジェクトの「モーフィング」の例(バスケットボール爆発)
Prompt: Basketball through hoop then explodes.Prompt: Basketball through hoop then explodes.(プロンプト:バスケットボールがフープを通過した後、爆発します。)
モーフィングとは、二つ以上の画像や音声を滑らかに変形・融合させて一つに統合する技術
爆発しているのに、無傷なバスケットボール
新しいボールが、なぜか出現
物理的にありえないが、バスケットボールが、フープに重なっている。
広告
スポンサーリンク
剛体オブジェクトとしてモデル化できず、物理的な相互作用が不正確になる(例:考古学者は砂漠で一般的なプラスチック製の椅子を発見の動画)
Prompt: Archeologists discover a generic plastic chair in the desert, excavating and dusting it with great care.(プロンプト:考古学者たちは砂漠で一般的なプラスチック製の椅子を発見し、非常に慎重に発掘し、ほこりを払います。)
この例では、Sora は椅子を剛体オブジェクトとしてモデル化できず、物理的な相互作用が不正確になる
土が、プラスチックの椅子に変化?
椅子が空中に浮いた感じに。
そのまま、椅子自身が自分で移動
広告
スポンサーリンク
オブジェクトと複数のキャラクター間の複雑な相互作用をシミュレートするのは難しく、時にユーモラスな生成が発生
Prompt: A grandmother with neatly combed grey hair stands behind a colorful birthday cake with numerous candles at a wood dining room table, expression is one of pure joy and happiness, with a happy glow in her eye. She leans forward and blows out the candles with a gentle puff, the cake has pink frosting and sprinkles and the candles cease to flicker, the grandmother wears a light blue blouse adorned with floral patterns, several happy friends and family sitting at the table can be seen celebrating, out of focus. The scene is beautifully captured, cinematic, showing a 3/4 view of the grandmother and the dining room. Warm color tones and soft lighting enhance the mood..(きちんと櫛でとかされた灰色の髪の祖母が、カラフルな誕生日ケーキとたくさんのろうそくがある木製のダイニングテーブルの後ろに立っています。表情は純粋な喜びと幸福で、目には幸せな輝きがあります。祖母は前かがみになり、優しい息でろうそくを消します。ケーキはピンクのフロスティングとスプリンクルが施されており、ろうそくの光は消えます。祖母は花柄が飾られた薄い青のブラウスを着ています。テーブルに座る幾人かの楽しそうな友人や家族がぼんやりと祝福しているのが見えます。このシーンは美しく、映画のように捉えられており、祖母とダイニングルームの3/4ビューを示しています。暖かな色調と柔らかい照明が雰囲気を高めています。)
この動画は、静止画でみても、何が問題なのかわかりにくい。
各個人の目線をよくみると、おばあちゃんの方を見ていない感じはする。(複数のオブジェクトやキャラクター間の複雑な相互作用をシミュレートすることは難しいとのこと。)
各個人がバラバラな感じにみえる。
そして、おばあちゃんが息を吹きかけても、ロウソクの火が消えない。消えなくてもいいが、炎が揺れさえしない。
物理的に信じられない動き(35mmで撮影された映画のフィルムで、走っている人のステッププリントシーン)
Prompt: Step-printing scene of a person running, cinematic film shot in 35mm.(プロンプト:人が走るシーンをステッププリントで撮影した、35mmの映画フィルム。)
ステッププリントは、映画やビデオの編集技術の一つで、特定のフレームを繰り返して表示することによって、通常の動きよりも遅い動き(スローモーション効果)を作り出します。この技術は、特にアクションシーンや美術的な演出を強調する場面でよく使われます。
この映像が、物理的に破綻しているというOpenAIの説明だ。
撮る側のカメラの問題で、、、、という言い訳にはならないのだろうか?
出典:
OpenAI Sora: Sora | OpenAI
テクニカルレポート:Video generation models as world simulators | OpenAI