皆さまいかがお過ごしでしょうか、歌乃です。
新しい Model はないかしらん?とハギングフェイスを物色していてみつけた OmniGen v1。
GitHub はここ。ライセンスは MIT 。
元プロジェクトは コーネル大 (Cornell University in NYC) のコンピュータ科学の研究。
特徴としては「統合画像生成モデル」と謳っているように、現行のモデルでいろいろなオプションによって実現しているような作業を、OmniGen モデルのみで完結できること目標としているようです。
具体的には prompt による画像生成、一部の prompt の変更による画像の修正 (つまり元画像を崩さずに、画像の一部を置き換える)、複数画像の結合や、複数画像からの合成などなど、かなり興味深い性能になっています。
ここで紹介するインストール手順は、公式?の yutube で公開されているものを文字に (実際に自分が試した顛末を) 書き起こしたものです。
筆者ローカル環境:
Windows 10 Pro 22H2
AMD Ryzen 5 5600X
RAM 32GB
Graphics NVIDIA RTX3070
VRAM 8GB
適当な (インストール予定の) ディレクトリに移動します。
git clone.
git clone https://github.com/newgenai79/omnigen
リポジトリに移動。
cd omnigen
python 3.10 で仮想環境構築 (conda環境があればそちらでも可)
omnigen> py -3.10 -m venv venv
仮想環境有効化
omnigen> .\venv\Scripts\activate
(venv)>
依存関係のインストール
(venv)> pip install -r .\requirements.txt
アプリケーションの実行 (バックエンドサーバーの起動と、ローカルwebUIページの立ち上げ)
(venv)> python .\app.py
* Running on local URL: http://127.0.0.1:7860
To create a public link, set `share=True` in `launch()`.
ローカルのwebページ (http://127.0.0.1:7860) にアクセスすればサンプルのUIページ (Gradio UI) が表示されます。
筆者のように非力な環境で動作させたい諸兄のために用意された設定があります。
設定と言うほどの設定もないシンプルな UI 構成ですが、画像のようにチェックボックスが用意されているのでチェックを入れておきましょう。
少なくとも筆者の環境ではどのサンプルを実行しても OoM (Out of Memory Error) は発生しませんでした。
画面下に実行サンプルがリストされています。
リストをクリックすると自動で入力項目が入力されます。「genarate image」ボタンで実行できます。
初回実行時に必要なモデルや設定ファイルなどを自動でダウンロードしてくれます。
その他の アプリケーションでも同じですが、モデルはそれなりに容量 (数GB~数十GB) があるので落ちてくるまでのんびりと待ちましょう。
prompt: (from sample list no.1)
A curly-haired man in a red shirt is drinking tea.
低ステップでも大まかな形は出ているが、不自然ではない結果になるには40ステップ以上が必要。 筆者の環境では1ステップ3秒かかる。50ステップで150秒 (二分半) これを早いと思うかどうかは微妙なところ。
prompt: (from https://gencraft.com/)
a cityscape image featuring a bustling, futuristic metropolis with towering skyscrapers with unique,intricate designs.
Capture a vibrant, high-tech urban environment with holographic billboards lighting the city skyline and the streets below.
prompt: (sample list No.7)
The flower <img><|image_1|><\/img> is placed in the vase which is in the middle of <img><|image_2|><\/img> on a wooden table of a living room
二枚の画像の合成。
prompt: (from sample list No.10)
Generate a new photo using the following picture and text as conditions: <img><|image_1|><img>
A young boy is sitting on a sofa in the library, holding a book. His hair is neatly combed, and a faint smile plays on his lips, with a few freckles scattered across his cheeks. The library is quiet, with rows of shelves filled with books stretching out behind him.
スケルトン画像を使用したポーズ指定。
総評としては「悪くはない」と言う感じです。
便利ですが、生成速度は速いとは言えず、出来上がりの精度もそこまで高いとはいえません (結構線がゆがんでいる)。
SDXLほどひどくはないですが、Flux レベルとも言えません。
むしろ Flux は4Step 10~20秒とかで生成できるので、精度を選ぶならそちらが圧倒的におすすめです。
画像生成はある程度ガチャ要素があるので試行回数が多いほうが有利です。
回数を増やすには速度が必要で...という理論ですね。
便利ではあるけれどこれを使うかと言うと...(-_-)