皆さまいかがお過ごしでしょうか、歌乃です。

新しい Model はないかしらん?とハギングフェイスを物色していてみつけた OmniGen v1

GitHub はここ。ライセンスは MIT 。

元プロジェクトは コーネル大 (Cornell University in NYC) のコンピュータ科学の研究。


OmniGen モデルに関して

特徴としては「統合画像生成モデル」と謳っているように、現行のモデルでいろいろなオプションによって実現しているような作業を、OmniGen モデルのみで完結できること目標としているようです。

具体的には prompt による画像生成、一部の prompt の変更による画像の修正 (つまり元画像を崩さずに、画像の一部を置き換える)、複数画像の結合や、複数画像からの合成などなど、かなり興味深い性能になっています。

ここで紹介するインストール手順は、公式?の yutube で公開されているものを文字に (実際に自分が試した顛末を) 書き起こしたものです。


インストール手順

筆者ローカル環境:
Windows 10 Pro 22H2
AMD Ryzen 5 5600X
RAM 32GB
Graphics NVIDIA RTX3070
VRAM 8GB

適当な (インストール予定の) ディレクトリに移動します。

git clone.

git clone https://github.com/newgenai79/omnigen

リポジトリに移動。

cd omnigen

python 3.10 で仮想環境構築 (conda環境があればそちらでも可)

omnigen> py -3.10 -m venv venv

仮想環境有効化

omnigen> .\venv\Scripts\activate
(venv)>

依存関係のインストール

(venv)> pip install -r .\requirements.txt


アプリケーションの起動方法

アプリケーションの実行 (バックエンドサーバーの起動と、ローカルwebUIページの立ち上げ)

(venv)> python .\app.py
* Running on local URL:  http://127.0.0.1:7860

To create a public link, set `share=True` in `launch()`.

ローカルのwebページ (http://127.0.0.1:7860) にアクセスすればサンプルのUIページ (Gradio UI) が表示されます。

1117image001


Low VRAM 対応

筆者のように非力な環境で動作させたい諸兄のために用意された設定があります。

設定と言うほどの設定もないシンプルな UI 構成ですが、画像のようにチェックボックスが用意されているのでチェックを入れておきましょう。

1117image004

少なくとも筆者の環境ではどのサンプルを実行しても OoM (Out of Memory Error) は発生しませんでした。


サンプル生成

画面下に実行サンプルがリストされています。

リストをクリックすると自動で入力項目が入力されます。「genarate image」ボタンで実行できます。

1117image002

初回実行時に必要なモデルや設定ファイルなどを自動でダウンロードしてくれます。

1117image003

その他の アプリケーションでも同じですが、モデルはそれなりに容量 (数GB~数十GB) があるので落ちてくるまでのんびりと待ちましょう。


実際の生成結果

prompt: (from sample list no.1)

A curly-haired man in a red shirt is drinking tea.

Step10 sample1_10 Step30 sample1_30 Step50 sample1_50

低ステップでも大まかな形は出ているが、不自然ではない結果になるには40ステップ以上が必要。 筆者の環境では1ステップ3秒かかる。50ステップで150秒 (二分半) これを早いと思うかどうかは微妙なところ。

prompt: (from https://gencraft.com/)

a cityscape image featuring a bustling, futuristic metropolis with towering skyscrapers with unique,intricate designs.
Capture a vibrant, high-tech urban environment with holographic billboards lighting the city skyline and the streets below.

Step10 image_step10 Step30 image_step30 Step50 image_step50

prompt: (sample list No.7)

The flower <img><|image_1|><\/img> is placed in the vase which is in the middle of <img><|image_2|><\/img> on a wooden table of a living room

二枚の画像の合成。

rose vase Step50 image

prompt: (from sample list No.10)

Generate a new photo using the following picture and text as conditions: <img><|image_1|><img>
 A young boy is sitting on a sofa in the library, holding a book. His hair is neatly combed, and a faint smile plays on his lips, with a few freckles scattered across his cheeks. The library is quiet, with rows of shelves filled with books stretching out behind him.

スケルトン画像を使用したポーズ指定。

skeleton guide skeletal Step10 skelton_10 Step50 skelton_50


総評としては「悪くはない」と言う感じです。
便利ですが、生成速度は速いとは言えず、出来上がりの精度もそこまで高いとはいえません (結構線がゆがんでいる)。

SDXLほどひどくはないですが、Flux レベルとも言えません。
むしろ Flux は4Step 10~20秒とかで生成できるので、精度を選ぶならそちらが圧倒的におすすめです。

画像生成はある程度ガチャ要素があるので試行回数が多いほうが有利です。
回数を増やすには速度が必要で...という理論ですね。

便利ではあるけれどこれを使うかと言うと...(-_-)


Post If you feel like it, I would be happy if you could post it.