僕はまた、旅に出る。

僕はまた、旅に出る。

言葉で絵を描くAIについて

最近、SNSで、言葉から絵を生成する「Midjourney」が話題になっています。

 

www.midjourney.com

 

とりあえず自分も生成してみたので、思ったことを雑記。

 

触って遊んでみる。

生成してみた絵。より詳細な絵や他のバリエーションを生成するコマンドも提供されている

 

確か、「未来のキャンプ」、みたいな形でプロンプト(指示文章)入力したと思いますが、こんな感じで出てきました。ネットで流れてきたものをみた感じだと、「〜風で」など、より詳細な描写をすると、もっと絵が具体的になるみたいですね。

 

注意:無料版 は Creative Commons 4.0 by-ncライセンス みたいです。

商用利用する場合は、有料プランに入る必要があるようです。注意。

 

生成された絵を見て感じたこと

この技術は 研究分野で言うと、Text-to-image というマルチモーダル(言語・音声・画像等、複数の出入力情報が、複数のモーダルからなる)の一種で、逆の絵からテキストを生成する技術は、image captioning などが挙げられます。

似たような技術だと、OpenAI が出した DALL-E などがありますね。事前の学習データとして、4億の画像とテキストのペアデータを使って学習された機械学習モデルも併せて使っているので、相当な量の学習データが使われていることがわかります。

絵を見てみると、確かにちょっとしたイメージ図や、挿絵であれば、代替されてしまいそうですね。

ただ、今の所、小説生成などと違うところとしては、小説の生成であれば、生成された文章に対して、人間が修正することが簡単ですが、今回の画像の生成では、一枚の画像として出てくるので、「この画像のこの部分に書かれているオブジェクトをもう少し大きく」、とか、「もう少し左に」とか、細かな修正を簡単にすることが難しいところでしょうか。いわゆるレイヤー分けされてないので、そのあたりの使い勝手は、この絵をレイヤーごとに生成し直す技術などがあれば、解決するかもしれません。

あとは、文化依存の問題ですね。学習されたデータが欧米圏のものが中心であれば、日本語特有の言葉や日本の人物(そもそも日本語入力でない時点で難しいですが)を入力してもうまく行かない場合があるのかなと思います。

 

まとめ

新しい技術で遊んでみました。

すごい技術が生まれていっていますが、できること・できないことがありますね。

AI に仕事が奪われると思う不安もありますが、まずは触ってみて、どう活用できるのか、何ができないのかを知る、といった見定めをすることが必要ですね。

 

そのほか参考

en.wikipedia.org

 

www.businessinsider.jp