GPUのトップベンダー、NVIDIAの年次カンファレンス、GTC 2019がサンノゼにて開催された。9千人の参加者が人工知能、自動運転、レイトレーシングなどについての多数のセッションに参加した。

GPUのマニュファクチャラーというよりも、最近は人工知能や深層学習のプラットフォームとして拡大を続けるNVIDIAの年次カンファレンス、GPU Technology Conference 2019(GTC)がサンノゼで開催された。約9000人の参加者にスタッフ、パートナーを加えて1万人規模のカンファレンスとなった。この記事では、CEOのジェンスン・フアン氏のキーノートと、その前に行われたメディア向けブリーフィングの内容を紹介したい。

CEOによるキーノートは2019年3月18日の14時から17時という設定で、場所はカンファレンスが行われるサンノゼコンベンションセンターではなく、サンノゼ州立大学のイベントセンターという場所で行われた。またメディア向けのブリーフィングは、キーノートに先立って同じくサンノゼ州立大学の校内で開催され、各部門の責任者が最新のリサーチや研究成果について解説を行うというものだった。

通常であれば初日の朝一もしくは初日の夕刻にキーノートというのが、この手のカンファレンスのよくあるスケジュールである。しかし、ジェンスン・フアン氏のキーノートはプレゼンテーションが延長されるというのが定例らしく、そのため他のセッションに影響を与えない午後の時間、という設定になったようだ。実際にキーノートはパワフルに喋りまくるフアン氏の独壇場となり、大幅に延長された。以前、日本で行われたNVIDIAのカンファレンスでもキーノートは30分以上延長され、結果的にその後のセッションが全て30分遅れて開始されたということを実体験しているので、ここは想定内であった。

今回のキーノートの動画は、以下のサイトから閲覧できる。

NVIDIA GTC 2019キーノート:https://www.ustream.tv/gpu-technology-conference

キーノートに登壇したジェンスン・フアン氏

キーノートの直前に行われたメディア向けのブリーフィングでは、人工知能、High Performance Computing、自動運転などの部門の責任者が集い、それぞれの分野の研究内容について最新の情報をアップデートした。その中でも特に注目されたのは、機械学習を応用した画像合成システム、GauGANだ。

これはGAN(Generative Adversarial Network、敵対的生成ネットワーク)と呼ばれるニューラルネットワークのアルゴリズムを用いた画像合成のツールだ。GANそのものについては、2017年のGTCのキーノートでフアン氏が「Big Bang of AI」の例として短く紹介を行っている。

Generative Adversarial Network とは トップ研究者が解説

またUCバークレイとAdobeが共同で行ったGANを用いた画像変形/合成に関する研究の論文が2016年に発表されているが、GauGANはそれをより洗練したもの、という捉え方が妥当なようだ。このリサーチにはNVIDIAもハードウェアの提供という形で関わっており、GauGANはその延長ということだろう。

GauGANによる画像生成に関しては、2016年に発表されたこの動画がもっとも近いと思われる。

Image Editing with Generative Adversarial Networks | Two Minute Papers #101

この動画では靴やシャツの画像をインタラクティブに変形させるデモを行っているが、そこにGANを使って一番近い画像を元に変形させることで、自然な形で実行されることが紹介されている。GauGANも同じように白いカンバスにクレヨンで色を塗るように操作するとその色に対応した画像の要素(草原や雲、雪、水面、樹木)などが生成されて、合成されるというものだ。

GauGANのインターフェース

このデモでは左側のスペースにマウスを使って簡単に塗り絵を行うことで画像を生成する。この例ではCloudを下半分に塗り、上半分にはSkyを塗った結果として雲の上に青空が配置された画像が生成されている。合成に必要なデータである画像は、著作権の問題がないものを使って学習しているという。

草原、山、雲、樹木を塗り絵のように生成

このデモの後のQ&Aで「このようにリアリスティックな画像が瞬時に生成できることを悪用すると、現在問題になっているようなフェイクニュースなどに使われてしまうのではないか?」という質問があった。そしてそれに対する答えは「NVIDIAは25年もコンピュータグラフィックスに取り組んでいる企業であり、CGによって得られた効果や利益は莫大なものであることを知っている。しかしコンピュータは常に悪用される危険があるし、それは25年前から変わらない。これについては一企業でなんとかできるものではないし、業界として取り組む必要があると考えている」というものだった。

この問題はCGだけに限らず、音声合成でも同じ問題を孕んでいる。例えばAdobeが2016年のAdobe Maxで紹介したVocoが挙げられる。これは、20分程度のスピーチデータからどんなテキストも同じ音声で再生できる人工知能を応用したデモだ。

参考:Voco on Adobe Max 2016

なお、GauGANは以前のモデルより進化しており、多くのパターン(ここでは「ボキャブラリー」と称している)をより少ないパラメータで生成できるという。

GauGANの進化

なお土台となったリサーチに関しては、以下のリンクから参照されたい。

Generative Visual Manipulation on the Natural Image Manifold

キーノートセッションは、ジェンスン・フアン氏が機関銃のように喋り倒すというスタイルであったが、GPUのライブラリーであるCUDAをCUDA-Xとして統一的なブランドネームを与えたこと、そしてそれが無償、かつコンテナイメージとして提供されること、モデルに関しても無償で公開されること、自動運転などの実装のためのエッジプラットフォームとしてJetson Nanoが発表されたこと、などがハイライトであった。

CUDA-Xを紹介するフアン氏

以前のフアン氏のキャッチフレーズであった「More you buy, More you save」は今年も語られており、NVIDIAのソリューションが多くのユースケースで経済的に有利な選択であるという主張は、今回のJetson Nanoの発表でも同様であった。実際、Jetson Nanoのデベロッパー向けKitは99ドルという安さだ。

展示会場には多くの自動運転の装置を装備した車輌が展示されており、かつて日経BPから「謎の半導体メーカー」と称されたNVIDIAであったが、着実に産業界に利用を拡大していることが分かる。