Novinky – OpenAI Point E: Vytvořte 3D mračno bodů ze složitých křivek během několika minut na jediném GPU

V novém článku Point-E: Systém pro generování 3D mračen bodů z komplexních signálů představuje výzkumný tým OpenAI Point E, systém podmíněné syntézy textu 3D mračna bodů, který využívá modely difúze k vytváření různých a složitých 3D tvarů poháněných složitým textem. narážky.během několika minut na jediném GPU.
Úžasný výkon dnešních nejmodernějších modelů generování obrázků podnítil výzkum v oblasti generování 3D textových objektů.Na rozdíl od 2D modelů, které mohou generovat výstup během minut nebo dokonce sekund, modely pro generování objektů obvykle vyžadují několik hodin práce GPU k vytvoření jednoho vzorku.
V novém článku Point-E: Systém pro generování 3D mračen bodů z komplexních signálů představuje výzkumný tým OpenAI Point·E, systém textové podmíněné syntézy pro 3D mračna bodů.Tento nový přístup využívá model šíření k vytvoření různých a složitých 3D tvarů ze složitých textových signálů za pouhou minutu nebo dvě na jediném GPU.
Tým se zaměřuje na výzvu převodu textu do 3D, což je zásadní pro demokratizaci tvorby 3D obsahu pro aplikace v reálném světě, od virtuální reality a her až po průmyslový design.Stávající metody pro převod textu do 3D spadají do dvou kategorií, z nichž každá má své nevýhody: 1) generativní modely lze použít k efektivnímu generování vzorků, ale nemohou efektivně škálovat pro různé a složité textové signály;2) předem připravený textový obrazový model pro zpracování složitých a různorodých textových narážek, ale tento přístup je výpočetně náročný a model se může snadno zaseknout v místních minimech, která neodpovídají smysluplným nebo koherentním 3D objektům.
Proto tým prozkoumal alternativní přístup, který má za cíl spojit silné stránky výše uvedených dvou přístupů, pomocí modelu difúze text-to-image trénovaného na velké sadě párů text-obrázek (což mu umožňuje zpracovávat různé a složité signály) a 3D model difúze obrazu natrénovaný na menší sadě párů text-obrázek.datová sada obraz-3D pár.Model typu text-to-image nejprve navzorkuje vstupní obraz, aby se vytvořila jediná syntetická reprezentace, a model typu image-to-3D vytvoří 3D mračno bodů na základě vybraného obrazu.
Generativní zásobník příkazu je založen na nedávno navržených generativních rámcích pro podmíněné generování obrázků z textu (Sohl-Dickstein et al., 2015; Song & Ermon, 2020b; Ho et al., 2020).Používají model GLIDE s 3 miliardami parametrů GLIDE (Nichol et al., 2021), doladěný na vykreslených 3D modelech, jako svůj model transformace textu na obrázek a sadu difúzních modelů, které generují mračna bodů RGB. transformační model.obrázky k obrázku.3D modely.
Zatímco předchozí práce používaly 3D architektury ke zpracování mračen bodů, výzkumníci použili jednoduchý model založený na převodníku (Vaswani et al., 2017) ke zlepšení účinnosti.V architektuře jejich difúzního modelu jsou obrazy mračna bodů nejprve vloženy do předem trénovaného modelu ViT-L/14 CLIP a poté jsou výstupní sítě přiváděny do převodníku jako značky.
Ve své empirické studii tým porovnal navrhovanou metodu Point·E s jinými generativními 3D modely na skórování signálů z detekce objektů COCO, segmentace a datových sad signatur.Výsledky potvrzují, že Point·E je schopen generovat různorodé a složité 3D tvary ze složitých textových signálů a urychlit čas odvození o jeden až dva řády.Tým doufá, že jejich práce bude inspirací pro další výzkum 3D syntézy textu.
Předtrénovaný model šíření mračna bodů a vyhodnocovací kód jsou k dispozici na GitHubu projektu.Document Point-E: Systém pro vytváření 3D mračen bodů ze složitých vodítek je na arXiv.
Víme, že nechcete nechat ujít žádnou novinku nebo vědecký objev.Přihlaste se k odběru našeho oblíbeného zpravodaje Synced Global AI Weekly a získejte týdenní aktualizace AI.

Čas odeslání: 28. prosince 2022