• πανό

OpenAI Point E: Δημιουργήστε ένα τρισδιάστατο νέφος σημείων από σύνθετες κυματομορφές μέσα σε λίγα λεπτά σε μία μόνο GPU

Σε ένα νέο άρθρο Point-E: Ένα σύστημα για τη δημιουργία νεφών 3D σημείων από σύνθετα σήματα, η ερευνητική ομάδα OpenAI παρουσιάζει το Point E, ένα σύστημα σύνθεσης κειμένου υπό όρους 3D σημείου σύννεφου που χρησιμοποιεί μοντέλα διάχυσης για τη δημιουργία ποικίλων και πολύπλοκων τρισδιάστατων σχημάτων που οδηγούνται από πολύπλοκο κείμενο συνθήματα.σε λίγα λεπτά σε μία μόνο GPU.
Η εκπληκτική απόδοση των σημερινών μοντέλων δημιουργίας εικόνας τελευταίας τεχνολογίας έχει τονώσει την έρευνα για τη δημιουργία αντικειμένων τρισδιάστατου κειμένου.Ωστόσο, σε αντίθεση με τα μοντέλα 2D, τα οποία μπορούν να παράγουν έξοδο σε λεπτά ή και δευτερόλεπτα, τα μοντέλα δημιουργίας αντικειμένων απαιτούν συνήθως αρκετές ώρες εργασίας GPU για τη δημιουργία ενός μόνο δείγματος.
Σε ένα νέο άρθρο Point-E: Ένα σύστημα για τη δημιουργία νεφών 3D σημείων από πολύπλοκα σήματα, η ερευνητική ομάδα OpenAI παρουσιάζει το Point·E, ένα σύστημα σύνθεσης υπό όρους κειμένου για σύννεφα 3D σημείων.Αυτή η νέα προσέγγιση χρησιμοποιεί ένα μοντέλο διάδοσης για τη δημιουργία ποικίλων και πολύπλοκων τρισδιάστατων σχημάτων από πολύπλοκα σήματα κειμένου σε μόλις ένα ή δύο λεπτά σε μια ενιαία GPU.
Η ομάδα επικεντρώνεται στην πρόκληση της μετατροπής κειμένου σε 3D, η οποία είναι κρίσιμη για τον εκδημοκρατισμό της δημιουργίας τρισδιάστατου περιεχομένου για εφαρμογές πραγματικού κόσμου που κυμαίνονται από την εικονική πραγματικότητα και τα παιχνίδια μέχρι το βιομηχανικό σχέδιο.Οι υπάρχουσες μέθοδοι για τη μετατροπή κειμένου σε 3D εμπίπτουν σε δύο κατηγορίες, καθεμία από τις οποίες έχει τα μειονεκτήματά της: 1) τα παραγωγικά μοντέλα μπορούν να χρησιμοποιηθούν για την αποτελεσματική παραγωγή δειγμάτων, αλλά δεν μπορούν να κλιμακωθούν αποτελεσματικά για διαφορετικά και πολύπλοκα σήματα κειμένου.2) ένα προεκπαιδευμένο μοντέλο κειμένου-εικόνας για το χειρισμό σύνθετων και ποικίλων ενδείξεων κειμένου, αλλά αυτή η προσέγγιση είναι υπολογιστικά εντατική και το μοντέλο μπορεί εύκολα να κολλήσει σε τοπικά ελάχιστα που δεν αντιστοιχούν σε ουσιαστικά ή συνεκτικά τρισδιάστατα αντικείμενα.
Ως εκ τούτου, η ομάδα διερεύνησε μια εναλλακτική προσέγγιση που στοχεύει να συνδυάσει τα δυνατά σημεία των δύο παραπάνω προσεγγίσεων, χρησιμοποιώντας ένα μοντέλο διάχυσης κειμένου σε εικόνα εκπαιδευμένο σε ένα μεγάλο σύνολο ζευγών κειμένου-εικόνας (που του επιτρέπει να χειρίζεται διαφορετικά και πολύπλοκα σήματα) και ένα μοντέλο διάχυσης 3D εικόνας εκπαιδευμένο σε μικρότερο σύνολο ζευγών κειμένου-εικόνας.σύνολο δεδομένων ζεύγους εικόνας-3D.Το μοντέλο κειμένου σε εικόνα λαμβάνει πρώτα δείγματα της εικόνας εισόδου για να δημιουργήσει μια ενιαία συνθετική αναπαράσταση και το μοντέλο εικόνας σε 3D δημιουργεί ένα τρισδιάστατο νέφος σημείων με βάση την επιλεγμένη εικόνα.
Η γενετική στοίβα της εντολής βασίζεται σε πρόσφατα προτεινόμενα πλαίσια δημιουργίας για την υπό όρους δημιουργία εικόνων από κείμενο (Sohl-Dickstein et al., 2015; Song & Ermon, 2020b; Ho et al., 2020).Χρησιμοποιούν ένα μοντέλο GLIDE με 3 δισεκατομμύρια παραμέτρους GLIDE (Nichol et al., 2021), τελειοποιημένα σε μοντέλα 3D, ως μοντέλο μετασχηματισμού κειμένου σε εικόνα, και ένα σύνολο μοντέλων διάχυσης που δημιουργούν σύννεφα σημείων RGB ως μοντέλο μετασχηματισμού.εικόνες σε εικόνα.τρισδιάστατα μοντέλα.
Ενώ οι προηγούμενες εργασίες χρησιμοποιούσαν τρισδιάστατες αρχιτεκτονικές για την επεξεργασία νέφους σημείων, οι ερευνητές χρησιμοποίησαν ένα απλό μοντέλο βασισμένο σε μετατροπέα (Vaswani et al., 2017) για να βελτιώσουν την απόδοση.Στην αρχιτεκτονική μοντέλων διάχυσης, οι εικόνες σημείων νέφους τροφοδοτούνται πρώτα σε ένα προεκπαιδευμένο μοντέλο ViT-L/14 CLIP και στη συνέχεια τα πλέγματα εξόδου τροφοδοτούνται στον μετατροπέα ως δείκτες.
Στην εμπειρική τους μελέτη, η ομάδα συνέκρινε την προτεινόμενη μέθοδο Point·E με άλλα παραγωγικά τρισδιάστατα μοντέλα για τη βαθμολόγηση σημάτων από ανίχνευση αντικειμένων COCO, τμηματοποίηση και σύνολα δεδομένων υπογραφών.Τα αποτελέσματα επιβεβαιώνουν ότι το Point·E είναι σε θέση να δημιουργήσει διαφορετικά και πολύπλοκα τρισδιάστατα σχήματα από πολύπλοκα σήματα κειμένου και να επιταχύνει τον χρόνο συμπερασμάτων κατά μία έως δύο τάξεις μεγέθους.Η ομάδα ελπίζει ότι το έργο τους θα εμπνεύσει περαιτέρω έρευνα στη σύνθεση τρισδιάστατου κειμένου.
Ένα προεκπαιδευμένο μοντέλο διάδοσης νέφους σημείων και κώδικας αξιολόγησης είναι διαθέσιμα στο GitHub του έργου.Document Point-E: Ένα σύστημα για τη δημιουργία τρισδιάστατων σύννεφων σημείων από σύνθετες ενδείξεις βρίσκεται στο arXiv.
Γνωρίζουμε ότι δεν θέλετε να χάσετε καμία είδηση ​​ή επιστημονική ανακάλυψη.Εγγραφείτε στο δημοφιλές μας ενημερωτικό δελτίο Synced Global AI Weekly για να λαμβάνετε εβδομαδιαίες ενημερώσεις AI.


Ώρα δημοσίευσης: Δεκ-28-2022