Αν σας δοθεί μία περιγραφή που σας ζητά να σχεδιάσετε ένα πουλί με κίτρινο σώμα, μαύρα φτερά και ένα μικρό ράμφος, πιθανότατα θα αρχίσετε πρώτα με το περίγραμμα του πουλιού και στη συνέχεια, συμβουλευόμενοι την περιγραφή, θα χρησιμοποιούσατε τους μαρκαδόρους με τα ανάλογα χρώματα για να γεμίσετε το σχέδιο. Το ίδιο μπορεί να κάνει και το νέο μοντέλο τεχνητής νοημοσύνης (AI) της Microsoft, το AttnGAN  (Attentional Generative Adversarial Network) το οποίο συγχωνεύει την επεξεργασία της ανθρώπινης γλώσσας και την “όραση” του υπολογιστή.

Ενώ το bot μπορεί να παράγει συστατικά που βασίζονται σε περιγραφές κειμένου, πρέπει να ‘φανταστεί’ όλα τα άλλα κομμάτια που λείπουν από την εικόνα. Αν πείτε στο bot να σχεδιάσει ένα κίτρινο πουλί με μαύρα φτερά, έχει τέσσερις περιγραφείς, αλλά πρέπει να τραβήξει τα υπόλοιπα μέρη από τα δεδομένα που έχει αποκτήσει από προηγούμενα σχέδια, φωτογραφίες και άλλα.

«Όπως οι άνθρωποι τραβούν, επανειλημμένα αναφερόμαστε στο κείμενο και δίνουμε ιδιαίτερη προσοχή στις λέξεις που περιγράφουν την περιοχή της εικόνας που σχεδιάζουμε, έτσι και το AttnGAN διαιρώντας το κείμενο εισαγωγής σε μεμονωμένες λέξεις και ταιριάζει αυτές τις λέξεις σε συγκεκριμένες περιοχές της εικόνας», λέει η εταιρεία. «Η προσοχή είναι μια ανθρώπινη ιδέα. χρησιμοποιούμε μαθηματικά για να την μετατρέψουμε σε προσοχή του υπολογιστή», εξήγησε ο Xiaodong He, ένας απο τους ερευνητές του AttnGAN.

Μπορείτε να διαβάσετε την ερευνητική εργασία της Microsoft που περιγράφει το AttnGAN της εδώ.

Πηγή: DesignTaxi Microsoft