Google Gemini Live: Μια στιγμή προσγείωσης στη Σελήνη για AI σε smartphone;

0
13
© Google, Supamotionstock.com/Shutterstock

Η Google ανακοίνωσε σήμερα τέσσερα νέα smartphone από τη σειρά Pixel 9, ένα νέο Pixel Watch σε δύο μεγέθη για πρώτη φορά και νέα Pixel Buds. Ενώ το υλικό ακούγεται σαν ένα πλήρες βραδινό πρόγραμμα, το πραγματικό αστέρι είναι εντελώς διαφορετικό: Gemini—και ειδικά Gemini Live. Είναι αυτή η στιγμή προσγείωσης σε φεγγάρι για την τεχνητή νοημοσύνη;

Τι είναι το Gemini—και πόσο μακριά μπορεί να φτάσει;

Ας κάνουμε ένα βήμα πίσω: Η Google συγκεντρώνει έναν κάπως συγκεχυμένο αριθμό διαφορετικών πραγμάτων κάτω από την ομπρέλα των Διδύμων. Από τη μία πλευρά, υπάρχουν τα γενετικά μοντέλα AI Gemini Nano, Gemini Flash, Gemini Pro και Gemini Ultra. Αυτά τα μοντέλα προχωρούν σε αύξουσες εκδόσεις. το πιο ισχυρό μοντέλο είναι αυτή τη στιγμή το “Gemini 1.5 Pro”, το οποίο ξεπερνά τον ανταγωνισμό από την OpenAI & Co. σε διάφορα σημεία αναφοράς AI.

Ωστόσο, το Gemini αποκαλείται επίσης το chatbot της Google, παλαιότερα γνωστό ως Bard, από τις αρχές του 2024. Και αυτό το chatbot αποκτά τώρα μια έκδοση γλώσσας που ονομάζεται “Gemini Live” στο στυλ του θρυλικού Voice Mode του ChatGPT 4o, το οποίο ανακοινώθηκε μια μέρα πριν από το Google I/O, τον Μάιο του 2024. Δεν είναι ακόμα διαθέσιμο ούτε ως ευρεία έκδοση beta, γεγονός που γίνεται πρωτοσέλιδο περισσότερο για ανατριχιαστικές αποτυχίες παρά για μια έκπληξη εμφάνισης.

Παρεμπιπτόντως, ο Δίδυμος αναφέρεται και σε διάφορα μοντέλα συνδρομής. Το “Gemini” από μόνο του είναι η δωρεάν πρόσβαση στο Google AI που ονομάζεται Gemini με βάση το μοντέλο “Gemini Pro”. Ωστόσο, έχετε πρόσβαση μόνο στο προαναφερθέν “Gemini 1.5 Pro” με το μοντέλο συνδρομής “Gemini Advanced” για 19,99 $ ανά μήνα—ή μπορείτε να εγγραφείτε στο Google One AI Premium. Δεν θα ξεκινήσω καν με το Gemini Business σε αυτό το σημείο. Αλλά τώρα στην υποτιθέμενη προσγείωση στο φεγγάρι.

  • Διαβάστε περισσότερα: Google Pixel Watch 3—πόσο μεγάλη είναι η διαφορά με το Watch 2;
Βοηθός Google

Οι τέσσερις πολύχρωμες κουκκίδες του Google Assistant θα είναι σύντομα ιστορία—τώρα έρχεται η «Εποχή των Διδύμων». / © Google

Gemini Live: Το «Αστέρι» του Σόου

Εκτός από τους τριάντα τέσσερις διαφορετικούς Διδύμους, υπάρχει ένα άλλο χαρακτηριστικό με το ίδιο όνομα που δείχνει το δρόμο για τα επόμενα χρόνια: το Gemini Live. Αυτό είναι ένα λεγόμενο μοντέλο συνομιλίας που επιτρέπει φυσικές συνομιλίες – αντί να ανταλλάσσουν απλά φωνητικά μηνύματα με το μοντέλο AI, καθένα από τα οποία μεταγράφεται ως κείμενο ή έξοδος μέσω φωνητικής εξόδου. Η διαφορά στη δυναμική είναι σαν να συγκρίνεις το σκάκι με έναν αγώνα σπριντ.

Στη ζωντανή επίδειξη στην εκδήλωση «Made by Google», η Jenny Blackburn ζήτησε μια διασκεδαστική και εκπαιδευτική δραστηριότητα για την ανιψιά και τους ανιψιούς της στον τομέα της χημείας, συμπεριλαμβανομένης μιας πινελιάς μαγείας. Οι προτάσεις ήταν ένα μαγικό ηφαίστειο, μια σπιτική λάμπα λάβας ή αόρατο μαγικό μελάνι.

Η Τζένη επέλεξε το μαγικό μελάνι, το οποίο κατά τη διάρκεια της συνομιλίας που ακολουθεί εξελίχθηκε σε μελάνι μαύρου φωτός, έλαβε το όνομα του έργου «Secret Message Lab» και τη διαβεβαίωση ότι δεν θα κάνει πολύ χάος όσο πειραματιζόταν.

Λιγότερο από το καθαρό αποτέλεσμα, που θα μπορούσε εύκολα να το ψάξετε στο google, ήταν το ταξίδι που ήταν πραγματικά εντυπωσιακό. Με το Gemini Live, το Διαδίκτυο γίνεται ο συνεργάτης συνομιλίας σας — και στο μέλλον, η δική σας ζωή, η οποία τώρα μπορεί επίσης να αναζητηθεί χρησιμοποιώντας το Gemini AI χάρη σε πολλές νέες δυνατότητες.

Η λειτουργία “Σημειώσεις κλήσεων”, για παράδειγμα, μεταγράφει τις τηλεφωνικές σας κλήσεις μετά από μια υπόδειξη για τον συνομιλητή σας και σας επιτρέπει να τις αναζητήσετε στη συνέχεια. Τα “Pixel Screenshots” μετατρέπουν τη συλλογή στιγμιότυπων οθόνης που έχετε παραμελήσει με υποτιθέμενα σημαντικά πράγματα σε μια βάση δεδομένων προσωπικών σημειώσεων με δυνατότητα αναζήτησης. Και με τις Επεκτάσεις Workspace, μπορείτε να μιλήσετε με το Ημερολόγιο Google καθώς και τα δεδομένα σας από μηνύματα ηλεκτρονικού ταχυδρομείου, εργασίες ή Google Keep.

Το «πρόβλημα»: Το Gemini Live απαιτεί το ισχυρό μοντέλο γλώσσας Gemini 1.5 Pro, το οποίο εκτελείται στο cloud. Εάν χρησιμοποιείτε μοντέλα τεχνητής νοημοσύνης για να εξαγάγετε λεπτομέρειες από το σύμπαν των προσωπικών δεδομένων του Google Workspace, μεταγραφές κ.λπ., τότε αυτό γίνεται μόνο τοπικά — με το Gemini Nano. Ωστόσο, υπάρχει ένα τεράστιο κενό προστασίας δεδομένων με το Gemini 1.5 Pro που βασίζεται σε σύννεφο. Ζητήσαμε από την Google μια δήλωση σχετικά με αυτό και θα ενημερώσουμε το άρθρο μόλις λάβουμε σχόλια.

Επίδειξη του Google Gemini με πρόσβαση σε προσωπικά δεδομένα

Με βάση τη φωτογραφημένη αφίσα της συναυλίας και το ημερολόγιο της Google, ο βοηθός AI Gemini λέει εάν ο χρήστης έχει χρόνο να πάει σε μια συναυλία. / © Google

Ο Δίδυμος και το Κενό Προστασίας Δεδομένων

Ενώ το Gemini, στα λατινικά για το «δίδυμο», σημαίνει στην πραγματικότητα τη συνεργασία μεταξύ των δύο εργαστηρίων τεχνητής νοημοσύνης της Google DeepMind και Brain, το όνομα θα μπορούσε επίσης να θεωρηθεί ως μια ακούσια περιγραφή του χάσματος μεταξύ τοπικού και νέφους.

Σε απλή γλώσσα: Εάν ξεκινήσετε να συνομιλείτε με το Gemini Live στα Αγγλικά στην εφαρμογή Gemini για Android (ναι, φυσικά η εφαρμογή ονομάζεται έτσι), το μοντέλο AI που εκτελείται εδώ δεν έχει πρόσβαση στα προσωπικά σας δεδομένα από το email, το ημερολόγιό σας κ.λπ. Και αυτό είναι απίθανο να αλλάξει όταν το Gemini Live γίνει διαθέσιμο σε άλλες γλώσσες, ακόμη και για iOS τις επόμενες εβδομάδες και μήνες.

Εάν θέλετε να ρωτήσετε τον Δίδυμο εάν μπορείτε να παρακολουθήσετε μια συναυλία με βάση μια φωτογραφία μιας αφίσας, πρέπει να πληκτρολογήσετε το ερώτημά σας όπως στη Λίθινη Εποχή ή να χρησιμοποιήσετε φωνητική εισαγωγή. Επειδή, παρόλο που το τοπικά εκτελούμενο μοντέλο Gemini Nano έχει πρόσβαση στα προσωπικά σας δεδομένα, δεν έχει αρκετή ισχύ για συνομιλίες σε πραγματικό χρόνο.

  • Επίσης ενδιαφέρον: Google Pixel 9, Pixel 9 Pro (XL) και Pixel 9 Pro Fold σε σύγκριση
Λειτουργίες Google Tensor G4 και AI

Το τσιπ Google Tensor G4 της νέας σειράς Pixel 9 έχει αρκετή ισχύ για να τρέξει το μοντέλο Gemini Nano AI στη συσκευή. / © Google

Είναι το Gemini Live the Moon Προσεδάφιση στον “AI Race”;

Στον διαστημικό αγώνα των δεκαετιών του ’60 και του ’70, η NASA είχε ένα διαστημικό πρόγραμμα με το όνομα “Gemini”, το οποίο άνοιξε το δρόμο για την πρώτη προσγείωση σε φεγγάρι το 1969 με το επόμενο πρόγραμμα Apollo. Σύμπτωση; Δύσκολα, επειδή στις δέκα φωνές που ήταν διαθέσιμες για το Gemini Live κατά την κυκλοφορία τους δόθηκαν αγγλόφωνα ονόματα για αστερισμούς: Vega, Dipper, Ursa & Co.

Έτσι, ενώ η Google προσεγγίζει τα αστέρια και έχει επίσης έναν πρώην μηχανικό της NASA στη σκηνή στο μετά το πάρτι της, εξακολουθεί να λείπει ένα κομμάτι από την προσγείωση στο φεγγάρι. Η προσεκτικά σφυρηλατημένη σύνδεση μεταξύ των πιο ιδιωτικών δεδομένων χρήστη στα τοπικά εκτελούμενα μοντέλα Gemini και των ισχυρών μοντέλων cloud που επιτρέπουν συνομιλίες με φυσική εμφάνιση.

Η Google έχει ήδη ανακοινώσει το επόμενο βήμα με το Project Απόλλων Astra: Εδώ, στο Gemini Live θα δοθεί πρόσβαση στην κάμερα όπως φαίνεται ήδη στο Google I/O και στη συνέχεια θα ενσωματωθούν σταδιακά εφαρμογές όπως το Ημερολόγιο Google.