400.000 φωνές στο πρόγραμμα αναγνώρισης ομιλίας του Mozilla

Διάφορα συστήματα τεχνητής νοημοσύνης, όπως της Google, εκπαιδεύονται στην αναγνώριση ομιλίας χρησιμοποιώντας δεδομένα των χρηστών

Η Mozilla σχεδίασε ένα σύστημα αναγνώρισης ομιλίας ανοιχτού κώδικα, το οποίο βασίζεται σε δείγματα ομιλίας που έχουν δώσει εθελοντές.

Η κατασκευάστρια εταιρία του δημοφιλούς browser, Firefox, μέσω του Common Voice στοχεύει στη συλλογή των δειγμάτων αυτών, προκειμένου να εκπαιδεύσει μια νέα εφαρμογή ανοιχτού κώδικα για την αναγνώριση της ομιλίας.

Τώρα, ο κάθε χρήστης μπορεί να «κατεβάσει» στον υπολογιστή του εκατοντάδες χιλιάδες δείγματα φωνής που έχει ήδη συλλέξει το Ίδρυμα Mozilla. Η συλλογή τους ξεκίνησε πριν λίγους μήνες και μέχρι σήμερα το Common Voice έχει συγκεντρώσει περίπου 400.000 εγγραφές από 20.000 διαφορετικούς ανθρώπους, συνολικά περίπου 500 ώρες ομιλίας.

Διάφορα συστήματα τεχνητής νοημοσύνης, όπως της Google, εκπαιδεύονται στην αναγνώριση ομιλίας χρησιμοποιώντας δεδομένα των χρηστών. Στην περίπτωση του Mozilla, ο μηχανισμός αναγνώρισης της ομιλίας είναι ανοιχτός κώδικας, κάτι που θα επιτρέψει την επαναχρησιμοποίηση αυτής της τεχνολογίας.

Έως πρόσφατα, οι προγραμματιστές, επιχειρήσεις και ερευνητές που ήθελαν να πειραματιστούν και να αναπτύξουν νέες τεχνολογίες φωνής, είχαν πρόσβαση σε μια περιορισμένη συλλογή δεδομένων φωνής. Σύμφωνα με το Αθηναϊκό Πρακτορείο Ειδήσεων, η συλλογή Common Voice είναι ήδη το δεύτερο μεγαλύτερο γνωστό δημόσιο φωνητικό σύνολο δεδομένων, καθώς άνθρωποι σε όλον τον κόσμο προσθέτουν σταδιακά και τη δική τους φωνή (σε πρώτη φάση μόνο στα αγγλικά).

Με τη δημιουργία του νέου δημόσιου συνόλου δεδομένων, το Mozilla Foundation συμβάλλει να ξεπερασθούν τα εμπόδια και να διευκολυνθεί η ανάπτυξη καλύτερων συστημάτων αναγνώρισης ομιλίας. Μελλοντικά, μάλιστα, σκοπεύει να υποστηρίξει και άλλες γλώσσες εκτός από την αγγλική.

Μπορεί κανείς να «κατεβάσει» με ελεύθερη άδεια «κοινού κτήματος» την πρώτη έκδοση της φωνητικής συλλογής Common Voice με ένα κλικ ΕΔΩ.