Common Voiceprojekt crowdsourcingowy zapoczątkowany przez Mozillę mający na celu stworzenia bezpłatnej bazy danych dla oprogramowań do rozpoznawania mowy. Projekt wspierają wolontariusze, którzy nagrywają próbki głosu i sprawdzają nagrania innych użytkowników. Transkrybowane próbki są gromadzone w bazie danych dostępnej na licencji publicznej CC0. Ta licencja zapewnia programistom możliwość korzystania z bazy danych bez ograniczeń i kosztów. Istnieje też nieoficjalna aplikacja na system Android.

Common Voice
Ilustracja
Typ strony

Zbiór danych mowy

Komercyjna

Nie

Data powstania

19 czerwca 2017[1]

Właściciel

Fundacja Mozilla

Rejestracja

Opcjonalna

Wersje językowe

Wiele języków, w tym język polski (Lista języków)

Strona internetowa

Cele edytuj

Common Voice ma na celu zapewnienie różnorodnych próbek głosu. Według Kathariny Borchert wiele projektów pobierało zbiory danych z radia lub zbiory danych, które niedostatecznie reprezentowały zarówno kobiety, jak i osoby z wyraźnym akcentem. Common Voice ma na celu rozwiązać te problemy[2].

Baza danych edytuj

Do czasu opublikowania pierwszego zbioru danych 29 listopada 2017, ponad 20 000 użytkowników nagrało i sprawdziło 400 000 zdań, o łącznej długości 500 godzin[3].

Łącznie nagrano 9283 godzin próbek i sprawdzono 7335 godzin próbek w 60 językach, w tym 108 godzin nagrań w języku polskim (stan na 26 marca 2021)[4].

Bibliografia edytuj

  1. Daniel Kessler, Raising Our Common Voice For The Web – Internet Citizen [online], The Mozilla Blog, 19 czerwca 2017 [dostęp 2021-03-26] (ang.).
  2. Why do we gender AI? Voice tech firms move to be more inclusive [online], the Guardian, 11 stycznia 2020 [dostęp 2021-03-26] (ang.).
  3. Sean White, Announcing the Initial Release of Mozilla’s Open Source Speech Recognition Model and Voice Dataset [online], The Mozilla Blog [dostęp 2021-03-26] (ang.).
  4. Common Voice by Mozilla [online], commonvoice.mozilla.org [dostęp 2021-03-26] (ang.).