Introduzione
Siamo stati incaricati di supportare un progetto multilingue per il miglioramento dei sistemi speech-to-text, attraverso la raccolta di messaggi SMS realistici e contestualizzati. L’obiettivo era fornire ai modelli di traduzione automatica dati autentici e diversificati, in grado di riflettere il linguaggio quotidiano degli utenti. La sfida principale consisteva nel generare contenuti coerenti, credibili e aderenti agli scenari proposti, mantenendo coerenza linguistica e qualità in più lingue.
Soluzione e vantaggi
- Creazione di messaggi SMS realistici da parte di utenti madrelingua
- Utilizzo di scenari e contesti forniti dal cliente per simulare conversazioni quotidiane
- Invio di SMS ex-novo oppure risposte a messaggi predefiniti, per ricreare dinamiche reali
- Garanzia di varietà linguistica e semantica nei contenuti generati
- Controllo sul rispetto dei vincoli: 40 caratteri minimi e massimo di 30 parole per messaggio
- Raccolta di dati autentici, fondamentali per addestrare sistemi speech-to-text più precisi e naturali
Risultati e conclusioni
- Progetto completato in poco più di due mesi
- Coinvolgimento di 4 lingue con volumi significativi di dati raccolti
- Contributo concreto al miglioramento dei sistemi di riconoscimento vocale e traduzione automatica basati su dati reali