Che cosa è un discorso Corpus?

Un corpus discorso, noto anche come un corpus parlato, è una raccolta di interventi conservati in formato audio o testo. Queste collezioni sono utili per lo sviluppo di software di sintesi vocale e nella conduzione di studi linguistici. Le due varietà di discorso corpus sono parlato spontaneo e discorso letto.

E 'importante definire ciò che le parole "discorso" e "corpus" significa. Discorso comprende collezioni di pensieri e di fatti, di solito in una forma parlata. Si può anche visualizzare qualsiasi espressione parlato come discorso. Un corpus, a sua volta, fa riferimento a una raccolta formale delle varie informazioni.

Gli utenti in genere creano un corpus discorso via sia registrazioni audio o trascrizioni testuali. Le registrazioni possono essere effettuate tramite tecnologie di stoccaggio del suono e conservati - spesso come file MP3 in banche dati elettroniche - per creare un corpus. Una trascrizione, invece, converte discorso parlato in forma scritta, che viene poi compilato con altri trascrizioni.

Qualsiasi tipo di discorso può essere trovato in un corpus discorso, ma tali banche dati sono generalmente divisi in due categorie. Il primo, il discorso spontaneo, contiene discorsi non formalizzati una persona potrebbe dare, come quelle che si trovano nelle conversazioni o in orale racconto. Leggi discorsi, tuttavia, hanno una struttura più formale e pre-programmato. Esempi possono includere discorsi politici, notiziari, e letture di libri audio. Alcune varietà possono essere dipendenti dal contesto specifico, come interviste.

Uno dei principali vantaggi di strumenti discorso corpus è la loro utilità pratica per aiutare a creare software basato vocale. Ad esempio, molti computer e altri dispositivi elettronici presenti riconoscimento vocale presenta come opzione, come la lettura del testo digitato indietro, trasformando le parole pronunciate in testo, o identificare un altoparlante da tratti vocali uniche. Estrazioni di un corpus discorso potrebbe aiutare a migliorare questa tecnologia applicando gruppi basati matematicamente statistiche chiamati modelli acustici per ogni singolo suono. Inoltre, i database possono aiutare con lo sviluppo di apprendimento linguistico nastri audio.

Queste funzioni legano con un'altra applicazione per un corpus discorso. Vale a dire, gli studiosi possono prendere questi file scritti audio conservato o e studiare le sottili variazioni grammaticali che costituiscono il linguaggio. Pertanto, un corpus discorso può servire come un valido strumento per conoscere la pronuncia, l'ordine delle parole, e altri modelli linguistici. I ricercatori possono ulteriormente confrontare le somiglianze e le differenze nei vari dialetti e lingue regionali, se si crea una collezione con più lingue, o di un corpus multilingue. La valutazione di corpora coinvolgono discorso è un concentrato di ricerca specializzati noto come la linguistica dei corpora, e la sua attuazione computerizzata è chiamato linguistica computazionale.

Molti database trascrizione includono notazioni o tag che contengono informazioni relative ai singoli componenti di un pezzo di testo. Questo processo è chiamato annotazione. Nel processo di astrazione, linguisti documenteranno e tradurre vari termini in un discorso. Tale ingresso può essere utile se un individuo vuole conoscere civiltà sconosciute attraverso testi. La fase finale di studio corpus comprende analisi, comparazioni o derivanti e ideali teorici da un insieme di componenti vocali.

  • Un trascrittore converte discorso parlato in forma scritta.
  • Un corpus discorso, noto anche come un corpus parlato, è una raccolta di interventi conservati in formato audio o testo.