Un N-grammo significa una sequenza di N parole. Quindi, ad esempio, "blog medio" è un 2 grammi (un bigramma), "un post sul blog medio" è un 4 grammi e "Scrivi su un supporto" è un 3 grammi (trigramma). Beh, non è stato molto interessante o eccitante.
Qual è la dimensione n-grammo??
Nei campi della linguistica computazionale e della probabilità, un n-grammo è una sequenza contigua di n elementi da un dato campione di testo o discorso. ... Usando i prefissi numerici latini, un n-grammo di dimensione 1 viene chiamato "unigramma"; la dimensione 2 è un "bigramma" (o, meno comunemente, un "digramma"); la taglia 3 è un "trigramma".
Che cosa sono i vettori di n-grammi??
Gli n-grammi sono usati per descrivere gli oggetti come vettori. ... Ad esempio, uno degli usi più comuni è definire una misura di similarità tra documenti testuali basata sull'applicazione di una funzione matematica alle rappresentazioni vettoriali dei documenti.
Cosa sono i caratteri n-grammi??
Gli n-grammi di caratteri si trovano nei documenti di testo rappresentando il documento come una sequenza di caratteri. Questi n-grammi vengono quindi estratti da questa sequenza e viene addestrato un modello. Esistono diversi modelli per questo, ma uno standard è molto simile al modello bag-of-words che abbiamo usato in precedenza.