Pubblichiamo online (qui il pdf) l’elenco alfabetico dei circa settemila vocaboli del Nuovo vocabolario di base della lingua italiana (in sigla NVdB). La prima versione del vocabolario di base fu pubblicata come appendice in un libro che ha avuto una certa fortuna editoriale (T.De Mauro, Guida all’uso delle parole, n.3 dei “Libri di base”, 1a edizione, Editori Riuniti, Roma 1980, pagine 149-183).

A trenta e più anni di distanza la nuova versione è fondata su un rinnovato, aggiornato e ampliato campionamento di testi e sulla miglior classificazione delle parole risultante dal Gradit (Grande dizionario italiano della lingua dell’uso, 2a edizione, 8 volumi, Utet, Torino 2007) e dal dizionario online di Internazionale.

Alla nuova versione hanno lavorato Isabella Chiari e Tullio De Mauro e ha collaborato alla redazione anche Francesca Ferrucci. A chi ha usato e conosce il vecchio vocabolario di base della lingua italiana sono dedicate alcune notizie su ciò che differenzia la nuova versione dalla vecchia. A chi prende visione per la prima volta di un dizionario di frequenza o di un dizionario di base sono dedicati alcuni paragrafi preliminari qui immediatamente seguenti.

Che cos’è il “vocabolario di base”

Il vocabolario di base raccoglie in un insieme unitario due categorie di vocaboli: 1) i vocaboli di maggior uso nei testi di una lingua in un dato momento storico, di cui danno conto i cosiddetti dizionari di frequenza delle varie lingue; 2) i vocaboli che, anche se in realtà poco usati parlando o scrivendo, sono percepiti e sentiti da chi usa una lingua come aventi una disponibilità pari o perfino superiore ai vocaboli di maggior uso. I vocaboli di maggior uso sono ricavati dall’analisi statistica dei testi o di un campione di testi di una lingua. I vocaboli di maggiore disponibilità sono ricavabili soltanto da un’indagine su parlanti viventi al momento dell’indagine.

Mentre possiamo costruire vocabolari di maggior uso per lingue del passato come il greco o il latino d’età classica o l’italiano antico, non possiamo ovviamente interrogare i parlanti di quelle età remote per ricostruire quale era in quelle epoche il vocabolario di maggior disponibilità. L’accertamento di questa parte di vocaboli offre necessariamente dati contemporanei all’indagine stessa. Per avere un buon grado di omogeneità cronologica dell’insieme, l’intero vocabolario di base si fonda su testi e su giudizi di parlanti grosso modo collocati per il possibile in uno stesso torno di anni.

Il vocabolario di base del 1980

Il primo vocabolario di base dell’italiano, d’ora in poi VdB, fu costruito alla fine degli anni settanta del secolo scorso. Come già accenato la lista dei vocaboli fu pubblicata per la prima volta nel 1980 ed è stata poi utilizzata in diverse opere lessicografiche come, in particolare, il Gradit.

La lista del 1980 si fondava: 1) sui dati di frequenza (numero di occorrenze di una parola nelle sue eventuali varie forme coniugate e declinate) e sui dati di uso (vedi oltre) delle parole offerti dal Lif -Lessico di frequenza della lingua italiana contemporanea, pubblicato dalla Ibm a Pisa nel 1970, elaborato nell’ambito del Cnuce di Pisa (Centro universitario di calcolo elettronico) da Uberta Bortolini, Carlo Tagliavini e Alberto Zampolli partendo das un campione di testi scritti lunghi complessivamente 500.000 occorrenze di parole, e 2) sui dati di maggior disponibilità, ricavati da una indagine del 1979-80 su persone adulte dotate di sola licenza media inferiore (all’indagine collaborò la redazione dei “Libri di base”, composta da due allora giovanissimi laureati, Stefano Gensini ed Emilia Passaponti, e guidata da Elisabetta Bonucci, che veniva dalla redazione dell’Unità). Occorre ricordare che i dati di uso del Lif erano ricavati da testi degli anni sessanta ma anche risalenti agli anni cinquanta.

Nel VdB le parole di maggior uso furono presentate distinte in due categorie:

le prime duemila di maggior uso costituivano ciò che anche nei dizionari di frequenza di altre lingue si chiama vocabolario fondamentale: sono i vocaboli di massimo uso che in tutte le lingue da soli tendono a coprire mediamente circa il 90 per cento delle occorrenze di parole in testi e discorsi; le successive tremila del Lif sono di uso grandemente minore rispetto al vocabolario fondamentale, coprendo solo il 4 per cento delle occorrenze, ma di uso enormemente maggiore delle circa 50.000 parole comuni e della restante sterminata massa del lessico; nel VdB le tremila parole del Lif furono filtrate attraverso un test di comprensibilità (curato da Massimo Vedovelli): furono accolte nel VdB solo quelle 2750 comprese da almeno la metà di alunni e alunne di terza media di varie regioni italiane e costituiscono il vocabolario di alto uso.

Il vocabolario di alta disponibilità, infine, includeva circa 2300 parole. L’insieme del VdB elencava dunque circa 7050 parole delle tre categorie: fondamentale, d’alto uso, di alta disponibilità, d’ora in poi, rispettivamente, FO, AU, AD: erano le parole che, all’inizio della seconda metà del Novecento, a chi parlava l’italiano risultavano le più note o per il loro grandissimo uso rispetto al restante vocabolario o perché sentite di pari grandissimo uso dai parlanti.

Il VdB fu accolto con qualche dubbio di principio da alcuni intellettuali, come Beniamino Placido, e da suggerimenti di integrazione dei vocaboli di alta disponibilità (a questi, per esempio, Alberto Arbasino suggerì fiustamente di aggiungere peperone). Nei decenni seguenti è stato variamente utilizzato e così sottoposto a varie prove. È stato ripetutamente usato in dizionari per marcare le sue parole rispetto alle altre. In alcuni dizionari, come nel Gradit e in dizionari di apprendimento o più divulgativi, è stato programmaticamente usato per costruire l’inizio delle definizioni del significato dei lemmi in modo che almeno l’incipit delle definizioni risulti chiaro a un largo insieme di lettori e lettrici, lasciando al seguito della definizione specificazioni che possano richiedere parole di uso più raro e di minore circolazione.

Alcune case editrici, come la Giunti, si sono servite del VdB per orientare al meglio la redazione e comprensibilità di testi per la scuola primaria. Dal 1992, su iniziativa del ministro della funzione pubblica Sabino Cassese, il VdB fu assunto a riferimento del Codice di stile delle comunicazioni dell’amministrazione pubblica e molto lavoro, mai abbastanza, è stato fatto poi in questa direzione. Tra il 1980 e il 1989 gli autori della collana “Libri di base” degli Editori Riuniti e la redazione che ho già ricordato se ne servirono per ottenere che autori e autrci dei centocinquanta volumi pubblicati si servissero per il possibile di parole del vocabolario di base e al vocabolario di base ricorressero sistematicamente per introdurre in modo comprensibile le molte parole estranee al VdB e tuttavia utili alla trattazione dei temi più diversi.

In seguito per alcuni anni presso il dipartimento di scienze del linguaggio della Sapienza Emanuela Piemontese ha pubblicato un mensile di facile lettura, Due parole, che era destinato a persone con difficoltà linguistico-culturali o intellettive e trattava argomenti e notizie di ogni genere servendosi sistematicamente di parole del vocabolario di base. Qualche editore straniero, come Langenscheidt, si è servito del VdB per dizionari bilingui e il VdB è stato adoperato anche per un grande dizionario friulano.

Perché fare un nuovo vocabolario di base

In tutte le lingue sappiamo che i vocaboli di alta frequenza sono la parte del lessico più stabile attraverso il tempo e le generazioni. La decisione di sostituire dopo trent’anni di onorato servizio la vecchia versione del vocabolario di base con una nuovoa è nata dall’ipotesi che i profondi cambiamenti della società italiana tra anni settanta del Novecento e gli anni dieci del nuovo secolo debbano avere lasciato tracce consistenti nell’insieme dei vocaboli di maggior uso e di maggiore disponibilità.

Si pensi ad alcuni dati più direttamente infuenti sull’assetto linguistico. Negli anni della Repubblica gli italiani hanno vissuto trasformazioni radicali come pochi paesi al mondo. Negli anni settanta l’indice di scolarità (numero medio di anni di scuola superati da ultraquattordicenni) era circa 5 (prossimo a quello dei paesi meno sviluppati), oggi è più di 12 (simile a quello dei paesi più sviluppati, mentre è sei o sette per i meno sviluppati).

Gli ultraquttordicenni con licenza media erano il 23 per cento della popolazione, oggi sono il 64 per cento. Più della metà della popolazione parlava e capiva soltanto un dialetto, oggi in tale condizione si trova solo il 5 per cento; soltanto il 25 per cento della popolazione parlava sempre e solo italiano, oggi fa così la metà della popolazione; quelli che nel parlare alternavano italiano e dialetto erano poco più d’un quinto, oggi sono quasi metà della popolazione. Il nuovo vocabolario di base registra, come si vedrà, un buon numero di cambiamenti. Sono parecchie centinaia le parole che sono oggi meno usate che in passato e centinaia o meno usate o del tutto nuove entrate a sostituirle nel vocabolario di base. L’ipotesi di partenza si è rivelata non infondata. Si aggiunga che accertare cambiamenti e persistenze su un corpus tanto accresciuto è stato possibile anche grazie a tecnologie di analisi automatica dei testi che mancavano ancora alcuni decenni fa.

Il NVdB-Nuovo vocabolario di base della lingua italiana

Ciò che abbiamo finora chiamato uso è il prodotto della frequenza assoluta delle occorrenze di una parola in un campione di testi di una lingua, divisi in diverse categorie (testi scolastici, testi letterari, copioni cinematografici o teatrali ecc.), moltiplicata per la sua dispersione, cioè per il numero di categorie di testi in cui la parola occorre. La dispersione, cioè la presenza in più categorie diverse di testi, aiuta a correggere distorsioni che potrebbero aversi guardando solo alla frequenza. Per accertare l’uso delle parole il vecchio VdB, partendo dal Lif, si fondò su campioni di testi lunghi complessivamente 500.000 occorrenze di parole raccolti in cinque categorie.

Il NVdB si fonda sullo spoglio elettronico (controllato manualmente) di testi lunghi complessivamente 18,843.459 occorrenze raggruppati in sei categorie di estensione approssimativamente equivalente: stampa (quotidiani e settimanali), saggistica (saggi divulgativi, testi e manuali scolastici e universitari), testi letterari (narrativa, poesia), spettacolo (copioni cinematografici, teatro), comunicazione mediata dal computer (chat ecc.), registrazioni di parlato. I testi sono stati ripuliti mettendo da parte le occorrenze di nomi propri, numeri, simboli, ideogrammi e icone, e sono restate oggetto di analisi soltanto le parole. Le occorrenze di parole sono state lemmatizzate, cioè ricondotte a unità lessicali (vocaboli) presenti come lemmi nel Gradit e sono state lasciate da parte le parole di frequenza minima, al di sopra della quale sono stati individuati 33.000 vocaboli.

La lista che qui si pubblica include le circa duemila parole fondamentali, stampate in neretto tondo, le circa tremila parole di alto uso stampate in tondo chiaro, e le parole di alta disponibilità stampate in corsivo chiaro. Queste ultime, circa 2500, sono state ricavate partendo dalla lista di 2300 parole di alta disponibilità del vecchio VdB e sottoponendola a gruppi di studenti e studentesse universitari per eliminare le parole non più avvertite come di maggior uso e per accogliere invece nuove parole avvertite come di alta disponibilità.

Le parole sono accompagnate dalle qualifiche grammaticali assegnate a esse già nel Gradit e ora nel dizionario di Internazionale. I numeretti in esponente sono gli stessi usati in questi due dizionari per contrassegnare una parola rispetto a eventuali lemmi omografi.

Le duemila parole fondamentali coprono l’86 per cento delle occorrenze, le tremila parole d’alto uso coprono un ulteriore 6 per cento, il restante 8 per cento è occupato da occorrenze delle restanti ventottomila parole incontrate nei testi, tra le quali anche alcune parole di alta disponibilità occasionalmente presenti nel parlato e nello scritto. Le percentuali ora date oscillano a seconda delle categorie di testi del campione, come si vede dalla tabella seguente. Da questa tabella emerge anche il grande dislivello di uso che c’è tra le prime mille parole e le altre parole fondamentali,