6 millones de palabras con los títulos de artículos de Wikipedia

Por alguna extraña razón algunas veces puede que necesitemos un buen listado de palabras y estas pueden perfectamente venir de los títulos de artículos de wikipedia.
Es una forma de generar un diccionario que pueda servirnos para cosas.

$ wget -q "http://dumps.wikimedia.org/enwiktionary/latest/enwiktionary-latest-all-titles.gz" -O titles.gz
$ gzip -d titles.gz
$ cat titles | cut -f 2 > words.txt 

Deja un comentario