BootCat: Programa que permite a criação de corpora, ou seja, ele automatiza o processo de encontrar textos de referência na web e agrupá-los em um único corpus. É uma ferramenta de grande serventia para quem trabalha com linguagens especializadas e terminologia, pois geralmente nessas áreas, em que neologismos e novos termos são introduzidos em ritmo acelerado, os corpora de referência padrão precisam ser complementados. Disponível para download.

 

WebCorp: É uma ferramenta de criação e exploração de corpora a partir do rastreamento e da extração de conteúdo textual de páginas da web. As análises pós-pesquisa são possíveis, incluindo séries temporais, tabelas de colocação, classificação e resumos de metadados das páginas correspondentes. 

 

XPDF: É programa de código aberto que permite a conversão automática de arquivos em formatos “doc”, “html” e “pdf” para “txt”