SpiderLing

Arbeitssprache: Englisch
Verfügbarkeit: als Download
Hersteller: NLP Center in Kooperation mit Lexical Computing
Registrierung: nicht erforderlich
Kosten: kostenfrei

SpiderLing, sammelt die Texte von Webseiten, die für die Erstellung von Textkorpora nützlich sind. SpiderLing kann so konfiguriert werden, dass informationsarten die nicht für Textkorpora geeignet sind, ignoriert werden. Andererseits lädt es auch Texte von inhaltsarmen Webseiten. Dies macht das Web-Harvesting effizienter, da das Ziel darin besteht, die Anzahl der Wörter im endgültigen Textkorpus zu maximieren. Mit SpiderLing wurden bereits Textkorpora in verschiedenen Sprachen zusammengestellt, die Milliarden von Wörtern enthalten.

Link: http://corpus.tools/wiki/SpiderLing