
Text- und Datamining

Was ist Text- und Data Mining
Allgemeine Erklärung, z.B.
Text Mining, seltener auch Textmining, Text Data Mining oder Textual Data Mining, ist ein Bündel von Algorithmus-basierten Analyseverfahren zur Entdeckung von Bedeutungsstrukturen aus un- oder schwachstrukturierten Textdaten. Mit statistischen und linguistischen Mitteln erschließt Text-Mining-Software aus Texten Strukturen, die die Benutzer in die Lage versetzen sollen, Kerninformationen der verarbeiteten Texte schnell zu erkennen. Im Optimalfall liefern Text-Mining-Systeme Informationen, von denen die Benutzer zuvor nicht wissen, ob und dass sie in den verarbeiteten Texten enthalten sind. Bei zielgerichteter Anwendung sind Werkzeuge des Text Mining außerdem in der Lage, Hypothesen zu generieren, diese zu überprüfen und schrittweise zu verfeinern.
Das MINE-Projekt
MINE - Text Mining Service für digitale Ressourcen
Das MINE-Projekt entwickelt eine Serviceinfrastruktur für Text- und Data-Mining (TDM), die nach Projektende in einen Campus-Dienst überführt wird.
Das Ziel besteht darin, den Forschenden und den digitalen Services einen einfachen und direkten Zugang zu TDM-Werkzeugen und Text-Ressourcen zu bieten. MINE ermöglicht nicht nur die Suche nach den bereits vorhandenen Daten und Metadaten, sondern reichert die Metadaten auch mit vorbereiteten TDM-Tools an. Die angereicherten Ergebnisse werden in einem Wissensgraphen gespeichert, der neue und einzigartige Möglichkeiten zur Untersuchung der verfügbaren Ressourcen bietet.
Derzeit bietet der Service die Suche in ca. 7 Millionen Datensätzen aus verschiedenen Datenquellen an, die in einem normalisierten Datenmodell zusammengefasst werden. Die in der Entwicklung befindliche technische Infrastruktur wird ständig um neue Werkzeuge und weitere Textressourcen erweitert.
Sie erreichen den Prototypen unter https://mine-graph.de/. Einige Funktionen sind nur auf dem Göttingen Campus verfügbar.
MINE stellt verschiedene REST-Endpunkte zur Verfügung, die andere Systeme nutzen können. Es gibt eine Python-Client-Bibliothek und ein Orange Widget, um Textressourcen in eigene Pipelines oder Tools einzubinden. Falls Sie weitere Fragen haben oder vollen Zugang erhalten möchten, kontaktieren Sie uns bitte per E-Mail.
MINE entsteht in Zusammenarbeit der Niedersächsischen Staats- und Universitätsbibliothek Göttingen (SUB Göttingen) und der Gesellschaft für wissenschaftliche Datenverarbeitung Göttingen (GWDG).