Niedersächsische Staats- und Universitätsbibliothek Göttingen Niedersächsische Staats- und Universitätsbibliothek Göttingen
Eine Person arbeitet am Laptop. Auf dem Bildschirm ist eine Textdatei geöffnet. SUB Göttingen

Text- und Datamining

Die SUB Göttingen beteiligt sich an Projekten zu Text- und Data-Mining: Sie entwickelt Werkzeuge für natürliche Sprachverarbeitung und stellt Textressourcen sowie TDM-Tools bereit.

MONAPipe

MONAPipe steht für „Modes of Narration and Attribution Pipeline“ und bietet Natural-Language-Processing-Werkzeuge für die Deutsche Sprache und ist in Python/spaCy implementiert. Zusätzlich zu den von spaCY zur Verfügung gestellten Komponenten bietet MONAPipe spezifische Komponenten und Modelle für die Digital Humanities und Computational Literary Studies.

MONAPipe wurde ursprünglich in der MONA -Projektgruppe ins Leben gerufen und wird nun innerhalb der Text+ -Infrastruktur weiterentwickelt. 

Mehr Informationen

Erhalten Sie mehr Informationen auf der Text+-Webseite

Website Text+

MINE – Text Mining Service für digitale Ressourcen

Projektziel

Das MINE-Projekt möchte Textressourcen, die am Campus Göttingen zur Verfügung stehen oder von Partner*innen auf der ganzen Welt bereitgestellt werden. in einem Pool zusammenfassen. Der Dienst erlaubt dann Volltextsuche und Suche über Metadaten zu denen auch Ergebnisse aus Text- und Data Mining-Werkzeugen gehören. Diese Ergebnisse werden zudem in einem Knowledge Graph bereitgestellt.

Serviceinfrastruktur für Text- und Data-Mining

MINE entwickelt eine Serviceinfrastruktur für Text- und Data-Mining (TDM), die nach Projektende in einen Campus-Dienst überführt wird. Das Ziel besteht darin, den Forschenden und den digitalen Services einen einfachen und direkten Zugang zu TDM-Werkzeugen und Text-Ressourcen zu bieten. MINE ermöglicht nicht nur die Suche nach den bereits vorhandenen Daten und Metadaten, sondern reichert die Metadaten auch mit vorbereiteten TDM-Tools an. Die angereicherten Ergebnisse werden in einem Wissensgraphen gespeichert, der neue und einzigartige Möglichkeiten zur Untersuchung der verfügbaren Ressourcen bietet.

Derzeit bietet der Service die Suche in ca. 7 Millionen Datensätzen aus verschiedenen Datenquellen an, die in einem normalisierten Datenmodell zusammengefasst werden. Die in der Entwicklung befindliche technische Infrastruktur wird ständig um neue Werkzeuge und weitere Textressourcen erweitert.

Zugriff

Sie erreichen den Prototypen unter https://mine-graph.de/. Einige Funktionen sind nur auf dem Göttingen Campus verfügbar. MINE stellt verschiedene REST-Endpunkte zur Verfügung, die andere Systeme nutzen können. Es gibt eine Python-Client-Bibliothek und ein Orange Widget, um Textressourcen in eigene Pipelines oder Tools einzubinden. 

MINE entsteht in Zusammenarbeit mit der Gesellschaft für wissenschaftliche Datenverarbeitung Göttingen (GWDG).

Falls Sie weitere Fragen haben oder vollen Zugang erhalten möchten, kontaktieren Sie das MINE-Team.