Zuordnung und das Auffinden von Informationsobjekten durch automatisierte Techniken
Die BDH Solutions AG (Glattbrugg) bietet Methoden, Dienstleistungen und Applikationen an, die unternehmensbezogene Daten filtern, aufzubereiten und intelligent zusammenführen. BDH Solutions vertreibt dazu eine Data-Management-Software genannt SEEK! sowie begleitende Dienstleistungen. SEEK! verwaltet Ressourcen wie z. B. Personen, Dokumente, (Wiki-)Artikel und verwendet Ordnungselemente wie Dossiers, Themen und Themenbäume.
Die Vergabe von Tags und die Zuordnung von Ressourcen zu Dossiers erfolgte bislang weitgehend manuell, was zur Folge haben kann, dass Kunden den Pflegeaufwand scheuen und infolgedessen nicht alle interessanten Ressourcen von einem Benutzer gefunden werden können.
Ziel dieses Projekts ist es, die Zuordnung und das Auffinden von Informationsobjekten durch automatisierte Techniken zu unterstützen. Hierzu werden Informationen aufgrund einer Keyword Extraction und mittels Taxonomien basierend auf den gängigsten Dokumentenformaten sowie internen Datenstrukturen genutzt. Mittels geeigneter Methoden aus dem Bereich des Machine Learning soll die Suche und Zuordnung von Informationsobjekten besser unterstützt werden. Hierbei soll auch eine Personalisierung dieser Prozesse ermöglicht werden.
Neben der manuellen Zuordnung von Informationsobjekten innerhalb von bestehenden Data-Management-Lösungen wird die Suche nach Informationen oft durch eine automatisierte Keyword-Extraction für Dokumente unterstützt (ähnlich einer Suchmaschine). Eine solche Suche ist oft nicht sehr effizient, da viele „Fehltreffer“ ausgewiesen werden. Eine Kombination der Suche oder Zuordnung von Informationsobjekten mit manuell vergebenen Zusatzinformationen oder aufgrund der Nutzungspraxis innerhalb eines Unternehmens könnte diese Prozesse deutlich effizienter gestalten.
Die Suche oder Zuordnung von Informationsobjekten erfolgt häufig aufgrund von Ähnlichkeitsmassen. Beispielsweise kann die Ähnlichkeit von zwei Dokumenten aufgrund der Übereinstimmung der darin enthaltenen Keywords gemessen werden. Keywords wiederum können mit gängigen Techniken aus Dokumenten extrahiert werden. Bei dieser Vorgehensweise sind verschiedene Bereinigungen notwendig, z. B. das Ausfiltern von Nicht-Keywords oder die Höhergewichtung einer Übereinstimmung bei selten verwendeten Begriffen.
Daneben kann die Ähnlichkeit von Dokumenten basierend auf expliziten Zuordnungen gemessen werden, z. B. mittels manuell vergebener Tags oder Zuordnungen untereinander bzw. mittels spezifischer Datenstrukturen (z.B. Dossiers, Themenbäume, Navigationspfade). Beispielweise kann eine Ähnlichkeit aufgrund der Weglänge in einem Graphen bestimmt werden, der aus den bestehenden Verknüpfungen von Informationsobjekten abgeleitet wird. Darüber hinaus kann es sinnvoll sein, verschiedene dieser Ähnlichkeitsmasse miteinander zu kombinieren.
Ähnlichkeitsmasse können verwendet werden, um neue Informationsobjekte (z. B. Dokumente) bestehenden (z. B. Dossiers) zuzuordnen. Mittels weiterer Techniken wie z. B. dem Clustering können Gruppen von einander ähnlichen Informationsobjekten automatisch generiert werden. Ferner können Regeln in Bezug auf die Zuordnung von Informationsobjekten gelernt werden. Dabei können unter anderem verschiedene graphenbasierte Methoden angewendet werden.
Ein weiterer grundsätzlicher Ansatz zur Unterstützung des Information Retrieval besteht in der Nutzung transaktionsbezogener Daten. Mittels historischer Informationen z. B. über die Zugriffshäufigkeit auf Informationsobjekte lassen sich diese hinsichtlich ihrer Relevanz besser beurteilen (beispielsweise für die Darstellung in einer Tag-Cloud). Auch ist es so möglich, Informationen personalisiert aufzubereiten.
Das Projekt wird von der Kommission für Technologie und Innovation (KTI) finanziell gefördert.
Das IWI führt das Projekt in Zusammenarbeit mit dem Institut für 4D-Technologien (i4DS, Hochschule für Technik) und der BDH Solutions AG durch.