Nachrichten aus dem Datenraum

Suchen vereinfacht: Wie findet man die Nadel im wissenschaftlichen Heuhaufen?

Wir haben uns in diesen Blogbeiträgen bereits mit diversen Analysen von Publikationen und Patenten beschäftigt. Dabei gilt immer: Die Ergebnisse sind nur so gut, wie die Daten, auf denen sie basieren. Deshalb widmen wir uns heute dem vorgelagerten Schritt der Analyse: der Suche nach Daten. In KATI haben wir mit dem Web of Science bereits eine große Menge an Daten, aktuell fast 80 Millionen wissenschaftliche Publikationen. Die Kunst besteht somit darin, ähnlich der Nadel im Heuhaufen, die richtigen Daten zu finden. Nur weiß man noch nicht genau, wie diese Nadel überhaupt aussieht. Fest steht, die optimale Datenmenge umfasst genau die Publikationen, die zu dem Thema passen, nicht mehr und nicht weniger. In KATI geschieht die Suche über einen booleschen Suchstring, welcher iterativ verfeinert wird.

Um dies zu veranschaulichen, führen wir eine Suche zum Thema Blutersatzprodukte durch. Unter Blutersatzprodukten versteht man in der Medizin Substanzen, die verwendet werden, um den Blutverlust zu kompensieren und die Sauerstofftransportfunktion des Blutes nachzuahmen. Um eine Suchanfrage zu konstruieren, kann man nach dem Schneeballprinzip vorgehen. Das bedeutet, man startet mit einem Begriff und erweitert die Suchanfrage dann Stück für Stück basierend auf den gefundenen Ergebnissen. Wir starten zunächst mit dem Begriff blood substitutes und suchen in allen Titeln, Abstracts und Keywords. In KATI finden wir so fast 2.500 Publikationen. Die Manual Keywords, also die von den Autor*innen vergeben Schlagworte, weisen uns darauf hin, noch hemoglobin base oxygen carrier und perfluorocarbon base oxygen carrier  zu der Suche hinzuzufügen. Iterativ ergänzen wir auch noch mit artificial blood und artificial oxygen carrier. Jetzt fällt uns auf, dass Publikationen gefunden werden, welche nicht zum Thema passen. Diese schließen wir aus, indem wir artificial blood vessels exkludieren. Damit sieht die Suchanfrage jetzt so aus:

(“blood substitute*“ OR “artificial blood*” OR “artificial oxygen carr*” OR ((“hemoglobin base*” OR “perfluorocarbon base”) AND “oxygen carr*”)) NOT (“artificial blood vessel*”)

Dieses Beispiel zeigt, dass die Erstellung von Suchanfragen recht komplex werden kann. Obwohl wir noch am Anfang der Konstruktion einer guten Suchanfrage stehen, wird sie schon bei wenigen Begriffen unübersichtlich, geschweige denn, wenn noch Filter hinzukommen. Das ist so, als würden wir uns händisch durch den Heuhaufen wühlen. Klingt ineffizient? Ist es auch. Deshalb haben wir für KATI zusätzlich zu der manuellen Suchzeile einen sogenannten Query Editor entwickelt (siehe Abbildung 1). Dieser funktioniert nach einem Baukastenprinzip und hilft dabei, bei komplexen Suchanfragen nicht die Übersicht zu verlieren. Dazu werden die einzelnen Bestandteile der Suchanfrage übersichtlich dargestellt und können ohne tiefe Kenntnis der Syntax einfach editiert werden. Die visuelle Abgrenzung der Einzelteile der Suchanfrage durch Klammern ermöglicht es, die visuelle Darstellung so anzupassen, dass sie zu dem Inhalt der Suche passt. Außerdem gibt es verschiedene Darstellungsweisen (siehe Abbildung 2). Die Art, wie nach den Begriffen gesucht wird (bspw. Phrasensuche oder Suche mit Proximity Operator), lässt sich einfach durch Anklicken ändern, ebenso die booleschen Operatoren (siehe Abbildung 3). Es wird auf mögliche Syntaxfehler, beispielsweise in der Klammersetzung hingewiesen und die vielen Filtermöglichkeiten sind einfach auffindbar. Ein weiterer großer Vorteil: die Anzahl der Ergebnisse für die einzelnen Abschnitte der Suchanfrage wird angezeigt. Die bereits bekannten Filter in KATI werden außerdem ergänzt um den sogenannten Condition Filter. Dieser verknüpft einen Filter mit einer Zahl. So kann man beispielsweise die Bedingung stellen, dass die Anzahl der Autor*innen zwei sein soll, oder dass nur Publikationen mit mindestens fünf Zitationen gefunden werden sollen. Weiterhin gibt es für jeden Suchbegriff ein Kontextmenü, das es unter anderem erlaubt, den Begriff zu versetzen, zu duplizieren, zu negieren oder als Blueprint für später zu speichern. Wir haben vielleicht noch keinen Magnet für die Nadel, aber der Query Editor hilft immerhin dabei, den Heuhaufen systematisch in kleinere Teile zu zerlegen.

Insgesamt hilf der Query Editor unseren Nutzer*innen, noch schneller und effizienter in KATI zu suchen und spart ihnen daneben auch noch Schreibarbeit. Da oft nur eine begrenzte Zeit zur Verfügung steht, um eine Suchanfrage aufzubauen, verbessert er indirekt so auch die Ergebnisse der Analyse. Dies ist aber noch nicht das Ende vom Lied, die Generierung einer optimalen Suchanfrage ist weiterhin eine offene Forschungsfrage, mit der auch wir uns befassen. Bis dahin, bleiben sie neugierig und datengetrieben.  

Abbildung 1: Search Query in manueller Eingabe und Query Editor
Abbildung 2: Query Editor mit anderem Layout und Optionen für Klammern
Abbildung 3: Query Editor Optionen für Begriffe

Weitere Nachrichten aus dem Datenraum

Hier finden Sie die vergangenen Nachrichten aus dem Datenraum.

Suchen vereinfacht: Wie findet man die Nadel im wissenschaftlichen Heuhaufen?

7 Jahre KATI – auf den Spuren quantitativer Zukunftsforschung

Auf der dritten Dimension der Innovation: Welche Branchen dominieren den 3D-Druck?

Der Datenführer durch die Galaxie: wo Science-Fiction und Analytik zusammenkommen (September 2023)

Profit im Orbit: Wie Patente die Privatisierung der Raumfahrtindustrie vorantreiben (Juli 2023)

Zukunftsforschung zum Anfassen (Mai 2023)

Auf der Schulter von Giganten im Nebelmeer – wird Wissenschaft weniger innovativ? (März 2023)

O Weihnachtspatent (Dezember 2022)

Wer macht Zukunftsforschung mit Patenten – und wenn ja, was genau? (Oktober 2022)

Go West? – Die Situation der Wissenschaften in der Ukraine vor 2022 (August 2022)

Ein Deep Dive in die Daten – KATI macht’s möglich (Mai 2022)

Die Giants Gender Gap in der Patentometrie (März 2022) 

Wissenschaft in Zeiten der Pandemie (Februar 2022)

Nachhaltiges aus Wissenschaft und Technik (Oktober 2021)

Vernetzte Worte (Augst 2021)

Vernetzte Welten (Juni 2021)

Was tut (man mit) KATI? Abstraktes begreifbar machen (April 2021)

Vom Use Case zum Feature: KATI macht sich nützlich (Februrar 2021)

Daten und Foresight – eine spannende Verbindung (Dezember 2020)

Die Stars auf dem roten Teppich der Wissenschaft – Ein Blick auf highly-cited papers (September 2020)

Wie hältst Du’s mit Technologien? (Juni 2020)

Die Mär vom einsamen Wissenschaftler (April 2020)

Möglicher Aufstieg der Volksrepublik China zum größten Produzenten wissenschaftlicher Publikationen weltweit (Februar 2020)

Entdecken Sie KATI

KATI

Welche Motivation steckt hinter der Forschung zum KATI-System und wie ist es entstanden? Was sind typische Use Cases bzw. KATI-Analysen?

Data Driven Foresight

Alles über die wissenschaftlichen Grundlagen von KATI und zum Thema Data Driven Foresight.

KATI Produkte

Wie kann das KATI Lab Sie bei Ihrem Foresight Prozess unterstützen?