Zusammenfassung
Als Cluster Analyse bezeichnet man den Prozess der Suche und Beschreibung von
Gruppen (Clustern) von Objekten, so daß die Objekte innerhalb eines Clusters
bezüglich eines gegebenen Maßes maximal homogen sind. Die Homogenität der
Objekte hängt dabei direkt oder indirekt von den Ausprägungen ab, die sie für eine
Anzahl festgelegter Attribute besitzen. Die Suche nach Clustern läßt sich somit
als Optimierungsproblem auffassen, wobei die Anzahl der Cluster vorher bekannt
sein muß. Wenn die Anzahl der Objekte und der Attribute groß ist, spricht man
von komplexen, hoch-dimensionalen Cluster Problemen. In diesem Fall ist eine
direkte Optimierung zu aufwendig, und man benötigt entweder heuristische Optimierungsverfahren
oder Methoden zur Reduktion der Komplexität. In der Vergangenheit
wurden in der Forschung fast ausschließlich Verfahren für geometrisch
basierte Clusterprobleme entwickelt. Bei diesen Problemen lassen sich die Objekte
als Punkte in einem von den Attributen aufgespannten metrischen Raum
modellieren; das verwendete Homogenitätsmaß basiert auf der geometrischen
Distanz der den Objekten zugeordneten Punkte. Insbesondere zur Bestimmung
sogenannter metastabiler Cluster sind solche Verfahren aber offensichtlich nicht
geeignet, da metastabile Cluster, die z.B. in der Konformationsanalyse von Biomolekülen
von zentraler Bedeutung sind, nicht auf einer geometrischen, sondern
einer dynamischen Ähnlichkeit beruhen.
In der vorliegenden Arbeit wird ein allgemeines Clustermodell vorgeschlagen,
das zur Modellierung geometrischer, wie auch dynamischer Clusterprobleme
geeignet ist. Es wird eine Methode zur Komplexitätsreduktion von Clusterproblemen
vorgestellt, die auf einer zuvor generierten Komprimierung der Objekte
innerhalb des Datenraumes basiert. Dabei wird bewiesen, daß eine solche Reduktion
die Clusterstruktur nicht zerstört, wenn die Komprimierung fein genug ist.
Mittels selbstorganisierter neuronaler Netze lassen sich geeignete Komprimierungen
berechnen. Um eine signifikante Komplexitätsreduktion ohne Zerstörung der
Clusterstruktur zu erzielen, werden die genannten Methoden in ein mehrstufiges
Verfahren eingebettet. Da neben der Identifizierung der Cluster auch deren effiziente
Beschreibung notwendig ist, wird ferner eine spezielle Art der Komprimierung
vorgestellt, der eine Boxdiskretisierung des Datenraumes zugrunde liegt.
Diese ermöglicht die einfache Generierung von regelbasierten Clusterbeschreibungen.
Für einen speziellen Typ von Homogenitätsfunktionen, die eine stochastische
Eigenschaft besitzen, wird das mehrstufige Clusterverfahren um eine Perroncluster
Analyse erweitert. Dadurch wird die Anzahl der Cluster, im Gegensatz
zu herkömmlichen Verfahren, nicht mehr als Eingabeparameter benötigt. Mit dem
entwickelten Clusterverfahren kann erstmalig eine computergestützte Konformationsanalyse
großer, für die Praxis relevanter Biomoleküle durchgeführt werden.
Am Beispiel des HIV Protease Inhibitors VX-478 wird dies detailliert beschrieben. |