DARWIN Digitale Dissertationen English Version Strich

FU Berlin
Digitale Dissertation

Tobias Galliat :
Adaptive Multilevel Cluster Analysis by Self-Organizing Box Maps
Adaptive Multilevel Cluster Analysis by Self-Organizing Box Maps

FU Logo


|Zusammenfassung| |Inhaltsverzeichnis| |Ergänzende Angaben|

Zusammenfassung

Als Cluster Analyse bezeichnet man den Prozess der Suche und Beschreibung von Gruppen (Clustern) von Objekten, so daß die Objekte innerhalb eines Clusters bezüglich eines gegebenen Maßes maximal homogen sind. Die Homogenität der Objekte hängt dabei direkt oder indirekt von den Ausprägungen ab, die sie für eine Anzahl festgelegter Attribute besitzen. Die Suche nach Clustern läßt sich somit als Optimierungsproblem auffassen, wobei die Anzahl der Cluster vorher bekannt sein muß. Wenn die Anzahl der Objekte und der Attribute groß ist, spricht man von komplexen, hoch-dimensionalen Cluster Problemen. In diesem Fall ist eine direkte Optimierung zu aufwendig, und man benötigt entweder heuristische Optimierungsverfahren oder Methoden zur Reduktion der Komplexität. In der Vergangenheit wurden in der Forschung fast ausschließlich Verfahren für geometrisch basierte Clusterprobleme entwickelt. Bei diesen Problemen lassen sich die Objekte als Punkte in einem von den Attributen aufgespannten metrischen Raum modellieren; das verwendete Homogenitätsmaß basiert auf der geometrischen Distanz der den Objekten zugeordneten Punkte. Insbesondere zur Bestimmung sogenannter metastabiler Cluster sind solche Verfahren aber offensichtlich nicht geeignet, da metastabile Cluster, die z.B. in der Konformationsanalyse von Biomolekülen von zentraler Bedeutung sind, nicht auf einer geometrischen, sondern einer dynamischen Ähnlichkeit beruhen. In der vorliegenden Arbeit wird ein allgemeines Clustermodell vorgeschlagen, das zur Modellierung geometrischer, wie auch dynamischer Clusterprobleme geeignet ist. Es wird eine Methode zur Komplexitätsreduktion von Clusterproblemen vorgestellt, die auf einer zuvor generierten Komprimierung der Objekte innerhalb des Datenraumes basiert. Dabei wird bewiesen, daß eine solche Reduktion die Clusterstruktur nicht zerstört, wenn die Komprimierung fein genug ist. Mittels selbstorganisierter neuronaler Netze lassen sich geeignete Komprimierungen berechnen. Um eine signifikante Komplexitätsreduktion ohne Zerstörung der Clusterstruktur zu erzielen, werden die genannten Methoden in ein mehrstufiges Verfahren eingebettet. Da neben der Identifizierung der Cluster auch deren effiziente Beschreibung notwendig ist, wird ferner eine spezielle Art der Komprimierung vorgestellt, der eine Boxdiskretisierung des Datenraumes zugrunde liegt. Diese ermöglicht die einfache Generierung von regelbasierten Clusterbeschreibungen. Für einen speziellen Typ von Homogenitätsfunktionen, die eine stochastische Eigenschaft besitzen, wird das mehrstufige Clusterverfahren um eine Perroncluster Analyse erweitert. Dadurch wird die Anzahl der Cluster, im Gegensatz zu herkömmlichen Verfahren, nicht mehr als Eingabeparameter benötigt. Mit dem entwickelten Clusterverfahren kann erstmalig eine computergestützte Konformationsanalyse großer, für die Praxis relevanter Biomoleküle durchgeführt werden. Am Beispiel des HIV Protease Inhibitors VX-478 wird dies detailliert beschrieben.

Inhaltsverzeichnis

Die gesamte Dissertation können Sie als gezippten tar-File oder als zip-File laden.

Durch Anklicken der Kapitelüberschriften können Sie das Kapitel in PDF-Format laden:

Title and table of contents 1
Introduction 3
1. Cluster Analysis in High-Dimensional Data 7
1.1 Modeling 8
1.2 Problem reduction via representative clustering 13
1.3 Efficient cluster description 16
1.4 How many clusters? 21
2. Decomposition 23
2.1 General Definition 23
2.2 Approximate box decomposition 25
2.3 Decomposition based representative clustering 27
2.4 Efficient cluster description via approximate box decomposition 34
3. Adaptive Decomposition by Self-Organized Neural Networks 41
3.1 Self-Organizing Maps (SOM) 42
3.2 Self-Organizing Box Maps (SOBM) 44
3.3 Comparison SOM-SOBM 53
3.4 Computational complexity 56
3.5 Practical extensions 57
4. Multilevel Representative Clustering 59
4.1 General approach 59
4.2 Adaptive decomposition refinement 60
4.3 Approach based on Perron Cluster analysis 61
5. Applications 73
5.1 Conformational Analysis of biomolecules 73
5.2 Cluster analysis of insurance customers 87
Conclusion 91
Appendix 93
Symbols 95
Bibliography 97

Ergänzende Angaben:

Online-Adresse: http://www.diss.fu-berlin.de/2002/125/index.html
Sprache: Englisch
Keywords: cluster analysis, self-organizing maps, molecular dynamics
DNB-Sachgruppe: 28 Informatik, Datenverarbeitung
Klassifikation MSC: 62H30, 68T05
Datum der Disputation: 10-Jul-2002
Entstanden am: Fachbereich Mathematik u. Informatik, Freie Universität Berlin
Erster Gutachter: Prof. Dr. Dr. h.c. Peter Deuflhard
Zweiter Gutachter: Prof. Dr. Peter Rentrop
Kontakt (Verfasser): galliat@zib.de
Kontakt (Betreuer): deuflhard@zib.de
Abgabedatum:18-Jul-2002
Freigabedatum:19-Jul-2002

 


|| DARWIN|| Digitale Dissertationen || Dissertation|| English Version|| FU Berlin|| Seitenanfang ||


Mail-Icon Fragen und Kommentare an:
darwin@inf.fu-berlin.de

© Freie Universität Berlin 1999