|

Medical Care

##SEVER##

/s/stat.tugraz.at1.html

Stat.tugraz.at

Keimreaktionen auf Antibiotikagruppen Herwig Friedl∗ Ziel dieser vorliegenden Studie ist das Auffinden von Gruppen homo- gener Antibiotika. Dazu werden die Reaktionen von E. Coli Bakterienaus G¨ulleproben steirischer Schweinezuchtbetriebe sowie aus Wasserpro-ben bez¨uglich ihrer Resistenz gegen¨uber dieser Antibiotika beobachtet.
Auf s¨amtliche Antibiotika in einer gefundenen Gruppe sollen die Keimeso ¨ahnlich wie m¨oglich reagieren. Verschiedene Strategien und Methodender Clusteranalyse werden deshalb angewendet, wobei ¨uberraschenderweisedie Verfahren zwar jeweils ¨ahnliche Ergebnisse ergeben, diese sich jedochf¨ur die beiden Datens¨atze unterscheiden.
Im Zuge einer Studie am Hygieneinstitut der Karl-Franzens Universit¨at in Graz,werden die Resistenzen von E. Coli Bakterien auf diverse Antibiotika beobachtet.
Diese Keime wurden hierbei aus G¨ulleproben isoliert, die von steirischen Schwei-nezuchtbetrieben aus verschiedenen Produktionszweigen stammen. Jeweils eineG¨ulleprobe wurde f¨ur jeden Produktionszweig in einem Betrieb entnommen. Ausjeder Probe wurden dann E. Coli Bakterien isoliert und deren Reaktion auf diefolgenden 24 Antibiotika getestet.
β-Lactam Anibiotika: dazu z¨ahlen Penicilline: Ampicillin (AM), Amoxicillin + Clavulans¨aure (AMC), Pipe- racillin (PIP), Piperacillin + Tazobactam (PT); ∗Institut f¨ur Statistik, Technische Universit¨at Graz, Steyrergasse 17, A-8010 Graz Cephalosporine: Cefalothin (CF), Cefuroxim (CXM), Cefuroxim-Axetil (CXMAX), Cefoxitin (FOX), Cefpodoxime (CPD), Cefepim (FEP),Cefotaxim (CTX), Ceftazidim (CAZ); Carbapeneme: Meropenem (MEM); Aminoglycoside: Gentamicin (GM), Tobramycin (TM), Amikacin (AN); Chinolone: Nalidixins¨aure (NA), Norfloxacin (NOR), Ciprofloxacin (CIP), Andere: Tetracyclin (TE), Co-Trimazol (SXT), Nitrofurantoin (FT), Chloram- phenicol (C).
Falls gen¨ugend Keime isoliert werden konnten, wurde die Reaktion von bis zuzehn verschiedenen Keimen aus derselben Probe auf ein und dasselbe Antibio-tikum beobachtet. Die vorliegenden Daten beinhalten somit je Probe jeweils 24beobachtete relative Resistenz-H¨aufigkeiten.
Von Interesse ist nun die Untersuchung, ob sich die Keime ¨ahnlich verhalten inderen Reaktion auf einzelne Antibiotika, d.h. ob die E. Coli Bakterien entwederdarauf jeweils resistent oder nicht resistent reagieren. Man ist also an einer Grup-pierung der Antibiotika interessiert, wobei sich die Keime auf Antibiotika in einerderartigen Gruppe m¨oglichst gleich verhalten sollen. Die Gruppen m¨ussen in sichhomogen sein, sich aber zueinander heterogen verhalten. Aus diesem Grund wer-den Methoden der Clusteranalyse als Verfahren zum Auffinden derartiger Struk-turen eingesetzt. Diese sind rein deskriptiv und dienen zur Erkennung derartigerGruppierungen in multivariaten Daten.
Nach einer Einf¨uhrung in die Verfahren der Clusteranalyse im zweiten Kapitelwerden im dritten Kapitel die Prinzipien jener Algorithmen dargestellt, welche dieProgramm-Bibliothek cluster unter R anbietet. Im vierten und f¨unften Kapitelerfolgt dann das Auffinden und die Analyse von Antibiotika-Cluster mittels dieserAlgorithmen f¨ur die beiden Datens¨atze.
Unter Clusteranalyse versteht man ein Verfahren zur Einteilung von n Objektenin K ≤ n homogene Gruppen. Diese Einteilung wird oft als Klassifikation oderClustering bezeichnet. Die durch eine Anzahl von Variablen beschriebenen Objek-te sollen sich innerhalb einer Gruppe m¨oglichst ¨ahnlich verhalten. Im Gegensatzdazu sollten sich Objekte aus unterschiedlichen Gruppen m¨oglichst verschiedenverhalten. Derartige Gruppen nennt man auch Cluster oder Klassen. Jede dieserGruppen enth¨alt mindestens ein Objekt.
Je nach Zielsetzung einer Clusteranalyse unterscheiden Hartung & Elpelt (1986)als Typen einer Klassifikation die ¨ Uberdeckung, die Partition, die Quasihierarchie und die Hierarchie.
Uberdeckung spricht man, wenn sich einzelne Klassen ¨uberschneiden d¨urfen (gemeinsame Objekte enthalten k¨onnen), jedoch keine Klasse vollst¨andigin einer anderen enthalten ist.
Die Partition ist eine spezielle ¨ Uberdeckung, bei der verlangt wird, dass kein Objekt zu mehr als einer Klasse geh¨ort. Hier sind also Klassen¨uberschneidungennicht zul¨assig, d.h. die Klassen einer Partition sind disjunkt.
Die Quasihierarchie ist wiederum eine Klassifikation, welche durch eine Folge von Uberdeckungen gebildet wird. Innerhalb einer Stufe sind die Klassen einer Qua-sihierarchie derart aufgebaut, dass sie sich zwar ¨uberlappen k¨onnen, jedoch eineKlasse nicht g¨anzlich in einer anderen enthalten sein darf. ¨ Uber die Stufen hinweg sind aber Klassen notwendigerweise ineinander enthalten. Eindeutig charakteri-sieren l¨asst sich eine Quasihierarchie nur durch Angabe der ¨ Uberdeckungen auf den einzelnen Stufen oder graphisch durch die Angabe eines Stammbaums.
Die Hierarchie ist eine Folge von Partitionen und somit eine spezielle Quasihier-archie. Auch Hierarchien lassen sich eindeutig durch Angabe der Partitionen aufden einzelnen Stufen charakterisieren und in Form eines Stammbaums oder inForm eines Dendrogramms veranschaulichen.
Unabh¨angig von der gew¨ahlten Klassifikation muss noch entschieden werden, oballe n Objekte klassifiziert werden soll. Hartung & Elpelt (1986) sprechen voneiner exhaustiven (ersch¨opfenden) Klassifikation, falls jedes Objekt klassifiziertwird, ansonsten von einer nichtexhaustiven Klassifikation.
Bei der Clusteranalyse m¨ochte man eine große Homogenit¨at innerhalb jeder Klas-se und eine starke Heterogenit¨at zwischen diesen Klassen erzielen. S¨amtliche Ob-jekte in einer Klasse sollen sich also m¨oglichst gleichartig verhalten und die ein-zelnen Klassen sollen m¨oglichst unterschiedlich sein. Daher liegt es nahe, die G¨uteeiner gefundenen Klassifikation von der Homogenit¨at ihrer Klassen und/oder derHeterogenit¨at unter den Klassen abh¨angig zu machen. Um aber die Homogenit¨atund die Heterogenit¨at beschreiben zu k¨onnen, ben¨otigt man zuerst den Begriffder Distanz zweier Objekte oder zweier Klassen.
Man geht von einer n×p Datenmatrix X aus mit n Zeilen (Objekte) und p Spalten(Variablen). Bezeichnet xij die j-te Variable des i-ten Objekts, f¨ur i = 1, . . , n und j = 1, . . , p, so ist X definiert als x11 · · · x1j · · · x1p xij · · · xip  xn1 · · · xnj · · · xnp Zuerst ist es sinnvoll, eine Distanz f¨ur jedes Paar von Objekten i und i0, i 6= i0, zudefinieren. Die bekannteste Distanz ist die Euklidische Distanz, definiert durch d(i, i0) = t (xij − xi0j)2 . Ein weiteres Distanzmaß ist die City Block Metrik, oder auch Manhattan Distanzgenannt, d(i, i0) = xij − xi0j . Dar¨uberhinaus kann man auch den Tschebyscheff Abstand oder die Mahalano-bisdistanz verwenden. Um die Verschiedenheit zweier Objekte zu beschreiben,k¨onnen nicht nur Distanzmaße sondern auch andere Koeffizienten eingesetzt wer-den. Im Gegensatz zu Distanzmaßen erf¨ullen derartige Verschiedenheitsmaßenicht die Dreiecksungleichung. Der Einfachheit halber, wollen wir jedoch dieseMaße auch als Distanz bezeichnen.
Mit den obigen Distanzmaßen l¨asst sich zu einer Datenmatrix X eine n × nDistanzmatrix D berechnen, die als Eintr¨age die Distanzen d(i, i0) enth¨alt.
Ausgehend von Distanzen kann ein Maß h(Ck) f¨ur die Homogenit¨at der Objekte inder k-ten Klasse Ck, k = 1, . . , K, berechnet werden. Dieses ist nicht-negativ undumso kleiner, je homogener diese Objekte sind. Eine M¨oglichkeit der Bewertungder Homogenit¨at besteht darin, die Summe der Distanzen zwischen allen Paarenvon Objekten in Ck zu berechnen und diese dann eventuell noch zu normieren,d.h. man betrachtet h(Ck) = d(i, i0) , mit der Normierungskonstante nk. Daf¨ur k¨onnte man beispielsweise die Anzahl Ck der zur k-ten Klasse geh¨orenden Objekte oder auch Ck ( Ck − 1) w¨ahlen.
Ein alternatives Maß f¨ur die Klassenhomogenit¨at w¨are auch h(Ck) = max d(i, i0) , also die Distanz der beiden un¨ahnlichsten Objekte in der Klasse Ck. Dies istnat¨urlich ein sehr strenges Maß f¨ur die Homogenit¨at, das zudem die Homogenit¨atgroßer Klassen verh¨altnism¨aßig schlecht beurteilt. Diesen Nachteil vermeidet h(Ck) = min d(i, i0) . Hier kann es jedoch andererseits wiederum leicht passieren, dass große Klassentrotz relativ kleinem Wert von h(Ck) recht heterogen sind.
Es gibt noch viele weitere Homogenit¨atsmaße, die zum Beispiel die Varianzender p beobachteten Merkmale in der Klasse Ck oder auch die Korrelation dieserMerkmale zus¨atzlich ber¨ucksichtigen.
Ein Maß v(Ck, Ck0) f¨ur die Heterogenit¨at (Verschiedenheit) zweier Klassen sollauch nur nicht-negative Werte aufweisen und derartig gestaltet sein, dass es umsokleiner ist, je ¨ahnlicher sich die Klassen Ck und Ck0 sind. Außerdem wird mangenerell wie schon f¨ur Distanzen auch hierf¨ur fordern, dass v(Ck, Ck) = 0 undv(Ck, Ck0) = v(Ck0, Ck) gilt.
Geht man von Distanzen aus, so l¨asst sich die Heterogenit¨at zweier disjunkterKlassen Ck und Ck0 zum Beispiel in folgender Weise beschreiben d(i, i0) complete linkage, d(i, i0) v(Ck, Ck0) = d(i, i0) average linkage.
Ck · Ck0 i∈Ck i0∈Ck0 Hier wird die Heterogenit¨at der Klassen (Ck, Ck0) auf Grund des un¨ahnlichsten(complete linkage) oder des ¨ahnlichsten Objektpaares (single linkage) gemessen,oder durch die durchschnittliche ¨ Ahnlichkeit der Objekte aus Ck zu den Objekten in Ck0 (average linkage) beschrieben.
Ein weiteres Heterogenit¨atsmaß, das eine Datenmatrix in der Form (1) zu Grundelegt, ist das centroid-Maß. Hier berechnet man den euklidischen Abstand zwischenden Mittelwertvektoren der p Merkmale aller Objekte in den Klassen Ck und Ck0.
Im Endeffekt wird man auch an der G¨ute der gefundenen Klassifikation selbstinteressiert sein. Diese G¨utemaße h¨angen nat¨urlich vom Klassifikationstyp ab,k¨onnen jedoch so gew¨ahlt werden, dass sie von den Homogenit¨aten der Klassenund/oder den Heterogenit¨aten zwischen den Klassen abh¨angen.
So kann man die G¨ute einer Partition durch die Summe der Klassenhomoge-nit¨aten oder den normierter Kehrwert der Heterogenit¨aten beschreiben. Es gibtauch Maße die sowohl die Homogenit¨at als auch die Heterogenit¨at ber¨ucksichtigen.
Die G¨utebewertung von Hierarchien erfolgt nicht f¨ur die gesamte Klassifikati-on, sondern es wird hier jede Stufe des Zugrunde liegenden Stammbaums oderDendrogrammes einzeln bewertet. Da jede Stufe einer Hierarchie eine Partitionder Objektmenge bildet, lassen sich hierbei die zuvor angegebenen G¨utemaße f¨urPartitionen verwenden.
Clusteranalyse mit der R Bibliothek cluster F¨ur das Statistik-Programm R wird zur Durchf¨uhrung einer Clusteranalyse unteranderem die Bibliothek cluster zur Verf¨ugung gestellt. Dieses Paket erlaubt dieVerwendung von Verfahren, welche im Buch von Kaufman & Rousseeuw (1990)beinhaltet sind. Zu den darin implementierten Methoden z¨ahlt das Programmdaisy mit dem man zu einer Datenmatrix eine Distanzmatrix berechnet. Weitersbeinhaltet cluster drei Clusterverfahren f¨ur Partitionen (pam, clara und fanny)und drei Verfahren f¨ur Hierarchien (agnes, diana, mona). Zus¨atzlich enth¨alt esProgramme zur graphischen Aufbereitung der Ergebnisse (bannerplot, pltree,plot, clusplot) und Programme zur Berechnung von G¨utemaßen der gefunde-nen Klassifikation (print, summary, silhouette).
Clusterverfahren f¨ur Partitionen und f¨ur Hierarchien sind in der klassischen Li-teratur die am h¨aufigsten verwendeten Algorithmen in der Clusteranalyse. F¨urR bieten die Bibliotheken mva und cclust zus¨atzlich noch weitere Clusteralgo-rithmen an, zu denen hclust, cclust und kmeans z¨ahlen. Diese Methoden sindjedoch etwas komplexer und werden daher hier nicht weiter diskutiert.
Bevor man eine Klassifikation konstruiert, ben¨otigt man eine Distanzmatrix D(X)der Daten X. Diese wird mit daisy f¨ur verschiedene Meßniveaus der Variablenberechnet. Variablen vom Typ numeric werden als intervallskaliert angesehen.
Variablen vom Typ factor werden als nominalskaliert interpretiert und jene vomTyp ordered als ordinale Variablen. Hat man bin¨are oder verh¨altnisskalierte Va-riablen, kann man diese Information im Aufruf von daisy mittels type angeben.
Mit metric kann man steuern, ob die euklidische oder die Manhattan Distanzverwendet werden soll. Diese Angabe ist nur bei intervallskalierten Daten m¨oglich.
Die Option stand erm¨oglicht noch zus¨atzlich die Standardisierung der Variablenvor der Berechnung deren Distanzen. Hier nun einige beispielhafte Anwendungen: D0 <- daisy(X, type = list(symm = c(1:3)))D1 <- daisy(X, metric = "euclidean", stand = FALSE)D2 <- daisy(X, metric = "manhattan") Die Prozedur daisy berechnet f¨ur intervallskalierte Variablen die euklidischeoder die Manhattan Distanz.
Ordinale Variablen werden durch deren R¨ange ersetzt. Danach werden die R¨angestandardisiert, d.h. es wird der Rang rij der j-ten Variablen im i-ten Objektersetzt durch mit Mj = maxi(rij), dem gr¨oßten Rang der j-ten Variablen. Somit sind alle zijauf (0, 1) standardisiert. Dies ist vor allem sinnvoll, wenn die Variablen verschie-den große Werte M haben. Von diesen zij wird dann die Manhattan Distanzberechnet, relativiert durch die Anzahl der Summanden.
altnisskalierten Variablen besteht auch die M¨oglichkeit, eine loga- rithmische Transformation durchzuf¨uhren und darauf die Manhattan Distanzzu berechnen. Will man dies beispielsweise auf die achte Spalte der Datenma-trix anwenden, so wird dies sehr einfach durch (type = list(logratio = 8)erm¨oglicht. Alternativ kann man diese auch wie ordinale Variablen behandelnund daisy berechnet dann mit type = list(ordratio = 8) dieselben Distan-zen wie zuvor.
aren Variablen unterscheiden Kaufmann & Rousseeuw zwischen sym- metrischen und asymmetrischen Variablen. Im ersten Fall ist das Eintreten derbeiden Faktorstufen gleichwertig (z.B. m¨annlich/weiblich). Bei asymmetrischenVariablen ist dies nicht mehr der Fall. Steht beispielsweise die Eins f¨ur starkerRaucher und Null f¨ur einen beliebigen anderen Typ (Nichtraucher, Exraucher,schwacher Raucher), dann haben nur dann zwei Personen dasselbe Rauchverhal-ten, wenn beide eine Eins haben. Haben beide eine Null, so weist dies noch nichtauf das gleiche Verhalten hin. Zwei Einsen sind somit ¨ahnlicher als zwei Nullen.
Hat man symmetrische bin¨are Variable (type = list(symm = 5)) berechnet Rdie Distanz als d(i, i0) = ii0 + n01 ii0 + n10 ii0 + n00 ii0 + n01 Hier beschreibt n11 ii0 die Anzahl, wie viele Variablen j die Eigenschaft xij = xi0j = 1 aufweisen. Weiters ist n00 ii0 die Anzahl an Variablen mit xij = xi0j = 0. Schließlich z¨ahlt n10 ii0 (bzw. n01 ii0 ) die H¨ aufigkeit von xij = 1 und xi0j = 0 (bzw. xij = 0 und xi0j = 1).
Bei asymmetrischen bin¨aren Variablen (type = list(asymm = 5)) berechnetsich die Distanz durch d(i, i0) = ii0 + n01 ii0 + n10 ii0 + n01 Hier wird die Anzahl n00 ii0 weggelassen, da zwei Nullen bei asymmetrischen Varia- blen nicht eindeutig f¨ur das selbe Verhalten stehen.
Ein typisches Beispiel f¨ur nominale Variablen ist die Augenfarbe von Personen.
Am h¨aufigsten werden die Distanzen daf¨ur durch d(i, i0) = beschrieben. Dabei bezeichnet u die Anzahl wie oft xij = xi0j gilt und p dieAnzahl an Variablen in den Daten.
Schließlich sei noch vermerkt, dass man mittels daisy auch Distanzen f¨ur Objektemit Variablen verschiedenen Typs berechnen kann. Ein Beispiel daf¨ur w¨aretype = list(asymm = c(1, 5), ordratio = 2, logratio = c(3, 4)).
Die Prozedur pam berechnet Partitionen. Jedes Cluster enth¨alt zumindest einObjekt und jedes Objekt muss genau einem Cluster zugeordnet werden. Bei diesenVerfahren muss die Anzahl K der gew¨unschten Cluster vom Anwender vorgegebenwerden. Daher ist es sinnvoll dieses Verfahren f¨ur verschiedene Werte von Kanzuwenden. Mit silhouette k¨onnen dann entsprechende G¨utemaße berechnetwerden und man kann sich schlussendlich f¨ur die beste Klassifikation entscheiden.
Auch wird man zus¨atzlich von diversen Graphiken f¨ur die EntscheidungshilfeGebrauch machen.
C <- pam(X, K, diss = FALSE, metric = "euclidean", stand = FALSE)plot(C); Der pam Algorithmus sucht zuerst nach K repr¨asentativen Objekten (auch me-doids genannt), welche die Struktur der Daten bestm¨oglich wiederspiegeln. Dar-aufhin werden die restlichen n − K Objekte ihren n¨achsten medoids zugeordnet.
Danach wird so lange ein Objekt mit einem medoid ausgetauscht bis das G¨utemaßminimal ist. Das heißt, man versucht durch Tausch eines repr¨asentativen Objektsmit einem beliebigen anderen Objekt eine Verbesserung der G¨ute der Klassifika-tion zu erreichen. Bezeichnet h(Ck) die Summe der Distanzen aller Objekte inCk zu deren repr¨asentativen Objekt, dann wird g(C) = in der Tausch-Phase minimiert.
Dieser Algorithmus wurde f¨ur die Analyse großer Datenmengen entwickelt. Abeiner Gr¨oße von zirka 100 Objekten ist aus Speicher- und Laufzeitgr¨unden clarazu empfehlen. Der Algorithmus basiert genauso wie pam auf der K-medoid Metho-de. Als erstes wird eine Stichprobe aus allen Objekten gezogen und diese werdenmittels pam auf K Cluster aufgeteilt. Dann wird jedes Objekt das nicht in dieserStichprobe war seinem n¨achsten repr¨asentativen Objekt zugeordnet. So erh¨altman ein Clustering der gesamten Objektmenge. Danach wird als G¨utemaß f¨urdie Klassifikation die Summe der durchschnittlichen Distanzen jedes Objekteszu dessen medoid berechnet. Nachdem dies f¨ur mehrere Stichproben gerechnetwurde, werden deren G¨utemaße verglichen und jenes Clustering mit dem bestenG¨utemaß als Ergebnis ausgew¨ahlt.
Es ist noch anzumerken, dass clara als Input nur die Datenmatrix X akzeptiertund nicht eine Distanzmatrix D.
C <- clara(X, K, metric = "euclidean", stand = FALSE, samples = 5, sampsize = 40 + 2 * K) Ein weiteres Clusterverfahren f¨ur Partitionen ist fanny, welches ein so genanntesweicheres (Fuzzy) Clustering erlaubt. Hier wird ein anderer Algorithmus verwen-det als bei pam oder bei clara.
C <- fanny(X, K, diss = FALSE, metric = "manhattan", Der Output von fanny enth¨alt den Zugeh¨origkeitsindex uik des i-ten Objektszum k-ten Cluster. Dieser Index beschreibt die Wahrscheinlichkeit f¨ur das i-teObjekt zum k-ten Cluster zu geh¨oren. Der Algorithmus minimiert dabei iterativdie Funktion u2 u2 d(i, i0) unter den Nebenbedingungen uik ≥ 0 und ik = 1. Dieses nichtlineare Op- timierungsproblem mit Nebenbedingungen wird mittels der Lagrangegleichungund den Kuhn und Tucker Bedingungen gel¨ost. Die Ergebnisse k¨onnen wie inpam mit plot(C) und clusplot(C) graphisch dargestellt werden.
Durch agnes erh¨alt man ein agglomeratives hierarchisches Clustering. In derersten Hierarchiestufe bildet jedes Objekt ein eigenes Cluster. Bei jeder weiterenStufe werden dann immer die sich n¨achsten beiden Cluster zu einem neuen Clusterzusammengefasst bis am Ende nur noch ein großes Cluster mit allen n Objekten ¨ubrig bleibt.
Im ersten Schritt werden also die beiden Objekte i und i0 mit minimaler Distanzd(i, i0) zusammengefasst. In weiterer Folge ben¨otigen wir die Distanz zwischenzwei Cluster. Dazu verwendet agnes standardm¨aßig average linkage. Nat¨urlichk¨onnen auch complete linkage oder single linkage verwendet werden. Als graphi-sche Darstellung erh¨alt man einen Bannerplot und ein Dendrogramm.
C <- agnes(X, diss = FALSE, metric = "euclidean", stand = FALSE, method = "single") Man k¨onnte nun annehmen, dass man die Verfahren f¨ur Partitionen nicht mehrbraucht, da hier alle Partitionen von K = n, . . , 1 berechnet werden. Dem istaber nicht so, denn in hierarchischen Verfahren kann man den Zusammenschlusszweier Cluster auf einer Stufe nicht mehr r¨uckg¨angig machen. Aus diesem Grunderh¨alt man nicht dieselben Ergebnisse wie beispielsweise mit pam. Hat man ein-mal zwei Objekte zu einem Cluster zusammengefasst, kann man diese nicht mehrtrennen. Diese Starrheit ist ein Vorteil (kurze Rechenzeiten) aber auch zugleichein Nachteil (keine M¨oglichkeit der Korrektur falscher Zusammenschl¨usse). Hier-archische Methoden beschreiben Daten ganz einfach auf eine andere Art undWeise.
Das Programm diana ist wie agnes ein hierarchisches Verfahren. Es ist jedochdivisiv, d.h. hierbei sind zuerst alle Objekte in einem einzigen Cluster, das dannsolange weiter aufgeteilt wird bis n Cluster resultieren. Als Heterogenit¨atsmaßwird average linkage verwendet.
C <- diana(X, diss = FALSE, metric = "manhattan", stand = TRUE) Zuerst berechnet man zu jedem einzelnen Objekt das Heterogenit¨atsmaß avera-ge linkage zwischen dem Cluster, welches nur das i-te Objekt enth¨alt, zu demanderen Cluster, das aus allen ¨ubrigen Objekten besteht. Jenes Objekt mit dergr¨oßten Heterogenit¨at bildet dann ein eigenes Cluster. Danach werden die He-terogenit¨atsmaße f¨ur jedes ¨ubrig gebliebene Objekt berechnet. Ist das Hetero-genit¨atsmaß von einem Objekt zum abgetrennten Cluster geringer als zu denanderen Objekten, wird es in dieses Cluster verschoben.
Im n¨achsten Schritt wird das gr¨oßere von den zwei so entstandenen Cluster wiederauf dieselbe Weise gesplittet. Das gr¨oßte Cluster ist jenes mit der gr¨oßten Distanzzwischen zwei Objekten.
Das divisive hierarchische Verfahren mona f¨ur ausschließlich bin¨are Variablen un-terscheidet sich von allen bisher vorgestellten Algorithmen. Die Daten werdenhier aufgrund nur einer Variablen in Cluster aufgeteilt.
Im ersten Schritt wird diese zentrale Variable bestimmt. Gew¨ahlt wird daf¨ur jeneVariable, die zu allen ¨ubrigen Variablen am ¨ahnlichsten ist. F¨ur die Variable jwerden also ¨ Ahnlichkeitsmaße Ajg berechnet, wobei g den gesamten Pool der anderen Variablen bezeichnet. Die ¨ Ahnlichkeit zwischen der j-ten Variablen und einem Mitglied aus der Gruppe g berechnet sich aus Ajg = n11n00 − n10n01 . Danach wird die ¨ Ahnlichkeit der j-ten Variablen zu den ¨ubrigen mittels charakterisiert. Als zentrale Variable t wird nun jene gew¨ahlt, f¨ur die diese Summemaximal ist, d.h.
At = max Aj . Der zweite Schritt ist die Bildung der Cluster. Am Anfang sind alle Objekte ineinem Cluster. Dieses wird jetzt aufgeteilt indem man alle Objekte mit xit = 0in ein Cluster gibt, und alle Objekte mit xit = 1 das zweite Cluster bilden. Da-nach werden diese beiden Cluster solange aufgeteilt, bis jedes Objekt ein eigenesCluster bildet bzw. bis man Objekte nicht mehr aus Cluster nehmen kann, weilsie gleich sind bez¨uglich aller Variablen.
Antibiotika in der G¨ Ausgangspunkt der Analyse waren 817 multivariate Beobachtungen (Datenzei-len) ¨uber die Resistenz von E. Coli Bakterien auf 24 Antibiotika. Als Kodierungder Reaktion wurde sensibel sowie resistent verwendet. Aus s¨amtlichen Zeilenzu einer Probe werden nun spaltenweise die antibiotikum-spezifischen relativenH¨aufigkeiten berechnet. Dadurch resultiert eine Datenmatrix mit 103 Zeilen undden jeweiligen 24 mittleren Resistenzfrequenzen. Da unser Interesse jedoch nichtin einer Klassifizierung s¨amtlicher Betriebe sondern im Auffinden ¨ahnlich rea-gierender Antibiotika liegt, wurde diese Datenmatrix transponiert. Transponiertwurde sie deshalb, weil man in den Zeilen die Objekte (Antibiotika) ben¨otigt undin den Spalten die Variablen (Proben), die die Objekte beschreiben.
Zuerst stellte sich heraus, dass s¨amtliche Keime auf die Antibiotika AMC, PT,FOX, CPD, FEP, CTX, CAZ, MEM und AN ausschließlich sensibel reagier-ten. In der weiteren Analyse werden daher diese neun Antibiotika zu einer re-pr¨asentativen Zeile (Cluster) zusammengefasst mit Namen CL1. Weiters wurdenauch die beiden Antibiotika CIP und OFL zu einem zweiten Cluster zusammen-gefasst (mit Namen CL2), da die Keime auf diese beiden Antibiotika auch identreagierten. Somit werden von nun an nur noch 24−9 = 15 Typen von Antibiotikamittels clusteranalytischer Methoden behandelt.
In der Praxis ist es immer vorteilhaft mehr als nur ein Verfahren anzuwendenund dann die erzielten Ergebnisse miteinander zu vergleichen. Zuerst wurde dazuagnes eingesetzt mit average linkage als Heterogenit¨atsmaß (method). Als Distanzwurde die euklidische Distanz gew¨ahlt (metric).
Am Beginn eines hierarchischen Clustering bilden alle Objekte ein eigenes Cluster(15 Cluster). Wenn man im Dendogramm der Abbildung 1 von unten nach obengeht, erkennt man zuerst den Zusammenschluss von CXM mit CL1. Diese beidensind sich also von allen Objekten am ¨ahnlichsten. Das Heterogenit¨atsmaß betr¨agt Agglomerative Coefficient = 0.79 Abbildung 1: Hierarchisches Clustering der G¨ulleproben mit average linkage He-terogenit¨at und euklidischer Distanz.
daf¨ur nur 0.244 (siehe Tabelle 1). Alle anderen Objekte bilden auf dieser erstenStufe jeweils noch eigene Cluster (14 Cluster). Als n¨achstes werden NOR undCL2 zu einem zus¨atzlichen Cluster zusammengef¨ugt mit einer Heterogenit¨at von0.300 auf dieser Stufe (13 Cluster). Das dritte Cluster bildet GM mit TM miteiner Verschiedenheit von 0.571 (12 Cluster), u.s.w. Anhand des Dendrogrammskann man auch sofort erkennen, dass sich TE von allen ¨ubrigen Antibiotika starkunterscheidet. Dies liegt darin begr¨undet, dass die Keime eine hohe Resistenzrateaufweisen und in sogar 72 Prozent der F¨alle resistent auf TE reagieren.
Betrachtet man das Dendrogramm von oben (das entspricht dem Lesen der Ta-belle von unten), so erkennt man, dass bei zwei Cluster (also auf Stufe 13) dasAntibiotikum TE ein Cluster und der Rest der Antibiotika das zweite Clusterbilden. Bei drei Cluster bildet TE ein Cluster sowie auch SXT, und alle ¨ubrigenAntibiotika befinden sich im dritten Cluster. Die Keime sind gegen SXT in zirka17 Prozent der F¨alle resistent. Bei vier Cluster bildet TE, SXT, AM/PIP/CF je-weils ein Cluster und der Rest das vierte Cluster. Hier ist ersichtlich, dass diesesErgebnis nicht unbedingt von den Kategorien der Antibiotika abh¨angt. AM undPIP sind n¨amlich Penicilline und CF geh¨ort zu den Cephalosporinen.
Als G¨utemaß f¨ur dieses Klassifikation verwenden wir den agglomerative coefficient(AC). Dieser bewegt sich zwischen 0 und 1 und ist in unserem Fall gerade 0.79,was auf eine gute Bewertung der gefundenen Clusterstruktur hinweist.
Tabelle 1: Klassifikationen der verschiedenen Stufen aus agnes mit average lin-kage Heterogenit¨at und euklidischer Distanz.
Als zweite Methode wurde pam angewandt. Dies ist ein Clusterverfahren f¨ur Parti-tionen und etwas flexibler als hierarchische Verfahren. Wie schon erw¨ahnt, k¨onnenbei hierarchischen Verfahren Objekte bzw. Cluster die einmal auf einer Stufe ver-einigt wurden auf den folgenden Stufen nicht mehr getrennt werden. Es ist vor-teilhaft diesen Algorithmus f¨ur verschiedene Werte von K anzuwenden. Anhandder G¨utemaße kann man sich dann f¨ur eine Partition entscheiden. pam berechnetf¨ur jedes Objekt i ein G¨utemaß (silhouette width) s(i), das aussagt wie gut einObjekt in das Cluster passt. Weiters erh¨alt man ein G¨utemaß f¨ur jedes Cluster(average silhouette width per cluster s(Ck)) und f¨ur die gesamte Partition (ave-rage silhouette width s(C)). Ein G¨utemaß von Eins zeigt ein gutes Clustering an,ein Maß von Null bedeutet dass ein Objekt zwischen zwei Cluster liegt und einnegatives Maß weist darauf hin, dass das Objekt wahrscheinlich dem falschenCluster zugeteilt wurde.
Zuerst wurde eine Partition f¨ur K = 2 berechnet. Als Medoide ergaben sich NORund TE. Das Ergebnis ist ident dem aus agnes. TE bildet ein Cluster und alleanderen Antibiotika das Andere. F¨ur die G¨utemaße der Cluster erh¨alt man f¨urTE den Wert 0 (s(C) = 0 f¨ur Cluster mit nur einem Objekt) und f¨ur Cluster 1den Wert 0.72. Das G¨utemaß f¨ur die gesamte Partition betr¨agt 0.672.
Die zweite Partition (K = 3) ergab zuerst das Cluster PIP/AM/CF/SXT, dannTE als drittes Cluster, und den Rest als zweites Cluster. Die repr¨asentativenObjekte sind PIP, NOR und TE. Hier gibt es einen Unterschied zu agnes, was Tabelle 2: Ergebnisse aus pam mit K = 2, K = 3 und K = 5 Partitionen.
aber der starren Struktur dieses Verfahrens zuzuschreiben ist. Als G¨utemaß erh¨altman f¨ur Cluster 1 den Wert 0.118, f¨ur das zweite 0.431 und f¨ur das Dritte dieNull. Das gesamte Clustering hat eine G¨ute von 0.319.
F¨ur den Fall K = 4 (nicht in der Tabelle 2 angef¨uhrt) bildet wieder TE einCluster, ein weiteres SXT, das dritte Cluster bildet AM/PIP/CF und das viertewieder alle ¨ubrigen Antibiotika. Dieses Ergebnis ist wieder ident zu jenem mitagnes. Das G¨utemaß betr¨agt hierf¨ur 0.311. Die Partition K = 5 ergibt zus¨atzlichCF als eigenes Cluster. Die restliche Struktur bleibt wie f¨ur K = 4. Auch hiererhielten wir mit agnes dieselben Ergebnisse. Als average silhouette width erhal-ten wir 0.319. F¨ur K = 6 liegt dieser Wert nur mehr bei 0.174. Auch f¨ur K ≥ 7erhalten wir Werte um 0.200.
Die Graphiken in der Abbildung 2 zeigen deutlich, dass das Clustering f¨ur K = 2die Datenstruktur sehr gut wiederspiegelt. Aber auch die Abbildung f¨ur K = 3beschreibt die Daten sehr plausibel.
Zu erw¨ahnen bleibt noch, dass die G¨utemaße s(i), s(C) und s(P ) immer mit Vor-sicht zu interpretieren sind. Diese sollten immer zusammen mit den entsprechen-den Graphiken betrachtet werden. Auch die Ergebnisse anderer Clusterverfahrensollten immer ber¨ucksichtigt werden um eine passende bzw. sinnvolle Cluster-struktur der Daten erkennen zu k¨onnen.
These two components explain 84.57 % of the point variability.
These two components explain 84.57 % of the point variability.
These two components explain 84.57 % of the point variability.
These two components explain 84.57 % of the point variability.
Abbildung 2: Partitionierung der G¨ulledaten, oben f¨ur K = 2 (links) und K = 3(rechts), sowie unten f¨ur K = 4 (links) und K = 5 (rechts).
These two components explain 84.57 % of the point variability.
These two components explain 84.57 % of the point variability.
Abbildung 3: Fuzzy Partitionierung der G¨ulledaten f¨ur K = 2 (links) und K = 3(rechts).
Als drittes Verfahren wurde fanny berechnet. Dieses Clusterverfahren brachtekomplett andere Ergebnisse wie pam und agnes mit sehr schlechten G¨utemaßen.
Auch die Graphiken in der entsprechenden Abbildung 3 weisen auf fragw¨urdigeKlassifikationen hin.
F¨ur K = 2 erhalten wir hier ein Cluster mit TE/AM/SXT/CF/PIP/C und einweiteres mit NOR/CL1/CXM/CL2/TM/GM/NA/FT/CXMAX. Das G¨utemaßdieser gesamten Klassifikation ergibt hier nur 0.287. Weiters resultiert s(TE) =0.106 und jene f¨ur AM, SXT, CF, PIP und C sind sogar negativ. Letzteres weistdarauf hin, dass die Objekte wahrscheinlich der falschen Klasse zugeteilt wurden.
F¨ur K = 3 und K = 4 betr¨agt die average silhouette width s(P ) nur mehr 0.095.
Antibiotika im Wasser In einer Parallelstudie wurden 390 Wasserproben so wie zuvor analysiert. Diesestammen von 86 Orten, davon 40 aus Brunnen- und 46 aus Oberfl¨achenwasser.
Hier kam es nie zu einer Resistenz, und alle Keime reagierten sensibel, bei den12 Antibiotika PT, CPD, FEP, CTX, CAZ, MEM, GM, AN, TM, NOR, CIP,OFL. Eines davon wird in Folge unter dem Namen CL1 weiterhin verwendet.
Jetzt zeigten C und FT ausschließlich dieselben Reaktionen und wir verwendetweiterhin eine davon unter der Bezeichnung CL2. Daher reduziert sich hier dieAnzahl unterscheidbarer Antibiotika von 24 sogar auf nur 12.
Agglomerative Coefficient = 0.73 Abbildung 4: Hierarchisches Clustering der Wasserproben mit average linkageHeterogenit¨at und euklidischer Distanz.
Das hierarchische Clustering verbindet sofort CL1 und CL2. Da es f¨ur die Mit-glieder in CL1 niemals und bei denen in CL2 gerade einmal zu einer sensiblen Re-aktion gekommen ist, ist dieser erste Schritt auch nachvollziehbar. Die folgendenVerbindungen sind wie f¨ur die Ergebnisse bei den G¨ulleproben zu interpretierenund sind als Dendrogramm in der Abbildung 4 dargestellt.
Wendet man das Partitionsverfahren auf die Daten an, so f¨uhrt dies zu den Er-gebnissen in der Abbildung 5. Hier sieht man deutlich, dass bei den Wasserprobendas Antibiotikum CF (mit einer Resistenzrate von ¨uber 35%) die Rollen von TEbei den G¨ulleproben einnimmt. Die ist in der K = 2 L¨osung ganz klar erkennt-lich. Erlaubt man K = 3 Cluster, so wird dadurch das Antibiotikum TE auchabgetrennt. Die L¨osung mit K = 4 fasst noch die Antibiotika FOX, CXM undCXMAX zusammen, letzteres wird bei einer weiteren Partition davon wieder ab-getrennt. Dieses Ergebnis mit K = 5 ¨ahnelt stark dem Resultat des hierarchischenClustering in der Abbildung 4 Durch das Fuzzy Clustering fanny ergeben sich auch hier schlechte G¨utemaße.
Die Ergebnisse f¨ur zwei und vier Cluster sind der Abbildung 6 dargestellt. F¨urK = 2 erhalten wir hier ein Cluster mit AM/CF/CXMAX/TE/SXT und die ¨ubrigen ergeben ein zweites Cluster. F¨ur K = 4 erh¨alt man ein Cluster mit den Antibiotika AM/PIP/NA/TE, eines mit AMC/CL1/SXT/CL2, sowie CF alseigenes Cluster, und letztlich eine Gruppe bestehend aus CXM/CXMAX/FOX.
These two components explain 81.8 % of the point variability.
These two components explain 81.8 % of the point variability.
These two components explain 81.8 % of the point variability.
These two components explain 81.8 % of the point variability.
Abbildung 5: Partitionierung der Wasserdaten,, oben f¨ur K = 2 (links) undK = 3 (rechts), sowie unten f¨ur K = 4 (links) und K = 5 (rechts).
These two components explain 81.8 % of the point variability.
These two components explain 81.8 % of the point variability.
Abbildung 6: Fuzzy Partitionierung der Wasserdaten f¨ur K = 2 (links) und K = 4(rechts).
Mittels der Clusteranalyse wurden 24 zu analysierenden Antibiotika in Gruppenaufgeteilt, und zwar so, dass E. Coli Bakterien auf Antibiotika in einer Gruppem¨oglichst gleich reagieren (sensibel oder resistent). Die Gruppen die also bei derClusteranalyse gebildet wurden sind in sich gleichartig und untereinander un-terschiedlich. Dies wurde mittels Homogenit¨ats- und Heterogenit¨atsmaße belegtbzw. durch graphische Auswertungen dargestellt. Als Klassifikationstypen wur-den in dieser Analyse die Partition und die Hierarchie gew¨ahlt. Dies bedeutet,dass in den Cluster jedes Antibiotikum nur einmal auftreten darf.
ulle: Wegen gleicher Keimreaktionen wurden die Antibiotika AMC, PT, FOX, CPD, FEP, CTX, CAZ, MEM und AN zu Cluster CL1 zusammengefasst. Auchdie Antibiotika CIP und OFL wurden in CL2 umbenannt, da sie ausnahmslos glei-che Reaktionen hervorgerufen haben. Somit erfolgte nur mehr eine Gruppierungvon 15 unterschiedlichen Antibiotika. Aufgrund der Ergebnisse des hierarchischenVerfahrens sowie den Partitionen bzw. wegen der daraus resultierenden G¨utemaßeund graphischen Auswertungen, ist f¨ur die G¨ulledaten das Clustering der An-tibiotika in drei Gruppen am sinnvollsten (das G¨utemaß betr¨agt daf¨ur 0.319).
Die erste Gruppe wird von PIP/AM/CF/SXT gebildet, die zweite beinhaltetNOR/CXM/CL1/CL2/TM/NA/GM/FT/CXMAX/C und g¨anzlich un-terschiedlich dazu ist die dritte Gruppe mit TE. Die Clusteranalyse hat hierbeialso die zu untersuchenden Antibiotika in eine große und zwei kleinere Gruppenaufgeteilt, die sich alle stark von einander unterscheiden.
Wasser: Da sich die Menge der Antibiotika, auf welche die Keime aus dem Was-ser ausnahmslos sensibel regieren, von denen zuvor unterscheiden, kann auch nurschwer ein unmittelbarer Vergleich der Ergebnisse angestellt werden. So konnteim Wasser keine Resistezreaktion der Keime auf die Antibiotika PT, CPD, FEP,CTX, CAZ, MEM, GM, TM, AN, NOR, CIP, OFL beobachtet werden. Diese wur-den daher zum Cluster CL1 zusammen gegeben. Gleiche Reaktionen zeigtemn dieKeime auf C und FT, welche das Cluster CL2 bildeten. Die Ergebnisse beziehensich in diesem Fall also nur auf die verbleibenden 13 Antibiotika. Von diesen bil-den die beiden Antibiotika CF sowie TE immer ganz deutlich zwei eigene Cluster.
Zwei weitere Cluster sind durch CXM/FOX sowie durch CXMAX definiert.
Alle ¨ubrigen Antibiotika, das sind AM/AMC/PIP/CL1/CL2/SXT/NA, bil-den noch eine gr¨oßere f¨unfte Gruppe.
Kaufman, L., Rousseeuw, P.J. (1990): Finding Groups in Data: An Introduction to Cluster Analysis. Wiley, New York. Hartung, J., Elpelt, B. (1986): Multivariate Statistik: Lehr und Handbuch der angewandten Statistik. Oldenburg, M¨unchen.

Source: http://www.stat.tugraz.at/TechnicalReports/tr22.pdf

Euroboss

Scandinavian Sarcoma Group and Oncologic Center, Lund, Sweden Euroboss I A European treatment protocol for bone sarcoma in patients older than 40 years February 1, 2003 Euroboss I Scandinavian Sarcoma Group& Oncologic centerLund, Sweden EUROBOSS I A European treatment protocol for bone sarcoma inpatients older than 40 years

Unusual intraosseous transmigration of impacted tooth - report of three cases

International Journal of Oral & Maxillofacial Pathology. 2012;3(3):56-60 ISSN 2231 – 2250 Available online at http://www.journalgateway.com or www.ijomp.org Case Report Intraosseous Transmigration of Impacted Canines: Report of Five Cases Sulabha AN, Sachin Deshpande, Sameer C Abstract Transmigration is rare and unusual anomaly involving the intraosseous migration of impacted tooth across midline regardless of the distance. This occurs almost exclusively with mandibular canines. Etiology is still unclear and is not well documented in the literature. Transmigration can occur as isolated finding or in association with other findings such as dentigerous cyst, odontomas, impactions of other teeth etc. Transmigrated canines are particularly significant due to aesthetic and functional importance. Early radiographic examination of the patient is important for the treatment. More documentation of this anomaly and future studies may lead to a better understanding of this rare anomaly, its etiology and improvement of the classification criteria. This paper presents five cases of transmigration of mandibular canines of which two were associated with dentigerous cyst, one associated with bodily rotation of canine, one associated with absence of third molars on right side. Keywords: Impacted Canine;Tooth Migration;Transmigration;Intraosseous;Dentigerous Cyst; Observation. Sulabha AN, Sachin Deshpande, Sameer C. Intraosseous Transmigration of Impacted Canines: Report of Five Cases. International Journal of Oral and Maxillofacial Pathology; 2012:3(3):56-60. ©International Journal of Oral and Maxillofacial Pathology. Published by Publishing Division, Celesta Software Private Limited. All Rights Reserved.