Information zu Daten-Formaten
Größere Datensammlungen können mit Hinblick auf wiederkehrende Bruchpunkte, wiederkehrende Zugewinne und Verluste chromosomalen Materials, statistsiche Abhängigkeiten zwischen Rearrangements, sowie Abhängigkeit von Rearrangements von der gesamten Karyotypkomplexität oder anderen Faktoren im Data Mining untersucht werden. Hierzu müssen die Daten in einer Datei bereitgestellt werden, deren Format von den Online-Analyse-Programmen gelesen werden kann. Dreierlei Formate werden bereit gestellt: das Format der Mitelman Datanebank ("Mitelman"), ein einfaches Format für die Bänderungsanalyse ("custom ISCN"), und ein einfaches Format für vergleichende Genomhybridisierungsanalysen (CGH) ("custom CGH").
Das Mitelman-Datenbank-Format
Daten, die aus der Mitelman-Datenbank herunter geladen wurden, weisen folgendes Format auf:
Die Datei hat eine Kopfzeile, welche die Feldinhalte beschreibt. Die Datenfelder werden mit Tabulatoren voneinander abegtrennt.
Die Datenfelder sind im Einzelnen:
- 1es Feld: Literatur-Nummer: identifiziert eine Veröffentlichung
- 2es Feld: Fall-Identifikationsnummer
- 3es Feld: Untersuchungsnummer
- 4es Feld: Autor, Jahr (Veröffentlichungsdaten)
- 5es Feld: Zeitschrift (Veröffentlichungsdaten)
- 6es Feld: Band, Seite (Veröffentlichungsdaten)
- 7es Feld: Morphologie
- 8es Feld: Topographie
- 9es Feld: Karyotyp (ISCN-Formel für alle Klone des Karyotyp, ggf. mit einem Schrägstrich ("/") voneinader getrennt).
Wenn für ein Feld keine Daten vorliegen, muß das Feld trotzdem vorhanden sein, kann aber leer gelassen werden bzw. mit 0 (für numerische Daten) gefüllt werden. Es wird empfohlen, eine Fall-Identifikationsnummer anzugeben; damit wird es möglich, die Ausgabe der Fehlerdatei zu nutzen und die fehlerhaften Daten zu überarbeiten. Die Daten dürfen nicht von Anführungsstrichen umgeben sein.
Beispiel:
Reference Number Case Number Investigation Number Author, Year Journal Name Volume, Page Morphology Topography Short Karyotype 3409 1 1 Abdi et al 1990 J Pakistan Med Ass 40:9-11 Acute lymphoblastic leukemia, FAB type L1 48,XY,+2,+8,t(13;22)(q?;q?) 3409 3 1 Abdi et al 1990 J Pakistan Med Ass 40:9-11 Acute lymphoblastic leukemia, FAB type L1 48,XY,-11,+3mar 3409 6 1 Abdi et al 1990 J Pakistan Med Ass 40:9-11 Acute lymphoblastic leukemia, FAB type L2 47,XX,+18 1139 1 1 Abe & Sandberg 1984 Cancer Genet Cytogenet 13:121-127 Acute lymphoblastic leukemia, NOS 46,XY,t(4;11)(q21;q23) 606 1 1 Abe et al 1979 Am J Hematol 6:259-266 Acute lymphoblastic leukemia, NOS 46,XY,del(5)(q12q23),del(9)(p21) 410 1 1 Abe et al 1982 Cancer Genet Cytogenet 7:185-195 Acute lymphoblastic leukemia, FAB type L3 46,XY,t(8;22)(q24;q12)/46,idem,+del(1)(p22),-22/46,idem,add(1)(q?),+del(1),-5 838 1 1 Abe et al 1983 Cancer Genet Cytogenet 9:139-144 Acute lymphoblastic leukemia, NOS 46,XX,del(11)(q13q23),ins(19;11)(p13;q13q23) 1162 1 1 Abe et al 1985 Cancer Genet Cytogenet 14:45-59 Acute lymphoblastic leukemia, FAB type L2 48-52,XX,+7,+11,+12,+13,+14,i(17)(q10),+20,+22 1162 1 2 Abe et al 1985 Cancer Genet Cytogenet 14:45-59 Acute lymphoblastic leukemia, FAB type L2 103,XXXX,+2,-4,+7,+7,+11,+12,+12,+13,+14,+16,i(17)(q10)x2,+20,+20,+22/53,XX,+X,+7,+11,+12,+13,i(17)(q10),+20,+22 1303 1 1 Abe et al 1985 Cancer Genet Cytogenet 18:49-54 Acute lymphoblastic leukemia, FAB type L2 46,XX,t(9;22)(q34;q11) 2398 1 1 Abe et al 1988 Cancer Genet Cytogenet 31:279-283 Acute lymphoblastic leukemia, NOS 46,XY,del(9)(p13p22),add(10)(p11),del(11)(q21q23) 5513 1 1 Abeliovich et al 1994 Cancer Genet Cytogenet 76:70-71 Acute lymphoblastic leukemia, FAB type L2 45,X,-Y/46,XY,t(9;22)(q34;q11) 1059 1 1 Abromowitch et al 1984 Br J Haematol 56:409-416 Acute lymphoblastic leukemia, FAB type L1 46,XY,t(1;19)(q23;p13),add(13)(q?) 1059 1 2 Abromowitch et al 1984 Br J Haematol 56:409-416 Acute lymphoblastic leukemia, FAB type L1 85,XXYY,-1,t(1;19),-2,-3,-4,del(4)(q23),-5,del(5)(p13),del(6)(q15),-7,+8,+8,+del(8)(p21),-9,-10,-12,dup(14)(q13q32)x2,-16,-17,-18,der(19)t(1;19),+20,+21,+21,-22,-22,+mar 4455 1 1 Abshire et al 1992 Leukemia 6:357-362 Acute lymphoblastic leukemia, NOS 44,X,-X,-20,t(20;22)(p?;q?),-22 4455 1 2 Abshire et al 1992 Leukemia 6:357-362 Acute lymphoblastic leukemia, NOS 44,X,-X,del(2)(q?),t(6;9)(q?;q?),-20,+t(20;22),-22 879 8 1 Aide et al 1981 Acta Acad Med Wuhan 1:7-15 Acute lymphoblastic leukemia, NOS 46,XY,t(9;22)(q34;q11)
Das "Custom ISCN"- Format
Das "Custom ISCN"- Format wurde für Daten aus Bänderungsanalysen geschaffen. Es ist ein recht einfaches Format: nur eine Identifikationsnummer für den Fall und der Karyotyp in ISCN-Schreibweise werden benötigt. Klone polyklonaler Karyotypen werden mit Schrägstrichen ("/") voneinander abgetrennt; "leere" Klone sind zulässig.
Sie können wählen, ob eine Kopfzeile vorhanden ist oder nicht. Weiterhin können die Datenfelder mit Tabulatoren, "pipe" ("|"), oder einfacher Leerstelle (" ") getrennt werden. Optional können die Datenfelder von Anführungsstrichen (") eingefaßt werden.
Beispiele:
Mit Kopfzeile und einem Tabulator als Trennzeichen:
ID Karyotyp Fall_1 "46,XX, t(9;22)(q34;q11)" Fall_2 "45,XX,der(1)t(1;8)(p1?1;p?), der(8)t(8;15)(q1?1;q1?1),-15,der(17)(17pter->17q25::1p36->1p1?3::8q?21->8pter)" Fall_3 46,X,-Y, +15 Fall_4 "46,X,-Y,+15/47,XY,+6/ 46,XY,del(9)(q13-21)"
Ohne Kopfzeile, mit "pipe" als Trennzeichen:
Fall_1|"46,XX, t(9;22)(q34;q11)" Fall_2|"45,XX,der(1)t(1;8)(p1?1; p?),der(8)t(8;15)(q1?1;q1?1),-15,der(17)(17pter->17q25::1p36->1p1?3::8q?21->8pter)" Fall_3|46,X,-Y,+15 Fall_4|"46,X,-Y,+15 / 47,XY,+6/46,XY,del(9)(q13-21)"
Mit Kopfzeile, und einer Leerstelle as Trennzeichen
(Hinweis: weder im Karyotyp noch in der Identifikationsnummer darf
eine Leerstelle vorhanden sein!):
ID Karyotyp Fall_1 "46,XX,t(9;22)(q34;q11)" Fall_2 "45,XX,der(1)t(1;8)(p1?1;p?),der(8)t(8;15)(q1?1;q1?1),-15,der(17)(17pter->17q25::1p36->1p1?3::8q?21->8pter)" Fall_3 46,X,-Y,+15 Fall_4 "46,X,-Y,+15/47,XY,+6/46,XY,del(9)(q13-21)"
Das "Custom CGH"- Format
Das "Custom ISCN"- Format wurde für Daten aus CGH-Analysen. Es ist ein recht einfaches Format: nur eine Identifikationsnummer für den Fall und der Karyotyp in CGH-Schreibweise werden benötigt.
Sie können wählen, ob eine Kopfzeile vorhanden ist oder nicht. Weiterhin können die Datenfelder mit Tabulatoren, oder "pipe" ("|") getrennt werden. Optional können die Datenfelder von Anführungsstrichen (") eingefaßt werden.
Eine einfache Leerstelle (" ") ist als Trennzeichen unzulässig, da die Beschreibungen mit "rev ish ..." beginnen, worin ja Leerstellen vorhanden sind.
Beispiele:
Mit Kopfzeile und einem Tabulator als Trennzeichen:
ID CGH_Karyotyp Fall_1 Rev ish enh(6p21p25),dim(2q35q37) Fall_2 "Rev ish enh(1q22q31; 1q41qter; 6p; 15q25qter;19p13.2pter; 19q; 20q13.1qter)" Fall_3 "Rev ish enh(2p12pter; 6p)" Fall_4 Rev ish enh(1q, 4q27q35, 6p, 14q22q32.3, 17q22q25,19),dim(16q12.2qter)
Ohne Kopfzeile, mit "pipe" als Trennzeichen:
Fall_1|Rev ish enh(6p21p25),dim(2q35q37) Fall_2|"Rev ish enh(1q22q31; 1q41qter; 6p; 15q25qter; 19p13.2pter; 19q; 20q13.1qter)" Fall_3|"Rev ish enh(2p12pter; 6p)" Fall_4|Rev ish enh(1q, 4q27q35, 6p, 14q22q32.3, 17q22q25,19), dim(16q12.2qter)
Solche Daten können verwendet werden für die Analyse von:
- wiederkehrende Bruchpunkte und wiederkehrende Zugewinne und Verluste
- Abhängigkeiten zwischen Rearrangements
- Abhängigkeit von Rearrangements von der Komplexität des Karyotyps
Auf Grund technischer Beschränkungen (Vorhandensein einer Datenbank, Rechenzeit) können diese Online-Programme nur einen Vorgeschmack auf die volle Analyse-Kapazität der CyDAS Desktop-Version geben, die im Download-Bereich erhältlich ist.