Information zu Daten-Formaten

English version

Größere Datensammlungen können mit Hinblick auf wiederkehrende Bruchpunkte, wiederkehrende Zugewinne und Verluste chromosomalen Materials, statistsiche Abhängigkeiten zwischen Rearrangements, sowie Abhängigkeit von Rearrangements von der gesamten Karyotypkomplexität oder anderen Faktoren im Data Mining untersucht werden. Hierzu müssen die Daten in einer Datei bereitgestellt werden, deren Format von den Online-Analyse-Programmen gelesen werden kann. Dreierlei Formate werden bereit gestellt: das Format der Mitelman Datanebank ("Mitelman"), ein einfaches Format für die Bänderungsanalyse ("custom ISCN"), und ein einfaches Format für vergleichende Genomhybridisierungsanalysen (CGH) ("custom CGH").

Das Mitelman-Datenbank-Format

Daten, die aus der Mitelman-Datenbank herunter geladen wurden, weisen folgendes Format auf:

Die Datei hat eine Kopfzeile, welche die Feldinhalte beschreibt. Die Datenfelder werden mit Tabulatoren voneinander abegtrennt.

Die Datenfelder sind im Einzelnen:

1es Feld: Literatur-Nummer: identifiziert eine Veröffentlichung
2es Feld: Fall-Identifikationsnummer
3es Feld: Untersuchungsnummer
4es Feld: Autor, Jahr (Veröffentlichungsdaten)
5es Feld: Zeitschrift (Veröffentlichungsdaten)
6es Feld: Band, Seite (Veröffentlichungsdaten)
7es Feld: Morphologie
8es Feld: Topographie
9es Feld: Karyotyp (ISCN-Formel für alle Klone des Karyotyp, ggf. mit einem Schrägstrich ("/") voneinader getrennt).

Wenn für ein Feld keine Daten vorliegen, muß das Feld trotzdem vorhanden sein, kann aber leer gelassen werden bzw. mit 0 (für numerische Daten) gefüllt werden. Es wird empfohlen, eine Fall-Identifikationsnummer anzugeben; damit wird es möglich, die Ausgabe der Fehlerdatei zu nutzen und die fehlerhaften Daten zu überarbeiten. Die Daten dürfen nicht von Anführungsstrichen umgeben sein.

Beispiel:

    Reference Number    Case Number     Investigation Number    Author, Year    Journal Name    Volume, Page    Morphology      Topography      Short Karyotype
3409    1       1       Abdi et al 1990 J Pakistan Med Ass      40:9-11 Acute lymphoblastic leukemia, FAB type L1               48,XY,+2,+8,t(13;22)(q?;q?)
3409    3       1       Abdi et al 1990 J Pakistan Med Ass      40:9-11 Acute lymphoblastic leukemia, FAB type L1               48,XY,-11,+3mar
3409    6       1       Abdi et al 1990 J Pakistan Med Ass      40:9-11 Acute lymphoblastic leukemia, FAB type L2               47,XX,+18
1139    1       1       Abe & Sandberg 1984     Cancer Genet Cytogenet  13:121-127      Acute lymphoblastic leukemia, NOS               46,XY,t(4;11)(q21;q23)
606     1       1       Abe et al 1979  Am J Hematol    6:259-266       Acute lymphoblastic leukemia, NOS               46,XY,del(5)(q12q23),del(9)(p21)
410     1       1       Abe et al 1982  Cancer Genet Cytogenet  7:185-195       Acute lymphoblastic leukemia, FAB type L3               46,XY,t(8;22)(q24;q12)/46,idem,+del(1)(p22),-22/46,idem,add(1)(q?),+del(1),-5
838     1       1       Abe et al 1983  Cancer Genet Cytogenet  9:139-144       Acute lymphoblastic leukemia, NOS               46,XX,del(11)(q13q23),ins(19;11)(p13;q13q23)
1162    1       1       Abe et al 1985  Cancer Genet Cytogenet  14:45-59        Acute lymphoblastic leukemia, FAB type L2               48-52,XX,+7,+11,+12,+13,+14,i(17)(q10),+20,+22
1162    1       2       Abe et al 1985  Cancer Genet Cytogenet  14:45-59        Acute lymphoblastic leukemia, FAB type L2               103,XXXX,+2,-4,+7,+7,+11,+12,+12,+13,+14,+16,i(17)(q10)x2,+20,+20,+22/53,XX,+X,+7,+11,+12,+13,i(17)(q10),+20,+22
1303    1       1       Abe et al 1985  Cancer Genet Cytogenet  18:49-54        Acute lymphoblastic leukemia, FAB type L2               46,XX,t(9;22)(q34;q11)
2398    1       1       Abe et al 1988  Cancer Genet Cytogenet  31:279-283      Acute lymphoblastic leukemia, NOS               46,XY,del(9)(p13p22),add(10)(p11),del(11)(q21q23)
5513    1       1       Abeliovich et al 1994   Cancer Genet Cytogenet  76:70-71        Acute lymphoblastic leukemia, FAB type L2               45,X,-Y/46,XY,t(9;22)(q34;q11)
1059    1       1       Abromowitch et al 1984  Br J Haematol   56:409-416      Acute lymphoblastic leukemia, FAB type L1               46,XY,t(1;19)(q23;p13),add(13)(q?)
1059    1       2       Abromowitch et al 1984  Br J Haematol   56:409-416      Acute lymphoblastic leukemia, FAB type L1               85,XXYY,-1,t(1;19),-2,-3,-4,del(4)(q23),-5,del(5)(p13),del(6)(q15),-7,+8,+8,+del(8)(p21),-9,-10,-12,dup(14)(q13q32)x2,-16,-17,-18,der(19)t(1;19),+20,+21,+21,-22,-22,+mar
4455    1       1       Abshire et al 1992      Leukemia        6:357-362       Acute lymphoblastic leukemia, NOS               44,X,-X,-20,t(20;22)(p?;q?),-22
4455    1       2       Abshire et al 1992      Leukemia        6:357-362       Acute lymphoblastic leukemia, NOS               44,X,-X,del(2)(q?),t(6;9)(q?;q?),-20,+t(20;22),-22
879     8       1       Aide et al 1981 Acta Acad Med Wuhan     1:7-15  Acute lymphoblastic leukemia, NOS               46,XY,t(9;22)(q34;q11)

Das "Custom ISCN"- Format

Das "Custom ISCN"- Format wurde für Daten aus Bänderungsanalysen geschaffen. Es ist ein recht einfaches Format: nur eine Identifikationsnummer für den Fall und der Karyotyp in ISCN-Schreibweise werden benötigt. Klone polyklonaler Karyotypen werden mit Schrägstrichen ("/") voneinander abgetrennt; "leere" Klone sind zulässig.

Sie können wählen, ob eine Kopfzeile vorhanden ist oder nicht. Weiterhin können die Datenfelder mit Tabulatoren, "pipe" ("|"), oder einfacher Leerstelle (" ") getrennt werden. Optional können die Datenfelder von Anführungsstrichen (") eingefaßt werden.

Beispiele:
Mit Kopfzeile und einem Tabulator als Trennzeichen:

ID    Karyotyp
Fall_1    "46,XX, t(9;22)(q34;q11)"
Fall_2    "45,XX,der(1)t(1;8)(p1?1;p?), der(8)t(8;15)(q1?1;q1?1),-15,der(17)(17pter->17q25::1p36->1p1?3::8q?21->8pter)"
Fall_3    46,X,-Y, +15
Fall_4    "46,X,-Y,+15/47,XY,+6/ 46,XY,del(9)(q13-21)"

Ohne Kopfzeile, mit "pipe" als Trennzeichen:

Fall_1|"46,XX, t(9;22)(q34;q11)"
Fall_2|"45,XX,der(1)t(1;8)(p1?1; p?),der(8)t(8;15)(q1?1;q1?1),-15,der(17)(17pter->17q25::1p36->1p1?3::8q?21->8pter)"
Fall_3|46,X,-Y,+15
Fall_4|"46,X,-Y,+15 / 47,XY,+6/46,XY,del(9)(q13-21)"

Mit Kopfzeile, und einer Leerstelle as Trennzeichen
(Hinweis: weder im Karyotyp noch in der Identifikationsnummer darf eine Leerstelle vorhanden sein!):

ID    Karyotyp
Fall_1 "46,XX,t(9;22)(q34;q11)"
Fall_2 "45,XX,der(1)t(1;8)(p1?1;p?),der(8)t(8;15)(q1?1;q1?1),-15,der(17)(17pter->17q25::1p36->1p1?3::8q?21->8pter)"
Fall_3 46,X,-Y,+15
Fall_4 "46,X,-Y,+15/47,XY,+6/46,XY,del(9)(q13-21)"

Das "Custom CGH"- Format

Das "Custom ISCN"- Format wurde für Daten aus CGH-Analysen. Es ist ein recht einfaches Format: nur eine Identifikationsnummer für den Fall und der Karyotyp in CGH-Schreibweise werden benötigt.

Sie können wählen, ob eine Kopfzeile vorhanden ist oder nicht. Weiterhin können die Datenfelder mit Tabulatoren, oder "pipe" ("|") getrennt werden. Optional können die Datenfelder von Anführungsstrichen (") eingefaßt werden.

Eine einfache Leerstelle (" ") ist als Trennzeichen unzulässig, da die Beschreibungen mit "rev ish ..." beginnen, worin ja Leerstellen vorhanden sind.

Beispiele:
Mit Kopfzeile und einem Tabulator als Trennzeichen:

ID    CGH_Karyotyp
Fall_1    Rev ish enh(6p21p25),dim(2q35q37)
Fall_2    "Rev ish enh(1q22q31; 1q41qter; 6p; 15q25qter;19p13.2pter; 19q; 20q13.1qter)"
Fall_3    "Rev ish enh(2p12pter; 6p)"
Fall_4    Rev ish enh(1q, 4q27q35, 6p, 14q22q32.3, 17q22q25,19),dim(16q12.2qter)

Ohne Kopfzeile, mit "pipe" als Trennzeichen:

Fall_1|Rev ish enh(6p21p25),dim(2q35q37)
Fall_2|"Rev ish enh(1q22q31; 1q41qter; 6p; 15q25qter; 19p13.2pter; 19q; 20q13.1qter)"
Fall_3|"Rev ish enh(2p12pter; 6p)"
Fall_4|Rev ish enh(1q, 4q27q35, 6p, 14q22q32.3, 17q22q25,19), dim(16q12.2qter)

Solche Daten können verwendet werden für die Analyse von:

Auf Grund technischer Beschränkungen (Vorhandensein einer Datenbank, Rechenzeit) können diese Online-Programme nur einen Vorgeschmack auf die volle Analyse-Kapazität der CyDAS Desktop-Version geben, die im Download-Bereich erhältlich ist.