Versionen im Vergleich

Schlüssel

  • Diese Zeile wurde hinzugefügt.
  • Diese Zeile wurde entfernt.
  • Formatierung wurde geändert.

...

Genug verwirrt. Bevor der Einsatz regulärer Ausdrücke näher erläutert werden kann, zunächst eine kleine Übung, die verdeutlichen soll, inwiefern Textdaten Variablen und abstrakte Muster zugrunde liegen. Die Fragestellung: Welche formalen Eigenschaften haben Datensatz A und Datensatz B in Abgrenzung zu Datensatz C gemeinsam? (Es lohnt sich wirklich, die sie zu durchdenken, bevor man die Lösung liest.

 Datensatz ADatensatz BDatensatz C
1)GA1
2)ABa
3)aubavbcud
4)abc 1abd 1efc1
5)Der Hund schläft im Haus.Niemand war im Haus.Im Haus war niemand.
6)ABC DEF GHI.JKL MNO GH1.TUV WXY IGH.
7)Alle Auen sind grün.Auch Autobahnen sind grau.Mein Hund kann Sitz.

Die Gemeinsamkeiten in 1 und 2 sind schnell erklärt. Während es sich in 1) bei Datensatz A (G) und Datensatz B (A) um Buchstaben handelt, besteht Datensatz C aus einer Ziffer (1).
Im zweiten Beispiel liegt der Unterschied zwischen den Datensätzen A (A) und B (B) auf der einen und C (a) auf der anderen Seite in der Groß- und Kleinschreibung der Buchstaben.

 Datensatz ADatensatz BDatensatz C
3)aubavbcud
4)abc 1abd 1efc1

Ein wenig komplizierter wird es in den Beispielen 3) und 4). Hier spielt neben dem Zeichentypus auch die Abfolge der Zeichen ebenfalls eine Rolle. Die Datensätze A und B im dritten Beispiel zeichnen sich in Abgrenzung zu C dadurch aus, dass beide dreistellig sind, mit einem a beginnen und mit einem b enden (natürlich handelt es sich auch um Buchstaben, Kleinbuchstaben, aber darin unterscheiden sie sich nicht von C). Das mittlere Zeichen unterscheidet sich in A und B, ist also für das gemeinsame Muster egal. Umschreiben ließen sich die Folgen folglich durch "a egal b".
Beispiel 4) zeigt zudem, dass auch Leerstellen von Bedeutung sind. Das Muster, das ausschließlich den Datensätzen A und B gemeinsam ist, besteht hier nicht nur aus der Folge "a b egal", sondern lässt sich auf "a b egal Leerstelle 1" erweitern.

  Datensatz A Datensatz B Datensatz C
5)Der Hund schläft im Haus.Niemand war im Haus.Im Haus war niemand.

In Beispiel 5) drängt sich das gemeinsame im Haus auf. Dies erscheint zwar auch in Datensatz C, tritt aber anders als in A und B nicht am Ende des Satzes auf. Hier spielt also die Position des Syntagmas im Haus eine Rolle.

  Datensatz A Datensatz B Datensatz C
6)ABC DEF GHI.JKL MNO GH1.TUV WXY IGH.

Ähnliches lässt sich auch für Beispiel 6) sagen. Mit Ausnahme von G und H liegen keine gemeinsamen Buchstaben vor. Um die Datensätze A und B von C abgrenzen zu können, muss auch die Position von GH beachtet werden. Während auf die Buchstabenkombination in A und B ein beliebiges Zeichen und schließlich ein Punkt folgt, ist der Punkt in Datensatz C direkt hinter GH platziert. Folglich könnte eine Umschreibung der entscheidenden Sequenz in A und B "G H egal Punkt" lauten.

  Datensatz A Datensatz B Datensatz C
7)Alle Auen sind grün.Auch Autobahnen sind grau.Mein Hund kann Sitz.

Die Datensätze des siebten Beispiels lassen möglicherweise mehrere Lösungen zu und es dient lediglich dazu, den Blick für abstrakte Muster im Text zu schärfen. Alle drei Datensätze bestehen aus einem durch einen Punkt beendeten Satz, der sich aus vier Wörtern zusammensetzt, welche mit Ausnahme von Autobahnen stets aus vier Buchstaben bestehen. Bezüglich der Gemeinsamkeiten von Datensatz A und B in Abgrenzung zu C ließe sich anführen, dass die ersten beiden Wörter in beiden Fällen mit einem A beginnen, das dritte Wort sind ist und das vierte Wort mit gr beginnt. Anders gesagt: "A egal egal egal Leerstelle A unbestimmt oft egal Leerstelle sind gr egal egal Punkt".

...