Page tree

Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

...

Ohne einen oder-Operator müsste man hier zwei Suchanfragen formulierenformulieren, was in diesem Beispiel noch durchaus möglich wäre. Nun müssen wir aber auch damit rechnen, dass mit der Transkription der Audiodateien mehrere übermüdete studentische Hilfskräfte beschäftigt waren. Von diesen ließen einige eine Leerstelle auf das Apostroph folgen, andere nicht. Dies bewirkt, dass wir sogar 4 Suchanfragen starten müssten, könnten wir unsere Unsicherheit nicht durch ein ? ausdrücken. Meine dadurch auf c'_?est pas auf ce n'_?est pas reduzierbare Ausdrücke ließen sich umschreiben als: SUCHE (c' gefolgt von einem Leerzeichen ODER nicht, gefolgt von einem est pas) UND SUCHE (ce gefolgt von einem n', gefolgt von einem Leerzeichen ODER nicht, gefolgt von einem est pas). Die beiden Suchanfragen können aber auch zusammengefasst werden unter: SUCHE (c gefolgt von ((' gefolgt von (einem Leerzeichen ODER nichts))  ODER (e gefolgt von einem Leerzeichen)), gefolgt von ((n' gefolgt von (einem Leerzeichen ODER nichts)) ODER nichts), gefolgt von est pas). Hä was? Die Schritt-für-Schritt-Anleitung folgt später.

Einige der bekannten Metazeichen stellen eine Möglichkeit dar, ein "oder" zum Ausdruck zu bringen. So sucht fatt[oa] zum Beispiel nach der dem Wortsegment fatt gefolgt von einem o ODER einem a. Schwieriger wird es, will man ein ODER zwischen zwei unterschiedliche Zeichenfolgen setzen. Nehmen wir an, wir bräuchten einen Ausdruck, der sowohl mit fame als auch mit faro matcht. Wir könnten zu diesem Zweck fa[mr][eo] verwenden, allerdings würden wir Gefahr laufen, auch fare (und famo) in unser Ergebnis einzuschließen. Um dies zu vermeiden, brauchen wir ein paar in diesem Manual noch nicht eingeführte Metazeichen:

...

Die beiden Teilausdrücke lassen sich nun mithilfe des oder-Operators verbinden und in c()est pas einfügen: c((e_n'(|_))|('(|_)))est pas

Die Ersetzfunktion

Die Klammern erweisen sich als überaus hilfreich, arbeitet man mit der Ersetzfunktion eines Texteditors (Die Funktion "Ersetzen" befindet sich meist irgendwo in der Nähe der Funktion Suchen "Suchen". Bei Notepad/ Textpad sind beide unter dem Menüpunkt "Suchen"/ "Search" gelistet). Diese Funktion ist insofern sinnvoll, als dass sie die Möglichkeit eröffnet, Textdaten und ihm zugrundeliegende Muster aktiv zu manipulieren.

Eine einfache Ersetz-Operation bestünde beispielsweise darin, alle Formen des Farbadjektivs rosso in einem Text durch die Nennform rosso zu ersetzen.Ein regulärer Ausdruck zum Auffinden aller Formen könnte dabei so lauten:

Ausdruckmatcht...
ross[oaie]rosso, rossa, rossi, rosse

Im "Ersetzen durch"-Feld wird nun die überschreibende Form definiert, hier rosso.

Ausdruckmatcht...Ersetzen durch...Ergebnis
ross[oaie]rosso, rossa, rossi, rosserossorosso, rosso, rosso, rosso

Eine weitere Aufgabe wäre zum Beispiel das Ersetzen der Formen von rosso durch entsprechende Formen von giallo (sprich: giallo, gialla, gialli, gialle). Auch diese lässt sich einfach lösen, indem man den Endvokal im regulären Ausdruck ignoriert und nur das lexikalische Morphem ersetzt. Alternativ lässt sich jedoch auch mit den runden Klammern arbeiten:

Ausdruckmatcht...Ersetzen durch...Ergebnis
rossross, ross, ross, rossgiallgiallo, gialla, gialli, gialle

ross([oaie])

oder:

ross\([oaie]\)

rosso, rossa, rossi, rossegiall\1giallo, gialla, gialli, gialle

Während die erste Lösung wahrscheinlich einleuchtet, bedarf die zweite einer weitergehenden Erklärung: Allen Inhalten, die sich in runden Klammern befinden, wird im Rahnen eines Ersetzvorgangs eine Kennzahl zugeordnet. Der Inhalt der ersten Klammer erhält die Kennzahl 1, der der zweiten 2, der der dritten 3 und so weiter. In dem vorliegenden Beispiel besteht der Inhalt entweder aus dem Buchstaben o, a, i oder e. Dieser Inhalt kann nun als Zeichen (bzw. Zeichenkette) in die ersetzende Form mithilfe der Kombination von Backslash und der entsprechenden Kennzahl übernommen werden.

Dies funktioniert folgendermaßen. Der Ausdruck ross([oaie]) sucht nach einer Zeichenfolge, auf die das Muster ross[oaie] passt, trifft zuerst auf rossa und setzt \1 mit a gleich. Nun wird rossa durch giall gefolgt von \1 (also a) ersetzt. Der Ausdruck sucht nun nach dem nächsten Match, z.B. rossi. Auch hier wird i mit \1 gleichgesetzt, bevor rossi durch giall\1 ersetzt wird.

Was hier verdeutlicht werden soll, ist, dass der Backslash mit der Kennzahl keinen Platzhalter übernehmen, sondern das jeweils konkrete ZeichenImage Added

Info
iconfalse

Bei der Formulierung komplexerer regulärer Ausdruck mit oder-Operatoren und Gruppierungsklammern muss bedacht werden:

  • Ein senkrechter Strich setzt die sich links von ihm befindende Zeichenkette mit der sich rechts von ihm befindende in eine oder-Relation. Sind keine Klammern gesetzt, so wird der gesamte Ausdruck einbezogen.
  • Um die Reichweite des oder-Operators einzuschränken, muss er mit den entsprechenden Zeichenketten (links und rechts) in runde Klammern gesetzt werden. Der oder-Operator reicht in dem Fall von der äußersten öffnenden (nicht links von ihm schließenden) Klammer links von ihm bis zur äußersten schließenden (nicht rechts von ihm öffnenden) Klammer rechts von ihm.
  • Mithilfe der Klammern lässt sich präzise definieren, was in Alternative wozu steht.
  • Eine Alternative kann auch kein einziges Zeichen enthalten.

 

Scrollbar