Versionen im Vergleich

Schlüssel

  • Diese Zeile wurde hinzugefügt.
  • Diese Zeile wurde entfernt.
  • Formatierung wurde geändert.

Starten wir mit ein paar einfacheren Metazeichen, den simplen Platzhaltern, Positionsmarkern und Wiederholungsoperatoren.

Image Modified

Nehmen wir an, wir würden folgender (nicht ganz schlüssiger) Auflistung ausschließlich die Pronomen der zweiten Person Singular entnehmen wollen:

...

Die Frage aller Fragen: Was soll ich damit eigentlich anfangen können? Ich kann zum Beispiel Häufigkeiten für bestimmte Phänomene erfassen. Will ich in einem Korpus des Französischen beispielsweise in Erfahrung bringen, wie häufig das Verb finir in all seinen Formen vorkommt, so kann ich dies sehr zeitsparend mit \<fini.{0,6}\>_  (j'ai fini bis nous finissions) oder einfach mit \<fini.*?\>  erledigen (Eine anschließende Bereinigung der Ergebnisse kann dennoch nötig sein!). Ich kann auch nach flektierten Formen des Italienischen suchen, ohne jede Form einzeln eintippen zu müssen, z.B. <\san.\> für sano, sana, sani und sane. oder zwei variierende Formen wie comprare und comperare durch compe?rare erfassen. Auch kann ich mir anzeigen lassen, wie viel von dem sprachlichen Kontext des Gesuchten ich in meine Ergebnisse integrieren will. Interessiert mich der Satzkontext von compe?rare, kann ich mir durch .{50}compe?rare_.{50} jeweils 50 Zeichen vor und nach compe?rare_ anzeigen lassen.

Image Modified

Info
iconfalse

Um das richtige Muster zu definieren, sollte ich mir Gedanken darüber machen:

  • was meine Ergebnisse gemeinsam haben müssen.
  • ob die Gemeinsamkeiten konkrete Buchstaben(folgen), Positionen oder eine Mischung aus beidem betreffen.
  • welche Bausteine der gewünschten Ergebnisse variabel sind.
  • wie viele variabel besetzte stellen darf es (minimal, maximal) zwischen konkret definierten Zeichen oder Positionsankern geben?
  • welche Grenzen ich für gierige Operatoren setze (laziness, Begrenzung durch Leerstelle, etc.). 
  • was ich von der Umgebung des Gesuchten in meine Ergebnisse integrieren will.

...