Zum Hauptinhalt springen

RegEx

Abkürzungen Regex y Regexp bezeichnen reguläre Ausdrücke, die in theoretischem Rechnen, Programmieren, Softwareentwicklung, Textverarbeitung und Suchmaschinenoptimierung verwendet werden. Reguläre Ausdrücke können verwendet werden, um Zeichenfolgen und Zeichenfolgennummern allgemein logisch zu beschreiben, um sie in Dokumenten, Quellcode oder einer Datenbank zu finden, zu ersetzen, zu bearbeiten oder zu verarbeiten.

Beispiel: In einem Regex-fähigen Texteditor wird davon ausgegangen, dass alle in einer HTML-Datei enthaltenen Links angezeigt werden. Wenn der Ausdruck [^ »] *» [^>] *> in die Suchfunktion des Editors eingegeben wird, werden alle Links angezeigt, die das übliche HTML-Linkformat haben. Der Begriff [. * Führt dieselbe Aufgabe aus.]

Allgemeine Information

Der Logiker und Mathematiker Stephen Kleene gilt als der Gründer von Regex. 1956 verwendete er in einem Aufsatz über die Darstellung von Ereignissen in neuronalen Netzen und endlichen Automaten Anmerkungen zu regelmäßigen Mengen. Diese und andere Arbeiten sind heute grundlegende Prinzipien des theoretischen Rechnens. Reguläre Ausdrücke werden jetzt in verschiedenen Bereichen verwendet, um Operationen zu vereinfachen, die ansonsten arbeitsintensiv und zeitaufwändig wären.

Regex Es kann abhängig von seiner Implementierung in verschiedenen Programmiersprachen, Umgebungen und Texteditoren verwendet werden, beispielsweise in Perl, PHP, .NET oder JavaScript als Elemente in einer Bibliothek[1]. Oder in EditPad, Emacs und Notepad ++ als Such- und Ersetzungsfunktion in Texteditoren. In der Google Analytics-Suchmaschine werden reguläre Ausdrücke auch verwendet, um Verkehrsquellen zu filtern, Segmente zu definieren und die detaillierten Daten des Berichts von anderen Daten zu trennen.

Funktionalität

Die Verwendung von Regex Sie sind extrem vielfältig. Die möglichen regulären Ausdrücke hängen von der Notation ab. Es gibt verschiedene Notationen in verschiedenen Programmiersprachen. Diese Anmerkungen werden als Shell-Mustername, BRE (Basic Regular Expressions) und ERE (Extended Regular Expressions) bezeichnet. Die Unterschiede sind manchmal darauf zurückzuführen, dass einzelne Zeichen und meistens Metazeichen (Steuerzeichen) in einer Programmiersprache verwendet werden.

Im Allgemeinen werden Zeichen (Terminals) und Metazeichen unterschieden. Zeichen werden im Zeichensatz (dem Alphabet) aufgezeichnet, der beispielsweise Zahlen, Buchstaben und Kommas enthält. Metazeichen sind Operationen, die als Toggle |, Relation () angegeben und mit *, + und? Wiederholt werden. Mit ^ können die Beträge negiert werden. Die Metazeichen sind Anweisungen für die Verarbeitungssoftware. Normale Zeichen können vor oder hinter Metazeichen stehen, ihre formale Bedeutung ist unterschiedlich. Die meisten Implementierungen arbeiten mit einer speziellen Engine für Regex Hiermit werden die aufgelisteten regulären Ausdrücke analysiert und interpretiert und Ressourcen auf Instanzen überprüft.

  • Normalzeichen: Alle Zahlen von 0 bis 9. Alle Buchstaben eines Alphabets und einige Sonderzeichen (Kommas, Bindestriche, Semikolons). Wichtig: Das Alphabet hängt vom verwendeten Zeichensatz ab (z. B. Unicode oder ASCII).
  • Zeichenklassen: Es ist zum Beispiel eine Zahl von 1 bis 9. Während es alle Registerkarten finden würde. Andere Optionen sind l für Kleinbuchstaben, s für alle Leerzeichen oder u für alle Großbuchstaben.
  • Metazeichen:
 [] () {} | ? + - * ^ $  

Mit einem zuvor platzierten Backslash kann ein Metazeichen abgebrochen werden.

Praktische Bedeutung

Die folgenden Methoden können mit regulären Ausdrücken implementiert werden:

  • Mustervergleich: Mithilfe eines String-Matching-Algorithmus können Texte auf Muster überprüft werden. In diesem Fall stellt ein regulärer Ausdruck eine Sammlung von Zeichenfolgen dar, deren Vorkommen im Text abgeglichen sind. Der Ausdruck Regex Gibt das Muster an. Die Engine vergleicht das Muster mit einer Ressource (z. B. einem HTML-Dokument oder Text). Unter bestimmten Umständen kann eine Ersetzungsregel angegeben werden, um die gefundenen Zeichenfolgen direkt zu ändern. Quantifizierer können verwendet werden, um die Ergebnisse einzugrenzen. Beispiele: Überprüfen einer eingegebenen E-Mail-Adresse auf ihre formale Richtigkeit oder Suchen nach Domains der obersten Ebene in einer Liste von URLs.
  • Globbing: Platzhaltern werden Dateinamen hinzugefügt, um beispielsweise alle Dateien in einem bestimmten Format auszuwählen. Der Platzhalter "sample. *" Findet alle Dateien in einem Dateiverwaltungssystem, die mit "sample" beginnen, aber unterschiedliche Dateiformate wie .txt haben. o.doc. Das Sternchen steht für die verschiedenen Dateiformate. Globbing wird auch bei Denial-of-Service-Angriffen verwendet, bei denen Server absichtlich überlastet werden.[2]
  • Kürzung: Bei der Datenbanksuche werden Suchbegriffe häufig mit Platzhaltern abgekürzt oder abgeschnitten. Der Begriff "Stichprobe *" würde alle Begriffe finden, die mit der Stichprobe beginnen und mit anderen Buchstaben enden, z. B. Stichprobenübereinstimmung, Beispieltest oder Beispielbeispiel. Durch Abschneiden wird der Suchraum erweitert. Beispiel: Bei einer Bibliothekssuche können alle Einträge gefunden werden, die eine bestimmte Suchdefinition enthalten.
  • Stemming: Beim Bremsen werden dem Wortstamm verschiedene morphologische Varianten eines Wortes zugeordnet. Die Negationen und Konjugationen von Wörtern können somit auf ihre Wurzel oder sprachliche Wurzel reduziert werden. Diese Methode wird beim Abrufen von Informationen (z. B. über Suchmaschinen) und beim theoretischen Rechnen verwendet. Beispiel: Google verwendet wahrscheinlich ein ähnliches Verfahren im Zusammenhang mit der organischen Suche[3].

Bedeutung für die Suchmaschinenoptimierung

Regex kann für einige Jobs im Bereich der Suchmaschinenoptimierung sehr nützlich sein[4] . Überwachungs- und Analysetools wie Google Analytics verfügen über eine Anwendung für Regex.[5]

In der Google Analytics-Suchmaschine werden reguläre Ausdrücke verwendet, um Filter für IP-Adressen zu ermitteln. Einzelne Filter können in den Profileinstellungen ohne die IP-Adressen eines oder mehrerer Besucher definiert werden. Auf diese Weise wird der Datenverkehr von einer Reihe von IP-Adressen nicht in die Berichte aufgenommen. Dies ist nützlich, wenn Sie irrelevante Besuche aus der Besuchsstatistik ausschließen möchten, z. B. Ihre eigenen Mitarbeiter.

Darüber hinaus können verschiedene Segmente in der Google Analytics-Suchmaschine mit verarbeitet werden Regex. Beispielsweise können Suchanfragen, die einen Markennamen enthalten, ausgeschlossen werden. Zu diesem Zweck würde ein Segment definiert, das nur organischen Verkehr und nicht den zuvor mit definierten Markennamen enthält Regex: "[Mm] Firmenbeispiel" für Schreibweisen mit Groß- und Kleinbuchstaben. Darüber hinaus können verschiedene Arten von Schlüsselwörtern ausgeschlossen werden, um herauszufinden, wie viel Verkehr von zwei oder drei bestimmten Schlüsselwörtern generiert wird. Gleiches gilt für Datenverkehr aus anderen Quellen wie Newsletter, E-Mails und Linkzuordnungen von externen Websites.

Eine solche Taktik kann nützlich sein, um Social-Media-Kanäle zu überwachen. Für diesen Fall wird eine Schriftart definiert, indem die möglichen Schriftarten mit dem regulären Ausdruck angegeben werden. Zum Beispiel "Facebook | Twitter | Youtube | LinkedIn". Google Analytics ist nicht das einzige, das eine Reihe von Alternativen bietet, die mit regulären Ausdrücken genutzt werden können[6]. Weblogs und Serverumgebungen können ebenfalls interpretiert und verarbeitet werden Regex. Auf diese Weise können Websites mithilfe bestimmter Muster, die von beschrieben werden, umgeleitet und als kanonisch gekennzeichnet werden Regex.[7]

Web-Links