Regexp in VB – ein kleines How To

Für mein letztes Projekt habe ich auch immer wieder Reguläre Ausdrücke gebraucht, da sonst das Auslesen bestimmter Werte unmöglich gewesen wäre.
Wer wissen will, was Reguläre Ausdrücke sind findet im Wikipedia eine gute Anlaufstelle.
Da es leider auch sehr viele unterschiedliche Implementierungen gibt, gehe ich mal auf die VB.NET Variante ein. Diese dürfte auch in allen anderen .NET Sprachen funktionieren, aber garantieren tue ich es nicht.

Übrigens eine gute Einstiegshilfe für Reguläre Ausdrücke gibts bei txt2re.com

Stell dir vor, du hast ungefähr immer gleiche bzw. ziemlich ähnlich aufgebaute Textzeilen, die sich wiederholen.

000010 02.123.7421.0       BUCHSENKONTAKT   4                                                QMM
       Ihre Artikelnummer: 21076
                      200 ST          20,83 EUR                                     /   100      ST                               41,66
       Sonderrabatt 1                 60,00-%                                                                                     25,00-
       Positionsnetto                  8,33 EUR                                     /   100      ST                               16,66
        ST
       Liefertermin (Tag): 25.02.2010

Nun sollst du diese Nummer heraus extrahieren: 02.123.7421.0
Der Aufbau der Ziffern ist immer gleich. Nur vorne kann auch mal ein Buchstabe vorkommen: also Z7.123.1234.0

Der reine Reguläre Ausdrück wäre wie folgt:

((\w{1}\d{1}|[0-9]{2})\.[0-9]{3}\.[0-9]{4}\.[0-9]{1})

1. Ziffernbereiche und Buchstabenbereiche mit Mengenangaben
Trennen wir also mal den Ausdruck auf: „(\w{1}\d{1}|[0-9]{2})\.“ (natürlich ohne die Gänsefüsschen “ gesehen) ist eine Oder Bedingung. Zuerst wird gesucht, ob ein Buchstabe und eine Zahl nacheinander stehen („\w{1}\d{1}“ ) oder eben zwei Ziffern („[0-9]{2}“ ) und davon zwei Stück nacheinander stehen. Der obligatorische Punkt wird durch die Kombination \. dargestellt! Ein einzelner . würde in diesem Fall für ein beliebiges Zeichen stehen und das wäre ungeschickt. Um also nur den . zu finden, muss dieser noch maskiert werden durch ein Backslash \ gefolgt von dem . also eben \.
Eine vollständige Erklärung für solche Metazeichen gibts hier

Die anderen Zeichen wie „[0-9]{3}\.“ sind dann sicher recht einfach. In den eckigen Klammern [] steht der Ziffernbereich (es könnte auch [025] stehen, dann wären nur die Ziffern 0, 2 und 5 erlaubt) und in den geschweiften Klammern die Anzahl der Ziffern. Zu guter Letzt muss die Ziffernfolge wieder durch ein . beendet werden, bis die nächste Ziffernfolge folgt.

Diese Zeichenkette findet man sicher noch relativ leicht, da sie ziemlich eindeutig ist.

2. Ziffernbereiche (bzw. jede beliebige Bereichsgruppe) und min und max Angaben
Du willst aus dem oben gezeigten Text die Artikelnummer herausextrahieren.
Leider kann diese Artikel aus allen beliebigen Ziffern bestehen und entweder 5 oder 6 Ziffern haben.

Doch eine Regelmäßigkeit gab es: „Ihre Artikelnummer: 21076“ Es steht immer der gleiche Text vor der Artikelnummer, nämlich: Ihre Artikelnummer
Warum also nicht ein Regexp schreiben und der die gesamte Zeichenkette (also Text plus Nummer) beinhaltet. Gesagt getan, hier also der Reguläre Ausdruck:

Dim re1 As String = ".*?"           'Non-greedy match on filler
Dim re4 As String = "(Ihre Artikelnummer: [0-9]{5,})"    'Word 3
Dim r2 As Regex = New Regex(re1 + re4, RegexOptions.IgnoreCase Or RegexOptions.Singleline)

So sieht also auch mal eine Beispielsyntax für die Verwendung der Regexp in VB aus. Für die Bedeutungen von IgnoreCase und Singleline gibts hier von Microsoft eine Erläuterung.
IgnoreCase beachtet also die Groß und Kleinschreibung, wenn das Muster gefunden wurde und Singleline gibt dem . die Bedeutung „alle Zeichen“.

Der obige Ausdruck sucht nach dem Text „Ihre Artikelnummer: “ und einer Nummer mit 5 Ziffern bzw. mehr Ziffern „[0-9]{5,}“ Man kann in den geschweiften Klammern nämlich eine Mindestanzahl und eine Maximalanzahl angeben. Die Mindestanzahl steht vor dem Komma und die Maximalanzahl nach dem Komma.

Um also den regulären Ausdruck auch auszuwerten benötigen wir noch weiteren Code.

Dim m2 As Match = r2.Match(txt)     'txt ist eine ausgelesene Zeile
                If (m2.Success) Then                'h-team Nummer
                    Dim word3 As Group = m2.Groups(1)
                    'erste zwanzig Zeichen sprich "Ihre Artikelnummer: " abschneiden
                    Dim hteam As String = word3.ToString.Remove(0, 20)
                    exWS.Range("D" & zählerb - 1).Value = hteam 'Damit wird der Wert in Excel geschrieben. Kann aber auch jeder beliebe andere Befehl verwendet werden.
                End If

Das ist soweit also auch noch klar.

3. Bestimmter Preis in einer bestimmten Zahl finden
Doch nun wollen wir den Preis in der Positionszeile erwischen, das war damals für mich eine ernsthafte Herausforderung und nur dank diesem Forumseintrag habe ich endlich eine Lösung gefunden.

Und er hat es auch ziemlich gut beschrieben, deshalb möchte ich es gerne hier zitieren:

So geht’s:

Zunächst testen ob in der Zeile steht: Das Wort  Positionsnetto gefolgt von     einem oder mehreren Zeichen bis die Zeichenfolge      ST kommt und auf diese wieder      ein oder mehrere Zwischenraumzeichen folgen.

Dann muß man noch berücksichtigen, daß der gesuchte Betrag mehrere Tausenderpunkte haben kann , z.B.     12.345.678,90  und immer genau 2 Dezimalstellen hat.

Das Suchmuster muß also so aussehen:

        Dim re7 As String = "(?<=Positionsnetto.+ ST\s+)([0-9]{1,3}.)*[0-9]{1,3},[0-9]{2}"   'word 5

Na alles klar? Zuerst wird also nach der Zeile gesucht, in der „Positionsnetto“ vorkommt, dann dürfen ein oder mehere beliebige Zeichen vorkommen „.+“ , dann folgt ST, dann wieder ein oder mehrere Zwischenraumzeichen „\s+“ und dann kommen die Zahlen. Das ist oben schon ziemlich gut erklärt.

4. Als nächstes war noch die PE herauszufinden, dass ist eigentlich relativ leicht und ist im Prinzip nur eine abgewandelte Regexp von oben. Da ich es auch im Forum schon geschrieben habe, hier die Erklärung dazu:

Erstmal wieder danke, durch deine Erklärungen hat sich mir  dann auch das Suchmuster für die PE (1 oder 100) erschlossen.

Hier das Suchmuster, dass ich zuerst ausprobiert habe.

Dim re8 As String = „(?<=Positionsnetto.+ EUR\s+/\s+) [0-9]{1,3}“ ‚word 7

Das hat aber dann nicht genau hingehauen, da damit zwar

Positionsnetto                  8,33 EUR                                     /   100      ST                               16,66

und

Positionsnetto                 71,66 EUR /                                   100    ST                              71,66

abgedeckt waren.

Aber solche Zeilen wie diese hier:

Positionsnetto                  41,09 EUR / 100 ST                                                            82,18

wurden verworfen.

Also habe ich nun folgendes Suchmuster angewendet:

Dim re8 As String = „(?<=Positionsnetto.+ EUR.+) [0-9]{1,3}“ ‚word 7

Sprich in der Zeile muss das Wort Positionsnetto gefolgt von einem oder mehreren Zeichen bis die Zeichenfolge EUR kommt und auf diese wieder  ein oder mehreren Zeichen folgen und dann eine Zahl mit 1 oder 3 Ziffern (also entweder 1 oder 100).

Nur so als Hilfestellung, falls jemand mal ähnliche Probleme hat.

5. Und zu guter letzt wäre natürlich auch noch der Liefertermin interessant.

Dieser ist eigentlich ziemlich logisch aufgebaut. „Liefertermin (Tag): 25.02.2010“
Doch leider kommt es auch vor, dass „Liefertermin unbestätigt“ drin steht.
Aber auch hier gab es wieder Hilfe von diesem Peter_Punkt:

So geht’s:

Bei dieser Aufgabenstellung treten gleich mehrere Probleme auf:

Umlaute im Suchmuster (z.B. ä) sind nicht erlaubt.

Klammer () haben eine besondere Bedeutung. Wenn man sie als normale Zeichen behandelt wissen will, dann muß man \ voranstellen.

Außerdem muß man die erzielten Treffer nachbehandeln und Teile (z.B. „(Tag): „) entfernen.

Code-Beispiel:

Dim re6 As String = "(?&lt;=Liefertermin )(\(Tag\): \d{2}\.\d{2}\.\d{4})|(unbest){1}"
            Dim r2 As Regex = New Regex(re6, RegexOptions.IgnoreCase Or RegexOptions.Singleline)
            Dim m2 As Match = r2.Match(txt)     ' In txt ist der zu untersuchende String

            If (m2.Success) Then
                Dim word3 As Group = m2.Groups(0)
                Dim treffer As String = word3.ToString
                If treffer = "unbest" Then      ' bis zum ä
                    treffer = "unbestätigt"
                Else
                    treffer = treffer.Replace("(Tag): ", "") ' den Vorspann vor dem Datum entfernen
                End If
                Debug.WriteLine(treffer)
            End If

Man sieht also: Reguläre Ausdrücke sind eine tolle Sache, da man sich damit viel Arbeit ersparen kann. Doch ohne Hilfe in konkreten Problemstellungen ist man ganz schön aufgeschmissen.
Ich hoffe, ich konnte dem einen oder anderen vielleicht eine kleine Hilfestellung sein.
Falls Verbesserungsvorschläge vorliegen. Einfach Kommentar posten und ich werde es korrigieren.