[Update]Lösungsansätze für Lesen von Muster aus einer Textdatei

Nachdem ich vor kurzem mal auf mein Problem mit der COM-Programmierung hingewiesen habe und ein paar Anregungen bekommen habe, bin ich nun einen Schritt weiter.

1. Ich habe eine Möglichkeit gefunden den Text aus einer PDF mit dem Tool pdftotext in eine Textdatei umzuwandeln. Bei meiner Testpdf (die übrigens auch als Referenz für zukünftige Auftragsbestätigungen genommen werden kann) hat das super hingehauen.
Dazu genügt es einfach folgenden Code zu verwenden:

pdftotext -layout datei1.pdf ausgabe1.txt

2. Nun sind die ABs zwar in einer grafischen Logik dargestellt, aber mit dem Computer nur mühsam zu verarbeiten. Doch für was gibt es denn Reguläre Ausdrücke? Richtig um Muster zu finden. Die von mir benötigen Daten folgen glücklicherweise immer einem bestimmten Muster. Zum Beispiel ein Datum ist immer gleich aufgebaut und die Artikelnummern. Doch leider sind RegEx sehr schwer zu kapieren. Durch eine Googlesuche nach "Regex Generator" bin ich auf diese tolle Seite gestoßen: txt2re
Sie mag auf den ersten Blick sehr verwirrend sein, doch auf den zweiten Blick ist es einfach nur genial. Man gibt oben eine Zeile ein und kann unten per Mausklick auswählen, welche Muster man verarbeiten möchte und das Ganze dann auch noch in einer von vielen verbreiteten Sprachen.

Den zweiten Punkt werde ich morgen noch ausführlich testen in VB.NET und dann hoffentlich endlich ein Ergebnis bekommen. Wenn ich dann diese Datei habe, wird ein Export nicht mehr allzu schwer werden.

3. Ich muss nun noch nach der Syntax zum Lesen einer Datei in VB.NET googlen und das schreiben in der Datei. In C und PHP wüsste ich es noch einigermaßen, aber grafisch aufbereitet ist das ja immer etwas anders.

//Update:
Nun hab ich es endlich auch geschafft, was zu coden:

Imports System.IO
Imports System.Text.RegularExpressions

Module Module1

    Dim objDateiMacher As StreamWriter
    Dim objDateiLeser As StreamReader
    Sub Pdf2Txt(ByVal pdfFile As String, ByVal txtFile As String)
        Dim arguments As String = "-layout" & " " & pdfFile & " " & txtFile
        'make sure to provide the path with the pdfFile and the txtFile
        System.Diagnostics.Process.Start("c:\xpdf\pdftotext.exe", arguments)
    End Sub
    Sub Main()
        Call Pdf2Txt("C:\xpdf\datei\eingabe.pdf", "C:\xpdf\datei\ausgabe.txt" )
        Dim txt As String
        objDateiLeser = New StreamReader("C:\xpdf\datei\ausgabe.txt" )

        Dim re1 As String = ".*?"           'Non-greedy match on filler
        Dim re2 As String = "(BL[0-9]{7})"    'Word 1
        Dim r As Regex = New Regex(re1 + re2, RegexOptions.IgnoreCase Or RegexOptions.Singleline)

        Do
            txt = objDateiLeser.ReadLine

            Dim m As Match = r.Match(txt)

            If (m.Success) Then
                Dim word1 As Group = m.Groups(1)

                Debug.WriteLine(word1.ToString)
            End If

        Loop Until objDateiLeser.EndOfStream

        objDateiLeser.Close()
        objDateiLeser = Nothing
        Console.ReadKey()
    End Sub

End Module

Nach ein paar Änderungen am Code dank diesem Forum hier, tut das Programm auch und der unten abgebildete Fehler ist endlich weg.

Doch nun hapert es noch ein bisschen an den Regulären Ausdrücken, doch Übung macht der Meister. Probieren geht über Studieren.

[Gesucht] Hilfe für COM Programmierung

Nachdem ich mich mit Flash noch nicht richtig beschäftigen konnte, kommt schon wieder die nächste Herausforderung: COM-Schnittstellenprogrammierung

Der grobe Ablauf:
1. Text aus einer PDF (eine Auftragsbestätigung mit Terminen und Preisen vom Lieferant) in ein lesbares umwandeln, so dass ich die Daten per Skript bearbeiten kann.
2. Per COM-Zugriff eine Liste von den offenen Bestellungen beim Lieferanten aus der Warenwirtschaft auslesen.
3. Liste mit den Positionen aus der Warenwirtschaft mit den Auftragsbestätigungsdaten abgleichen und somit eine Liste mit neuen Lieferterminen und gegenfalls Preisen erstellen
4. Die fertige Liste dem Bearbeiter anzeigen und mit OK zurück in die Warenwirtschaft einspielen.

Punkte 2-4 kann ich recht logisch nachvollziehen, da ich öfters mit der internen Import/Export Schnittstelle arbeite und somit es nicht als großes Problem ansehe. Bei den Import/Export muss man ja auch immer die entsprechenden Feldnamen auswählen und zuordnen.

Nun mal eine Frage an euch: Welche Sprache empfiehlt sich für COM-Programmierung?
Ich dachte mal Visual Basic.NET, Windows Scripting Host, oder eben das VBA was im Ecxel enthalten ist. Da ich so oder so eine neue Sprache lernen muss, wäre mir eine grafische Oberfläche sehr recht. Der Kollege soll später eine GUI vor sich haben um den Pfad zur Auftragsbestätigung des Lieferanten angeben zu kommen, ansonsten nur OK. Die Programmlogik soll automatisch ablaufen.

Kennt sich jemand mit VB, VBA und PDF Bearbeitung aus? Es gibt ja auch Tools wie PDFtoText, aber damit komm ich in dem Fall nicht gut weiter. Mir wäre es recht, wenn ich einen bestimmten Bereich definieren könnte, der als Tabelle bearbeitet werden soll.

Hat jemand dazu eine Idee?

Notepad++ - Der beste Editor

Als Gelegenheitscoder weiß man schon die Vorteile von Syntaxhighlighting, Autovervollständigung und das Ausblenden von bestimmten Codeteilen zu schätzen. Für die ersten beiden Punkte hab ich bisher immer den Phase5 genutzt, da ich damit ganz leicht Tabellen erstellen kann und manche Tags automatisch wieder geschlossen werden. Da es die 2003er Version allerdings nicht mehr gibt und ich im Geschäft nicht immer alte Zip-Dateien rumhantieren wollte (Faulheit eben), hab ich mir dort mal den Notepad++ runtergeladen und ich bin echt begeistert. Der Editor ist echt genial, damit wird jeder Code übersichtlich dargestellt (Gut, bei mir sind es ja nur .php, .html und .js vom xtcommerce her), dazu noch jede Zeile mit Nummer dargestellt (gut ist ja Standard!). Seit ich damit arbeite kann ich mir keinen anderen Editor mehr vorstellen. Manche Leute nehmen ja eine komplette IDE mit integrierter Browservorschau und Dateiexplorer, doch dann wird die Codeansicht immens eingeschränkt. Ich mach es daher anders. Den Explorer für die Dateien auf, im Notepad++ alle wichtigen Dateien offen und dann in den 4 Browsern (Firefox, Internet Explorer, Opera und Chrome). Besonders hilfreich ist es so einen Editor zur Hand zu haben, wenn man ein neues Modul für Xtcommerce testet und dauernd Fehler auftauchen (Darstellungsfehler oder Funktionsfehler oder manchmal auch kleine syntaktische Fehler). An dieser Stelle bin ich mal allen Codern dankbar, die ihren Code ein bisschen einrücken und so übersichtlich gestalten. Ohne diese Formatierungen täte wahrscheinlich jeder Bearbeiter durchdrehen. :) Zumindest in php und die ganzen Skriptsprachen ist das sehr angebracht.
Joa, solche Editoren sind einfach klasse und ein Grund mehr weiter auf Windows XP weiter zu arbeiten.
Doch genug geschwärmt: Hier gehts zum Download und hier zur Seite

Toffifee Skript Update

Ja das gute alte Toffifee Skript gibt es auch noch: toffifee.tobis-bu.de

Trotz einiger Bugs (siehe in der Versionshistory) wurde mein Skript immer wieder genutzt und auch manche lustige Sätze geschrieben. Joa, das ist richtig coool geworden. Wenn man da mal wieder draufschaut, was da so alles steht, hat man ab und zu was zu schmunzeln.

Da ich auf der index.php von diesem Skript nun einen Zufallscode genommen habe, der vom aktuellen Tag irgendeine Datenzeile ausgibt, wollte ich noch einen Abuseknopf machen. Dieser soll mir per Mail den aktuellen Datensatz zuschicken. Die Mailfunktion hab ich aus organisatorischen Gründen in einer extra Datei gespeichert und erwartet nur noch die Übergabe der Variable $ausgabe

Leider fällt mir keine andere Möglichkeit ein, als das Ganze über ein Formular zu realisieren. Ist etwas bäh, schließlich würde ein einfacher Klick auf einen Link genügen um vom Server aus ne Mail an mich zu schicken. Naja, man kann es ja auch noch über einen mailto: realisieren. Etwas altmodisch, aber funktionabel.

//Update: Der Mailto: Link funktioniert endlich, dank der grandiosen explode() Funktion. ;)

Jetzt bin ich aber müde, müder als vor 3 Tagen.

Scripten unter Bash

Ich habs ja schon immer gewusst: Windows sieht toll aus, kann auch eine Menge, aber manchmal ist es doch etwas schwach auf der Brust, wenn man bestimmte Dinge automatisieren möchte.
In meinem Falle war dies jetzt beispielsweise die Sortierung von Artikel, die in einem PDF vorhanden sind und welche die eben nicht vorhanden sind. Bisher hab ich das immer mühsam über die CopyPaste Methode gemacht. Einfach die Excelliste anschauen und über die die PDF Suche vom Acrobat das PDF nach der gewünschten Seiten (also die wo Infos zu dem Artikel stehen) suchen. Zeitaufwendig ist es ja sowieso, wenn so 30.000 Artikel durchsucht werden müssen. Noch nerviger ist es allerdings, wenn so etwa 5.000 Artikel dabei sind, die gar nicht im Katalog sind.

Also hatte ich die Idee, ein kleines Skript zu schreiben, welche die Artikel vom Excel ausliest und dann an die API von Acrobat weitergibt. Gut, dafür gab es keine Lösung. Nachdem ich das Problem mal ins Forum von wer-weiss-was geschrieben habe, kam auch prompt eine Lösung. Den PDF in eine Textdatei umwandeln (via PDFtoTEXT) und dann via Grep Befehl das Ganze durchsuchen lassen.
Ich brauch dafür nur eine Linux Umgebung für Windows: cygwin ist ganz nett, wenn auch bei der Installation etwas komisch drauf. Erst als ich alles installiert habe (alle Pakete) hat es mich akzeptiert und ich hatte endlich Zugriff auf die Shell.
Danach hab den Code vom Andreas reingeschrieben (natürlich den Editor von Windows), das Ganze dann als script.sh umbenannt. Und wollte es dann auf der Bash ausführen. Leider hat die Bash an der letzten Zeile rumgemeckert. Der Code stimmt aber genau. Was war also falsch?

while read number
do
 if grep -q -F -- "$number" wieland.txt
 then
   echo "$number" >> treffer.txt
 else
   echo "$number" >> nirvana.txt
 fi
done < suchbegriffe.txt

10 cm Denkpause....

Richtig! Bash mag das DOS Format nicht so gerne. So hab ich das Ganze mal im vi und danach im Joe neu abgeschrieben und es tat endlich.
Jetzt rennt das Skript und nach der Mittagspause kann ich wahrscheinlich die richtigen Wörter in Excel importieren und wieder weiter suchen.
Ist zwar auch viel Arbeit, aber weniger, weil ja die falschen weg sind. ;)

Lang lebe Linux und die findigen Entwickler, die das Ganze auch auf Windows portieren.