dWb+ Integration mit Cron, HTML

vorhergehende Artikel in: dWb+ Linux
11.08.2013

Die Anwendung dWb+ wird gerade in Richtung auf einfache Integration mit anderen IT-Systemkomponenten weiterentwickelt. Zwei neue Module in diese Richtung werden hier vorgestellt.

Dataflow Workbench dWb+

Cron

Diese Integration dient zunächst der einfachsten möglichen Integration: Cron sollte in der Lage sein, Workflows in dWb+ anzustoßen. Dabei war wichtig, daß dies bereits mit Linux-Bordmitteln möglich sein sollte - das bedeutet, daß nur dWb+ geändert werden durfte.

Die Lösung dafür war sehr einfach: es wurde ein Modul geschaffen, das einen Socket öffnet. Sobald sich ein Client mit diesem Socket verbindet, sendet das Modul die Adresse des Clients über einen Datenkanal an angeschlossene Module. Diese kann dann als einfacher Trigger benutzt werden.

Das Modul ist dann natürlich nicht auf Cron beschränkt, sondern könnte als Präprozessor für ein (sehr simples) Port-Knocking-Modul benutzt werden, welches die IP-Adresse und die zeitlichen Abstände zwischen den Signalen zur Bestimmung der Berechtigung auswertet.

Die Kopplung mit Cron geschieht über die Benutzung von netcat:

echo -n "" |nc <host> <port> 

HTML

Zur Arbeit mit HTML wurde ein Modul hinzugefügt, das es erlaubt, beliebige Inhalte aus HTML-Seiten zu extrahieren.

Hintergrund dazu war die Aufregung über die Abschaltung des Google RSS-Readers. Warum sollte man sich abhängig machen vom Bösen? Warum sich nicht selbst seinen eigenen RSS-Aggregator bauen? Dazu ist es lediglich nötig, die interessierende Seite zu analysieren und die neuesten Beiträge zu extrahieren.

Dazu wurde ein Modul geschaffen, das in der Lage ist, in einer über eine URL angegebenen HTML-Seite nach einem XPath-Ausdruck zu suchen und dessen Inhalt entsprechend des spezifizierten regulären Ausdrucks zu extrahieren.

Am Beispiel von heise.de würde dies wie folgt aussehen:

URL
http://www.heise.de
XPath
//h3/a/text()
Regex
(.)(.*)

Alle Artikel rss Wochenübersicht Monatsübersicht Github Repositories Gitlab Repositories Mastodon Über mich home xmpp


Vor 5 Jahren hier im Blog

  • Certstream, InfluxDB, Grafana und Netflix

    16.04.2019

    Nachdem ich vor kurzem über mein erstes Spielen mit dem certstream berichtete, habe ich weitere Experimente gemacht und die Daten zur besseren Auswertung in eine InfluxDB gepackt, um sie mit Grafana untersuchen zu können.

    Weiterlesen...

Neueste Artikel

  • Die sQLshell ist nun cloudnative!

    Die sQLshell hat eine weitere Integration erfahren - obwohl ich eigentlich selber nicht viel dazu tun musste: Es existiert ein Projekt/Produkt namens steampipe, dessen Slogan ist select * from cloud; - Im Prinzip eine Wrapperschicht um diverse (laut Eigenwerbung mehr als 140) (cloud) data sources.

    Weiterlesen...
  • LinkCollections 2024 III

    Nach der letzten losen Zusammenstellung (für mich) interessanter Links aus den Tiefen des Internet von 2024 folgt hier gleich die nächste:

    Weiterlesen...
  • Funktionen mit mehreren Rückgabewerten in Java

    Da ich seit nunmehr einem Jahr bei meinem neeun Arbeitgeber beschäftigt und damit seit ungefähr derselben Zeit für Geld mit Python arbeite, haben sich gewisse Antipathien gegenüber Python vertieft (ich kann mit typlosen Sprachen einfach nicht umgehen) - aber auch einige meiner Gründe, Python zu lieben sind ebenso stärker geworden. Einer davon ist der Fakt, dass eine Methode in Python mehr als einen Wert zurückgeben kann.

    Weiterlesen...

Manche nennen es Blog, manche Web-Seite - ich schreibe hier hin und wieder über meine Erlebnisse, Rückschläge und Erleuchtungen bei meinen Hobbies.

Wer daran teilhaben und eventuell sogar davon profitieren möchte, muß damit leben, daß ich hin und wieder kleine Ausflüge in Bereiche mache, die nichts mit IT, Administration oder Softwareentwicklung zu tun haben.

Ich wünsche allen Lesern viel Spaß und hin und wieder einen kleinen AHA!-Effekt...

PS: Meine öffentlichen GitHub-Repositories findet man hier - meine öffentlichen GitLab-Repositories finden sich dagegen hier.