Sticky Links aus HTML Seiten extrahieren

    This site uses cookies. By continuing to browse this site, you are agreeing to our use of cookies. More details

    • Links aus HTML Seiten extrahieren



      Hier ein Rezept, welches die Referrer aus einer gegebenen HTML Seite extrahiert. Es veranschaulicht eigentlich nur ein Verwendungszweck von regulären Ausdrücken.
      (Funzt nicht bei HTTPS, also mit SSL verschlüsselten Seiten. Liegt aber an der verwendeten Methode, mit welcher die Verbindung hergestellt wird.)

      Python Source Code

      1. #!/usr/bin/env python
      2. # -*- coding: utf-8 -*-
      3. from httplib import * # für HTML/HTTP Response
      4. import re # für reguläre Ausdrücke
      5. import sys # Für Kommandozeilenargumente
      6. '''
      7. Created on 17.03.2014
      8. @author: jeffo
      9. '''
      10. '''
      11. help(extractLinks)
      12. Funktion, welche eine Anfrage an die gegebene URL schickt
      13. und die HTML Links aus der erhaltenen Antwort extrahiert.
      14. @param url : URL, aus welcher Infos geholt werden sollen
      15. '''
      16. def extractLinks(url):
      17. conn = HTTPConnection(url)
      18. conn.request('GET', '/')
      19. resp = conn.getresponse()
      20. html = resp.read()
      21. #print html
      22. p = re.compile('(?<=href=")(.*?)(?=")')
      23. links = p.findall(html)
      24. return links
      25. if( len(sys.argv) <= 1 ):
      26. print "FEHLER : Es wurde kein Argument uebergeben.\n" \
      27. "[AUFRUF :] python linkextract.py <URL>"
      28. sys.exit(-1)
      29. else:
      30. try:
      31. urls = extractLinks(str(sys.argv[1]))
      32. cnt = 0
      33. for u in urls:
      34. cnt += 1
      35. print 'Link #%d : %s' %(cnt, u)
      36. except:
      37. print 'FEHLER bei der Eingabe der URL.'
      Display All

      Zum ausführen einfach mit der Konsole ins Verzeichnis des Skripts wechseln und python linkextract.py URL eingeben.

      ..:: Beispielausgabe des Skripts ::..

      Im Beispiel wird der Inhalt bzw. die Links der Homepage der Stiftung Warentest ausgelesen.



      ..:: DOWNLOAD ::..

      Share-Online : Link