Sie sind nicht angemeldet.

[gelöst] HTML zu TXT

Lieber Besucher, herzlich willkommen bei: Ubuntu-Forum & Kubuntu-Forum | www.Ubuntu-Forum.de. Falls dies Ihr erster Besuch auf dieser Seite ist, lesen Sie sich bitte die Hilfe durch. Dort wird Ihnen die Bedienung dieser Seite näher erläutert. Darüber hinaus sollten Sie sich registrieren, um alle Funktionen dieser Seite nutzen zu können. Benutzen Sie das Registrierungsformular, um sich zu registrieren oder informieren Sie sich ausführlich über den Registrierungsvorgang. Falls Sie sich bereits zu einem früheren Zeitpunkt registriert haben, können Sie sich hier anmelden.

Rob64

User

  • »Rob64« ist der Autor dieses Themas

Beiträge: 3

Registrierungsdatum: 11.10.2007

  • Nachricht senden

1

11.05.2011, 16:41

HTML zu TXT

Hi Leute ich habe folgendes Problem und ich hoffe es hat jemand von euch einen guten Lösungsansatz

Es geht darum aus einem beliebigen HTML File eine TXT Datei zu erstellen.

Eingabe -> HTML

Quellcode

1
Standard HTML Seite mit Links und Bildern



Ausgabe -> TXT

Quellcode

1
Standard TXT Datei ohne Bilder Links Videos und sonstiger Formatierung


Am liebsten wäre mir eine Lösung mittels "shell script" oder "Python"

Dieser Beitrag wurde bereits 2 mal editiert, zuletzt von »Rob64« (12.05.2011, 10:10)


  • »laserandi« ist männlich

Beiträge: 35

Registrierungsdatum: 02.05.2010

Derivat: Xubuntu

Architektur: 32-Bit PC

Andere Betriebssysteme: Trusty Tahr

  • Nachricht senden

2

11.05.2011, 18:03

Hi,
mit Links ginge es so:

Quellcode

1
curl http://de.wikipedia.org/wiki/Wikipedia:Hauptseite >> wikipedia.txt

ohne braucht man wohl noch etwas mehr code.
Gruß
Andi

Dieser Beitrag wurde bereits 3 mal editiert, zuletzt von »laserandi« (11.05.2011, 18:07)


  • »maettu« ist männlich

Beiträge: 3 299

Registrierungsdatum: 14.09.2005

Derivat: Xubuntu

Architektur: 64-Bit PC

Desktop: XFCE

  • Nachricht senden

3

11.05.2011, 20:04

@laserandi, das curl Programm hat aber alle HTML-Syntax dringelassen, also nur das gemacht was wget auch kann ;)
@Rob64, wie wärs für dich mit "html2text", lässt sich via apt-get/Synaptic installieren.

  • »simonsunnyboy« ist männlich

Beiträge: 92

Registrierungsdatum: 14.11.2008

Derivat: Ubuntu

Architektur: 64-Bit PC

Desktop: GNOME 2.x

  • Nachricht senden

4

11.05.2011, 20:57

lynx -dump $URL kann ebenfalls nach Text konvertieren. Allerdings werden alle Links im Dokument mit [1] etc durchnummeriert und am Ende entsprechend wie Fussnoten gelistet.


Sieht etwa so aus:

Quellcode

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
$ lynx -dump http://www.google.de/

   ____________________________________________________________
   ____________________________________________________________
   ____________________________________________________________
   ____________________________________________________________

   Web [1]Bilder [2]Videos [3]Maps [4]News [5]Shopping [6]E-Mail [7]Mehr »
   [8]iGoogle | [9]Einstellungen | [10]Anmelden

   [11]117. Geburtstag von Martha Graham


   _________________________________________________________
   Google-Suche Auf gut Glück! [12]Erweiterte Suche[13]Sprachoptionen

   [14]Werben mit Google[15]Unternehmensangebote[16]Über
   Google[17]Google.com in English

                          © 2011 - [18]Datenschutz

Verweise

   1. http://www.google.de/imghp?hl=de&tab=wi
   2. http://video.google.de/?hl=de&tab=wv
   3. http://maps.google.de/maps?hl=de&tab=wl
   4. http://news.google.de/nwshp?hl=de&tab=wn
   5. http://www.google.de/prdhp?hl=de&tab=wf
   6. http://mail.google.com/mail/?hl=de&tab=wm
   7. http://www.google.de/intl/de/options/
   8. http://www.google.de/url?sa=p&pref=ig&pval=3&q=http://www.google.de/ig%3Fhl%3Dde%26source%3Diglk&usg=AFQjCNFjfPavRPBJrOKJS3MB2uzhpfN6zw
   9. http://www.google.de/preferences?hl=de
  10. https://www.google.com/accounts/ServiceLogin?hl=de&continue=http://www.google.de/
  11. http://www.google.de/search?q=Martha+Graham&ct=graham11-hp&oi=ddle
  12. http://www.google.de/advanced_search?hl=de
  13. http://www.google.de/language_tools?hl=de
  14. http://www.google.de/intl/de/ads/
  15. http://www.google.de/services/
  16. http://www.google.de/intl/de/about.html
  17. http://www.google.com/ncr
  18. http://www.google.de/intl/de/privacy.html


Grüße,
ssb
Rock'n'Roll is the thing - Jerry Lee is the king! :thumbsup:
http://final-memory.org/

  • »laserandi« ist männlich

Beiträge: 35

Registrierungsdatum: 02.05.2010

Derivat: Xubuntu

Architektur: 32-Bit PC

Andere Betriebssysteme: Trusty Tahr

  • Nachricht senden

5

11.05.2011, 21:05

wie wärs für dich mit "html2text", lässt sich via apt-get/Synaptic installieren.


Coole Sache. Das spart eine Menge Programmierarbeit.

Rob64

User

  • »Rob64« ist der Autor dieses Themas

Beiträge: 3

Registrierungsdatum: 11.10.2007

  • Nachricht senden

6

11.05.2011, 21:25

@ simonsunnyboy
Super danke für die Hilfe !


PS: Mittels -nolist kann man auch die Fußnoten super ausblenden

imase

User

  • »imase« ist männlich

Beiträge: 618

Registrierungsdatum: 08.12.2005

Derivat: Ubuntu

Architektur: 64-Bit PC

Andere Betriebssysteme: CentOS, RedHat

  • Nachricht senden

7

11.05.2011, 23:33

Hallo laserandi,

könntest du bitte den Thread auf [Gelöst] setzen?

Gruss

imase
?( ?( ?(

  • »laserandi« ist männlich

Beiträge: 35

Registrierungsdatum: 02.05.2010

Derivat: Xubuntu

Architektur: 32-Bit PC

Andere Betriebssysteme: Trusty Tahr

  • Nachricht senden

8

12.05.2011, 09:51

könntest du bitte den Thread auf [Gelöst] setzen?


Nein, ich glaube das darf nur Rob64, der Autor des Threads.