Sie sind nicht angemeldet.

Lieber Besucher, herzlich willkommen bei: Ubuntu-Forum & Kubuntu-Forum | www.Ubuntu-Forum.de. Falls dies Ihr erster Besuch auf dieser Seite ist, lesen Sie sich bitte die Hilfe durch. Dort wird Ihnen die Bedienung dieser Seite näher erläutert. Darüber hinaus sollten Sie sich registrieren, um alle Funktionen dieser Seite nutzen zu können. Benutzen Sie das Registrierungsformular, um sich zu registrieren oder informieren Sie sich ausführlich über den Registrierungsvorgang. Falls Sie sich bereits zu einem früheren Zeitpunkt registriert haben, können Sie sich hier anmelden.

  • »dermichl« ist der Autor dieses Themas

Beiträge: 2

Registrierungsdatum: 09.04.2018

Derivat: Ubuntu

Version: Ubuntu 16.04 LTS - Xenial Xerus

Architektur: unbekannt

Desktop: unbekannt

  • Nachricht senden

1

09.04.2018, 16:01

Hochgestellte Zahlen werden beim Kopieren in Textdatei in normale Zahlen umgewandelt

Hallo, ich weiß nicht, ob mein Problem hier richtig im Forum ist, aber ich habe nicht passenderes gefunden. Ansonsten einfach verschieben oder mir das richtige Forum empfehlen, dass ich die Frage noch mal dort stellen kann.

Ich habe das Problem, dass hochgestellte Zahlen beim Kopieren in einen Texteditor in normale Zahlen plus Leerzeichen davor umgewandelt werden. Weiß jemand, wie ich das erneute Editieren dieser Zahlen verhindern kann? Komischerweise passiert mir das Gleiche auch, wenn ich den Text aus dem PDF kopiere. Ist das vielleicht ein Linux-Problem, dass er die Unicode-Zeichen nicht richtig erkennt?

Wenn jemand eine Idee hat, würde ich mich sehr freuen.

Zur Information:
Der (medizinsche) Text (ursprünglich im PDF) besitzt immer wieder hochgestellte Zahlen als Referenz für Zitate. Diese möchte ich später beim Analysieren des Textes erkennen können, was aber nicht wirklich möglich ist, wenn diese als normale Zahlen im Text auftauchen.

Vielen Dank
Michel

Dieser Beitrag wurde bereits 1 mal editiert, zuletzt von »dermichl« (09.04.2018, 16:38)


2

11.04.2018, 00:44

Es kommt darauf an, wie das PDF erstellt wurde. Hoch- und Tiefstellung kann hier tatsächlich auch durch höher bzw. tiefer setzen der regulären Zeichen erreicht werden, evtl. in Verbindung mit kleinerem Schriftgrad. Beim Extrahieren gehen diese Satzanweisungen verloren und übrig bleiben die regulären Zeichen. Eventuell scheitert es bei dir daran.

Ein von LibreOffice Writer als PDF exportierter Text lässt sich dagegen mit pdftotext korrekt umwandeln. Wenn obiges nicht zutrifft könntest du also mit verschiedenen Konvertern dein Glück versuchen.

Vielleicht findest du hier einen Ansatz, da hatte einer ein ähnlich gelagertes Problem.
Beim Erstellen dieser Nachricht kamen keine Tiere zu Schaden.
me is all sausage
but don't call me Ferdl

  • »dermichl« ist der Autor dieses Themas

Beiträge: 2

Registrierungsdatum: 09.04.2018

Derivat: Ubuntu

Version: Ubuntu 16.04 LTS - Xenial Xerus

Architektur: unbekannt

Desktop: unbekannt

  • Nachricht senden

3

18.04.2018, 19:05

Hallo Fredl,

das scheint das Problem zu sein. In den PDF-Dokumenten sind die hochgestellten Zahlen wohl nicht als extra Unicode-Zeichen vorhanden, sondern nur durch Höherstellen von regulären Ziffern dargestellt...schade, da muss ich mir echt was einfallen lassen...