Das ganz normale Chaos, täglich frisch auf den Tisch. Direkt aus der hintersten Provinz in die Metropolen von Groß-Blogistan.


Sonderbare Zeichen

Fri, 14 May 2010 11:29:08 +0200

Unicode Sonderzeichen – das ist ein Thema für sich. Hin und wieder benötige ich spezielle Zeichen. Bislang habe ich mir die händisch in eine Übersetzungsdatei reingeflickt. Es wird Zeit, das etwas gründlicher anzugehen.

Sonderzeichen für das Web sind eigentlich ganz einfach. Das w3c definiert dazu eine Reihe von Listen, in denen man sogenannte Entities finden kann sowie deren numerisches Äquivalent. Es ist nicht all zu schwer, daraus ein SED-Script zu machen, das diese Entities in das numerische Äquivalent übersetzt. Eine Anwendung auf eine beliebige Textdatei (also auch z.B. eine html-Datei) übersetzt also sämtliche symbolische Entities in deren numerisches Äquivalent. Dieses kann dann jeder Browser darstellen, ohne dass man die Mappings mit einbinden muss:

cat beispiel.html | sed -f cmap1.sed > output.html

Etwas schwieriger wird es, wenn man diese Entities direkt in das Unicode Zeichen übersetzen will. Deshalb habe ich auch dazu ein SED-Script erstellt, das die gleichen Entities direkt in die Unicode Zeichen übersetzt. Damit kann ich dann auch reine Textdateien bearbeiten. Das Problem ist ja, dass der Texteditor diese Zeichen zwar darstellen kann, ich diese aber mit der Tastatur nicht eintippen kann. Also schreibe ich in der Textdatei zunächst die Entities, so, als wäre es html, und wende drauf das SED-Script an. Anschließend habe ich in dem Resultat die Sonderzeichen direkt drin. Hier funktioniert das natürlich nur, wenn der gewählte Zeichensatz dieses Zeichen auch unterstützt. Aber das ist dann wieder ein ganz anderes Problem.

Wer will, kann sich die beiden Scripte gerne laden. Die üblichen Bedingungen treffen zu: Ich übernehme keine Garantie und stelle nur fest, dass die Scripte für meine Zwecke zu tun scheinen.


0 Kommentare