Bedienung von Windows 10



Zeichenerfassung und -Ausgabe in Windows 10

1. Problemstellung: Zeichensätze mit Diakritika   2. Lateinisches Schriftsystem   3. Zeichensatz-Grundlagen   4. Eingabe von Sonderbuchstaben
5. Speichern von Text mit Sonderbuchstaben   6. 8-Bit-Zeichensätze   7. Unicode und UTF   8. Anhang I: Hex-Zahlen   9. Anhang II: Links  


Diese Abhandlung soll das Umfeld der Textverarbeitung im paneuropäischen Schriftraum durchleuchten und Tipps bez. Erfassung und Speicherung von Texten zusammenstellen. Dabei geht es hauptsächlich um die nicht über die Tastatur direkt erreichbaren Sonderbuchstaben mit Diakritika; hier eine Auswahl:

à á â ä å ã ă æ ą  ć č ç  ď đ  è é ê ë ĕ ę  ğ  ì í î ï ı  ľ ł  ń ň ñ  ö ò ó ô õ ő œ ø  ŕ ř  ś š ş ș  ť ț  ù ú û ü ű ů  ý ÿ  ź ż ž .

Wenn Sie nur nach einer schnellen Eingabemöglichkeit für solche Zeichen suchen und auf die Hintergrundinformationen verzichten können, sollten Sie die zusätzliche Bildschirmtastatur aktivieren, die in 4.6 Virtuelle PC-Tastaturen beschrieben ist.

Wenn Sie auf der Tastatur eine Zeichenkette ("Text") eintippen, dann sendet die Tastatur eine entsprechende Scancode-Kette an den Tastaturtreiber im PC und der reicht die zugehörigen Zeichencodes weiter an die Anwendung. Dabei kommt es darauf an, welche Codepage in Windows aktiv ist, denn dort steht, welche Buchstaben oder welche Sonderzeichen aufgrund der übermittelten Zeichecodes gemeint sein sollen. Und es kommt auf den Schriftsatz an, denn da steht, wie die Glyphen der einzelnen Zeichen ausgeformt sein sollen.

Diese Zeichenkette/Text wird dann i.d.R. auf den Bildschirm gespiegelt und/oder an den Drucker gesendet; dabei sind wieder spezielle Übertragungscodes im Spiel. Aber vor allem, wenn der Text gespeichert werden soll, kommt ein spezieller Speicher-Code ins Spiel; die Textdatei besteht u.a. aus dessen Codezahlen/Codepoints. Diese Codepoints sind in Codepages aufgelistet.

In Windows sind standardmäßig drei Codepages/Zeichensätze verfügbar, jeder mit einem anderen Zeichenvorrat! Der wichtigste ist der 8-Bit-ANSI-Zeichensatz CP 1252 (auch: Windows Westlich / Windows 1252). Der ist ggf. für andere Ländergruppen austauschbar (CP 1250 - CP 1258). Für die meisten Windows-Zeicheneingaben wird auch der alte 8-Bit-Zeichensatz CP 850/858 (MS-DOS-Latin) verwendet und angeblich kommt sogar der ganz alte CP 437 (IBM-PC) noch im DOS-Fenster cmd.exe zum Einsatz. Aber intern arbeitet Windows immer mit dem 16-Bit-Zeichensatz CP 65001 (Unicode).

Viele Zeichen sind auf jeder Codepage anders codiert. Wann also greift welche? Und in Windows sind standardmäßig über 20 Schriftsätze/Schriftarten/fonts installiert. Zu fast jedem Codepoint in einer Codepage gibt es in jeder Schriftart eine passende Glyphe/Buchstabenausformung, aber eben nicht zu jedem.


 

   1. Problemstellung: Zeichensätze mit Diakritika


Angesichts des "Euro-Zahlungsverkehrsraumes" reicht ein 8-Bit-Zeichensatz aber selbst in (West-)Europa für offizielle Dokumente eigentlich nicht mehr aus, zumal dort neben einigen nichtdruckbaren Steuerzeichen auch viele Nichtbuchstaben, wie Satzzeichen, Währungszeichen usw. enthalten sind. So bieten ANSI-Zeichensätze trotz ihrer jeweils 256 Zeichen "nur" ca. 120 Buchstaben.

Aber davon sind auf einer deutschen QWERTZ-Tastatur nur 29 + 29 Buchstaben direkt über Tasten erreichbar und über Tot-Tasten einige wenige weitere mit Diakritika (s.w.u.). Aber schon das französische ç und das spanische ñ sind so nicht erreichbar. Und z.B. Łódź, Tomáš, Nový Špičák oder Křišťanov sind auch nicht richtig erfassbar/darstellbar.

Im englischen Alphabet sind nur die 26 Grundbuchstaben (genauer 26 Groß- + 26 Kleinbuchstaben) vorhanden. Dort gibt es somit keinerlei Sonderbuchstaben, es entspricht also dem Lateinischen Alphabet der Renaissance. Dieses bildet die Grundlage des Lateinischen Schriftsystems (s.w.u.).

Andere Alphabete des Lateinischen Schriftsystems kennen neben den Grundbuchstaben solche mit diakritischen Zeichen, ferner Ligaturen, Digraphe und echte Sonderformen. So gibt es im Deutschen die Umlaute Ää Öö Üü und das Eszett ẞß, sowie in Eigennamen/Fremdwörtern das ë (= e mit Trema als Kennzeichen einer Diärese); vgl.z.B. Pch (Eigenname) mit Pietät (Fremdwort), jeweils i-e gesprochen mit piesacken, i-i gesprochen. Somit gibt es im Deutschen 26+4 Großbuchstaben (ë nicht mitgezählt); z.B. im Französischen sind es sogar 26+16.

Um der Vielfalt gerecht zu werden, kommt im deutschen Personenstandsrecht seit 2012 der spezielle Zeichensatz string.latin zum Einsatz. Der umfasst derzeit über 400 Glyphen (Buchstaben); er soll sogar auf 600 Glyphen ausgebaut werden.

Mittels string.latin können die deutschen Meldebehörden europäische Namen auf Ausweisen und Pässen eigentlich richtig schreiben. Aber es gibt zwei Einschränkungen, die Längenbegrenzung auf dem scheckkartenkleinen Kärtchen und die Grenzkontrollnotwendigkeiten im internationalen Austausch.

Im Personalausweis werden im "Klartextfeld" auf der Vorderseite Name und Vornamen so geschrieben, wie es aus der (nationalen) Geburtsurkunde ersichtlich ist, aber nur in einer Zeile für den Zunamen und einer für die Vornamen, jeweils ca. 28 Zeichen lang. In der (u.a. für den Grenzverkehr) maschinenlesbaren Zone auf der Rückseite ist für Zu- und Vornamen zusammen sogar nur Platz für 30 Zeichen und dort wird der Schriftsatz OCR B verwendet, der nur das englische Alphabet umfasst. So müssen im Personalausweis also ggf. zweierlei Namen aufgeführt werden!

Ganz nebenbei: Aufgrund der Längenbegrenzung dürfte die für "Karl-Theodor Maria Nikolaus Johann Jacob Philipp Franz Joseph Sylvester Buhl-Freiherr von und zu Guttenberg" zuständige Passbehörde Personalausweisprobleme haben; für ihn müsste wohl das Feld Ordens- und Künstlernamen herhalten müssen mit "Karl-Theodor von und zu Guttenberg".


 

   2. Lateinisches Schriftsystem


Man unterscheidet phonographische, piktographische und logographische Schriften  oder  Buchstabenschriften, Silbenschriften und Wortschriften  oder  …  (siehe https://de.wikipedia.org/wiki/Schrift).

Das lateinische Schriftsystem ist das am weitesten verbreitete Schriftsystem der Welt: Alphabete von über 60 Ländern leiten sich mit Anpassungen davon ab (auch z.B. Vietnamesisch; s.u.) und werden als lateinische Alphabete oder Lateinschriften bezeichnet.

Neben den 26 lateinischen Grundformen/Grundbuchstaben umfasst das lateinische Schriftsystem über 90 weitere Sonderbuchstaben, jeweils mit Groß- und Kleinschreibung (also weitaus mehr als im Vorspann aufgeführt!). Die einzelnen Buchstaben dieses Buchstabensystems stellen die Phoneme der jeweiligen Sprache dar, wobei derselbe Buchstabe in verschiedenen Sprachen auch verschiedene Phoneme repräsentieren kann und in einer Sprache ein Buchstabe mit unterschiedlichen Diakritika auch unterschiedlich ausgesprochen wird. Siehe auch https://de.wikipedia.org/wiki/Lateinisches_Schriftsystem.

Die Sonderbuchstaben gliedern sich in Grundbuchstaben mit diakritischen Zeichen (ä ç č é è ê ö ü ữ …), Ligaturen (æ œ …), Digraphe (ij nj dz …) und Sonderformen (ð þ ß …), wobei das deutsche ß eigentlich auch eine Ligatur ist, was auch der Name Eszett widerspiegelt.

Die diakritischen Zeichen sind kombinierende Zeichen, das Ergebnis derartiger Kombinationen sind kombinierte Zeichen.

Schöne Beispiele für den Gebrauch von Diakritika sind:
Cộng hòa Xã hội chủ nghĩa Việt Nam  (Sozialistische Republik Vietnam) mit  Đà Nẵng  (Großstadt in Zentralvietnam),
Boğazlıyan, İmamoğlu, Ilıca  und  Şarkikaraağaç  (türkische Städte).
Vietnamesisch gehört nun gewiss nicht zum paneuropäischen Schriftraum, das Türkische im weiteren Sinn aber schon.

Bernd Kappenberg hat 2006 in "Der Gebrauch europäischer lateinischer Sonderzeichen in der deutschen Öffentlichkeit" in Kapitel 2 eine komplette Zusammenstellung des paneuropäischen lateinischen Zeichensatzes (also ohne Griechisch und Kyrillisch) geliefert; Details siehe http://www.mediensprache.net/networx/networx-49.pdf. Er kommt auf 361 Buchstabenglyphen zuzüglich der Ziffern, Satzzeichen und einiger math. Zeichen usw. Siehe auch https://de.wikipedia.org/wiki/Liste_lateinischer_Alphabete.

Die Buchstaben sind immer in einer Reihenfolge angeordnet (durchnummeriert), was als Regel zum Sortieren benutzt wird. Aber leider werden die Sonderformen in jedem Alphabet unterschiedlich eingeordnet. So ist z.B. das Ö im Schwedischen immer als letzter Buchstabe im Alphabet einsortiert, aber im Deutschen hinter O (also hinter Oz)  oder  in Lexika gleichwertig zu O  oder  in Telefonbüchern gleichwertig zu OE.

Im professionellen Buchdruck wird jeder vorkommende Buchstabe, jedes Satzzeichen und jeder Leerraum als einzelne Letter "geschnitten" oder im Bleisatz gegossen. Dabei gibt es aus ästhetischen und technischen Gründen Ligaturen, z.B. neben den Lettern f und l auch die Ligatur als eine Letter. fl ist aber im Deutschen kein Buchstabe des Alphabets (hat also keine eigene Platznummer), wird daher als f l sortiert, im Gegensatz zu z.B. œ im französischen Alphabet, das dort ein Buchstabe mit Platznummer ist.


 

   3. Zeichensatz-Grundlagen


"Das Zeichen (engl. character) ist die abstrakte Idee eines Schriftzeichens, die Glyphe ist dessen konkrete grafische Darstellung. Elektronische Texte wie dieser hier werden als abstrakte Zeichen gespeichert, und ihre Erscheinungsform hängt von der jeweils gewählten Schriftart ab. Im einfachsten Fall existiert zu jedem sichtbaren Schriftzeichen […] in einer bestimmten Schriftart (Schriftbild und Größe) eine einzelne Glyphe."   Zitiert aus https://de.wikipedia.org/wiki/Glyphe.

"Unter einem Zeichensatz versteht man einen Vorrat an Elementen, Zeichen genannt, aus denen sich Zeichenketten zusammenstellen lassen. Solche Elemente können unter anderem die Buchstaben eines Alphabetes, Ziffern, aber auch andere Symbole sein, etwa die Sonderzeichen, […] oder Steuerzeichen. Ein Zeichensatz ist weniger als ein Zeichencode, der zusätzlich noch eine definierte Nummerierung der Zeichen des Zeichensatzes enthalten muss. […]."   Zitiert aus https://de.wikipedia.org/wiki/Zeichensatz.


Grundlage für Zeichensätze sind logischerweise Alphabete, die in Code-Tabellen (Zeichecodes) angeordnet sind. Z.B. bei Unicode bestehen die Tabellen aus den Buchstaben samt einer Anordnung/Nummerierung und einer Beschreibung über die Buchstaben-Ausformung und -Rubrizierung. Das nebenstehende Beispiel ist LATEINISCHE ZEICHEN IN UNICODE entnommen.

Derartige Tabellen sind immer "durchnummeriert", bedingt durch den Zeilenaufbau, den jeweiligen "Platz" in der Tabelle. Da diese Tabellen aber meist Auszüge umfangreicherer Tabellen sind, muss neben der "Platznummer" die eigentliche Zeichennummer, der Codepoint, benannt sein (meist hexadezimal).

Da das in diesen Tabellen jeweils ausgedruckte Zeichen (die Glyphe) aber wiederum einen Zeichensatz für diese Darstellung benötigt, muss die grundsätzliche Ausformung in normierter Weise beschrieben/umschrieben werden (Spalte Name). Typographisch benötigt man zusätzlich zur Code-Tabelle noch Angaben über die Schriftart, wie Arial (ohne Serifen) oder Times New Roman (mit Serifen) und den Schriftschnitt, wie aufrecht/normal oder kursiv oder fett und die Schriftgröße, wie 12 pp oder 15 pt.

Im obigen Tabellenausschnitt ist zu erkennen, dass die Buchstaben anhand ihrer Codepoints lückenlos angeordnet sind, aber es gibt viel mehr aus dem lateinischen Alphabet abgeleitete Buchtaben, als die hier aufgeführten. Am Beispiel der 12 Sonderbuchstaben im Tabellenausschnitt, die zu den 5 Grundbuchstaben a - e gehören, sei das gezeigt:  à á â ä å ã ă æ ą ć č ç ď đ è é ê ë ĕ ę . Hier kommen schon 20 Sonderbuchstaben zusammen; insgesamt sind es wohl mindestens 36. Folglich sind in der Codetabelle etliche Buchstaben weit verstreut.

Daher ist man zur Eingabe von Sonderbuchstaben auf "Hilfsmittel" angewiesen.


 

   4. Eingabe von Sonderbuchstaben

4.1 Schreibmaschine   4.2 Buchdruck   4.3 Hardware-PC-Tastaturen   4.4 Zeichentabellen charmap.exe   4.5 Zeichentabelle Symbol
4.6 Virtuelle PC-Tastaturen   4.7 Fotosatz   4.8 Unicode und Diakritika   4.9 Fazit


Wenn Sie nur nach einer schnellen Eingabemöglichkeit suchen und auf die Hintergrundinformationen verzichten können, sollten Sie die zusätzliche Bildschirmtastatur aktivieren, die in 4.6 Virtuelle PC-Tastaturen beschrieben ist.
In 4.9 Fazit finden Sie eine Zusammenfassung der Folgerungen aus Kapitel 4.

 

   4.1 Schreibmaschine

Wenn man auf einer normalen Schreibmaschine der Reihe nach ´ ` e getippt hat, dann ist der Wagen bei ´ und ` stehengeblieben und hat sich erst nach e weiter bewegt, womit ein ê geschrieben war. Die Akzenttasten sind sogenannte Tot-Tasten und das ê ist dann ein kombinierter Buchstabe.

Auf alten Schreibmaschinen gab es nur ´ und ` und dadurch indirekt auch ^. Dafür konnte man jedem Buchstaben einen Akzent verpassen und so auch unsinnige kombinierte Buchstaben erzeugen.

 

   4.2 Buchdruck

Im Buchdruck (mit Bleisatz) kann es keine kombinierten Buchstaben geben (also soche, die der Reihen nach aus Grundbuchstaben und ggf. mehreren zusätzlichen kombinierenden Zeichen zusammengesetzt sind), sondern nur "ganz viele" vollständige Lettern, die aus Setzkästen herausgesucht werden und zu Zeichenketten zusammen gesetzt werden müssen.

 

   4.3 Hardware-PC-Tastaturen

QWERTZ-Tastaturen   MS-Word: Tastenkombinationen   MS-Word / WordPad / Notepad: dreistellige Alt-Nummern
MS-Word / WordPad / Notepad: vierstellige Alt-Nummern   MS-Word: Unicode

Das Arbeiten mit Tot-Tasten wurde (teilweise) auf Computertastaturen übertragen, dort teilweise sogar erweitert. Die Einsatzbreite hängt aber stark vom jeweiligen Tastaturtreiber und noch stärker von der verwendeten Schreibsoftware und der verwendeten Schriftart ab.

 

   QWERTZ-Tastaturen

Auf deutschen QWERTZ-Tastaturen wirken meist nur  ´ ` ^  als Tot-Tasten, bewirken also keinen Zeichenvorschub. Sie arbeiten mit den Vokalen samt y und liefern somit  á à â  é è ê  í ì î  ó ò ô  ú ù û  ý ; aber z.B. im Französischen werden à â æ ç è é ê ë î ï ô œ ù û ü ÿ benötigt.

Andere eigentlich geeignete Zeichen  ° ' " ~ , ; . : / -  scheiden aus, weil sie für normalen Schreibfluss einen Zeichenvorschub erzeugen müssen. Erst speziell dafür programmierte Editoren können sie und andere Zeichen ausnützen, dann aber auf z.T. abenteuerliche Weise. So soll in Word z.B. "STRG + ALT + UMSCHALT + ?" das führende spanische Fragezeichen  ¿  ergeben, also sind vier Tasten gleichzeitig zu drücken (und das klappt tatsächlich, wenn man dazu die Finger "richtig" einteilt!).

Besonders "ulkig" wirkt die "ALT GR"-Taste, sie liefert auf allen Tastaturen die dort meist auf den Tastenkappen aufgeführten dritten Zeichenbelegungen  ² ³ { [ ] } \ @ € ~ | µ . Aber in Word werden die vier weiteren Zeichen  ® ™ © und generiert und in praktisch allen Editoren/Schreibprogrammen werden durch manche Tasten spezielle Programmfunktionen ausgelöst!

Siehe auch
https://de.wikipedia.org/wiki/Tastaturbelegung und
https://support.microsoft.com/de-de/help/17073/windows-using-keyboard.

Auf einigen ausländischen Tastaturen gibt es eine spezielle Combine-Taste, mit der kombinierte Zeichen eingebbar sind.

 

   MS-Word: Tastenkombinationen

Vorbemerkungen / Schreibkonventionen in diesem Text:
Die Taste mit den beiden Tastenkappenbezeichnungen  6 &  ergibt das Zeichen 6 und die Tastenkombination    +  6 &  ergibt das Zeichen &, aber die Taste  N  ergibt in Wirklichkeit n und erst    +  N  ergibt tatsächlich N. Das ist so üblich, aber nicht ganz logisch.
Daher wird in den folgenden Absätzen  n  für  n  und  N  für  N  geschrieben.
Ferner beschreibt im Text + das gleichzeitige Drücken zweier/mehrerer Tasten und , das hintereinander auszuführende Drücken zweier/mehrerer Tasten, wobei die Buchstabenumschaltungen    oder  alt gr  nicht extra aufgeführt werden.
- Also meint  strg  +  & , dass drei Tasten gleichzeitig zu drücken sind, nämlich  strg  +    +  6  (auf der Haupttastatur).
- Zusätzlich bedeutet  1  ,  6  oder kürzer  1 , 6 , dass die Zifferntasten des Nummernblocks hintereinander zu drücken sind.
- Dabei bedeutet z.B.  alt  +  1 , 6 , 9 , dass bei gedrückt gehaltenem  alt  auf dem Nummernblock der Reihe nach die angegebenen Ziffern zu drücken sind
  (Kurzform  alt  +  169  oder Alt-Nummer 169).


In MS-Word gibt es für Vielschreiber raffinierte Tastenkombinationen für Tot-Tasten; dort liefert z.B.  strg  +  &  ,  A  den Buchstaben Æ oder  strg  +  ,  ,  C  den Buchstaben Ç oder  strg  +  :  ,  e  den Buchstaben ë.
In diesem Sinn hat die Tastenkombination  alt  +  strg  +    +  ?  keinerlei Tot-Tasten, weil alle beteiligten Tasten gleichzeitig zu drücken sind, um ¿ zu erhalten.

Die einzelnen Tot-Tasten und Tastenkombinationen sind in https://support.office.com/de-de/article/tastenkombinationen-für-inter­natio­nale-zeichen aufgelistet; aber leider wirken die nicht auf allen PCs so, wie MS das beschreibt.

Und leider sind die Word-Tastenkombinationen im Vergleich gesehen teils unlogisch, wohl weil historisch gewachsen.

  • Für die Tasten  2 3 7 8 9 0 ß q + <  gibt es jeweils drei Belegungen, die auf den Tastenkappen aufgedruckt sind: ausgelöst durch
    1.  Taste   oder 2.    +  Taste   oder 3.  alt gr  +  Taste ,  z.B.    2 " ²       e E €       m M µ    oder    + * ~ .
  •  strg  +  &  ,  A  ergibt den Buchstaben Æ, wie oben beschrieben und  strg  +  &  ,  a  ergibt æ. Dann müsste aber  strg  +  ~  ,  N  den Buchstaben Ñ ergeben, tut es aber nicht!
  • Während nämlich & und A immer als Tastenkombination    +  Taste  anzuschlagen sind, auch im Zusammenhang mit  strg , gilt das nicht für   ~  ; hier ist die Tastenkombination  strg  +  alt  +  +  ,  N  gefordert, um Ñ zu erhalten, anstelle von  strg  +  alt gr  +  +  ,  N , was logisch wäre, und auch anstelle von  strg  +    +  +  ,  N , wie das MS behauptet.

Es lohnt sich also nicht, diese Tastenkombinationen auswendig zu lernen. Es gibt schlichtere Wege zum Ziel, wie die folgenden Abschnitte zeigen werden.


Neben diesen Tricks mit Tastenkombinationen für Word gibt es für MS-Editoren noch drei weitere Methoden der Sonderzeicheneingabe. Aus historischen Gründen bedient sich jede einer anderen Codepage, mit der Folge, dass derselbe Code je nach Eingabemethode u.U. drei unterschiedliche Ergebnisse produziert:

 

   MS-Word / WordPad / Notepad: dreistellige Alt-Nummern (dezimal)

Auf Tastaturen mit Nummernblock (also nicht Notebooks!) können Sie bei gedrücktem  alt  im Nummernblock maximal dreistellige Zahlen ohne führende Nullen eintippen. So erzeugt z.B.  alt  +  1 , 5 , 6  das Zeichen  £  und  alt  +  9 , 9 , 9  das Zeichen  ϧ  (Word, Wordpad) oder þ (Notepad).

Das Zeichen £ stellt das "pound sign" dar (Unicode 00A3), das Zeichen ϧ den "coptic small letter khei" (Unicode 03E7) und das Zeichen þ den "latin small letter thorn", isländisch, (Unicode 00FE). Unicode verwendet offensichtlich hexadezimale Zahlen.

Laut MS werden die dreistelligen ALT-Nummern als ANSI-Codes interpretiert, sollen also die Zeichen der 8-Bit-ANSI-Codepage erzeugen. Dann müsste  alt  +  1 , 6 , 9  das Zeichen © ergeben, aber das ergibt ® und das ist die "alte" Codepage MS-DOS-Latin CP 850.

Daher erzeugen  alt  +  1  bis  alt  +  3 , 1  die Zeichen ☺ ☻ ♥ ♦ ♣ ♠ • ◘ ○ ◙ ♂ ♀ ♪ ♫ ☼ ► ◄ ↕ ‼ ¶ § ▬ ↨ ↑ ↓ → ← ∟ ↔ ▲ ▼,
obwohl dort in der ANSI-Codepage nur Steuerzeichen sind. Siehe auch https://de.wikipedia.org/wiki/Codepage_850#Codepage_858

Die 8-Bit-Codepage 850 umfasst bekanntlich nur die 256 Codepoints 0 … 255. Gibt man eine größere dreistellige Alt-Nummern ein, erhält man je nach Programm unterschiedliche Ergebnisse:

So liefern in Notepad/Editor z.B. die Alt-Nummern 100, 356, 612 und 868 das gleiche Ergebnis, nämlich d (Codepoint 100), weil 100+256=356, 100+2×256=612 und 100+3×256=868 gilt; also geht es hier jeweils nach Vielfachen von 256 wieder von vorne los (modulo 256); hier wird somit nur die Codepage CP 850 verwendet.

Anders bei Word und WordPad. Hier liefern beide jeweils:  100 = d,  356 = Ť,  612 = ɤ  und  868 = ͤ , wobei letztere beiden in Word das kombinierte Zeichen ɤͤ liefern, nicht aber in WordPad, dort gelingt die Kombination nur "halb": ɤ ͤ.

d ist der "latin small letter D" (Unicode 0064, dez 100), Ť ist der "latin capital letter T with Caron" (Unicode 0164, dez 356), ɤ ist der "latin small letter rams horn" (Unicode 0264, dez 612) und  ͤ  ist der "combining latin small letter E" (Unicode 0364, dez 868).

Beide Programme verwenden "unten" CP 850/858 und setzen "oben", also ab Codepoint 256, "nahtlos" mit Unicode fort.

Nun wird auch klar, warum die Alt-Nummer 999 die beiden Ergebnisse þ (Notepad) und ϧ (Word, WordPad) liefert.

 

   MS-Word / WordPad / Notepad: vierstellige Alt-Nummern (dezimal)

Auf Tastaturen mit Nummernblock (also nicht Notebooks!) können Sie bei gedrücktem  alt  im Nummernblock genau vierstellige Zahlen ggf. mit führenden Nullen eintippen. So erzeugt z.B.  alt  +  0 , 1 , 5 , 6  das Zeichen  œ  und  alt  +  0 , 9 , 9 , 9  das Zeichen  ϧ  (Word, WordPad) oder ç (Notepad).

Das Zeichen œ stellt die "latin small ligature Oe" dar (Unicode 0153), das Zeichen ϧ den "coptic small letter khei" (Unicode 03E7) und das Zeichen ç den "latin small letter C with cedilla" (Unicode 00E7).

Also Unterschied hexadezimal - dezimal schön verwirrend und schön zu sehen: z.B. œ = Unicode 0153 (hex) = alt 156 (dez), aber 156dez = 009Chex und 153hex = 339dez
Die Alt-Codierung und die Unicode-Codierung bedienen sich unterschiedlicher Tabellen/Codepages mit unterschiedlichen Codepoints fürs gleiche Zeichen!

Hier bedienen sich alle drei Programme der 8-Bit-Codepage CP 1252, Word und WordPad ergänzen "oben" mit Unicode, aber Notepad arbeitet wieder ausschließlich mit CP 1252, also "modulo 256".

 alt  +  0 , 0 , 0 ,1  bis  alt  +  0 , 0 , 3 , 1  erzeugen keine druckbaren Zeichen mehr, sondern Steuerzeichen ohne Glyphe, wie z.B. Rückschritt, Zeilenende, Zeilenvorschub, Seitenvorschub, weil die ANSI-Codepage CP 1252 die Codepoints 0…31 mit den ursprünglichen Bedeutungen aus ASCII-Zeiten belegt.

Das größte über den Nummernblock eingebbare Zeichen  alt  +  9 , 9 , 9 ,9  ergibt in Word und WordPad das Symbol  ✏  "pencil" (Unicode 270F, dez 9999) und in Notepad das Sybol  ☼  (Unicode 263C {= dez. 9788}, dez 15 {9999 = 39×256+15}).

 

   MS-Word: Unicode (hexadezimal)

Wenn Sie in Word entweder über die Haupttastatur oder den Nummernblock genau vierstellige Hex-Zahlen ggf. mit führenden Nullen eintippen und direkt anschließend  alt  +  c  tippen, rufen Sie Unicodezeichen ab. So erzeugt z.B.  0 , 1 , 5 , 6 ,  alt  +  c  das Zeichen  Ŗ  ("latin letter R with cedilla", Unicode 0156, dez. 342) und  0 , 9 , 9 , 9 ,  alt  +  c  das Zeichen    ("bengali letter nga", Unicode 0999, dez. 2457).

 9 , 9 , 9 , 9 ,  alt  +  c  erzeugt  香  und stellt "CJK Unified Ideograph-9999" (Unicode 9999, dez. 39321) in der Schrift "Han-Chinesisch (Hani)" dar.
Die größte in Word eingebbare vierstellige Unicode-Nummer  F , F , F , F ,  alt  +  c  liefert  ￿  mit der Bedeutung "undefiniert". Word stellt dagegen bei undefinierten Zeichen immer ein leeres Kästchen dar, ähnlich wie ☐.

 0 , 0 , 0 ,1 ,  alt  +  c  bis  0 , 0 , 1 , 6 ,  alt  +  c  erzeugen keine druckbaren Zeichen.

Der komplette Unicode ist in https://unicode-table.com/de/ aufrufbar. Dort sind die derzeit 917.999 definierten Codepoints von 0 000016 bis E 01EF16 aufrufbar; nicht zu jedem liefert der Browser eine gültige Glyphe.
Siehe auch 4.8 Unicode und Diakritika und 7. Unicode und UTF.


Für die meisten Sonderzeichen muss man also die jeweilige Codenummer kennen; aber zu allem Überfluss liefert dieselbe Codenummer je nach Eingabeprogramm unterschiedliche Ergebnisse; so liefert z.B. die Codenummer 0156 je nach Eingabe eines der Zeichen  £  oder  œ  oder  Ŗ . Dass dieses historisch bedingte Durcheinander keinen aufregt, liegt wohl daran, dass sowieso niemand die vielen ggf. benötigten Codes kennt und daher jeder einen der im folgenden beschriebenen Auswege ergreift.

Einen Ausweg bietet in Windows für alle Editoren der Dienst Windowszubehör > Zeichentabelle (charmap.exe; siehe 4.4) und einen anderen bietet in MS-Office der Dienst ... > Einfügen > Symbol (siehe 4.5). Diese beiden Dienste simulieren im engeren Sinn den Buchdruck: Die Lettern/Glyphen werden jeweils aus einem großen Setzkasten zusammen gesucht und zu Zeichenketten zusammen gesetzt.

Einen anderen Ausweg bieten die Bildschirmtastaturen (siehe 4.6).

 

   4.4 Zeichentabelle charmap.exe in Windows

charmap.exe rufen Sie über Windowszubehör > Zeichentabelle auf. Dort stellen Sie zunächst die Schriftart ein und dann in der Erweiterten Ansicht den 8-Bit-Zeichensatz/Codepage (s.r.; grün markiert). Neben dem Zeichensatz Windows: westlich (cp1252) stehen u.a. noch Windows: Baltisch, Windows: Mitteleuropa (cp1250) und Windows: Türkisch (cp1254) zur Auswahl. Damit wird der paneuropäische Schriftraum (fast) abgedeckt.
Siehe auch 6. 8-Bit-Zeichensätze.

Wenn Sie in der Tabelle einen Buchstaben anklicken, wird der vergrößert angezeigt und unten wird sein Unicode-Codepoint in hexadezimaler vierstelliger Unicode-Notierung (16 Bit) angezeigt, dann in Klammern sein aktueller Windowszeichensatz-Codepoint in normaler hexadezimaler zweistelliger Darstellung (8 Bit), dann die Buchstabenbeschreibung und ggf. ganz rechts der für Word gültige Tastaturcode ("Alt-Nummer") (blau markiert). Siehe https://de.wikipedia.org/wiki/Hexadezimalsystem.

Sie können als Zeichensatz natürlich auch Unicode einstellen, dann wird die Tabelle aber unübersichtlich, weil dann z.B. ca 3200 Glyphen der Schriftart Arial in der durch deren Codepoints vorgegebenen Reihenfolge eingeblendet werden.

Unabhängig davon, ob ein Zeichen in der Tabelle bereits aktiviert ist, können sie mit der Maus über die Tabelle fahren und erhalten zum aktuellen Zeichgen die Codeinformationen und die Zeichenbeschreibung (rot markiert). Im Beispiel ist sehr schön der Unterschied zwischen dem 8-Bit-Windows-Codepoint und dem 16-Bit-Unicode-Codepoint zu sehen: Unicode-Codepoint U+0160 (= 352 dez.), Windows-Codepoint 0x8A (= 130 dez.).

Im Feld Zeichenauswahl (orange markiert) können Sie normalen Text über die Tastatur erfassen oder per Copy and paste eintragen. Wenn Sie dann den Cursor im Text positionieren und mit der Maus ein Zeichen in der Tabelle aktivieren, wird das mittels  Auswählen  an der Cursorposition eingefügt. Ist der Text komplettiert, wird er mittels  Kopieren  zur Weiterverwendung in die Zwischenablage übertragen.

Das Charmap-Fenster ist in der Größe nicht variierbar, es zeigt immer 10 Zeilen à 20 Glyphen. Wenn man die Tabellen insgesamt untersucht, ist zu erkennen, wie einerseits im 8-Bit-Schema teils logische Abfolgen verwendet worden waren, teils reine Lückenfüllerei betrieben worden war. Z.B. das rot markierte Zeichen Š hat, wie seine Nachbarzeichen Œ und Ž, keinen Bezug zum ansonsten geordneten Alphabet.

 

   4.5 Zeichentabelle Symbol in Office

Und wer mit Office arbeitet, sich aber die dortigen Tot-Tasten nicht merken will, muss die Office-Zeichentabelle Symbol aufrufen über Einfügen > Symbol | weitere. Die ist viel mächtiger als charmap.exe, arbeitet dafür nur mit einzelnen Zeichen und nur in Office. Wenn Sie Text in anderen Anwendungen brauchen, müssen Sie diesen also erst in Office komplettieren und dann per Copy and Paste in die Zielanwendung übertragen.

Das Symbol-Fenster in Office ist skalierbar. Wenn man die Zeichentabelle auf 32 Zeichen pro Zeile einstellt, korrspondieren die Einträge am besten mit der zugrundeliegenden Hexadezimalanordnung. So ist dann leicht zu erkennen, dass die Tabelle zu unterschiedlichen Zeitpunkten zusammengestellt worden ist. Der Anfang der Tabelle ist aus Kompatibilitätsgründen den 8-Bit-ANSI-Tabellen entsprechend codiert, was eine Anordnung der Groß-/Kleinbuchstaben mit einem 25-Versatz ergibt (links pinkfarben markiert). Später aufgenommene Zeichen sind in direktier Abfolge Groß-Klein-Buchstabe angeordnet (rechts pinkfarben markiert).

Oben stellen Sie links die gewünschte Schriftart ein und rechts den gewünschten Subset/Ausschnitt aus der Schriftarttabelle (grün markiert).

Unten sehen Sie eine History-Liste der zuletzt verwendeten Zeichen. Wenn Sie dann in der Tabelle oder dieser Liste einen Buchstaben aktivieren, sehen Sie ganz unten dessen Unicodenamen/Buch­stabenbeschreibung samt Zeichencode (blau markiert).

Mittels  Autokorrektur…  können Sie dort in der Autokorrektur eine Zeichenkombination vereinbaren, die diese jedesmal bei deren Auftreten durch den entsprechenden Sonderbuchstaben ersetzt. Und mittels  Tastenkombination…  können Sie eine Tastenkombination definieren, die Sie anstelle des Sonderbuchstabens eintippen können und die dann durch eben diesen Sonderbuchstaben ersetzt wird.

Jeder Doppelklick auf ein Zeichen in der Tabelle überträgt das Zeichen in die History-Liste und in den Zieltext. Ein Doppelklick auf ein Zeichen in der History-Liste trägt das Zeichen ebenfalls in den Zieltext. Das Gleiche erledigt ganz unten der Knopf  Einfügen .


 

   4.6 Virtuelle PC-Tastaturen

Die (normalerweise gut versteckte) Bildschirmtastatur bietet einen wenig bekannten, aber hoch wirksamen Ersatz für die Unzulänglichkeiten der Hardware-Tastatur und der eben beschriebenen Zeichentabellen. Die Bildschirmtastatur läuft problemlos parallel zur Hard­ware-Tastatur und es gibt sie sogar in zwei Ausführungen:
- Bildschirmtastatur I schalten Sie frei über
  Einstellungen > Erleichterte Bedienung > Tastatur | Bildschirmtastatur verwenden oder kürzer über  strg + win + o ,
- Bildschirmtastatur II über das Kontextmenü der Task­leiste: Bildschirmtastatur anzeigen (Schaltfläche).

Bildschirmtastatur I bietet u.a. eine zuschaltbare Zehnertastatur, Bildschirmtastatur II eine ausgefeilte Verwaltung von Sonderzeichen jeglicher Art.

I gibt es mindestens seit Windows Vista, II erst seit Windows 8 in Zusammenhang mit dem Tabletmodus (aber unabhängig davon). Das deutlich unterschiedliche Bedienkonzept von I und II erweckt den Eindruck, dass zwei Firmen unabhängig voneinander Bildschirmtastaturen entwickelt hätten.

Beide gibt es auch in Windows 11. I ist in W10 und W11 praktisch identisch layoutet und bedienbar. Aber bei II scheint für W11 eine dritte Firma aktiv gewesen zu sein, die nur wenig mit der zweiten korrespondiert hatte, denn leider ist die Sonderzeichenverwalung in Windows 11 anders layoutet und fehlerhaft implementiert, daher nicht brauchbar und das auch noch 26 Monate nach Erstveröffentlichung von W11!

Wenn Sie beide freischalten, werden auch beide in der Taskleiste angezeigt (s.r.; W10), aber die linke (I) ist dominant, blockiert also das Einbenden der rechten (II), bzw. blendet diese aus.

II ist aber wichtig für die Sonderzeichenverarbeitung. Schalten Sie also immer die rechte (II) frei; die lässt sich dann jederzeit ein- und ausblenden und die ist eine richtige "eierlegende Wollmilchsau" mit unterschiedlichen Layouts (inc. Freihandtexteingabe).
I schalten Sie nur (zusätzlich) frei, wenn Sie den Nummernblock benötigen.


Die Bildschirmtastatur I für erleichterte Bedienung (s.r.) ist in W10 und W11 ziemlich identisch, wie bereits erwähnt.

Der Nummernblock kann über Optionen (gelb markiert) hinzugeschaltet werden. Dann entspricht I einer klassischen Hardware-Tastatur, kennt also ebenfalls nur die in 4.3 beschriebenen Tricks für Sonderzeichen.



Im Folgenden wird nur Bildschirmtastatur II beschrieben, also die mit Sonderzeichen. Layout und Bedienung unterscheiden sich deutlich zwischen W10 und W11. Und wegen der fehlerhaften W11-Implementation wird nur die W10-Version behandelt mit den beiden Layouts . a) Desktop-Tastatur (mit  Alt Gr ) und b) Tablet-Tastatur (ohne  Alt Gr ).

Von der W11-Version ist sehr zu hoffen, dass MS endlich nachbessert, bleibt sie doch weit hinter W10 zurück.
In W11 heißen die entsprechenden Layouts Traditionell (mit  Alt Gr ) und Default/Standard (ohne  Alt Gr ).

 

a) Desktop-Tastatur

Vorbemerkung:
Falls die Tesktop-Tastatur nach dem Start nicht so aussieht, wie im ersten Bild rechts unten gezeigt, müssen Sie das richtige Layout erst wählen. Wählen Sie die blau unterlegten Einstellungen (s.r.). Das wird dann erst beim nächsten Windows-Update zurückgestellt (so geschehen beim Wechsel zu W10 2004).


Sie öffnen einfach ein Dokument oder ein Texteingabefeld in irgend einer Anwendung, setzen dort den Cursor auf die Eingabestelle, blenden dann die Bildschirmtastatur ein und verschieben sie so, dass der zu bearbeitende Textbereich sichtbar ist. Und dann tippen Sie einfach drauf los, wie die folgenden Bilder zeigen.
Im ersten Bild ist die Tastatur erstmals geöffnet (s.r.).
Im zweiten Bild ist dann  Fnkt  aktiviert, so dass daneben anstelle von  ☺  die "Taste"  Ω  erscheint (s.r.). Das ist das aus Office bekannte Icon für Symbol einfügen.
Das dritte Bild zeigt diesen Einfügemodus (s.r.). Gewählt ist der hellblau unterlegte Teilbereich  Ç  (kombinierte Buchstaben). Das ist aber einer aus sieben Bereichen und dieser eine enthält bereits 340 Zeichen, wie Sie anhand des Laufbalkens erahnen können.

Nach Klick auf  abc  schalten Sie zurück auf normale Eingabe. Schneller können Sie mit keiner anderen Methode Mischtext mit Sonderbuchstaben erfassen.


b) Tablet-Tastatur

Im vierten Bild ist zu erkennen, wie das Tastaturlayout geändert werden kann (s.r.); aktuell gewählt ist die hellblau unterlegte Kombination.
Wählt man dort das gelb markierte Layout (s.r.o.), so erhält man das fünfte Bild. Das zeigt die Tablet-Bildschirmtastatur (s.r.). Die kann man aber auch mit der Maus bedienen, wie im Bild anhand des Mauszeigers zu sehen ist. Im Bild wurde die linke Maustaste so lange auf  o  gedrück gehalten, bis alle verfügbaren Optionen von  o  eingeblendet werden (gelb markiert).

Rechts neben der gerade aktivierten Option  ô  sind die beiden normalen Tastenbelegungen zu sehen ( 9  und  o ).

Dieser Modus ist zwar schneller als der in den Bildern 1 bis 3 beschriebene. Aber hier werden weniger Zeichen angeboten; in der Reihenfolge der Tasten:
q 1     w 2     e 3 êéèë     r 4     t 5     z 6     u 7 ûúùü     i 8 îíìï     o 9 ôóòõö     p 0     ü
a ãâáàä     s ߧ     d     f     g     h     j     k     l     ö     ä
y ÿý     x     c ©     v     b     n ñ     m µ     , ;     . :?!-;,_…     - "– — ―_~¬·     ? !)'_(@#/¿

So fehlen u.a. bei a die Buchstaben å ă æ ą und bei c alle kombinierten Buchstaben ć č ç und bei s alle kombinierten Buchstaben ś š ş ș.

 

   4.7 Fotosatz

Im modernen Fotosatz gibt es eigentlich auch keine kombinierten Buchstaben, schließlich landen auf dem Druckmedium auch nur Letterabdrücke. Da aber die ggf. "vielen" Sonderbuchstaben über normale Tastaturen eingegeben werden müssen, geht das rationell nur über mehrfache Tastenbelegung mit Tot-Tasten und Spezial­software. Außerdem ist es letztendlich egal, ob auf Folie, Papier oder Monitore "gedruckt" wird; immer setzt die Software die "Lettern" (irgendwie) zusammen.

 

   4.8 Unicode und Diakritika

Daher sind im Unicode Tot-Tasten simuliert; d.h., dort sind in der Kategorie Markierung ohne Extrabreite kombinierende Zeichen definiert (Diakritika; siehe https://de.wikipedia.org/wiki/Unicodeblock_Kombinierende_diakritische_Zeichen).

Ein unicode-fähiges Programm kann dann aus mehreren Codepoints ein kombiniertes Zeichen zusammensetzen. Im Gegensatz zur Schreibmaschine gilt aber: erst der Grundbuchstabe, dann die Diakritika.

So kann z.B. aus den drei Codepoints für a (0061) und  ̆  (0306) und   ̃(0303) das Zeichen zusammengesetzt werden. Das können sogar moderne Browser: ẵ (codepoints 0061 0306 0303). In HTML muss a&#x0306;&#x0303; geschrieben werden.
Hier kommt es auf die Reihenfolge an: ã̆ (codepoints 0061 0303 0306) gibt es wahrscheinlich gar nicht!

Hier kann man auch ganz unsinnige Zeichen kombinieren, wie auf der Schreibmaschine. Z.B., das Zeichen x̭̤̃̐ (Codepoints 0078 0303 0310 032D 0324; in HTML x&#x0303;&#x0310;&#x032D;&#x0324;) gibt es sicher nicht. Die Beschreibung wäre: "LATIN SMALL LETTER X, COMBINING TILDE, COMBINING CANDRABINDU, COMBINING CIRCUMFLEX ACCENT BELOW, COMBINING DIAERESIS BELOW"; kombiniert wird "von innen nach außen".

Aus Kompatibilitätsgründen sind die "häufigsten" kombinierten Zeichen aber als "precomposed characters", also mit Einzelcodepoints erfasst, z.B. (codepoint 1EB5). Derartige Zeichen können auch "schlichtere" Programme darstellen, sofern sie Unicode-Zeichen aufrufen können.

Wenn Sie hier experimentieren wollen, kopieren Sie alle eben gezeigten "fertigen" Zeichen nach MS-Word. Wenn Sie dann den Cursor rechts an eines der Zeichen setzen und  alt  +  c  drücken, erscheint anstelle des Zeichens dessen Unicode; erneute Eingabe von  alt  +  c  wechselt zurück.

Und wenn Sie das auch mit Notepad und WordPad versuchen und dabei in allen drei Programmen mit unterschiedlichen Schriftarten spielen, erkennen Sie schnell, dass die Darstellung kombinierter Zeichen eine (Un-)Fähigkeit des jeweiligen Zeichensatzes (fonts) im Zusammenspiel mit dem jeweiligen Editor ist.

 

   4.9 Fazit

In diesem Kapitel wurden viele mehr oder weniger umständliche Wege beschrieben, mittels Standard-Tastaturen mit nur rund 100 Tasten korrekte Dokumente auf Basis des Lateinischen Alphabets zu erstellen. Entweder müssen Sie viele Tastaturkürzel kennen oder viele Zeichencodes kennen oder in großen externen Tabellen suchen.


Professionelle Vielschreiber
kommen mit der Standard-Tastatur T1 nicht weit, sollten daher spezielle Tastaturen einsetzen, wie z.B die mit der Tastaturbelegung E1 (s.r.;
https://de.wikipedia.org/wiki/Tastaturbelegung#Tastaturbelegung_T1).

Details siehe https://de.wikipedia.org/wiki/E1_(Tastaturbelegung)
und mit Link zur Treiberinstallation https://www.europatastatur.de/e1
und https://www.bitkom.org/Bitkom/Publikationen/Stellungnahme-zum-Norm-Entwurf DIN-2137-12018-04.html.


Gelegenheitsschreiber
finden in Zeichentabelle in Windows und Tabelle Symbol in MS-Office eine Alternative, sie liefern zusätzlich die diversen Zeichencodes; sind trotzdem unhandliches Zubehör.


Normalanwender
verwenden aber am besten die Standard-Hardware-Tastatur und zusätzlich die bei Bedarf zuschaltbare Bildschirmtastatur II im Layout a) Desktop-Tastatur.
(s.r.).



Aber unabhängig davon, wie Sie Text erfassen, ist bezüglich Weitergabe und Speicherung unbedingt das nächste Kapitel zu beachten.


 

   5. Speichern von Text mit Sonderbuchstaben


Eine 8-BIT-Anwendung kann trotz raffinierter Zeicheneingabe nur 8-Bit-Zeichen speichern, also alle Zeichen einer einzigen 8-Bit-Codepage. Das ist unabhängig davon, was auf dem Bildschirm angezeigt wird oder direkt auf dem Drucker ausgegeben wird! Spätestens nach dem Abspeichern und anschließendem erneuten Laden des fraglichen Textes zeigt sich der Erfolg/Misserfolg.

In Windows sind standardmäßig der Editor Notepad und die Minitextverarbeitung WordPad vorhanden. MS-Office/Word muss hinzugekauft werden. Alle drei können im Prinzip 16-Bit-Zeichen verarbeiten. Anhand dieser drei Programme werden die Grenzen der Sonderbuchstabenverarbeitung anhand eines kleinen Mustertextes erörtert:

Adélaïde Françoise Dufrénoy war in Havlíčkův Brod und in Łódź.


notepad.exe wird über Windowszubehör > Editor gestartet (s.r.). NotePad kennt außer dem Zeilenwechsel keine weiteren Textformatierungen und -auszeichnungen, speichert also "nackten" Text (plain text). Die Tastenkombinationen von MS-Word werden nicht erkannt, sondern nur die üblichen Tastatureingaben, ggf. mit den Tot-Tasten
´ ` und ^ .

Aber Notepad kennt dreistellige Alt-Nummern und kann 16-Bit-Unicodezeichen z.B. über die Bildschirmtastatur aufnehmen. Und beim Speichern kann man die Codierung wählen.

Allerdings sind die Auswahlen sehr technisch formuliert: entweder die 8-Bit-Zeichencodetabelle ANSI oder eines der Unicode-Abbildungformate UTF. Und jede Datei wird als txt-Datei abgelegt, also mit der Dateinamenserweiterung .txt .

Wählt man hier versehentlich ANSI, dann wird aus dem Satz
"Adélaïde Françoise Dufrénoy war in Havlíčkův Brod und in Łódź."
der Satz
"Adélaïde Françoise Dufrénoy war in Havlíckuv Brod und in Lódz."

D.h., im ANSI-Code (CP 1252 = Windows westlich) kommen die französischen Sonderbuchstaben vor, nicht aber u.a. die polnischen oder tschechischen.


wordpad.exe wird über Windowszubehör > WordPad gestartet (s.r.). WordPad kennt Textformatierungen und Textauszeichnungen, aber keine Tastenkombinationen von MS-Word, sondern nur die üblichen Tastatureingaben, ggf. mit den Tot-Tasten ´ ` und ^ .

Und WordPad kann ebenfalls 16-Bit-Unicode­zeichen z.B. über die Bildschirmtastatur aufnehmen. Und beim Speichern kann man auch hier die Codierung wählen.

Aber im Gegesatz zu NotePad werden hier Dateitypen gewählt, die anhand der jeweiligen Dateinamenserweiterung identifizierbar sind.

Neben den für Textverarbeitsprogamme konzipierten Dateitypen .docx und .odt ist vor allem das Rich-Text-Format .rtf interessant. Alle drei nehmen Text samt Formatierungen und Auszeichnungen auf. Und alle drei dienen der Weitergabe von Dokumenten zur weiteren Verarbeitung in Windowssystemen.

So wie das Format .pdf (in MS-Office) eigentlich nur zur plattformübergreifenden Weitergabe von fertigen Dokumenten dient, dient das Format .rtf zusätzlich zum plattformübergreifenden Austausch zu bearbeitender Dokumente.

"Das Rich Text Format (RTF) ist ein proprietäres Dateiformat für Texte, das von Microsoft 1987 eingeführt wurde. Es kann als Austauschformat zwischen Textverarbeitungsprogrammen verschiedener Hersteller auf verschiedenen Betriebssystemen dienen. Ebenso wird es zum Beispiel für die Darstellung formatierten Textes in Datenbankfeldern eingesetzt.
Im Gegensatz zu Plain text, der nur die reinen Textzeichen transportiert, aber keinerlei Formatierungen wie zum Beispiel Schriftgrößen, -arten oder -auszeichnungen, enthält ein RTF-Dokument auch zahlreiche Textformatierungsmerkmale bis hin zu eingebetteten Grafiken, ohne andererseits an eine bestimmte Software gebunden zu sein. Praktisch alle Textverarbeitungssysteme können RTF-Dateien schreiben und lesen. Layouttreue ist dabei allerdings nicht gewährleistet, es kann beispielsweise zu veränderten Seitenumbrüchen auf dem Zielsystem kommen.
Technisch gesehen sind RTF-Dateien reine Textdateien, enthalten jedoch innerhalb des eigentlichen Textinhalts eingebettete Anweisungen zur Formatierung. Diese Vorgehensweise nennt man Textauszeichnung (Markup), sie arbeitet ähnlich wie HTML und LaTeX. Darüber hinaus können in RTF-Dateien auch Binärdaten, z. B. ein Bild, eingebettet sein."

Siehe https://de.wikipedia.org/wiki/Rich_Text_Format und http://formatting-and-more.de/2016/01/31/rtf-rich-text-format/ und http://www.aboutvb.de/bas/formate/pdf/rtf.pdf.

Und dann gibt es noch drei .txt-Formate für "nackten" Text: Textdokument (ANSI, CP 1252), Textdokument MS-DOS-Format (CP 437) und Unicode-Textdokument, wobei letzeres vermutlich in der Codierung UTF-8 gespeichert wird.


Word ist die "kingsize-"Textverarbeitung von MS; hier werden alle Zeichen und alle Formatierungen und alle Auszeichnungen verarbeitet und als .docx gespeichert. In diesem Format sind keine Makros einlagerbar, daher ist es sicher. Müssen Makros verarbeitet werden, muss das Format .docm verwendet werden.

Das Format .docx ist im Wirklichkeit ein .xlm-Format, das komprimiert ist. Wenn Sie docx durch zip ersetzen, können Sie das Dokument entzippen und die Struktur studieren, die aus mehreren geschachtelten Ordnern besteht (s.l.). Der eigentliche Inhalt steht im Ordner word in document.xml (s.r.).

Dokumente lassen sich auch im alten .doc-Format speichern, das im Prizip ein unkomprimiertes und verschlüsseltes .rtf-Format ist. .doc-Dateien können Makros beinhalten und sind daher per se gefährlich, sollten also nicht mehr verwendet werden.

.doc-Dateien sind typischerweise über doppelt so groß wie ihre .docx-Pendants.

Neben den vielen weiteren zu Office gehörigen Formaten ist natürlich auch .rtf möglich, aber da Word viel mehr Formatierungsmöglichkeiten kennt, sind dessen .rtf-Dateien prinzipiell viel größer als deren WordPad-Pendants.

Und es gibt auch ein zunächst nicht näher spezifiziertes .txt-Format. Wenn man den Mustertext in diesem Format abspeichern will, kommt folgende Warnung (s.r.), der die vielen Speicher-Code-Möglichkeiten zu entnehmen sind.


 

   6. 8-Bit-Zeichensätze


Ab 1963 gab es den 7-bit-ASCII-Zeichensatz mit 128 Zeichenpositionen/Codepoints. Der beinhaltete in seiner 1968 standardisierten Form u.a. nur die englischen Großbuchstaben, wurde aber bald um die englischen Kleinbuchstaben ergänzt. Da ein Byte aus 8 Bit besteht, wurden später mehrere 8-bit-Zeichensätze entworfen, die in den unteren 128 Bytes ASCII-kompatibel waren und in den oberen 128 Bytes auch Sonderbuchstaben und Sonderzeichen beinhalteten, leider aber zueinander inkompatibel waren. Bekannteste Beispiele aus DOS-Zeiten waren Codepage 437 (IBM PC) und Codepage 850. CP 437 wird in Windows anscheinend heute noch in der DOS-Box verwendet.

Letztendlich müssen alle 8-Bit-Zeichensätze zueinander inkompatibel sein, weil sie nur 256 Codepoints aufweisen können, aber die europäischen Sprachen 512 Codepoints benötigen, also nur in 9 Bits unterzubringen wären. Typische aktuelle Zeichensätze sind die ANSI-Codepage (genauer: Windows 1252 / CP 1252 "Westeuropäisch") und u.a. die Codepages 1250 "Mitteleuropäisch", 1254 "Türkisch" und 1257 "Baltisch". Siehe  https://de.wikipedia.org/wiki/Kate­gorie: Windows-Codepage

Nebenstehend ist in der Windows-Zeichentabelle charmap.exe die Codepage 1252 dargestellt (s.r.). Da charmap.exe immer 20 × 10 Zeichen darstellt, ist nie die komplette Codepage sichtbar.

In den Tabellen sind nur die Codepoints ab 33 (0x21) aufgeführt, zu denen es Glyphen gibt. Daher hat jede Tabelle andere Lücken und eine andere Länge, wie am jeweiligen Tabellenende zu erkennen ist.

Unten sind alle eben erwähnten Codepages dargestellt, jeweils mit dem unteren Teil, in dem die Unterschiede zwischen den einzelnen Codepages auftreten. Alle Buchstaben sind gelb unterlegt.

 

 

Bezüglich der Namenverwaltung in Stammdatenprogrammen gibt es also die 80%-Lösung mittels der immer voreingestellten Codepage 1252 und als Ausweg die 100%-Lösung Unicode, die aber in reinen 8-Bit-Programmen nicht funktioniert. MS-Office kann Unicodes verwenden, aber nicht alle Glyphen in allen wählbaren Schriftarten sind vorhanden.

String.Latin der deutschen Meldebehörden ist eine kleine Untermenge von Unicode, die den paneuropäischen Schriftraum abdecken soll. Daher müssen alle Behörden, die Personaldaten führen, ihre Datenbanken auf Unicode umstellen.


 

   7. Unicode und UTF


Unicode ist gleichbedeutend mit Universal Coded Character Set (UCS),
UTF bedeutet Unicode Transformation Format (= Abbildungformat in eine Text-Datei).

Unicode ist gegliedert in 17 Codeplanes zu je 65.536 codepoints, also zusammen 1.114.112 codepoints und kann damit praktisch alle aktuellen und vergangenen Alphabete/Sprachen der Welt aufnehmen, genauer, alle bekannten Schriftsysteme und Zeichen kodieren. Die Codepoints werden üblicherweise hexadezimal nummeriert.

Die erste Unicode-Codeplane heißt Basic Multilingual Plane, diese BMP umfasst 216 = 65.536 Codepoints, die also als Doppelbytes hexadezimal angesprochen werden können, also von 00 00 bis FF FF.

Zum Vergleich: Joseph D. Becker, der Schöpfer des ersten Unicode-Entwurfs, hat 1988 vermutet, dass damals der in allen Zeitungen und Zeitschriften der Welt benötigte Zeichenvorrat "zweifelsfrei weit unter 214 = 16.384 liegt"; siehe https://de.wikipedia.org/wiki/Unicode und https://de.wikipedia.org/wiki/Hexadezimalsystem.

"Unicode ist lediglich ein abstrakter Standard, der jedem vorhandenen Zeichen eine Nummer (den codepoint) zuweist. Diese Codepoints werden hexadezimal angegeben (U+1F46 usw.). Die Codierung (encoding) legt fest, in welcher Form die codepoints in einer Datei gespeichert werden. UTF-8, UTF-16, UTF-32 sind nicht gleichbedeutend mit Unicode, sondern Standards, wie Unicode-Zeichen gespeichert werden.
UTF-8:
Häufige Zeichen (lateinisches Alphabet) werden in 1 Byte gespeichert, seltenere in 2 oder 3 Byte. D.h. bei einem Text, der nur aus lateinischen Buchstaben ohne Umlaute besteht, ist eine UTF-8-codierte Datei nur halb so groß, wie eine UTF-16-Datei. Wie viele Bytes zu einem Zeichen gehören, ist jeweils in der Bitfolge codiert.
UTF-16:
Jedes Zeichen der BMP wird mit 2 Bytes gespeichert, alle weiteren mit 4 Bytes. Aber zwei Darstellungen sind möglich: Big-Endian (höherwertigeres Byte zuerst), Little-Endian (niedrigwertigeres Byte zuerst), wie auch sonst in der Informatik üblich.
UTF-32:
Benötigt immer vier Bytes und könnte so direkt über 4 Mrd. Zeichen kodieren, wird aber zum Speichern und Tranportieren von Text nicht eingesetzt.
BOM:
= Byte Order Mark, das ist die Markierung (2-4 Byte) zu Beginn einer Datei, die das encoding angibt, z.B. bei UTF-8: EF BB BF   UTF-16 (BE): FE FF   UTF-16 (LE): FF FE"

Sinngemäß entnommen aus Sonderzeichen, TEI und Unicode.
Siehe auch https://de.wikipedia.org/wiki/Unicode_Transformation_Format
und https://wiki.selfhtml.org/wiki/Zeichencodierung#UTF-8:_Die_Codierungsform_der_Wahl.

Der komplette Unicode ist in https://unicode-table.com/de/ aufrufbar. Dort sind die derzeit 917.999 definierten Codepoints von 0 000016 bis E 01EF16 aufrufbar; die Tabelle ist offenbar lückenhaft, denn sie enthält nur ca. 120.000 tatsächlich "gefüllte" Codepoints; nicht zu jedem liefert der Browser eine gültige Glyphe. Sinnigerweise sind erst am Ende der meterlangen Tabelle Bedienungshinweise für die Tabelle und Erklärungen angegeben:

Unicode
Unicode ist ein Zeichencodierungsstandard. Einfach gesagt, ist dies eine Tabelle der Korrespondenz von Textzeichen (Zahlen, Buchstaben, Interpunktionszeichen) zu Binärcodes. Der Computer versteht nur die Abfolge von Nullen und Einsen. Um zu wissen, was genau auf dem Bildschirm angezeigt werden soll, müssen Sie jedem Symbol eine eindeutige Nummer zuweisen. In den achtziger Jahren wurden die Zeichen in einem Byte codiert, das heißt acht Bits (jedes Bit ist 0 oder 1). So stellte sich heraus, dass eine Tabelle (die gleiche Kodierung oder Menge) nur 256 Zeichen enthalten kann. Dies kann nicht einmal für eine Sprache ausreichen. Daher erschienen viele verschiedene Kodierungen, deren Verwirrung oft dazu führte, dass seltsame Zeichen auf dem Bildschirm anstelle des gelesenen Textes auftraten. Ein einziger Standard wurde benötigt. Die am häufigsten verwendete Codierung — UTF-8 für das Symbolbild verwendet 1 bis 4 Byte.
Zeichen
Die Zeichen in den Unicode-Tabellen sind mit Hexadezimalzahlen nummeriert. Zum Beispiel wird der kyrillische Großbuchstabe M mit U + 041C bezeichnet. Dies bedeutet, dass es sich am Schnittpunkt von Zeile 041 und Spalte C befindet. Es kann einfach kopiert und dann irgendwo eingefügt werden. Um das Stöbern in der Multikilometerliste zu vermeiden, sollten Sie die Suche verwenden. Wenn Sie auf die Seite des Symbols gehen, sehen Sie deren Nummer in und die Art des Zeichnens in verschiedenen Schriftarten. In der Suchzeile können Sie auch das Zeichen selbst ansteuern, auch wenn statt dessen ein Quadrat gezeichnet wird, um herauszufinden, was es war. Außerdem gibt es auf dieser Seite spezielle (und nicht spezielle — zufällige) Sätze des gleichen Typs von Symbolen, die aus verschiedenen Abschnitten gesammelt wurden, um sie bequem zu benutzen.
Der Unicode-Standard ist international. Es enthält die Zeichen fast aller geschriebenen Sprachen der Welt. Einschließlich solcher, die nicht mehr gelten. Ägyptische Hieroglyphen, germanische Runen, Maya-Schrift, Keilschrift und Alphabete alter Staaten. Die Notation von Maßen und Gewichten, Notenschrift, mathematischen Konzepten wird vorgestellt.
Das Unicode-Konsortium selbst erfindet keine neuen Symbole. In der Tabelle sind jene Symbole hinzugefügt, die ihre Anwendung in der Gesellschaft finden. Zum Beispiel wurde Rubelsymbol sechs Jahre lang aktiv verwendet, bevor es zu Unicode hinzugefügt wurde. Emoji-Symbole (Emoticons) wurden auch zuerst in Japan weit verbreitet und bevor sie in die Kodierung einbezogen wurden. Marken und Logos von Unternehmen werden jedoch grundsätzlich nicht hinzugefügt. Sogar so üblich wie Apple Apple oder die Windows-Flagge. Bis heute in der Version 8.0 codiert etwa 120.000 Zeichen.


 

   8. Anhang: Hexcode

8.1 Haptisches   8.2 Historisches   8.3 Mathematisches


Im vorliegenden Text ist oben viel von 8 Bit und 16 Bit die Rede, von Bytes und Hex-Code usw. Eigentlich geht es dabei "nur" ums Zählen, also um Zahlensysteme und speziell um Stellenwertsysteme und da wiederum um Dualsystem, Dezimalsystem und Hexadezimalsystem.

Darüber gibt es jede Menge Informationen im Netz. Eine kleine Link-Auswahl ist am Ende des Abschnitts aufgeführt. Wem diese Seiten im Netz zu viel sind, dem bieten die folgenden Zeilen einen Kurztrip durch das Metier; Lehrer bleibt halt (Ex-)Lehrer:

 

   8.1 Haptisches

Wir haben an zwei Händen zusammen zehn Finger, daher rechnen wir im Zehnersystem/Dezimalsystem mit den zehn Ziffern 0 1 2 3 4 5 6 7 8 9.

Hätten wir nur drei Finger an jeder Hand, würden wir vermutlich im Sechsersystem mit den sechs Ziffern 0 1 2 3 4 5 rechnen. Hätten alle Menschen nur einen Arm mit fünf Fingern, dann eben im Fünfersystem mit den fünf Ziffern 0 1 2 3 4.

Und hätten wir an jeder Hand nur einen Daumen, dann würden wir im Zweiersystem/Dualsystem mit den Ziffern 0 1 rechnen.

Würden wir mit Händen und Füßen rechnen, wie die Mayas, hätten wir ein Zwanzigersystem/Vigesimalsystem mit den zwanzig "Ziffern" 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19. Um Verwirrung zu vermeiden, müssten 10 bis 19 als Ziffer-Zeichen vorhanden sein, denn 10 bis 19 sind keine Ziffern, sondern aus Ziffern zusammengesetzte Zahlen. Also müssten wir Ersatzzeichen erfinden oder auf Buchstaben ausweichen: 0 1 2 3 4 5 6 7 8 9 A B C D E F G H I K, also mit den "Ziffern" "A" (=10) bis "K" (=19).

Glücklicherweise hat sich das Zwanzigersystem nicht durchgesetzt. Aber das Sechzehnersystem/Hexadezimalsystem mit den sechzehn Ziffern 0 1 2 3 4 5 6 7 8 9 A B C D E F hat sich in der EDV als sehr praktisch erwiesen. Es würde Wesen entsprechen, die mit vier Gliedmaßen zu je vier Fingern/Zehen rechnen würden.

Mit sechs Fingern an jeder Hand würden wir im Zwölfersystem rechnen, also mit den Ziffern 0 1 2 3 4 5 6 7 8 9 A B. Weil 12 die vier Teiler 2, 3, 4 und 6 hat, wäre das u.U. praktischer als das Zehnersystem mit nur zwei Teilern 2 und 5.

Bis 12 kann man auch mit einer Hand zählen (Fingerglieder), mit der anderen merkt man sich dann die Anzahl der Duzende und schon zählt man zweihändig bis 60 !

 

   8.2 Historisches

Das oben erwähnte Zwanzigersytem war u.a. bei den Mayas üblich; und sie hatten tatsächlich Ziffern für 10 bis 19 und sie hatten bereits die Null! Im Französischen erinnern 80 = quatre vingt = 4×20 und 90 = quatre vingt dix = 4×20+10 an das Zwanzigersystem.

Auch an das oben erwähnte Sechzehnersystem erinnern die französischen Zahlziffern 1 2 3 … 15 16 = un deux trois … quinze seize (ohne Null). Ab sieb-zehn acht-zehn … folgen zusammengesetzte Zahlworte dix-sept dix-huit …

In historischen Zeiten gab es ferner das Zwölfersystem/Duodezimalsystem, in Deutschland mit dem Dutzend (= 12), Schock (= 5 Dutzend = 60), Gros (= 12 Dutzend = 122 = 144) und dem Maß (= 12 Gros = 123 = 1728).

Auf Uhrenziffernblättern hat sich bis heute aus dem Römischen abgeleitet die Bezifferung Ⅰ Ⅱ Ⅲ Ⅳ Ⅴ Ⅵ Ⅶ Ⅷ Ⅸ Ⅹ Ⅺ Ⅻ erhalten. Und vor allem unsere Zahlworte spiegeln das Zwölfersystem wieder in Form der Zahlziffern eins zwei drei vier fünf sechs sieben acht neun zehn elf zwölf; ab drei-zehn wiederholen sich diese Ziffern in zusammengesetzten Zahlworten. Weil damals die Null nicht bekannt war, gehen die Zahlworte von eins bis zwölf und nicht von null bis elf.

Und von früher geerbt haben wir auch Reste des Sechzigersystems/Sexagesimalsystems in Form der Zeitmessung 1 Stunde = 60 Minuten = 602 Sekunden und in Form der Winkelmessung Vollwinkel 360° = 6×60 Bogengrad = 6×602 Bogenminuten = 6×603 Bogensekunden, wobei eine Bogenminute am Äquator der Länge einer Seemeile entspricht (1,852 km × 6×602 = 40.003,2 km).

Sowohl das Zwölfer- als auch das Sechzigersystem habeh ihre Wurzeln vermutlich im (zweihändigen) Zählen mit Fingergliedern.

Die alten Römer kannten die neun Ziffern I V X L C M D ↁ ↂ das ist aber kein Neunersystem, denn diese Ziffern haben die feststehenden Werte  1  5  10  50  100  500  1000  5000  10000  (Additionssystem) und dabei kommt keine Null vor! Vermutlich, weil sich damit nur sehr beschwerlich rechnen ließ, gab es in der großen römischen Kultur keine wesentlichen mathematisch-naturwissenschaftlichen Errungenschaften. Dafür war sie kulturell und architektonisch wegweisend.

Die Ziffer Null ist aber eine äußerst wichtige Ziffer für kaufmännisches Rechnen und für Stellenwertsysteme.

Eine Fundgrube für Anleihen an nichtmetrische (= nichtdezimale) Zahlensyteme bietet / bot / bietet wieder Großbritannien mit seinem Währungssystem und seinem Maßsystem.
So galt bis 1971: 1 Sovereign = 4 Crown = 8 Half Crown = 10 Florin = 20 Schilling = 60 Groat = 240 Penny = 20×12 Pence = 960 Farthing = 1 Pfund Sterling.
Und bis heute: 1 Fuß = 1 foot = 12 Zoll = 12" = 12 inch = 12×25,4 mm (bei uns z.B. 55"-TV und ¾"-Gewinde).
Und in der Typographie gilt: 1 inch = 6 pica = 12 line = 72 point = 25,4 mm = 6×4,23 mm = 12×2,12 mm = 72×0,353 mm.

Die Concorde war Gemeinschaftsprojekt von Frankreich und Großbritannien gewesen. Angesichts der historischen Dezimalisierungswut der Franzosen war vielleicht nicht die Schaffunbg des einzigen zivilen Überschallfugzeugs die Leistung, sondern, dass die Planung trotz der unterschiedlichen Maßsysteme geklappt hatte.
Boris Johnson will den Briten angeblich (Stand 17.09.21) wieder zu Pfund und Unze (= Imperial Units) verhelfen; schließlich sind das urbritische Begriffe, während der Meter französisch ist. Sollten hier alte Animositäten wieder aufleben?

 

   8.3 Mathematisches

Stellenwertsystem I: Dezimalsystem   Stellenwertsystem II: Dualsystem   Stellenwertsystem III: Schreibweise in Stellenwertsystemen
Stellenwertsystem IV: Vom Dual- über Byte- zum Hexadezimal-System


Bei einem Stellenwertsystem wird die Anzahl der dort erlaubten Ziffern als Basis b bezeichnet. In diesem Sinn ist jedes Stellenwert­system mit Basis b ein b-adisches Zahlensystem.

 

   Stellenwertsystem I: Dezimalsystem

Potenzschreibweise für Zehnerpotenzen = Grundlage des Dezimalsystems mit Ziffernvorrat 0 1 2 3 4 5 6 7 8 9 und Basis 10:

Zehntausend = 10.000 = 10×10×10×10 = 104 
Tausend = 1.000 = 10×10×10 = 103 
Hundert = 100 = 10×10 = 102           "10 hoch Anzahl der Nullen"
Zehn = 10 = 10 = 101 
Eins = 1 = 1 = 100 

Das Dezimalsystem ist also ein Stellenwertsystem mit Basis 10: der Wert(-faktor) jeder Ziffer ist eine Zehnerpotenz und ergibt sich aus der Stelle, an der die Ziffer steht:

Stelle     … 
Faktor …   Zehntausend   Tausend   Hundert   Zehn   Eins 
Zehnerpotenzen … 104 103 102 101 100 

Wenn für die Zehnerpotenzschreibweise gilt; "10 hoch Anzahl der Nullen", dann ist auch logisch, dass gilt: 100 = 1, denn 1 hat nun mal 0 Nullen ;-) .


Beispiel 1

12.034  =  1×104 + 2×103 + 0×102 + 3×101 + 4×100

Null ist das Zeichen für eine Zehnerpotenz-Fehlstelle; im Beispiel fehlen die Hunderter.

Die Null wurde viel später "erfunden", als die übrigen Ziffern, denn sie bewirkt "nichts und viel": Beim Addieren von Null, ändert sich der Wert nicht; beim Multiplizieren mit Null ist der Wert selber Null. Null ist das neutrale Element der Addition und das absorbierende (omnipotente) der Multiplikation.
Wird eine Null rechts an eine Zahl angefügt, ist deren Wert verzehnfacht! Wird eine Null in eine Zahl eingefügt, verzehnfacht sich der Wert links von der Einfügestelle:

120.340 = 12.034 × 10                 12.034 = 12 × 103 + 034         120.034 = 12 × 103 × 10 + 034 = 12 × 104 + 34


Beispiel 2

47.110.815  =   4×107 + 7×106     + 1×105 + 1×104 + 0×103     + 8×102 + 1×101 + 5×100  
=   (4×101 + 7)×106     + (1×102 + 1×101 + 0)×103     + (8×102 + 1×101 + 5)×100  
=   47 × 106   + 110 × 103   + 815 × 100  
=     siebenundvierzig Millionen   hundertzehn Tausend   und achthundertfünfzehn  

Man kann Potenzen offensichtlich zusammenfassen/gruppieren.
Die Beispielzahl hat 8 Dezimalstellen. Größte 8-stellige Zahl = 99.999.999 = 100.000.000 - 1 = 108 -1

 

   Stellenwertsystem II: Dualsystem

Potenzschreibweise für Zweierpotenzen = Grundlage des Dualsystems mit Ziffernvorrat 0 1 und Basis 2:
28 = 2×2×2×2×2×2×2×2 = 256     27 = 128     26 = 64     25 = 32     24 = 16     23 = 8     22 = 4     21 = 2     20 = 1


Beispiel 3

Stellen   
Zweierpotenzen  27  26  25  24  23  22  21  20   
1101 0110     1×27  + 1×26  + 0×25  + 1×24      + 0×23  + 1×22  + 1×21  + 0×20   
128  + 64  + 0  + 16  + 0  + 4  + 2  + 0     = 214 

Man kann auch hier Potenzen zusammenfassen, wie wir noch sehen werden.
Größte 8-stellige Zahl = 1111 1111 = 1 0000 0000 - 1 = 28 -1

 

   Stellenwertsystem III: Schreibweise in Stellenwertsystemen

1.234 = 1.23410 = 0000 0100 1101 00102 = 23228 = 86A12 = 04D216 = 31E20

Gegenprobe: 4D216 = 4 × 162 + 13 × 161 + 2 × 160 = 1.024 + 208 + 2 = 1.234
                      31E20 = 3 × 202 + 1 × 201 + 14 × 160 = 1.200 + 20 +14 = 1.234

Einerseits ist neben dem "natürlichen" Dezimalsystem im Zwanzigersystem am leichtesten/schnellsten zu rechnen, andereseits benötigt es sehr viele "Ziffern". Da hat sich für die EDV ein glänzender Kompromiss in Form des Hexadezimalsystems ergeben, weil 16 als Zweierpotenz praktisch das Achter-, Vierer- und Dualsystem beinhaltet (Zusammenfassen/Gruppieren von Potenzen).

In der EDV werden Zahlen gerne mit führenden Nullen auf (Vielfache von) 16 Bit aufgefüllt, das entspricht (Vielfachen von) vierstelligen Hexadezimalzahlen.

Schreibweise für vierstellige Hexadezimalzahlen:   FFFF16   0xFFFF   FFFFhex   FFFFh   Unicode: U+FFFF   HTML: &#xFFFF;

 

   Stellenwertsystem IV: Vom Dual- über Byte- zum Hexadezimal-System

Computer rechnen bekanntlich im Dualsystem: z.B.   0 = "Strom aus" / "Spannung niedrig"   1 = "Strom ein" / "Spannung hoch".

Eine duale Ziffer 0 oder 1 heißt auch Bit (Binary digit); die Zahl in Beispiel 3 1101 01102 (= 214) hat also 8 Bits (8 Dualstellen); die größte 8-Bit-Zahl ist 1111 11112 = 255. Größere Zahlen benötigern eben mehr Bits; sehr viele Bits kann man übersichtlich zusammenfassen/gruppieren.


- "Bytesystem" = 256-System

Intern werden die Codepoints von Zeichensätzen auch mit Dualzahlen/Binärzahlen gespeichert. Die Standard-Zeichensätze brauchen Platz für 256 Codes 0 bis 255, also für 8 Bit. Daher ist die "kleinste" Speichereinheit in Computern typischerweise 8 Bit = 1 Byte. So werden auch "normale" Zahlen dargestellt; und wenn es um größere Zahlen geht, werden eben mehrere Bytes zusammengefass: 1 Wort = 2 Bytes, 1 Doppelwort = 4 Bytes (analog 8-Bit-Architektur, 16-Bit-Architektur, 32-Bit-Architektur).

Das entspricht aber einem Stellenwertsystem mit Basis 256, einem "Bytesystem":

Die 4-stellige Zahl abcd im Bytesystem hat den Wert  a × 2563 + b × 2562 + c × 2561 + d × 2560,  wobei jede der Byte-Ziffern a b c d einen Wert von 0 bis 255 haben kann. Um derartige Zahlen darzustellen, bräuchte man also 255 verschiedene Ziffern mit den Werten 0 … 255; da würde auch kein Alphabet aushelfen. Daher spricht auch niemand vom Bytesystem. Aber alle rechnen damit, allerdings mit einem Trick.

Die größte vierstellige Bytezahl (also 4 Bytes zu je 8 Bit = 32 Bits) hat die Ziffern a = b = c = d = 255, also den Wert
255 × 2563 + 255 × 2562 + 255 × 2561 + 255 × 2560 = 2564-1 = (28)4 - 1 = 232 -1 = 4.294.967.295 ; also über 4¼ Milliarden!

Das ist der größtmögliche Umfang des Unicodes, könnte also mehrfach für die ganze Menschheitsgeschichte reichen (einschließlich elbisch & co)! Zur Zeit werden nämlich "nur" 17 Codeplanes verwendet, das sind 17 × 2562 = 17 × 65.536 = 1.114.112 Codepoints
(= 0,26 ‰!).


- Hexadezimalsystem

Der Trick zum schreibtechnischen Umgehen des Bytesystems besteht darin, dass jedes Byte in zwei Halbbytes (Nibbles mit 4 Bit) zerlegt wird, für welche die Hexadezimalzahlen 0 1 2 3 4 5 6 7 8 9 A B C D E F ausreichen. Das ist ursprünglich der Trick des Zusammenfassens/Gruppierens von Potenzen, nun werden eben die Bits zu Nibbles zusammengefasst und damit die Bytes in Halbbytes getrennt.


Beispiel 4

1101 11102  =  0  1          0       
  =  1×27  + 1×26  + 0×25  + 1×24          + 1×23  + 1×22  + 1×21  + 0×20       
  =  128  + 64  + 0  + 16          + 8  + 4  + 2  + 0       =    222   
 
  =  (1×23 + 1×22 + 0×21 + 1×20)×24          + (1×23 + 1×22 + 1×21 + 0×20)×20       
  =  (  8       + 4       + 0      + 1    )×24          + (    8      + 4      + 2       + 0   )×20       
  =  13×161          + 14×160       
  =  208          + 14        =    222   
  =  D          E        =    DE16 

Somit gilt     222  =  1101 11102  =  DE16


Beispiel 5

47.110.815   =      0000 0010 1100 1110   1101 1010 1001 11112         
=   0      2       C       E         D      A      9       F16        02CE DA9F16 

Beispiel 6

Mit     AFFE16 = 45.054    und    ACDC16 = 44.252    und    164 = 65.536
ist      AFFE ACDC16 = AFFE16 ×164 + ACDC16 = 45.054×65.536 + 44.252 = 2.952.703.196

AFFE ACDC16   =   A  F  F  E  A  C  D  C16     
=   1010  1111  1111  1110  1010  1100  1101  11002     
=   10×167  + 15×166  + 15×165  + 14×164  + 10×163  + 12×162  + 13×161  + 12×160   
=   (10×163 + 15×162 + 15×161 + 14×160)×164      + (10×163 + 12×162 + 13×161 + 12×160)×160     
=   45.054×164  + 44.252×160   
=   2.952.658.944  + 44.252    =    2.952.703.196 

 

   9. Anhang II: Weitere Quellen/Links


Wikipedia-Portale

https://de.wikipedia.org/wiki/Portal:Schrift
https://de.wikipedia.org/wiki/Portal:Unicode

zu   2. Lateinisches Schriftsystem

https://de.wikipedia.org/wiki/Schrift
https://de.wikipedia.org/wiki/Lateinisches_Schriftsystem
https://de.wikipedia.org/wiki/Liste_lateinischer_Alphabete
http://www.mediensprache.net/networx/networx-49.pdf, insbes. Kap. 2: Der paneuropäische lateinische Zeichensatz

zu   3. Zeichensatz-Grundlagen

https://de.wikipedia.org/wiki/Glyphe
https://de.wikipedia.org/wiki/Zeichensatz
LATEINISCHE ZEICHEN IN UNICODE

zu   4. Eingabe von Sonderbuchstaben

MS: Tastenkombinationen für internationale Zeichen
https://de.wikipedia.org/wiki/Codepage_850, auch Codepage 858
https://unicode-table.com/de/
https://de.wikipedia.org/wiki/Hexadezimalsystem
https://de.wikipedia.org/wiki/Unicodeblock_Kombinierende_diakritische_Zeichen

zu   5. Speichern von Text mit Sonderbuchstaben

https://de.wikipedia.org/wiki/Rich_Text_Format
http://formatting-and-more.de/2016/01/31/rtf-rich-text-format/
http://www.aboutvb.de/bas/formate/pdf/rtf.pdf

zu   6. 8-Bit-Zeichensätze

 https://de.wikipedia.org/wiki/Kategorie: Windows-Codepage
 https://docs.microsoft.com/de-de/windows/win32/intl/code-page-identifiers

zu   7. Unicode und UTF

https://de.wikipedia.org/wiki/Unicode
https://de.wikipedia.org/wiki/Hexadezimalsystem
Sonderzeichen, TEI und Unicode
https://de.wikipedia.org/wiki/Unicode_Transformation_Format
https://wiki.selfhtml.org/wiki/Zeichencodierung#UTF-8:_Die_Codierungsform_der_Wahl
https://unicode-table.com/de/

zu   8. Anhang: Hexcode

https://de.wikipedia.org/wiki/Zahlensystem
https://de.wikipedia.org/wiki/Stellenwertsystem
https://de.wikipedia.org/wiki/Römische_Zahlschrift
https://de.wikipedia.org/wiki/Null
https://de.wikipedia.org/wiki/Pfund_Sterling
https://de.wikipedia.org/wiki/Angloamerikanisches_Maßsystem
https://de.wikipedia.org/wiki/Sexagesimalsystem#Ein-_und_zweihändiges_Zählen_mit_Fingergliedern_und_Fingern

https://www.grund-wissen.de/mathematik/arithmetik/zahlensysteme.html von Bernhard Grotz
http://www.rechenhilfsmittel.de/index.htm von Jan Meyer

https://de.wikipedia.org/wiki/Byte
https://de.wikipedia.org/wiki/Dualsystem
https://de.wikipedia.org/wiki/Datenwort
https://de.wikipedia.org/wiki/Nibble
https://de.wikipedia.org/wiki/Unicode#Verwendung_auf_Computersystemen
https://de.wikipedia.org/wiki/Eingabemethode#Code-Eingabe

https://www.mahoplus.de/geocaching/online_umrechner_zahlensysteme_bea.html von Martin Holzapfel


Inhalt

Dietrich Tilp  |  05.01.24