kontakt
Software house
>
Blog
>
Unicode, czyli jak kodować litery, symbole specjalne, czy emoji

Unicode, czyli jak kodować litery, symbole specjalne, czy emoji

Data wpisu
Mateusz Kuba
Autor
Mateusz Kuba
Unicode

Co to jest Unicode?

Unicode jest najnowocześniejszym systemem kodowania, w którym każdy znak ma unikalny kod. Dzięki temu niezależnie od przeglądarki, komputera, serwisu oraz języka, w którym jest dostępny, można odczytać zawartą treść. Unicode obejmuje litery, cyfry, symbole i znaki interpunkcyjne oraz emotikony. Dzięki temu komputer rozumie zawartość przedstawioną w kodzie binarnym, którą następnie przerabia język HTML, na obraz odczytywany przez użytkownika w danym kraju. 

Unicode zawiera wszystkie znaki występujące w danym państwie, nie wyłączając starożytnych. Dzięki tego rodzaju kodyfikacji informatycy mogą tworzyć uniwersalne strony w wielu językach dla różnych systemów. Unicode opiera się o 16-bitowy system kodowania. Do spisania właściwie rozumianego kodu, wykorzystywane są litery, cyfry, znaki specjalne i spacje.

Jak kodować w Unicode?

Kodowanie w Unicode jest co do zasady proste. W tym systemie wszystko, co chcemy zaprezentować: duże i małe litery, cyfry, znaki specjalne i emotikony rozpoczyna prefiks „U+”. Po tym zapisie następuje ciąg cyfr i liczb, odpowiednio dzielonych spacjami. Nie ma jednak potrzeby, aby uczyć się wszystkiego na pamięć, ponieważ w sieci można znaleźć bardzo czytelne tabele dla wszystkich elementów i się z nimi zapoznać. Należy jednak pamiętać o prefiksie U+, typowym dla Unicode, który rozpoczyna osadzanie danego symbolu na stronie czy w aplikacji.

 

Kodowanie liter, symboli specjalnych i emoji w Unicode

Kodowanie liter w Unicode wymaga odmiennego podejścia. Dzięki jego zastosowaniu, gdy użytkownik danej strony wpisze z poziomu klawiatury typowe polskie słowo, wówczas zostanie ono poprawnie wyświetlone, bez popularnych kratek. Opisane są w nim wszystkie litery dla różnych pism: hebrajskie, chińskie, arabskie, koreańskie, wietnamskie, japońskie, łacińskie.

 

Unicode określa odpowiednio zapis dla dużych i małych liter, które są względem siebie niezależne. Dla przykładu duże litery alfabetu łacińskiego mają numery kodowe od „A” U+0041 do „Z” U+005A. Dla polskich liter używa się kodowania — CP-1250 i ISO-8859-2, np. „Ą” ma kod U+0104.

 

W sytuacji, gdy użytkownicy chcą pokazać uczucia, używają emoji. To ikony, które graficznie przedstawiają mowę niewerbalną, wyrażając emocje i myśli. Ikonki obrazują radość, smutek, złość czy zakłopotanie. I tak np. „szczery uśmiech” to U+F0 9F 98 82, natomiast „mrugnięcie” to U+F0 9F 98 89.

 

Emotikony

Znaki specjalne to dosyć obszerna grupa, do której wliczają się jednostki miar, cyfry rzymskie, symbole matematyczne, walut, morskie, strzałki, znaki interpunkcyjne, symbole walut czy znaczniki wyboru. Ich kodowanie ponownie rozpoczyna prefiks „U+”, a po nim następuje ciąg liczb, liter i spacji, np. grecka omega „Ω” to U+03A9, natomiast dwukropek „:” wymaga zapisu U+0589.

 

W internecie nie brakuje stron, które w prosty sposób pozwalają wygenerować kod dowolnej emoji, np. https://emojidissector.com/ oraz znaku, jak np. https://unicode-table.com/.

Ostatnie Wpisy