Provided by: manpages-ro_4.27.0-1_all bug

NUME

       unicode - set de caractere universal

DESCRIERE

       Standardul internațional ISO/IEC 10646 definește setul universal de caractere („Universal Character Set”:
       UCS).  UCS  conține  toate caracterele din toate celelalte standarde de seturi de caractere. De asemenea,
       garantează „compatibilitatea dus-întors”; cu alte cuvinte, tabelele de conversie pot fi construite astfel
       încât să nu se piardă nicio informație atunci când un șir de caractere  este  convertit  din  orice  altă
       codificare în UCS și invers.

       UCS  conține  caracterele necesare pentru a reprezenta practic toate limbile cunoscute. Acestea includ nu
       numai caracterele latine, grecești, chirilice, ebraice, arabe, armenești și georgiene, ci și  ideogramele
       chinezești,  japoneze  și coreene Han, precum și caractere precum Hiragana, Katakana, Hangul, Devanagari,
       Bengali, Gurmukhi, Gujarati, Oriya, Tamil,  Telugu,  Kannada,  Malayalam,  Thai,  Lao,  Khmer,  Bopomofo,
       Tibetană, Runic, Etiopiană, Silabică canadiană, Cherokee, Mongolă, Ogham, Myanmar, Sinhala, Thaana, Yi și
       altele.  În  ceea  ce  privește scripturile care nu sunt încă acoperite, cercetările privind cea mai bună
       codificare a acestora pentru utilizarea pe calculator sunt încă în curs de desfășurare și vor fi adăugate
       în cele din urmă. Acestea ar putea include în  cele  din  urmă  nu  numai  hieroglife  și  diverse  limbi
       indo-europene  istorice,  ci  chiar  și  unele scripturi artistice selectate, cum ar fi Tengwar, Cirth și
       Klingon. UCS acoperă, de asemenea, un  număr  mare  de  simboluri  grafice,  tipografice,  matematice  și
       științifice, inclusiv cele furnizate de TeX, Postscript, APL, MS-DOS, MS-Windows, Macintosh, fonturi OCR,
       precum și de multe sisteme de procesare a textelor și de publicare, iar altele sunt în curs de adăugare.

       Standardul UCS (ISO/IEC 10646) descrie o arhitectură a setului de caractere pe 31 de biți care constă din
       128  de  grupuri pe 24 de biți, fiecare fiind împărțit în 256 de planuri pe 16 biți, alcătuite din 256 de
       rânduri pe 8 biți cu 256 de poziții coloană,  una  pentru  fiecare  caracter.  Partea  1  a  standardului
       (ISO/IEC  10646-1)  definește  primele  65534  de  poziții de cod (de la 0x0000 la 0xfffd), care formează
       Planul multilingvistic de bază („Basic Multilingual Plane”: BMP), adică planul 0 din grupul 0. Partea 2 a
       standardului (ISO/IEC 10646-2) adaugă caractere la grupul  0  în  afară  de  BMP  în  mai  multe  planuri
       suplimentare  în  intervalul  0x10000 - 0x10ffff. Nu există planuri de adăugare a caracterelor dincolo de
       0x10ffff la standard, prin urmare, din întregul spațiu de cod, doar o mică  parte  din  grupul  0  va  fi
       utilizată  în  viitorul  apropiat.  BMP  conține  toate caracterele care se găsesc în celelalte seturi de
       caractere utilizate în mod obișnuit. Planurile suplimentare adăugate  de  ISO/IEC  10646-2  acoperă  doar
       caracterele  mai  exotice  pentru  nevoi speciale în domeniul științific, al imprimării dicționarelor, al
       industriei editoriale, al protocoalelor de nivel superior și al entuziaștilor.

       Reprezentarea fiecărui caracter UCS sub forma unui cuvânt de 2  octeți  se  numește  forma  UCS-2  (numai
       pentru caracterele BMP), în timp ce UCS-4 este reprezentarea fiecărui caracter sub forma unui cuvânt de 4
       octeți.  În  plus,  există  două  forme  de  codificare:  UTF-8  pentru compatibilitatea cu programele de
       procesare ASCII și UTF-16 pentru gestionarea retro-compatibilă a caracterelor non-BMP până la 0x10ffff de
       către programele UCS-2.

       Caracterele UCS de la 0x0000 la 0x007f sunt identice cu cele din setul clasic de caractere US-ASCII,  iar
       caracterele din intervalul de la 0x0000 la 0x00ff sunt identice cu cele din ISO/IEC 8859-1 (Latin-1).

   Combinarea caracterelor
       Unele  puncte  de  cod  din UCS au fost atribuite pentru caractere de combinare. Acestea sunt similare cu
       tastele de accent fără spațiere de pe o mașină de scris. O combinație  de  caractere  nu  face  decât  să
       adauge  un  accent  la caracterul anterior. Cele mai importante caractere accentuate au coduri proprii în
       UCS, însă mecanismul de combinare a caracterelor ne permite să adăugăm accente și alte  semne  diacritice
       la  orice  caracter.  Un  caracter de combinare nu face decât să adauge un accent la caracterul anterior.
       Cele mai importante caractere accentuate au coduri  proprii  în  UCS,  însă  mecanismul  de  combinare  a
       caracterelor  ne  permite  să  adăugăm accente și alte semne diacritice la orice caracter. Caracterele de
       combinare urmează întotdeauna caracterul pe care îl modifică.  De  exemplu,  caracterul  german  Umlaut-A
       („Litera majusculă latină A cu diereză”) poate fi reprezentat fie prin codul UCS precompus 0x00c4, fie ca
       o combinație de „Litera majusculă latină A” normală urmată de o „diereză combinatorie”: 0x0041 0x0308.

       Combinarea  caracterelor  este esențială, de exemplu, pentru codificarea scriptului thailandez sau pentru
       compunerea matematică și utilizatorii alfabetului fonetic internațional.

   Niveluri de implementare
       Deoarece nu se așteaptă  ca  toate  sistemele  să  accepte  mecanisme  avansate,  cum  ar  fi  combinarea
       caracterelor, ISO/IEC 10646-1 specifică următoarele trei niveluri de implementare ale UCS:

       Nivelul 1
                Caracterele  combinate și Hangul Jamo (o variantă de codificare a alfabetului coreean, în care o
                pictogramă de silabă  Hangul  este  codificată  ca  un  triplet  sau  o  pereche  de  coduri  de
                vocale/consonante) nu sunt acceptate.

       Nivelul 2
                În  plus față de nivelul 1, acum sunt permise combinații de caractere pentru unele limbi în care
                acestea sunt esențiale (de exemplu, thailandeză, lao, ebraică, arabă, devanagari, malaieziană).

       Nivelul 3
                Sunt acceptate toate caracterele UCS.

       Standardul Unicode 3.0 publicat de Consorțiul Unicode conține exact planul multilingvistic de bază UCS la
       nivelul de implementare 3, așa cum este descris în ISO/IEC 10646-1:2000. Unicode 3.1 a adăugat  planurile
       suplimentare  din  ISO/IEC  10646-2.  Standardul  Unicode  și  rapoartele tehnice publicate de Consorțiul
       Unicode oferă numeroase informații suplimentare  privind  semantica  și  utilizările  recomandate  pentru
       diverse   caractere.  Acestea  oferă  orientări  și  algoritmi  pentru  editarea,  sortarea,  compararea,
       normalizarea, conversia și afișarea șirurilor Unicode.

   Unicode în Linux
       În GNU/Linux, tipul C wchar_t este un tip de număr întreg cu semn (+/-) pe 32 de biți. Valorile sale sunt
       întotdeauna interpretate de biblioteca C ca valori de cod UCS (în  toate  localizările),  convenție  care
       este  semnalată  de  biblioteca C GNU C aplicațiilor prin definirea constantei __STDC_ISO_10646__ așa cum
       este specificată în standardul ISO C99.

       UCS/Unicode poate fi utilizat la fel ca  ASCII  în  fluxurile  de  intrare/ieșire,  în  comunicarea  prin
       terminal,  în  fișierele  de  text simplu, în numele fișierelor și în variabilele de mediu în codificarea
       multiocteți UTF-8 compatibilă cu ASCII.  Pentru  a  semnala  tuturor  aplicațiilor  utilizarea  UTF-8  ca
       codificare  a  caracterelor,  trebuie  să  se  selecteze  o  configurare regională adecvată (locale) prin
       intermediul variabilelor de mediu (de exemplu, „LANG=en_GB.UTF-8”).

       Funcția nl_langinfo(CODESET) returnează numele codificării selectate. Funcțiile de bibliotecă, cum ar  fi
       wctomb(3)  și  mbsrtowcs(3), pot fi utilizate pentru a transforma caracterele și șirurile interne wchar_t
       în codificarea caracterelor de sistem și invers, iar wcwidth(3) informează cu  câte  poziții  (0–2)  este
       avansat cursorul prin ieșirea unui caracter.

   Zone de utilizare privată („Private Use Areas”: PUA)
       În planul multilingvistic de bază, intervalul de la 0xe000 la 0xf8ff nu va fi niciodată atribuit niciunui
       caracter  de  către  standard  și  este rezervat pentru uz privat. Pentru comunitatea Linux, această zonă
       privată a fost subdivizată în continuare în intervalul 0xe000 - 0xefff, care poate fi utilizat individual
       de orice utilizator final, și în zona  Linux  din  intervalul  0xf000  -  0xf8ff,  unde  extensiile  sunt
       coordonate  între  toți utilizatorii Linux. Registrul caracterelor atribuite zonei Linux este menținut de
       LANANA, iar registrul propriu-zis este Documentation/admin-guide/unicode.rst în sursele  nucleului  Linux
       (sau Documentation/unicode.txt înainte de Linux 4.10).

       Alte  două  planuri sunt rezervate pentru uz privat, planul 15 (Zona suplimentară de utilizare privată-A,
       intervalul de la 0xf0000 la 0xffffd) și planul 16 (Zona suplimentară de utilizare  privată-B,  intervalul
       de la 0x100000 la 0x10fffd).

   Literatură
       •  Tehnologia  informației  —  Set universal de caractere codificate cu octeți multipli (UCS) — Partea 1:
          Arhitectura și planul multilingvistic de bază. Standardul internațional ISO/IEC  10646-1,  Organizația
          Internațională pentru Standardizare, Geneva, 2000.

          Aceasta este specificația oficială a UCS. Disponibilă la http://www.iso.ch/.

       •  Standardul  Unicode,  versiunea  3.0.  The Unicode Consortium, Addison-Wesley, Reading, MA, 2000, ISBN
          0-201-61633-5.

       •  S. Harbison, G. Steele. C: Un manual de referință. A patra ediție, Prentice  Hall,  Englewood  Cliffs,
          1995, ISBN 0-13-326224-3.

          O  bună carte de referință despre limbajul de programare C. Cea de-a patra ediție acoperă amendamentul
          1 din 1994 la standardul ISO C90, care adaugă un număr mare de noi  funcții  de  bibliotecă  C  pentru
          gestionarea codurilor de caractere late și multioctet, dar nu acoperă încă ISO C99, care a îmbunătățit
          și mai mult suportul pentru caracterele late și multioctet.

       •  Rapoarte tehnice Unicode.
          http://www.unicode.org/reports/

       •  Markus Kuhn: UTF-8 și Unicode FAQ pentru UNIX/Linux.
          http://www.cl.cam.ac.uk/~mgk25/unicode.html

       •  Bruno Haible: Unicode HOWTO.
          http://www.tldp.org/HOWTO/Unicode-HOWTO.html

CONSULTAȚI ȘI

       locale(1), setlocale(3), charsets(7), utf-8(7)

TRADUCERE

       Traducerea    în   limba   română   a   acestui   manual   a   fost   făcută   de   Remus-Gabriel   Chelu
       <remusgabriel.chelu@disroot.org>

       Această traducere este  documentație  gratuită;  citiți  Licența publică generală GNU Versiunea 3  sau  o
       versiune   ulterioară   cu  privire  la  condiții  privind  drepturile  de  autor.   NU  se  asumă  NICIO
       RESPONSABILITATE.

       Dacă găsiți erori în traducerea acestui manual, vă rugăm să  trimiteți  un  e-mail  la  translation-team-
       ro@lists.sourceforge.net.

Pagini de manual de Linux 6.9.1                    2 mai 2024                                         unicode(7)