Vídeo: 40. Programación en C++ || Cadenas || Introducción a las cadenas de caracteres 2024
A variável de caractere padrão em C ++ é um pequeno tamanho de 1 byte e pode lidar com apenas 255 caracteres diferentes. Isso é suficiente para idiomas europeus, mas não suficientemente grande para lidar com linguagens baseadas em símbolos, como o kanji.
Vários padrões surgiram para estender o conjunto de caracteres para lidar com as demandas desses idiomas. O UTF-8 usa uma mistura de caracteres de 8, 16 e 32 bits para implementar quase todos os kanji ou hieróglifos que você pode pensar, mas ainda são compatíveis com ASCII simples de 8 bits. O UTF-16 usa uma mistura de caracteres de 16 e 32 bits para obter um conjunto de caracteres expandido e o UTF-32 usa 32 bits para todos os caracteres.
UTF significa formato de transformação Unicode, a partir do qual obtém o apelido comum Unicode.
A tabela descreve os diferentes tipos de caracteres suportados pelo C ++. Em primeiro lugar, C ++ tentou passar por um tipo de caractere largo vagamente definido, wchar_t. Este tipo pretendia ser o tipo de caractere largo nativo do ambiente do programa aplicativo. C ++ '11 introduziu tipos específicos para UTF-16 e UTF-32.
Variável | Exemplo | O que é | |||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
char | 'c' | caracteres ASCII ou UTF-8 | wchar_t | L'c ' | Caráter em formato amplo | char_16t | u'c' | Caractere UTF-16 | char_32t | U'c ' | Caractere UTF-32 |
UTF-16 é a codificação padrão para aplicativos do Windows. O tipo wchar_t refere-se a UTF-16 no Código:: compilador Blocks / gcc.
Qualquer um dos tipos de caracteres na tabela também pode ser combinado em strings:
wchar_t * wideString = L "esta é uma cadeia larga";