2024. 3. 4. 23:58ㆍCS - Roadmap.sh/8. Character Encodings
Character Encodings
Character encodings are a way of representing characters as numbers. They are used to store and transmit text. The most common character encoding is ASCII, which is a 7-bit encoding. This means that each character is represented by a number between 0 and 127. The ASCII character set contains 128 characters, including letters, numbers, punctuation, and control characters. The ASCII character set is a subset of the Unicode character set, which is a 16-bit encoding. Unicode is a superset of ASCII, so ASCII characters can be represented by Unicode. Unicode is the most common character encoding used on the web.
문자 인코딩은 문자를 숫자로 표현하는 방식입니다. 문자 인코딩은 텍스트를 저장하고 전송하는 데 사용됩니다. 가장 일반적인 문자 인코딩은 7비트 인코딩인 ASCII입니다. 즉, 각 문자는 0에서 127 사이의 숫자로 표현됩니다. ASCII 문자 세트에는 문자, 숫자, 문장 부호 및 제어 문자를 포함하여 128개의 문자가 포함됩니다. ASCII 문자 집합은 16비트 인코딩인 유니코드 문자 집합의 하위 집합입니다. 유니코드는 아스키의 상위 집합이므로 아스키 문자는 유니코드로 표현할 수 있습니다. 유니코드는 웹에서 가장 일반적으로 사용되는 문자 인코딩입니다.
Unicode
Unicode is a standard for encoding characters. It is a superset of ASCII, which means that ASCII is a subset of Unicode. Unicode is a 16-bit encoding, which means that it can encode 2^16 = 65536 characters. This is a lot more than ASCII, which can only encode 128 characters.
유니코드는 문자를 인코딩하는 표준입니다. 유니코드는 아스키의 상위 집합으로, 아스키가 유니코드의 하위 집합이라는 뜻입니다. 유니코드는 16비트 인코딩으로, 2^16 = 65536자를 인코딩할 수 있습니다. 이는 128자만 인코딩할 수 있는 ASCII보다 훨씬 많은 숫자입니다.
ASCII
ASCII is a character encoding standard for electronic communication. It was developed from telegraph code and uses 7 bits to represent 128 different characters. The first 32 characters are non-printable control characters used to control devices like printers and typewriters. The remaining 96 characters are printable and include the letters of the English alphabet, numbers, punctuation, and various symbols.
ASCII는 전자 통신을 위한 문자 인코딩 표준입니다. 전신 코드에서 개발되었으며 7비트를 사용하여 128개의 서로 다른 문자를 표현합니다. 처음 32개 문자는 프린터나 타자기 같은 장치를 제어하는 데 사용되는 인쇄할 수 없는 제어 문자입니다. 나머지 96자는 인쇄 가능한 문자로 영어 알파벳, 숫자, 문장 부호 및 다양한 기호를 포함합니다.
유니코드는 모든 문자를 각각 고유한 숫자로 표현하는 인코딩 시스템 입니다. 이는 세계의 모든 문자를 표준화하여 다양한 언어와 기호를 컴퓨터 시스템에서 일관되게 처리하기위한 약속입니다.
유니코드의 작동원리
1. 문자 지정 : 유니코드는 각 문자에 대한 고유한 숫자를 할당합니다. 이 숫자를 '코드 포인트'라고 부릅니다. 예를 들어 한글 자모 'ㅋ'의 유니코드 코드 포인트는 U+314B입니다.
12619가 나오는데 이값을 16진수로 표현하면
314B가 나옵니다.
2. 인코딩 : 코드 포인트는 인코딩 과정을 통해 바이트로 변환됩니다. 이 인코딩 방식에는 UTF-8, UTF-16, UTF-32 등이 있습니다.
UTF-8은 가장 널리 사용되는 인코딩 방식으로, ASCII 문자는 1바이트, 대부분의 라틴 문자는 2바이트, 그리고 나머지 문자는 3~4바이트로 인코딩 됩니다. ASCII 문자는 1바이트, 대부분의 라틴 문자는 2바이트, 그리고 나머지 문자는 3~4바이트로 인코딩됩니다.
3. 디코딩 : 인코딩 된 바이트는 컴퓨터나 다른 디바이스에서 읽을 수 있는 형식으로 변환됩니다. 이 과정을 '디코딩'이라고 합니다. 디코딩은 인코딩의 반대 과정으로, 바이트를 원래의 코드 포인트로 변환합니다.