什么是unicode字符串(Unicode字符是指) 您所在的位置:网站首页 utf32编码转换器 什么是unicode字符串(Unicode字符是指)

什么是unicode字符串(Unicode字符是指)

#什么是unicode字符串(Unicode字符是指)| 来源: 网络整理| 查看: 265

本文目录Unicode字符是指显示unicode字符是什么意思什么是UNICODE通俗的讲,什么是unicodeUnicode字符是什么unicode编码是什么unicode编码是什么unicode字符是什么意思经常见到它.Unicode字符是指

Unicode是一个工业标准。提出Unicode的目的是为了能够用一致的方式表示所有地球语言所包含的文本和符号,从而能够被计算机以一致的方式进行处理。Unicode字符能够用任何一种叫做UnicodeTransformationFormats的方案进行编码。平时说的UTF-8、UTF-16、UTF-32等,是Unicode的具体的字符编码方式。

显示unicode字符是什么意思

unicode是统一码的意思,一种语言代码,我国还有gb2312和gb18030,统一码是国际标准编码,是统一对世界上的字母、数字、符号,还有双字节的汉字、日文等进行编码,如果使用unicode的话,就不再会出现“乱码“一说。如果没有相应的字体用来显示,那只会显示一个方块。

什么是UNICODE

Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。Unicode用数字0-0x10FFFF来映射这些字符,最多可以容纳1114112个字符,或者说有1114112个码位。码位就是可以分配给字符的数字。UTF-8、UTF-16、UTF-32都是将数字转换到程序数据的编码方案。  Unicode字符集可以简写为UCS(Unicode Character Set)。早期的Unicode标准有UCS-2、UCS-4的说法。UCS-2用两个字节编码,UCS-4用4个字节编码。UCS-4根据最高位为0的最高字节分成2^7=128个group。每个group再根据次高字节分为256个平面(plane)。每个平面根据第3个字节分为256行 (row),每行有256个码位(cell)。group 0的平面0被称作BMP(Basic Multilingual Plane)。将UCS-4的BMP去掉前面的两个零字节就得到了UCS-2。  每个平面有2^16=65536个码位。Unicode计划使用了17个平面,一共有17*65536=1114112个码位。在Unicode 5.0.0版本中,已定义的码位只有238605个,分布在平面0、平面1、平面2、平面14、平面15、平面16。其中平面15和平面16上只是定义了两个各占65534个码位的专用区(Private Use Area),分别是0xF0000-0xFFFFD和0x100000-0x10FFFD。所谓专用区,就是保留给大家放自定义字符的区域,可以简写为PUA。  平面0也有一个专用区:0xE000-0xF8FF,有6400个码位。平面0的0xD800-0xDFFF,共2048个码位,是一个被称作代理区(Surrogate)的特殊区域。代理区的目的用两个UTF-16字符表示BMP以外的字符。在介绍UTF-16编码时会介绍。  如前所述在Unicode 5.0.0版本中,238605-65534*2-6400-2408=99089。余下的99089个已定义码位分布在平面0、平面1、平面2和平面14上,它们对应着Unicode目前定义的99089个字符,其中包括71226个汉字。平面0、平面1、平面2和平面14上分别定义了52080、3419、43253和337个字符。平面2的43253个字符都是汉字。平面0上定义了27973个汉字。

通俗的讲,什么是unicode

Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发,1994年正式公布。随着计算机工作能力的增强,Unicode也在面世以来的十多年里得到普及。最新版本的 Unicode 是 2006年7月14日推出的Unicode 5.0.0。Unicode 的编码方式与 ISO 10646 的通用字符集对应,使用16位的编码空间,每个字符占用2个字节。理论上最多可以表示65536 个字符。基本满足各种语言的使用。实际上目前版本的 Unicode 尚未填充满这16位编码,保留了大量空间作为特殊使用或将来扩展。上述16位 Unicode 字符构成基本多文种平面(Basic Multilingual Plane, 简称 BMP)。最新(但未实际广泛使用)的 Unicode 版本定义了16个辅助平面,两者合起来至少需要占据21位的编码空间,比3字节略少。但事实上辅助平面字符仍然占用4字节编码空间,与 UCS-4 保持一致。未来版本会扩充到 ISO 10646-1 实现级别3,即涵盖 UCS-4 的所有字符。UCS-4 是一个更大的尚未填充完全的31位字符集,加上恒为0的首位,共需占据32位,即4字节。理论上可以涵盖一切语言所用的符号。BMP 字符的 Unicode 编码表示为 U+hhhh,其中每个 h 代表一个十六进制数位。与 UCS-2 编码完全相同。对应的4字节 UCS-4 编码后两个字节一致,前两个字节的所有位均为0。Unicode 的传输常用Unicode转换格式(Unicode Translation Format,简称为 UTF)。例如UTF-8。它是在Unicode基础上为提高传输效率的一种变长编码。

Unicode字符是什么

Unicode 是一种重要的交互和显示的通用字符编码标准,它覆盖了美国、欧洲、中东、非洲、印度、亚洲和太平洋的语言,以及古文和专业符号。Unicode 允许交换、处理和显示多语言文本以及公用的专业和数学符号。它希望能够解决多语言的计算,如不同国家的字符标准,但并不是所有的现代或古文都能够获得支持。 Unicode 字符可以适用于所有已知的编码。Unicode 是继 ASCII(美国国家交互信息标准编码)字符码后的一种新字符编码,它为每一个符号定义一个数字和名称,并指定字符和它的数值(码位),以及该值的二进制位表示法,通过一个十六进制数字和前缀(U)定义一个16位的数值,如:U+0041 表示 A,其唯一的名称是 LATIN CAPITAL LETTER A。但请注意:JavaScript 1.3 之前的版本并不支持 Unicode 编码。Unicode 与 ASCII 和 ISO 的兼容性 Unicode 兼容于 ASCII 字符并被大多数程序所支持,前128个 Unicode 码同 ASCII 码具有同样的字节值;Unicode 字符从 U+0020 到 U+007E 等同与 ASCII 码的 0x20 到 0x7E,不同于支持拉丁字母的7位 ASCII,Unicode 对每个字符进行16位值的编码设置,它允许几万个字符,例如 Unicode 2.0 版包含 38,885 个字符,它也可以进行扩展,如 UTF-16 允许用16位字符组合为一百万或更多的字符,UTF 将编码转换为真实的二进制位。 Unicode 完全兼容于国际标准 ISO/IEC 10646-1; 1993,它是 ISO 10646 的一个子集,并支持用两个八进制数的 ISO UCS-2(Universal Character Set)。JavaScript 1.3 版本对 Unicode 的支持意味着您可以任意地在程序中使用本地的字符以及特殊的科学符号。Unicode 提供了一种标准的方法来编码多语言文本,并且因为它兼容于 ASCII ,您也可以随意使用 ASCII 字符。Unicode 转义序列 您可以在字符直接量中使用 Unicode 转义序列,该转义序列由六个 ASCII 字符组成:\u 加上一个四个数值的十六进制数。如:\u00A9 表示版权符号。JavaScript 里的每一个 Unicode 转义序列由一个字符所对应解释。下表是经常使用的特殊字符和它们的 Unicode 值。类别 Unicode 值 名称 格式名称 空白(whitespace ) \u0009 制表符 《TAB》 \u000B 垂直制表符 《VT》 \u000C 换页符 《FF》 \u0020 空格 《SP》 行结束符值 \u000A 换行符 《LF》 \u000D 回车符 《CR》 其它 Unicode 转义序列值 \u000b 退格符 《BS》 \u0009 水平制表符 《HT》 \u0022 双引号 “ \u0027 单引号 ’ \u005C 反斜杠 / JavaScript 对 Unicode 转义序列的用法不同于 Java。首先,在 JavaScript 中转义序列并没有解释为一个特殊的字符。例如:在一个字符串中的换行符转义序列在函数被解译前并不会终止该字符串,如果在注释中使用转义序列 JavaScript 将会忽略它。在 Java 中,如果一个转义序列被用于一个单独的注释行,它将被解译为一个 Unicode 字符。对于一个字符串直接量,Java 编译器将首先解译转义序列。例如:如果在 Java 中使用一个换行符(\u000A),它将会终止该字符串,在 Java 中将导致一个错误,因为在字符串直接量中不允许换行,您必须使用 \n 符;而在 JavaScript 中,这两者之间并没有区别。用 Unicode 显示字符 您可以在不同的语言中使用 Unicode 来显示字符或专业符号,但这需要一个客户端能够支持 Unicode,例如 Netscape Navigator 4.x,并且客户端还得支持 Unicode 字体以及操作平台的支援。例如 Windows 95 它只支持部分的 Unicode,另外,为了输入非 ASCII 字符,您还得有支持所有 Unicode 字符的输入设备,一个标准的扩展键盘不能够做到这一点,但我们可以用 Unicode 转义序列来输入 Unicode 字符。如果您还需了解 Unicode 更多的信息,请参见 Unicode Consortium Web site 2.0版。

unicode编码是什么

Unicode是一种字符编码方案,它为每种语言中的每个字符都设定了统一唯一的二进制编码,以实现跨语言、跨平台进行文本转换、处理的要求。

Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。目前的Unicode字符分为17组编排,0x0000至0x10FFFF,每组称为平面(Plane),而每平面拥有65536个码位,共1114112个。

主要内容

为了使Unicode与已存在和广泛使用的旧有编码互相兼容,尤其是差不多所有电脑系统都支援的基本拉丁字母部分,所以Unicode的首256字符仍旧保留给ISO8859-1所定义的字符,使既有的西欧语系文字的转换不需特别考量。

另方面因相同的原因,Unicode把大量相同的字符重复编到不同的字符码中去,使得旧有纷杂的编码方式得以和Unicode编码间互相直接转换,而不会遗失任何资讯。

举例来说,全角格式区段包含了主要的拉丁字母的全角格式,在中文、日文、以及韩文字形当中,这些字符以全角的方式来呈现,而不以常见的半角形式显示,这对竖排文字和等宽排列文字有重要作用。

unicode编码是什么

Unicode是一种字符编码方案,它为每种语言中的每个字符都设定了统一唯一的二进制编码,以实现跨语言、跨平台进行文本转换、处理的要求。

Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。目前的Unicode字符分为17组编排,0x0000至0x10FFFF,每组称为平面(Plane),而每平面拥有65536个码位,共1114112个。

Unicode 编码表

BMP SMP SIP SSP

0000—0FFF 8000—8FFF 10000—10FFF 20000—20FFF 28000—28FFF E0000—E0FFF

1000—1FFF 9000—9FFF 21000—21FFF 29000—29FFF

2000—2FFF A000—AFFF 12000—12FFF 22000—22FFF 2A000—2AFFF

3000—3FFF B000—BFFF 23000—23FFF

4000—4FFF C000—CFFF 24000—24FFF 2F000—2FFFF

5000—5FFF D000—DFFF 1D000—1DFFF 25000—25FFF

6000—6FFF E000—EFFF 26000—26FFF

7000—7FFF F000—FFFF 1F000—1FFFF 27000—27FFF

unicode字符是什么意思经常见到它.

UnicodeUnicode 是用两个字节表示每个字符的字符编码方案。国际标准组织 (ISO) 几乎为每种语言的每个字符和符号在 0 到 65,535 (216 – 1) 范围内定义了一个数字(再加上为将来发展保留的一些空余空间)。在所有 32 位版本的 Windows 中,部件对象模型 (COM) 都使用 Unicode,它是 OLE 和 ActiveX 技术的基础。Windows NT 全部支持 Unicode。虽然 Unicode 和 DBCS 都是双字节字符,但它们的编码方案完全不同。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有