[笔记]eclipse保存包含有中文字符的源代码文件出错[了解字符集]

最新推荐文章于 2026-07-03 11:03:26 发布

原创最新推荐文章于 2026-07-03 11:03:26 发布 · 584 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

收录于

Java

本文介绍了在Eclipse中保存含有中文字符的源代码时出现的错误及其原因，并提供了具体的解决方案，包括更改默认编码为UTF-8的过程。此外，还简要回顾了字符集的发展历程。

在eclipse中保存包含有中文字符的源代码文件时会出错:
Some characters cannot be mapped using "GBK" character encoding
这是因为eclipse保存文件时默认的编码是ISO8859-1.
ISO8859-1它包括了书写所有西方欧洲语言不可缺少的附加字符, 但并不包括中文。
这个默认可以修改:

Eclipse -> Window -> Preferences -> General -> Content Types
然后在选择右边的Text下边的Java Properties File，修改其编码(推荐UTF-8)。

UTF-8(大字符集):
是 UNICODE 的一种变长字符编码，即 RFC 3629。简单的说——大字符集。
该字符集可以解决多种语言文本显示问题，从而实现应用国际化和本地化。
对系统来讲，UTF-8 编码可以通过屏蔽位和移位操作快速读写，排序更加容易。
UTF-8 是字节顺序无关的，它的字节顺序在所有系统中都是一样的。因此 UTF-8 具有更高的性能。
======================================================================================

字符集的发展史:
ASCII:
计算机发明后，为了在计算机中表示字符，人们制定了一种编码，叫ASCII码。ASCII码由一个字节中的7位(bit)表示，2^7 = 共128个字符。

扩展ASCII码:
后来他们突然发现，如果需要按照表格方式打印这些字符的时候，缺少了“制表符”。
于是又扩展了ASCII的定义，使用一个字节的全部8位(bit)来表示字符了，这就叫扩展ASCII码。范围是0x00 - 0xFF 共256个字符。

MBCS 字符集（多字节字符集）:
中国人利用连续2个扩展ASCII码的扩展区域（0xA0以后）来表示一个汉字，该方法的标准叫GB-2312。
日文、韩文、阿拉伯文、台湾繁体（BIG-5）......都使用类似的方法扩展了本地字符集的定义，现在统一称为 MBCS 字符集（多字节字符集）。
这个方法是有缺陷的，因为各个国家地区定义的字符集有交集，因此使用GB-2312的软件，就不能在BIG-5的环境下运行（显示乱码），反之亦然。

UNICOD:
为了把全世界人民所有的所有的文字符号都统一进行编码，于是制定了UNICODE标准字符集。
UNICODE 使用2个字节表示一个字符。这下终于好啦，全世界任何一个地区的软件，可以不用修改地就能在另一个地区运行了。
比如:虽然我用 IE 浏览日本网站，显示出我不认识的日文文字，但至少不会是乱码了。
UNICODE 的范围是 0x0000 - 0xFFFF 共6万多个字符，其中光汉字就占用了4万多个.

GBK2312 :是简体中文的字符集编码
GBK :是GBK2312的扩展不仅仅只是显示简体还有繁体等。

ISO8859-1:
通常叫做Latin-1。它包括了书写所有西方欧洲语言不可缺少的附加字符, 但并不包括中文。