`
xiebh
  • 浏览: 604003 次
  • 性别: Icon_minigender_1
  • 来自: 太原
社区版块
存档分类
最新评论

字符从浏览器到数据库过程的转换

阅读更多
尽管开发些web程序,但也没有系统地理解字符到底如何在浏览器、web服务器、数据库服务器三者之间如何来回转换,也经常看到初学者或者有些“高手”亦有类似困惑,偶然间,看到SUN网站上这篇文章,系统通俗地讲述了该问题,看后受益匪浅。翻译过来,与大家分享。

翻译自:http://java.sun.com/developer/technicalArticles/Intl/HTTPCharset/

   字符在3W中的最终存储目的地路线中,穿过了不同层次的编程接口,并且可以跨越软件和硬件的边界。本文提供了准确的从浏览器到数据库传输字符数据...,然后再返回过程中的一些有用提示和最佳做法。
内容:
  • 浏览器显示和表单提交
  • Web设置
  • 数据库设置
  • 总结

为国际化,许多操作系统,应用开发语言,以及平台都走过了漫长的道路。有些事情很容易,比如在Swing 文本框中输入你的姓名。通过键盘,输入方法,和主机软件协作来创建正确的字符,无论你的名字是John,José, or 。不幸的是,虽然在浏览器中输入非ASCII文本与你在Swing组件中一样容易,但通过web精确传送它却是复杂的。因为没有工业标准来控制应用程序如何在GET或者POST方法中对数据进行编码,在多个编程接口传输过程中数据可能被转换成无意义的乱码。而且,web服务器和数据库管理者通常对字符编码都了解甚少,这样就影响了文本高保真的从浏览器到数据库的传输。

浏览器显示和表单提交(Browser Display and Form Submission)

只要HTML页面为浏览器解析字符提供了足够的选择和使用合适的字体及编码的提示,现代浏览器就能够正确显示大多数文本。下面的图显示了当你没有为浏览器提供任何字符编码信息时,浏览器的一个可能的显示。这种情况下,通过HTML页面接受的字符虽然没有数据丢失但导致了错误的解析。



图1 没有为浏览器提供字符编码信息

在下图中,浏览器(火狐1.07)错误地按照ISO 8859-1编码解析文件内容。尽管大多数浏览器都允许用户针对某个特定文件修改或者覆盖对应的编码设置,但是这种期望对普通用户来讲是不合理的。



图2 不正确的字符编码信息

这个文本实际上是UTF-8(一种Unicode编码)编码的文本。当在HTML中利用<mata>标签设置该信息后,浏览器就能正确显示日语中的“Hello World!”。



图3 给浏览器正确的字符编码信息


能正确显示的HTML文件如下所示。注意其中的<meta>标签包含一个content属性,它告诉浏览器该文件有个使用charset=UTF-8的text/html类型。content属性中Charset关键字表示HTML文件的字符编码。另外,要尽可能使用language标签,这样浏览器就能够发现和利用合适的具体语言字形。比如,中文和日语都使用许多许多相同的字符。因为这些语言中和字形和其它语言相比有很大不同,所以,language标签可以帮助浏览器发现最合适的字体。



Japanese Language Tag


如果你用JSP技术生成页面,仍然必须指示生成的HTML页面的字符编码。你可以使用JSP的page指令或HMTL的meta标签。page指令应是你的JSP文件的第一个元素且应该包含一个带charset设置的contenType属性。JSP编译器使用pageEncoding属性来编译JSP页面本身的。
<%@page pageEncoding="UTF-8" contentType="text/html; charset=UTF-8"%>


    现在你的页面能够正确编码了,并且它们可以与浏览器交流信息了。非常棒,但是仍然没有从浏览器传过来任何东西。正如已经展示的那样,浏览器从保存在HTTP header中charset信息或者HTML中<meta>标签知道了页面的编码信息。当通过GET或者POST向服务器返回信息时,它们使用相同的信息对form表单中的数据进行编码。如果在HTML的form表单标签中有一个accpet-charset属性,浏览器将使用该设置。也就是说,浏览器使用页面或者form表单本身编码方式对form表单中的数据进行编码。

下面的JSP展示了一个页面,它指示了页面内容使用ISO-8859-1编码,一种在西欧和美洲国家用来处理语言和脚本的常用字符编码。这个页面生成一个询问用户name的HTML表单。在提交时,同一个页面处理GET命令并且使用NAME属性打印出欢迎用户的信息。



当输入John后点击提交按钮,浏览器创建并且使用下面的URL向服务器发送信息。
http://localhost/sayhello.jsp?NAME=John
到目前为止一切正常,现在,输入一个José后点击提交按钮。由此产生的URL如下所示:
http://localhost/charconv/sayhello.jsp?NAME=Jos%E9
尽管产生的NAME参数看见有些不同,但是它是正确的。%E9字符串是一个URL-Encoding字符:即字符在ISO-8859-1字符集中代码点(codepoint)所对应的十六进制整数值。服务器期望GET和POST数据使用8859-1编码,因此它能够正确对该URL编码实体进行解码。

简单讲,URL编码是一个URL方面的web标准。它要求把所有非ASCII字符和特殊的ASCII字符按照%HH形式编码为十六进制字符串。不幸的是,标准中并没有规定对数据编码时使用何种字符集。

当表单中输入的字符没有包含在页面中的字符集时将会发生什么呢?想象一个日本,韩国或者中国的用户在相同的页面中输入他们的NAME。这些字符很可能没有出现在ISO-8859-1编码中。浏览器使用8859-1对它们编码将会出现一个重大问题,而且每个浏览器使用不同的方式来处理这个问题。
比如日本名字田中,FF浏览器产生下面的GET URL:
http://localhost/charconv/sayhello.jsp?NAME=%26%2330000%3B%26%2320013%3B


这个URL第一眼看上去有些奇怪,但是很快你能解密它的意思。首先,FF浏览器知道它不能用8859-1字符集来表示田中....它甚至都没有尝试。相反,它使用数字字符引用(NCR)来对字符编码。其它浏览器可能使用不同的方式,选择性来生成问号或者甚至完全阻止他们的输入。然而在这个情况下,每个字符都被编码成&#D;形式,这里D表示了字符在Unicode字符集中的十进制代码点值。其中田字符的值为30000,中的值为20013。根据创建的数字字符引用(NCR),我们可以产生出下面的参数字符串:
NAME=&#30000;&#20013;


现在URL-Encoding出现了,把特殊的&,#和; 字符转换成为了它们%HH相等的值。
NAME=%26%2330000%3B%26%2320013%3B


如果你的JSP页面检索这个参数并简单地给浏览器返回该值,将不会丢失数据。尽管页面的字符编码仍然是8859-1,浏览器也理解字符引用的数字,并且它将尽自己最大努力显示日文。然而,这里仍然有个潜在的问题。尽管处理GET和POST命令的服务器端的代码理解URL-Encoding字符串,它也很难能理解数字字符引用NCR。大多数读取NAME参数的servlet代码根据&#30000;&#20013;来解码字符串,除了字面意思并不知道这代表任何东西。换句话说,真实的田中字符将不会被发现除非你已经有意识的计划处理这种情况。因此发送数据时,不用实际的代码点或编码值而用数字字符引用(NCR)编码将会造成潜在的数据丢失。

为了解决这个问题,始终选择一个HTML网页编码,它可以处理你打算处理的所有字符。如果你期望有多语言用户并希望处理多种脚本,使用一种能表示所有脚本的字符编码。UTF-8是一种统一字符编码,并且它能正确表示世界上所有字符。若在页面中使用UTF-8而不是8859-1,浏览器将会产生一个不同的URL:
http://localhost/charconv/sayhello.jsp?NAME=%E7%94%B0%E4%B8%AD


这是一个正确的NAME参数的编码,它使用了UTF-8字符集。UTF-8使用3个字节对田中编码。因为每个字节有个超出ASCII范围的值,浏览器对其进行URL编码,这样每个字节就产生了%HH形式。期望UTF-8形式数据的服务器将能够正确处理该参数。

Web服务器处理过程

尽管当前的浏览器能根据页面或者form表单中提示把form中数据使用相同的编码返回给服务器,但大多数服务器仍认为浏览器不知道如何选择字符。它们典型假设浏览器编码是ISO 8859-1。即使一个应用经历了用UTF-8 来对GET参数进行URL编码的麻烦,服务器仍将假设使用8859-1。这就导致了字符通过多个web应用层时出现了乱码。

当你使用UTF-8字符集来修改以前的JSP代码时,新的代码如下所示:



现在输入“José”并点击提交按钮,GET的URL如下:
http://localhost/sayhello.jsp?NAME=Jos%C3%A9
%C3%A9 是José 使用UTF-8对其进行URL编码的结果。没问题,浏览器根据contenType中UTF-8提示对字符进行编码。浏览器显示下面的文本。



Figure 4. UTF-8 Character Encoding


注意其中的展现的文本Hello, José!,这是不对的。发生了什么?尽管浏览器正确地发送了GET数据,但web服务器从URL中读取NAME参数Jos%C3%A9时,不正确地假设字符编码是8859-1。从这个角度讲,%C3代表了 ISO-8859-1中0xC3 (Ã) 字符的编码,%A9 代表了ISO-8859-1中 0xA9 (©)  。虽然contentType已经明确写在了JSP标签中了!

现在还没有公布的标准规定(浏览器和服务器)如何沟通关于GET和POST数据的字符集选择。如何解决呢?一些服务器尝试着解决这些问题。Tomcat中通过在server.xml文件里面的connector(连接器)中设置URIEncoding="UTF-8"来告诉web服务器如何选择字符编码,这样Tomcat就能正确读取URL中的GET参数了。它然后就发出了期望的"Hello, José!" 或者田中。在Sun Java System Application Server ,你可以在sun-web.xml文件中包含<parameter-encoding default-charset="UTF-8"/>。URL正确解释如下图所示:




Figure 5. URL Interpretation


假如你想POST非ASCII数据将会如何呢?一切都正常,因为你设置了URIEncoding标签,对吗?错了,Tomcat不使用URIEncoding标签来处理POST过来的form表单数据。那么,它将使用什么编码?ISO-8859-1.

所以现在,你又回到了你的起点,应用仅简单地返回Mr. ç°ä,而不是Mr. 田中。而SUN应用服务器在设置了parameter-encoding标签后,能够正确处理GET和POST数据,所以这些代码在该系统上能工作很好。

不幸的是,这些解决方法都完全依赖于服务器,并且你不能总控制你的应用在哪里部署。幸运的是,存在着与服务器独立的方法。

可能,最基本的服务器独立的方案是设置一个context参数来指示应用中的所有表单如何选择字符编码。然后你的应用就能在读取任何请求参数之前,通过读取context参数并能设置请求字符编码。你能够在servlet或者JSP中设置请求编码。
在WEB-INF/web.xml中设置context参数:
<context-param>
  <param-name>PARAMETER_ENCODING</param-name>
  <param-value>UTF-8</param-value>
</context-param>

在读取前面的JSP文件之前加入下面的代码:
String paramEncoding = application.getInitParameter("PARAMETER_ENCODING");
request.setCharacterEncoding(paramEncoding);
在一个servlet中,你可以在servlet初始化时读取参数并在处理参数之前设置编码。
public class MsgHandler extends HttpServlet {   
    private String encoding;    
    public void init() throws ServletException {
        ServletConfig config = getServletConfig();
        encoding = config.getInitParameter("PARAMETER_ENCODING");
    }
    protected void processRequest(HttpServletRequest request, HttpServletResponse response)
    throws ServletException, IOException {
        if (encoding != null) {
            request.setCharacterEncoding(encoding);
        }
        ...
    }
    protected void doGet(HttpServletRequest request, HttpServletResponse response)
    throws ServletException, IOException {
        processRequest(request, response);
    }
    protected void doPost(HttpServletRequest request, HttpServletResponse response)
    throws ServletException, IOException {
        processRequest(request, response);
    }
}

现在,无论你GET或POST数据,你的JSP或servlet都能正确读取参数,因为你已经明确告诉web服务器处理请求时使用哪种字符编码。

数据库设置Database Settings
假如你的数据存活时间很长,经过了浏览器编码和web服务器处理,那么数据库就是字符数据转换的最后一个障碍了。为了安全地把数据存放到数据库并不受影响地检索它,你必须配置数据库系统使用一种被浏览器和业务逻辑层都支持的且能表示所有字符集来存储数据。因为UTF-8已使用至今,所以在数据库中选择它是有意义的。否则,当你存储了数据库的编码不支持文本数据时,数据将会造成不可逆的丢失。
下面的图展示了这样的数据丢失(当数据库字符编码不是浏览器和中间层字符集的超集)。在这种情况下,浏览器和中间层使用UTF-8,但是数据库配置为ASCII。



Figure 6. Database Configured for ASCII

一旦你把数据库字符集修改为UTF-8,不管怎么样,数据从浏览器迁移到数据库,并再次回到都完整的保真度。



Figure 7. Database Configured for UTF-8


现代多数数据库系统都支持Unicode。两个流行的关系数据库产品,Oracle和MySQL,在他们最新的版本中都完全支持UTF-8和UTF-16编码。如果你有机会创建你应用的数据库shemale,认真考虑下把UTF-8作为你数据库的字符编码。如果你的数据使用了一个不同、很有限的字符编码,且你已经经历了前面所描述的数据丢失,你应该考虑迁到UTF-8编码了。

总结 Summary
从浏览器到数据库的旅程有几个潜在的数据丢失点。文本数据通常经过了三次甚至更多的字符编码转换,每次转换都能引起不可逆的数据丢失。为了避免这个问题,遵循这些规则:
  • 总是在你的HTML或JSP页面中通过使用HTML<mata>标签或JSP@page提供字符编码信息。这个信息告诉浏览器如何解析页面的文本。
  • 使用一种能够处理所有你的多语言和写脚本需要的HTML字符编码。UTF-8一个适应多种情景的好选择,因为它能表示一个范围很广的脚本。
  • 告诉web服务器当处理请求参数时选择什么字符编码。可通过使用servlet初始化参数获知context参数来实现它。
  • 为你的数据库选择一种你应用中任何编码的超集,比如UTF-8或者UTF-16。
  • 大小: 24.2 KB
  • 大小: 47.5 KB
  • 大小: 23.1 KB
  • 大小: 22 KB
  • 大小: 31.7 KB
  • 大小: 28 KB
  • 大小: 26.9 KB
  • 大小: 53.8 KB
  • 大小: 20.2 KB
  • 大小: 21.2 KB
分享到:
评论
1 楼 wangflood 2011-05-04  
牛B。太牛B了。

相关推荐

    循序渐进Oracle:数据库的字符集和字符集文件

    复制到浏览器中打开或者点击“阅读原文”),介绍《循序渐进Oracle》第三章的3.1-3.4节:字符集的基本知识、数据库的字符集、字符集文件及字符支持、NLS_LANG的设置与影响、导入导出及字符转换。 Oracle全球支持(即...

    java面试题大全--java基础,struts,spring,ejb等

    如何取得从1970年到现在的毫秒数 如何获取某个日期是当月的最后一天 如何格式化日期 5.数组和集合 6.文件和目录(I/O)操作 如何列出某个目录下的所有文件 如何列出某个目录下的所有子目录 判断一个文件或目录...

    CSV到索引数据库

    对于cfg.alterJSON的importCSVToIndexedDB (在AlterJSONCallback jsdoc类型),我们可以从具有多种预建的回调(由字符串名称表示)版本,其转换JSON CSV到其他JSON CSV格式,例如,从平面到非平面或受益反之亦然,...

    Java 版本的 OFD文件转换助手

    项目未使用maven架构,整理了ofd转换所需的完整jar包,...另附调用源码,可支持读取ofd文件以及 ofd文件的base64编码转换(主要用于从数据库中加载到的数据),代码结构简单明了,可根据所需业务自行修改或调整代码。

    c#常用的42个类

    IE(外部浏览器操作) IEcookie清除 IE浏览器注册表操作 IE设置代理 int转ip Post、Get stmp邮件 string生成图片 s扫描器调用 txt操作 wenjian win7判断管理员身份 加密解密 图像二值化 图片匹配坐标 声音识别 奇虎...

    C#常用实例源码代码收藏

    IE(外部浏览器操作) IEcookie清除 IE浏览器注册表操作 IE设置代理 int转ip Post、Get stmp邮件 string生成图片 s扫描器调用 txt操作 win7判断管理员身份 窗体鼠标穿透 窗体移动 打开指定路径文件对话框 读写ini 获取...

    Hackathon-OCR-Magic:React Web 应用程序将印刷文本或其他文本转换为使用 OCR 的本地数据,并将提取的数据存储到数据库中以供 SIH Hackathon

    展示一个 React Web 应用程序,使用 OCR 将打印文本或其他文本转换为本地数据,并将提取的数据存储到数据库中。 它使用 React.js 作为前端,而 MongoDB + GraphQL 作为其后端。 使用纯 Javascript 多语言 OCR 库 ...

    ASP200问.EXE

    24.如何实现字符串和数组的转换 25.如何实现字符大小写的转换 26.如何将每个单词的首个字母改成大写 27.如何将汉字转换为拼音 28.如何分位显示位数较长的数字 29.如何将数字转换为大写的中文字符 30.如何判断奇数和...

    oracle数据库笔记

    3.从其它表中拷贝数据 40 二. 更新数据 41 三. 删除数据 42 1.Delete 语句 42 2.Truncate 语句 42 四. SQL*Plus命令 42 1.设置环境变量命令 42 (1)Pause 43 (2)pagesize 和 newpage 43 (3)linesize 43

    C++Builder精彩编程实例集锦的源代码前3部分.rar

    实例203 如何在数据库更新过程中增加事务操作 实例204 如何在程序中实现查找字段 实例205 如何在程序中实现自定义字段 实例206 如何使用字段拖放功能 实例207 如何为程序添加报表打印功能 实例208 如何使用向导...

    C++Builder精彩编程实例集锦的源代码后3部分.rar

    实例203 如何在数据库更新过程中增加事务操作 实例204 如何在程序中实现查找字段 实例205 如何在程序中实现自定义字段 实例206 如何使用字段拖放功能 实例207 如何为程序添加报表打印功能 实例208 如何使用向导...

    第一部分 界面设计

    实例203 如何在数据库更新过程中增加事务操作 实例204 如何在程序中实现查找字段 实例205 如何在程序中实现自定义字段 实例206 如何使用字段拖放功能 实例207 如何为程序添加报表打印功能 实例208 如何使用向导...

    day019-io笔记和代码.rar

    * 根据指定字符集将字节数组中从指定下标开始到指定长度结束的数据转换为字符串 * charsetName:字符集名 例如 : "GBK"、"UTF-8" 、"ISO-8859-1" * * 不常用 * 3.String(byte[] ...

    DNS的工作原理.pdf

    域名系统(Domain Name System,缩写:DNS)是互联网的一项服务,DNS使用分层、分布式的结构来管理域名与IP地址的映射关系,将域名转换为IP地址(也可以将IP地址转换为相应的域名地址)。它通过递归和迭代查询过程,...

    PHP开发实战1200例(第1卷).(清华出版.潘凯华.刘中华).part1

    实例244 将文本文件中数据存储到数据库中 316 4.5 文件的压缩与解压 318 实例245 PHP中压缩RAR文件 319 实例246 PHP中将上传文件转换成RAR文件 320 实例247 PHP中对RAR文件进行解压 321 实例248 PHP中压缩ZIP文件 ...

    PHP开发实战1200例(第1卷).(清华出版.潘凯华.刘中华).part2

    实例244 将文本文件中数据存储到数据库中 316 4.5 文件的压缩与解压 318 实例245 PHP中压缩RAR文件 319 实例246 PHP中将上传文件转换成RAR文件 320 实例247 PHP中对RAR文件进行解压 321 实例248 PHP中压缩ZIP文件 ...

    最牛.Net公共类库,.net 开发类库Cmn

    字符串实用类 StringUtil.cs 处理字符串分割,转换,嵌入等方法 类型转换类 TypeParse.cs 各种类型互相转换,如int string bool等 用户实用类 User.cs 登陆,退出时候身份加密或解除方式 验证码类 ValidateImage.cs 图片...

    NET公共类库[转发]

    字符串实用类 StringUtil.cs 处理字符串分割,转换,嵌入等方法 类型转换类 TypeParse.cs 各种类型互相转换,如int string bool等 用户实用类 User.cs 登陆,退出时候身份加密或解除方式 验证码类 ValidateImage.cs 图片...

Global site tag (gtag.js) - Google Analytics