用拼音直接性能打出哪些怎么打出特殊符号号呢？我T...

www.51yue.net 2012-07-15 标签：用拼音打出来的符号

Perl中的单引号字符串不支持转义字符，双引号字符串支持转义字符

\007 任何八进制的ASCⅡ(此例子007表示系统响铃)
\x7f 任何十六进制的ASCⅡ(此例子7f表示删除键的控制代码)
\cC 控制符，也就是control键的代码(此例子此表示同时按下ctrl键和C键的返回码)
\l 将下个字符转为小写
\L 将到\E为止的所有字符转为小写
\U 将到\E为止的所有字符转为大写
\Q 将到\E为止的非单词（non-word）字符加上反斜线

如果字符串中含有.号等特殊符号时数据库的密码呀帐号之类的这时用双引号和单引号括起来都是错误的无法连接成功。

这时要用反引号括起来反引号就是键盘左上角~符号下的· 这样连接数据库时就ok了

　　RFC3986文档规定，URL 中只允许包含英文字母（a-zA-Z）、数字（0-9）、-_.~ 4个特殊字符以及所有保留字符。RFC3986文档对Url的编解码问题做出了详细的建议，指出了哪些字符需要被编码才不会引起Url语义的转变，以及对为什么这些字符需要编码做出了相应的解释。

US-ASCII字符集中没有对应的可打印字符：Url中只允许使用可打印字符。US-ASCII码中的10-7F字节全都表示控制字符，这些字符都不能直接出现在Url中。同时，对于80-FF字节（ISO-8859-1），由于已经超出了US-ACII定义的字节范围，因此也不可以放在Url中。

　　保留字符：URL 可以划分成若干个组件，协议、主机、路径等。有一些字符（:/?#[]@）是用作分隔不同组件的。

例如：冒号用于分隔协议和主机，/用于分隔主机和路径，?用于分隔路径和查询参数，等等。还有一些字符（!$&'()*+,;=）用于在每个组件中起到分隔作用的，如=用于表示查询参数中的键值对，&符号用于分隔查询多个键值对。当组件中的普通数据包含这些特殊字符时，需要对其进行编码。

　　不安全字符：还有一些字符，当他们直接放在URL中的时候，可能会引起解析程序的歧义。这些字符被视为不安全字符，原因有很多。

空格：Url在传输的过程，或者用户在排版的过程，或者文本处理程序在处理Url的过程，都有可能引入无关紧要的空格，或者将那些有意义的空格给去掉。
引号以及<>：引号和尖括号通常用于在普通文本中起到分隔Url的作用
#：通常用于表示书签或者锚点
%：百分号本身用作对不安全字符进行编码时使用的特殊字符，因此本身需要编码
{}|\^[]`~：某一些网关或者传输代理会篡改这些字符

　　需要注意的是，对于Url中的合法字符，编码和不编码是等价的，但是对于上面提到的这些字符，如果不经过编码，那么它们有可能会造成Url语义的不同。因此对于Url而言，只有普通英文字符和数字，特殊字符$-_.+!*'()还有保留字符，才能出现在未经编码的Url之中。其他字符均需要经过编码之后才能出现在Url中。

　　但是由于历史原因，目前尚存在一些不标准的编码实现。例如对于~符号，虽然RFC3986文档规定，对于波浪符号~，不需要进行Url编码，但是还是有很多老的网关或者传输代理会进行编码。

URL编码遵循下列规则： 每对name/value由&；符分开；每对来自表单的name/value由=符分开。如果用户没有输入值给这个name，那么这个name还是出现，只是无值。任何特殊的字符（就是那些不是简单的七位ASCII，如汉字）将以百分符%用十六进制编码，当然也包括象 =,&；，和 % 这些特殊的字符。其实url编码就是一个字符ascii码的十六进制。不过稍微有些变动，需要在前面加上“%”。比如“\”，它的ascii码是92，92的十六进制是5c，所以“\”的url编码就是%5c。那么汉字的url编码呢？很简单，看例子：“胡”的ascii码是-17670，十六进制是BAFA，url编码是“%BA%FA”。

防止sql注入。URL编码平时是用不到的，因为IE会自动将输入到地址栏的非数字字母转换为url编码。曾有人提出数据库名字里带上“#”以防止被下载，因为IE遇到#就会忽略后面的字母。破解方法很简单——用url编码%23替换掉#。也可以使用 “双URL编码”

如何对 URL 中的非法字符进行编码

percent-encoding），是因为它的编码方式非常简单，使用%百分号加上两位的字符——ABCDEF——代表一个字节的十六进制形式。Url编码默认使用的字符集是US-ASCII。例如a在US-ASCII码中对应的字节是0x61，那么Url编码之后得到的就是%61，我们在地址栏上输入:8080/dir/' //而 escape 会编码成下面这样，eocode 了冒号却没 encode 斜杠，十分怪异，故废弃之

 

 嘿，有的时候，我们的 URL 长这样子，请求参数中带了另一个 URL ：

 

 直接进行 encodeURI 显然是不行的。因为 encodeURI 不会对冒号 : 及斜杠 / 进行转义，那么就会出现上述所说的服务器接受到之后解析会有歧义。

 

 这个时候，就该用到 encodeURIComponent() 。它的作用是对 URL 中的参数进行编码，记住是对参数，而不是对整个 URL 进行编码。

// 错误的用法，看到第一个 http 的冒号及斜杠也被 encode 了

 

 
 

 
 

 ASCII码表可以看成由三部分组成:
 
 

 第一部分:非打印的控制字符。由00H到1FH共32个,一般用来通讯或作为控制之用。有些可以显示在屏幕上,有些则不能显示,但能看到其效果(如换行、退格).如下表:
 
 

 
 
 

 第二部分：打印字符。由20H到7FH共96个,这95个字符是用来表示阿拉伯数字、英文字母大小写和下划线、括号等符号,都可以显示在屏幕上.如下表:
 
 

 
 
 

 第三部分：扩展 ASCII 打印字符。由80H到0FFH共128个字符,一般称为"扩充字符",这128个扩充字符是由IBM制定的,并非标准的ASCII码.这些字符是用来表示框线、音标和其它欧洲非英语系的字母。
 
 

 
 
 

 
 

 
 
 

 
 

 
 
 

 
 

 　　问题：当url地址中包含&、+、%等特殊字符（主要是传递参数时，参数的内容中包含这些字符）时，地址无效。比如”，但是没有希腊字母的网址“”（读作阿尔法-贝塔-伽玛.com）。这是因为网络标准RFC 1738做了硬性规定：
 
 

 ../s?wd=春节”。注意，“春节”这两个字此时属于查询字符串，不属于网址路径，不要与情况1混淆。
 
 

 
 
 

 　　查看HTTP请求的头信息，会发现IE将“春节”转化成了一个乱码。
 
 

 
 
 

 切换到十六进制方式，才能清楚地看到，“春节”被转成了“B4 BA BD DA”。
 
 

 
 
 

 　　我们知道，“春”和“节”的GB2312编码（我的“Windows XP”中文版的默认编码）分别是“B4 BA”和“BD DA”。因此，IE实际上就是将查询字符串，以GB2312编码的格式发送出去。 
 
 

 　　Firefox的处理方法，略有不同。它发送的HTTP Head是“wd=%B4%BA%BD%DA”。也就是说，同样采用GB2312编码，但是在每个字节前加上了%。
 
 

 
 
 

 　　所以，结论2就是，查询字符串的编码，用的是操作系统的默认编码。
 
 

 四、情况3：Get方法生成的URL包含汉字
 
 

 　　前面说的是直接输入网址的情况，但是更常见的情况是，在已打开的网页上，直接用Get或Post方法发出HTTP请求。
 
 

 　　根据台湾中兴大学，这时的编码方法由网页的编码决定，也就是由HTML源码中字符集的设定决定。
 
 

 
 

 
 

 　　举例来说，百度是GB2312编码，Google是UTF-8编码。因此，从它们的搜索框中搜索同一个词“春节”，生成的查询字符串是不一样的。 
 
 

 
 

 
 
 

 
 

 
 
 

 　　所以，结论3就是，GET和POST方法的编码，用的是网页的编码。
 
 

 五、情况4：Ajax调用的URL包含汉字
 
 

 　　前面三种情况都是由浏览器发出HTTP请求，最后一种情况则是由Javascript生成HTTP请求，也就是Ajax调用。还是根据吕瑞麟老师的文章，在这种情况下，IE和Firefox的处理方式完全不一样。
 
 

 　　举例来说，有这样两行代码：
 
 

 
 

 
 

 　　那么，无论网页使用什么字符集，IE传送给服务器的总是“q=%B4%BA%BD%DA”，而Firefox传送给服务器的总是“q=%E6%98%A5%E8%8A%82”。也就是说，在Ajax调用中，IE总是采用GB2312编码（操作系统的默认编码），而Firefox总是采用utf-8编码。这就是我们的结论4。
 
 

 
 

 　　好了，到此为止，四种情况都说完了。
 
 

 　　假定前面你都看懂了，那么此时你应该会感到很头痛。因为，实在太混乱了。不同的操作系统、不同的浏览器、不同的网页字符集，将导致完全不同的编码结果。如果程序员要把每一种结果都考虑进去，是不是太恐怖了？有没有办法，能够保证客户端只用一种编码方法向服务器发出请求？
 
 

 　　回答是有的，就是使用Javascript先对URL编码，然后再向服务器提交，不要给浏览器插手的机会。因为Javascript的输出总是一致的，所以就保证了服务器得到的数据是格式统一的。
 
 

 　　Javascript语言用于编码的函数，一共有三个，最古老的一个就是escape()。虽然这个函数现在已经不提倡使用了，但是由于历史原因，很多地方还在使用它，所以有必要先从它讲起。
 
 

 　　实际上，escape()不能直接用于URL编码，它的真正作用是返回一个字符的Unicode编码值。比如“春节”的返回结果是%u，也就是说在Unicode字符集中，“春”是第6625个（十六进制）字符，“节”是第8282个（十六进制）字符。
 
 

 
 
 

 　　它的具体规则是，除了ASCII字母、数字、标点符号“@ * _ + - . /”以外，对其他所有字符进行编码。在\u0000到\u00ff之间的符号被转成%xx的形式，其余符号被转成%uxxxx的形式。对应的解码函数是unescape()。
 
 

 
 

 
 
 

 　　还有两个地方需要注意。
 
 

 　　首先，无论网页的原始编码是什么，一旦被Javascript编码，就都变为unicode字符。也就是说，Javascipt函数的输入和输出，默认都是Unicode字符。这一点对下面两个函数也适用。
 
 

 
 
 

 　　其次，escape()不对“+”编码。但是我们知道，网页在提交表单的时候，如果有空格，则会被转化为+字符。服务器处理数据的时候，会把+号处理成空格。所以，使用的时候要小心。
 
 

 
 

 
 

 　　它着眼于对整个URL进行编码，因此除了常见的符号以外，对其他一些在网址中有特殊含义的符号“; / ? : @ & = + $ , #”，也不进行编码。编码后，它输出符号的utf-8形式，并且在每个字节前加上%。
 
 

 
 
 

 　　它对应的解码函数是decodeURI()。
 
 

 
 
 

 　　需要注意的是，它不对单引号'编码。

参考资料

随机推荐

网站简介 | 联系站长 | 网站首页 |

本站部分内容系根据指令自动收集于互联网，不代表本站赞成该内容或立场