【Guava工具类】Strings&Ints,这个值并不代表字符本
【Guava工具类】Strings&Ints,这个值并不代表字符本
String相关工具
Strings
Guava 提供了一系列用于字符串处理的工具:
对字符串为null或空的处理
-
nullToEmpty(@Nullable String string):如果非空,则返回给定的字符串;否则返回空字符串
public static String nullToEmpty(@Nullable String string) { //如果string为null则返回空字符串,否则返回给定的string return string == null ? "" : string; }
-
.isNullOrEmpty(@Nullable String string):如果字符串为空或长度为0返回true,否则返回false
public static boolean isNullOrEmpty(@Nullable String string) { return string == null || string.length() == 0; }
-
emptyToNull(@Nullable String string):如果非空,则返回给定的字符串;否则返回null
public static String emptyToNull(@Nullable String string) { //调用isNullOrEmpty方法,如果返回true则return null,否则返回原字符串 return isNullOrEmpty(string)?null:string; }
生成指定字符串的字符串副本
-
padStart(String string, int minLength, char padChar):根据传入的minLength进行补充,如果minLength小于原来字符串的长度,则直接返回原来字符串,否则在字符串开头添加
string.length() - minLength
个padChar字符public static String padStart(String string, int minLength, char padChar) { //使用Preconditions工具类进行字符串验空处理 Preconditions.checkNotNull(string); //如果原字符串长度大于传入的新长度则直接返回原字符串 if(string.length() >= minLength) { return string; } else { //否则 StringBuilder sb = new StringBuilder(minLength); //先在字符串前面添加string.length()-minLength个padChar字符 for(int i = string.length(); i < minLength; ++i) { sb.append(padChar); } //最后将原始字符串添加到尾部 sb.append(string); return sb.toString(); } }
-
padEnd(String string, int minLength, char padChar):根据传入的minLength进行补充,如果minLength小于原来字符串的长度,则直接返回原来字符串,否则在字符串结尾添加
string.length() - minLength
个padChar字符public static String padEnd(String string, int minLength, char padChar) { Preconditions.checkNotNull(string); //如果原字符串长度大于传入的新长度则直接返回原字符串 if(string.length() >= minLength) { return string; } else { StringBuilder sb = new StringBuilder(minLength); //先将原始字符串添加到预生成的字符串当中 sb.append(string); //在使用padChar进行填补 for(int i = string.length(); i < minLength; ++i) { sb.append(padChar); } return sb.toString(); } }
-
repeat(String string, int count):返回count个 string字符串拼接成的字符串
public static String repeat(String string, int count) { Preconditions.checkNotNull(string); //如果小于1,则抛出异常 if(count <= 1) { Preconditions.checkArgument(count >= 0, "invalid count: %s", new Object[]{Integer.valueOf(count)}); return count == 0 ? "":string; } else { int len = string.length(); long longSize = (long)len * (long)count; int size = (int)longSize; //如果新创建的字符串长度超出int最大值,则抛出需要的数组过长的异常 if((long)size != longSize) { throw new ArrayIndexOutOfBoundsException((new StringBuilder(51)).append("Required array size too large: ").append(longSize).toString()); } else { //实际上新建一个相当长度的字符数组,再将数据复制进去 char[] array = new char[size]; //将string从0开始len结束之间的字符串复制到array数组中,且array数组从0开始存储 string.getChars(0, len, array, 0); int n; //复制数组,复制的步长为(1,2,4...n^2),所以这快提供了一个外层循环为ln2的算法 for(n = len; n < size - n; n <<= 1) { System.arraycopy(array, 0, array, n, n); } System.arraycopy(array, 0, array, n, size - n); return new String(array); } } }
查找两个字符串的公共前缀或后缀
在看commonPrefix和commonSuffix 这两个方法之前需要先看下validSurrogatePairAt方法
static boolean validSurrogatePairAt(CharSequence string, int index) {
return index >= 0 && index <= string.length() - 2 && Character.isHighSurrogate(string.charAt(index)) && Character.isLowSurrogate(string.charAt(index + 1));
}
这个方法的作用是 判断最后两个字符是不是合法的“Java 平台增补字符
- Character.isHighSurrogate:确定给定char值是否为Unicode高位代理。这个值并不代表字符本身,而是在UTF-16编码的补充的字符的表示被使用。
- Character.isLowSurrogate:确定给定char值是否为一个Unicode低代理项代码单元(也称为尾部代理项代码单元)。这些值并不代表本身的字符,但用于表示增补字符的UTF-16编码。
简单的说就是Java 语言内部的字符信息是使用 UTF-16 编码。因为char 这个类型是 16 bit 的。它可以有65536种取值,即65536个编号,每个编号可以代表1种字符。而在Unicode字符集中,有一些字符的编码超出了16 bit的范围,也就是超过了
char
类型能够直接表示的范围,65536 就不够用。为了能够在Java中表示这些字符,Unicode引入了一种叫做“代理对”(Surrogate Pair)的机制。从这65536个编号里,拿出2048个,规定它们是「Surrogates」,让它们两个为一组,来代表编号大于65536的那些字符。 更具体地,编号为 D800 至 DBFF 的规定为「High Surrogates」,共1024个。编号为 DC00至 DFFF 的规定为「Low Surrogates」,也是1024个。它们两两组合出现,就又可以多表示1048576种字符。
如果丢失一个高位代理Surrogates或者低位代理Surrogates,就会出现乱码。这就是为什么emoji会出现乱码了。例如输入了一个emoji:
用户点评