在Ruby中将unicode直接量转化成为utf8字符

最新推荐文章于 2019-04-25 11:13:06 发布

最新推荐文章于 2019-04-25 11:13:06 发布 · 525 阅读

标签

#ruby

收录于

本文介绍了一个 Ruby 脚本，用于将 Unicode 字符串转换为 UTF-8 编码。通过定义 `unicode_utf8` 方法，该脚本能够处理各种 Unicode 字符，并将其转换为对应的 UTF-8 编码格式。

出处：http://yuweijun.blogspot.com/2008/12/rubyunicodeutf8.html

require 'cgi'
def unicode_utf8(unicode_string)
unicode_string.gsub(///u/w{4}/) do |s|
str = s.sub(///u/, "").hex.to_s(2)
if str.length < 8
CGI.unescape(str.to_i(2).to_s(16).insert(0, "%"))
else
arr = str.reverse.scan(//w{0,6}/).reverse.select{|a| a != ""}.map{|b| b.reverse}
# ["100", "111000", "000000"]
hex = lambda do |s|
(arr.first == s ? "1" * arr.length + "0" * (8 - arr.length - s.length) + s : "10" + s).to_i(2).to_s(16).insert(0, "%")
end
CGI.unescape(arr.map(&hex).join)
end
end
end

puts unicode_utf8('test/u4E2Dtest/u6587test/u6D4Btest/u8BD5test')