[PHP] 將UTF8中文字轉成10進位或16進位數值 @新精讚

[無邊框]

3914

[PHP] 將UTF8中文字轉成10進位或16進位數值

“

原本為了處理 preg_match 中文字的問題[2]，用php把中文字轉換成10進位和6進位的數值編碼

„

分享此文連結 //n.sfs.tw/10671

分享連結 [PHP] 將UTF8中文字轉成10進位或16進位數值@新精讚

(文章歡迎轉載，務必尊重版權註明連結來源)

2019-10-25 08:15:51 最後編修

2017-01-24 02:06:21 By 張○○

自動目錄

判斷中文字？
參考資料

為了處理 preg_match 中文字的問題^[2]，想把中文字轉換成16進位的編碼，如「一」是0xe4b880，好讓程式取用，網路上找不到適合的，有發現HTML用的UNICODE^[1]，不符需要只好自己來寫。

$str="一籲乂龘";
mb_internal_encoding("UTF-8");
$mlen = mb_strlen($str);
 
for($ii=0;$ii<$mlen; $ii++){
  $w= mb_substr($str,$ii,1);
  $len= strlen( $w);
  print $w .": ";
  for($jj=0;$jj<$len; $jj++){
    print ord( substr($w,$jj,1)). " ";
    $r[$jj]=  dechex( ord( substr($w,$jj,1)));
  }
  print implode($r). "\n";
}

原本想用第一碼來判斷一個中文字的BYTES數^[2]，後來改用mb_的函數來解決，算是偷懶的作法。

第一碼>=192開頭是2字節
110xxxxx xxxxxxxx
第一碼>=224開頭是3字節
1110xxxx xxxxxxxx xxxxxxxx
第一碼>=240開頭是4字節
11110xxx xxxxxxxx xxxxxxxx xxxxxxxx

執行結果

一: 228 184 128 e4b880
籲: 231 177 178 e7b1b2
乂: 228 185 130 e4b982
龘: 233 190 152 e9be98

如果有字碼該如何印出來，直接把16進位值合裡來放到字串就可以了^[3]：

echo "\xe6\x88\x91"; //我

或是

echo chr(228).chr(184).chr(128); //一

這轉換最後沒能解決我一開始要處理的中文字字串比對的問題，算有點徒勞，不過也許有人會有需要。

判斷中文字？

判斷是否為中文字，只有檢查第一碼是不是>224是不夠的，因為224~240這個區段包含了中文、日文、韓文、一堆符號。

有一些我研究的結果可供參考[4]：

部首

226,188,128=> ⼀
226,191,149=> ⿕

主字群+拓展

227,144,128=> 㐀
233,190,187=> 龻

unicode 兼容漢字

239,164,128=> 豈
239,169,170=> 頻

參考資料

[1] 中文字轉 HTML UNICODE http://www.csie.ntu.edu.tw/~piaip/unihtml/

[2] 正則匹配中文汉字 http://www.5idev.com/p-php_preg_match.shtml 此例無效

[3] http://www.ptt.cc/bbs/PHP/M.1221550095.A.C82.html

[4] https://www.qqxiuzi.cn/zh/hanzi-unicode-bianma.php

原文 2013-09-23 15:28:25

END

你可能感興趣的文章

PHP cli 傳入參數 php cli (PHP命令列的傳入參數使用方法

[PHP] CodeIgniter 3+pure+smarty安裝及環境設置2/2 PHP framework CodeIgniter 3+ pure CSS +smarty Template Engine的整合#2

設定Google analytics API #2 -- PHP的程式安裝和撰寫讓你的網站能夠存取你的Google analytics上面的資料

[PHP] codeignitor4+ smarty4 這篇整合 php 的framework codeignitor4 + smarty4。

使用Yahoo OAuth2 2/2 使用Yahoo OAuth2認證我的網頁

[PHP] 字串拆解函數substr 奇異的錯誤(札記) 偶然發現一個 substr函數拆解上的怪異之處

隨機好文

UTF-8 BOM (Byte Order Mark) 的問題在 Michael Kaplan 那看到 Every character has a story #4: U+feff

世紀帝國征服者新版本--被遺忘的帝國世紀帝國征服者新版本--被遺忘的帝國世紀二代的征服者是精典遊戲中的精典，aofe更好玩...

[PHP] 檢查檔案是否是圖檔使用getimagesize函數檢查檔案是否是圖檔

超扯童話血多-賣火柴小女孩這個真的是太扯了，扯到一直笑，尤其是作者出來那段因為他第一到第九會連播，笑滿累的。如果你看不懂的話表示你的大腦還滿正經

真正的喜悅幾種喜悅的類型，雖然很簡單，卻是很多人百思不得其解的難題..

判斷中文字？
參考資料

到最底端