Warning: error_log(/data/www/wwwroot/hmttv.cn/caches/error_log.php): failed to open stream: Permission denied in /data/www/wwwroot/hmttv.cn/phpcms/libs/functions/global.func.php on line 537 Warning: error_log(/data/www/wwwroot/hmttv.cn/caches/error_log.php): failed to open stream: Permission denied in /data/www/wwwroot/hmttv.cn/phpcms/libs/functions/global.func.php on line 537 中文字幕另类,视频一区二区三区在线观看,亚洲欧美视频网站

          整合營銷服務(wù)商

          電腦端+手機(jī)端+微信端=數(shù)據(jù)同步管理

          免費(fèi)咨詢熱線:

          Python 中的不可見零寬度字符

          Python 中的不可見零寬度字符

          Python 編程中,不可見零寬度字符可能會(huì)在各種場景下悄悄出現(xiàn),對(duì)文本處理造成干擾。這些字符在視覺上并不顯現(xiàn),但它們的存在可能會(huì)導(dǎo)致字符串比較失敗、正則表達(dá)式匹配錯(cuò)誤、編碼問題等多種問題。本文將深入探討這些字符的識(shí)別方法、處理策略以及實(shí)際應(yīng)用場景,并附上相應(yīng)的代碼示例。

          識(shí)別不可見零寬度字符

          識(shí)別不可見零寬度字符通常涉及到對(duì)字符編碼和 Unicode 標(biāo)準(zhǔn)的了解。Python 提供了多種工具和函數(shù)來幫助我們檢測這些字符。

          例如,我們可以使用 ord() 函數(shù)來檢查字符的 Unicode 碼點(diǎn),進(jìn)而判斷它是否為不可見零寬度字符。下面是一個(gè)簡單的示例:

          def contains_zero_width_chars(s):
              for char in s:
                  # 檢查是否屬于零寬度字符的 Unicode 范圍
                  if ord(char) in range(8202, 8208):  # 舉例:零寬度字符范圍
                      return True
              return False
          
          
          text="Hello\u200bWorld"  # 包含一個(gè)零寬度空格
          print(contains_zero_width_chars(text))  # 輸出:True

          此外,正則表達(dá)式也是檢測不可見零寬度字符的強(qiáng)大工具。例如,我們可以使用 re 模塊來查找字符串中的零寬度空格:

          import re
          
          text="Hello\u200bWorld"  # 包含一個(gè)零寬度空格  
          zero_width_space=re.search(r'\u200b', text)
          
          if zero_width_space:
              print("Found zero-width space!")
          else:
              print("No zero-width space found.")

          處理不可見零寬度字符

          一旦識(shí)別出不可見零寬度字符,我們可以采取多種策略來處理它們,例如移除、替換或忽略這些字符。

          移除字符

          import re
          
          
          def remove_zero_width_chars(s):
              # 使用正則表達(dá)式替換所有零寬度字符為空字符串  
              return re.sub(r'[\u2000-\u200F]', '', s)
          
          
          text="Hello\u200bWorld"
          cleaned_text=remove_zero_width_chars(text)
          print(cleaned_text)  # 輸出:HelloWorld

          替換字符

          import re
          
          
          def replace_zero_width_chars(s, replacement=' '):
              # 使用正則表達(dá)式替換所有零寬度字符為指定字符  
              return re.sub(r'[\u2000-\u200F]', replacement, s)
          
          
          text="Hello\u200bWorld"
          replaced_text=replace_zero_width_chars(text)
          print(replaced_text)  # 輸出:Hello World

          應(yīng)用場景

          不可見零寬度字符在實(shí)際應(yīng)用中可能出現(xiàn)在多種場景,以下是一些例子:

          1. 文本處理與清洗
          在文本處理任務(wù)中,如自然語言處理、數(shù)據(jù)挖掘或搜索引擎中,清洗文本數(shù)據(jù)是非常重要的步驟。不可見零寬度字符可能會(huì)導(dǎo)致分詞錯(cuò)誤、關(guān)鍵詞匹配失敗等問題,因此需要在預(yù)處理階段進(jìn)行識(shí)別和清理。

          2. 網(wǎng)頁內(nèi)容爬取
          從網(wǎng)頁爬取文本時(shí),由于 HTML 或 CSS 的原因,可能會(huì)包含不可見零寬度字符。這些字符可能會(huì)影響后續(xù)的數(shù)據(jù)分析或展示,因此需要去除。

          3. 用戶輸入驗(yàn)證
          在接收用戶輸入時(shí),為確保數(shù)據(jù)的完整性和準(zhǔn)確性,需要檢查并處理不可見零寬度字符。這些字符可能是用戶無意中引入的,或者是惡意用戶為了繞過某些驗(yàn)證機(jī)制而故意插入的。

          4. 跨平臺(tái)文件傳輸
          在跨平臺(tái)文件傳輸或文本編輯過程中,由于不同平臺(tái)或軟件對(duì)字符編碼的處理差異,可能會(huì)引入不可見零寬度字符。在文件接收方,需要處理這些字符以確保數(shù)據(jù)的一致性。

          通過了解不可見零寬度字符的識(shí)別和處理方法,并結(jié)合實(shí)際應(yīng)用場景,我們可以更好地處理文本數(shù)據(jù),提高程序的健壯性和準(zhǔn)確性。在編寫代碼時(shí),應(yīng)該始終注意檢查和處理這些潛在的字符問題。

          背景

          最近發(fā)現(xiàn)某個(gè)數(shù)據(jù)采集的系統(tǒng)拿下來的數(shù)據(jù),有些字段的JSON被莫名截?cái)嗔耍瑢?dǎo)致后續(xù)數(shù)據(jù)分析的時(shí)候解析JSON失敗。

          類似這樣

          {"title": "你好

          或者這樣,多了個(gè)雙引號(hào)啥的

          {"title":""你好"}

          因?yàn)閿?shù)據(jù)庫是Oracle,起初以為是Oracle這老古董出問題了,結(jié)果一番折騰,把每條寫入數(shù)據(jù)的SQL語句都拿出來,看起來里面的JSON格式都沒問題。

          這也太詭異了吧,看起來沒毛病,但就為啥JSON被隨機(jī)截?cái)嗄兀?/p>

          最后我試著把整段SQL放在Rider的 query console 里面執(zhí)行,然后再去數(shù)據(jù)庫里讀取這段JSON,居然發(fā)現(xiàn)變成這樣了:

          {"title":"?你好"}

          啊這,看到這個(gè)大大的問號(hào),立刻就能知道這個(gè)“你好”里面不止是這兩個(gè)字,肯定含有不可見的Unicode字符。

          然后把這段JSON復(fù)制出來,用16進(jìn)制模式打開,果然看到在“你好”前面有一個(gè) \u0020 的字符…

          2Unicode碼表

          • 0000-007F:C0控制符及基本拉丁文 (C0 Control and Basic Latin)
          • 0080-00FF:C1控制符及拉丁文補(bǔ)充-1 (C1 Control and Latin 1 Supplement)
          • 0100-017F:拉丁文擴(kuò)展-A (Latin Extended-A)
          • 0180-024F:拉丁文擴(kuò)展-B (Latin Extended-B)
          • 0250-02AF:國際音標(biāo)擴(kuò)展 (IPA Extensions)
          • 02B0-02FF:空白修飾字母 (Spacing Modifiers)
          • ……

          這里再附上部分 Unicode 表格

          U+0123456789ABCDEF
          0000NULSOHSTXETXEOTENQACKBELBSHTLFVTFFCRSOSI
          0010DLEDC1DC2DC3DC4NAKSYNETBCANEMSUBESCFSGSRSUS
          0020
          !"#$%&'()*+,-./
          00300123456789:;<=>?
          0040@ABCDEFGHIJKLMNO
          0050PQRSTUVWXYZ[\]^_
          0060`abcdefghijklmno

          可以看到上面那個(gè) \u0020 在第三行第一列,是一個(gè)不可見字符,躲在標(biāo)題的前面

          也就是因?yàn)檫@個(gè) Unicode 字符,Oracle無法正確解析,所以導(dǎo)致了插入數(shù)據(jù)的時(shí)候錯(cuò)亂了

          所以破案了,就是系統(tǒng)前臺(tái)使用人員,在輸入的時(shí)候不知道咋滴搞了個(gè)Unicode字符進(jìn)去…

          解決方法就是我這邊采集的時(shí)候再做一次過濾…

          沒想到C#要搞個(gè)過濾 Unicode 還挺折騰的,資料太少…

          最后還是參考了Java的資料搞的。==...

          3代碼

          代碼如下

          寫了個(gè)擴(kuò)展方法來過濾

          public static class StringExt { 
          // 控制字符
          private static readonly Regex ControlCharRegex=new Regex(@"[\p{C}]", RegexOptions.Compiled);

          /// <summary>
          /// 移除控制字符
          /// </summary>
          public static string RemoveControlChars(this string text) {
          return ControlCharRegex.Replace(text, string.Empty);
          }
          }

          要使用的時(shí)候就這樣

          var outStr="帶有Unicode的字符串".RemoveControlChars();

          搞定。

          4參考資料

          • UniCode編碼表及部分不可見字符過濾方案 - https://www.cnblogs.com/fan-yuan/p/8176886.html
          • https://stackoverflow.com/questions/6198986/how-can-i-replace-non-printable-unicode-characters-in-java

          avaScript奇技淫巧:隱形字符

          本文,分享一種奇特的JS編程技巧,功能是:可以使字符串“隱形”、不可見!

          效果展示

          如下圖所示,一個(gè)字符串經(jīng)物別的操作之后,其長度有621字節(jié),但內(nèi)容卻是“隱形”不可見的!

          功能用途

          這個(gè)技術(shù)可以應(yīng)用到很多領(lǐng)域,非常具有實(shí)用性。

          比如:代碼加密、數(shù)據(jù)加密、文字隱藏、內(nèi)容保密、隱形水印,等等。

          原理介紹

          實(shí)現(xiàn)字符串隱形,技術(shù)原理是“零寬字符”。

          什么是“零寬字符”呢?

          在Unicode編碼中,有一類奇怪的字符格式,它們不可見、不可打印,主要用于調(diào)整字符的顯示格式。

          常見零寬字符類型:

          空格符:格式為U+200B,用于較長字符的換行分隔;

          非斷空格符:格式為U+FEFF,用于阻止特定位置的換行分隔;

          連字符:格式為U+200D,用于阿拉伯文與印度語系等文字中,使不會(huì)發(fā)生連字的字符間產(chǎn)生連字效果;

          斷字符:格式為U+200C,用于阿拉伯文、德文、印度語系等文字中,阻止會(huì)發(fā)生連字的字符間的連字效果;

          左至右符:格式為U+200E,用于在混合文字方向的多種語言文本中,規(guī)定排版文字書寫方向?yàn)樽笾劣遥?/p>

          右至左符:格式為U+200F : 用于在混合文字方向的多種語言文本中,規(guī)定排版文字書寫方向?yàn)橛抑磷螅?/p>

          在編程實(shí)現(xiàn)隱形字符功能時(shí),先將字符串轉(zhuǎn)為二進(jìn)制,再將二進(jìn)制中的1轉(zhuǎn)換為\u200b;0轉(zhuǎn)換為\u200c;空格轉(zhuǎn)換為\u200d,最后使用\ufeff 零寬度非斷空格符作分隔符。這幾種unicode字符都是不可見的,因此最終轉(zhuǎn)化完成并組合后,就會(huì)形成一個(gè)全不可見的“隱形”字符串。

          功能源碼

          function text_2_binary(text){
              return text.split('').map(function(char){ return char.charCodeAt(0).toString(2)}).join(' ');
          }
          function binary_2_hidden_text(binary){
              return binary.split('').map(function (binary_num){
                  var num=parseInt(binary_num, 10);
                  if (num===1) {
                      return '\u200b';
                  } else if(num===0) {
                      return '\u200c';
                  }
                  return '\u200d';
              }).join('\ufeff')
          }
          var text="jshaman是專業(yè)且強(qiáng)大的JS代碼混淆加密工具";
          var binary_text=text_2_binary(text);
          var hidden_text=binary_2_hidden_text(binary_text);
          console.log("原始字符串:",text);
          console.log("二進(jìn)制:",binary_text);
          console.log("隱藏字符:",hidden_text,"隱藏字符長度:",hidden_text.length);

          隱型還原

          接下來介紹“隱形”后的內(nèi)容如何還原。

          在了解上文內(nèi)容之后,知道了字符隱形的原理,再結(jié)合源代碼可知:還原隱形內(nèi)容,即進(jìn)行逆操作:將隱形的unicode編碼轉(zhuǎn)化成二進(jìn)制,再將二進(jìn)制轉(zhuǎn)成原本字符。

          直接給出源碼:

          function hidden_text_2_binary(string){
            return string.split('\ufeff').map(function(char){
              if (char==='\u200b') {
                return '1';
              } else if(char==='\u200c') {
                return '0';
              }
              return ' ';
            }).join('')
          }
          function binary_2_Text(binaryStr){
            var text=""
            binaryStr.split(' ').map(function(num){
              text +=String.fromCharCode(parseInt(num, 2));
            }).join('');
            return text.toString();
          }
          console.log("隱形字符轉(zhuǎn)二進(jìn)制:",hidden_text_2_binary(hidden_text));
          console.log("二進(jìn)制轉(zhuǎn)原始字符:",binary_2_Text(hidden_text_2_binary(hidden_text)));

          運(yùn)行效果:

          如果在代碼中直接提供“隱形”字符內(nèi)容,比如ajax通信時(shí),將“隱形”字符由后端傳給前端,并用以上解密方法還原,那么這種方式傳遞的內(nèi)容會(huì)是非常隱秘的。

          但還是存在一個(gè)安全問題:他人查看JS源碼,能看到解密函數(shù),這可能引起加密方法泄露、被人推導(dǎo)出加密、解密方法。

          對(duì)此問題,可以采用JS代碼混淆加密,進(jìn)一步提升整體JS代碼安全性。

          JS代碼加密

          JShaman對(duì)上面兩個(gè)解密函數(shù)進(jìn)行代碼混淆加密。

          如下圖,來到JShaman網(wǎng)站,貼入要加密的JS代碼:

          使用如下配置:

          得到加密的JS代碼:

          將代碼粘貼回源文件中:

          加密的JS代碼,運(yùn)行起來跟之前完全一樣。

          但此時(shí),已不再是裸露的透明JS代碼,從這混亂復(fù)雜的代碼中很難看出功能邏輯。

          注:“隱形字符”技術(shù),可用于前后端JS執(zhí)行環(huán)境,即可在Node.JS中執(zhí)行,也可在瀏覽器中使用。


          主站蜘蛛池模板: 婷婷国产成人精品一区二 | 日韩一区二区三区在线精品| 相泽亚洲一区中文字幕| 国产精品视频一区二区三区| 蜜桃传媒视频麻豆第一区| 国产韩国精品一区二区三区| 国产精品一区二区AV麻豆| 精品福利视频一区二区三区| 无码aⅴ精品一区二区三区浪潮| 一区二区三区在线播放视频| 精品国产天堂综合一区在线| 男人的天堂av亚洲一区2区 | 国产综合一区二区| 一本AV高清一区二区三区| 区三区激情福利综合中文字幕在线一区亚洲视频1 | 在线观看精品一区| 国产精品一区视频| 99久久精品日本一区二区免费| 久久无码人妻一区二区三区午夜| 国产成人一区二区三区视频免费 | 国产成人一区二区三区高清| 无码aⅴ精品一区二区三区 | 久久亚洲一区二区| 无码国产精品一区二区免费3p| 一区高清大胆人体| 自拍日韩亚洲一区在线| 蜜桃AV抽搐高潮一区二区| 夜夜高潮夜夜爽夜夜爱爱一区| 日本一区二区三区在线看| 一区二区国产在线播放| 一夲道无码人妻精品一区二区| 99精品国产高清一区二区| 亚洲精品无码一区二区| 国产一区二区三区免费看| 国产精品无码一区二区在线观一| 久久免费国产精品一区二区| 自拍日韩亚洲一区在线| 一区二区三区观看| 少妇无码一区二区三区| 精品国产一区二区三区在线| chinese国产一区二区|