Warning: error_log(/data/www/wwwroot/hmttv.cn/caches/error_log.php): failed to open stream: Permission denied in /data/www/wwwroot/hmttv.cn/phpcms/libs/functions/global.func.php on line 537 Warning: error_log(/data/www/wwwroot/hmttv.cn/caches/error_log.php): failed to open stream: Permission denied in /data/www/wwwroot/hmttv.cn/phpcms/libs/functions/global.func.php on line 537 最新日本一级中文字幕,韩国精品在线,欧美大视频在线看免费视频

          整合營銷服務商

          電腦端+手機端+微信端=數據同步管理

          免費咨詢熱線:

          Python Flashtext 實現大數據集下高效的關鍵詞查找和替換

          常,我們使用Python 在文本中進行關鍵詞查找或替換時,會使用 re 模塊以正則的形式實現。在文本數量、文本內容、關鍵詞數量較小時,該方法能夠滿足我們程序的功能、性能需要。但當在大規模的文本或者對大量關鍵詞語料查找或者替換,re 實現方案的性能將成為瓶頸,本文我們將介紹一種新的關鍵詞搜索和替換的算法:Flashtext 算法,它是一個高效的字符搜索和替換算法。

          有多高效呢?如下,是通過隨機生方式生成10000個單詞組成的文本,我們分別在該文本中查找由 0, 500, 1000, 5000, 10000, 50000, 100000, 200000, 400000 個關鍵詞組成的關鍵詞庫,我們來感受一下兩者的性能差異:

          我們發現隨著關鍵詞查詢數量的增加,Flashtext 與 re 的時間消耗存在百倍乃至千倍以上的差異 。

          為何存在這么大的差異呢?Flashtext 算法的時間復雜度不依賴于查找或替換的字符的數量。如,對于一個文檔有 N 個字符,和一個有 M 個詞的關鍵詞庫,那么時間復雜度就是 O(N) 。而正則匹配的時間復雜度是 O(M * N) 。這也是兩者在性能上的差異隨著關鍵詞數量增多而拉大的原因。

          因此,在一些大數據下的內容檢索和替換,我們更傾向于選擇 Flashtext 算法 ,比如,自然語言處理領域中數據清洗是一項必須的操作。經常涉及使用標準的關鍵詞替換一些非標準的詞,如,將Javascript替換成JavaScript。或者我們需要判斷文本中是否存在JavaScript 關鍵詞等等。

          接下來,就讓我們了解一下,如何使用Flashtext 實現關鍵詞的查找和替換。


          FlashText

          Flashtext 算法主要分為三部分,我們接下來將對每一部分進行單獨分析:

          1. 構建 Trie 字典
          2. 關鍵詞搜索
          3. 關鍵詞替換

          構建 Trie 字典 (這部分不理解不影響我們使用Flashtext

          Flashtext 是一種基于 Trie 字典數據結構和 Aho Corasick 的算法。它的工作方式是,首先它將所有相關的關鍵詞作為輸入,使用這些關鍵詞建立一個 trie 字典。

          為了構建 trie 字典,Flashtext 創建一個空的節點指向空字典。這個節點被用作所有關鍵詞的起點。我們在字典中插入一個關鍵詞。這個關鍵詞中的下一個字符在本字典中作為關鍵詞,并且這個指針需要再次指向一個空字典。這個過程不斷重復,直到我們達到單詞中的最后一個字符。當我們到達單詞的末尾時,我們插入一個特殊的字符(eot)來表示詞尾,如下:

          starteot 是兩個特殊的字符,用來定義關鍵詞的邊界,因此,也可知 Flashtext 只匹配完整的單詞,這個 trie 字典就是我們后面要用來搜索和替換的數據結構。

          我們舉一個簡單的例子,假設我們有一個包含3個單詞的句子 “I like Python”,和一個有4個關鍵詞的語料庫 corpus = [Python,Java,J2ee,Ruby]。

          Flashtext 算法將對于句子中的每一個單詞,檢查其是否在語料庫中出現,如下:

          如果句子 N 個單詞,意味著需要做 N 次的循環操作。在這個例子中所需的時間步取決于句子中的單詞數。

          如上,因為將文本中的每個字符串進行匹配,由于這是一個字符匹配過程,因為 start 并沒有和 l 相連,因此可以快速的跳過的I、like的匹配,這使得跳過缺失單詞的過程變得非常快。

          因此,FlashText 算法不受 corpus 中關鍵詞數量的影響。


          使用 Flashtext 進行搜索

          我們對輸入文本中的字符進行逐個遍歷,當我們在文檔中的字符 word 匹配到字典中的 <start>word<eot> 時,則認為這是一個完整匹配。我們將匹配到的字符序列所對應的標準關鍵詞進行輸出,具體如下:

          代碼示例如下:


          使用 Flashtext 進行替換

          Flashtext 對輸入文本中的字符進行逐個遍歷,Flashtext 先創建一個空的字符串,當字符序列中的 word 無法在 Trie 字典中找到匹配時,那么Flashtext 就簡單的原始字符復制到返回字符串中。但當Flashtext 可以從 Trie 字典中找到匹配時,那么Flashtext 將把匹配到的字符的標準字符復制到返回字符串中。因此,返回字符串是輸入字符串的一個副本,唯一的不同是替換了匹配到的字符序列,具體如下:

          代碼示例如下:


          性能比對

          在本文開始,我們首先介紹了使用 re模塊與 flashtext 模塊在不同數量的關鍵詞語料庫下,兩者的耗時情況差異,具體性能比對實現的源碼如下:

          輸出結果:


          Flashtext 常用方法及參數說明

          add_keyword

          添加關鍵詞。

          語法

          參數

          • keyword:檢索的詞。
          • clean_name:顯示或要被替換為的詞(默認keywords本身),如果匹配到keyword,則會返回clean_name。

          示例

          天要講的主題是歐洲小站點關鍵詞的查找。很多人覺得不懂小站點語言,一個字“難”,看也看不懂,翻譯起來也很麻煩,索性直接放棄了小站點這幾塊肥肉,或者直接的用英文谷歌翻譯上架,可是結果證明這樣的效果并不好。

          據了解,在過去三年中,德國在亞馬遜全球市場中的比重不斷上漲,成為了繼美國之后亞馬遜的第二大市場。亞馬遜每年在德國的銷售額達到了120億美元,其中包括AWS服務銷售額。隨著市場比重上升,亞馬遜應該會進一步加大對德國的投資。在法國,亞馬遜是法國唯一一個受到半數以上消費者歡迎的網站,它也是法國十大電商里唯一一個非本地企業。西班牙、意大利站點也讓很多賣家都嘗到了甜頭。

          今天講的重點是小站的標題和關鍵詞的查找,其實查找方法和英文站點的查找方式差不多,但是小站點需要查找要更耐心更細心,它們的不同之處就在于以下幾個方面:

          對于不懂小站點市場語言的運營人員,google翻譯是不能少的,在不懂語言的情況下,我們還是要善于利用翻譯工具Google翻譯。但這里有個誤區,一開始大家都喜歡把一句句長句直接Copy去翻譯,這樣的效果是很差的,而且很多都翻譯不了,直接翻譯成了英文或者是不認識的字符,這樣的話還不如直接英文的上架呢。

          那我們該怎么做呢?

          1.先要明確你的產品有哪些英文的表達方式,然后輸入到谷歌翻譯搜索框。翻譯出來的詞放到亞馬遜搜索框去檢索,通過亞馬遜前臺搜索量及展現的產品判斷,展現量越高,且產品是相似的,說明這個詞是一個比較精準的詞匯。譬如說shower curtain,德語翻譯為Duschvorhang, Waterproof shower curtain,德語谷歌翻譯的是Wasserdicht Duschvorhang。

          2. 通過標題尋找關鍵詞。

          比如我們輸入Duschvorhang會發現有很多詞語一直反復性的出現,把這些詞提取出來,Duschvorh?nge,Badezimmer,Vorhang,Anti-Schimmel,antibakteriell,Duschvorh?nge, Duschvorhangringe,duschvorhang waschbar等等,通過標題和亞馬遜搜索的下拉框,利用自動提示下拉框的詞匯幫我們整合一些關鍵詞短語,如下:

          duschvorhang anti schimmel

          duschvorhang antibakteriell

          Waschbar duschvorhang

          duschvorhang badewanne

          duschvorhang badezimmer

          duschvorhang für badewanne

          Duschvorhangringe für Badezimmer

          duschvorhang robust

          Wasserabweisend Duschvorh?nge

          duschvorhang wasserabweisend

          Duschvorhang 180 x 180

          Duschvorhang 180 x 200

          duschvorhang anti schimmel waschbar

          Duschvorh?nge Badewannenvorhang

          3. 對于精細化上架的產品,我一直強調的當地的語言,那我們也可以從review比較多的listing中查詢關鍵詞。認真查看Q&A和review界面,不僅能讓我們查找關鍵詞,更能直接的了解客戶關心的點,譬如是尺寸,是否掉色,柔軟度,是否防水,是不是金屬扣。把客戶關心的點直接放入到我們的五點詳情中,打消買家的顧慮,提高訂單轉化率。

          比如Anti-Schimmel, Vorh?nge, Duschvorhangringe Duschvorhang Wasser abweisend 等等

          4. 對于FBA的產品,不僅僅是在亞馬遜的平臺上,我都要求自己去其他的小站點平臺多去研究關鍵詞,如

          Ebay:http://www.ebay.de

          http://www.amz123.com/亞馬遜賣家之家,很多亞馬遜的導航。

          Wannenvorhang,

          Badewannenvorhang

          Badevorhang

          Wannenvorhang

          5. 當然缺少不了關鍵詞工具,這里也推薦給大家

          http://www.keywordtooldominator.com/k/amazon-keyword-tool這個不錯,而且小站點詞匯也比較多,但每天只能有三次機會。

          https://www.scientificseller.com/zh/

          www.scientificseller.com

          https://app.wordtracker.com/

          6.如果產品的展現量不高,優化的時候我們也可以嘗試去站外找關鍵詞。

          比如說facebook以及http://www.dragon-guide.net/,龍之向導專業收錄世界各個國家的外貿B2B網站、國際商業黃頁等各種優秀的外貿網站及電子商務平臺,提供簡單便捷的外貿導航服務,可用于找關鍵詞等等。

          7.大家不要忘了,英文的核心關鍵詞也要寫在關鍵詞欄里,可以提高展現量,很多小站點客戶也常常用英語來搜索產品。

          如:shower curtain

          Waterproof show curtain

          Show curtain for bathroom

          當然,每個人的思路和方法都不同,能夠多出單才是關鍵。希望以上的方法能對大家有幫助,祝大家訂單多多,歐元也多多。(來源: CSS平臺)

          以上內容屬作者個人觀點,不代表雨果網立場!如有侵權,請聯系我們。

          電商的人都希望自己的產品盡快的賣出去,既然要賣出去那首先得讓買家找到我們的產品,買家是怎么在平臺上找到我們的產品然后下單的呢?比較多的就是用詞匯搜索,然后找到需要的產品,那么這個搜索的詞匯就是對我們產品很重要的關鍵詞。下面就跟大家聊聊我在尋找產品關鍵詞的一些思路。

          1.在平臺的搜索框中尋找關鍵詞

          這是最常見的找到我們Listing的方式。關鍵詞的設置可以包含產品的屬性、材質、特點、促銷信息等。賣家可以在亞馬遜搜索欄或者其他平臺查找和自己產品相關的最近的熱門關鍵詞,也可以在平臺的熱銷產品中尋找。

          2.在競爭對手的Listing中尋找關鍵詞

          當你找到同款產品賣的比較好的競爭對手的Listing,細心的你一定會發現這個產品的另外的一種表達方式,那么說不定哪一個詞就會成為推的詞語。

          這個只是在產品的標題中尋找,其實還可以擴展到對手的五點、長描述、Q&A和評論中尋找。

          3.在廣告的中尋找關鍵詞

          下面是手動廣告中的系統推薦詞匯:

          其實我們還可以在建立的自動廣告的報告中的“Customer Search Terms

          ”找到客戶習慣搜索的詞匯。

          4.分類中尋找關鍵詞

          在前期大家千萬不要忽視這些類目詞匯,在新品引流中他們會起到一定的作用。

          5.關鍵詞工具尋找關鍵詞

          以下是常用的關鍵詞工具:

          希望這些可以對大家有用!!!(來源: CSS平臺)

          以上內容屬作者個人觀點,不代表雨果網立場!如有侵權,請聯系我們。

          有任何亞馬遜問題,請關注微信號【cifnewspayoneer】

          更多跨境進出口消息請點擊:雨果網-跨境電商智能服務平臺


          主站蜘蛛池模板: 无码人妻视频一区二区三区| 精品无码中出一区二区| 深夜福利一区二区| 久久精品国产一区二区三区肥胖| 亚洲av成人一区二区三区观看在线| 精品人体无码一区二区三区 | 国产综合精品一区二区三区| 国内精品视频一区二区三区| 色婷婷综合久久久久中文一区二区| 狠狠爱无码一区二区三区| 成人免费一区二区无码视频| 精品一区二区三区在线播放视频| 久久综合九九亚洲一区| 激情内射日本一区二区三区| 丝袜人妻一区二区三区网站| 精品成人一区二区三区免费视频| 无码人妻精品一区二区三区不卡| 在线欧美精品一区二区三区| 91在线视频一区| 亚洲AV色香蕉一区二区| 久久精品视频一区| 久久精品黄AA片一区二区三区| 久久精品国产一区二区三| 亚州日本乱码一区二区三区| 亚洲综合色自拍一区| 色欲AV蜜臀一区二区三区| 久久国产免费一区二区三区 | 日本精品夜色视频一区二区| 日本一区二区三区在线看| 国产在线观看91精品一区| 性色av闺蜜一区二区三区| 日韩精品一区二区三区毛片| 高清一区高清二区视频| 国产一区麻豆剧传媒果冻精品| 香蕉在线精品一区二区| 久久高清一区二区三区| 亚洲一区欧洲一区| 国产产一区二区三区久久毛片国语| 国产在线观看91精品一区| 岛国无码av不卡一区二区| 色久综合网精品一区二区|