深度學習ocr識別準確率高的演算法是哪些

時間 2021-05-29 23:09:18

1樓:學而時習

baseline可以是crnn+ctc(stn酌情加)高階可以global attention+ce再高階可以local attention

再高階可以dynamically refine kernel再高階可以multi-loss

再高階可以nas

再高階可以gan

以上還只是說的模型結構,光augment和引數初始化就有很多很多文章可以做,要想達到頂尖商業化水平,資料、模型結構、超參、硬體的細節都很關鍵

tesseract這種上古的實驗殘次品就不要提了,google扔給社群的一塊骨頭而已,玩玩就得了,別當真

2樓:雲中君

檢測主要有anchor based方法,例如cascaded mask rcnn,htc,最近冒出很多異形文字的方法也可以參考不過沒有脫離這些基礎,同時一些anchor free的,例如text moutain等,以及混合的方式有興趣可以去搜尋,識別有分為前置Stn+ cnn+lstm/seq2seq attention ,當然loss有CFC,2dctc 還有基於概率的方式等,工業中主要還是crnn,關鍵還是得資料弄的好,當然也有端到端的fots 等,看你需求。刷榜的話attention類方法比較吃香,不過有個問題是不太穩定,而且計算量大不少

3樓:唐璜

CRNN+ctc也已經是過去幾年的演算法了,相比來說已經比較老了,近兩年也是做了很多魔改。可以去看看白翔老師和金連文老師這兩年在這方面的一些工作,像Aster, moran, mask text spotter都是很不錯的工作,我們自己在使用的時候基本上也是參考了這些方法。ICCV'19[1]有一篇比較詳細的分析了這幾年的場景文字識別的技術發展,可以用作參考。

[1] Jeonghun Baek, Geewook Kim, Junyeop Lee, Sungrae Park, Dongyoon Han, Sangdoo Yun, Seong Joon Oh, and Hwalsuk Lee. What is wrong with scene text recognition model comparisons? dataset and model analysis.

In Proceedings of the ICCV, 2019

MNIST資料集上手寫數字識別準確率是否能達到100

天霸封神 確實有這個問題,tensorflow上的demo例子,訓練和測試都很好。但實際安裝到手機上執行時,效果很不理想。感覺有待優化。 腦洞太開 按照現有CNN識別方案很難做到100 沒有做位置矯正,不是基於筆畫學習,比如你寫個1在邊上,肯定識別不出來 TensorFlow2例子基本上99 以上,...

請問驗證集準確率比測試集高很多,可能是什麼原因?

弗拉基公尺爾 如果只是高個10 我認為問題不大.如果大於10 可能有 1.資料過擬合了.加正則化batch normal,dropout都可以.減少網路引數,減少網路層數 2.資料本身有缺陷.你看看你的資料集,是不是有缺陷.在訓練資料集上,這些資料集是可以篩選的,你可以選擇有代表的資料集進行訓練.3...

為什麼senet有很高的準確率,似乎仍然沒有resnet常用?

邵聃 我認為 1 SE Net的SE Block是有FC的,而FC一般是矩陣 向量,所以計算效率上,對於現在的專用加速器,可能並不是非常友好 可能會出現頻寬瓶頸 2 就實際使用而言,也許兩種結構是差不多的,也許不同的資料集,或者不同的訓練引數會帶來不同的精度結果,而真實場景中,往往起決定性作用的是資...