深度學習ocr識別準確率高的演算法是哪些

1樓：學而時習

baseline可以是crnn+ctc（stn酌情加）高階可以global attention+ce再高階可以local attention

再高階可以dynamically refine kernel再高階可以multi-loss

再高階可以nas

再高階可以gan

以上還只是說的模型結構，光augment和引數初始化就有很多很多文章可以做，要想達到頂尖商業化水平，資料、模型結構、超參、硬體的細節都很關鍵

tesseract這種上古的實驗殘次品就不要提了，google扔給社群的一塊骨頭而已，玩玩就得了，別當真

2樓：雲中君

檢測主要有anchor based方法，例如cascaded mask rcnn，htc，最近冒出很多異形文字的方法也可以參考不過沒有脫離這些基礎，同時一些anchor free的，例如text moutain等，以及混合的方式有興趣可以去搜尋，識別有分為前置Stn+ cnn+lstm/seq2seq attention ，當然loss有CFC,2dctc 還有基於概率的方式等，工業中主要還是crnn,關鍵還是得資料弄的好，當然也有端到端的fots 等，看你需求。刷榜的話attention類方法比較吃香，不過有個問題是不太穩定，而且計算量大不少

3樓：唐璜

CRNN+ctc也已經是過去幾年的演算法了，相比來說已經比較老了，近兩年也是做了很多魔改。可以去看看白翔老師和金連文老師這兩年在這方面的一些工作，像Aster, moran, mask text spotter都是很不錯的工作，我們自己在使用的時候基本上也是參考了這些方法。ICCV'19[1]有一篇比較詳細的分析了這幾年的場景文字識別的技術發展，可以用作參考。

[1] Jeonghun Baek, Geewook Kim, Junyeop Lee, Sungrae Park, Dongyoon Han, Sangdoo Yun, Seong Joon Oh, and Hwalsuk Lee. What is wrong with scene text recognition model comparisons? dataset and model analysis.

In Proceedings of the ICCV, 2019

深度學習ocr識別準確率高的演算法是哪些

MNIST資料集上手寫數字識別準確率是否能達到100

請問驗證集準確率比測試集高很多，可能是什麼原因？

為什麼senet有很高的準確率，似乎仍然沒有resnet常用？

其他用戶還看了：