DrogoZhang

【论文整理】字符识别论文集合！

ocr papers

some papers and datasets links collected from：

[1] wanghaisheng/awesome-ocr
[2] kba/awesome-ocr
[3] chongyangtao/Awesome-Scene-Text-Recognition
[4] whitelok/image-text-localization-recognition
[5] 文字检测与识别资源
[6] OCR material
[7] handong1587
[8] hs105/Deep-Learning-for-OCR
[9] 文字检测与识别资料整理
[10] hwalsuklee/awesome-deep-text-detection-recognition

you can access the website ICDAR, and see some awesome ocr models on the “Ranking Table” of each competition’s result page

2009

【Synthetic data】de T. Campos, B. R. Babu, and M. Varma. Character recognition in natural images. In VISAPP, 2009

2010

Epshtein B, Ofek E, Wexler Y. Detecting text in natural scenes with stroke width transform[C]//Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on. IEEE, 2010: 2963-2970.

code:[code]

2011

Rusinol M, Aldavert D, Toledo R, et al. Browsing heterogeneous document collections by a segmentation-free word spotting method[C]//Document Analysis and Recognition (ICDAR), 2011 International Conference on. IEEE, 2011: 63-67.
Neumann L, Matas J. Text localization in real-world images using efficiently pruned exhaustive search[C]//Document Analysis and Recognition (ICDAR), 2011 International Conference on. IEEE, 2011: 687-691.

2012

【Synthetic data】Wang T, Wu D J, Coates A, et al. End-to-end text recognition with convolutional neural networks[C]//Pattern Recognition (ICPR), 2012 21st International Conference on. IEEE, 2012: 3304-3308.

code:[code]
Elagouni K, Garcia C, Mamalet F, et al. Text recognition in videos using a recurrent connectionist approach[C]//International Conference on Artificial Neural Networks. Springer, Berlin, Heidelberg, 2012: 172-179.
Frinken V, Fischer A, Manmatha R, et al. A novel word spotting method based on recurrent neural networks[J]. IEEE transactions on pattern analysis and machine intelligence, 2012, 34(2): 211-224.
Neumann L, Matas J. Real-time scene text localization and recognition[C]//Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on. IEEE, 2012: 3538-3545.

code:[code]
Mishra A, Alahari K, Jawahar C V. Top-down and bottom-up cues for scene text recognition[C]//Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on. IEEE, 2012: 2687-2694.

2013

Yin X C, Yin X, Huang K, et al. Robust text detection in natural scene images[J]. IEEE transactions on pattern analysis and machine intelligence, 2014, 36(5): 970-983.
Bissacco A, Cummins M, Netzer Y, et al. Photoocr: Reading text in uncontrolled conditions[C]//Proceedings of the IEEE International Conference on Computer Vision. 2013: 785-792.
Breuel T M, Ul-Hasan A, Al-Azawi M A, et al. High-performance OCR for printed English and Fraktur using LSTM networks[C]//Document Analysis and Recognition (ICDAR), 2013 12th International Conference on. IEEE, 2013: 683-687.

code:[code]
Milyaev S, Barinova O, Novikova T, et al. Image binarization for end-to-end text understanding in natural images[C]//Document Analysis and Recognition (ICDAR), 2013 12th International Conference on. IEEE, 2013: 128-132.
Neumann L, Matas J. On combining multiple segmentations in scene text recognition[C]//Document Analysis and Recognition (ICDAR), 2013 12th International Conference on. IEEE, 2013: 523-527.
Koo H I, Kim D H. Scene text detection via connected component clustering and nontext filtering[J]. IEEE transactions on image processing, 2013, 22(6): 2296-2305.
Shi C, Wang C, Xiao B, et al. Scene text recognition using part-based tree-structured character detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2013: 2961-2968.
Halima M B, Karray H, Alimi A M. Arabic text recognition in video sequences[J]. arXiv preprint arXiv:1308.3243, 2013.
Zaghden N, Khelifi B, Alimi A M, et al. Text Recognition in both ancient and cartographic documents[J]. arXiv preprint arXiv:1308.6309, 2013.
Alsharif O, Pineau J. End-to-end text recognition with hybrid HMM maxout models[J]. arXiv preprint arXiv:1310.1811, 2013.
Louradour J, Kermorvant C. Curriculum learning for handwritten text line recognition[C]//Document Analysis Systems (DAS), 2014 11th IAPR International Workshop on. IEEE, 2014: 56-60.
Goodfellow I J, Bulatov Y, Ibarz J, et al. Multi-digit number recognition from street view imagery using deep convolutional neural networks[J]. arXiv preprint arXiv:1312.6082, 2013.

2014

Bušta M, Drtina T, Helekal D, et al. Efficient character skew rectification in scene text images[C]//Asian Conference on Computer Vision. Springer, Cham, 2014: 134-146.
Almazán J, Gordo A, Fornés A, et al. Word spotting and recognition with embedded attributes[J]. IEEE transactions on pattern analysis and machine intelligence, 2014, 36(12): 2552-2566.

code:[code]
Jaderberg M, Vedaldi A, Zisserman A. Deep features for text spotting[C]//European conference on computer vision. Springer, Cham, 2014: 512-528.

code:[code]
Bluche T, Ney H, Kermorvant C. A comparison of sequence-trained deep neural networks and recurrent neural networks optical modeling for handwriting recognition[C]//International Conference on Statistical Language and Speech Processing. Springer, Cham, 2014: 199-210.
Yao C, Bai X, Liu W. A unified framework for multioriented text detection and recognition[J]. IEEE Transactions on Image Processing, 2014, 23(11): 4737-4749.
Huang W, Qiao Y, Tang X. Robust scene text detection with convolution neural network induced mser trees[C]//European Conference on Computer Vision. Springer, Cham, 2014: 497-511.
Bhowmick S, Banerjee P. Bangla text recognition from video sequence: A new focus[J]. arXiv preprint arXiv:1401.1190, 2014.
【Synthetic data】Jaderberg M, Simonyan K, Vedaldi A, et al. Synthetic data and artificial neural networks for natural scene text recognition[J]. arXiv preprint arXiv:1406.2227, 2014.

code:[model;offical website]
Jaderberg M, Simonyan K, Vedaldi A, et al. Reading text in the wild with convolutional neural networks[J]. International Journal of Computer Vision, 2016, 116(1): 1-20.

offical website:[offical website]
Jaderberg M, Simonyan K, Vedaldi A, et al. Deep structured output learning for unconstrained text recognition[J]. arXiv preprint arXiv:1412.5903, 2014.

2015

Kim B S, Koo H I, Cho N I. Document dewarping via text-line based optimization[J]. Pattern Recognition, 2015, 48(11): 3600-3614.
Ye Q, Doermann D. Text detection and recognition in imagery: A survey[J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 37(7): 1480-1500.
Jaderberg M. Deep learning for text spotting[D]. University of Oxford, 2015.
Ren X, Chen K, Yang X, et al. A new unsupervised convolutional neural network model for Chinese scene text detection[C]//Signal and Information Processing (ChinaSIP), 2015 IEEE China Summit and International Conference on. IEEE, 2015: 428-432.
Wang Z, Yang J, Jin H, et al. Deepfont: Identify your font from an image[C]//Proceedings of the 23rd ACM international conference on Multimedia. ACM, 2015: 451-459.
Gomez L, Karatzas D. Object proposals for text extraction in the wild[C]//Document Analysis and Recognition (ICDAR), 2015 13th International Conference on. IEEE, 2015: 206-210.[code]
Shi B, Yao C, Zhang C, et al. Automatic script identification in the wild[C]//Document Analysis and Recognition (ICDAR), 2015 13th International Conference on. IEEE, 2015: 531-535.
Busta M, Neumann L, Matas J. Fastext: Efficient unconstrained scene text detector[C]//Proceedings of the IEEE International Conference on Computer Vision. 2015: 1206-1214.[code]
Zhang Z, Shen W, Yao C, et al. Symmetry-based text line detection in natural scenes[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015: 2558-2567.

code:[code]
Ray A, Rajeswar S, Chaudhury S. A hypothesize-and-verify framework for text recognition using deep recurrent neural networks[C]//Document Analysis and Recognition (ICDAR), 2015 13th International Conference on. IEEE, 2015: 936-940.
Neumann L, Matas J. Efficient scene text localization and recognition with local character refinement[C]//Document Analysis and Recognition (ICDAR), 2015 13th International Conference on. IEEE, 2015: 746-750.
Visin F, Kastner K, Cho K, et al. Renet: A recurrent neural network based alternative to convolutional networks[J]. arXiv preprint arXiv:1505.00393, 2015.
Zhong Z, Jin L, Xie Z. High performance offline handwritten chinese character recognition using googlenet and directional feature maps[C]//Document Analysis and Recognition (ICDAR), 2015 13th International Conference on. IEEE, 2015: 846-850.

code:[code]
【CRNN】Shi B, Bai X, Yao C. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(11): 2298-2304.

code:【1 - offical】; 【2 - crnn.pytorch】; 【3 - unfinished】; 【4 - crnn.pytorch-chinese】; 【5 - crnn+stn-tf】; 【6 - lstm+ctc】; 【7 - ctpn+crnn-merge-cannot-train】; 【8 - crnn-mnist-keras】; 【9 - crnn-tf】; 【10 - crnn-tf-could-be-better】; 【11 - crnn.mxnet】; 【12 - crnn-tf-estimators】; 【13 - crnn-attention-tf】; 【14 - crnn.caffe】; 【15 - chinese.ocr-ctpn+crnn-tf+pytorch】; 【16 - another.crnn-attentive pooling】; 【17 - crnn-tf-music】; 【18 - crnn-tf-developing】; 【19 - crnn-torch】; 【20 - crnn-tf-developing】; 【21 - chinese-ocr-keras】; 【22 - crnn-tf-developing】; 【23 - ctpn+crnn-cannot-train-7】; 【24 - crnn-pytorch】; 【25 - cnn+lstm+ctc-tf】; 【26 - crnn-tf-resnet]】;【27 - caffe_ocr】
He T, Huang W, Qiao Y, et al. Text-attentional convolutional neural network for scene text detection[J]. IEEE transactions on image processing, 2016, 25(6): 2529-2541.
Sahu D K, Sukhwani M. Sequence to sequence learning for optical character recognition[J]. arXiv preprint arXiv:1511.04176, 2015.
Hosseini-Asl E, Guha A. Similarity-based Text Recognition by Deeply Supervised Siamese Network[J]. arXiv preprint arXiv:1511.04397, 2015.
Wang D H, Wang H, Zhang D, et al. Robust Scene Text Recognition Using Sparse Coding based Features[J]. arXiv preprint arXiv:1512.08669, 2015.

2016

Yin X C, Zuo Z Y, Tian S, et al. Text detection, tracking and recognition in video: a comprehensive survey[J]. IEEE Transactions on Image Processing, 2016, 25(6): 2752-2773.
Zhu Y, Yao C, Bai X. Scene text detection and recognition: Recent advances and future trends[J]. Frontiers of Computer Science, 2016, 10(1): 19-36.
He P, Huang W, Qiao Y, et al. Reading Scene Text in Deep Convolutional Sequences[C]//AAAI. 2016: 3501-3508.

code:[code]
Lee C Y, Osindero S. Recursive recurrent nets with attention modeling for OCR in the wild[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 2231-2239.
【Synthetic data】Gupta A, Vedaldi A, Zisserman A. Synthetic data for text localisation in natural images[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 2315-2324.

code:[offical;vgg;other]
Sivakorn S, Polakis J, Keromytis A D. I’m not a human: Breaking the Google reCAPTCHA[J]. Black Hat,(i), 2016: 1-12.
Sivakorn S, Polakis I, Keromytis A D. I am robot:(deep) learning to break semantic image captchas[C]//Security and Privacy (EuroS&P), 2016 IEEE European Symposium on. IEEE, 2016: 388-403.
Lee C Y, Osindero S. Recursive recurrent nets with attention modeling for OCR in the wild[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 2231-2239.
Neumann L, Matas J. Real-time lexicon-free scene text localization and recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2016, 38(9): 1872-1885.
Zhang Z, Zhang C, Shen W, et al. Multi-oriented text detection with fully convolutional networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 4159-4167.
Fabrizio J, Robert-Seidowsky M, Dubuisson S, et al. TextCatcher: a method to detect curved and challenging text in natural scenes[J]. International Journal on Document Analysis and Recognition (IJDAR), 2016, 19(2): 99-117.
Cho H, Sung M, Jun B. Canny text detector: Fast and robust scene text localization algorithm[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 3566-3573.
Qiang G, Dan T, Guohui L, et al. Memory Matters: Convolutional Recurrent Neural Network for Scene Text Recognition[J]. arXiv preprint arXiv:1601.01100, 2016.
Mishra A, Alahari K, Jawahar C V. Enhancing energy minimization framework for scene text recognition with top-down cues[J]. Computer Vision and Image Understanding, 2016, 145: 30-42.
Li H, Shen C. Reading car license plates using deep convolutional neural networks and lstms[J]. arXiv preprint arXiv:1601.05610, 2016.
Veit A, Matera T, Neumann L, et al. Coco-text: Dataset and benchmark for text detection and recognition in natural images[J]. arXiv preprint arXiv:1601.07140, 2016.
Huang W. Context modeling for semantic text matching and scene text detection[M]. The Pennsylvania State University, 2016.
Tian S, Pei W Y, Zuo Z Y, et al. Scene Text Detection in Video by Learning Locally and Globally[C]//IJCAI. 2016: 2647-2653.
Shi B, Wang X, Lyu P, et al. Robust scene text recognition with automatic rectification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 4168-4176.
Shuye Zhang, Mude Lin, Tianshui Chen, Lianwen Jin, Liang Lin. Character Proposal Network for Robust Text Extraction. arXiv preprint arXiv:1602.04348, 2016.
Lluis Gomez, Dimosthenis Karatzas. A fine-grained approach to scene text script identification. arXiv preprint arXiv:1602.07475, 2016.
Lluis Gomez, Anguelos Nicolaou, Dimosthenis Karatzas. Improving patch-based scene text script identification with ensembles of conjoined networks. arXiv preprint arXiv:1602.07480, 2016.
He T, Huang W, Qiao Y, et al. Accurate text localization in natural image with cascaded convolutional text network[J]. arXiv preprint arXiv:1603.09423, 2016.
Hafemann L G, Sabourin R, Oliveira L S. Writer-independent feature learning for offline signature verification using deep convolutional neural networks[C]//Neural Networks (IJCNN), 2016 International Joint Conference on. IEEE, 2016: 2576-2583.
Ren X, Chen K, Sun J. A CNN Based Scene Chinese Text Recognition Algorithm With Synthetic Data Engine[J]. arXiv preprint arXiv:1604.01891, 2016.
Xiaohang Ren, Kai Chen, Jun Sun. A Novel Scene Text Detection Algorithm Based On Convolutional Neural Network. arXiv preprint arXiv:1604.01894, 2016.
Gómez L, Karatzas D. Textproposals: a text-specific selective search algorithm for word spotting in the wild[J]. Pattern Recognition, 2017, 70: 60-74.[code]
Bluche T, Louradour J, Messina R. Scan, attend and read: End-to-end handwritten paragraph recognition with mdlstm attention[J]. arXiv preprint arXiv:1604.03286, 2016.
Zheng Zhang, Chengquan Zhang, Wei Shen, Cong Yao, Wenyu Liu, Xiang Bai. Multi-Oriented Text Detection with Fully Convolutional Networks. arXiv preprint arXiv:1604.04018, 2016.
Xie Z, Sun Z, Jin L, et al. Fully convolutional recurrent network for handwritten Chinese text recognition[C]//Pattern Recognition (ICPR), 2016 23rd International Conference on. IEEE, 2016: 4011-4016.
Shangxuan Tian, Yifeng Pan, Chang Huang, Shijian Lu, Kai Yu, Chew Lim Tan. Text Flow: A Unified Text Detection System in Natural Scene Images. arXiv preprint arXiv:1604.06877, 2016.
Zhong Z, Jin L, Zhang S, et al. Deeptext: A unified framework for text proposal generation and text detection in natural images[J]. arXiv preprint arXiv:1605.07314, 2016.
Zhang X Y, Yin F, Zhang Y M, et al. Drawing and recognizing chinese characters with recurrent neural network[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017.
Yao C, Bai X, Sang N, et al. Scene text detection via holistic, multi-channel prediction[J]. arXiv preprint arXiv:1606.09002, 2016.
Hassanien A M A. Sequence to sequence learning for unconstrained scene text recognition[J]. arXiv preprint arXiv:1607.06125, 2016.
Nitigya Sambyal, Pawanesh Abrol. Automatic text extraction and character segmentation using maximally stable extremal regions. arXiv preprint arXiv:1608.03374, 2016.
【Synthetic data】 Krishnan P, Jawahar C V. Generating Synthetic Data for Text Recognition[J]. arXiv preprint arXiv:1608.04224, 2016.
【CTPN】Tian Z, Huang W, He T, et al. Detecting text in natural image with connectionist text proposal network[C]//European Conference on Computer Vision. Springer International Publishing, 2016: 56-72.

code:[code;cuda8-caffe;offical;ocr_detection_ctpn;keras_ocr]

dataset:[ICDAR 2011; ICDAR 2013; ICDAR 2015; SWT; Multilingual dataset]
Xie Z, Sun Z, Jin L, et al. Learning spatial-semantic context with fully convolutional recurrent network for online handwritten chinese text recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2017.
Hu B, Liu X, Wu X, et al. Stroke Sequence-Dependent Deep Convolutional Neural Network for Online Handwritten Chinese Character Recognition[J]. arXiv preprint arXiv:1610.04057, 2016.
Ahmed Ibrahim, A. Lynn Abbott, Mohamed E. Hussein. An Image Dataset of Text Patches in Everyday Scenes. arXiv preprint arXiv:1610.06494, 2016.
Lou X, Kansky K, Lehrach W, et al. Generative Shape Models: Joint Text Recognition and Segmentation with Very Little Training Data[C]//Advances in Neural Information Processing Systems. 2016: 2793-2801.
Xu Y, Shan S, Qiu Z, et al. End-to-End Subtitle Detection and Recognition for Videos in East Asian Languages via CNN Ensemble with Near-Human-Level Performance[J]. arXiv preprint arXiv:1611.06159, 2016.
Chengzhe Yan, Jie Hu, Changshui Zhang. A DNN Framework For Text Image Rectification From Planar Transformations. arXiv preprint arXiv:1611.04298, 2016.
Minghui Liao, Baoguang Shi, Xiang Bai, Xinggang Wang, Wenyu Liu. TextBoxes: A Fast Text Detector with a Single Deep Neural Network. arXiv preprint arXiv:1611.06779, 2016.
Jie Mei, Aminul Islam, Yajing Wu, Abidalrahman Moh’d, Evangelos E. Milios. Statistical Learning for OCR Text Correction. arXiv preprint arXiv:1611.06950, 2016.
Yang X, He D, Huang W, et al. Smart Library: Identifying Books in a Library using Richly Supervised Deep Scene Text Reading[J]. arXiv preprint arXiv:1611.07385, 2016.
Junnan Yu, Xuna Ma, Ting Han. Usability Investigation on the Localization of Text CAPTCHAs: Take Chinese Characters as a Case Study. arXiv preprint arXiv:1612.01070, 2016.
Singh Vijendra, Nisha Vasudeva, Hem Jyotsana Parashar. Recognition of Text Image Using Multilayer Perceptron. arXiv preprint arXiv:1612.00625, 2016.
Zichuan Liu, Yixing Li, Fengbo Ren, Hao Yu. A Binary Convolutional Encoder-decoder Network for Real-time Natural Scene Text Processing. arXiv preprint arXiv:1612.03630, 2016.

2017

Kil T, Seo W, Koo H I, et al. Robust Document Image Dewarping Method Using Text-Lines and Line Segments[C]//2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR). IEEE, 2017, 1: 865-870.
[code:xellows1305/Document-Image-Dewarping]
Raj D, SAHU S, Anand A. Learning local and global contexts using a convolutional recurrent network model for relation classification in biomedical text[C]//Proceedings of the 21st Conference on Computational Natural Language Learning (CoNLL 2017). 2017: 311-321.

code:[code]
Florian Fink, Klaus-U. Schulz, Uwe Springmann. Profiling of OCR’ed Historical Texts Revisited. arXiv preprint arXiv:1701.05377, 2017.
Cheang T K, Chong Y S, Tay Y H. Segmentation-free Vehicle License Plate Recognition using ConvNet-RNN[J]. arXiv preprint arXiv:1701.06439, 2017.
Shahin A A. Printed Arabic Text Recognition using Linear and Nonlinear Regression[J]. arXiv preprint arXiv:1702.01444, 2017.
Smith R, Gu C, Lee D S, et al. End-to-end interpretation of the french street name signs dataset[C]//European Conference on Computer Vision. Springer International Publishing, 2016: 411-426.

code:[code]
Bazazian D, Gomez R, Nicolaou A, et al. Improving Text Proposals for Scene Images with Fully Convolutional Networks[J]. arXiv preprint arXiv:1702.05089, 2017.
【synthetic Captcha】Le T A, Baydin A G, Zinkov R, et al. Using Synthetic Data to Train Neural Networks is Model-Based Reasoning[J]. arXiv preprint arXiv:1703.00868, 2017.
Jianqi Ma, Weiyuan Shao, Hao Ye, Li Wang, Hong Wang, Yingbin Zheng, Xiangyang Xue. Arbitrary-Oriented Scene Text Detection via Rotation Proposals. arXiv preprint arXiv:1703.01086, 2017.
Liu Y, Jin L. Deep matching prior network: Toward tighter multi-oriented text detection[J]. arXiv preprint arXiv:1703.01425, 2017.
Shi B, Bai X, Belongie S. Detecting Oriented Text in Natural Images by Linking Segments[J]. arXiv preprint arXiv:1703.06520, 2017.

code:[code]
Masood S Z, Shu G, Dehghan A, et al. License Plate Detection and Recognition Using Deeply Learned Convolutional Neural Networks[J]. arXiv preprint arXiv:1703.07330, 2017.
Liao M, Shi B, Bai X, et al. TextBoxes: A Fast Text Detector with a Single Deep Neural Network[C]//AAAI. 2017: 4161-4167.

code:[code;code]
He W, Zhang X Y, Yin F, et al. Deep Direct Regression for Multi-Oriented Scene Text Detection[J]. arXiv preprint arXiv:1703.08289, 2017.
Ma J, Shao W, Ye H, et al. Arbitrary-Oriented Scene Text Detection via Rotation Proposals[J]. arXiv preprint arXiv:1703.01086, 2017.
Qin S, Manduchi R. Cascaded Segmentation-Detection Networks for Word-Level Text Spotting[J]. arXiv preprint arXiv:1704.00834, 2017.
Zhou X, Yao C, Wen H, et al. EAST: An Efficient and Accurate Scene Text Detector[J]. arXiv preprint arXiv:1704.03155, 2017.

code:[code]
Wojna Z, Gorban A, Lee D S, et al. Attention-based Extraction of Structured Information from Street View Imagery[J]. arXiv preprint arXiv:1704.03549, 2017.
:
code:[offical;similar]
Moysset B, Kermorvant C, Wolf C. Full-Page Text Recognition: Learning Where to Start and When to Stop[J]. arXiv preprint arXiv:1704.08628, 2017.
Nakamura T, Zhu A, Yanai K, et al. Scene Text Eraser[J]. arXiv preprint arXiv:1705.02772, 2017.
Xiao X, Yang Y, Ahmad T, et al. Design of a Very Compact CNN Classifier for Online Handwritten Chinese Character Recognition Using DropWeight and Global Pooling[J]. arXiv preprint arXiv:1705.05207, 2017.
Polzounov A, Ablavatski A, Escalera S, et al. WordFence: Text Detection in Natural Images with Border Awareness[J]. arXiv preprint arXiv:1705.05483, 2017.
Ghosh S K, Valveny E, Bagdanov A D. Visual attention models for scene text recognition[J]. arXiv preprint arXiv:1706.01487, 2017.
Lyu P, Bai X, Yao C, et al. Auto-Encoder Guided GAN for Chinese Calligraphy Synthesis[J]. arXiv preprint arXiv:1706.04041, 2017.
Shervin Minaee, Yao Wang. Text Extraction From Texture Images Using Masked Signal Decomposition. arXiv preprint arXiv:1706.08789, 2017.
Jiang Y, Zhu X, Wang X, et al. R2CNN: Rotational Region CNN for Orientation Robust Scene Text Detection[J]. arXiv preprint arXiv:1706.09579, 2017.
Ghosh S, Valveny E. R-PHOC: Segmentation-Free Word Spotting using CNN[J]. arXiv preprint arXiv:1707.01294, 2017.
Wang X, You M, Shen C. Adversarial generation of training examples for vehicle license plate recognition[J]. arXiv preprint arXiv:1707.03124, 2017.
Li H, Wang P, Shen C. Towards End-to-end Text Spotting with Convolutional Recurrent Neural Networks[J]. arXiv preprint arXiv:1707.03985, 2017.
Aneeshan Sain, Ayan Kumar Bhunia, Partha Pratim Roy, Umapada Pal. Multi-Oriented Text Detection and Verification in Video Frames and Scene Images. arXiv preprint arXiv:1707.07150, 2017.
Bhunia A K, Kumar G, Roy P P, et al. Text recognition in scene image and video frame using Color Channel selection[J]. Multimedia Tools and Applications, 2017: 1-28.
Partha Pratim Roy, Ayan Kumar Bhunia, Umapada Pal. Date-Field Retrieval in Scene Image and Video Frames using Text Enhancement and Shape Coding. arXiv preprint arXiv:1707.06833, 2017.
Bartz C, Yang H, Meinel C. STN-OCR: A single Neural Network for Text Detection and Text Recognition[J]. arXiv preprint arXiv:1707.08831, 2017.

code:[code]
Jiang F, Hao Z, Liu X. Deep Scene Text Detection with Connected Component Proposals[J]. arXiv preprint arXiv:1708.05133, 2017.
Amarnath R, P. Nagabhushan. Spotting Separator Points at Line Terminals in Compressed Document Images for Text-line Segmentation. arXiv preprint arXiv:1708.05545, 2017.
P. Shivakumara, D. S. Guru, H.T. Basavaraju. Color and Gradient Features for Text Segmentation from Video Frames. arXiv preprint arXiv:1708.06561, 2017.
Hu H, Zhang C, Luo Y, et al. Wordsup: Exploiting word annotations for character based text detection[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017.
He P, Huang W, He T, et al. Single shot text detector with regional attention[C]//The IEEE International Conference on Computer Vision (ICCV). 2017.

code:[code;code]
Yin F, Wu Y C, Zhang X Y, et al. Scene Text Recognition with Sliding Convolutional Character Models[J]. arXiv preprint arXiv:1709.01727, 2017.
Ekta Vats, Anders Hast. On-the-fly Historical Handwritten Text Annotation. arXiv preprint arXiv:1709.01775, 2017.
Cheng Z, Bai F, Xu Y, et al. Focusing Attention: Towards Accurate Text Recognition in Natural Images[C]//2017 IEEE International Conference on Computer Vision (ICCV). IEEE, 2017: 5086-5094.
Dai Y, Huang Z, Gao Y, et al. Fused Text Segmentation Networks for Multi-oriented Scene Text Detection[J]. arXiv preprint arXiv:1709.03272, 2017.
Teresa Nicole Brooks. Exploring Geometric Property Thresholds For Filtering Non-Text Regions In A Connected Component Based Text Detection Application. arXiv preprint arXiv:1709.03548, 2017.
Yunze Gao, Yingying Chen, Jinqiao Wang, Hanqing Lu .Reading Scene Text with Attention Convolutional Sequence Modeling. arXiv preprint arXiv:1709.04303, 2017.
Li H, Wang P, Shen C. Towards End-to-End Car License Plates Detection and Recognition with Deep Neural Networks[J]. arXiv preprint arXiv:1709.08828, 2017.
Kazem Qazanfari, Saeed Shiri. Real time text localization for Indoor Mobile Robot Navigation. arXiv preprint arXiv:1709.09634, 2017.
Zhan H, Wang Q, Lu Y. Handwritten digit string recognition by combination of residual network and RNN-CTC[C]//International Conference on Neural Information Processing. Springer, Cham, 2017: 583-591.
Yang C, Yin X C, Li Z, et al. AdaDNNs: Adaptive Ensemble of Deep Neural Networks for Scene Text Recognition[J]. arXiv preprint arXiv:1710.03425, 2017.
Tian S, Lu S, Li C. WeText: Scene Text Detection under Weak Supervision[J]. arXiv preprint arXiv:1710.04826, 2017.
Kheng Chng C, Chan C S. Total-Text: A Comprehensive Dataset for Scene Text Detection and Recognition[J]. arXiv preprint arXiv:1710.10400, 2017.
Jain M, Mathew M, Jawahar C V. Unconstrained scene text and video text recognition for Arabic script[C]//Arabic Script Analysis and Recognition (ASAR), 2017 1st International Workshop on. IEEE, 2017: 26-30.
Ren H, Wang W. A New Hybrid-parameter Recurrent Neural Networks for Online Handwritten Chinese Character Recognition[J]. arXiv preprint arXiv:1711.02809, 2017.
Zhu X, Jiang Y, Yang S, et al. Deep Residual Text Detection Network for Scene Text[J]. arXiv preprint arXiv:1711.04147, 2017.
Cheng Z, Liu X, Bai F, et al. Arbitrarily-Oriented Text Recognition[J]. arXiv preprint arXiv:1711.04226, 2017.
Zhang S, Liu Y, Jin L, et al. Feature Enhancement Network: A Refined Scene Text Detector[J]. arXiv preprint arXiv:1711.04249, 2017.
Xing D, Li Z, Chen X, et al. ArbiText: Arbitrary-Oriented Text Detection in Unconstrained Scene[J]. arXiv preprint arXiv:1711.11249, 2017.
Yuliang L, Lianwen J, Shuaitao Z, et al. Detecting Curve Text in the Wild: New Dataset and New Solution[J]. arXiv preprint arXiv:1712.02170, 2017.

code:[code]
Jason Poulos, Rafael Valle. Attention networks for image-to-text. arXiv preprint arXiv:1712.04046, 2017.
Aarushi Agrawal, Prerana Mukherjee, Siddharth Srivastava, Brejesh Lall. Enhanced Characterness for Text Detection in the Wild. arXiv preprint arXiv:1712.04927, 2017.
Bartz C, Yang H, Meinel C. SEE: Towards Semi-Supervised End-to-End Scene Text Recognition[J]. arXiv preprint arXiv:1712.05404, 2017.
Kang C, Kim G, Yoo S I. Detection and Recognition of Text Embedded in Online Images via Neural Context Models[C]//AAAI. 2017: 4103-4110.

code:[code]
Busta M, Neumann L, Matas J. Deep TextSpotter: An End-to-End Trainable Scene Text Localization and Recognition Framework[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 2204-2212.[code]
Wu Y, Natarajan P. Self-organized Text Detection with Minimal Post-processing via Border Learning[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 5000-5009.
Rong X, Yi C, Tian Y. Unambiguous text localization and retrieval for cluttered scenes[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017: 3279-3287.

2018

Deng D, Liu H, Li X, et al. PixelLink: Detecting Scene Text via Instance Segmentation[J]. arXiv preprint arXiv:1801.01315, 2018.
Agnese Chiatti, Mu Jung Cho, Anupriya Gagneja, Xiao Yang, Miriam Brinberg, Katie Roehrick, Sagnik Ray Choudhury, Nilam Ram, Byron Reeves, C. Lee Giles. Text Extraction and Retrieval from Smartphone Screenshots: Building a Repository for Life in Media. arXiv preprint arXiv:1801.01316, 2018.
Liu X, Liang D, Yan S, et al. FOTS: Fast Oriented Text Spotting with a Unified Network[J]. arXiv preprint arXiv:1801.01671, 2018.
Liao M, Shi B, Bai X. TextBoxes++: A Single-Shot Oriented Scene Text Detector[J]. arXiv preprint arXiv:1801.02765, 2018.
Anders Hast, Per Cullhed, Ekta Vats. TexT - Text Extractor Tool for Handwritten Document Transcription and Annotation. arXiv preprint arXiv:1801.05367, 2018.
Yash Patel, Michal Bušta, Jiri Matas. E2E-MLT - an Unconstrained End-to-End Method for Multi-Language Scene Text. arXiv preprint arXiv:1801.09919, 2018.
Yixing Zhu, Jun Du. Sliding Line Point Regression for Shape Robust Scene Text Detection. arXiv preprint arXiv:1801.09969, 2018.
Tobias Grüning, Gundram Leifert, Tobias Strauß, Roger Labahn. A Two-Stage Method for Text Line Detection in Historical Documents. arXiv preprint arXiv:1802.03345, 2018.
Congzheng Song, Vitaly Shmatikov. Fooling OCR Systems with Adversarial Text Images. arXiv preprint arXiv:1802.05385, 2018.
Pengyuan Lyu, Cong Yao, Wenhao Wu, Shuicheng Yan, Xiang Bai. Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation. arXiv preprint arXiv:1802.08948, 2018.
Tai-Ling Yuan, Zhe Zhu, Kun Xu, Cheng-Jun Li, Shi-Min Hu. Chinese Text in the Wild. arXiv preprint arXiv:1803.00085, 2018.
Liao M, Zhu Z, Shi B, et al. Rotation-Sensitive Regression for Oriented Scene Text Detection. [C]arXiv preprint arXiv:1803.05265, 2018.
Carbonell M, Villegas M, Fornés A, et al. Joint Recognition of Handwritten Text and Named Entities with a Neural End-to-end Model[J]. arXiv preprint arXiv:1803.06252, 2018.
Goswami T, Barad Z, Desai P, et al. Text Detection and Recognition in images: A survey[J]. arXiv preprint arXiv:1803.07278, 2018.
José Carlos Aradillas, Juan José Murillo-Fuentes, Pablo M. Olmos. Boosting Handwriting Text Recognition in Small Databases with Transfer Learning[J]. arXiv preprint arXiv: 1803.01527, 2018.
Linjie Deng, Yanxiang Gong, Yi Lin, Jingwen Shuai, Xiaoguang Tu, Yufei Zhang, Zheng Ma, Mei Xie. Detecting Multi-Oriented Text with Corner-based Region Proposals[J]. arXiv preprint arXiv:1804.02690, 2018.
Partha Pratim Roy, Akash Mohta, Bidyut B. Chaudhuri. Synthetic data generation for Indic handwritten text recognition[J]. arXiv preprint arXiv:1804.06254, 2018.
Dafang He, Yeqing Li, Alexander Gorban, Derrall Heath, Julian Ibarz, Qian Yu, Daniel Kifer, C. Lee Giles. Guided Attention for Large Scale Scene Text Verification[J]. arXiv preprint arXiv:1804.08588, 2018.
Zhuoyao Zhong, Lei Sun, Qiang Huo. An Anchor-Free Region Proposal Network for Faster R-CNN based Text Detection Approaches[J]. arXiv preprint arXiv:1804.09003, 2018.
【alibaba】Qiangpeng Yang, Mengli Cheng, Wenmeng Zhou, Yan Chen, Minghui Qiu, Wei Lin, Wei Chu. IncepText: A New Inception-Text Module with Deformable PSROI Pooling for Multi-Oriented Scene Text Detection[J]. arXiv preprint arXiv:1805.01167, 2018.
Francisco Cruz, Oriol Ramos Terrades. A probabilistic framework for handwritten text line segmentation[J]. arXiv preprint arXiv:1805.02536, 2018.
Fan Bai, Zhanzhan Cheng, Yi Niu, Shiliang Pu, Shuigeng Zhou. Edit Probability for Scene Text Recognition[J]. arXiv preprint arXiv:1805.03384, 2018.
Xiaoyu Yue, Zhanghui Kuang, Zhaoyang Zhang, Zhenfang Chen, Pan He, Yu Qiao, Wei Zhang. Boosting up Scene Text Detectors with Guided CNN[J]. arXiv preprint arXiv:1805.04132, 2018.
Zichuan Liu, Guosheng Lin, Sheng Yang, Jiashi Feng, Weisi Lin, Wang Ling Goh. Learning Markov Clustering Networks for Scene Text Detection[J]. arXiv preprint arXiv:1805.08365, 2018.
Yi-Chao Wu, Fei Yin, Xu-Yao Zhang, Li Liu, Cheng-Lin Liu. SCAN: Sliding Convolutional Attention Network for Scene Text Recognition[J]. arXiv preprint arXiv:1806.00578, 2018.
Fenfen Sheng, Zhineng Chen, Bo Xu. NRTR: A No-Recurrence Sequence-to-Sequence Model For Scene Text Recognition[J]. arXiv preprint arXiv:1806.00926, 2018.
Xiang Li, Wenhai Wang, Wenbo Hou, Ruo-Ze Liu, Tong Lu, Jian Yang. Shape Robust Text Detection with Progressive Scale Expansion Network[J]. arXiv preprint arXiv:1806.02559, 2018.
Sauradip Nag, Pallab Kumar Ganguly, Sumit Roy, Sourab Jha, Krishna Bose, Abhishek Jha, Kousik Dasgupta. Offline Extraction of Indic Regional Language from Natural Scene Image using Text Segmentation and Deep Convolutional Sequence[J]. arXiv preprint arXiv:1806.06208, 2018.
Arka Ujjal dey, Suman K. Ghosh, Ernest Valveny. Don’t only Feel Read: Using Scene text to understand advertisements[J]. arXiv preprint arXiv:1806.08279, 2018.
Shangbang Long, Jiaqiang Ruan, Wenjie Zhang, Xin He, Wenhao Wu, Cong Yao. TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes[J]. arXiv preprint arXiv:1807.01544, 2018.
Qi Yuan, Bingwang Zhang, Haojie Li, Zhihui Wang, Zhongxuan Luo. A Single Shot Text Detector with Scale-adaptive Anchors[J]. arXiv preprint arXiv:1807.01884, 2018.
Pengyuan Lyu, Minghui Liao, Cong Yao, Wenhao Wu, Xiang Bai. Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes[J]. arXiv preprint arXiv:1807.02242, 2018.
Fangneng Zhan, Shijian Lu, Chuhui Xue. Verisimilar Image Synthesis for Accurate Detection and Recognition of Texts in Scenes[J]. arXiv preprint arXiv:1807.03021, 2018.
Xiaoyong Yuan, Pan He, Xiaolin Andy Li. Adaptive Adversarial Attack on Scene Text Recognition[J]. arXiv preprint arXiv:1807.03326, 2018.
Chuhui Xue, Shijian Lu, Fangneng Zhan. Accurate Scene Text Detection through Border Semantics Awareness and Bootstrapping[J]. arXiv preprint arXiv:1807.03547, 2018.
Arindam Chowdhury, Lovekesh Vig. An Efficient End-to-End Neural Model for Handwritten Text Recognition[J]. arXiv preprint arXiv:1807.07965, 2018.
Yuting Gao, Zheng Huang, Yuchen Dai. Double Supervised Network with Attention Mechanism for Scene Text Recognition[J]. arXiv preprint arXiv:1808.00677, 2018.
Wenchao Wang, Jun Du, Zi-Rui Wang. Parsimonious HMMs for Offline Handwritten Chinese Text Recognition[J]. arXiv preprint arXiv:1808.04138, 2018.
Lluís Gómez, Andrés Mafla, Marçal Rusiñol, DimosthenisKaratzas. Single Shot Scene Text Retrieval[J]. arXiv preprint arXiv:1808.09044, 2018.
Dafang He, Xiao Yang, Daniel Kifer, C.Lee Giles .TextContourNet: a Flexible and Effective Framework for Improving Scene Text Detection Architecture with a Multi-task Cascade .[J] arXiv preprint arXiv:1809.03050.
Minghui Liao, Jian Zhang, Zhaoyi Wan, Fengming Xie, Jiajun Liang, Pengyuan Lyu, Cong Yao, Xiang Bai .Scene Text Recognition from Two-Dimensional Perspective .[J] arXiv preprint arXiv:1809.06508.
Mayank Gupta, Abhinav Kumar, Sriganesh Madhvanath .Parametric Synthesis of Text on Stylized Backgrounds using PGGANs .[J] arXiv preprint arXiv:1809.08488.
Saad Bin Ahmed, Saeeda Naz, Muhammad Imran Razzak, Rubiyah Yusof .Cursive Scene Text Analysis by Deep Convolutional Linear Pyramids .[J] arXiv preprint arXiv:1809.10792.
Zichuan Liu, Guosheng Lin, Wang Ling Goh, Fayao Liu, Chunhua Shen, Xiaokang Yang .Correlation Propagation Networks for Scene Text Detection .[J] arXiv preprint arXiv:1810.00304.
Ahmed Sabir, Francesc Moreno-Noguer, Lluís Padró .Visual Semantic Re-ranker for Text Spotting .[J] arXiv preprint arXiv:1810.09776.
Ahmed Sabir, Francesc Moreno-Noguer, Lluís Padró .Visual Re-ranking with Natural Language Understanding for Text Spotting .[J] arXiv preprint arXiv:1810.12738.
Hui Li, Peng Wang, Chunhua Shen, Guyu Zhang .Show, Attend and Read: A Simple and Strong Baseline for Irregular Text Recognition .[J] arXiv preprint arXiv:1811.00751.
Shangbang Long, Xin He, Cong Ya .Scene Text Detection and Recognition: The Deep Learning Era .[J] arXiv preprint arXiv:1811.04256.
Jing Huang, Viswanath Sivakumar, Mher Mnatsakanyan, Guan Pang .Improving Rotated Text Detection with Rotation Region Proposal Networks .[J] arXiv preprint arXiv:1811.07031.
Yuan Li, Yuanjie Yu, Zefeng Li, Yangkun Lin, Meifang Xu, Jiwei Li, Xi Zhou .Pixel-Anchor: A Fast Oriented Scene Text Detector with Combined Networks .[J] arXiv preprint arXiv:1811.07432.
Wanchen Sui, Qing Zhang, Jun Yang, Wei Chu .A Novel Integrated Framework for Learning both Text Detection and Recognition .[J] arXiv preprint arXiv:1811.08611.
Zhida Huang, Zhuoyao Zhong, Lei Sun, Qiang Huo .Mask R-CNN with Pyramid Attention Network for Scene Text Detection .[J] arXiv preprint arXiv:1811.09058.
Dinh NguyenVan, Shijian Lu, Shangxuan Tian, Nizar Ouarti, Mounir Mokhtari .A pooling based scene text proposal technique for scene text reading in the wild .[J] arXiv preprint arXiv:1811.10003.
Hanh T. M. Tran, Tien Ho-Phuoc .Deep Laplacian Pyramid Network for Text Images Super-Resolution .[J] arXiv preprint arXiv:1811.10449.
Yixing Zhu, Jun Du .TextMountain: Accurate Scene Text Detection via Instance Segmentation .[J] arXiv preprint arXiv:1811.12786.
Shuaitao Zhang, Yuliang Liu, Lianwen Jin, Yaoxiong Huang, Songxuan Lai .EnsNet: Ensconce Text in the Wild .[J] arXiv preprint arXiv:1812.00723.
Yongchao Xu, Yukang Wang, Wei Zhou, Yongpan Wang, Zhibo Yang, Xiang Bai .TextField: Learning A Deep Direction Field for Irregular Scene Text Detection .[J] arXiv preprint arXiv:1812.01393.
Najoua Rahal, Maroua Tounsi, Adel M. Alimi .Auto-Encoder-BoF/HMM System for Arabic Text Recognition .[J] arXiv preprint arXiv:1812.03680.
【Dataset】Masakazu Iwamura .Advances of Scene Text Datasets .[J] arXiv preprint arXiv:1812.05219.
Fangneng Zhan, Shijian Lu .ESIR: End-to-end Scene Text Recognition via Iterative Image Rectification .[J] arXiv preprint arXiv:1812.05824.
Shuai Yang, Jiaying Liu, Wenjing Wang, Zongming Guo .TET-GAN: Text Effects Transfer via Stylization and Destylization .[J] arXiv preprint arXiv:1812.06384.
Chankyu Choi, Youngmin Yoon, Junsu Lee, Junseok Kim .Simultaneous Recognition of Horizontal and Vertical Text in Natural Images .[J] arXiv preprint arXiv:1812.07059.
Yunze Gao, Yingying Chen, Jinqiao Wang, Zhen Lei, Xiao-Yu Zhang, Hanqing Lu .Recurrent Calibration Network for Irregular Text Recognition .[J] arXiv preprint arXiv:1812.07145.
Zi-Rui Wang, Jun Du, Jia-Ming Wang .Writer-Aware CNN for Parsimonious HMM-Based Offline Handwritten Chinese Text Recognition .[J] arXiv preprint arXiv:1812.09809.
Yipeng Sun, Chengquan Zhang, Zuming Huang, Jiaming Liu, Junyu Han, Errui Ding .TextNet: Irregular Text Reading from Images with an End-to-End Trainable Network .[J] arXiv preprint arXiv:1812.09900.
Mohamed Yousef, Khaled F. Hussain, Usama S. Mohammed .Accurate, Data-Efficient, Unconstrained Text Recognition with Convolutional Neural Networks .[J] arXiv preprint arXiv:1812.11894.

2019

Jiaming Liu, Chengquan Zhang, Yipeng Sun, Junyu Han, Errui Ding .Detecting Text in the Wild with Deep Character Embedding Network .[J] arXiv preprint arXiv:1901.00363.
Chuhui Xue, Shijian Lu, Wei Zhang .MSR: Multi-Scale Shape Regression for Scene Text Detection .[J] arXiv preprint arXiv:1901.02596.
【MORAN】Canjie Luo, Lianwen Jin, Zenghui Sun .A Multi-Object Rectified Attention Network for Scene Text Recognition .[J] arXiv preprint arXiv:1901.03003.
[code: Canjie-Luo/MORAN_v2]
Wei Liu, Chaofeng Chen, Kwan-Yee K. Wong .SAFE: Scale Aware Feature Encoder for Scene Text Recognition .[J] arXiv preprint arXiv:1901.05770.
Yanxiang Gong, Linjie Deng, Zheng Ma, Mei Xie .Generating Text Sequence Images for Recognition .[J] arXiv preprint arXiv:1901.06782.
Fangneng Zhan, Hongyuan Zhu, Shijian Lu .Scene Text Synthesis for Efficient and Effective Deep Network Training .[J] arXiv preprint arXiv:1901.09193.
Amarnath R, P Nagabhushan .Text line Segmentation in Compressed Representation of Handwritten Document using Tunneling Algorithm .[J] arXiv preprint arXiv:1901.11477.
Eloi Alonso, Bastien Moysset, Ronaldo Messina .Adversarial Generation of Handwritten Text Images Conditioned on Sequences .[J] arXiv preprint arXiv:1903.00277.
Prasun Roy, Saumik Bhattacharya, Subhankar Ghosh, Umapada Pal .STEFANN: Scene Text Editor using Font Adaptive Neural Network .[J] arXiv preprint arXiv:1903.01192.
Zhanzhan Cheng, Jing Lu, Jianwen Xie, Yi Niu, Shiliang Pu, Fei Wu .Efficient Video Scene Text Spotting: Unifying Detection, Tracking, and Recognition .[J] arXiv preprint arXiv:1903.03299.
Bastien Moysset, Ronaldo Messina .Manifold Mixup improves text recognition with CTC loss .[J] arXiv preprint arXiv:1903.04246.
Johannes Michael, Roger Labahn, Tobias Grüning, Jochen Zöllner .Evaluating Sequence-to-Sequence Models for Handwritten Text Recognition .[J] arXiv preprint arXiv:1903.07377.
Zichuan Liu, Guosheng Lin, Sheng Yang, Fayao Liu, Weisi Lin, Wang Ling Goh .Towards Robust Curve Text Detection with Conditional Spatial Expansion .[J] arXiv preprint arXiv:1903.08836.
Zhao Zhou, Shufan Wu, Shuchen Kong, Yingbin Zheng, Hao Ye, Luhui Chen, Jian Pu .Curve Text Detection with Local Segmentation Network and Curve Connection .[J] arXiv preprint arXiv:1903.09837.
【Dataset】Chongsheng Zhang, Guowen Peng, Yuefeng Tao, Feifei Fu, Wei Jiang, George Almpanidis, Ke Chen .ShopSign: a Diverse Scene Text Dataset of Chinese Shop Signs in Street Views .[J] arXiv preprint arXiv:1903.10412.
Jingchao Liu, Xuebo Liu, Jie Sheng, Ding Liang, Xin Li, Qingjie Liu .Pyramid Mask Text Detector .[J] arXiv preprint arXiv:1903.11800.
Xiaohui Zhao, Zhuo Wu, Xiaoguang Wang .CUTIE: Learning to Understand Documents with Convolutional Universal Text Information Extractor .[J] arXiv preprint arXiv:1903.12363.
Wenhai Wang, Enze Xie, Xiang Li, Wenbo Hou, Tong Lu, Gang Yu, Shuai Shao .Shape Robust Text Detection with Progressive Scale Expansion Network .[J] arXiv preprint arXiv:1903.12473.
Yuliang Liu, Lianwen Jin, Zecheng Xie, Canjie Luo, Shuaitao Zhang, Lele Xie .Tightness-aware Evaluation Protocol for Scene Text Detection .[J] arXiv preprint arXiv:1904.00813.
【Dataset】Simone Bonechi, Paolo Andreini, Monica Bianchini, Franco Scarselli .COCO_TS Dataset: Pixel-level Annotations Based on Weak Supervision for Scene Text Segmentation .[J] arXiv preprint arXiv:1904.00818.
Peng Wang, Lu Yang, Hui Li, Yuyan Deng, Chunhua Shen, Yanning Zhang .A Simple and Robust Convolutional-Attention Network for Irregular Text Recognition .[J] arXiv preprint arXiv:1904.01375.
Jeonghun Baek, Geewook Kim, Junyeop Lee, Sungrae Park, Dongyoon Han, Sangdoo Yun, Seong Joon Oh, Hwalsuk Lee .What is wrong with scene text recognition model comparisons? dataset and model analysis .[J] arXiv preprint arXiv:1904.01906.
Youngmin Baek, Bado Lee, Dongyoon Han, Sangdoo Yun, Hwalsuk Lee .Character Region Awareness for Text Detection .[J] arXiv preprint arXiv:1904.01941.
Chengquan Zhang, Borong Liang, Zuming Huang, Mengyi En, Junyu Han, Errui Ding, Xinghao Ding .Look More Than Once: An Accurate Detector for Text of Arbitrary Shapes .[J] arXiv preprint arXiv:1904.06535.
Vinoj Jayasundara, Sandaru Jayasekara, Hirunima Jayasekara, Jathushan Rajasegaran, Suranga Seneviratne, Ranga Rodrigo .TextCaps : Handwritten Character Recognition with Very Small Datasets .[J] arXiv preprint arXiv:1904.08095.
R. Reeve Ingle, Yasuhisa Fujii, Thomas Deselaers, Jonathan Baccash, Ashok C. Popat .A Scalable Handwritten Text Recognition System .[J] arXiv preprint arXiv:1904.09150.
Qingqing Wang, Wenjing Jia, Xiangjian He, Yue Lu, Michael Blumenstein, Ye Huang .FACLSTM: ConvLSTM with Focused Attention for Scene Text Recognition .[J] arXiv preprint arXiv:1904.09405.
Fady Medhat, Mahnaz Mohammadi, Sardar Jaf, Chris G. Willcocks, Toby P. Breckon, Peter Matthews, Andrew Stephen McGough, Georgios Theodoropoulos, Boguslaw Obara .TMIXT: A process flow for Transcribing MIXed handwritten and machine-printed Text .[J] arXiv preprint arXiv:1904.12387.
Weijia Wu, Jici Xing, Hong Zhou .TextCohesion: Detecting Text for Arbitrary Shapes .[J] arXiv preprint arXiv:1904.12640.

Datasets

there are three websites that have the dataset list of some different data type:
1 - www.iapr-tc11.org
2 - tc11.cvc.uab.es
3 - rrc.cvc.uab.es

2017 COCO-Text
2017 DeTEXT
2017 DOST
2017 FSNS
2017 MLT
2017 IEHHR
2011-2015 Born-DIgitalImage
2013-2015 Focused Scene Text
2013-2015 Text in Videos
2015 Incidental Scene Text
ICDAR Chinese 2017
- more than 12,000 images. Most of the images are collected in the wild by phone cameras.
- Task: Chinese Text in the Wild.
Chinese Text in the Wild 2017
- 32,285 high resolution images, 1,018,402 character instances, 3,850 character categories, 6 kinds of attributes
Total-Text 2017
- 1555 images,11459 text instances, includes curved tex
SCUT_FORU_DB_Release 2016
- FORU contains two parts, which are Chinese2k and English2k dataset, respectively.
SynthText in the Wild Dataset 2016
- 800 thousand images, 8 million synthetic word instances.
- Each text instance is annotated with its text-string, word-level and character-level bounding-boxes.
COCO-Text (Computer Vision Group, Cornell) 2016
- 63,686 images, 173,589 text instances, 3 fine-grained text attributes.
- Task: text location and recognition
- COCO-Text API
USTB-SV1k 2014
- 1000 (500 for training and 500 for testing) street view (patch) images from 6 USA cities
Synthetic Word Dataset (Oxford, VGG) 2014
- 9 million images covering 90k English words
- Task: text recognition, segmantation
- download
IIIT 5K-Words 2012
- 5000 images from Scene Texts and born-digital (2k training and 3k testing images)
- Each image is a cropped word image of scene text with case-insensitive labels
- Task: text recognition
- download
StanfordSynth(Stanford, AI Group) 2012
- Small single-character images of 62 characters (0-9, a-z, A-Z)
- Task: text recognition
- download
MSRA Text Detection 500 Database (MSRA-TD500) 2012
- 500 natural images(resolutions of the images vary from 1296x864 to 1920x1280)
- Chinese, English or mixture of both
- Task: text detection
OSTD 2011
- cannot find the downloadlink
Traffice Guide Panel Text Dataset,TGPT 2016
- 3841 high-resolution individual images, 2315 containing traffic guide panel level annotations (1911 for training and 404 for testing, and all the testing images are manually labeled with ground truth tight text region bounding boxes), 1526 containing no traffic signs}.
Street View Text (SVT) 2010
- 350 high resolution images (average size 1260 × 860) (100 images for training and 250 images for testing)
- Only word level bounding boxes are provided with case-insensitive labels
- Task: text location
KAIST Scene_Text Database 2010
- 3000 images of indoor and outdoor scenes containing text
- Korean, English (Number), and Mixed (Korean + English + Number)
- Task: text location, segmantation and recognition
Chars74k 2009
- Over 74K images from natural images, as well as a set of synthetically generated characters
- Small single-character images of 62 characters (0-9, a-z, A-Z)
- Task: text recognition
ICDAR Benchmark Datasets

Dataset	Discription	Competition Paper
ICDAR 2015	1000 training images and 500 testing images	`paper`
ICDAR 2013	229 training images and 233 testing images	`paper`
ICDAR 2011	229 training images and 255 testing images	`paper`
ICDAR 2005	1001 training images and 489 testing images	`paper`
ICDAR 2003	181 training images and 251 testing images(word level and character level)	`paper`

你可能感兴趣的:(深度学习,神经网络,计算机视觉)

PyTorch基础知识讲解（一）完整训练流程示例苏雨流丰机器学习 pytorch 人工智能 python 机器学习深度学习
文章目录Tutorial1.数据处理2.网络模型定义3.损失函数、模型优化、模型训练、模型评价4.模型保存、模型加载、模型推理Tutorial大多数机器学习工作流程涉及处理数据、创建模型、优化模型参数和保存训练好的模型。本教程向你介绍一个用PyTorch实现的完整的ML工作流程，并提供链接来了解这些概念中的每一个。我们将使用FashionMNIST数据集来训练一个神经网络，预测输入图像是否属于以下
AI进化论：从图灵测试到智能革命的临界点 A达峰绮人工智能数据处理经验分享 AIGC AI人工智能
智能觉醒的起源密码（1943-2010）在曼彻斯特维多利亚大学的实验室里，1948年"Baby"计算机完成人类首个存储程序运行实验时，艾伦·图灵正在构思《计算机器与智能》。这篇划时代论文提出的"模仿游戏"测试，为人工智能奠定了哲学基础。1956年达特茅斯会议上，麦卡锡正式提出"人工智能"概念，当时学界乐观预测"二十年内机器将完成人类所有工作"。神经网络的发展轨迹充满戏剧性：1958年罗森布拉特发明
AI时代个人财富增长实战指南：从零基础到精通变现的完整路径 A达峰绮人工智能
（本文基于人工智能技术发展规律，结合互联网经济底层逻辑，为普通从业者构建系统性AI应用框架）一、建立AI认知基础：技术理解与工具掌握技术分类认知人工智能工具分为四大功能模块：自然语言处理（文本生成、对话交互）、计算机视觉（图像视频处理）、数据分析（预测建模）、自动化控制（流程优化）。建议新手首先掌握语言类工具的基础操作，逐步扩展到其他领域。工具操作逻辑通用AI工具通常包含三大核心功能模块：输入界面
【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？努力毕业的小土博^_^ AI算法题库人工智能算法计算机视觉深度学习神经网络
【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？文章目录【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？前言数据级别的多尺度模型架构上的多尺度表示FPN代码示例（PyTorch）说明其他多尺度处理方法总结欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校
大语言模型学习路线：从入门到实战大模型官方资料语言模型学习人工智能产品经理自然语言处理搜索引擎
大语言模型学习路线：从入门到实战在人工智能领域，大语言模型（LargeLanguageModels,LLMs）正迅速成为一个热点话题。本学习路线旨在为有基本Python编程和深度学习基础的学习者提供一个清晰、系统的大模型学习指南，帮助你在这一领域快速成长。本学习路线更新至2024年02月，后期部分内容或工具可能需要更新。适应人群已掌握Python基础具备基本的深度学习知识学习步骤本路线将通过四个核
深度学习与目标检测系列(六) 本文约(4.5万字) | 全面解读复现ResNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch 人工智能 ResNet 残差连接残差网络
文章目录解读Abstract—摘要翻译精读主要内容Introduction—介绍翻译精读背景RelatedWork—相关工作ResidualRepresentations—残差表达翻译精读主要内容ShortcutConnections—短路连接翻译精读主要内容DeepResidualLearning—深度残差学习ResidualLearning—残差学习翻译精读ResNet目的以前方法本文改进本质
深度学习与目标检测系列(三) 本文约(4万字) | 全面解读复现AlexNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch AlexNet 人工智能
文章目录解读Abstract-摘要翻译精读主要内容1.Introduction—前言翻译精读主要内容：本文主要贡献：2.TheDataset-数据集翻译精读主要内容：ImageNet简介：图像处理方法：3.TheArchitecture—网络结构3.1ReLUNonlinearity—非线性激活函数ReLU翻译精读传统方法及不足本文改进方法本文的改进结果3.2TrainingonMultipleG
使用 Milvus 进行向量数据库管理与实践 qahaj milvus 数据库 python
技术背景介绍在当今的AI与机器学习应用中，处理和管理大量的嵌入向量是一个常见的需求。Milvus是一个开源向量数据库，专门用于存储、索引和管理深度神经网络以及其他机器学习模型生成的大规模嵌入向量。它的高性能和易用性使其成为处理向量数据的理想选择。核心原理解析Milvus的核心功能体现在其强大的向量索引和搜索能力。它支持多种索引算法，包括IVF、HNSW等，使其能够高效地进行大规模向量的相似性搜索操
物理学不存在了？诺贝尔物理学奖颁给了人工智能资讯新鲜事人工智能
2024年10月8日，瑞典皇家科学院宣布，将2024年诺贝尔物理学奖授予美国普林斯顿大学教授约翰·J·霍普菲尔德（JohnJ.Hopfield）和加拿大多伦多大学教授杰弗里·E·辛顿（GeoffreyE.Hinton），以表彰他们“在人工神经网络机器学习方面的基础性发现和发明”。辛顿在接受电话采访时表示：“完全没想到”。实话实说，在结果出来前，大家也都没想到。因为在外界预测里，今年的诺贝尔物理学奖
计算机视觉技术探索：美颜SDK如何利用深度学习优化美颜、滤镜功能？美狐美颜sdk 美颜SDK 美颜API 直播美颜SDK 计算机视觉深度学习直播美颜SDK 美颜sdk 第三方美颜sdk 美颜api
时下，计算机视觉+深度学习正在重塑美颜技术，通过智能人脸检测、AI滤镜、深度美肤、实时优化等方式，让美颜效果更加自然、精准、个性化。那么，美颜SDK如何结合深度学习来优化美颜和滤镜功能？本文将深入解析AI在美颜技术中的应用，并探讨其未来发展趋势。一、深度学习如何赋能美颜SDK？1.AI人脸检测与关键点识别：精准捕捉五官在美颜过程中，首先需要精准检测人脸位置和五官特征点，确保美颜效果不会失真。深度学
深度学习模型性能全景评估与优化指南 niuTaylor 深度学习人工智能
深度学习模型性能全景评估与优化指南一、算力性能指标体系1.核心算力指标对比指标计算方式适用场景硬件限制TOPS(TeraOperationsPerSecond)每秒万亿次整数运算量化模型推理NVIDIAJetsonNano仅支持FP16/FP32TFLOPS(TeraFLoating-pointOPerationsperSecond)TFLOPS=Cores×FLOPs/Cycle×Frequen
车牌识别技术揭秘：如何用 C# 实现自动车牌识别系统威哥说编程 c#开发语言
车牌识别（LicensePlateRecognition，LPR）是一项计算机视觉技术，用于自动识别车辆的车牌号码。在实际应用中，车牌识别技术被广泛用于停车场管理、交通监控和安防系统等领域。实现车牌识别系统的关键步骤包括图像预处理、车牌检测、字符分割、字符识别等。C#中可以通过结合OpenCV、EmguCV、TesseractOCR等工具来实现车牌识别系统。一、所需工具和库EmguCV：这是一个封
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析快撑死的鱼 Python算法精解 python 深度学习开发语言
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析在人工智能的众多应用领域中，手写数字识别是一项经典且具有重要实际应用价值的任务。随着深度学习技术的飞速发展，通过构建和训练神经网络模型，手写数字识别的精度已经可以达到99%以上。本文将以Python为主要编程语言，结合深度学习的核心技术，详细解析手写数字识别的实现过程，并探讨如何进一步优化模型以提高
强化学习中的深度卷积神经网络设计与应用实例数字扫地僧计算机视觉 cnn 人工智能神经网络
I.引言强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，通过与环境的交互来学习最优策略。深度学习，特别是深度卷积神经网络（DeepConvolutionalNeuralNetworks，DCNNs）的引入，为强化学习在处理高维度数据方面提供了强大工具。本文将探讨强化学习中深度卷积神经网络的设计原则及其在不同应用场景中的实例。II.深度卷积神经网络在强化学习中的
腾讯云大模型知识引擎与DeepSeek：打造懒人专属的谷歌浏览器翻译插件大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 腾讯云云计算
摘要：随着人工智能技术的飞速发展，越来越多的前沿技术和工具已走入日常生活。翻译工具作为跨语言沟通的桥梁，一直处于技术创新的风口浪尖。本文探讨了腾讯云大模型知识引擎与DeepSeek结合谷歌浏览器插件的可能性，旨在为用户提供一种便捷、高效的翻译体验。通过应用深度学习、自然语言处理和知识图谱技术，该插件不仅能实时翻译网页内容，还能根据上下文进行智能推荐，实现精准的语境转换。本文将详细阐述其设计思路、技
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（二）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（二）5.跨模态检索系统应用场景5.1图文匹配系统的实际应用应用领域具体场景优势电子商务商品图像搜索、视觉购物用户可以上传图片查找相似商品或使用文本描述查找商品智能媒体内容推荐、图片库搜索通过内容的语义理解提供更精准的推荐和搜索社交网络基于内容的帖子推荐理解用户兴趣，提供更相关的内容推荐教育技术多模态教学资源检索教师和学生可以更
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（一）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（一）引言：跨越感知的边界欢迎来到我们的PyTorch学习旅程第28天！今天我们将步入AI世界中最激动人心的领域之一：多模态学习。想象一下，如果你的模型既能"看"又能"读"，并且能够理解图像与文字之间的联系，这将为我们打开怎样的可能性？今天我们将专注于构建图文匹配系统，学习如何使用CLIP（ContrastiveLanguage
10.2 如何解决从复杂 PDF 文件中提取数据的问题？墨染辉大语言模型 pdf
10.2如何解决从复杂PDF文件中提取数据的问题？解决方案：嵌入式表格检索解释：嵌入式表格检索是一种专门针对从复杂PDF文件中的表格提取数据的技术。它结合了表格识别、解析和语义理解，使得从复杂结构的表格中检索信息成为可能。具体步骤：表格检测和识别：目标：在PDF页面中准确地定位和识别表格区域。方法：使用计算机视觉和深度学习技术，如卷积神经网络（CNN）或其他先进的图像处理算法。效果：能够检测出页面
TensorFlow深度学习实战项目：从入门到精通点我头像干啥 Ai 深度学习 tensorflow 人工智能
引言深度学习作为人工智能领域的一个重要分支，近年来取得了显著的进展。TensorFlow作为Google开源的深度学习框架，因其强大的功能和灵活的架构，成为了众多开发者和研究者的首选工具。本文将带领大家通过一个实战项目，深入理解TensorFlow的使用方法，并掌握深度学习的基本流程。1.TensorFlow简介1.1TensorFlow是什么？TensorFlow是一个开源的机器学习框架，由Go
国外7个最佳大语言模型 (LLM) API推荐幂简集成 API新理念语言模型人工智能自然语言处理
大型语言模型(LLM)API将彻底改变我们处理语言的方式。在深度学习和机器学习算法的支持下，LLMAPI提供了前所未有的自然语言理解能力。通过利用这些新的API，开发人员现在可以创建能够以前所未有的方式理解和响应书面文本的应用程序。下面，我们将比较从Bard到ChatGPT、PaLM等市场上顶级LLMAPI。我们还将探讨整合这些LLM的潜在用例，并考虑其对语言处理的影响。什么是大语言模型(LLM)
【深度学习】DeepSeek模型介绍与部署 Nerous_ 深度学习深度学习人工智能
原文链接：DeepSeek-V31.介绍DeepSeek-V3，一个强大的混合专家(MoE)语言模型，拥有671B总参数，其中每个token激活37B参数。为了实现高效推理和成本效益的训练，DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构，这些架构在DeepSeek-V2中得到了充分验证。此外，DeepSeek-V3首次提出了无辅助损失的负载平衡策略，并设置了多to
【深度学习】 PyTorch一文详解 Nerous_ 深度学习深度学习 pytorch 人工智能机器学习 python
“PyTorchisadeeplearningframeworkthatprioritizessimplicityandflexibility,makingitthego-tochoiceforbothresearchersanddevelopers.”—Anonymous1.PyTorch简介1.1PyTorch的背景与发展PyTorch是由Facebook人工智能研究院（FAIR）开发的一个开
【DNN量化工具】QKeras 工具简介 kanhao100 笔记 dnn 人工智能神经网络
QKeras工具简介QKeras是一个用于量化深度学习模型的Keras扩展库，旨在使深度学习模型的量化（即将模型的浮点权重转换为低精度格式）变得简单而高效。QKeras主要目标是优化模型的存储和推理速度，特别适用于需要在资源受限的设备（如移动设备和嵌入式系统）上运行深度学习模型的场景。QKeras的主要特点量化支持：QKeras提供了对不同类型量化的支持，包括权重量化和激活量化。用户可以根据需求选
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术 Mark White dnn 人工智能神经网络
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术在深度学习的精密机械中，有些细微的调整机制往往被视为理所当然，却实际上蕴含着深刻的数学洞察和巧妙的工程智慧。今天，我们将探讨两个看似独立却本质相通的机制：生成模型中的温度参数与Transformer注意力机制中的缩放因子。这两个设计都围绕着同一个核心概念——softmax分布的平滑控制。Softmax函数：概率分布的催化剂在深入讨论之前，
探索Sfm-python: 一款强大的计算机视觉库缪昱锨Hunter
探索Sfm-python:一款强大的计算机视觉库去发现同类优质开源项目:https://gitcode.com/在计算机视觉领域，Sfm-python是一个值得关注的开源项目，它以简洁高效的Python接口提供结构化从运动（StructurefromMotion,SfM）算法。如果你对3D重建、图像匹配或地理定位有兴趣，那么这个项目将是你不可或缺的工具。让我们一起深入了解一下它的技术细节、应用场景
QKeras、Brevitas和QONNX量化工具对比 kanhao100 笔记深度学习边缘计算
QKeras、Brevitas和QONNX量化工具对比一、引言在深度学习模型部署领域，量化技术已成为提升模型执行效率的关键手段。通过将浮点权重转换为低精度表示，量化能显著减小模型体积、降低内存占用并加速推理过程。对于资源受限的设备（如移动设备、嵌入式系统和边缘计算设备），量化技术尤为重要。本文深入对比三款主流量化工具：QKeras、Brevitas和QONNX，从用户实际应用角度剖析它们的技术特点
Umi-OCR：解锁高效文字识别的新时代水熠芝Dark-Haired
Umi-OCR：解锁高效文字识别的新时代Umi-OCR一款强大而高效的文字识别工具项目地址:https://gitcode.com/Resource-Bundle-Collection/6adda项目介绍在数字化浪潮席卷全球的今天，文字识别技术已成为提升工作效率和生活质量的关键工具。Umi-OCR，作为一款基于深度学习技术的开源文字识别工具，凭借其强大的功能和高效的性能，迅速成为众多用户的首选。无
Umi-OCR：一款强大而高效的文字识别工具裘心国Trent
Umi-OCR：一款强大而高效的文字识别工具Umi-OCR一款强大而高效的文字识别工具项目地址:https://gitcode.com/Resource-Bundle-Collection/6adda介绍Umi-OCR是一款基于深度学习技术的开源文字识别工具，特别适合日常办公、学术研究及数据分析等场景。它能有效解决将图像中的文字快速转化为可编辑文本的需求，极大提升工作效率。此工具依托于先进的计算机
自动语音识别（ASR）：技术、应用与未来 ajie1117 语音识别人工智能
自动语音识别（ASR）：技术、应用与未来1.ASR简介自动语音识别（ASR，AutomaticSpeechRecognition）是一种将语音转换为文本的技术。它利用人工智能（AI）、深度学习和自然语言处理（NLP）技术来识别和理解人类的语言，使计算机能够与人类进行更自然的交互。2.ASR的工作原理ASR的核心流程通常包括以下几个步骤：语音信号采集：通过麦克风或其他设备获取音频数据。预处理：去除噪
机器学习是怎么一步一步由神经网络发展到今天的Transformer架构的？ yuanpan 机器学习神经网络 transformer
机器学习和神经网络的发展经历了一系列重要的架构和技术阶段。以下是更全面的总结，涵盖了从早期神经网络到卷积神经网络之前的架构演变：1.早期神经网络：感知机（Perceptron）时间：1950年代末至1960年代。背景：感知机由FrankRosenblatt提出，是第一个具有学习能力的神经网络模型。它由单层神经元组成，可以用于简单的二分类任务。特点：输入层和输出层之间直接连接，没有隐藏层。使用简单的
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情