Este tutorial orienta sobre como executar extração de dados de faturas usando Python. Ele tem todos os detalhes para definir o IDE para o desenvolvimento, uma lista de etapas que definem o fluxo do programa e um código de amostra demonstrando o software OCR de faturas usando Python. Você aprenderá a personalizar o processo de detecção de imagens como PNG, JPEG, BMP, TIFF e GIF de acordo com seus requisitos.
Etapas para OCR de faturas usando Python
- Defina o ambiente para usar Aspose.OCR for Python via .NET para extrair dados de fatura
- Crie uma instância do Aspose.Ocr para processamento de OCR
- Crie uma instância da classe OcrInput para armazenar recibos
- Adicionar recibos à coleção OcrInput
- Configurar configurações de reconhecimento de recibo e definir idioma de reconhecimento
- Execute OCR usando o método recognize_receipt para reconhecer texto dos recibos de entrada
- Exibir texto reconhecido dos recibos
Estas etapas descrevem como aplicar OCR para recibos usando Python. Crie uma instância do objeto Aspose.Ocr, inicialize o objeto OcrInput para armazenar recibos e crie o objeto ReceiptRecognitionSettings para definir os parâmetros para o OCR das faturas. Por fim, chame o método recognize_receipt() fornecendo a lista de recibos e as configurações para extrair o texto.
Código para extração de dados de fatura usando Python
Este código de exemplo demonstra o uso da API OCR de fatura usando Python. Você pode definir o tipo de entrada como PDF, TIFF, URL, Diretório, Zip etc., e definir o idioma de detecção de uma grande lista de nomes de idiomas no enumerador de idiomas. A classe ReceiptRecognitionSettings contém várias propriedades, como definir o conjunto de caracteres permitidos, sinalizador para definir a inversão automática de cores e definir uma lista negra de caracteres para ignorá-los.
Este artigo nos ensinou o processo de extração de texto de fatura. Para converter texto manuscrito em texto editável e pesquisável, consulte o artigo em Converter manuscrito em texto usando Python.