PaddleOCR icon

PaddleOCR

Açık Kaynak
4.6
Baidu

PaddleOCR, Baidu tarafından PaddlePaddle derin öğrenme çerçevesi üzerinde geliştirilen, 80'den fazla dili endüstri düzeyinde doğruluk ve hızla destekleyen kapsamlı bir optik karakter tanıma sistemidir. En son PP-OCRv4 mimarisi, her biri maksimum performans için bağımsız olarak optimize edilmiş metin algılama, yön sınıflandırma ve metin tanıma olmak üzere üç aşamalı bir boru hattı kullanır. Hafif yapılandırmasında yaklaşık 15 milyon parametreyle PaddleOCR, doğruluk ve çıkarım hızı arasında olağanüstü bir denge sağlayarak hem sunucu GPU'larında hem de cep telefonları ve gömülü sistemler dahil uç cihazlarda verimli şekilde çalışır. Sistem, eğri metin, döndürülmüş metin, yoğun çok satırlı düzenler ve dokulu arka planlar üzerine yerleştirilmiş metin dahil karmaşık gerçek dünya senaryolarında metin tanımada mükemmel performans sergiler. PaddleOCR, her dil ailesi için özel tanıma modelleriyle Latin, Çince, Japonca, Korece, Arapça, Kiril ve düzinelerce başka yazı sistemini destekler. Temel OCR'nin ötesinde araç seti, taranan belgelerden tablo, başlık ve paragraf çıkarmak için belge yapı analizi ile fatura, fiş ve formlar için anahtar bilgi çıkarma yetenekleri içerir. Apache 2.0 lisansı altında tamamen açık kaynaklı olan PaddleOCR, GitHub'daki en çok yıldızlı OCR depolarından biri haline gelmiştir. Önceden eğitilmiş modeller, eğitim betikleri ve ONNX, TensorRT formatlarında dağıtım araçları sunar. Belge dijitalleştirme, plaka tanıma, fiş işleme ve el yazısı tanıma gibi alanlarda yaygın olarak kullanılır.

OCR

Öne Çıkan Özellikler

80'den Fazla Dil Desteği

Çince, İngilizce, Türkçe dahil 80'den fazla dilde metin algılama ve tanıma yapabilme kapasitesine sahiptir.

Hafif ve Hızlı Dağıtım

Mobil ve edge cihazlarda çalışabilecek kadar hafif modeller sunarak geniş dağıtım esnekliği sağlar.

Tablo ve Düzen Analizi

Belgelerdeki tablo yapılarını, başlıkları ve paragrafları otomatik olarak algılayarak yapılandırılmış veri çıkarır.

Uçtan Uca OCR Pipeline

Metin algılama, tanıma ve son işleme adımlarını tek bir pipeline'da birleştirerek kolay entegrasyon sağlar.

Hakkında

PaddleOCR, Baidu tarafından PaddlePaddle derin öğrenme çerçevesi üzerine geliştirilen kapsamlı bir optik karakter tanıma (OCR) sistemidir. 80'den fazla dili destekleyen bu araç, endüstri seviyesinde metin algılama, tanıma ve yapı analizi yeteneklerine sahiptir. Açık kaynak OCR çözümleri arasında en kapsamlı ve en aktif olarak geliştirilen projelerden biri olan PaddleOCR, hem araştırma hem de üretim ortamlarında geniş çapta benimsenmiştir. GitHub'daki yıldız sayısı ve topluluk aktivitesi, projenin sağlığını ve sürdürülebilirliğini ortaya koymaktadır.

Sistemin mimarisi üç temel bileşenden oluşur: metin algılama (DB/DB++ algoritması), metin yönü sınıflandırma ve metin tanıma (CRNN/SVTR). Bu bileşenler bir pipeline halinde çalışarak, görüntüdeki metinleri uçtan uca işler. PP-OCRv4 sürümü, önceki sürümlere göre hem hız hem doğruluk açısından önemli iyileştirmeler sunar. DB++ algoritması, metin bölgelerini piksel düzeyinde hassasiyetle tespit ederken eğik ve kavisli metinleri de başarıyla ele alır. SVTR tabanlı tanıma modeli karmaşık yazı tiplerini, el yazısını ve düşük çözünürlüklü metinleri yüksek doğrulukla okuyabilir.

PaddleOCR'nin en güçlü yanlarından biri, tablo ve belge yapısı tanıma (layout analysis) yeteneğidir. Karmaşık düzenlere sahip belgeler—tablolar, çok sütunlu metinler, başlıklar ve alt başlıklar—otomatik olarak analiz edilir ve yapısal bilgi korunarak dijitalleştirilir. Bu özellik, fatura işleme, sözleşme analizi ve arşiv dijitalleştirme projelerinde kritik öneme sahiptir. PP-Structure modülü, tablo yapısını tanıyarak Excel formatına dönüştürme, belge düzeni analizi ve anahtar bilgi çıkarma gibi gelişmiş yetenekler sunar. Form alanlarını otomatik olarak tespit edip içeriklerini çıkarabilir, bu da belge otomasyonu süreçlerini büyük ölçüde hızlandırır.

Çok dilli desteği, PaddleOCR'yi uluslararası projeler için ideal kılmaktadır. Çince, Japonca, Korece gibi Doğu Asya dilleri, Arapça ve Farsça gibi sağdan sola yazılan diller ve Kiril, Latin ve Devanagari gibi farklı alfabelerdeki metinler başarıyla tanınır. Türkçe dahil 80'den fazla dil için optimize edilmiş modeller sunulur. Çok dilli belge işleme senaryolarında, aynı belge üzerindeki farklı dillerdeki metinler otomatik olarak algılanır ve ayrı ayrı tanınır. Dikey metin, dairesel metin ve perspektif bozulmuş metin gibi zorlu senaryolarda da güvenilir sonuçlar üretir.

Performans açısından PaddleOCR, hem hız hem de doğruluk metriklerinde ticari OCR çözümleriyle rekabet edebilir düzeydedir. PP-OCRv4 server modeli, akademik benchmark'larda en yüksek doğruluk oranlarını yakalarken, mobile modeli 10MB'ın altındaki boyutuyla mobil cihazlarda gerçek zamanlı performans sağlar. GPU hızlandırma desteği sayesinde büyük hacimlerdeki belgeler saniyeler içinde işlenebilir. Toplu belge işleme için paralel çıkarım desteği sunar ve çok çekirdekli CPU ortamlarında bile verimli çalışır.

MIT lisansı ile tamamen ücretsiz ve açık kaynak olan PaddleOCR, Python ve C++ API'leri sunar. Mobil cihazlara Paddle Lite ile, web uygulamalarına PaddleJS ile dağıtılabilir. Docker konteynerleri ve Kubernetes uyumlu dağıtım araçları, kurumsal ölçekte kullanımı kolaylaştırır. REST API sarmalayıcıları ve mikroservis şablonları, PaddleOCR'yi mevcut iş süreçlerine hızlıca entegre etmeyi mümkün kılar. Kapsamlı dokümantasyon, örnek projeler ve topluluk forumları, her seviyedeki geliştirici için hızlı başlangıç kaynakları sağlar.

Finans sektöründe PaddleOCR, kimlik doğrulama süreçlerinde kimlik kartı, pasaport ve ehliyet okuma için yaygın olarak kullanılmaktadır. Sigorta şirketleri hasar raporlarının ve poliçe belgelerinin otomatik dijitalleştirilmesinde bu aracı tercih eder. Kamu kurumları arşiv dijitalleştirme projelerinde tarihi belgelerin OCR ile okunması için PaddleOCR'yi kullanır. Perakende sektöründe fatura ve fiş okuma, lojistik sektöründe kargo etiketlerinin ve barkodların tanınması gibi operasyonel süreçlerde de aktif olarak yer almaktadır. Bu çeşitli endüstriyel uygulamalar, PaddleOCR'nin evrensel OCR çözümü olarak konumunu güçlendirmektedir.

Kullanım Senaryoları

1

Belge Dijitalleştirme

Basılı belgeleri, faturaları ve formları dijital metne dönüştürerek aranabilir arşivler oluşturma.

2

Kimlik Doğrulama

Kimlik kartı, pasaport ve ehliyet gibi belgelerdeki bilgileri otomatik olarak okuma ve doğrulama.

3

Fatura İşleme

Faturaları otomatik olarak okuyarak muhasebe sistemlerine veri girişini hızlandırma.

4

Çeviri ve Erişilebilirlik

Görüntülerdeki metinleri çıkararak otomatik çeviri veya ekran okuyucu erişimi sağlama.

Artılar ve Eksiler

Artılar

  • 80+ dil destekli hafif ve hızlı OCR çözümü
  • Baidu tarafından geliştirilen olgun açık kaynak proje
  • PP-OCR serisi ile mobil cihazlarda çalışabilecek kadar hafif
  • Tablo tanıma, belge yapısı analizi ve anahtar bilgi çıkarma
  • Python, C++, JavaScript için çoklu SDK desteği

Eksiler

  • El yazısı tanıma desteği sınırlı
  • Düşük kaliteli ve bulanık görsellerde doğruluk düşüyor
  • Belgelendirme çoğunlukla Çince — İngilizce kaynaklar eksik
  • Karmaşık sayfa düzenlerinde yapı analizi hataları

Teknik Detaylar

Parametre

15M

Mimari

PP-OCRv4

Eğitim Verisi

Proprietary multi-language dataset

Lisans

Apache 2.0

Özellikler

  • 80+ dil
  • Text detection
  • Text recognition
  • Layout analysis
  • Table extraction
  • PDF parsing
  • Handwriting recognition
  • Lightweight deployment

Benchmark Sonuçları

MetrikDeğerKarşılaştırmaKaynak
Doğruluk Oranı (ICDAR 2015)%82.3 (F1)EasyOCR: %74.5PaddleOCR GitHub Benchmarks
Desteklenen Diller80+ dilTesseract: 100+ dilPaddlePaddle Official Docs
İşleme Hızı (CPU)~150ms/sayfa (PP-OCRv4)Tesseract: ~400ms/sayfaPaddleOCR v4 Release Notes
Model Boyutu (PP-OCRv4)~14MB (lightweight)Surya OCR: ~250MBGitHub Repository

Mevcut Platformlar

GitHub
PyPI
PaddleHub

Sıkça Sorulan Sorular

İlgili Modeller

Surya OCR icon

Surya OCR

VikParuchuri|Unknown

Surya OCR, Vik Paruchuri tarafından geliştirilen ve çeşitli belge türlerinde etkileyici doğrulukla 90'dan fazla dili destekleyen modern AI destekli bir optik karakter tanıma modelidir. Donut çerçevesinden ilham alan Vision Transformer mimarisi üzerine inşa edilen Surya, belge görüntülerini ayrı bir ön işleme adımı olarak geleneksel metin algılama gerektirmeden doğrudan işleyen bir kodlayıcı-kod çözücü yaklaşımı benimser. Model, metin içeriğini hassas sınırlayıcı kutu koordinatlarıyla birlikte çıkararak hem tam metin çıkarma hem de konum farkındalı belge anlama sağlar. Temel karakter tanımanın ötesinde Surya, başlıklar, paragraflar, tablolar, şekiller, listeler ve altyazılar gibi yapısal öğeleri tanımlayan kapsamlı bir belge düzen analizi modülü içerir ve belge organizasyonunun tam bir anlayışını sunar. Model, çok sütunlu sayfalar, denklemli akademik makaleler, tablo verileri içeren faturalar ve standart dışı tipografiye sahip tarihi belgeler dahil karmaşık belge düzenlerini işler. Surya, birçok kıyaslamada ticari OCR hizmetleriyle rekabetçi veya üstün doğruluk elde ederken bulut API çağrıları gerektirmeden yerel olarak çalışır ve gizlilik hassasiyeti olan belge işleme için uygundur. GPL-3.0 lisansı altında açık kaynaklı olan model aktif olarak bakımı yapılmakta ve düzenli güncellemeler almaktadır. Python API ve toplu işleme için komut satırı arayüzü sağlar. Temel uygulamalar arasında basılı ve el yazısı belgelerin dijitalleştirilmesi, fatura ve fişlerden yapılandırılmış veri çıkarma, taranan kitapların aranabilir metne dönüştürülmesi ve kurumsal içerik yönetim sistemleri için belge anlama boru hatları oluşturma yer alır.

Açık Kaynak
4.5

Hızlı Bilgi

Parametre15M
TipCNN + RNN
LisansApache 2.0
Yayınlanma2020-01
MimariPP-OCRv4
Puan4.6 / 5
GeliştiriciBaidu

Bağlantılar

Etiketler

ocr
text
document
multi-language
Siteyi Ziyaret Et