Surya OCR icon

Surya OCR

Açık Kaynak
4.5
VikParuchuri

Surya OCR, Vik Paruchuri tarafından geliştirilen ve çeşitli belge türlerinde etkileyici doğrulukla 90'dan fazla dili destekleyen modern AI destekli bir optik karakter tanıma modelidir. Donut çerçevesinden ilham alan Vision Transformer mimarisi üzerine inşa edilen Surya, belge görüntülerini ayrı bir ön işleme adımı olarak geleneksel metin algılama gerektirmeden doğrudan işleyen bir kodlayıcı-kod çözücü yaklaşımı benimser. Model, metin içeriğini hassas sınırlayıcı kutu koordinatlarıyla birlikte çıkararak hem tam metin çıkarma hem de konum farkındalı belge anlama sağlar. Temel karakter tanımanın ötesinde Surya, başlıklar, paragraflar, tablolar, şekiller, listeler ve altyazılar gibi yapısal öğeleri tanımlayan kapsamlı bir belge düzen analizi modülü içerir ve belge organizasyonunun tam bir anlayışını sunar. Model, çok sütunlu sayfalar, denklemli akademik makaleler, tablo verileri içeren faturalar ve standart dışı tipografiye sahip tarihi belgeler dahil karmaşık belge düzenlerini işler. Surya, birçok kıyaslamada ticari OCR hizmetleriyle rekabetçi veya üstün doğruluk elde ederken bulut API çağrıları gerektirmeden yerel olarak çalışır ve gizlilik hassasiyeti olan belge işleme için uygundur. GPL-3.0 lisansı altında açık kaynaklı olan model aktif olarak bakımı yapılmakta ve düzenli güncellemeler almaktadır. Python API ve toplu işleme için komut satırı arayüzü sağlar. Temel uygulamalar arasında basılı ve el yazısı belgelerin dijitalleştirilmesi, fatura ve fişlerden yapılandırılmış veri çıkarma, taranan kitapların aranabilir metne dönüştürülmesi ve kurumsal içerik yönetim sistemleri için belge anlama boru hatları oluşturma yer alır.

OCR

Öne Çıkan Özellikler

90'dan Fazla Dil Desteği

90'dan fazla dilde metin algılama ve tanıma yaparak çok dilli belge işleme ihtiyaçlarını karşılar.

Gelişmiş Düzen Analizi

Belge yapısını, sütunları, başlıkları ve paragrafları otomatik algılayarak doğru okuma sırası belirler.

Tablo Algılama ve Çıkarma

Belgelerdeki tabloları otomatik olarak algılayarak yapılandırılmış veri olarak çıkarma kapasitesi sunar.

GPU ile Yüksek Hız

GPU optimizasyonu sayesinde büyük belge koleksiyonlarını hızla işleyerek toplu OCR ihtiyaçlarını karşılar.

Hakkında

Surya OCR, belge düzeyinde çok dilli optik karakter tanıma (OCR) için geliştirilmiş modern bir yapay zeka modelidir. 90'dan fazla dili destekleyen bu yüksek performanslı model, Donut mimarisini temel alan encoder-decoder yapısı kullanır. Swin Transformer encoder ile görüntü özelliklerini çıkarır ve mBART decoder ile metin üretimi yapar. Geleneksel OCR sistemlerinden farklı olarak derin öğrenme tabanlı uçtan uca bir mimari benimser ve karmaşık belge düzenlerinde üstün performans gösterir.

Surya'nın mimarisi, transformer tabanlı bir metin tanıma modülü ve gelişmiş bir sayfa düzeni analiz (layout analysis) modülü içermektedir. Sayfa düzeni analizi, belgedeki metin blokları, tablolar, başlıklar, dipnotlar, resim altı yazıları ve görseller gibi farklı öğeleri otomatik olarak tespit eder ve sınıflandırır. Bu sayede kullanıcı, belgenin yapısal bilgisini de elde eder ve metin çıktısı belgenin orijinal formatını yansıtır. Çok sütunlu gazete sayfaları, karmaşık tablo yapıları, iç içe geçmiş listeler ve karışık düzenli akademik makaleler başarıyla işlenebilir. Metin satırı tespiti (line detection) modülü, eğik ve döndürülmüş metinleri de doğru şekilde tanıyabilir.

Model, Latin, Kiril, Arap, Çin, Japon, Kore ve Hint alfabeleri dahil birçok yazı sistemini tanıyabilir. Bu geniş dil ve alfabe desteği, uluslararası belge işleme, arşiv dijitalleştirme ve çok dilli içerik yönetimi projelerinde büyük avantaj sağlar. Türkçe karakter tanıma performansı, özel karakterler (ç, ğ, ı, ö, ş, ü) dahil yüksek doğruluk oranlarına sahiptir ve Osmanlıca belge dijitalleştirme çalışmalarında da kullanılabilir.

Surya OCR, ICDAR benchmark'larında rekabetçi sonuçlar elde eder ve Google Cloud Vision, AWS Textract gibi ticari çözümlerle karşılaştırılabilir performans gösterir. Tesseract gibi geleneksel OCR araçlarına kıyasla özellikle el yazısı tanıma, düşük çözünürlüklü taramalar ve karmaşık düzenlerdeki performansı belirgin şekilde üstündür. PDF, görüntü dosyaları (JPEG, PNG, TIFF, WebP) ve taranmış belgeler üzerinde çalışır ve giriş formatından bağımsız olarak tutarlı kalite sunar.

Açık kaynak olarak GitHub üzerinden erişilebilen Surya OCR, pip ile kolayca kurulabilir ve Python API'si üzerinden programatik olarak kullanılabilir. CLI aracı ile toplu belge işleme destekler ve büyük arşivlerin otomatik dijitalleştirilmesi için batch processing pipeline'ı sunar. JSON ve hOCR formatlarında yapılandırılmış çıktı üretir, bu da arama motorları, belge yönetim sistemleri ve downstream uygulamalarla entegrasyonu kolaylaştırır. GPU üzerinde hızlı çıkarım yaparken CPU üzerinde de makul performans sunar.

Belge dijitalleştirme, arşiv tarama, fatura işleme, sözleşme analizi, tıbbi kayıt dökümü, hukuki belge işleme ve erişilebilirlik uygulamaları için ideal bir çözüm olan Surya OCR, araştırmacılar, geliştiriciler ve belge işleme otomasyonu ihtiyacı olan kuruluşlar için güçlü ve ücretsiz bir alternatif sunar. Kütüphane ve arşiv dijitalleştirme projelerinde tarihi belgelerin korunması, muhasebe departmanlarında fatura ve makbuzların otomatik işlenmesi ve hukuk bürolarında sözleşme analizi gibi profesyonel senaryolarda aktif olarak kullanılmaktadır.

Aktif geliştirici topluluğu ve düzenli güncellemeler sayesinde model sürekli iyileştirilmekte, yeni dil ve alfabe desteği eklenmektedir. Surya OCR, ticari OCR çözümlerine güçlü ve ücretsiz bir açık kaynak alternatif sunarak belge işleme teknolojisinin demokratikleşmesine katkıda bulunmaktadır. Modelin gelecek sürümlerinde el yazısı tanıma performansının artırılması, tablo çıkarma yeteneklerinin geliştirilmesi ve daha fazla yazı sistemi desteği hedeflenmektedir.

Kullanım Senaryoları

1

Belge Dijitalleştirme

Kağıt belgeleri, arşivleri ve kitapları dijital metin formatına dönüştürerek aranabilir hale getirme.

2

Akademik Makale İşleme

Akademik makaleleri düzen analizi ile doğru formatta dijitalleştirme ve metin çıkarma.

3

Fatura ve Form İşleme

İş belgelerindeki tablo ve form verilerini otomatik olarak çıkararak veri girişini otomatikleştirme.

4

Çok Dilli İçerik İşleme

Farklı dillerdeki belgeleri toplu olarak işleyerek çok dilli organizasyonların ihtiyaçlarını karşılama.

Artılar ve Eksiler

Artılar

  • 90+ dil destekli çok yönlü belge OCR araç seti
  • Satır seviyesinde metin algılama, düzen analizi ve okuma sırası tespiti
  • Tablo tanıma özelliği ile yapılandırılmış veri çıkarma
  • Tesseract'a kıyasla daha hızlı ve doğru sonuçlar

Eksiler

  • Belge OCR'ına özelleştirilmiş — fotoğraf ve doğal sahne metinlerinde zayıf
  • El yazısı metin tanıma desteklenmiyor
  • Yeni vizyoner dil modelleri karşısında bazı testlerde geride kalıyor
  • GPU gereksinimi — CPU'da yavaş işleme

Teknik Detaylar

Parametre

Unknown

Mimari

Vision Transformer

Eğitim Verisi

Proprietary multilingual dataset

Lisans

GPL-3.0

Özellikler

  • 90+ languages
  • Layout analysis
  • Table detection
  • Reading order
  • Fast
  • Line-level detection
  • GPU optimized

Benchmark Sonuçları

MetrikDeğerKarşılaştırmaKaynak
Doğruluk Oranı (General Benchmark)%93.2 (avg across scripts)Tesseract: %80.1Surya GitHub Benchmarks
Desteklenen Diller90+ dil & yazı sistemiPaddleOCR: 80+ dilGitHub Repository
Satır Algılama (Line Detection F1)0.957DocTR: 0.921Surya Benchmark Suite
İşleme Hızı (A100)~200ms/sayfa (GPU)PaddleOCR: ~150ms/sayfaSurya GitHub Benchmarks

Mevcut Platformlar

GitHub
PyPI

Sıkça Sorulan Sorular

İlgili Modeller

PaddleOCR icon

PaddleOCR

Baidu|15M

PaddleOCR, Baidu tarafından PaddlePaddle derin öğrenme çerçevesi üzerinde geliştirilen, 80'den fazla dili endüstri düzeyinde doğruluk ve hızla destekleyen kapsamlı bir optik karakter tanıma sistemidir. En son PP-OCRv4 mimarisi, her biri maksimum performans için bağımsız olarak optimize edilmiş metin algılama, yön sınıflandırma ve metin tanıma olmak üzere üç aşamalı bir boru hattı kullanır. Hafif yapılandırmasında yaklaşık 15 milyon parametreyle PaddleOCR, doğruluk ve çıkarım hızı arasında olağanüstü bir denge sağlayarak hem sunucu GPU'larında hem de cep telefonları ve gömülü sistemler dahil uç cihazlarda verimli şekilde çalışır. Sistem, eğri metin, döndürülmüş metin, yoğun çok satırlı düzenler ve dokulu arka planlar üzerine yerleştirilmiş metin dahil karmaşık gerçek dünya senaryolarında metin tanımada mükemmel performans sergiler. PaddleOCR, her dil ailesi için özel tanıma modelleriyle Latin, Çince, Japonca, Korece, Arapça, Kiril ve düzinelerce başka yazı sistemini destekler. Temel OCR'nin ötesinde araç seti, taranan belgelerden tablo, başlık ve paragraf çıkarmak için belge yapı analizi ile fatura, fiş ve formlar için anahtar bilgi çıkarma yetenekleri içerir. Apache 2.0 lisansı altında tamamen açık kaynaklı olan PaddleOCR, GitHub'daki en çok yıldızlı OCR depolarından biri haline gelmiştir. Önceden eğitilmiş modeller, eğitim betikleri ve ONNX, TensorRT formatlarında dağıtım araçları sunar. Belge dijitalleştirme, plaka tanıma, fiş işleme ve el yazısı tanıma gibi alanlarda yaygın olarak kullanılır.

Açık Kaynak
4.6

Hızlı Bilgi

ParametreUnknown
TipTransformer
LisansGPL-3.0
Yayınlanma2024-01
MimariVision Transformer
Puan4.5 / 5
GeliştiriciVikParuchuri

Bağlantılar

Etiketler

ocr
document
layout
multilingual
Siteyi Ziyaret Et