Surya OCR
Surya OCR, Vik Paruchuri tarafından geliştirilen ve çeşitli belge türlerinde etkileyici doğrulukla 90'dan fazla dili destekleyen modern AI destekli bir optik karakter tanıma modelidir. Donut çerçevesinden ilham alan Vision Transformer mimarisi üzerine inşa edilen Surya, belge görüntülerini ayrı bir ön işleme adımı olarak geleneksel metin algılama gerektirmeden doğrudan işleyen bir kodlayıcı-kod çözücü yaklaşımı benimser. Model, metin içeriğini hassas sınırlayıcı kutu koordinatlarıyla birlikte çıkararak hem tam metin çıkarma hem de konum farkındalı belge anlama sağlar. Temel karakter tanımanın ötesinde Surya, başlıklar, paragraflar, tablolar, şekiller, listeler ve altyazılar gibi yapısal öğeleri tanımlayan kapsamlı bir belge düzen analizi modülü içerir ve belge organizasyonunun tam bir anlayışını sunar. Model, çok sütunlu sayfalar, denklemli akademik makaleler, tablo verileri içeren faturalar ve standart dışı tipografiye sahip tarihi belgeler dahil karmaşık belge düzenlerini işler. Surya, birçok kıyaslamada ticari OCR hizmetleriyle rekabetçi veya üstün doğruluk elde ederken bulut API çağrıları gerektirmeden yerel olarak çalışır ve gizlilik hassasiyeti olan belge işleme için uygundur. GPL-3.0 lisansı altında açık kaynaklı olan model aktif olarak bakımı yapılmakta ve düzenli güncellemeler almaktadır. Python API ve toplu işleme için komut satırı arayüzü sağlar. Temel uygulamalar arasında basılı ve el yazısı belgelerin dijitalleştirilmesi, fatura ve fişlerden yapılandırılmış veri çıkarma, taranan kitapların aranabilir metne dönüştürülmesi ve kurumsal içerik yönetim sistemleri için belge anlama boru hatları oluşturma yer alır.
Öne Çıkan Özellikler
90'dan Fazla Dil Desteği
90'dan fazla dilde metin algılama ve tanıma yaparak çok dilli belge işleme ihtiyaçlarını karşılar.
Gelişmiş Düzen Analizi
Belge yapısını, sütunları, başlıkları ve paragrafları otomatik algılayarak doğru okuma sırası belirler.
Tablo Algılama ve Çıkarma
Belgelerdeki tabloları otomatik olarak algılayarak yapılandırılmış veri olarak çıkarma kapasitesi sunar.
GPU ile Yüksek Hız
GPU optimizasyonu sayesinde büyük belge koleksiyonlarını hızla işleyerek toplu OCR ihtiyaçlarını karşılar.
Hakkında
Surya OCR, belge düzeyinde çok dilli optik karakter tanıma (OCR) için geliştirilmiş modern bir yapay zeka modelidir. 90'dan fazla dili destekleyen bu yüksek performanslı model, Donut mimarisini temel alan encoder-decoder yapısı kullanır. Swin Transformer encoder ile görüntü özelliklerini çıkarır ve mBART decoder ile metin üretimi yapar. Geleneksel OCR sistemlerinden farklı olarak derin öğrenme tabanlı uçtan uca bir mimari benimser ve karmaşık belge düzenlerinde üstün performans gösterir.
Surya'nın mimarisi, transformer tabanlı bir metin tanıma modülü ve gelişmiş bir sayfa düzeni analiz (layout analysis) modülü içermektedir. Sayfa düzeni analizi, belgedeki metin blokları, tablolar, başlıklar, dipnotlar, resim altı yazıları ve görseller gibi farklı öğeleri otomatik olarak tespit eder ve sınıflandırır. Bu sayede kullanıcı, belgenin yapısal bilgisini de elde eder ve metin çıktısı belgenin orijinal formatını yansıtır. Çok sütunlu gazete sayfaları, karmaşık tablo yapıları, iç içe geçmiş listeler ve karışık düzenli akademik makaleler başarıyla işlenebilir. Metin satırı tespiti (line detection) modülü, eğik ve döndürülmüş metinleri de doğru şekilde tanıyabilir.
Model, Latin, Kiril, Arap, Çin, Japon, Kore ve Hint alfabeleri dahil birçok yazı sistemini tanıyabilir. Bu geniş dil ve alfabe desteği, uluslararası belge işleme, arşiv dijitalleştirme ve çok dilli içerik yönetimi projelerinde büyük avantaj sağlar. Türkçe karakter tanıma performansı, özel karakterler (ç, ğ, ı, ö, ş, ü) dahil yüksek doğruluk oranlarına sahiptir ve Osmanlıca belge dijitalleştirme çalışmalarında da kullanılabilir.
Surya OCR, ICDAR benchmark'larında rekabetçi sonuçlar elde eder ve Google Cloud Vision, AWS Textract gibi ticari çözümlerle karşılaştırılabilir performans gösterir. Tesseract gibi geleneksel OCR araçlarına kıyasla özellikle el yazısı tanıma, düşük çözünürlüklü taramalar ve karmaşık düzenlerdeki performansı belirgin şekilde üstündür. PDF, görüntü dosyaları (JPEG, PNG, TIFF, WebP) ve taranmış belgeler üzerinde çalışır ve giriş formatından bağımsız olarak tutarlı kalite sunar.
Açık kaynak olarak GitHub üzerinden erişilebilen Surya OCR, pip ile kolayca kurulabilir ve Python API'si üzerinden programatik olarak kullanılabilir. CLI aracı ile toplu belge işleme destekler ve büyük arşivlerin otomatik dijitalleştirilmesi için batch processing pipeline'ı sunar. JSON ve hOCR formatlarında yapılandırılmış çıktı üretir, bu da arama motorları, belge yönetim sistemleri ve downstream uygulamalarla entegrasyonu kolaylaştırır. GPU üzerinde hızlı çıkarım yaparken CPU üzerinde de makul performans sunar.
Belge dijitalleştirme, arşiv tarama, fatura işleme, sözleşme analizi, tıbbi kayıt dökümü, hukuki belge işleme ve erişilebilirlik uygulamaları için ideal bir çözüm olan Surya OCR, araştırmacılar, geliştiriciler ve belge işleme otomasyonu ihtiyacı olan kuruluşlar için güçlü ve ücretsiz bir alternatif sunar. Kütüphane ve arşiv dijitalleştirme projelerinde tarihi belgelerin korunması, muhasebe departmanlarında fatura ve makbuzların otomatik işlenmesi ve hukuk bürolarında sözleşme analizi gibi profesyonel senaryolarda aktif olarak kullanılmaktadır.
Aktif geliştirici topluluğu ve düzenli güncellemeler sayesinde model sürekli iyileştirilmekte, yeni dil ve alfabe desteği eklenmektedir. Surya OCR, ticari OCR çözümlerine güçlü ve ücretsiz bir açık kaynak alternatif sunarak belge işleme teknolojisinin demokratikleşmesine katkıda bulunmaktadır. Modelin gelecek sürümlerinde el yazısı tanıma performansının artırılması, tablo çıkarma yeteneklerinin geliştirilmesi ve daha fazla yazı sistemi desteği hedeflenmektedir.
Kullanım Senaryoları
Belge Dijitalleştirme
Kağıt belgeleri, arşivleri ve kitapları dijital metin formatına dönüştürerek aranabilir hale getirme.
Akademik Makale İşleme
Akademik makaleleri düzen analizi ile doğru formatta dijitalleştirme ve metin çıkarma.
Fatura ve Form İşleme
İş belgelerindeki tablo ve form verilerini otomatik olarak çıkararak veri girişini otomatikleştirme.
Çok Dilli İçerik İşleme
Farklı dillerdeki belgeleri toplu olarak işleyerek çok dilli organizasyonların ihtiyaçlarını karşılama.
Artılar ve Eksiler
Artılar
- 90+ dil destekli çok yönlü belge OCR araç seti
- Satır seviyesinde metin algılama, düzen analizi ve okuma sırası tespiti
- Tablo tanıma özelliği ile yapılandırılmış veri çıkarma
- Tesseract'a kıyasla daha hızlı ve doğru sonuçlar
Eksiler
- Belge OCR'ına özelleştirilmiş — fotoğraf ve doğal sahne metinlerinde zayıf
- El yazısı metin tanıma desteklenmiyor
- Yeni vizyoner dil modelleri karşısında bazı testlerde geride kalıyor
- GPU gereksinimi — CPU'da yavaş işleme
Teknik Detaylar
Parametre
Unknown
Mimari
Vision Transformer
Eğitim Verisi
Proprietary multilingual dataset
Lisans
GPL-3.0
Özellikler
- 90+ languages
- Layout analysis
- Table detection
- Reading order
- Fast
- Line-level detection
- GPU optimized
Benchmark Sonuçları
| Metrik | Değer | Karşılaştırma | Kaynak |
|---|---|---|---|
| Doğruluk Oranı (General Benchmark) | %93.2 (avg across scripts) | Tesseract: %80.1 | Surya GitHub Benchmarks |
| Desteklenen Diller | 90+ dil & yazı sistemi | PaddleOCR: 80+ dil | GitHub Repository |
| Satır Algılama (Line Detection F1) | 0.957 | DocTR: 0.921 | Surya Benchmark Suite |
| İşleme Hızı (A100) | ~200ms/sayfa (GPU) | PaddleOCR: ~150ms/sayfa | Surya GitHub Benchmarks |