Repo Tanıtımı
Türkçe akademik metinlerde 5 farklı varlığı tanıyan domain-specific NER modeli. dbmdz/bert-base-turkish-cased base'i üzerinde 12.000 elle etiketli cümle ile fine-tune edildi.
Özellikler
- 5 entity tipi: PER (kişi), UNIVERSITY, FACULTY, DEPARTMENT, TITLE (Doç. Dr., Prof., vb.)
- Test set F1: PER 0.94, UNIVERSITY 0.91, FACULTY 0.87, DEPARTMENT 0.85, TITLE 0.89
- Generic Türkçe NER modellerine göre 12-18 puan daha iyi domain performansı
- FastAPI inference endpoint
- ONNX export — CPU'da ~400ms inference
- Açık veri seti + model + servis kodu
Mimari
- Base model: dbmdz/bert-base-turkish-cased
- Fine-tuning: PyTorch + HuggingFace Trainer, 5 epoch, AdamW, lr=2e-5, batch=16
- Veri seti: 12.000 cümle, BIO formatı; weak supervision (üniversite listesi + regex) ile ön-etiketleme, sonra elle düzeltme
- Servis: FastAPI, ONNX Runtime (CPU)
- Etiketleme aracı: Doccano
Kullanılan Teknolojiler
Python, PyTorch, HuggingFace Transformers, dbmdz/bert-base-turkish-cased, FastAPI, ONNX Runtime, Doccano, pandas, scikit-learn.