Türkçenin Tarihi · sistemin tüm özellikleri ve metodolojisi
Türkçenin Tarihi, Türkçenin 1 300 yıllık metinsel mirasını sayısal aynaya tutan bir analitik platformdur. Yapay zekâ ve dilbilim algoritmaları, yüklenen PDF kaynakları (eserler, gramerler, sözlükler, Türkoloji çalışmaları) üzerinde otomatik olarak şu işleri yapar:
Anasayfa 7 sekmeye ayrılmıştır. Her sekme farklı bir bakış açısı sunar:
Derlemin özeti: toplam eser, sayfa, kelime, tekil sözcük; dönem zaman çizgisi; dönem dağılımı donut; yazar dağılımı bar; kategori dağılımı.
Yazıt, şiir, dinî metin gibi birincil tarihsel kaynaklar. Dönemin gerçek söz varlığını yansıtır; "ek/fiil/isim" gibi gramer terimleri öne çıkmaz.
Dilbilgisi kuralları + örnek cümlelerden oluşan akademik eserler. Bu sekmede gramer terim yoğunluğu (ek, fiil, isim, zaman) baskındır.
Eski Türkçe ↔ modern karşılıklar, etimolojik veriler. Sözlük tipi PDF yüklendikçe otomatik bu kategoriye düşer.
Türkçenin tarihini, yayılımını, lehçelerini ele alan genel akademik çalışmalar (Tezcan, Akar, Aksan vb.).
Avrasya haritası üzerinde dönemlerin edebî merkezleri (Orhon Vadisi, Kaşgar, İstanbul…). Bir noktaya tıklayınca o dönemin sesbilim+morfoloji profili açılır.
Alıntı oranı, ortalama sözcük uzunluğu, dönem özgün sözcükleri, en sık 2-gramlar, eser benzerlik matrisi (Jaccard), transkripsiyon işaretleri, en sık kelimeler.
Anasayfanın üstünde Derlemde ara kutusu vardır. Tüm 1.5+ milyon kelime üzerinde anlık full-text arama yapar; bağlamlı sonuçlar döner.
| Mod | Davranış | Örnek |
|---|---|---|
kelime (varsayılan) |
Tam sözcük eşleşmesi (kelime sınırlı) | "türk" → sadece "türk", "türkçe" eşleşmez |
onek |
Sözcük başlangıcı eşleşmesi | "türk" → türk, türkçe, türkler, türkmen… |
kismi |
Substring (her yerde) | "türk" → Atatürk, Türkçe, türkmen… |
Her eser için match sayısı + ‰ yoğunluk (1000 kelime başına) + ilk 4 bağlam parçası gösterilir. "Tüm bağlamı göster" tıklanınca o eserdeki tüm geçişler (max 200) açılır.
Coğrafya sekmesinde Avrasya haritası üzerinde Türkçenin tarihsel edebî merkezleri konumlandırılmıştır. Daireler kronolojik altın oklarla bağlanır — Türkçenin coğrafi göçünü gösterir.
| Dönem | Yıl | Merkez |
|---|---|---|
| Köktürkçe | ~732 | Orhon Vadisi (Moğolistan) |
| Eski Türkçe (Uygurca) | ~1000 | Tarım Havzası (Doğu Türkistan) |
| Karahanlıca | ~1075 | Kaşgar / Balasagun |
| Harezm-Kıpçakça | ~1325 | Harezm / Altın Orda |
| Eski Anadolu Türkçesi | ~1400 | Konya / Kütahya / Bursa |
| Çağatayca | ~1600 | Semerkant / Buhara |
| Osmanlıca | ~1700 | İstanbul |
| Modern Türkçe | ~1950 | Ankara |
Bir daireye tıklayınca yan panel açılır. O dönemin sesbilim ve morfoloji profilini bar grafiklerinde gösterir:
Detay sekmesinde derinlemesine analizler vardır:
â / î / û içeren ya da ünlü uyumu bozuk sözcüklerin oranı. Arapça/Farsça alıntıların yaklaşık göstergesi. Tarihsel U eğrisi:
Karahanlıca (öz Türkçe) → Harezm/Çağatay/Osmanlı (alıntı zirvesi) → Cumhuriyet sonrası özleştirme.
Bir dönemde sık geçen ama diğer dönemlerde nadir olan sözcükler. Diakronik kimlik göstergesi.
Derlem genelinde art arda gelen 2'li sözcük öbekleri. "kül tigin", "tengri teg", "köp er" gibi kalıpları yakalar.
Eserler arasındaki sözcük örtüşmesi Jaccard formülüyle hesaplanır:
Heatmap'te koyu renkler benzer söz varlığına işaret eder (aynı dönem eserleri tipik olarak yan yana koyulaşır).
Sözlük türü PDF'ler eklendiğinde her sözcüğün anlam sayısı hesaplanır. (Şu an metin/gramer derlemi olduğu için pasif.)
PDF dosya adı + ilk sayfaları taranarak regex pattern kuralları üzerinden otomatik atama yapılır.
| Dönem | Pattern | Örnek dosya |
|---|---|---|
| Köktürkçe | Orhon|Tunyukuk|Kül.?Tigin|Bilge.?Kağan|Thomsen | Tekin_Orhon_Yazıtları.pdf |
| Eski Türkçe | Eski.?Türkçe | Aksan_En_Eski_Türkçenin_İzlerinde.pdf |
| Karahanlıca | Karahanlı|XI[._ ]+Yüzyıl|Kutadgu|Eski[_ ]Türk[_ ]Şiir|Atebet|Divan-?ı.?L | Arat_Kutadgu_Bilig.pdf |
| Harezm-Kıpçakça | Harezm|Kıpçak|Nehc[uü]l|Kısas[uü]l|Rabgu?z|Rabghu?z | Eckmann_Nehcül_Feradis.pdf |
| Çağatayca | Çağatay|Çağatayca | Eckmann_Çağatayca_El_Kitabı.pdf |
| Eski Anadolu | Eski.?Anadolu|Eski.?Türkiye | Timurtaş_Eski_Türkiye_Türkçesi.pdf |
| Osmanlıca | Osmanlı | Timurtaş_Osmanlı_Türkçesi_Grameri.pdf |
| Modern Türkçe | Türk[_ ]Dilbilgisi|Türkiye[_ ]Türkçesi | Ediskun_Türk_Dilbilgisi.pdf |
| Türkoloji (Genel) | Tuna.?Bulgar|Türk.?Dil(?:i|leri)|İpek.?Yolu|Yazımı|Türk.?Şiv|Tarihi.?Türk|Söz.?Varl|Karşılaştırmal | Akalın_Tarihi_Türk_Şiveleri.pdf |
| Kategori | Pattern |
|---|---|
| Gramer | gramer|grameri|dilbilgis|el[_ ]kitab |
| Sözlük | sözlük|sozluk|dictionar |
| Metin | yazıt|nehc|şiir|kül_tigin|tunyukuk_yaz|metin|kutadgu|kısas|enbiya|hikmet|hadis|atebet|divan-ı |
| Genel | fallback |
Sistem 16 farklı transkripsiyon kategorisini otomatik tanır. NFC normalleştirme sayesinde PDF'ler combining diacritics (k + ̣) kullansa bile precomposed karaktere (ḳ) dönüşür.
| Grup | Karakterler | Kullanım |
|---|---|---|
| Uzun ünlü (macron) | ā ē ī ō ū ǖ | Köktürkçe / Eski Uygurca |
| Uzun ünlü (sirkumfleks) | â ê î ô û | Osmanlıca uzun ünlü |
| Üstte iki nokta | ä ö ü | Türkoloji + Almanca |
| Sağır n / nazal velar | ŋ ñ ṅ | Kafnun (ng sesi) |
| Damaklı ünsüz (caron) | š č ž ǰ ř | Slav-Türkolojik |
| Altı noktalı | ḳ ḥ ḫ ṣ ḍ ṭ ẓ ẕ | Arapça emfatikler |
| Üstü noktalı | ġ ż ḟ ṗ ḃ ċ | Arapça gayn vb. |
| Hemze / Ayn | ʿ ʾ ʼ ʽ | Glottal işaretler |
| Tilde | ã õ ũ | Tilde işaretliler |
| Acute / Grave | á é í ó ú / à è ì ò ù | Latin alıntı |
| Halka, Breve | å ů / ă ĕ ĭ ŏ ŭ | Diğer diakritikler |
| IPA | ə ɨ ɯ ɔ ɛ | Damaklı ünlü |
/yonetim/ adresinden giriş yapılır.
akalinakalin_1956Cookie 90 gün geçerlidir; bir kez giriş yaptıktan sonra şifre tekrar sorulmaz.
Sistem 3 katmanlı duplicate koruması yapar:
Mevcut eserler tablosunda her satırın "Sil" butonu vardır. Onay sorusuyla siler; PDF dosyası + cache .txt dosyası birlikte silinir, bir sonraki güncelle'de derlemden çıkar.
Pattern listelerini düzenledikten sonra ya da bir sorun çıktığında "Analizi şimdi güncelle" butonu derlem_analiz.py + donem_profil.py scriptlerini yeniden çalıştırır.
pdftotext -layout -enc UTF-8 ile metni çıkaranaliz/texts/<dosya>.txtSözcük yakalama: [^\W\d_]+ (Unicode-aware Latin letter regex). 3+ harfli
tokenler. ASCII + tüm Türkolojik transkripsiyon karakterlerini kapsar.
Stop word filtresi sonrası 3+ harfli ardışık iki token. Korpus genelinde 40+ frekanslı olanlar tutulur.
Regex tabanlı ek tespiti:
l[iıuü]k\b → -lık ekil[iıuü]\b → -lı ekic[iıuü]\b → -cı ekim[ae]k\b → -mak ekim[iıuü]ş\b → -miş ekil[ae]r\b → -ler ekiAvrasya haritası bbox: lng [18, 115], lat [25, 56]. 980×380 px SVG. Doğrusal projeksiyon. Ülke poligonları Natural Earth 110m'den indirilmiş, basitleştirilmiş JSON.
| Terim | Açıklama |
|---|---|
| Derlem (corpus) | Sistematik biçimde derlenmiş metin külliyatı |
| Diakronik | Tarihsel zaman içinde değişimi inceleyen yaklaşım |
| Senkronik | Belirli bir zaman diliminde sabit bir kesit |
| Polysemy | Bir sözcüğün birden fazla anlama gelmesi |
| Bigram / N-gram | Art arda gelen N kelime / sembol kalıbı |
| Collocation | Birlikte sık geçen kelime öbeği |
| Jaccard benzerliği | İki kümenin kesişiminin birleşimine oranı (0-1) |
| FTS (Full-Text Search) | Metin içinde tam kelime / önek araması |
| NFC / NFD | Unicode normalleştirme formları (precomposed / decomposed) |
| Macron | Uzun ünlü işareti (ā ē ī ō ū) |
| Sirkumfleks | İnceltme/uzatma işareti (â ê î ô û) |
| Sağır n | Velar nazal sesi (ŋ ñ); Türkçe "kafnun" |
| Altı noktalı | Arapça emfatik harfler (ḳ ḥ ḫ ṣ ḍ ṭ ẓ ẕ) |
| Hemze / Ayn | Arapça glottal işaretleri (ʾ ʿ) |
| İzogloss | Aynı dilbilim özelliğinin coğrafi sınırı |
| Sesbilim (fonoloji) | Dilin ses dizgesini inceleyen alan |
| Morfoloji | Sözcük yapısı ve eklerin incelenmesi |
| Leksik | Söz varlığı ile ilgili |
| Türkoloji | Türk dilleri ve kültürünü inceleyen disiplin |
Hayır. Yükleme tamamlandığında arka planda otomatik analiz başlar. ~2-5 dakika sonra tüm 20 görsel yenilenmiş halde olur. Üst banner ilerlemeyi gösterir.
Dosya adı henüz bir dönem patternine uymuyor. Yönetime haber ver; pattern listesi
analiz/derlem_analiz.py'deki DONEM_KURAL'a bir satır ekleyerek
düzeltilir. Sonra "Güncelle" tetikle.
Kelime modu tam sözcük sınırlı arama yapar. Türkçenin eklemeli yapısı
nedeniyle "türk" arıyorsan "türkler", "türkçe" gelmez. Ekleri görmek istiyorsan
onek moduna geç.
Heuristic'tir, yani yaklaşık göstergedir. â/î/û içeren ya da büyük ünlü uyumu bozuk sözcükleri sayıyor. Gerçek alıntı tespiti için etimolojik sözlük entegrasyonu gerekir; şu an sıralamayı (hangi dönem daha alıntılı) doğru yansıtır.
Evet — sözlük türü PDF eklendiğinde "Sözlükler" sekmesi otomatik dolar. İleride polysemy haritası, etimolojik bağlantılar gibi sözlüğe özel görseller eklenebilir.
PDF'ler /home/sha/docker/turkcetarih/ dizininde. JSON çıktıları
analiz/derlem.json ve analiz/donem_profil.json'da. Sunucu yedeklemesi
yöneticinin sorumluluğundadır.