Kullanım Kılavuzu

Türkçenin Tarihi · sistemin tüm özellikleri ve metodolojisi

1Sistem nedir?

Türkçenin Tarihi, Türkçenin 1 300 yıllık metinsel mirasını sayısal aynaya tutan bir analitik platformdur. Yapay zekâ ve dilbilim algoritmaları, yüklenen PDF kaynakları (eserler, gramerler, sözlükler, Türkoloji çalışmaları) üzerinde otomatik olarak şu işleri yapar:

PDF'lerden metni Unicode-NFC normalleştirilmiş biçimde çıkarır.
Her eseri dönem (Köktürkçe → Modern Türkçe) ve kategori (Metin / Gramer / Sözlük / Genel) altında otomatik sınıflar.
Sesbilim, morfoloji, leksik profil, alıntı yoğunluğu, polysemy, transkripsiyon işaretleri gibi 20+ metriği kelime kelime hesaplar.
Eser benzerlik matrisi, dönem özgün sözcükleri, 2-gramlar (collocations), coğrafi yayılım, full-text aramayı oluşturur.
Yeni PDF eklendikçe tüm analitikleri otomatik yeniden hesaplar.

Hızlı başlama: Ana sayfa sekmelerini gezin, "Detay" sekmesinde derinlemesine metrikleri görün, "Coğrafya" sekmesinde haritada bir dönem dairesine tıklayıp profilini açın.

2Anasayfa sekmeleri

Anasayfa 7 sekmeye ayrılmıştır. Her sekme farklı bir bakış açısı sunar:

📊 Genel

Derlemin özeti: toplam eser, sayfa, kelime, tekil sözcük; dönem zaman çizgisi; dönem dağılımı donut; yazar dağılımı bar; kategori dağılımı.

📜 Metinler

Yazıt, şiir, dinî metin gibi birincil tarihsel kaynaklar. Dönemin gerçek söz varlığını yansıtır; "ek/fiil/isim" gibi gramer terimleri öne çıkmaz.

📖 Gramerler

Dilbilgisi kuralları + örnek cümlelerden oluşan akademik eserler. Bu sekmede gramer terim yoğunluğu (ek, fiil, isim, zaman) baskındır.

📚 Sözlükler

Eski Türkçe ↔ modern karşılıklar, etimolojik veriler. Sözlük tipi PDF yüklendikçe otomatik bu kategoriye düşer.

🌍 Türkoloji

Türkçenin tarihini, yayılımını, lehçelerini ele alan genel akademik çalışmalar (Tezcan, Akar, Aksan vb.).

🗺 Coğrafya

Avrasya haritası üzerinde dönemlerin edebî merkezleri (Orhon Vadisi, Kaşgar, İstanbul…). Bir noktaya tıklayınca o dönemin sesbilim+morfoloji profili açılır.

🔬 Detay

Alıntı oranı, ortalama sözcük uzunluğu, dönem özgün sözcükleri, en sık 2-gramlar, eser benzerlik matrisi (Jaccard), transkripsiyon işaretleri, en sık kelimeler.

3Detaylı arama

Anasayfanın üstünde Derlemde ara kutusu vardır. Tüm 1.5+ milyon kelime üzerinde anlık full-text arama yapar; bağlamlı sonuçlar döner.

Arama modları

Mod	Davranış	Örnek
`kelime` (varsayılan)	Tam sözcük eşleşmesi (kelime sınırlı)	"türk" → sadece "türk", "türkçe" eşleşmez
`onek`	Sözcük başlangıcı eşleşmesi	"türk" → türk, türkçe, türkler, türkmen…
`kismi`	Substring (her yerde)	"türk" → Atatürk, Türkçe, türkmen…

Filtreler

Dönem: Köktürkçe, Karahanlıca, Osmanlıca…
Yazar: Tekin, Eckmann, Arat, Akalın…

Sonuçlar

Her eser için match sayısı + ‰ yoğunluk (1000 kelime başına) + ilk 4 bağlam parçası gösterilir. "Tüm bağlamı göster" tıklanınca o eserdeki tüm geçişler (max 200) açılır.

İpucu: "kagan", "tengri", "yarpuz" gibi tarihsel sözcükleri dene — bağlam içinde dönemin gerçek kullanımını görürsün.

4Coğrafi harita

Coğrafya sekmesinde Avrasya haritası üzerinde Türkçenin tarihsel edebî merkezleri konumlandırılmıştır. Daireler kronolojik altın oklarla bağlanır — Türkçenin coğrafi göçünü gösterir.

Dönem merkezleri

Dönem	Yıl	Merkez
Köktürkçe	~732	Orhon Vadisi (Moğolistan)
Eski Türkçe (Uygurca)	~1000	Tarım Havzası (Doğu Türkistan)
Karahanlıca	~1075	Kaşgar / Balasagun
Harezm-Kıpçakça	~1325	Harezm / Altın Orda
Eski Anadolu Türkçesi	~1400	Konya / Kütahya / Bursa
Çağatayca	~1600	Semerkant / Buhara
Osmanlıca	~1700	İstanbul
Modern Türkçe	~1950	Ankara

Dönem profili

Bir daireye tıklayınca yan panel açılır. O dönemin sesbilim ve morfoloji profilini bar grafiklerinde gösterir:

Ünlü uyumu — büyük ünlü uyumuna uyan sözcüklerin oranı
Yuvarlak / kalın ünlü oranları
Sözcük başı k-, g-, b-, p- dağılımları
k → g yumuşaması oranı
Sözcük sonu -k, -ş dağılımı
Ek yoğunluğu: -lık, -lı, -cı, -mak, -miş, -ler
â/î/û içeren söz oranı (alıntı göstergesi)

5Analitik metrikleri

Detay sekmesinde derinlemesine analizler vardır:

Alıntı yoğunluğu (heuristic)

â / î / û içeren ya da ünlü uyumu bozuk sözcüklerin oranı. Arapça/Farsça alıntıların yaklaşık göstergesi. Tarihsel U eğrisi:

Karahanlıca (öz Türkçe) → Harezm/Çağatay/Osmanlı (alıntı zirvesi) → Cumhuriyet sonrası özleştirme.

Dönem özgün sözcükleri

Bir dönemde sık geçen ama diğer dönemlerde nadir olan sözcükler. Diakronik kimlik göstergesi.

skor = (donem_freq / (1 + disar_freq)) × donem_freq

2-grams (collocations)

Derlem genelinde art arda gelen 2'li sözcük öbekleri. "kül tigin", "tengri teg", "köp er" gibi kalıpları yakalar.

Eser benzerlik matrisi

Eserler arasındaki sözcük örtüşmesi Jaccard formülüyle hesaplanır:

J(A, B) = |A ∩ B| / |A ∪ B|

Heatmap'te koyu renkler benzer söz varlığına işaret eder (aynı dönem eserleri tipik olarak yan yana koyulaşır).

Polysemy (anlam çeşitliliği)

Sözlük türü PDF'ler eklendiğinde her sözcüğün anlam sayısı hesaplanır. (Şu an metin/gramer derlemi olduğu için pasif.)

6Otomatik kategori & dönem ataması

PDF dosya adı + ilk sayfaları taranarak regex pattern kuralları üzerinden otomatik atama yapılır.

Dönem atama kuralları

Dönem	Pattern	Örnek dosya
Köktürkçe	`Orhon\|Tunyukuk\|Kül.?Tigin\|Bilge.?Kağan\|Thomsen`	Tekin_Orhon_Yazıtları.pdf
Eski Türkçe	`Eski.?Türkçe`	Aksan_En_Eski_Türkçenin_İzlerinde.pdf
Karahanlıca	`Karahanlı\|XI[._ ]+Yüzyıl\|Kutadgu\|Eski[_ ]Türk[_ ]Şiir\|Atebet\|Divan-?ı.?L`	Arat_Kutadgu_Bilig.pdf
Harezm-Kıpçakça	`Harezm\|Kıpçak\|Nehc[uü]l\|Kısas[uü]l\|Rabgu?z\|Rabghu?z`	Eckmann_Nehcül_Feradis.pdf
Çağatayca	`Çağatay\|Çağatayca`	Eckmann_Çağatayca_El_Kitabı.pdf
Eski Anadolu	`Eski.?Anadolu\|Eski.?Türkiye`	Timurtaş_Eski_Türkiye_Türkçesi.pdf
Osmanlıca	`Osmanlı`	Timurtaş_Osmanlı_Türkçesi_Grameri.pdf
Modern Türkçe	`Türk[_ ]Dilbilgisi\|Türkiye[_ ]Türkçesi`	Ediskun_Türk_Dilbilgisi.pdf
Türkoloji (Genel)	`Tuna.?Bulgar\|Türk.?Dil(?:i\|leri)\|İpek.?Yolu\|Yazımı\|Türk.?Şiv\|Tarihi.?Türk\|Söz.?Varl\|Karşılaştırmal`	Akalın_Tarihi_Türk_Şiveleri.pdf

Kategori atama kuralları

Kategori	Pattern
Gramer	`gramer\|grameri\|dilbilgis\|el[_ ]kitab`
Sözlük	`sözlük\|sozluk\|dictionar`
Metin	`yazıt\|nehc\|şiir\|kül_tigin\|tunyukuk_yaz\|metin\|kutadgu\|kısas\|enbiya\|hikmet\|hadis\|atebet\|divan-ı`
Genel	fallback

"Belirsiz" görüyorsan: Yeni eklediğin bir PDF'in ismi henüz bir patterne uymuyor. Yönetimden bildir; pattern listesi kolayca genişletilir.

7Türkolojik transkripsiyon işaretleri

Sistem 16 farklı transkripsiyon kategorisini otomatik tanır. NFC normalleştirme sayesinde PDF'ler combining diacritics (k + ̣) kullansa bile precomposed karaktere (ḳ) dönüşür.

Grup	Karakterler	Kullanım
Uzun ünlü (macron)	ā ē ī ō ū ǖ	Köktürkçe / Eski Uygurca
Uzun ünlü (sirkumfleks)	â ê î ô û	Osmanlıca uzun ünlü
Üstte iki nokta	ä ö ü	Türkoloji + Almanca
Sağır n / nazal velar	ŋ ñ ṅ	Kafnun (ng sesi)
Damaklı ünsüz (caron)	š č ž ǰ ř	Slav-Türkolojik
Altı noktalı	ḳ ḥ ḫ ṣ ḍ ṭ ẓ ẕ	Arapça emfatikler
Üstü noktalı	ġ ż ḟ ṗ ḃ ċ	Arapça gayn vb.
Hemze / Ayn	ʿ ʾ ʼ ʽ	Glottal işaretler
Tilde	ã õ ũ	Tilde işaretliler
Acute / Grave	á é í ó ú / à è ì ò ù	Latin alıntı
Halka, Breve	å ů / ă ĕ ĭ ŏ ŭ	Diğer diakritikler
IPA	ə ɨ ɯ ɔ ɛ	Damaklı ünlü

8Yönetim paneli

/yonetim/ adresinden giriş yapılır.

Giriş bilgileri

Kullanıcı: akalin
Şifre: akalin_1956

Cookie 90 gün geçerlidir; bir kez giriş yaptıktan sonra şifre tekrar sorulmaz.

PDF yükleme

Yönetim sayfasındaki "PDF Yükle" alanına dosyayı sürükle (ya da tıkla, seç).
Yükleme bittiğinde otomatik analiz arka planda başlar.
Üst banner'da "Analiz çalışıyor… (0:24)" canlı sayaç görünür.
Tamamlanınca yeşil "Analiz tamamlandı" mesajı + eser listesi yenilenir.
Anasayfa otomatik güncellenmiş halini Ctrl+Shift+R ile görebilirsin.

Duplicate kontrolü

Sistem 3 katmanlı duplicate koruması yapar:

Aynı dosya adı → 409: "Aynı isimde bir dosya zaten yüklü"
%PDF magic byte doğrulaması → bozuk PDF'leri elemine eder
SHA256 içerik hash → aynı içerik farklı isimle yüklenirse de yakalar

Eser silme

Mevcut eserler tablosunda her satırın "Sil" butonu vardır. Onay sorusuyla siler; PDF dosyası + cache .txt dosyası birlikte silinir, bir sonraki güncelle'de derlemden çıkar.

Manuel "Güncelle"

Pattern listelerini düzenledikten sonra ya da bir sorun çıktığında "Analizi şimdi güncelle" butonu derlem_analiz.py + donem_profil.py scriptlerini yeniden çalıştırır.

9Metodoloji

PDF → metin çıkarımı

pdftotext -layout -enc UTF-8 ile metni çıkar
Unicode NFC normalleştirme uygula (combining → precomposed)
Cache: analiz/texts/<dosya>.txt

Tokenizer

Sözcük yakalama: [^\W\d_]+ (Unicode-aware Latin letter regex). 3+ harfli tokenler. ASCII + tüm Türkolojik transkripsiyon karakterlerini kapsar.

Bigram (collocations)

Stop word filtresi sonrası 3+ harfli ardışık iki token. Korpus genelinde 40+ frekanslı olanlar tutulur.

Sesbilim metrikleri

Ünlü uyumu: Sözcüğün tüm ünlüleri aynı sınıf (kalın/ince) mi?
Yuvarlak/kalın oran: Token başına yuvarlak/kalın ünlü içeren oranı
k → g oranı: Sözcük başında g- başlayanların k- başlayanlara bölümü
Sözcük sonu -k/-ş/-n/-m: Token bitiş foneminin dağılımı

Morfoloji metrikleri

Regex tabanlı ek tespiti:

l[iıuü]k\b → -lık eki
l[iıuü]\b → -lı eki
c[iıuü]\b → -cı eki
m[ae]k\b → -mak eki
m[iıuü]ş\b → -miş eki
l[ae]r\b → -ler eki

Coğrafi projeksiyon

Avrasya haritası bbox: lng [18, 115], lat [25, 56]. 980×380 px SVG. Doğrusal projeksiyon. Ülke poligonları Natural Earth 110m'den indirilmiş, basitleştirilmiş JSON.

Otomatik analiz pipeline'ı

PDF yükleme → background thread → derlem_analiz.py → donem_profil.py → derlem.json + donem_profil.json → public/'a kopyala → API memory reload

10Terimler sözlüğü

Terim	Açıklama
Derlem (corpus)	Sistematik biçimde derlenmiş metin külliyatı
Diakronik	Tarihsel zaman içinde değişimi inceleyen yaklaşım
Senkronik	Belirli bir zaman diliminde sabit bir kesit
Polysemy	Bir sözcüğün birden fazla anlama gelmesi
Bigram / N-gram	Art arda gelen N kelime / sembol kalıbı
Collocation	Birlikte sık geçen kelime öbeği
Jaccard benzerliği	İki kümenin kesişiminin birleşimine oranı (0-1)
FTS (Full-Text Search)	Metin içinde tam kelime / önek araması
NFC / NFD	Unicode normalleştirme formları (precomposed / decomposed)
Macron	Uzun ünlü işareti (ā ē ī ō ū)
Sirkumfleks	İnceltme/uzatma işareti (â ê î ô û)
Sağır n	Velar nazal sesi (ŋ ñ); Türkçe "kafnun"
Altı noktalı	Arapça emfatik harfler (ḳ ḥ ḫ ṣ ḍ ṭ ẓ ẕ)
Hemze / Ayn	Arapça glottal işaretleri (ʾ ʿ)
İzogloss	Aynı dilbilim özelliğinin coğrafi sınırı
Sesbilim (fonoloji)	Dilin ses dizgesini inceleyen alan
Morfoloji	Sözcük yapısı ve eklerin incelenmesi
Leksik	Söz varlığı ile ilgili
Türkoloji	Türk dilleri ve kültürünü inceleyen disiplin

11Sıkça sorulanlar

Yeni PDF eklediğimde manuel bir şey yapmam gerekiyor mu?

Hayır. Yükleme tamamlandığında arka planda otomatik analiz başlar. ~2-5 dakika sonra tüm 20 görsel yenilenmiş halde olur. Üst banner ilerlemeyi gösterir.

Bir eser "Belirsiz" dönemde gözüküyor — neden?

Dosya adı henüz bir dönem patternine uymuyor. Yönetime haber ver; pattern listesi analiz/derlem_analiz.py'deki DONEM_KURAL'a bir satır ekleyerek düzeltilir. Sonra "Güncelle" tetikle.

Arama "kelime" modunda neden bazı sonuçlar gelmiyor?

Kelime modu tam sözcük sınırlı arama yapar. Türkçenin eklemeli yapısı nedeniyle "türk" arıyorsan "türkler", "türkçe" gelmez. Ekleri görmek istiyorsan onek moduna geç.

Alıntı oranı %19.7 doğru mu?

Heuristic'tir, yani yaklaşık göstergedir. â/î/û içeren ya da büyük ünlü uyumu bozuk sözcükleri sayıyor. Gerçek alıntı tespiti için etimolojik sözlük entegrasyonu gerekir; şu an sıralamayı (hangi dönem daha alıntılı) doğru yansıtır.

Sözlük yüklediğimde ek bir analiz olur mu?

Evet — sözlük türü PDF eklendiğinde "Sözlükler" sekmesi otomatik dolar. İleride polysemy haritası, etimolojik bağlantılar gibi sözlüğe özel görseller eklenebilir.

Veri nasıl yedekleniyor?

PDF'ler /home/sha/docker/turkcetarih/ dizininde. JSON çıktıları analiz/derlem.json ve analiz/donem_profil.json'da. Sunucu yedeklemesi yöneticinin sorumluluğundadır.