Data Snooping Önyargısı: Geriye Dönük Test Yanılsaması | Petrolandeco

Quant Finans Serisi · Metodoloji

Data Snooping Önyargısı:
Geriye Dönük Test Yanılsaması

Backtesting neden sistematik olarak yalan söyler; Park & Irwin, Brock-Lakonishok-LeBaron ve BIST gerçeği üzerine bir değerlendirme.

Petrolandeco · 2026

Piyasada işe yaradığı kanıtlanmış bir strateji arayan bir yatırımcı düşünün. Tarihi veriyi indiriyor, yüzlerce parametre kombinasyonunu deniyor, sonunda mükemmel bir sonuç buluyor: yıllık yüzde kırk getiri, düşük maksimum kayıp, üstelik tüm kriz dönemlerini de kazanarak geçmiş. Gerçek hayatta bu stratejiyi uyguladığında ise hayal kırıklığı kaçınılmaz. Sorun stratejinin kendisinde değil; o stratejiyi bulduğunu sanan zihnin içinde.

Teknik analizin en ölümcül kusurlarından biri varlığını istatistik yoluyla ispat etmiştir: backtesting, yapısı gereği yanıltıcıdır. Bu yanılsama akademik literatürde "data snooping bias" olarak geçer. Türkçeye tam oturmuş bir karşılığı yoktur; "veri gözetleme önyargısı" ya da "geriye dönük test yanılsaması" denebilir. Ne dersek diyelim, mesele şudur: aynı veri setine yeterince çok sayıda strateji uyguladığınızda, şans eseri mükemmel görünen bir kombinasyon kaçınılmaz olarak ortaya çıkar. Bu kombinasyonun gerçek bir kenarı olmadığı gerçeği, ancak gerçek para kaybedildikten sonra anlaşılır.

Bu yazı, data snooping önyargısını akademik köklerinden BIST gerçekliğine kadar kapsamlı biçimde ele alıyor. Konuya bütünüyle uzak olmayan okuyucular için de; ön bilgisi olmayan yeni başlayanlar için de okunabilir olmasına özen gösterdik.

Meselenin Özü: Arama, Bulmayı Garanti Eder

İstatistik, tesadüfün nasıl çalıştığı konusunda çok açık. Bir bozuk para atıyorsunuz ve on kez üst üste tura geliyor. Bu sonucun olasılığı 1/1024, yani binde bir bile değil. Peki ya bin farklı bozuk parayı aynı anda atarsanız? Tam on tura gelen para sayısı büyük ihtimalle bir civarındadır ve bu sonuç artık şaşırtıcı değildir. Bozuk para hileli değildi; sadece arama uzayı genişledi.

Finansal strateji geliştirme tam olarak bu mekanizmayı kullanır. Yüzlerce, kimi zaman binlerce parametre kombinasyonu geçmiş veri üzerinde test edilir. Kârlı görünen buldurulur ve piyasaya sunulur. Test edilen diğer kombinasyonlar raporlanmaz. Bir şampiyonluk yarışmasında sadece kazananı görmek gibi: galip kimdir sorusunu cevaplamak kolaydır, ama galibin gerçekten yetenekli mi yoksa şanslı mı olduğunu anlamak için elenenlerin de veriye dahil edilmesi gerekir.

Akademik literatürde bu problemi sistematik olarak ele alan ilk kapsamlı çalışmalardan biri, 1992 yılında yayımlanan Brock, Lakonishok ve LeBaron'un ünlü makalesidir. Üç araştırmacı, Dow Jones Endüstriyel Ortalaması'nın 1897-1986 arasındaki günlük verilerini kullanarak hareketli ortalama ve destek-direnç kurallarını test etti. Sonuçlar görünürde olumluydu: teknik kurallar, al-tut stratejisini geçiyor gibiydi. Brock ve arkadaşları bu bulguyu titizlikle raporladılar ve çalışmaları "teknik analizin akademide gördüğü en ciddi destek" olarak anılmaya başladı.

Ancak bu çalışma, öngörülmeyen biçimde data snooping tartışmasının fitilini de ateşledi. Çünkü sonraki araştırmacılar aynı metodoloji üzerinde çok daha geniş bir parametre taraması yaptıklarında ve işlem maliyetlerini dahil ettiklerinde, avantajın büyük ölçüde eridiğini gördüler.

"Yeterince çok test yaparsanız, yeterince çok strateji uyguladığınızda, geçmişte iyi görünen bir şeyi bulmak garanti. Bunun öngörü gücüyle ilgisi yoktur."

Park ve Irwin: Kârlılık Nerede Gerçekten Var?

2007 yılında yayımlanan Park ve Irwin çalışması, teknik analiz kârlılığı üzerine yapılan literatür taramalarının en kapsamlısı olma özelliğini korumaktadır. İki araştırmacı, 95 ayrı çalışmayı inceledi; bu çalışmalarda hisse senedi, döviz ve emtia piyasaları yer alıyordu. Erken dönem çalışmalar (1988-1995) genel olarak olumlu bulgular raporluyordu. Ama metodolojik açıdan daha katı olan çalışmalar, özellikle daha yeni tarihli ve dışarı örneklem (out-of-sample) testi yapanlar, durumun o kadar parlak olmadığını ortaya koydu.

Park ve Irwin'in asıl vurgusu data snooping meselesiydi. Çalışmalar arasındaki tutarsızlığın büyük kısmı, araştırmacıların aynı veri üzerinde birbiriyle çakışan çok sayıda test yapmasından kaynaklanıyordu. Akademisyenler de piyasa katılımcıları da bu hatadan azade değildi. Bir model başarıyla çalışmış gibi görünüyorsa, o görüntü çok sayıda denemenin doğal bir ürünü olabilirdi.

Araştırmacılar özellikle şu hususa dikkat çekti: bir stratejinin geçmiş veride işe yaramış görünmesi, o stratejinin o veriye özgü olduğu anlamına gelebilir. Piyasa koşulları değiştiğinde, strateji hem parametrik hem de kavramsal olarak çöker. Çünkü o strateji bir prensibi değil, o veri setinin gürültüsünü öğrenmiştir.

Sayısal bağlam

95çalışma

Park & Irwin (2007) meta-analiziTeknik analiz kârlılığını inceleyen 95 çalışmanın sistematik değerlendirmesi. Erken dönem çalışmaların büyük çoğunluğunda raporlanan kârlılık, metodoloji sıkılaştırıldıkça azalıyor.

90yıl

BLL çalışmasının veri penceresiBrock, Lakonishok ve LeBaron 1897-1986 dönemini kapsayan DJIA verisiyle çalıştı. Bu kadar uzun bir veri serisinde bile data snooping etkisini dışlamak mümkün olmadı.

%0.5spread

İşlem maliyetinin etkisiBLL çalışmasında varsayılan düşük işlem maliyeti, gerçek piyasa koşullarıyla uyuşmuyordu. Gerçekçi spread ve komisyon varsayımları dahil edildiğinde, kârlılık ortadan kalktı.

3.200+strateji

White (2000) gerçekçilik testiHalbert White, "Reality Check" testinde 3.200'den fazla teknik kural uyguladı. Veri bütünü üzerinde en iyi görünen stratejinin istatistiksel anlamlılığı yoktu.

İstatistiksel Temel: Çoklu Karşılaştırma Problemi

Data snooping'i anlamak için istatistikteki "çoklu karşılaştırma problemi"ni kavramak gerekir. Tek bir hipotezi test ettiğinizde yüzde beş anlamlılık eşiği makuldür; yüz testten birisinin yanlış pozitif çıkması, şans eseri, beklentiler dahilindedir. Ama yüz hipotezi aynı anda test ettiğinizde bu beklenti değişir: sırf şanstan beş tane "anlamlı" sonuç elde edersiniz. Bu beş sonuç gerçek mi, şans mı? Başka bir veri setiyle kontrol etmeden bunu bilemezsiniz.

Finansal araştırmalarda bu problem kronik bir hal almıştır. Bir araştırmacı yüzlerce parametre kombinasyonunu deneyip sadece en iyisini raporladığında, sunduğu p-değeri çarpıtılmış olur. Nominal olarak yüzde bir anlamlılığa sahip görünen bir sonuç, gerçekte yüzde kırk şans eseri ortaya çıkmış olabilir.

Halbert White, 2000 yılında yayımladığı "Reality Check for Data Snooping" başlıklı çalışmasında bu problemi kontrol altına almak için bootstrap yöntemine dayanan bir test geliştirdi. White'ın testi basitçe şunu sorar: bir kural topluluğu arasından seçilmiş en iyi kuralın performansı, sıfır hipotezi (tüm kuralların gerçek kârlılığı sıfır) altında gözlemlenecek en iyi performanstan daha iyi mi? Bu test uygulandığında, çoğu strateji için "evet, gerçekten işe yarıyor" yanıtı vermek istatistiksel açıdan çok zorlaşır.

Teknik Not: White'ın Reality Check Testi

Halbert White'ın 2000 tarihli çalışması, N adet ticaret kuralının topluca değerlendirilmesine imkan tanıyan bir bootstrap testi önerir. Test, en iyi kuralın performansını, tüm kuralların performansının sıfır olduğu bir dağılımdan simüle edilen en iyi performansla karşılaştırır. Bu yöntem "stepwise" biçimde geliştirilmiş ve Romano-Wolf (2005) düzeltmesiyle daha güçlü bir hale getirilmiştir. Uygulama sonuçları tutarsız: Döviz piyasalarında bazı çalışmalar anlamlılık buluyor, hisse senetlerinde neredeyse bulunamıyor.

Overfitting: Şampiyonun Zaafiyeti

Data snooping'in pratik ifadesi overfitting'dir. Bir model geçmiş veriye mükemmel biçimde uyduğunda, o verinin içindeki gerçek sinyali değil gürültüsünü de öğrenmiş demektir. Gürültü tahmin edilemez; her yeni veri seti farklı bir gürültü taşır. Dolayısıyla aşırı uydurulan bir model gerçek hayatta tutarlı biçimde başarısız olur.

Bunu somutlaştıralım. Bir RSI stratejisi geliştiriyorsunuz. Standart 14 günlük periyot seçeneği yerine 7 ile 30 arasındaki tüm tam sayı değerlerini test ediyorsunuz; aşırı alım eşiğini 60'tan 80'e kadar beşer beşer değiştiriyorsunuz; aşırı satım eşiğini 20'den 40'a kadar beşer beşer artırıyorsunuz. Yalnızca bu üç parametre için test sayısı 24 x 5 x 5 = 600'ü aşıyor. Eğer buna moving average filtresi, hacim koşulu, zaman filtresi eklerseniz, test uzayı kolaylıkla on binlere ulaşır. On bin testten bir tane mükemmel sonuç bulmak... zaten istatistiksel olarak beklenmesi gereken şeydir.

Makine öğrenimi literatürü bu problemi çok daha erken tanıyıp aşmak için çeşitli yöntemler geliştirdi: çapraz doğrulama, düzenlileştirme (regularization), dışarıya örneklem testleri, walk-forward analiz. Teknik analizin pratik uygulamasında bu yöntemlerin bir kısmı kullanılıyor olsa da, çoğu bireysel yatırımcı bu tür metodolojik güvencelerden bihaber biçimde backtest yapıp sonuçlara güveniyor.

Bir model geçmiş veriye ne kadar mükemmel uyuyorsa, gelecek hakkında o kadar az şey söylüyor olabilir. Mükemmellik, öğrenmenin değil ezberlemenin işaretidir.

Türk Yatırımcısı ve BIST: Özgün Kırılganlıklar

Türkiye'de bireysel yatırımcıların teknik analize olan ilgisi son on yılda belirgin biçimde arttı. Sosyal medya platformları, özellikle YouTube kanalları ve Telegram grupları, on binlerce kişiye günlük grafik analizi yayıyor. Bu içeriklerin büyük çoğunluğu backtesting üzerine kuruluyor: "Bu stratejiyi son iki yılda şu hisselere uyguladım, bakın nasıl çalışıyor."

BIST özelinde data snooping önyargısını daha da keskin kılan yapısal faktörler var. Bunların başında likidite sığlığı geliyor. BIST 100 bile, küresel ölçekte "derin" sayılabilecek bir piyasa değildir. BIST İkinci Ulusal ve diğer alt endeksler çok daha sığ. Sığ piyasalarda tarihsel veriler, büyük ölçüde birkaç kurumsal oyuncunun ya da ani kapanışların şekillendirdiği fiyat hareketlerini yansıtır. Bu hareketlerin tekrar etme olasılığı, derin ve likit piyasalara kıyasla çok daha düşüktür.

İkinci faktör, BIST'in kısa veri tarihidir. Borsa İstanbul'un elektronik alım satım sistemi 1994'te kuruldu. Derinlikli veri ise 2000'li yılların başına kadar bile güvenilir değil. Bir Türk yatırımcının elinde en fazla yirmi yıllık temiz günlük veri var. Bu kısa veri tarihinde, arka arkaya yaşanan krizler (2001, 2008, 2018, 2021 kur krizleri), yüksek enflasyon dönemleri ve Türk lirasının kronik değer kaybı, her stratejiyi otomatik olarak "çalışır" gösterecek kadar gürültülü bir ortam yaratıyor. TL bazında elde edilen getiriler, enflasyon ve kur etkisi ayıklandığında reel getiriye dönüşmeyebilir. Ama backtest bunu göstermez.

Üçüncüsü, BIST'teki yüksek oynaklık ve manipülasyon riski. Düşük halka açıklık oranına sahip, ince hacimli hisselerde fiyat hareketlerinin "teknik destek/direnç" ile açıklanması neredeyse anlamsızdır. Bir kurumsal oyuncu ya da büyük portföy yöneticisi yeterli hacimle girdiğinde, o hissenin tarihsel görüntüsündeki "destek" anında anlamsızlaşır. Ama söz konusu desenler geçmiş veride mevcuttur ve backtest onları bulur.

BIST bağlamı

~20yıl

Kullanılabilir veri penceresiBIST'te güvenilir günlük verinin geriye uzandığı süre yaklaşık yirmi yıldır. Bu pencerede arka arkaya gelen yapısal kırılmalar (2001, 2008, 2018, 2021), herhangi bir stratejinin gerçek öngörü gücünü sınamak için yetersiz ve gürültülü bir ortam oluşturuyor.

%80+kayıp

2018 TL krizi reel etkisi2018 yılında TL, Ağustos ayında dolar karşısında yaklaşık yüzde kırk değer kaybetti. TL bazında backtest yapan stratejilerin büyük çoğunluğu bu dönemi "başarılı" gösterir; oysa dolar bazında hesaplandığında reel kayıplar dramatik boyutlardaydı.

%25spread

İkinci kademe hisselerBIST İkinci Ulusal ve Serbest İşlem Platformu hisselerinde alış-satış farkı (spread) zaman zaman yüzde yirmi beşi aşıyor. Backtest'ler genellikle kapanış fiyatından işlem yapıldığını varsayar. Gerçekte bu hisselerde o fiyattan emir dolması mümkün değil.

Aronson'ın Çerçevesi: Nesnel Kanıta Dayalı Teknik Analiz

David Aronson'ın 2006 tarihli "Evidence-Based Technical Analysis" kitabı, teknik analiz eleştirisi alanında kaleme alınmış en sistematik çalışmalardan biridir. Aronson, eski bir teknik analist olarak dönüştürücü bir itirafta bulunur: teknik analizin büyük kısmı ne istatistiksel temele sahiptir ne de gerçek anlamda test edilmiştir. Pratisyenlerin "kurallar" olarak kabul ettiği şeyler çoğunlukla subjektif gözlemlere dayanır ve data snooping içerdiği için bilimsel geçerlilikten yoksundur.

Aronson özellikle şu ayrımı yapar: bir kuralın geçmişte işe yaramış olması ile o kuralın öngörü gücüne sahip olması birbirinden apayrı şeydir. Geçmiş başarı, yeterince büyük bir arama uzayında işe yarayan bir kombinasyonu bulmanın matematiksel zorunluluğundan kaynaklanıyor olabilir. Öngörü gücü ise ancak söz konusu kural geliştirme sürecinde kullanılmayan tamamen bağımsız veriler üzerinde test edilerek doğrulanabilir.

Bu ayrım pratikte büyük bir sorun yaratır. Gerçek anlamda bağımsız bir test seti oluşturmak, özellikle geçmişte mevcut olan veriyi kullanmak zorunda kalan bir yatırımcı için neredeyse imkansızdır. Bir araştırmacı, analizi boyunca "hangi parametreler işe yarıyor" sorusunu aklında tutarak veriye baktığı andan itibaren, bağımsız doğrulama için o veriyi artık kullanamaz.

Survivorship Bias: Kaybedenlerin Sessizliği

Data snooping'e eşlik eden ve onu güçlendiren ikinci bir önyargı daha vardır: hayatta kalma önyargısı (survivorship bias). Bugün analiz edilebilir durumdaki şirketler, piyasada var olmaya devam edenlerdir. Delistinge uğrayan, iflas eden ya da birleşmeyle kapanan şirketler veri setinden düşmüştür. Bu, geçmiş veri üzerinde yapılan testlerin doğal olarak daha başarılı görüneceği anlamına gelir: sadece sağ kalmayı başaranları analiz ediyorsunuzdur.

BIST'te bu problem özellikle belirgindir. Pek çok analiz platformu, hâlâ aktif olan hisselerin tarihsel verisiyle çalışır. Delistinge uğrayan onlarca hisse, banka birleşmeleri sırasında kaybolan şirketler, 2001 krizinde kapanan aracı kurumların portföylerindeki hisseler bu hesaplara dahil değildir. Geriye dönük test yapılan "BIST ortalaması", gerçekte hayatta kalanların ortalamasıdır.

Temel Çıkarım

Bir stratejinin geçmiş veride işe yaramış görünmesi ile gelecekte de işe yarayacak olması arasındaki uçurum istatistiksel bir gerçektir. Data snooping, overfitting ve survivorship bias üç ayrı kanal olarak birlikte çalışır ve backtesting sonuçlarını sistematik biçimde gerçekdışı düzeyde iyimser gösterir. Bu üç etkiyi kontrol altına almayan hiçbir tarihsel analiz, öngörü gücünün kanıtı olarak kabul edilemez.

Verimli Piyasalar Hipotezi ile İlişki

Eugene Fama'nın Verimli Piyasalar Hipotezi (VPH) bu tartışmayı daha geniş bir çerçeveye oturtuyor. Fama'nın temel iddiası, kamuya açık bilgilerin fiyatlara zaten yansımış olduğudur. Tarihsel fiyat hareketleri de kamuya açık bir bilgidir; dolayısıyla onlara bakarak sistematik bir avantaj elde etmek mümkün olmamalıdır. Bu, teknik analizin felsefi temelini doğrudan sarsar.

VPH'nin güçlü biçimine hemen herkes itiraz edebilir; piyasalar her zaman mükemmel biçimde verimli değildir. Ama zayıf biçim için bile, yani tarihsel fiyatların geleceği öngörmeye yeterli olmadığı önermesi için, empirik kanıtlar oldukça güçlüdür. Lo ve MacKinlay'ın 1988 tarihli "Stock Market Prices Do Not Follow Random Walks" makalesi kısa vadeli seriler için otokorelasyon bulmuştu; ama bu bulgunun işlem maliyetleri sonrasında pratikte kullanılabilir bir avantaja dönüşüp dönüşmediği ayrı bir sorundur.

Andrew Lo'nun Adaptif Piyasalar Hipotezi daha nüanslı bir çerçeve sunuyor. Lo'ya göre piyasalar bazen verimli, bazen değildir; etkinlik düzeyi piyasa katılımcılarının sayısına, sofistikasyon seviyesine ve rekabet yoğunluğuna bağlıdır. Bu çerçevede teknik stratejilerin belirli dönemlerde geçici üstünlükler sunabileceği kabul edilebilir; ama bu üstünlüklerin sistematik ve kalıcı olduğunu kanıtlamak, data snooping problemini aşmadan mümkün değildir.

Kurumsal Yatırımcılar Neden Farklı?

Bireysel yatırımcının backtest bulgularına körü körüne güvenmesi ile kurumsal bir quant fonunun strateji geliştirme süreci arasındaki farkı anlamak, meselenin pratiğe olan etkisini kavramak açısından önemlidir.

İyi kurgulanmış bir quant fonu şu adımları izler: Önce hipotez geliştirme aşamasında veri hiç kullanılmaz, sadece teorik gerekçe kurulur. Ardından verinin yalnızca belirli bir bölümüyle (in-sample) strateji kalibre edilir. Kalan bölüm (out-of-sample) dokunulmadan bekletilir. Strateji kalibre edildikten sonra, hiç bakılmamış olan kısım üzerinde test yapılır. Bu test yalnızca bir kez gerçekleştirilir; sonuç tatmin edici değilse, ya hipotez reddedilir ya da süreç baştan başlatılır. Her "yeniden deneme" başlangıçta out-of-sample olan bölümü kirletir ve onu artık gerçek anlamda bağımsız kılmaz.

Bu standartların bireysel yatırımcı düzeyinde uygulanması neredeyse imkansızdır. Çünkü çoğu platform, bütün tarihi veriyi aynı anda gösteriyor; stratejinin şekillendirildiği dönem ile test edildiği dönem arasında net bir ayrım yok. Üstelik yatırımcı genellikle çok sayıda deneme yapıyor ve "işe yarayan" sonucu buluyor. Bu süreç otomatik olarak data snooping içeriyor.

Parametre Hassasiyeti: Küçük Değişiklik, Büyük Fark

Gerçek bir öngörü gücü olan stratejiler, parametre seçimine karşı görece dayanıklı olmalıdır. Bir RSI stratejisi 14 günlük periyotta harika çalışıyor ama 13 veya 15 günlük periyotta işe yaramıyorsa, bulunan "avantaj" son derece şüphelidir. Gerçek bir piyasa inefisiyansı, makul parametre aralıklarının tamamında tutarlı biçimde ortaya çıkmalıdır.

Bu teste "parametre hassasiyeti analizi" ya da "robustness check" deniyor. Akademik literatürde kabul gören çalışmalar bu tür dayanıklılık testlerini zorunlu kabul ediyor. Buna karşın piyasada satılan strateji kurslarının büyük çoğunluğunda böyle bir test bulunmuyor. "İşte parametreler, işte getiri" çerçevesiyle sunulan her analiz, bu temel dayanıklılık testini yapıp yapmadığını açıklamak zorunda değilmiş gibi davranıyor.

Robustness Check: Ne Sorulmalı?

Bir stratejinin gerçek öngörü gücüne işaret edip etmediğini değerlendirmek için şu sorular sorulmalıdır: (1) Parametreler en uygun değerlerden yüzde on uzaklaştırıldığında strateji hâlâ kârlı mı? (2) Test farklı piyasa koşullarında (yükseliş trendi, yatay piyasa, sert düşüş) ayrı ayrı yapıldığında sonuçlar tutarlı mı? (3) Aynı strateji benzer piyasalarda (farklı borsa, farklı dönem) da çalışıyor mu? (4) Strateji geliştirilmeden önce, hipotez geliştirme sürecinde hangi teorik gerekçe öne sürüldü? Bu dört soruya tatmin edici yanıt verilemeyen her backtest, istatistiksel açıdan güvenilmezdir.

Zamana Bağlı Çöküş: Keşfedilen Anomali Ortadan Kalkar

Teknik analiz savunucularının zaman zaman öne sürdüğü bir argüman şudur: "Strateji işe yarıyordu, ama herkes bilince işe yaramaz hale geldi." Bu argümanın içinde doğruluk payı var; piyasa anomalileri akademik literatürde yayımlandıktan sonra zaman içinde zayıflama eğilimi gösteriyor. Fakat bu gözlem, backtesting bulgularına duyulan güveni desteklemez; tam tersine zedeler.

Bir anomalinin yayımlanmasından sonra ortadan kalkması, piyasaların o bilgiyi özümsediğini gösterir. Bu, anomalinin gerçek olduğunun kanıtı değildir. Çünkü şu ihtimal de mevcuttur: anomali baştan beri yoktu ve istatistiksel görüntüsü data snooping'in ürünüydü. Gerçek dünyada uygulanmaya başlandığında ortadan kalktı, çünkü zaten hiç yoktu.

McLean ve Pontiff'in 2016 tarihli çalışması bu konuda önemli bir referans noktası sağlıyor. Araştırmacılar akademik literatürde yayımlanan çok sayıda anomaliyi inceledi ve yayım sonrası getiri düşüşünün kısmen gerçek arbitraj aktivitesinden, kısmen de ilk ölçümün data snooping içermesinden kaynaklandığını gösterdi. Yani "anomali gerçekti ama arbitrajlandı" hikayesi her zaman doğru değil; kimi zaman "anomali hiç gerçek değildi" hikayesi daha uygun düşüyor.

Alternatif: Neyi Yapmamalı, Neyi Yapabilirsiniz?

Data snooping problemi, teknik analizin tamamen terk edilmesi gerektiği anlamına gelmez. Ama nasıl yaklaşılması gerektiğini köklü biçimde değiştirir. Şu pratik çerçeve, konuyu ciddiye alan bir yatırımcı için başlangıç noktası olabilir.

Her şeyden önce, bir stratejiyi test etmeden önce yazılı bir hipotez oluşturulmalıdır. "RSI 14 ile yetmiş eşiği kullanacağım çünkü aşırı alım koşullarında kısa vadeli geri dönüş istatistiksel olarak gözlemlenmiş" gibi teorik bir gerekçe olmadan başlanan her test, en başından kirlidir. Parametre seçimi teoriden gelmelidir; veriden değil.

İkinci olarak, test edilecek parametre sayısı başlangıçta kısıtlanmalıdır. "Tüm olasılıkları test edeyim" yaklaşımı yerine, "şu üç parametre kombinasyonunu test edeceğim" kararı önceden verilmelidir. Bu, arama uzayını daraltır ve çoklu karşılaştırma problemini azaltır.

Üçüncüsü, gerçek anlamda out-of-sample bir dönem belirlenmelidir ve bu dönemin tarihi strateji geliştirilmeden önce kapatılmalıdır. Pratik olarak bu, tarihsel verinin belirli bir bölümünü bir kenara koyup, o bölüme bakmadan strateji geliştirip, yalnızca sonunda o kısım üzerinde tek bir test yapmak anlamına gelir.

Dördüncü olarak, gerçekçi işlem maliyetleri dahil edilmelidir. Özellikle BIST'te küçük hacimli hisseler için, backtesting platformlarının varsayılan spread değerleri gerçek piyasa koşullarını yansıtmıyor. Kapanış fiyatından işlem yapıldığını varsayan modeller, pratikte mümkün olmayan varsayımlara dayanıyor.

Son olarak, bir stratejinin geçmişte işe yarıyor görünmesi onu uygulamak için yeterli gerekçe değildir. Bu bilgi ancak yukarıdaki metodolojik güvencelerle birleştiğinde anlam kazanabilir. Aksi halde büyük ihtimalle veriyi ezberleyen, öngörü gücü bulunmayan bir modeli gerçek parayla test etmek anlamına gelir.

Sonsöz: Gerçek Bilgi ile Yanılsama Arasındaki Çizgi

Finansal piyasaların geleceğini öngörmenin ne kadar zor olduğunu hatırlatmak için karmaşık matematiksel argümanlara ihtiyaç yok. Dünyada en fazla veriye, en iyi modellere ve en yetenekli matematikçilere sahip olan kurumların büyük çoğunluğunun dahi uzun vadede piyasayı tutarlı biçimde geçemediği bilinen bir gerçektir. Buna rağmen bireysel yatırımcıların kendi geliştirdikleri, sistematik güvencelerden yoksun backtesting çalışmalarına dayanarak strateji geliştirmesi ve ona güvenmesi, istatistiksel açıdan savunulamaz.

Data snooping, overfitting ve survivorship bias, üç ayrı ve bağımsız kanal olarak birlikte çalışır. Her biri geçmiş performansı olduğundan daha iyi gösterir; üçü bir arada çalıştığında, gerçekte hiç öngörü gücü olmayan bir stratejinin geçmiş veride muhteşem görünmesi matematiksel bir zorunluluk haline gelir.

Türk yatırımcıları bu tuzağa özellikle açıktır. BIST'in kısa veri tarihi, TL'nin kronik değer kaybı, piyasanın görece sığ yapısı ve sosyal medyanın strateji paylaşım kültürü, yanıltıcı backtest sonuçlarının hem üretilmesi hem de tüketilmesi için verimli bir zemin yaratıyor. Bir Telegram grubunda paylaşılan "yüzde yetmiş isabet oranı" iddiasının arkasında kaç parametre taraması yapıldığını, veri setinin ne kadar kısa olduğunu, işlem maliyetlerinin dahil edilip edilmediğini ve out-of-sample testin var olup olmadığını sormak artık bir seçenek değil, zorunluluktur.

Gerçek bir kenar ile istatistiksel bir yanılsama arasındaki çizgi ince değildir. Metodoloji doğru kurulduğunda bu çizgi görünür olur. Kurulmadığında ise piyasa, farkı hesabınızdan düşerek öğretir.

1. Brock, W., Lakonishok, J., LeBaron, B. (1992). "Simple Technical Trading Rules and the Stochastic Properties of Stock Returns." Journal of Finance, 47(5), 1731-1764.

2. Park, C. H., Irwin, S. H. (2007). "What Do We Know About the Profitability of Technical Analysis?" Journal of Economic Surveys, 21(4), 786-826.

3. White, H. (2000). "A Reality Check for Data Snooping." Econometrica, 68(5), 1097-1126.

4. Aronson, D. (2006). Evidence-Based Technical Analysis. Wiley Finance. ISBN 978-0-470-00874-4.

5. Lo, A. W., MacKinlay, A. C. (1988). "Stock Market Prices Do Not Follow Random Walks: Evidence from a Simple Specification Test." Review of Financial Studies, 1(1), 41-66.

6. McLean, R. D., Pontiff, J. (2016). "Does Academic Research Destroy Stock Return Predictability?" Journal of Finance, 71(1), 5-32.

7. Romano, J. P., Wolf, M. (2005). "Stepwise Multiple Testing as Formalized Data Snooping." Econometrica, 73(4), 1237-1282.

8. Lo, A. W. (2004). "The Adaptive Markets Hypothesis." Journal of Portfolio Management, 30th Anniversary Issue, 15-29.

Bu Blogda Ara

Petrolandeco