<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>ERPakademi &#187; VERİ MADENCİLİĞİ</title>
	<atom:link href="http://www.erpakademi.com/category/veri-madenciligi/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.erpakademi.com</link>
	<description></description>
	<lastBuildDate>Tue, 01 Jun 2010 15:27:30 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.9</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<item>
		<title>Veri Madenciliği ve Elektronik Ticaret</title>
		<link>http://www.erpakademi.com/2009/11/15/veri-madenciligi-ve-elektronik-ticaret/</link>
		<comments>http://www.erpakademi.com/2009/11/15/veri-madenciligi-ve-elektronik-ticaret/#comments</comments>
		<pubDate>Sun, 15 Nov 2009 21:41:09 +0000</pubDate>
		<dc:creator>editor3</dc:creator>
				<category><![CDATA[VERİ MADENCİLİĞİ]]></category>
		<category><![CDATA[BI]]></category>

		<guid isPermaLink="false">http://www.erpakademi.com/?p=1349</guid>
		<description><![CDATA[Bu bildiride, veri madenciliği (data mining) konusunun elektronik ticaretteki (electronic commerce, e-commerce) uygulamaları vurgulanacaktır. Veri madenciliğinin tarihçesi, günümüzdeki kullanım alanları ve eksiklikleri tespit edilecektir. Veri madenciliğinin elektronik ticarete kazandıracağı faydalar belirtilecek, veri madenciliği teknikleri ve yöntemleri incelenecektir.
 
1. Giriş
 
Verilerin dijital ortamda saklanmaya başlanması ile birlikte, yeryüzündeki bilgi miktarının her 20 ayda bir kendini iki katına çıkardığı günümüzde [...]]]></description>
			<content:encoded><![CDATA[<p>Bu bildiride, veri madenciliği (data mining) konusunun elektronik ticaretteki (electronic commerce, e-commerce) uygulamaları vurgulanacaktır. Veri madenciliğinin tarihçesi, günümüzdeki kullanım alanları ve eksiklikleri tespit edilecektir. Veri madenciliğinin elektronik ticarete kazandıracağı faydalar belirtilecek, veri madenciliği teknikleri ve yöntemleri incelenecektir.</p>
<p> </p>
<p><strong>1. Giriş</strong></p>
<p> </p>
<p>Verilerin dijital ortamda saklanmaya başlanması ile birlikte, yeryüzündeki bilgi miktarının her 20 ayda bir kendini iki katına çıkardığı günümüzde veri tabanlarının sayısı da benzer, hatta daha yüksek bir oranda artmaktadır. Yüksek kapasiteli işlem yapabilme gücünün ucuzlamasının bir sonucu olarak, veri saklama hem daha kolay olmuş, hem de verinin kendisi de ucuzlamıştır. </p>
<p>Günümüzde oldukça yaygınlaşan elektronik ticaret ve online alışveriş mekanizmalarının da artmasıyla birlikte, bu alanda birbirlerine rakip olan firmaların çalışmaları, veri madenciliğinin önemini ön plana çıkarmaktadır.</p>
<p>Araştırmacıların, geniş, çok hacimli ve dağınık veri setleri üzerinde yapmış oldukları çalışmalar sonucu aşağıdaki sonuçlara varılmıştır.</p>
<p>• Veri madenciliği ve bilgi keşfi (data mining &amp; knowledge discovery), özellikle elektronik ticaret, bilim, tıp, iş ve eğitim alanlarındaki uygulamalarda yeni ve temel bir araştırma sahası olarak ortaya çıkmaya başlamıştır. Veri madenciliği, eldeki yapısız veriden, anlamlı ve kullanışlı bilgiyi çıkarmaya yarayacak tümevarım işlemlerini formüle analiz etmeye ve uygulamaya yönelik çalışmaların bütününü içerir. Geniş veri kümelerinden desenleri, değişiklikleri, düzensizlikleri ve ilişkileri çıkarmakta kullanılır. Bu sayede, web üzerinde filtrelemeler, DNA sıraları içerisinde genlerin tespiti, ekonomideki eğilim ve düzensizliklerin tespiti, elektronik alışveriş yapan müşterilerin alışkanlıkları gibi karar verme mekanizmaları için önemli bulgular elde edilebilir.</p>
<p>• Sayısal verinin miktarı, son 10 yılda bir patlama yaşayarak tahminlerin dışında bir artış göstermiştir. Buna karşılık, bilim adamlarının, mühendislerin ve analistlerin sayısı değişmemektedir. Bu orantısızlığı gidermek için yeni araştırma problemlerinin çözümleri birkaç gruba ayrılabilir :</p>
<p>1. Geniş hacimli ve çok boyutlu veri madenciliği için yeni algoritma ve sistemlerin geliştirilmesi,<br />
2. Yeni veri tiplerinin madenciliği için yeni algoritma, teknik ve sistemlerin geliştirilmesi,<br />
3. Dağıtık veri madenciliği için algoritma, protokol ve altyapıların geliştirilmesi,<br />
4. Mevcut veri madenciliği sistemlerinin kullanımının ilerletilip geliştirilmesi,<br />
5. Veri madenciliği için özel gizlilik ve güvenlik modellerinin geliştirilmesi.</p>
<p>• Tüm bu uğraşların başarıya ulaşması ve sonuç verebilmesi için hükümetin ve çok disiplinli ve disiplinler arası çalışan iş sahalarının desteği gereklidir.</p>
<p>• İlgili sistemlerin, ölçülmüş altyapıların ve test ortamlarının oluşturulmasını gerektiren önemli deneysel bileşenlerin gerçekleştirilmesi gerekir.<br />
<strong>2. Veri Madenciliği Nedir?</strong></p>
<p>Veri madenciliği, eldeki verilerden üstü kapalı, çok net olmayan, önceden bilinmeyen ancak potansiyel olarak kullanışlı bilginin çıkarılmasıdır. Bu da; kümeleme, veri özetleme, değişikliklerin analizi, sapmaların tespiti gibi  belirli sayıda teknik yaklaşımları içerir (William J. Frawley, Gregory Piatetsky – Shapiro, Cristopher J. Matheus).</p>
<p>Başka bir deyişle, veri madenciliği, verilerin içerisindeki desenlerin, ilişkilerin, değişimlerin, düzensizliklerin, kuralların ve istatistiksel olarak önemli olan yapıların yarı otomatik olarak keşfedilmesidir.</p>
<p>Temel olarak veri madenciliği, veri setleri arasındaki desenlerin ya da düzenin, verinin analizi ve yazılım tekniklerinin kullanılması ile ilgilidir. Veriler arasındaki ilişkiyi, kuralları ve özellikleri belirlemekten bilgisayar sorumludur. Amaç, daha önceden fark edilmemiş veri desenlerini tespit edebilmektir.</p>
<p>Veri madenciliğini istatistiksel bir yöntemler serisi olarak görmek mümkün olabilir. Ancak veri madenciliği, geleneksel istatistikten birkaç yönde farklılık gösterir. Veri madenciliğinde amaç, kolaylıkla mantıksal kurallara ya da görsel sunumlara çevrilebilecek nitel modellerin çıkarılmasıdır. Bu bağlamda, veri madenciliği insan merkezlidir ve bazen insan – bilgisayar arayüzü birleştirilir.</p>
<p>Veri madenciliği sahası, istatistik, makine bilgisi, veri tabanları ve yüksek performanslı işlem gibi temelleri de içerir.</p>
<p>Veri madenciliği konusunda bahsi geçen geniş verideki geniş kelimesi, tek bir iş istasyonunun belleğine sığamayacak kadar büyük veri kümelerini ifade etmektedir. Yüksek hacimli veri ise, tek bir iş istasyonundaki ya da bir grup iş istasyonundaki disklere sığamayacak kadar fazla veri anlamındadır. Dağıtık veri ise, farklı coğrafi konumlarda bulunan verileri anlatır.</p>
<p><strong>3. Yeni Uygulamalar<br />
</strong></p>
<p>Veri madenciliği disiplini, bugünkü teknoloji ile tam olarak desteklenemeyen yeni yeteneklere sahip uygulamalara ihtiyaç doğurmuştur. Bu uygulamalar, genel olarak 4 ana kategoride toplanmaktadır.</p>
<p>a) İş ve Elektronik Ticaret Verileri : Geri ofis, ön ofis ve ağ uygulamaları iş süreçleri sırasında geniş çaplarda veri üretirler. Bu veriyi karar verme mekanizmalarında efektif olarak kullanmak, ilgili ticari kuruluşun temel yapı taşlarından olmalıdır.</p>
<p>b) Bilimsel, Mühendislik ve Sağlık Bakım Verileri : Günümüzde bilimsel veriler, iş sahası verilerinden daha da karmaşık hale gelmişlerdir. Buna ek olarak, bilim adamları ve mühendisler uygulama sahası bilgilerini kullanarak simülasyon ve sistem kullanımının arttırılması hedefindedirler.</p>
<p>c) Web Verileri : Internet ve web üzerindeki veriler hem hacim hem de karmaşıklık olarak hızla artmaktadır. Sadece düz metin ve resimden başka akan (streaming) ve nümerik veriler de web verileri arasında yer almaktadır.<br />
Bunların dışında da veri madenciliğinin faydalı olabileceği ve kullanılabileceği sahalar şunlar olarak özetlenebilir.</p>
<p>a) Perakendecilik – marketçilik<br />
b) Bankacılık<br />
c) Taşımacılık / Ulaşım / Konaklama<br />
d) Eğitim Öğretim<br />
e) Finansal Servisler</p>
<p><strong>4. Veri Madenciliğindeki Problemler<br />
</strong></p>
<p>Veri madenciliği girdi olarak ham veriyi sağlamak üzere veri tabanlarına dayanır. Bu da veri tabanlarının dinamik, eksiksiz, geniş ve net veri içermemesi durumunda sorunlar doğurur. Diğer sorunlar da verinin konu ile uyumsuzluğundan doğabilir.</p>
<p>Sınıflandırmak gerekirse başlıca sorunlar şunlardır :</p>
<p>• <strong>Sınırlı Bilgi :</strong> Veri tabanları genel olarak veri madenciliği dışındaki amaçlar için tasarlanmışlardır. Bu yüzden, öğrenme görevini kolaylaştıracak bazı özellikler bulunmayabilir.</p>
<p>• <strong>Gürültü ve Eksik Değerler :</strong> Veri özellikleri ya da sınıflarındaki hatalara gürültü adı verilir. Veri tabanlarındaki eksik bilgi ve bu yanlışlardan dolayı veri madenciliği amacına tam olarak ulaşmayabilir. Bu bilgi yanlışlığı, ölçüm hatalarından, ya da öznel yaklaşımdan olabilir.</p>
<p>•<strong> Belirsizlik :</strong> Yanlışlıkların şiddeti ve verideki gürültünün derecesi ile ilgilidir. Veri tahmini bir keşif sisteminde önemli bir husustur.</p>
<p>• <strong>Ebat, güncellemeler ve konu dışı sahalar :</strong> Veri tabanlarındaki bilgiler, veri eklendikçe ya da silindikçe değişebilir. Veri madenciliği perspektifinden bakıldığında, kuralların hala aynı kalıp kalmadığı ve istikrarlılığı problemi ortaya çıkar. Öğrenme sistemi, kimi verilerin zamanla değişmesine ve keşif sisteminin verinin zamansızlığına karşın zaman duyarlı olmalıdır.<br />
<strong>5. Veri Madenciliğini Etkileyen Eğilimler<br />
</strong></p>
<p>Temel olarak veri madenciliğini 5 ana harici eğilim etkiler :</p>
<p><strong>a) Veri :</strong> Veri madenciliğinin bu kadar gelişmesindeki en önemli etkendir. Son yirmi yılda sayısal verinin hızla artması, veri madenciliğindeki gelişmeleri hızlandırmıştır. Bu kadar fazla veriye bilgisayar ağları üzerinden erişilmektedir. Diğer yanda bu verilerle uğraşan bilim adamları, mühendisler ve istatistikçilerin sayısı hala aynıdır. O yüzden, verileri analiz etme yöntemleri ve teknikleri geliştirilmektedir.</p>
<p><strong>b) Donanım :</strong> Veri madenciliği, sayısal ve istatistiksel olarak büyük veri kümeleri üzerinde yoğun işlemler yapmayı gerektirir. Gelişen bellek ve işlem hızı kapasitesi sayesinde, birkaç yıl önce madencilik yapılamayan veriler üzerinde çalışmayı mümkün hale getirmiştir. </p>
<p><strong>c) Bilgisayar Ağları :</strong> Yeni nesil internet, yaklaşık 155 Mbits/sn lik hatta belki de daha da üzerinde hızları kullanmamızı sağlayacak. Bu da günümüzde kullanılan bilgisayar ağlarındaki hızın 100 katından daha fazla bir sürat ve taşıma kapasitesi demektir. Böyle bir bilgisayar ağı ortamı oluştuktan sonra, dağıtık verileri analiz etmek ve farklı algoritmaları kullanmak mümkün olacaktır. Bundan 10 yıl önceki bilgisayar ağları teknolojisinde hayal edemediklerimizi artık kullanabiliyoruz. Buna bağlı olarak, veri madenciliğine uygun ağların tasarımı da yapılmaktadır.</p>
<p><strong>d) Bilimsel Hesaplamalar :</strong> Günümüz bilim adamları ve mühendisleri, simülasyonu bilimin üçüncü yolu olarak görmekteler. Veri madenciliği ve bilgi keşfi, bu 3 metodu birbirine bağlamada önemli rol almaktadır : teori, deney ve simülasyon.</p>
<p><strong>e) Ticari Eğilimler :</strong> Günümüzde ticaret ve işler çok karlı olmalı, daha hızlı ilerlemeli ve daha yüksek kalitede servis ve hizmet verme yönünde olmalı, bütün bunları yaparken de minimum maliyeti ve en az insan gücünü göz önünde bulundurmalıdır. Bu tip hedef ve kısıtların yer aldığı iş dünyasında veri madenciliği, temel teknolojilerden biri haline gelmiştir. Çünkü veri madenciliği sayesinde müşterilerin ve müşteri faaliyetlerinin yarattığı fırsatlar daha kolay tespit edilebilmekte ve riskler daha açık görülebilmektedir.<br />
<strong>6. Elektronik Ticaret ve Veri Madenciliği</strong></p>
<p> </p>
<p>Günümüzde giderek yaygınlaşan ve gelişen bir sektör haline gelen elektronik ticaret, bilgisayar ve internet kullanıcılarının vazgeçemedikleri bir alışkanlık haline gelmiştir. Bilgisayarlar aracılığıyla istenilen ürün veya ürünlere ulaşmak, sipariş vermek mümkün olmaktadır. Kapsam olarak oldukça genişlediği gibi internet mağazalarının müşteri sayıları ve alışveriş kapasiteleri de tahminlerin ötesinde artışlar göstermektedir.</p>
<p>Internet üzerinde alışveriş yapmak isteyenler için büyük kolaylıklar ve geniş imkanların sağlanmaya çalışıldığı günümüzde, sadece internet bağlantısı olan bir bilgisayar ile elektrikli ev aletlerinden kaset ve CD’ ye, gıda maddelerinden otomobile kadar her şeyi satın almak mümkün hale gelmiştir. İnsanlara da daha kolay geldiği için, elektronik ticaret siteleri oldukça rağbet görmektedir.</p>
<p>İşte bu rekabet içerisinde, ürünlerini internet üzerinden satışa sunan firmalar, farklı satış stratejileri ve sunum taktikleri geliştirerek birbirlerine üstünlük sağlamaya çalışmaktadırlar. Böyle bir ortamda veri madenciliğinin önemi daha da artmıştır. Çünkü benzer kalite ve fiyattaki ürünlerin satıldığı bir pazarda, mevcut müşterilerinin alışveriş alışkanlıklarını, ürünlerin satış grafikleri ve desenlerini ya da müşteri sınıflarının belirlenmesi ve bu sonuçlara göre karar mekanizmalarının çalıştırılması, ilgili ticari kuruluşun rekabet edebilmesi ve hayatta kalabilmesini sağlayacaktır.</p>
<p>Günümüzde, milyonlarca ticari faaliyet gerçekleşmekte ve bu faaliyetlerde milyarlarca müşteri yer almakta. Bu ticari işlemlerin sonucunda da büyük ölçeklerde veri toplanmaktadır. Yakın zaman öncesine kadar, bu veriler sadece stoklanmak üzere kaydedilmiş ve bir daha kullanılmamışlardır. Ancak, ticari rekabet arttıkça ve ürün satmak zorlaştıkça, bu verilere yeniden başvurulmuş ve bazı gizli özelliklerin ortaya çıkarılmasına uğraşılmıştır. Böylelikle veri madenciliği ortaya çıkmıştır.</p>
<p>Ticari işlemler sırasında, iş sahasında büyük riskler ve büyük fırsatlar yer almaktadır. Örneğin müşterinin fatura ücretini ödeyip ödeyemeyeceği kesin değildir ve satıcı firma bu riski göze almalıdır. Ya da bir müşterinin ne kadar para harcayacağı ya da bundan sonra ne alabileceği gibi konularda büyük fırsatlar çıkabilir. İşte bütün bunların düzgün biçimde analiz edilip belirlenmesi, bunun için de eldeki verilerin incelenmesi gerekmektedir.</p>
<p>Veri madenciliğinin tam anlamıyla gerçekleştirilebileceği en uygun alan, elektronik ticarettir. Bu ticaretin işlemleri sırasındaki her türlü bilgi zaten elektronik ortamda tutulmaktadır. Müşteri ve ürün bilgileri de benzer şekilde veri tabanlarında yer almaktadırlar. Hacim ya da boyut ne olursa olsun birbirleriyle ilişkilendirilmiş bu verilerin arasına gizlenmiş olan desenler ya da düzensizlikler, en kolay tespit edilebilen ve göze çabuk çarpan kurallar olarak çıkarılabilir.</p>
<p>Örnek olarak, büyük bir süpermarketin en basit fatura kayıtları incelendiğinde, tıraş bıçağı alan müşterilerin %56 sının kalem pil de aldığı ortaya çıkmıştır. Buna dayanarak firma, tıraş bıçağı ve kalem pil reyonlarını bir araya getirmek suretiyle kalem pil satışlarını %14 arttırmıştır. Bu ve buna benzer örnekler her zaman karşımıza çıkacaktır. Ürünler ve satışları arasındaki bu ilişkilerin belirlenmesiyle,  satış stratejileri değiştirilip kazancın artırılması mümkündür.</p>
<p><strong>7. Veri  Madenciliği İşlevleri<br />
</strong></p>
<p>Veri madenciliğine işlevleri açısından bakılacak olursa, veri madenciliği aktiviteleri 3 sınıf altında toplanmıştır. : Keşif (discovery), tahmini modelleme (predictive modeling) ve adli analiz (forensic analysis).<br />
Keşif, ne olabileceği konusunda önceden belirlenmiş bir fikir ya da hipotez olmadan, veri tabanı içerisinde gizli desenleri arama işlemidir. Geniş veri tabanlarında kullanıcının pratik olarak aklına gelmeyecek ve bulmak için gerekli doğru soruları bile düşünemeyeceği birçok  gizli desen olabilir. Buradaki asıl amaç, bulunacak desenlerin zenginliği ve bunlardan çıkarılacak bilginin kalitesidir.</p>
<p> </p>
<p>Basit bir örnek vermek gerekirse, bir ülkenin nüfus kayıtlarını düşünelim. Kullanıcı, eldeki bu veri tabanına “Bankacıların yaş ortalaması nedir?” şeklinde bir ilk soru sorabilir. Sistemin bu soruya 47 olarak cevap verdiğini varsayalım. Kullanıcı, artık “yaş”la ilgili daha ilginç veriler bulma yoluna gidebilir. Sistem, bu andan itibaren, bir analist gibi hareket edecek ve kurallar çıkarmaya çalışacaktır. Örneğin “Eğer Meslek=Sporcu ise, Yaşı %71 kesinlike 30’dan küçüktür.” kuralının anlamı, eğer veri tabanından 100 adet Sporcu seçilirse, bunların 71 adedinin yaşı, 30’dan küçüktür demektir. Benzer olarak sistem, “Eğer Meslek=Sporcu ise, Yaşı %97 kesinlikle 60’dan küçüktür” sonucunu da çıkarabilir. Bu da 100 sporcudan en az 97 sinin 60 yaşından küçük olduğunu belirtir.</p>
<p> </p>
<p>Tahmini modellemede, veri tabanından çıkarılan desenler, geleceği tahmin için kullanılır. Bu model, kullanıcının bazı alan bilgilerini bilmese bile kayıt etmesine izin verir. Sistem, bu boşlukları, önceki kayıtlara bakarak tahmin yoluyla doldurur. Keşif, verideki desenleri bulmaya yönelikken, tahmini modelleme, bu desenleri yeni veri nesnelerini bulmak için uygular.</p>
<p> </p>
<p>Az önceki örneği baz alırsak, artık mesleği sporcu olan birinin yaşını yaklaşık olarak tahmin edebilmekteyiz. Kayıtlar arasında yaşı bilinmeyen fakat mesleği sporcu olan birini bize söylediklerinde, yaşının %71 kesinlik oranıyla 30’dan küçük, hatta %97 kesinlikle de 60’dan küçük olduğunu tahmin edebiliriz. Burada keşif, genel bilgiyi bulmamıza yardımcı olur ama tahmini modelleme, daha spesifik bilgileri tahmin etmekte kullanılır.</p>
<p> </p>
<p>Adli analiz, normal olmayan ya da sıra dışı veri elemanlarını bulmak için, çıkarılmış desenleri uygulama işlemidir. Sıra dışı olanı bulmak için ilk önce sıradan kısmı tespit etmek gerekir. Örneğimize göre 60 yaşından sonra hala spor yapan %3’lük bir kesimin olduğunu biliyoruz ancak sebebini bilmiyoruz. Bunlar sıra dışı eleman olarak kabul edilmektedirler. Kimisi normalin dışında sağlıklı olabilir ya da yaş ile ilgisi olmayan sporlarla (örneğin golf) uğraşıyor olabilirler. Ya da bu veri tabanındaki bilginin yanlış olabileceğini de gösteriyor olabilir. Göründüğü gibi adli analiz, keşifte aranılan genel bilginin tersine, sıra dışı ve özel durumları araştırır.</p>
<p> </p>
<p><strong>8. Sonuç</strong></p>
<p> </p>
<p>Veri madenciliği ve bilgi keşfi, bilime, mühendisliğe, tıp sahasına, eğitime ve bilhassa ticari hayata yeni uygulamalar kazandıran bir disiplin olarak ortaya çıkmaya başlamıştır. Veri madenciliği sağlam olarak şu iki temele dayanır :<br />
a) Son 20 yılda farklı sahalarda yapılan araştırmalardaki ilerlemeler<br />
b) Bilişim, bilgisayar ağları ve bilgisayar teknolojilerindeki gelişimler.</p>
<p> </p>
<p>Bilhassa dijital veri miktarında artış patlaması ve buna karşılık, bu veriler üzerinde araştırma ve uygulama yapan kişilerin sayısının değişmemesi, çalışmaları veri madenciliğine doğru zorlamıştır. Özellikle e-ticaret in de gelişimi ve beklenmeyen gelişme hızı da veri madenciliğinin önemini bir kat daha arttırmıştır.</p>
<p> </p>
<p>Elektronik ticaret kavramının artık vazgeçilmez olduğu günümüzde, ticari rekabette üstünlük sağlamak için, şimdiye kadar sadece kayıt için tutulan verilerin incelenmesine başlanmış ve bu veriler arasında gizlenmiş olabilecek ve yeni fırsatlar doğuracak desen ve kuralların aranması çalışmaları hız kazanmıştır. Elde edilen sonuçların başarılı olması veri madenciliğinin gerekliliğini ispatlamıştır.</p>
<p> </p>
<p>Ancak, veri madenciliği basite alınmayacak kadar ciddi bir çalışmadır. Bu konudaki çalışmalara hükümet ya da ticaret kollarının önde gelen kuruluşları destek vermeli ve gerekli imkanları sağlamalıdırlar.  Özellikle veri yataklarının temini konusunda hassas davranan firmalar, bu konuda daha açık görüşlü olmaya davet edilmektedirler.</p>
<p> </p>
<p>Veri madenciliğin ileride varacağı hedef ve gereksinimler olarak şu an için yeni ve hızlı algoritmalar, akıllı sistemler, yapay sinir ağlarının bu konu ile uygulamaları, özel güvenlik mekanizmaları geliştirilmelidir. Ayrıca yeni veri modelleri üzerinde de çalışmalar yapılmaktadır.<br />
<strong>Kaynaklar :</strong><br />
1) Robert Grossman – 1999 : Data Mining Research<br />
2) Tukey, J – 1973 : Exploratory Data Analysis<br />
3) Alan Rae, Data Mining Student Notes – The Queen’s University of Belfast<br />
4) SPSS Inc. Chicago, Illionis &#8211; <a href="http://www.spss.com/datamine/">http://www.spss.com/datamine/</a><br />
5) Birmingham University, Andy Pryke &#8211; <a href="http://www.andypryke.com/university/dm_docs/">http://www.andypryke.com/university/dm_docs/</a><br />
6) Data Warehousing Information Center &#8211; <a href="http://www.dwinfocenter.org/">http://www.dwinfocenter.org/</a><br />
7) Information Discovery Inc. – <a href="http://www.datamining.com/">http://www.datamining.com</a></p>
]]></content:encoded>
			<wfw:commentRss>http://www.erpakademi.com/2009/11/15/veri-madenciligi-ve-elektronik-ticaret/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>ÇOK BOYUTLU VERİ GÖRSELLEŞTİRME TEKNİKLERİ</title>
		<link>http://www.erpakademi.com/2009/11/15/cok-boyutlu-veri-gorsellestirme-teknikleri/</link>
		<comments>http://www.erpakademi.com/2009/11/15/cok-boyutlu-veri-gorsellestirme-teknikleri/#comments</comments>
		<pubDate>Sun, 15 Nov 2009 21:40:17 +0000</pubDate>
		<dc:creator>editor3</dc:creator>
				<category><![CDATA[VERİ MADENCİLİĞİ]]></category>
		<category><![CDATA[BI]]></category>
		<category><![CDATA[erp]]></category>

		<guid isPermaLink="false">http://www.erpakademi.com/?p=1347</guid>
		<description><![CDATA[Birçok veri madenciliği uygulamasında verilerin birbiri ile olan ilişkilerinin iyi anlaşılması büyük önem taşır. Bunu gerçekleştirmek için en iyi yol verinin görselleştirilmesidir. Veri görselleştirme teknikleri, bilgisayar grafikleri, görüntü işleme, bilgisayar görüşü (computer vision), kullanıcı arayüzü tasarımı gibi birçok bilim dalının birleşiminden oluşur. Bu teknikler sayesinde bankalar, sayısal kütüphaneler, İnternet siteleri ve metin veritabanları gibi büyük [...]]]></description>
			<content:encoded><![CDATA[<p>Birçok veri madenciliği uygulamasında verilerin birbiri ile olan ilişkilerinin iyi anlaşılması büyük önem taşır. Bunu gerçekleştirmek için en iyi yol verinin görselleştirilmesidir. Veri görselleştirme teknikleri, bilgisayar grafikleri, görüntü işleme, bilgisayar görüşü (computer vision), kullanıcı arayüzü tasarımı gibi birçok bilim dalının birleşiminden oluşur. Bu teknikler sayesinde bankalar, sayısal kütüphaneler, İnternet siteleri ve metin veritabanları gibi büyük veritabanlarının görselleştirilmesi mümkün olmaktadır.</p>
<p> </p>
<p><strong>1. GİRİŞ</strong></p>
<p> </p>
<p>Veri görselleştirme, insanın algılama yetenekleri ve insanlar arası yorumlama farklarını dikkate alarak analiz gerçekleştirmeye olanak verir. Veri görselleştirme teknikleri ile etkili bir biçimde verinin portresinin çıkarılması sağlanabilir ve veri hakkında genel bir kanıya varılabilir [1, 2,3].</p>
<p> </p>
<p><strong>2. ÇOK BOYUTLU VERİTABANLARI</strong></p>
<p> </p>
<p>Çok boyutlu veritabanları bilgi keşfi (information retrieval), görüntü işleme, veri madenciliği, örüntü tanıma ve karar destek sistemleri gibi birçok uygulama alanında önem kazanmaktadır. Günümüzde Veritabanı yönetim sistemleri eski örneklerine göre çok daha karmaşıktır. Modern uygulamalarda veritabanı kavramı yalnızca ilişkisel veya nesne yönelimli olarak iki türe değil, uygulama alanlarına özel birçok farklı türe ayrılmaktadır [15].</p>
<p> </p>
<p><strong>2.1. Çokluortam veritabanları (Multimedia Databases)</strong></p>
<p> </p>
<p>Çokluortam veritabanları birçok farklı biçimde görüntü, ses ve video verileri içerirler. Fotoğrafik görüntüler, uydu görüntüleri, uzaktan algılama resmleri (remotely sensed images) [16], tıbbi görüntüler (iki boyutlu X ışınları ve üç boyutlu beyin MRI taramaları), jeolojik görüntüler,  biyometrik tanımlama (biometric identification) görüntüleri (parmak izi, retina gibi [17]) gibi farklı çokluortam verileri depolamak üzere özelleştirilmiş birçok uygulama bulunmaktadır. Bu uygulamalarda amaç, hedef olarak seçilmiş bir nesneye en fazla benzeyen nesneleri bulmaktır. Bu sebeple her görüntü renk, şekil, desen gibi özelliklerden oluşan özellik vektörlerine (feature vectors) dönüştürülür. Benzerlik (similarity), özellik vektörleri arasındaki uzaklık hesaplanarak bulunur.</p>
<p> </p>
<p><strong>2.2. Zaman serileri veritabanları</strong></p>
<p> </p>
<p>Bu veritabanları finansal, tıbbi ve bilimsel verilerin analizinde, veri madenciliğinde ve karar verme sürecinde kullanılırlar. Zaman serileri veritabanları zaman serisi şeklindeki verileri Ayrık Fourier Dönüşümü (Discrete Fourier Transform) [18] veya Ayrık Dalgacık Dönüşümü (Discrete Wavelet Transform) [19] gibi dönüşüm yöntemleri ile çok boyutlu noktalara dönüştürürler. Benzerlik arama işlemi dönüştürülmüş veriler üzerinde gerçekleştirilir.</p>
<p> </p>
<p><strong>2.3. DNA veritabanları</strong></p>
<p> </p>
<p>Genetik materyal (DNA) bir canlının tüm hücresel fonksiyonları için gerekli tüm bilgileri depolamaktadır. DNA, dört harfli alfabesi olan bir metin dizisidir. Bu dört harf A,C,G ve T olarak dört farklı çeşit nükleotidi temsil eder. Yeni bir metin dizisi (örneğin bilinmeyen bir hastalığa ait olabilir), eski dizilerin herhangi bir bölümü eşleştirilmeye çalışılır. Eşleştirmenin amacı belirli bir uzaklık fonksiyonu kullanılarak aranan metne en fazla uyan bölümü bulmaktır.</p>
<p> </p>
<p><strong>2.4 Doküman veritabanları</strong></p>
<p> </p>
<p>Bu veritabanları çoğunlukla belirli bir dile ait kelimeler veya metinlere ait özellik vektörleri içerirler. Çok fazla sayıda boyuta sahip olabilirler. İnternet’in doğuşu ile birlikte gelişme göstermiştir. İnternet arama motorları, on-line veritabanları, doğal dil işleme, doküman sınıflandırma gibi alanlarda yoğun olarak kullanılmaktadır.<br />
Yukarıda açıklanan veritabanları çok boyutlu veri nesnesi şeklinde temsil edilen ve sayısal verilerden oluşan özellik vektörlerine sahiptir. Bu yüzden bu tür veritabanlarına genel olarak  “çok boyutlu veritabanı” adı verilir. Çok boyutlu veri tabanları, anahtar (key) ifade tabanlı geleneksel sorgular yerine “benzerlik tabanlı” (similarity based) veya içerik tabanlı bilgi çekme (content based retrieval) sorgularına gereksinim duyarlar. Bu tür veri tabanlarında benzer örüntüler arama süreci büyük önem taşır. Çünkü bu süreç tahmin etme, karar verme, bilgisayar destekli tıbbi muayene, hipotez doğrulama ve veri madenciliği için kritik öneme sahiptir [20].</p>
<p> </p>
<p><strong>3. VERİ GÖRSELLEŞTİRMEDE AMAÇ</strong></p>
<p> </p>
<p>İnsanın algılama sistemi yalnızca 3 boyut ile sınırlı olduğu için daha fazla boyut içeren veriler insanın algılama sınırını aşmaktadır. Veri görselleştirme teknikleri çok boyutlu veriyi 2 veya 3 boyuta indirgeyerek görselleştirirken, diğer taraftan da veriler arasındaki ilişkiyi muhafaza edebilmelidir. Bu indirgeme sırasında bir miktar kayıp olması kaçınılmazdır. Görselleştirmede temel hedeflerden biri bu kaybı minimum düzeyde tutmaktır.</p>
<p> </p>
<p>Veri görselleştirmenin iki temel amacı bulunmaktadır. Birinci amaç fikirlerin, kuralların ve kavramların daha iyi anlaşılmasıdır. Tüm bunlar bir bilgi olduğu için bu tür görselleştirmelere “bilgi görselleştirmesi” (knowledge visualization) denir. Diğer amaç ise grafiklerin ve resimlerin yeni fikirler oluşturmak, yeni ilişkiler kurmak, bir hipotezin doğruluğunu sınamak, yeni yapılar keşfetmek veya bu yapıları düzenlemektir. Özetle, bu işlemler insanın görsel algılama sistemini mantıksal problemlerin çözümü için kullanmaktır [20]. Bu tür görselleştirmelere “veri görselleştirme” (data visualization) veya “görsel bilgi keşfi” (visual data exploration) [7] denir.<br />
 <br />
<strong>4. ÇOK BOYUTLU VERİ GÖRSELLEŞTİRME TEKNİKLERİ</strong></p>
<p> </p>
<p>Çok boyutlu veri görselleştirme araçları, bu alandaki birçok çalışmaları ile tanınan Kriegel [7] ve Keim [6] tarafından altı temel sınıfa ayrılmıştır. Bunlar, geometrik izdüşüm teknikleri, ikon tabanlı teknikler, piksel tabanlı teknikler, hiyerarşik teknikler, graf tabanlı teknikler ve karma teknikler olarak literatüre girmiştir.</p>
<p> </p>
<p><strong>4.1. Geometrik İzdüşüm Tabanlı Teknikler</strong></p>
<p> </p>
<p>Bu tür tekniklerin en bilineni iki boyutlu veri setini x ve y eksenleri boyunca kartezyen koordinat sistemine işaretleyen saçılım grafikleridir (scatterplots).</p>
<p>Paralel Koordinatlar [7], k-boyutlu veri setini 2 boyutlu uzaya haritalayan görselleştirme tekniği Şekil 1’de görüldüğü gibi k adet birbirine paralel konumlandırılmış eksenlerden oluşur. Her eksen veri setine ait bir alan ile ilişkilendirilmiştir. Bir alandaki değer aralığı, o alana ait eksen üzerinde ölçeklenmiştir. Her eksen üzerindeki değer işaretlendikten sonra bu değerler düz çizgiler ile birleştirilir. Bu tekniğin en büyük dezavantajı birkaç bin adetten daha fazla nesne içeren veri setleri için uygun olmamasıdır. Nesne sayısı arttıkça üst üste binen çok sayıda çizgi görüntüyü yorumlanabilir olmaktan çıkarmaktadır.</p>
<p> </p>
<p><strong>4.2. İkon Tabanlı Teknikler</strong></p>
<p> </p>
<p>İkon tabanlı teknikler her birçok boyutlu veri nesnesini bir ikon şeklinde sembolize ederler. İkonun her bir görsel özelliği verinin içerdiği değerlere göre değişir. Bu türün ilk örneklerinden biri Chernoff yüzleri tekniğidir [8]. Her veri nesnesi için bir insan yüzü çizilir. Nesneye ait ilk iki boyut yüz resminin 2 boyutlu düzlemdeki konumu belirtir. Diğer boyutların aldığı değerler ile orantılı olarak insan yüzünün burun, ağız, kulak, göz ve yüz şekli değiştirilir (Şekil 2). Bu tekniğin en büyük dezavantajı insan yüzündeki bazı organların diğerlerine göre daha fazla dikkat çekmesidir. Örneğin gözler kulaklardan daha dikkatli algılandığı için karşılaştırma yanılgıları oluşabilir [6]. </p>
<p> </p>
<p>Çubuk şekiller (stick figures) tekniği ise beş kollu çubuk şeklinde ikonlar kullanır [9]. Şekil 3.a’da bir çubuk şekil ve Şekil 3.b’de çubuk şekiller ailesi ile 12 adet veri nesnesi görselleştirilmiştir. Veri nesnesinin ilk iki özelliği çubukların ebatını belirlemekte, diğer özellikler ise ikonun kollarının açısını belirlemekte kullanılır.</p>
<p> </p>
<p><strong>4.3. Piksel Tabanlı Teknikler</strong></p>
<p> </p>
<p>Piksel tabanlı tekniklerde her bir boyuta ait değer renkli bir piksel ile temsil edilir. Şekil 4’de altı boyutlu bir verinin piksel tabanlı görselleştirilmesi görülmektedir.<br />
 <br />
Her boyut ayrı bir dikdörtgen alt pencere içinde konumlandırılarak sahip olduğu değer ile orantılı bir renk ile temsil edilmektedir [10]. Bu teknik çok boyutlu büyük veri setlerinin görselleştirilmesi için elverişlidir.<br />
Şekil 5’de 7000 noktadan oluşan 8 boyutlu ve 6 küme içeren sentetik bir veri seti için spiral dizilim ve eksenlere göre dizilim şeklinde iki farklı sorgu bağımlı görselleştirme görülmektedir. Her bir veri noktasının sorgu noktasına uzaklığını parlak sarıdan yeşile, mavi, koyu kırmızı ve siyah renkler ile kodlanmıştır. Sorgu noktasına en yakın olan nesneler parlak sarı, en uzak olanlar ise siyah ile gösterilmiştir.<br />
 <br />
<strong>4.4. Hiyerarşik Teknikler</strong></p>
<p> </p>
<p>Hiyerarşik teknikler k-boyutlu uzayı alt uzaylara ayırırlar ve bunları hiyerarşik olarak görüntülemeyi sağlarlar. Bu türün en önemli temsilcilerinden biri n-Vision veya diğer adı ile “dünya içinde dünyalar” (worlds-within-Worlds) [11] adlı sistemdir.<br />
 <br />
n-Vision aracı k-boyutlu uzayı birçok üç boyutlu alt uzaya ayırarak görselleştirir. Şekil 6’da altı boyutlu uzayın görüntülenmesi görülmektedir. İlk üç boyut dış koordinat sistemi ile sonraki üç boyut ise iç koordinat sistemi ile gösterilmiştir.</p>
<p> </p>
<p><strong>4.5. Graf Tabanlı Teknikler</strong></p>
<p> </p>
<p>Graf tabanlı teknikler özel yerleşim algoritmaları, sorgulama dilleri ve soyutlama teknikleri kullanarak etkili graflar oluştururlar. Bu alandaki en önemli araçlar Hy+ ve SeeNet araçlarıdır.</p>
<p> </p>
<p>Hy+, yapısal veri setlerini görselleştirmek için kullanılan sorgulama ve görselleştirme sistemidir [4]. Bu araç web sörf oturumları e-posta transferleri gibi verilerin görselleştirilmesinde kullanılır.</p>
<p> </p>
<p>SeeNet, hiyerarşik ağların bağlantı ağırlıkları kullanılarak görselleştirilmesini sağlayan bir araçtır [13]. Bu araç anlamsal düğüm yerleştirme (semantic node placement), yüksek ağırlıklı bağlantılar arasındaki uzaklıkları en aza indirme gibi özelliklere sahiptir. Şekil 7’de bir işyerinde belirli bir zaman dilimi içerisinde gerçekleşen e-posta bağlantıları görselleştirilmektedir [12]. Şekilde düğümlerin boyu bir kişiye ait olan e-posta sayısını, düğümlerin rengi personelin işyerindeki pozisyonunu, bağlantının kalınlığı ise iki düğüm arasındaki e-posta trafiğinin büyüklüğünü göstermektedir.</p>
<p> </p>
<p><strong>4.6. Karma Teknikler</strong></p>
<p> </p>
<p>Karma teknikler görselleştirmenin açıklayıcı niteliğini arttırmak için birden fazla görselleştirme tekniğini bir veya daha fazla pencere içerisinde kullanırlar. Görüntüleme farklı pencereler içerisinde yapıldığında pencereler arasında bağlantı kurmak için farklı etkileşimler ve dinamik yöntemler kullanmak gereklidir. Bu konuda kullanılabilecek yöntemler [14] numaralı referansta incelenebilir.<br />
<strong>4. SONUÇ</strong></p>
<p> </p>
<p>Bu çalışmada çok boyutlu ve çok büyük veritabanlarında etkin olarak çalışabilen görselleştirme araçları incelenmiştir. Bu sistemler, yüksek ölçeklenebilirlik özellikleri ile gelecek yıllarda daha da artacak olan boyut ve büyüklüklere uyum sağlamakta geleneksel yöntemlere göre daha avantajlıdırlar.</p>
<p> </p>
<p><strong>KAYNAKLAR</strong></p>
<p>[1] Carlis, J.V. ; Konstan, J.A.; “Interactive Visualization of Serial Periodic Data.” In UIST’98 Conference Proceedings. New York, NY: ACM Press, USA (1998) 29-38.<br />
[2] Derthick, M.; Kolojejchick, J.; Roth, S. F.; “An interactive visualization environment for data exploration”. In Proc. of KDD-97,  Kanada (1997) 2-9.<br />
[3] Keim, D.A; Kriegel, H.P.; “Visualization Techniques for Mining Large Databases: A Comparison”, IEEE Trans. Knowledge and Data Eng., vol. 8, no. 6, USA (1996) 923-938.<br />
[4] Card, S.K.; Mackinlay, J.D.; Shneiderman, B.; “Readings in Information Visualization: Using Vision to Think”, Morgan Kaufmann Publishers, San Francisco, USA (1999).<br />
[5] Bertin, J.: “Graphics and Graphic Information Processing”, De Gruyter, Berlin, Germany (1981).<br />
[6] Keim, D.A.: “Visual Database Exploration Techniques”, Proc. Tutorial KDD ’97 Intl. Conf. Knowledge Discovery and Data Mining, California, USA, (1997).<br />
[7] Inselberg, A.; Dimsdale, B.: “Parallel Coordinates: A Tool for Visualizing Multidimensional Geometry”, Proc. IEEE Visualization’90, USA (1990) 361-375.<br />
[8] Chernoff, H.: “The Use of Faces to Represent Points in k-Dimensional Space Graphically”, Journal of American Statistical Assoc., vol. 68, USA (1973) 361-368.<br />
[9] Pickett, R.M.; Grinstein G.G.: “Iconographic Displays for Visualizing Multidimensional Data,” Proc. IEEE Conf. Systems, Man, and Cybernetics, (1988) 514-519.<br />
[10] Keim, D.A.; Kriegel, H.P.: “VisDB: Database Exploration Using Multidimensional Visualization,” IEEE Computer Graphics and Applications, vol. 14, no. 5, USA (Eylül 1994) 40-49.<br />
[11] Feiner, S.; Beshers, C.: “Worlds within Worlds: Metaphors for Exploring n-Dimensional Virtual Worlds”, Proc. of User Interface Software and Technology, (1990), 76-83.<br />
[12] Keim, D.A.: “Visual Data Mining”, Tutorial Notes, Proc of VLDB, Atina, Yunanistan, (1997).<br />
[13] Becker, R.A.; Eick, S.; Wilks, A.R.: “Visualizing Network Data”, Trans. On Visualization and Computer Graphics 1(1), (1995), 16-28.<br />
[14] Cristina, M.; Oliveira, F.D.; Levkowitz, H.: “From visual data exploration to visual data mining: a survey.”,  IEEE Transactions on Visualization and Computer Graphics, 9(3), (2003), 378-394.<br />
[15] Li, Y.: “Efficient Similarity Search in High Dimensional Data Spaces”, Doktora Tezi, New Jersey Institue of Technology, Department of Computer Science, (2004).<br />
[16] Richards, J.: “Remote Sensing Digital Image Analysis, An Introduction”, Wiley and Sons, New York, USA (1993).<br />
[17] Jain, A.; Lin, H.; Pankanti, S.; Bolle, R.: “An identity-authentication system using fingerprints.”, Proceedings of the IEEE, 85(9), (1997), 1365-1388.<br />
[18]  Agrawal, R., Faloutsos, C.; Swami, A.: “Efficient similarity search in sequence databases.”, In Proc. 4th International Conf. On Foundations of Data Organization and Algorithms (FODO), (1993), 69-84.<br />
[19] Press, W.; Teukolsky, S.; Vetterling, W.; Flannery, B.: “Numerical Recipes in C, the Art of Scientific Computing”, Cambridge University Press, Cambridge, UK, 2nd Edition, (1992).<br />
[20] Faloutsos, C.: “Searching Multimedia Databases by Content”, Kluwer Academic Publishers, Boston, MA, (1996).</p>
<p> </p>
<p><span> </span></p>
]]></content:encoded>
			<wfw:commentRss>http://www.erpakademi.com/2009/11/15/cok-boyutlu-veri-gorsellestirme-teknikleri/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Veri Madenciliği Ve Uygulama Programları</title>
		<link>http://www.erpakademi.com/2009/11/15/veri-madenciligi-ve-uygulama-programlari-2/</link>
		<comments>http://www.erpakademi.com/2009/11/15/veri-madenciligi-ve-uygulama-programlari-2/#comments</comments>
		<pubDate>Sun, 15 Nov 2009 21:38:30 +0000</pubDate>
		<dc:creator>editor3</dc:creator>
				<category><![CDATA[VERİ MADENCİLİĞİ]]></category>
		<category><![CDATA[BI]]></category>
		<category><![CDATA[erp]]></category>
		<category><![CDATA[PAZARLAMA]]></category>
		<category><![CDATA[proje]]></category>

		<guid isPermaLink="false">http://www.erpakademi.com/2009/11/15/veri-madenciligi-ve-uygulama-programlari-2/</guid>
		<description><![CDATA[Günümüzde çeşitli uygulamalardan, internet, web logları gibi kaynaklardan giderek daha fazla veri toplanmakta ve veri tabanlarında saklanmaktadır. Fakat, bu veriler halen birçok uygulamada sadece raporlama amaçlı olarak kullanılmaktadır. Oysa bu veriler, içerisinde şirketler ve kuruluşlar için çok kıymetli örüntüleri barındırmaktadır. Bu da şirketlerin ve kuruluşların veri yönünden zengin fakat bilgi yönünden fakir olduğu sonucunu doğurmaktadır. [...]]]></description>
			<content:encoded><![CDATA[<p>Günümüzde çeşitli uygulamalardan, internet, web logları gibi kaynaklardan giderek daha fazla veri toplanmakta ve veri tabanlarında saklanmaktadır. Fakat, bu veriler halen birçok uygulamada sadece raporlama amaçlı olarak kullanılmaktadır. Oysa bu veriler, içerisinde şirketler ve kuruluşlar için çok kıymetli örüntüleri barındırmaktadır. Bu da şirketlerin ve kuruluşların veri yönünden zengin fakat bilgi yönünden fakir olduğu sonucunu doğurmaktadır. Verinin bilgiye dönüştürülmesi noktasında veri madenciliği kavramı ile karşılaşılmaktadır. Veri madenciliği çalışmaları yapmak için birçok program geliştirilmiştir. Bu programlardan biri SQL Server 2005 bir diğeri ise WEKA programıdır. Bu çalışmada veri madenciliği hakkında bilgi verilmiştir. Ayrıca Sql Server 2005 ve WEKA’da bir uygulama geliştirme aşamaları anlatılmıştır.</p>
<p> </p>
<p>1. GİRİŞ</p>
<p> </p>
<p>Günümüzde birçok kaynaktan veri alıp bu verileri veritabanlarında saklayan kurumların amaçlarından biri de ham verileri bilgiye dönüştürmektir. Örneğin; Bankalara hergün binlerce kişi kredi alabilmek için başvuruda bulunmaktadır. Bankalar da  başvuruda bulunan kişilerden taleplerini belirten bir form doldurmalarını istemektedir. Bu formla birlikte bireylerin demografik özelliklerini de içeren veriler veritabanlarında saklanmaktadır. Böylece istenildiği zaman bu bilgilere ulaşılabilmekte veya bu bilgiler analiz edilebilmektedir.</p>
<p> </p>
<p>Sadece verilere ulaşmak ve onları sorgulamak yeterli değildir. Veri tek başına değersizdir. Önemli olan varolan veriyi bilgiye dönüştürmektir. Örneğin; Banka elindeki eski verileri kullanarak yeni başvuruda bulunan kişilerin kredi taleplerini onaylayıp onaylamayacağına karar verebilir. Böylece banka sakladığı eski verilerini yeni kredi taleplerini onaylarken bilgi olarak kullanmış olmaktadır.</p>
<p> </p>
<p>Bu işlem yani veriyi bilgiye dönüştürme işlemi veri madenciliği olarak adlandırılmaktadır. Veri madenciliği ile birçok alanda çalışmalar yapılmış ve yapılmaktadır. Chang ve Leu çalışmalarında proje karlılık değişkenlerini tanımlayabilmek için bir veri madenciliği modeli oluşturmuşlardır [1]. Hou, Lian, Yao, Yuan çalışmalarında bir havalandırma sistemi yapmak için veri madenciliği tabanlı sensör hatası tanımlama ve doğrulama modeli gerçekleştirmişlerdir [2]. Bayam, Liebowitz, Agresti çalışmalarında  yaşlı sürücülerin kaza yapmalarına etken olan faktörleri veri madenciliği süreci ile belirlemişlerdir [3]. Wang ve Hong çalışmalarında veri madenciliği tekniklerini kullanarak bir müşteri karlılık yönetim sistemi geliştirmişlerdir [4]. Delen, Walker, Kadam çalışmalarında veri madenciliği tekniklerini kullanarak bir hastanın göğüs kanserinden ölüp ölmeyeceğini tahmin eden bir model geliştirmişlerdir [5]. Rushing, Ramachandran, Nair, Graves, Welch, Lin ise çalışmalarında bilim adamları ve mühendisler için bir veri madenciliği toolbox’ı geliştirmişlerdir[6].</p>
<p> </p>
<p>Veri madenciliği uygulamalarını gerçekleştirmek için bugüne kadar birçok araç geliştirilmiştir. Bu araçlardan biri microsoft firması tarafından geliştirilen ve yeni piyasaya sürülen SQL Server 2005 ürünüdür. Bir diğer ürün ise Waikato Üniveristesi tarafından java paltformu üzerinde açık kodlu olarak geliştirilen de devamlı güncellenen WEKA’dır.</p>
<p> </p>
<p>Makalenin bundan sonraki bölümlerinde sırasıyla veri madenciliği kavramı, veri madenciliği süreçleri,  SQL Server 2005 ile veri madenciliği uygulaması geliştirme adımları ve WEKA ile veri madenciliği uygulaması geliştirme adımları hakkında bilgi verilmiştir.<br />
2. VERİ MADENCİLİĞİ</p>
<p> </p>
<p>Büyük veritabanlarından gizli kalmış örüntüleri çıkarma sürecine veri madenciliği adı verilmektedir. Geleneksel yöntemler kullanılarak çözülmesi çok zaman olan problemlere veri madenciliği süreci kullanılarak daha hızlı bir şekilde çözüm bulunabilir [7]. Veri madenciliğinin ana amacı elimizde bulunan veriden gizli kalmış örüntüleri (patterns) çıkarmak, elimizdeki verinin değerini arttırmak ve veriyi bilgiye dönüştürmektir [8].</p>
<p> </p>
<p>Bugün veri madenciliğinin; bankacılık, pazarlama, sigortacılık, telekomünikasyon, borsa, sağlık, endüstri, bilim ve mühendislik gibi birçok dalda uygulama  alanı bulunmaktadır.   Bu dallardaki uygulama alanlarına aşağıdaki gibi örnekler verilebilir.</p>
<p> </p>
<p>•  Bankacılık: Risk analizleri ve usulsüzlük tespiti.<br />
•  Pazarlama: Çapraz satış analizleri, müşteri segmentasyonu.<br />
•  Sigortacılık: Müşteri kaybı sebeplerinin belirlenmesi, usulsüzlüklerin önlenmesi.<br />
•  Telekomünikasyon: Hile tespiti, hatların yoğunluk tahminleri.<br />
•  Borsa: Hisse senedi fiyat tahmini, genel piyasa analizleri.<br />
•  Tıp: Tıbbi teşhis, uygun tedavi sürecinin belirlenmesi.<br />
•  Bilim ve Mühendislik: Amprik veriler üzerinde modeller kurularak bilimsel ve teknik problemlerin çözümlenmesi.<br />
•  Endüstri: Kalite kontrol, lojistik.</p>
<p> </p>
<p>Veri Madenciliği bir yöntem değildir bir süreçtir. Bu süreçte ana unsur süreci gerçekleştiren uygulamacıdır. Süreçte bulunan adımlar doğru olarak yerine getirilmediği sürece istenilen sonuca ulaşılması mümkün değildir.  Aşağıda veri madenciliği süreçleri ve bu süreçlerin anlamları açıklanmıştır.</p>
<p> </p>
<p>2.1 Veri Toplama</p>
<p> </p>
<p>Veri madenciliğinin birinci adımı veri toplamadır. İş dünyasında veriler birçok farklı ortamda depolanmaktadır. Örneğin; Microsoft’da veriler yüzlerce OLTP veritabanında ve 70’in üzerinde veri ambarında(data warehouse) saklanmaktadır. Burada ilk adım veri tabanlarından veya veri ambarlarından yapılacak uygulama için uygun verileri çekmektir [9].</p>
<p> </p>
<p>Daha sonra, yani veri toplama işlemi bittikten sonra, veriler test ve analiz veri seti olarak iki gruba ayrılmalıdır. Genellikle yapılan uygulamalarda verilerin %80’i analiz %20’si ise test verisi olarak ayrılır [9].</p>
<p> </p>
<p>2.2 Veri Temizleme ve Dönüştürme<br />
Veri dönüşümünün amacı ise, elimizdeki kaynak veriyi farklı formatlara veya değerlere dönüştürmektir [9]. Örneğin;  Veritabanındaki mantıksal(boolean) bir alan integer bir tipe dönüştürülebilir. Bunun sebebi ise kullanılan bazı veri madenciliği algoritmalarının integer veri tipiyle Boolean veri tipine göre daha başarılı sonuçlar üretmesidir.<br />
Veri temizleme işleminin amacı, veriler içindeki uygun olmayan veya hatalı girilmiş verileri ayıklamaktır [9]. Bu işlemde eksik veriler uygun değerler ile doldurulur. Eğer eksik veri çok ise bu kaydın silinmesi gerekir.<br />
2.3 Model Kurma</p>
<p> </p>
<p>Model kurma veri madenciliğinin çekirdeğidir. Modeli doğru bir şekilde kurabilmek için yapılacak projenin amacı çok iyi bir şekilde kavranmış olmalıdır. Her amaçla ile ilgili birden fazla algoritma mevcuttur. Bu durumda eldeki veriler üzerinde uygun algoritmaların hepsi çalıştırılır ve en doğru sonucu veren algoritma kullanılır.</p>
<p> </p>
<p>2.4 Model Değerlendirme</p>
<p> </p>
<p>Eldeki veriler üzerinde uygun algoritmalar çalıştırıldıktan sonra en doğru sonucu hangisinin verdiğini bulmak için çeşitli yöntemler mevcuttur. Örneğin, tahmine yönelik sayısal veriler varsa ve kullanılan modelin doğruluğu test edilmek isteniyorsa MAPE (Mean Absolute Percentage Error) yöntemini kullanabilir.</p>
<p> </p>
<p>2.5 Raporlama</p>
<p> </p>
<p>Raporlama veri madenciliği bulgularını göstermek  için önemli bir dağıtım kanalıdır. Birçok veri madenciliği aracı elde edilen modelden kullanıcıların daha önceden tanımladığı raporları göstermek için gerekli araçlara sahiptir [9].</p>
<p> </p>
<p>2.6 Tahmin(Scoring)<br />
Birçok veri madenciliği projesinde, örüntüleri(patterns) bulmak çalışmanın yarısıdır. Esas amaç, tahmin için modeli kullanmaktır. Tahmin veri madenciliği terminolojisinde scoring olarak da adlandırılır. Tahmin yapabilmek için eğitilen model ve yeni durumları içeren veri setinin olması gerekir [9]. Böylece, eğitilen model kullanılarak yeni durumlar için tahminde bulunulabilir.</p>
<p> </p>
<p>2.7 Uygulama Entegrasyonu<br />
Bu aşamada kurulan veri madenciliği modeli gerçek zamanlı olarak çalıştırmak üzere geliştirilen uygulama içerisine gömülür.<br />
2.8 Model Yönetimi<br />
Her bir veri madenciliği modeli bir yaşam döngüsüne sahiptir. Bazı uygulamalarda işler, özellikler durağandır ve modelin yeniden eğitilmesine gerek yoktur. Fakat birçok iş özellikleri sık sık değişir. Yeni veriler geldikçe modelin yeniden eğitilmesine gerek vardır. Yani bir model kurulduktan sonra eğer çok sık olarak veri setinde değişiklik yapılıyorsa model sık sık güncellenmelidir [9].</p>
<p> </p>
<p>3. SQL SERVER 2005’TE VERİ MADENCİLİĞİ</p>
<p> </p>
<p>SQL Server 2000 sürümünde de veri madenciliği uygulamalarına destek vermekteydi. SQL Server 2005 sürümüyle veri madenciliği uygulamalarına verdiği desteği artırmış ve uygulama geliştiricilerin projelerini daha kolay ve rahat geliştirebilecekleri bir ortam sunmuştur. SQL Server 2005 sürümünde veri madenciliği uygulamaları yapmak için  Business Intelligence Development Studio isimli geliştirme ortamı kullanılmaktadır. Bu ortam Visual Studio ürününün içerisine entegre edilmiştir.</p>
<p> </p>
<p>Bir veri madenciliği uygulaması gerçekleştirebilmek için öncelikle Analysis Service’in çalışıyor olması gerekmektedir. Bundan sonraki adımda ise Visual Studio geliştirme ortamına girildikten sonra yeni bir proje oluştururken Business Intelligence Project seçeneği içerisindeki proje seçeneklerinden Analysis Services Project seçeneği seçilmelidir. Bu adımdan sonra Şekil 1’de gösterilen ekran ile karşılaşılmaktadır.</p>
<p> </p>
<p>Bu açılan ekranda sağ tarafta Solution Explorer Penceresi ve bu pencerenin içerisinde de proje içerisinde gerçekleştirilmesi gereken adımları gösteren seçenekler bulunmaktadır. Aşağıda başlangıç seviyesinde bir uygulama oluşturmak için kullanılması gereken seçenekler ve görevleri anlatılmaktadır</p>
<p> </p>
<p>3.1 Data Source</p>
<p> </p>
<p>Bu seçenek kullanılarak ulaşılmak istenen veri kaynağı ile bağlantı kurulması sağlanmaktadır. Bu işlemi gerçekleştirmek için bu seçenek üzerinde sağ tuşa tıklanarak New Data Source menü seçeneği seçilmelidir. Bundan sonra ekrana gelen wizard ekranı takip edilerek gerekli veri kaynağına bağlanma işlemi tamamlanır.</p>
<p> </p>
<p>3.2 Data Source Views</p>
<p> </p>
<p>Bilindiği gibi bir veri madenciliği uygulamasında veri tabanında bulunan tüm tablolar ve bu tablolar içerisindeki tüm alanlar kullanılmaz. Bu tablolar içerisinden uygulamada kullanılacak olanlar seçilmeli ve bunlar üzerinde işlem yapılmalıdır. Data Source Views seçeneği ile veri tabanından uygulamada kullanılacak olana tabloların ve bu tablolardaki alanların seçilmesi sağlanmaktadır. Bu aşamada veri kaynağına ulaşmak için bir önceki adımda oluşturulan bağlantı kullanılır. Bu işlemi gerçekleştirmek için bu seçenek üzerinde sağ tuşa tıklanarak New Data Source View menü seçeneği seçilmelidir. Bundan sonra ekrana gelen wizard ekranı takip edilerek gerekli veri kaynağından istenilen verilerin seçilmesini sağlayan view oluşturulur. Bu aşama sonucunda Şekil 2’deki ekran ile karşılaşılır.</p>
<p> </p>
<p>Bir view oluşturulduktan sonra bu view üzerindeki tablolarda sanal kolonlar açılabilmekte veya view’e sanal tablolar eklenebilmektedir. Bu da veri madenciliğinin adımlarından biri olan veri dönüştürme işleminin daha kolayca bitirilmesine yardımcı olmaktadır.</p>
<p> </p>
<p>3.3 Mining Structures</p>
<p> </p>
<p>Gerekli view oluşturlduktan sonra geriye uygun modelin seçimesi kalmaktadır. Sql Server 2005 Microsoft Clustering, Microsoft Decision Trees, Microsoft Linear Regression, Microsoft Logistic Regression, Microsoft Naive Bayes, Microsoft Neural Network, Microsoft Sequence Clustering, Microsoft Time Series modellerinin veriler üzerinde uygulanmasına izin vermektedir. Bu seçenekler içerisinden uygulama için uygun olan seçenek seçilerek model kurulur.</p>
<p> </p>
<p>Bu aşamadan sonra modeli eğitmek için Mining Model Viewer seçeneği seçilir. Bu seçenek yardımıyla model, seçilen algoritma kullanılarak eğitilir ve sonuçlar bulunur. Modelin doğruluğu test etmek için Model Accuracy Chart seçeneği seçilir. Eğer bir sayısal tahmin yapılıyorsa buradaki seçeneklerden Lift Chart seçeneği kullanılarak modelin doğruluğu test edilebilir.</p>
<p> </p>
<p>Eğer modelin doğruluğu onaylanmışsa ve yeni verilerin sonuçları kurulan modele göre alınacaksa Mining Model Prediction seçeneği kullanılır.</p>
<p> </p>
<p>4. WEKA’DA VERİ MADENCİLİĞİ</p>
<p> </p>
<p>WEKA bir proje olarak başlayıp bugün dünya üzerinde birçok insan tarafından kullanılmaya başlanan bir veri madenciliği uygulaması geliştirme programıdır. WEKA java platformu üzerinde geliştirilmiş açık kodlu bir programdır WEKA programı http:// <a href="http://www.cs.waikato.ac.nz/ml/weka/">www.cs.waikato.ac.nz/ml/weka/</a> adresinden indirilebilmektedir.</p>
<p> </p>
<p>WEKA ilk çalıştırıldığında Şekil 3’deki ekran ile karşılaşılmaktadır. Bu ekranda WEKA ile çalışmak istenilen mod seçilebilmektedir. Bunlar komut modunda çalışmayı sağlayan Simple CLI, projenyi adım adım görsel ortamda gerçekleştirmeyi sağlayan Explorer ve projeyi sürükle bırak yöntemiyle gerçekleştirmeyi sağlayan KnowledgeFlow seçenekleridir.</p>
<p> </p>
<p>Burada projeyi adım adım gerçekleştirmeyi sağlayan explorer seçeneği ile veri madenciliği projesi gerçekleştirme aşamaları hakkında bilgi verilecektir.</p>
<p> </p>
<p>Explorer seçeneği seçildikten sonra üzerinde çalışılacak verilerin seçilmesi, bu veriler üzerinde temizleme ve dönüştürme işlemlerinin gerçekleştirilebilmesini sağlayan Şekil 4. deki ekran ile karşılaşılmaktadır.</p>
<p> </p>
<p>WEKA arff isimli dosya formatını desteklemektedir. Herhangi bir text soyadaki verileri weka ile işlemek olanaksızdır. Yarıca veri tabanlarına bağlanılarak da veriler weka ortamına çekilebilmektedir. Bunun dışında şu anda geliştirilmiş araçlar kullanılarak veri tabanlarındaki bilgiler arff formatına çevrilerek WEKA’da işlenebilmektedir.</p>
<p> </p>
<p>Bu adımdan sonra yapılacak olan projenin amacına göre açılan sayfadaki uygun tabdaki (Classify, Cluster, Associate)  uygun algoritma veya algoritmalar seçilerek veriler üzerine uygulanmakta ve en doğru sonucu veren algoritma seçilebilmektedir.</p>
<p> </p>
<p>5. İKİ PROGRAMIN KARŞILAŞTIRILMASI</p>
<p> </p>
<p>Öncelikle WEKA SQL Server 2005’e göre daha fazla algoritmayı desteklemektedir. Ayrıca WEKA’da elimizdeki verilerden hangisini giriş parametresi olarak seçebileceğimizi belirlememizde yardımcı olan birçok algoritma da verilmiştir. Sql Server 2005’de bu işlem uygulama geliştirme aşamasında algoritma seçimi olmadan tek bir seçenekle kullanıcıya öneri olarak verilmektedir. WEKA’yı uygulamalara entegre edebilmek için java dilini bilmek gerekmeketdir. Oysa SQLSERVER 2005 ile geliştirilen bir veri madenciliği modeline .NET destekleyen tüm diller ile kolayca ulaşmak mümkündür. Sql Server 2005 WEKA’ya göre daha kolay kullanılabilir bir arayüze sahiptir.</p>
<p> </p>
<p>4. SONUÇLAR</p>
<p> </p>
<p>Gartner Araştırma şirketinin yaptığı bir çalışmaya göre, gelecek birkaç yıl içerisinde daha fazla uygulama içerisinde veri madenciliği komponentleri eklenmiş olacaktır [9]. Bu da gösteriyor ki veri madenciliği önümüzdeki yıllarda daha fazla önem kazanmaya başlayacak ve daha fazla şirket verilerini bilgiye dönüştürmek isteyecektir.</p>
<p> </p>
<p>Bu bağlamda varolan veri madenciliği  araçları da kendilerini yenileyeceklerdir. SQL Server 2005 ve WEKA bu alanda kendine iyi bir yer edineceklerdir.</p>
<p> </p>
<p>KAYNAKLAR</p>
<p>[1] Chang, A.,S., Leu, S., ‘Data mining model for identifying project profitability variables’,International Journal of Project Management, October 2005<br />
[2] Hou, Z., Lian, Z., Yao, Y., Yuan, X., ‘Data mining based sensor fault diagnosis and validation for building air conditioning system’,  Energy Conversion and Management, January 2006<br />
[3] Bayram, E. , Liebowitz, J. , Agresti, W. , ‘Older drivers and accidents: A meta analysis and data mining application on traffic accident data’, Expert Systems with Applications, vol 29, October 2005,pp598-629.<br />
[4] Wang, H., Hong, W., ‘Managing customer profitability in a competitive market by continuous data mining’, Industrial Marketing Management, July 2005<br />
[5] Delen, D., Walker, G., Kadam, A., ‘Predicting breast cancer survivability: a comparison of three data mining methods’, Artificial Intelligence in Medicine, vol 34, June 2005, pp113-127<br />
[6] Rushing, J., Ramachandran, R., Nair, U., Graves, S., Welch, R., Lin, H., ‘ADaM: a data miningtoolkit for scientists and engineers’, Computers &amp; Geosciences, vol 31, June 2005, pp607-618<br />
[7] Hung, S., Yen, D., C., Wang, H., ‘Applying data mining to telecom churn management’, Expert Systems with Applications, October 2005, pp. 1-10<br />
[8]http://www.sqlnedir.com/Members/ArticleDetail.aspx?Id=81<br />
[9] Tang, Z., MacLennan, J. ,&#8221;Data Mining with Sql Server 2005&#8243;, Wiley, 2005</p>
<p> </p>
<h3><a href="http://www.erpakademi.com/wp-admin/index.php?option=com_docman&amp;task=doc_download&amp;gid=66&amp;Itemid="><img src="http://www.erpakademi.com/wp-admin/components/com_docman/themes/default/images/icons/16x16/doc.png" border="0" alt="icon" width="16" height="16" /> Veri Madenciliği Ve Uygulama Programları (<span>366 kB</span>)</a></h3>
]]></content:encoded>
			<wfw:commentRss>http://www.erpakademi.com/2009/11/15/veri-madenciligi-ve-uygulama-programlari-2/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Veri Madenciliği Ve Uygulama Programları</title>
		<link>http://www.erpakademi.com/2009/11/15/veri-madenciligi-ve-uygulama-programlari/</link>
		<comments>http://www.erpakademi.com/2009/11/15/veri-madenciligi-ve-uygulama-programlari/#comments</comments>
		<pubDate>Sun, 15 Nov 2009 21:37:14 +0000</pubDate>
		<dc:creator>editor3</dc:creator>
				<category><![CDATA[VERİ MADENCİLİĞİ]]></category>
		<category><![CDATA[BI]]></category>
		<category><![CDATA[erp]]></category>
		<category><![CDATA[PAZARLAMA]]></category>
		<category><![CDATA[proje]]></category>

		<guid isPermaLink="false">http://www.erpakademi.com/?p=1344</guid>
		<description><![CDATA[Günümüzde çeşitli uygulamalardan, internet, web logları gibi kaynaklardan giderek daha fazla veri toplanmakta ve veri tabanlarında saklanmaktadır. Fakat, bu veriler halen birçok uygulamada sadece raporlama amaçlı olarak kullanılmaktadır. Oysa bu veriler, içerisinde şirketler ve kuruluşlar için çok kıymetli örüntüleri barındırmaktadır. Bu da şirketlerin ve kuruluşların veri yönünden zengin fakat bilgi yönünden fakir olduğu sonucunu doğurmaktadır. [...]]]></description>
			<content:encoded><![CDATA[<p>Günümüzde çeşitli uygulamalardan, internet, web logları gibi kaynaklardan giderek daha fazla veri toplanmakta ve veri tabanlarında saklanmaktadır. Fakat, bu veriler halen birçok uygulamada sadece raporlama amaçlı olarak kullanılmaktadır. Oysa bu veriler, içerisinde şirketler ve kuruluşlar için çok kıymetli örüntüleri barındırmaktadır. Bu da şirketlerin ve kuruluşların veri yönünden zengin fakat bilgi yönünden fakir olduğu sonucunu doğurmaktadır. Verinin bilgiye dönüştürülmesi noktasında veri madenciliği kavramı ile karşılaşılmaktadır. Veri madenciliği çalışmaları yapmak için birçok program geliştirilmiştir. Bu programlardan biri SQL Server 2005 bir diğeri ise WEKA programıdır. Bu çalışmada veri madenciliği hakkında bilgi verilmiştir. Ayrıca Sql Server 2005 ve WEKA’da bir uygulama geliştirme aşamaları anlatılmıştır.</p>
<p> </p>
<p>1. GİRİŞ</p>
<p> </p>
<p>Günümüzde birçok kaynaktan veri alıp bu verileri veritabanlarında saklayan kurumların amaçlarından biri de ham verileri bilgiye dönüştürmektir. Örneğin; Bankalara hergün binlerce kişi kredi alabilmek için başvuruda bulunmaktadır. Bankalar da  başvuruda bulunan kişilerden taleplerini belirten bir form doldurmalarını istemektedir. Bu formla birlikte bireylerin demografik özelliklerini de içeren veriler veritabanlarında saklanmaktadır. Böylece istenildiği zaman bu bilgilere ulaşılabilmekte veya bu bilgiler analiz edilebilmektedir.</p>
<p> </p>
<p>Sadece verilere ulaşmak ve onları sorgulamak yeterli değildir. Veri tek başına değersizdir. Önemli olan varolan veriyi bilgiye dönüştürmektir. Örneğin; Banka elindeki eski verileri kullanarak yeni başvuruda bulunan kişilerin kredi taleplerini onaylayıp onaylamayacağına karar verebilir. Böylece banka sakladığı eski verilerini yeni kredi taleplerini onaylarken bilgi olarak kullanmış olmaktadır.</p>
<p> </p>
<p>Bu işlem yani veriyi bilgiye dönüştürme işlemi veri madenciliği olarak adlandırılmaktadır. Veri madenciliği ile birçok alanda çalışmalar yapılmış ve yapılmaktadır. Chang ve Leu çalışmalarında proje karlılık değişkenlerini tanımlayabilmek için bir veri madenciliği modeli oluşturmuşlardır [1]. Hou, Lian, Yao, Yuan çalışmalarında bir havalandırma sistemi yapmak için veri madenciliği tabanlı sensör hatası tanımlama ve doğrulama modeli gerçekleştirmişlerdir [2]. Bayam, Liebowitz, Agresti çalışmalarında  yaşlı sürücülerin kaza yapmalarına etken olan faktörleri veri madenciliği süreci ile belirlemişlerdir [3]. Wang ve Hong çalışmalarında veri madenciliği tekniklerini kullanarak bir müşteri karlılık yönetim sistemi geliştirmişlerdir [4]. Delen, Walker, Kadam çalışmalarında veri madenciliği tekniklerini kullanarak bir hastanın göğüs kanserinden ölüp ölmeyeceğini tahmin eden bir model geliştirmişlerdir [5]. Rushing, Ramachandran, Nair, Graves, Welch, Lin ise çalışmalarında bilim adamları ve mühendisler için bir veri madenciliği toolbox’ı geliştirmişlerdir[6].</p>
<p> </p>
<p>Veri madenciliği uygulamalarını gerçekleştirmek için bugüne kadar birçok araç geliştirilmiştir. Bu araçlardan biri microsoft firması tarafından geliştirilen ve yeni piyasaya sürülen SQL Server 2005 ürünüdür. Bir diğer ürün ise Waikato Üniveristesi tarafından java paltformu üzerinde açık kodlu olarak geliştirilen de devamlı güncellenen WEKA’dır.</p>
<p> </p>
<p>Makalenin bundan sonraki bölümlerinde sırasıyla veri madenciliği kavramı, veri madenciliği süreçleri,  SQL Server 2005 ile veri madenciliği uygulaması geliştirme adımları ve WEKA ile veri madenciliği uygulaması geliştirme adımları hakkında bilgi verilmiştir.<br />
2. VERİ MADENCİLİĞİ</p>
<p> </p>
<p>Büyük veritabanlarından gizli kalmış örüntüleri çıkarma sürecine veri madenciliği adı verilmektedir. Geleneksel yöntemler kullanılarak çözülmesi çok zaman olan problemlere veri madenciliği süreci kullanılarak daha hızlı bir şekilde çözüm bulunabilir [7]. Veri madenciliğinin ana amacı elimizde bulunan veriden gizli kalmış örüntüleri (patterns) çıkarmak, elimizdeki verinin değerini arttırmak ve veriyi bilgiye dönüştürmektir [8].</p>
<p> </p>
<p>Bugün veri madenciliğinin; bankacılık, pazarlama, sigortacılık, telekomünikasyon, borsa, sağlık, endüstri, bilim ve mühendislik gibi birçok dalda uygulama  alanı bulunmaktadır.   Bu dallardaki uygulama alanlarına aşağıdaki gibi örnekler verilebilir.</p>
<p> </p>
<p>•  Bankacılık: Risk analizleri ve usulsüzlük tespiti.<br />
•  Pazarlama: Çapraz satış analizleri, müşteri segmentasyonu.<br />
•  Sigortacılık: Müşteri kaybı sebeplerinin belirlenmesi, usulsüzlüklerin önlenmesi.<br />
•  Telekomünikasyon: Hile tespiti, hatların yoğunluk tahminleri.<br />
•  Borsa: Hisse senedi fiyat tahmini, genel piyasa analizleri.<br />
•  Tıp: Tıbbi teşhis, uygun tedavi sürecinin belirlenmesi.<br />
•  Bilim ve Mühendislik: Amprik veriler üzerinde modeller kurularak bilimsel ve teknik problemlerin çözümlenmesi.<br />
•  Endüstri: Kalite kontrol, lojistik.</p>
<p> </p>
<p>Veri Madenciliği bir yöntem değildir bir süreçtir. Bu süreçte ana unsur süreci gerçekleştiren uygulamacıdır. Süreçte bulunan adımlar doğru olarak yerine getirilmediği sürece istenilen sonuca ulaşılması mümkün değildir.  Aşağıda veri madenciliği süreçleri ve bu süreçlerin anlamları açıklanmıştır.</p>
<p> </p>
<p>2.1 Veri Toplama</p>
<p> </p>
<p>Veri madenciliğinin birinci adımı veri toplamadır. İş dünyasında veriler birçok farklı ortamda depolanmaktadır. Örneğin; Microsoft’da veriler yüzlerce OLTP veritabanında ve 70’in üzerinde veri ambarında(data warehouse) saklanmaktadır. Burada ilk adım veri tabanlarından veya veri ambarlarından yapılacak uygulama için uygun verileri çekmektir [9].</p>
<p> </p>
<p>Daha sonra, yani veri toplama işlemi bittikten sonra, veriler test ve analiz veri seti olarak iki gruba ayrılmalıdır. Genellikle yapılan uygulamalarda verilerin %80’i analiz %20’si ise test verisi olarak ayrılır [9].</p>
<p> </p>
<p>2.2 Veri Temizleme ve Dönüştürme<br />
Veri dönüşümünün amacı ise, elimizdeki kaynak veriyi farklı formatlara veya değerlere dönüştürmektir [9]. Örneğin;  Veritabanındaki mantıksal(boolean) bir alan integer bir tipe dönüştürülebilir. Bunun sebebi ise kullanılan bazı veri madenciliği algoritmalarının integer veri tipiyle Boolean veri tipine göre daha başarılı sonuçlar üretmesidir.<br />
Veri temizleme işleminin amacı, veriler içindeki uygun olmayan veya hatalı girilmiş verileri ayıklamaktır [9]. Bu işlemde eksik veriler uygun değerler ile doldurulur. Eğer eksik veri çok ise bu kaydın silinmesi gerekir.<br />
2.3 Model Kurma</p>
<p> </p>
<p>Model kurma veri madenciliğinin çekirdeğidir. Modeli doğru bir şekilde kurabilmek için yapılacak projenin amacı çok iyi bir şekilde kavranmış olmalıdır. Her amaçla ile ilgili birden fazla algoritma mevcuttur. Bu durumda eldeki veriler üzerinde uygun algoritmaların hepsi çalıştırılır ve en doğru sonucu veren algoritma kullanılır.</p>
<p> </p>
<p>2.4 Model Değerlendirme</p>
<p> </p>
<p>Eldeki veriler üzerinde uygun algoritmalar çalıştırıldıktan sonra en doğru sonucu hangisinin verdiğini bulmak için çeşitli yöntemler mevcuttur. Örneğin, tahmine yönelik sayısal veriler varsa ve kullanılan modelin doğruluğu test edilmek isteniyorsa MAPE (Mean Absolute Percentage Error) yöntemini kullanabilir.</p>
<p> </p>
<p>2.5 Raporlama</p>
<p> </p>
<p>Raporlama veri madenciliği bulgularını göstermek  için önemli bir dağıtım kanalıdır. Birçok veri madenciliği aracı elde edilen modelden kullanıcıların daha önceden tanımladığı raporları göstermek için gerekli araçlara sahiptir [9].</p>
<p> </p>
<p>2.6 Tahmin(Scoring)<br />
Birçok veri madenciliği projesinde, örüntüleri(patterns) bulmak çalışmanın yarısıdır. Esas amaç, tahmin için modeli kullanmaktır. Tahmin veri madenciliği terminolojisinde scoring olarak da adlandırılır. Tahmin yapabilmek için eğitilen model ve yeni durumları içeren veri setinin olması gerekir [9]. Böylece, eğitilen model kullanılarak yeni durumlar için tahminde bulunulabilir.</p>
<p> </p>
<p>2.7 Uygulama Entegrasyonu<br />
Bu aşamada kurulan veri madenciliği modeli gerçek zamanlı olarak çalıştırmak üzere geliştirilen uygulama içerisine gömülür.<br />
2.8 Model Yönetimi<br />
Her bir veri madenciliği modeli bir yaşam döngüsüne sahiptir. Bazı uygulamalarda işler, özellikler durağandır ve modelin yeniden eğitilmesine gerek yoktur. Fakat birçok iş özellikleri sık sık değişir. Yeni veriler geldikçe modelin yeniden eğitilmesine gerek vardır. Yani bir model kurulduktan sonra eğer çok sık olarak veri setinde değişiklik yapılıyorsa model sık sık güncellenmelidir [9].</p>
<p> </p>
<p>3. SQL SERVER 2005’TE VERİ MADENCİLİĞİ</p>
<p> </p>
<p>SQL Server 2000 sürümünde de veri madenciliği uygulamalarına destek vermekteydi. SQL Server 2005 sürümüyle veri madenciliği uygulamalarına verdiği desteği artırmış ve uygulama geliştiricilerin projelerini daha kolay ve rahat geliştirebilecekleri bir ortam sunmuştur. SQL Server 2005 sürümünde veri madenciliği uygulamaları yapmak için  Business Intelligence Development Studio isimli geliştirme ortamı kullanılmaktadır. Bu ortam Visual Studio ürününün içerisine entegre edilmiştir.</p>
<p> </p>
<p>Bir veri madenciliği uygulaması gerçekleştirebilmek için öncelikle Analysis Service’in çalışıyor olması gerekmektedir. Bundan sonraki adımda ise Visual Studio geliştirme ortamına girildikten sonra yeni bir proje oluştururken Business Intelligence Project seçeneği içerisindeki proje seçeneklerinden Analysis Services Project seçeneği seçilmelidir. Bu adımdan sonra Şekil 1’de gösterilen ekran ile karşılaşılmaktadır.</p>
<p> </p>
<p>Bu açılan ekranda sağ tarafta Solution Explorer Penceresi ve bu pencerenin içerisinde de proje içerisinde gerçekleştirilmesi gereken adımları gösteren seçenekler bulunmaktadır. Aşağıda başlangıç seviyesinde bir uygulama oluşturmak için kullanılması gereken seçenekler ve görevleri anlatılmaktadır</p>
<p> </p>
<p>3.1 Data Source</p>
<p> </p>
<p>Bu seçenek kullanılarak ulaşılmak istenen veri kaynağı ile bağlantı kurulması sağlanmaktadır. Bu işlemi gerçekleştirmek için bu seçenek üzerinde sağ tuşa tıklanarak New Data Source menü seçeneği seçilmelidir. Bundan sonra ekrana gelen wizard ekranı takip edilerek gerekli veri kaynağına bağlanma işlemi tamamlanır.</p>
<p> </p>
<p>3.2 Data Source Views</p>
<p> </p>
<p>Bilindiği gibi bir veri madenciliği uygulamasında veri tabanında bulunan tüm tablolar ve bu tablolar içerisindeki tüm alanlar kullanılmaz. Bu tablolar içerisinden uygulamada kullanılacak olanlar seçilmeli ve bunlar üzerinde işlem yapılmalıdır. Data Source Views seçeneği ile veri tabanından uygulamada kullanılacak olana tabloların ve bu tablolardaki alanların seçilmesi sağlanmaktadır. Bu aşamada veri kaynağına ulaşmak için bir önceki adımda oluşturulan bağlantı kullanılır. Bu işlemi gerçekleştirmek için bu seçenek üzerinde sağ tuşa tıklanarak New Data Source View menü seçeneği seçilmelidir. Bundan sonra ekrana gelen wizard ekranı takip edilerek gerekli veri kaynağından istenilen verilerin seçilmesini sağlayan view oluşturulur. Bu aşama sonucunda Şekil 2’deki ekran ile karşılaşılır.</p>
<p> </p>
<p>Bir view oluşturulduktan sonra bu view üzerindeki tablolarda sanal kolonlar açılabilmekte veya view’e sanal tablolar eklenebilmektedir. Bu da veri madenciliğinin adımlarından biri olan veri dönüştürme işleminin daha kolayca bitirilmesine yardımcı olmaktadır.</p>
<p> </p>
<p>3.3 Mining Structures</p>
<p> </p>
<p>Gerekli view oluşturlduktan sonra geriye uygun modelin seçimesi kalmaktadır. Sql Server 2005 Microsoft Clustering, Microsoft Decision Trees, Microsoft Linear Regression, Microsoft Logistic Regression, Microsoft Naive Bayes, Microsoft Neural Network, Microsoft Sequence Clustering, Microsoft Time Series modellerinin veriler üzerinde uygulanmasına izin vermektedir. Bu seçenekler içerisinden uygulama için uygun olan seçenek seçilerek model kurulur.</p>
<p> </p>
<p>Bu aşamadan sonra modeli eğitmek için Mining Model Viewer seçeneği seçilir. Bu seçenek yardımıyla model, seçilen algoritma kullanılarak eğitilir ve sonuçlar bulunur. Modelin doğruluğu test etmek için Model Accuracy Chart seçeneği seçilir. Eğer bir sayısal tahmin yapılıyorsa buradaki seçeneklerden Lift Chart seçeneği kullanılarak modelin doğruluğu test edilebilir.</p>
<p> </p>
<p>Eğer modelin doğruluğu onaylanmışsa ve yeni verilerin sonuçları kurulan modele göre alınacaksa Mining Model Prediction seçeneği kullanılır.</p>
<p> </p>
<p>4. WEKA’DA VERİ MADENCİLİĞİ</p>
<p> </p>
<p>WEKA bir proje olarak başlayıp bugün dünya üzerinde birçok insan tarafından kullanılmaya başlanan bir veri madenciliği uygulaması geliştirme programıdır. WEKA java platformu üzerinde geliştirilmiş açık kodlu bir programdır WEKA programı http:// <a href="http://www.cs.waikato.ac.nz/ml/weka/">www.cs.waikato.ac.nz/ml/weka/</a> adresinden indirilebilmektedir.</p>
<p> </p>
<p>WEKA ilk çalıştırıldığında Şekil 3’deki ekran ile karşılaşılmaktadır. Bu ekranda WEKA ile çalışmak istenilen mod seçilebilmektedir. Bunlar komut modunda çalışmayı sağlayan Simple CLI, projenyi adım adım görsel ortamda gerçekleştirmeyi sağlayan Explorer ve projeyi sürükle bırak yöntemiyle gerçekleştirmeyi sağlayan KnowledgeFlow seçenekleridir.</p>
<p> </p>
<p>Burada projeyi adım adım gerçekleştirmeyi sağlayan explorer seçeneği ile veri madenciliği projesi gerçekleştirme aşamaları hakkında bilgi verilecektir.</p>
<p> </p>
<p>Explorer seçeneği seçildikten sonra üzerinde çalışılacak verilerin seçilmesi, bu veriler üzerinde temizleme ve dönüştürme işlemlerinin gerçekleştirilebilmesini sağlayan Şekil 4. deki ekran ile karşılaşılmaktadır.</p>
<p> </p>
<p>WEKA arff isimli dosya formatını desteklemektedir. Herhangi bir text soyadaki verileri weka ile işlemek olanaksızdır. Yarıca veri tabanlarına bağlanılarak da veriler weka ortamına çekilebilmektedir. Bunun dışında şu anda geliştirilmiş araçlar kullanılarak veri tabanlarındaki bilgiler arff formatına çevrilerek WEKA’da işlenebilmektedir.</p>
<p> </p>
<p>Bu adımdan sonra yapılacak olan projenin amacına göre açılan sayfadaki uygun tabdaki (Classify, Cluster, Associate)  uygun algoritma veya algoritmalar seçilerek veriler üzerine uygulanmakta ve en doğru sonucu veren algoritma seçilebilmektedir.</p>
<p> </p>
<p>5. İKİ PROGRAMIN KARŞILAŞTIRILMASI</p>
<p> </p>
<p>Öncelikle WEKA SQL Server 2005’e göre daha fazla algoritmayı desteklemektedir. Ayrıca WEKA’da elimizdeki verilerden hangisini giriş parametresi olarak seçebileceğimizi belirlememizde yardımcı olan birçok algoritma da verilmiştir. Sql Server 2005’de bu işlem uygulama geliştirme aşamasında algoritma seçimi olmadan tek bir seçenekle kullanıcıya öneri olarak verilmektedir. WEKA’yı uygulamalara entegre edebilmek için java dilini bilmek gerekmeketdir. Oysa SQLSERVER 2005 ile geliştirilen bir veri madenciliği modeline .NET destekleyen tüm diller ile kolayca ulaşmak mümkündür. Sql Server 2005 WEKA’ya göre daha kolay kullanılabilir bir arayüze sahiptir.</p>
<p> </p>
<p>4. SONUÇLAR</p>
<p> </p>
<p>Gartner Araştırma şirketinin yaptığı bir çalışmaya göre, gelecek birkaç yıl içerisinde daha fazla uygulama içerisinde veri madenciliği komponentleri eklenmiş olacaktır [9]. Bu da gösteriyor ki veri madenciliği önümüzdeki yıllarda daha fazla önem kazanmaya başlayacak ve daha fazla şirket verilerini bilgiye dönüştürmek isteyecektir.</p>
<p> </p>
<p>Bu bağlamda varolan veri madenciliği  araçları da kendilerini yenileyeceklerdir. SQL Server 2005 ve WEKA bu alanda kendine iyi bir yer edineceklerdir.</p>
<p> </p>
<p>KAYNAKLAR</p>
<p>[1] Chang, A.,S., Leu, S., ‘Data mining model for identifying project profitability variables’,International Journal of Project Management, October 2005<br />
[2] Hou, Z., Lian, Z., Yao, Y., Yuan, X., ‘Data mining based sensor fault diagnosis and validation for building air conditioning system’,  Energy Conversion and Management, January 2006<br />
[3] Bayram, E. , Liebowitz, J. , Agresti, W. , ‘Older drivers and accidents: A meta analysis and data mining application on traffic accident data’, Expert Systems with Applications, vol 29, October 2005,pp598-629.<br />
[4] Wang, H., Hong, W., ‘Managing customer profitability in a competitive market by continuous data mining’, Industrial Marketing Management, July 2005<br />
[5] Delen, D., Walker, G., Kadam, A., ‘Predicting breast cancer survivability: a comparison of three data mining methods’, Artificial Intelligence in Medicine, vol 34, June 2005, pp113-127<br />
[6] Rushing, J., Ramachandran, R., Nair, U., Graves, S., Welch, R., Lin, H., ‘ADaM: a data miningtoolkit for scientists and engineers’, Computers &amp; Geosciences, vol 31, June 2005, pp607-618<br />
[7] Hung, S., Yen, D., C., Wang, H., ‘Applying data mining to telecom churn management’, Expert Systems with Applications, October 2005, pp. 1-10<br />
[8]http://www.sqlnedir.com/Members/ArticleDetail.aspx?Id=81<br />
[9] Tang, Z., MacLennan, J. ,&#8221;Data Mining with Sql Server 2005&#8243;, Wiley, 2005</p>
<p> </p>
<h3><a href="http://www.erpakademi.com/wp-admin/index.php?option=com_docman&amp;task=doc_download&amp;gid=66&amp;Itemid="><img src="http://www.erpakademi.com/wp-admin/components/com_docman/themes/default/images/icons/16x16/doc.png" border="0" alt="icon" width="16" height="16" /> Veri Madenciliği Ve Uygulama Programları (<span>366 kB</span>)</a></h3>
<p><span> </span></p>
]]></content:encoded>
			<wfw:commentRss>http://www.erpakademi.com/2009/11/15/veri-madenciligi-ve-uygulama-programlari/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>İşletme Bakım Programları &#8211; II</title>
		<link>http://www.erpakademi.com/2009/10/27/isletme-bakim-programlari-ii/</link>
		<comments>http://www.erpakademi.com/2009/10/27/isletme-bakim-programlari-ii/#comments</comments>
		<pubDate>Tue, 27 Oct 2009 07:48:32 +0000</pubDate>
		<dc:creator>Editor</dc:creator>
				<category><![CDATA[VERİ MADENCİLİĞİ]]></category>
		<category><![CDATA[İŞLETME]]></category>
		<category><![CDATA[işletme bakım programları]]></category>

		<guid isPermaLink="false">http://www.erpakademi.com/?p=455</guid>
		<description><![CDATA[Bir önceki yazıda İşletme Bakım Programlarının genel karakteristikleri üzerine bilgi vermiştik. Konunun daha da netleşmesi açısından, bu yazıda bir İşletme Bakım Projesi’nin adımlarından bahsedeceğiz. Alacağımız yazılım örneği ise, SAP yazılımının PM (Plant Maintenance) modülüdür.
Projenin amacı
* Tüm makine ve ekipmanların düzenli olarak planlı bakım işlemlerinin yapılmasının sağlanarak, arızadfan kaynaklanabilecek üretim performans kayıplarının minimuma indirgenmesi
* Bu süreç [...]]]></description>
			<content:encoded><![CDATA[<p>Bir önceki yazıda İşletme Bakım Programlarının genel karakteristikleri üzerine bilgi vermiştik. Konunun daha da netleşmesi açısından, bu yazıda bir İşletme Bakım Projesi’nin adımlarından bahsedeceğiz. Alacağımız yazılım örneği ise, SAP yazılımının PM (Plant Maintenance) modülüdür.</p>
<p>Projenin amacı<br />
* Tüm makine ve ekipmanların düzenli olarak planlı bakım işlemlerinin yapılmasının sağlanarak, arızadfan kaynaklanabilecek üretim performans kayıplarının minimuma indirgenmesi<br />
* Bu süreç çerçevesinde oluşan arızaların kataloglarının oluşturulması ve daha sonraki analizlerle arıza kaynaklarının tesbit edilip, minimuma indirgeme çalışmalarının başlatılması<br />
* Bakım ve onarım faaliyetleri üzerinde oluşan masrafların net olarak izlenebilmesi<br />
* Teknik malzeme bazında sağlıklı bir şekilde, malzemelerin kontrolu ve yönetimi<br />
* Bakım işinde çalışan atelye ve teknik personelin sistematik olarak çalışmasını sağlayıp, bakım personelinin kontrol ve denetiminin sağlıklı bir şekilde yapılmasıdır.</p>
<p>İşletme Bakım Projesinin aşamaları</p>
<p>1.Proje Planının hazırlanması</p>
<p>1.1. Proje ekibinin oluşturulması.</p>
<p>1.2. İşletme teknik organizasyon ve hiyerarşinin oluşturulması.</p>
<p>1.3. Işletmede farklı sorumluluk alanları bulunan bakım Planlama Grupları oluşturulması.</p>
<p>1.4. İş yerlerinin (atelyeler) ve yetki gruplarının oluşturulması.</p>
<p>1.5. Bakım veya onarım işlemi yapıldığında, bu işleme ait masrafların nereye atılacağını bildiren masraf yeri kodları /belli bir hiyerarşiye bağlı olarak) oluşturulması . Bu kodlar ekipmanın bağlı bulunduğu yere göre ve/veya ekipmanın hizmet verdiği yere göre tasarlanabilir.</p>
<p>1.6. Teknik birim hiyerarşisine bağlı olarak, teknik birim ana verilerinin hazırlanması. (Teknik birim kodu, tanımı, masraf yeri, planlama yeri, bakım planlama grubu kod numarası, sorumlu işyeri, yetki grubu, faaliyete geçme tarihi vb.)</p>
<p>1.7. Üzerinde direkt bakım işlemi yapılan makina veya makinalar grubu ya da sistemin ana verilerinin hazırlanması (trafolar, bantlar vb.)</p>
<p>1.8. Malzeme ana verilerinin hazırlanması (minimum stok, maksimum stok, parti büyüklüğü, yeniden sipariş noktası vb.)</p>
<p>1.9. Yazılımının kullanılacağı, iş süreç senaryolarının hazırlanması.</p>
<p>1.9.1. Arızi bakım-onarım senaryosu (bildirimin yaratılması-onaylanması, BO siparişinin yaratılması-onaylanması, BO siparişinin teyidinin verilmesi, BO siparişinin kapatılması vb.)</p>
<p>1.9.2. İş isteği senaryosu (bildirimin yaratılması-onaylanması, iş isteği siparişinin yaratılması-onaylanması, sipariş teyidi, siparişin kapatılması)</p>
<p>1.9.3. Planlı bakım senaryosu (tüm planlı bakım işlemleri)</p>
<p>1.9.4. Malzeme yönetimi senaryosu (depoların, malzemelerin ve yetkilerin yaratılması)</p>
<p>1.10 Planlı bakım ana verilerinin hazırlanması</p>
<p>1.10.1. Bakım stratejisinin belirlenmesi (bakım periyodları, toleranslar vb.)</p>
<p>1.10.2. İş planlarının hazırlanması (bakım formları)</p>
<p>1.10.3. Bakım kalemlerinin hazırlanması (iş planı, bakım stratejisi ve ekipmanın birleştirildiği bilgi yapıları)</p>
]]></content:encoded>
			<wfw:commentRss>http://www.erpakademi.com/2009/10/27/isletme-bakim-programlari-ii/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
