IBM'ye göre her gün 2.5 milyar GB veri üretiliyor. Bu, 133 milyar DVD'ye eşit miktarda veri üretiliyor demek.. Bu veri akışını yönetmek ve kullanmak için verilerimizi tanımak oldukça önemli bir adım.
Verilerimizi özelliklerine göre 3 gruba ayırıyoruz:
Yapılandırılmış-yapılandırılmamış veriler
Nicel-kategorik veriler (Numerical-Categorical)
Büyük-küçük veriler.
Bu yazımızda bu gruplardan ilkini tanıtacağız.
Yapılandırılmış ve yapılandırılmamış veriler
Bankaların depoladığı kart numaraları, her gün şirketlerde yapılan onlarca excel tablosu veya tüm ülkeye kargo götüren kargo şirketlerinin elinde bulunan adres kayıtlarına biz yapılandırılmış veriler diyoruz. Bu veriler sabit bir alanda bulunur ve aradığımız bilgiyi kolayca bulabileceğimiz bir yer olan ilişkisel veri tabanında (RDBMS) depolanır. Bu veriler için kullanılan programlama dili ise SQL'dir.
Yapılandırılmış veriler mevcut verilerin çok küçük bir yüzdesini oluşturmasına rağmen işlenmesi ve iç görülerin çıkarılması çok daha kolay olduğundan çok değerlidir. Elinizde bu tip bir veri seti varsa ve bu veri setini analiz etmek isterseniz regresyon, sınıflandırma ve verilerin kümelenmesi yönteminlerini kullanmalısınız.
Dediğimiz gibi yapılandırılmış veriler tüm verilerin çok küçük bir yüzdesini oluşturur. Küresel olarak üretilen tüm verilerin yüzde 80 ila 90'ını oluşturduğu tahmin edilen veriler ise yapılandırılmamış verilerdir.
Her gün gönderdiğimiz sayısız e-posta, müşteri deneyimi anketleri gibi çoktan seçmeli ve açık uçlu sorular içeren anketler, sosyal medya ve web sitelerinden paylaşılan milyonlarca görüntü, ses, videolar… Bütün bunlar yapılandırılmamış verilere örnek olarak verilebilir. Yapılandırılmamış veriler, önceden tanımlanmış bir veri modeline veya yapısına göre
düzenlenmemiş verilerdir. Bu veriler arasında tanımlanmış herhangi bir ilişki olmadığından, ilişkisel veri tabanlarında düzenlenemez. Buna karşılık, depolanma şekilleri NoSQL veri tabanı veya ilişkisel olmayan bir veri tabanıdır. Bu tarz yapılandırılmamış verilerden iç görü elde etmek, veri madenciliği ve veri istifleme gibi gelişmiş analitik tekniklerini gerektirir.
Şimdi diyelim ki bir web siteniz var ve bu web sitesine bir fotoğraf yüklediniz. O yüklediğiniz fotoğraf yapılandırılmamış veri örneğidir. Şimdi o fotoğrafın altına meta dediğimiz bir açıklama yazdınız. Artık yapılandırılmamış verinizin internette bir karşılığı var yani yapılandırılmış veri özellikleri taşıyor. Bu tip verilere ise biz yarı yapılandırılmış veriler diyoruz.
Yapılandırılmış ve Yapılandırılmamış veriler hakkında birkaç tutam bilgi:
IBM tarafından 1974 yılında geliştirilen SQL, ilişkisel veri tabanlarını işler ve ileri düzeyde kodlama becerileri gerektirmez.
Yarı yapılandırılmış verileri yönetmek içinse XML gibi biçimlendirme dilleri sıklıkla kullanılır.
Dünyamızda üretilen tüm verinin yüzde 90'ı son beş yılda oluştu.
İnternetteki tüm verileri indirmek 1.5 milyon yıl sürer.
Comments