Data Mining

Published on July 2016 | Categories: Documents | Downloads: 29 | Comments: 0 | Views: 980
of 38
Download PDF   Embed   Report

Comments

Content

Data Mining

Velida Kijevčanin - Šaban Gračanin

UNIVERZITET U KRAGUJEVCU

SAMOSTALNI ISTRAŽIVAČKI RAD
TEMA: DATA MINING „Sve je u podacima, samo treba naći“

Mentor: Prof. dr Miodrag Lovrić

Doktoranti: Velida Kijevčanin Šaban Gračanin

Kragujevac, 20.05.2009.godine
1

Data Mining

Velida Kijevčanin - Šaban Gračanin

DATA MINING „ Sve je u podacima, samo treba naći “

UVOD U savremenim uslovima poslovanja koje karakteriše izrazit proces globalizacije, neizvesnost, rizik i konkurencija, preduzeća moraju da se svakodnevno bore za održavanje tržišnog učešća i ostvarivanje boljih poslovnih rezultata. Da bi se to postiglo preduzeća moraju uvek biti korak ispred konkurencije, tj. moraju da predvide potrebe svojih klijenata i svakom klijentu moraju pristupati individualno. Usled intenzivnog razvoja informatičke infrastrukture skoro sve firme, a posebno one veće, čuvaju velike količine podataka o poslovanju, svakom klijentu i kretanjima u okruženju. Dnevni unos informacija koje velike firme pohranjuju u svoje baze podataka, meri se terabajtima. Reći ćemo samo da u jedan terabajt stane dovoljno teksta za oko dva miliona knjiga. Izvori tih informacija su različiti (interni, eksterni, analitički), informacije mogu biti atributivne ili numeričke, mogu se odnositi na faktore koje utiču na poslovanje firme, interne procedure, na korisnike usluga preduzeća (potrošače), poslovanje konkurencije, poslovnu okolinu. Međutim, ovako sirovi podaci, neadekvatno strukturirani, različitih formata, nemaju preterano veliku upotrebnu vrednost. Neophodno ih je pripremiti, analizirati i na osnovu toga doći do informacija (znanja) koja mogu preduzeću obezbediti ostvarenje poslovnog uspeha. Obzirom na činjenicu da se radi o velikim količinama podataka, prosto je nemoguće da čovek sam vrši analize. Analize se prepuštaju za to posebno razvijenim programima. Nova vrsta tehnologije čiji cilj je upravo rešavanje problema sa kojim su se firme suočile jeste Business Intelligence. Business Inteligence (BI) obuhvata široki skup aplikacija i tehnologija za prikupljanje podataka, lak pristup podacima i ekspertsku analizu podataka, a u cilju obezbeđivanja adekvatne podrške procesu odlučivanja. BI predstavlja familiju proizvoda u koju spadaju : OLAP (Online Analytical Processing) proizvodi, Data mining proizvodi i proizvodi za kreiranje izveštaja.1

1

Z. Tang, J MacLennan, Data Mining with SQL Server 2005, Indianapolis: Wilez Publishing Inc., 2005.

2

Data Mining 1.1. Upoznavanje sa pojmom Data mining-a

Velida Kijevčanin - Šaban Gračanin

Data mining je najvažniji proizvod iz familije Business Intelligence proizvoda , čija je svrha pronalaženje skrivenih obrazaca u podacima, povećavanje njihove upotrebljivosti i transformacija tih podataka u korisno znanje. Postoji nekoliko definicija Data Mininga. Data Mining ( DM ) se može definisati kao proces pronalaženja skrivenih zakonitosti i veza među podacima. To je tehnika pretraživanja podataka u cilju identifikacije traženih uzoraka i njihovih međusobnih relacija. Jednostavno rečeno, DM je postupak izdvajanja interesantnih, novih i potencijalno korisnih informacija ili uzoraka, sadržanih u velikim bazama podataka, a sve u cilju donošenja ispravnih poslovnih odluka. Data Mining je multidisiplinarno područje koje obuhvata: baze podataka, ekspertne sisteme, teoriju informacija, statistiku, matematiku, logiku i čitav niz drugih područja. Data mining se zove i Knowledge Discovery in Databases (KDD) – otkrivanje znanja u bazama podataka. . To je proces analize koji omogućuje korisnicima da shvate sisteme i veze između njihovih podataka. On omogućava sagledavanje informacija na način koji ranije nije bio moguć.

Osnovni cilj DM jeste otkrivanje do sada nepoznatih odnosa izmedju podataka. Analizom ogromnih baza podataka, upotrebom DM definišemo relacije, obrasce ili forme ponašanja, neophodne za odlučivanje i predvidjanje. Prilikom same pretrage podataka DM softver pomaže analitičaru da reši neke od sledećih problema : 1) Klasifikacija - analiziraju se skupovi podataka, otkrivaju skrivene veze i utvrđuju elementi ( funkcije ) za njihovo grupisanje u jednu od nekoliko klasa. 2) Asocijacija podataka – utvrđuju se osobine koje se javljaju zajedno kod više uzoraka, odnosno veze među proizvoljnim atributima. Npr – koji se proizvodi kupuju zajedno u jednoj kupovini. 3) Grupisanje ( Klastering ) – proces određivanja grupa podataka koji su međusobno slični, ali različiti od ostalih grupa podataka. Pri tome se indentifikuju i promenljive po kojima se vrši najbolje grupisanje. 3

Data Mining

Velida Kijevčanin - Šaban Gračanin

4) Predviđanje ( Numeric prediction ) – otkriva se ponašanje objekta posmatranja tokom vremena, i vrše se predviđanja. Utvrđuju se pravilnosti iz primera i na osnovu toga određuju očekivane numeričke vrednosti. 1.2. Evolucija Data mininga Data mining je nova tehnologija, koja se naglo razvila zahvaljujući razvoju računarske tehnologije. Iako kao zaseban pojam postoji tek od pre nekih 15 godina, razvoj Data Mining-a započet je jos 50-tih godina proslog veka, sa razvojem naučnih tehnika i računarskih programa i metoda. Iako ove metode tada nisu nazvane Data Mining tehnikama, one su primenjivane u velikoj meri i to uglavnom u svrhu naučnih istraživanja i eksperimenata. Sa razvojem računarske tehnologije, preduzeća su mogla čuvati sve veće količine podataka u svojim bazama, tako da je omogućena komercijalna upotreba velikog broja data mining tehnika u svrhe poslovnog odlučivanja. DM podrazumeva korišćenje sofisticiranih alata za analizu, a oni mogu uključivati statističke modele, matematičke algoritme, metodu mašinskog učenja, baze podataka i sl. Proces evolucije od podataka do korisnih informacija i novih saznanja išao je korak po korak. Tabela 1. Prikaz četiri revolucionarna koraka koja su pružila mogućnost brzih i preciznih odgovora kakve
danas zahteva savremeno poslovanje

Izvor: Panian, Ž., Klepac, G.,: Poslovna inteligencija, MASMEDIA, Zagreb, 2003., str 782

2

Panian, Ž., Klepec, G., : Poslovna inteligencija, MASMEDIA, Zagreb, 2003., str. 78

4

Data Mining

Velida Kijevčanin - Šaban Gračanin

Danas informacije predstavaljaju „blago„ i onaj ko najbolje bude umeo da iskoristi sve tehnike Data Mininga, imaće potrebno „znanje“ za donošenje efikasnih poslovnih odluka. 1.3. Data Mining vs Tradicionalni statistički modeli Kao sofisticirani sistem za podršku odlučivanju, DM koristi najsavremenije statističke i matematicke modele za analizu podataka o poslovanju preduzeća i njegovim potrošačima, kako bi se otkrili potencijalni problemi i šanse. Pomoću DM menadžeri dolaze do korisnih informacija i znanja, neophodnih za efikasno upravljanje. Data mining se razlikuje od klasičnih statističkih metoda po tome što se ne odvija po unapred utvrđenim pravilima, već pokazuje kreativnost u analizi podataka i na taj način može da otkrije nova, neočekivana pravila.3 Data Mining je proces otkrivanja novih znanja i informacija , iz podataka koje prikupljamo. Možemo pomisliti da isto ovo radimo i upotrebom klasičnih statističkih metoda za analiziranje podataka. Ali, mi u stvari samo stvaramo odredjene pretpostavke , tvrdnje (hipoteze), i pokušavamo da ih dokažemo traženjem podataka koje će ih potvrditi ili osporiti. Sa druge strane, upotreba Data Mining-a podrazumeva analizu podataka, a da pre te analize istraživač nije definisao odredjene tvrdnje ili pretpostavke vezano za pojavu koju analiziramo. Jednostavno se postavlja pitanje na koje tražimo odgovor, a prepušta se Data Mining algoritmima da definišu obrasce, i pruže odgovore. DM pri tome podrazumeva analizu podataka koje potiču iz različitih izvora, iz različitih organizacionih jedinica preduzeća (prodaje, proizvodnje, finansija) i različitih informacionih sistema (platformi). DM ne samo da omogućava izvlačenje, transformaciju i učitavanje razlicitih informacija u jedinstvenu bazu podataka, već omogućava preduzećima i menadžerima da analiziraju npr. ponašanje potrošača na bazi 100 i više obeležja, dok tradicionalni statistički modeli omogućavaju istovremeno posmatranje 3 ili 4 ovakva obeležja. Dok tradicionalne statističke analize počivaju na testiranju hipoteza, DM se oslanja na softversko modeliranje, kojim se utvrđuju veze i međuzavisnosti velikog broja pojava, i obezbeđuje znanje za rešavanje problema, unapređivanje poslovanja i predviđanje. Neke tehnike i modeli DM su usko povezani sa onima u statistici, kao npr. modeli linearne regresije i vremenskih serija, ali se uglavnom upotrebljavaju dosta složeniji i fleksibilniji programi i na njima zasnovani modeli. Dve tehnike DM, neuronske mreže i stablo odlučivanja, mogu analizirati istovremeno i do 200 nezavisnih promenjivih. Sa druge strane, ovo nije moguće sa modelima npr. višestruke regresije. Koristeći tradicionalne statističke metode, analitičar sebi može da postavi pitanje : „Jesu li potrošači sa većim prihodima lojalniji nekom supermarketu od onih koji imaju niže prihode ? “ - nulta hipoteza će biti odbačena ili neće. DM sa druge strane, može omogućiti znatno više podataka i bolji uvid u faktore koji utiču na lojalnost, od onih koje saznajemo testiranjem hipoteza. Analizom podataka putem DM, možemo dobiti
3

Pang-Ning Tan, Michael Steinbac, Vipin Kumar, : Introduction to Data Mining, ISBN 0-321-20448-4

5

Data Mining

Velida Kijevčanin - Šaban Gračanin

grupisane podatke o potrošačima prema tome : da li imaju Klubsku kreditnu karticu, žive dalje od 10 milja od marketa, imaju 2 automobila... i njihovoj lojalnosti prema grupama. Svi DM modeli se uglavnom sastoje iz Nezavisnih promenjivih ( predictors ) i Zavisnih promenjivih ( responses ). Tako npr, kompanije za osiguranje automobila mogu skupljati podatke o potrošačima, o veličini njihove porodice, kreditnom rejtingu. Ove informacije ( nezavisne promenjive ) mogu se upotrebiti da se predvide gubici po pojedinim grupama potrošača, ili da se odredi koji potrošači će najverovatnije kupiti novi prozivod firme ( zavisne promenjive ). 1.4. Neophodna infrastruktura za upotrebu DM Sam proces DM je neraskidivo vezan za računare. Uz pomoć posebnih programa, analiziraju se podaci iz različitih uglova. Treba međutim uvek imati u vidu da su softveri samo alatka, i da je i dalje neophodno prisustvo ljudskih eksperata. Ipak, kompjuterski sistemi su nezamenjivi, zbog brzine, a prevashodno zbog izbegavanja predrasuda koje inače postoje kod ljudi. Kompjuterske greške nisu moguće, a pri analizi čovek ne bi ni primetio neke veze između podataka, jer se one nalaze izvan njegovih očekivanja. Zanimljiv primer je lanac supermarketa Wal Mart u Americi, koji je koristeći SPSS-ov Clementine softver za DM, otkrio da su muškarci koji kupuju četvrtkom da bi izbegli vikend gužve, uz pelene za decu kupovali i Coca Colu. Coca cola se kupovala da bi se pripremili za predstojeći vikend. Zahvajlujući ovoj informaciji, povećani su prihodi u supermarketima tako što je vitrina sa Coca Colom pomerena bliže polici sa pelenama. Danas su ovi programi pristupačni za velike sisteme, kao i za PC-e. Cena softvera varira, od nekoliko hiljada dolara do nekoliko miliona dolara. Dva osnovna uslova za izbor softvera su veličina baze podataka, i kompleksnost pitanja na koje tražimo odgovore. Jasno je da za veće količine podataka koje analiziramo i složenija pitanja za koja tražimo odgovore , moramo koristiti moćnije programe. DM se može primeniti u svim onim oblastima gde se raspolaže velikim količinama podataka čijom analizom se žele otkriti određena pravila, zakonitosti i veze. Stoga treba pomenuti i koncept Data Werhousing-a, koji koriste sve velike svetske kompanijeu u cilju integracije podataka u jednu bazu, na osnovu koje krajnji korisnici mogu sprovoditi ad-hock analize, praviti izveštaje, predvidjati i donositi odluke. Koncept Data Werhousing-a ( Skladištenja podataka ) ima za cilj prikupljanje i distribuciju informacija kroz preduzeće, uz omogućavanje multidimenzionalnog pristupa podacima kakav je danas neophodan za donošenje poslovnih odluka. 1.5. Faze u procesu Data Mining-a Životni ciklus jednog data mining projekta se sastoji iz sledećih osam koraka : 1. Sakupljanje podataka – je obično prvi korak u data mining projektu. Poslovni podaci su uskladišteni u brojnim sistemima , internetu, bazama podataka kompanija, i prvi korak obično predstavlja prenos relevantnih podataka u bazu podataka gde se podaci

6

Data Mining

Velida Kijevčanin - Šaban Gračanin

analiziraju. Ponekad postoji i skladište podataka što olakšava dalji rad ali u velikom broju slučajeva podaci koji su sakupljeni mogu biti nedovoljno korisni za analizu te se zbog toga neophodni podaci moraju sakupiti iz drugih izvora. Nakon što se sakupe, podaci se mogu semplovati da bi se smanjila veličina trening skupa podataka. U mnogim slučajevima, obrasci koji su pronađeni na skupu od 50 000 kupaca su isti kao i oni pronađeni na trening skupu od 1 000 000 kupaca. 2. Filtiriranje podataka i transformacija – je najintenzivniji korak u data mining projektu kad su resursi u pitanju. Cilj filtriranja podataka je odstranjivanje irelevantnih i suvišnih informacija iz skupa podataka. To podrazumeva uklanjanje duplih i nepotpunih podataka, njihovu tranformaciju i jedinstven sistem podataka, izabiranje podgrupa podataka, odredjivanje broja promenjivih sa kojima je moguce raditi. Cilj transformacije podataka je promena izvornog podatka u drugačiji format tipa podataka. Postoje različiti tehnike koje se mogu primeniti za korak filtriranja i transformaciju podataka, a najčešće korišćene su; transformacija tipova podataka, neprekidna transformacija kolona, grupisanje, rad sa vrednošću koja nedostaje, brisanje abnormalnih slučajeva itd. 3. Kreiranje i izbor modela – je treći korak koji se primenjuje nakon filtriranja i transformacije podataka. Tek kada se podaci filtriraju i kada se promenljive transformišu u pogodne tipove podataka, može se započeti sa kreiranjem modela. Pre kreiranja modela treba da razumemo cilj data mining projekta i vrstu data mining zadatka koji će se koristiti. Za svaki data mining problem postoji nekoliko odgovarajućih algoritama. Preciznost algoritma zavisi od prirode podataka kao što su; broj stanja atributa koji se koriste za predviđanje, prenos vrednosti svakog atributa, veza između atributa itd. U ovom početnom delu projekta potrebno je sastaviti tim poslovnih analitičara koji su eksperti u određenoj oblasti. 4. Procena kvaliteta modela – U delu kreiranja modela mi kreiramo skup modela koristeći algoritme i tehnike DM-a , ali nakon kreiranja moramo izvršiti i evaluaciju tog modela. Postoji nekoliko popularnih alata za evaluaciju kvaliteta modela. Najpoznatiji je lift dijagram. On koristi već istreniran model kako bi predvideo vrednosti koje će se dobiti iz skupa podataka koji se testira. Na osnovu vrednosti koje se dobiju i verovatnoće on grafički prikazuje model na dijagramu. 5. Kreiranje izveštaja – Nakon kreiranja modela i evaluacije kvaliteta tog modela vrši se kreiranje izveštaja koji se dostavljaju menadžerima na uvid. Većina data mining alata ima osobinu kreiranja izveštaja koji omogućuje korisnicima da generišu prethodno definisan izveštaj sa tekstualnim i grafičkim detaljima data mining modela. Postoje dva osnovna tipa izveštaja: izveštaji o pronađenim obrascima i izveštaji o predviđenim vrednostima modela. 6. Ocenjivanje modela – U mnogim data mining projektima, pronalaženje obrazaca i modela je samo pola posla; konačni cilj je upotreba tog modela za predviđanje. Predviđanje se još naziva i scoring u data mining terminologiji. Da bi dobili predviđene vrednosti moramo da imamo već istrenirani model i skup novih podataka.

7

Data Mining

Velida Kijevčanin - Šaban Gračanin

7. Integracija data mining modela u aplikaciju – Integrisanje data mining modela u poslovne aplikacije predstavlja ponovnu primenu poslovne inteligencije na poslovni sistem tj. zatvaranje petlje za analizu. Sve više poslovnih aplikacija uključuje i data mining komponentu a prednosti data mining-a su velike. Na primer CRM (Customer Relationship Management) aplikacije mogu imati data mining osobine koje grupiše kupce u segmente, ERP (Enterprise Resource Planning) aplikacije mogu imati data mining osobine koje im koriste da predvide obim proizvodnje. On-line knjižara može dati potencijalnim kupcima preporuke knjiga. Integrisanje data mining osobina, pogotovo komponente za predviđanje u aplikacije jedan je od bitnijih koraka data mining projekta. Ovo je ključni korak za uvođenje data mining-a u masovnu upotrebu 8. Upravljanje modelom – Održavanje statusa data mining modela predstavlja pravi izazov. Svaki data mining model ima svoj životni ciklus. U nekim oblastima primene obrasci su relativno stabilni i modeli ne zahtevaju učestalo ponovno treniranje modela. Ali u mnogim oblastima obrasci se menjaju često. Trajanje jednog data mining modela je ograničeno. Nova verzija modela se mora praviti često. Određivanje preciznosti modela i kreiranje novih verzija ovog modela bi trebalo biti postignuto korišćenjem automatizovanih procesa.

1.6. Tehnike i Metode Data mininga

Analitičke tehnike koje se koriste u DM , u velikom broju slučajeva su odavno poznate matematičke tehnike i algoritmi koje su korišćene godinama pre toga. Iako je DM mlada tehnologija, dosta se koriste ranija saznanja. Tehnike koje se najčešće primenjuju uglavnom su izvedene iz tri glavne oblasti: statistike, mašinskog učenja i baza podataka. Određeni algoritmi poput regresije i stabla odlučivanja preuzeti su iz statistike. S obzirom da se data mining bazira na otkrivanju obrazaca ponašanja iz analiziranih podataka neki algoritmi su preuzeti iz oblasti mašinskog učenja poput neuronskih mreža koje se izuzetno uspešno primenjuju kod klasifikacije i regresije i onda kada su veze među atributima nelinearnog tipa. Genetski algoritmi prestavljaju još jednu tehniku koja se koristi za klasifikaciju i klasterovanje. Ali je razvijeno i mnogo novih algoritama, metoda i softvera. Takođe postoji i nekoliko skalabilnih verzija algoritama klasifikacije i klasterovanja koji koriste tehnike baza podataka, uključujući i Microsoft-ov algoritam klasterovanja.4 Uopšteno govoreći, sve Data Mining tehnike se mogu podeliti u dve grupe : 1) 2)
4

Discovery data mining – tehnike za otkrivanje novih znanja ( informacija ) Predictive data mining – tehnike za predvidjanja

I.H. Witten., E. Frank., : Practical Machine Learning Tools and Techniques, Elsevier Inc., 2005

8

Data Mining

Velida Kijevčanin - Šaban Gračanin

Kako bi se problemi rešavali što brže i tačnije, razvijen je veliki broj tehnika, algoritama i metoda DM-a, u nekoliko poslednjih godina. Sve su one svrstane pod istim nazivom – Data Mining tehnike. Neke od tehnika DM su : Stablo odlučivanja ( Decision Tree ) Decision Tree je veoma popularan metod za klasifikaciju i odlučivanje. To je tehnika odlučivanja koja se temelji na odnosima između strategija i stanja, a koristi se za rešavanje problema u finansijama, bankarstvu, merketingu, osiguranju.. Korišćenjem serije pitanja i pravila za kategorizaciju podataka, predvidjaju se ishodi. Stablo odlučivanja nastaje grananjem kao posledica ispunjenja uslova klasifikacijskih pitanja. Svako pitanje će podeliti podatke u podskupove koji su homogeniji nego viši skup. Ako pitanje ima dva odgovora, tada će kao odgovor na pitanje nastati dva podskupa (binarno stablo). Koliko pitanje ima odgovora toliko će podskupova nastati. Samim tim vrši se klasifikacija pojedinih podataka. Predviđanje ponašanja pojedinog klijenta može se izvesti na temelju njegovog pripadanja pojedinom skupu (u koji je svrstan na osnovu niza pitanja i uslova ), za koji se zna kako će se ponašati. Prilikom izgradnje stabla odlučivanja važno je znati postaviti pravo pitanje. Pitanje je utoliko bolje, ukoliko će se njime bolje organizovati podaci, odnosno ukoliko će se nakon toga stvoriti podskupovi koji su homogeniji. Modeli koji se baziraju na stablu odlučivanja razlikuju se po algoritmima koji zahtevaju obeležja pojedinih podataka na bazi kojih se kreiraju pitanja. Stabla odlučivanja se veoma primenjuju na relacijskim bazama podataka (npr. SQL). Primer stvaranja stabla odlučivanja prikazan je na slici 1.

9

Data Mining

Velida Kijevčanin - Šaban Gračanin

Metoda najbližeg Suseda (Nearest neighbor classification) Nearest neighbour classification jedna od najstarijih tehnika koja se primenjuje u data miningu za klasifikaciju podataka. Zbog svog načina rada, koji je sličan ljudskom načinu razmišljanja, ova metoda je jedna od najjednostavnijih. Temelji se na traženju podataka koji imaju najsličinija svojstva i poznato ponašanje. Podatak koji ima najsličnija svojstva je najbliži sused, pa se pretpostavlja da će se slično i ponašati. Pitanje algoritma je kako odrediti ko je najbliži sused. Jedan od najjednostavnijh načina je upotreba euklidske geometrije u n-dimenzionalnom prostoru. Pri tome treba napomenuti da svaka varijabla ne nosi istu težinu (npr. prilikom računanja udaljenosti dob klijenta uzimamo s težinom 1, a zemlju porekla s težinom 0.1). Kako bi metoda bila što tačnija, potrebno je u bazi podataka naći što sličniji podatak (za koji je potrebno što tačnije poznavati ponašanje), što zahteva velike količine podataka. Za razliku od ostalih tehnika , ovde ne postoji proces učenja kako bi se kreirao model. Podaci koji se koriste za učenje su u stvari model. Kada se pojavi novi podatak, algoritam analizira sve podatke u bazi, kako bi našao podgrupu slučajeva koja najbolje odgovara tom slučaju, i na osnovu toga vrši predvidjanje. 1) Neuronske mreže ( Neural networks ) To je tehniga DM zamišljena da deluje slično ljudskom mozgu. Kao što ljudski mozak nakon procesa učenja izvlači određene pretpostavke na osnovu ranijih zapažanja, tako i ove mreže predviđaju promene i dešavanja u sistemu nakon procesa učenja. DM na osnovu ove tehnike počinje „učenjem „mreže pomoću podataka koji su već poznati, a koji se odnose na vrednost koju želimo prognozirati. Nakon toga znanje se proverava, sve dotle dok rezultati provere ne budu zadovoljavajuci. Ceo proces se u osnovi svodi na sledeće : Prvo se neuronskoj mreži daju određeni podaci za koje već znamo izlazne vrednosti. Na osnovu ovih podataka neuronske mreže prepoznaju obrasce i pravila. Zatim se na oznovu ovih obrazaca i funkcija istražuju gomile podataka koje preduzeća imaju u svojim bazama. 5 Primer – Kompanije koje se bave izdavanjem platnih kartica raspolažu ogromnim podacima o svojim korisnicima, procesu odobravanja i transakcijama. DM omogućava utvrđivanje veza i pravila među podacima. Ako kompanija npr. zna da od 3000 zahteva za kartice postoji 100 pokušaja prevare, korišćenjem neuronskih mreža, utvrđuju se obrasci na osnovu kojih se prepoznaju ovi pokušaji. Ovi obrasci se nakon toga koriste za ispitivanje svih baza podataka kompanije, utvrdjivanje i prepoznavanje prevara. Takođe, proveravaju se i same transakcije pri plaćanjima. Na osnovu utvrđenih šema ponašanja potrošača ( šta kupuje, gde kupuje, koliko troši.. ), sistem određuje verovatnoću svake transakcije i šalje kontrolorima poruku u koliko treba neku od transakcija proveriti.
5

Max Bramer, British Library Cataloguing in Publication data, Springer-Verlag London limited, 2007

10

Data Mining

Velida Kijevčanin - Šaban Gračanin

Neuronske mreže su najkomplikovanija metoda (kako za upotrebu, tako i za primenu), ali daju najtačnije modele. Nuronske mreže nastale su proučavanjem i pokušajima imitiranja rada mozga i nervnog sistema čoveka (i drugih životinja). Osnovna ćelija neuronskih mreža (neuron) prikazana je na slici 2.

Neuron svoj izlaz temelji na kombinaciji niza ulaza pomnoženih s odgovarajućim težinama. Neuronska mreža sastoji se od niza neurona koji su međusobno povezani. Prilikom projektovanja neuronske mreže potrebno je odrediti strukturu (broj neurona i njihove međusobne veze). Da bi stvorili model predviđanja upotrebom neuronskih mreža potrebno je definisati težine pojednih veza. To se postiže treningom neuronske mreže. Daju joj se testni podaci i zatim se koriguje odgovor koji daje, ako je netačan. Neuronska mreža će tada korigovati težine pojednih veza izmeu neurona. Ako je prethodni neuron dao tačan odgovor vezi prema njemu, težina će se povećati, dok će se u suprotnom smanjiti. S vremenom neuronska mreža uči, pa sa povećanjem broja treninga daje sve tačnije rezultate.

11

Data Mining 2) Fuzzy Logika ( Fuzzy logic )

Velida Kijevčanin - Šaban Gračanin

Šta je Fuzzy logika? Da bi najlakše objasnili ovaj pojam, uporedićemo ga sa konvencijalnom logikom. Osnova klasične logike, koju je definisao Aristotel, zasniva se na jasnim i precizno utvrđenim pravilima, a počiva na teoriji skupova. Skupovi imaju jasno definisane granice. Neki element može da pripada nekom skupu ili da ne pripada. I ovakvi skupovi se definisu kao Crisp tj .jasni, bistri. Kod Fuzzy logike, nije jasno definisana pripadnost elementa nekom skupu, već se meri u procentima. Skalirani, ovi procenti uzimaju vrednost od 0 do 1. Kao primer možemo uzeti dane u nedelji, i pokušati da napravimo dva podskupa – radne dane i vikend. Po Crisp logici – ponedeljak, utorak, sreda, četvrtak i petak – pripadaju radnim danima, i njih bi obeležavali brojem 1. U vikend dane spadaju subota i nedelja, i obeležavamo ih sa 0. Po Fuzzy logici, situacija bi bila drugacija. Petak, je jednim delom radni dan, a drugim delom početak vikenda, tako da on pripada jednim delom ( npr 0,75 ) radnom danu, a drugim delom ( 0,25) vikend danima. Slična je situacija i za nedelju, jer se nedeljom uveče ljudi pripremaju za radnu nedelju. Tako da se istinitost svake tvrdnje u Fuzzy logici meri u procentima. Ova logika je jako bliska ljudskoj percepciji o mnogim stvarima u životu. Sama tehnika se sprovodi kao simulacija ljudskog rezonovanja i razmišljanja, pri čemu se dozvoljava računaru da se ponaša manje precizno. Koristi se za donošenje odluka u sivoj zoni. 3) Memorijski zasnovano rasuđivanje ( Memory based reasoning ) Memorijski zasnovano rasuđivanje je tehnika DM koja se koristi za predviđanje i klasifikaciju. Slična je tehnici neuronskih mreža, sa razlikom što MBR traži slične podatke, ali pri tom ne utvrđuje obrasce i pravilnosti u podacima. Primer upotrebe – Ukoliko doktor ima pacijenta sa sličnim simptomima bolesti kao i kod ranijih pacijenata, on ce na osnovu iskustva dati dijagnozu. 4) Clastering ( Clustering ) Tehnika grupisanja koja omogućava grupisanja podataka koji su slični. Grupisanja su u stvari razvrstavanja elemenata u skupove, u kojima se postiže najveća sličnost podataka ( segmentacija kupaca – po starosti, zanimanju, dohotku, potrošnji ..). Pri podeli moraju biti zadovoljena 2 kriterijuma : 1) svaka grupa predstavlja homogen skup – slični podaci 2) svaki skup se mora razikovati od ostalih skupova – značajne razlike u podacima

12

Data Mining

Velida Kijevčanin - Šaban Gračanin

5) Analiza potrošačke korpe ( Market Basket Analysis ) MBA često se naziva i grupisanje po sličnosti. Koristi se za pronalaženje grupa artikala koji se najčešće zajedno kupuju u jednoj transakciji. Analizom potrošačke korpe, utvrđuje se verovatnoća da ce potrošač kupiti proizvod B, ukoliko je pri jednoj kupovini već kupio proizvod A. Model se široko upotrebljava u trzišnim centrima i supermarketima. Kao primer navodimo DM koje je sproveo Wall Mart. Analiziranje prodaje između 17-19 h popodne, utvrđeno je da su dva prozivoda koja su najčešće zajedno kupovano Pivo i Pelene. Na bazi ovog podatka, menadžeri si zahtevali izmeštanje vitrine sa Pivom bliže policama sa Pelenama. Kao rezultat prodaja je povećana za 15%. Ova metoda se takođe koristi za analize prodaje u marketima na različitim lokacijama, prodajama po različitim danima, godišnjim dobima.. a sve u cilju prilagođavanja arsortimana i usluga kako bi se uvećala prodaja.

6) Rule indication Upotreba ove metode zasniva se na prolasku kroz bazu podataka upotrebljavajući logičke funkcije na varijablama, i računajući verovatnoću pojave takvog događaja, pojedinih zapisa, kako bi se došlo do skrivenih informacija. Kako bi se moglo doći do skrivenih informacija, potrebno je proći kroz što više mogućih međusobnih kombinacija varijabli (sve kombinacije), što drastično usporava i poskupljuje ovu metodu. Ako odbacujemo pojedine varijable kao nevažne, tada postoji mogućnost da nećemo videti vezu između pojedinih podataka i model učiniti manje tačnim. Osim s tehničke strane, pretraživanje sličnosti pojednih podataka po svim varijablama često daje ogroman broj povezanosti između pojedinih podataka, pa je ponekad potreban još jedan prolaz kroz dobijeni rezultat kako bi se izolovali oni zaključci koji su najinteresantniji. Modeli koji se baziraju na upotrebi rule inidication pokazali su se među tačnijima (tačnije daju neuronske mreže), ali su za razliku od neuronskih mreža jednostavniji za korišćenje. 7) Metoda K Najblizeg Suseda ( K Nearest neighbors ) Poboljšanje u odnosu na metodu najbližeg suseda je u tome što se posmatra ponašanje nekoliko sličnih podataka, a ne samo jedan. Samim tim (statistički) moći ćemo tačnije predvideti ponašanje i svojstva pojedinog podatka. Ovakav algoritam je vrlo lako implementirati.

13

Data Mining 8) Ostali algoritmi

Velida Kijevčanin - Šaban Gračanin

Postoji niz drugih algoritama na kojima se temelje modeli za data mining, ali oni se manje koriste od gore navedenih. Neki od njih su:
• • • •

K-means clustering Genetski algoritmi Samoorganizujuće mape (engl. Self organized maps) Kao metoda se možda može spomenuti i statistika, ali ona više daje pogled na povezanost varijabli u prošlosti, nego što daje pogled u budućnost.

1.7. Korišćenje Data mining-a i najnoviji trendovi Ako izuzmemo najvece svetske kompanije danas, mnoga preduzeca i dalje ne koriste Data Minig metode kao podrsku procesu odlucivanja. Razlozi koji se najcesce pominju su visoki troskovi, nedostatak kvalifikovanog osoblja, nerazumevanje samog koncepta DM. Cesto se desava da i one kompanije koje imaju svoje baze podataka i koriste DM metode, nisu u stanju da iskoriste sve njegove pozitivne efekte. Prema istrazivanju Cutter Korporacije iz 2003 godine, IT konsulting korporacije u USA, samo 15% preduzeca smatra da je koriscenje metoda DM doprinelo poboljsanju njihovog poslovanja. Jedna od najvecih Britanskih agencija za Direktni marketing, Rapp Collins, navodi podatak da se pri analizama baza podataka putem DM koristi prosecno samo 18% informacija iz postojecih baza. Medjutim, napredak u oblasti racunarske tehnologije i razvoj novih mikroprocesora u poslednjih nekoliko godina, povecali su efikasnost i isplativost koricscenja Data Mining-a. Pre svega treba pomenuti da su preduzecima danas dostupni jeftiniji DM programi i softveri. Neki od najpoznatijih su IBM-ov Intellgent Miner, Oracle-ov Darwin, SAS-ov Institute Enterprise Miner i SPSS-ov Clementine. Cene ovih programa se krecu u rasponu od nekoliko desetina hiljada Dolara ( za kompleksnije i do nekoliko miliona $ ). Ova nova generacija DM programa ne zahteva angazovanje eksperata, i ne zahteva od Menadzera detaljno poznavanje statistike. Njihovo koriscenje i primena je danas dosta pojednostavljeno. Drasticno su smanjeni i troskovi pripreme i transformacije podataka. Kako svaka baza podataka ima svoje formate zapisa, a pojedina rešenja algoritama koja se koriste za DM koriste svoje formate zapisa, često je prenošenje podataka iz baze podataka u algoritam za data minig procedura koja je ranije oduzimala dosta vremena. Tokom 90-tih godina, cak 80% truda odnosilo se na pripremu podataka.).

14

Data Mining

Velida Kijevčanin - Šaban Gračanin

Grafik pokazuje da se cak 80% ukupnog truda odnosilo na prikupljanje, obradu I pripremu podataka za Data Mining analizu. Samo 20% , odnosilo se na sam postupak analize podataka, definisanje modela i upotrebu Data Mining modela za predvidnjanja i odlucivanje. Danas je ovaj procenat smanjen na 15%, a razvijeni su i novi programi za automatsku analizu tekstova ( Text Mining). Zbog velike količine informacija koja je potrebna o svakome korisniku za stvaranje modela, što može uključivati njegovu dob, dohodak, da li živi na selu ili gradu, kući ili stanu, da li je oženjen/udata ili ne, pogotovo u zadnje vreme, postavlja se pitanje privatnosti korisnika. Ljudi postaju sve osetljiviji na svoje privatne podatke, te ne vole da se oni zloupotrebe za profit drugih. Mnoge države uvode zakone koje ograničavaju skupljanje takvih podataka. Samim time može se dogoditi da za postavljanje tačnih modela relevantni podaci budu nedostupni. Treba uzeti u obzir i da bi sam korisnik mogao u pojedinim situacijama, da zaštiti svoju privatnost, upisati pogrešne podatke, što bi dovelo do korumpiranosti podataka u bazi i do netačnih modela. Danas se stoga pokušavaju napraviti određeni standardi, kao i vizualizacija dobijenih rezultata kako bi se olakšalo : 1) ocenjivanje primenjenih modela data mining-a 2) poredjenje razlicitih modela koje istrazivacu stoje na raspolaganju. Najcesce korisceni alati za ocenjivanje DM modela su : - Graficko prikazivanje rezultata - Lift Charts - Tabelarno prikazivanje rezultata - Classification Matrix Takozvane ROC krive ( Receiver Operating Characteristic ) , najcesce se koriste za graficko prikazivanje promena ( poboljsanja ) koje se desavaju usled koriscenja Data Mining metoda , ali I za poredjenje efikasnosti pojedinih DM modela.

15

Data Mining

Velida Kijevčanin - Šaban Gračanin

Na primer, Marketing odeljenje zeli da sprovede kampanju slanja ponuda svojim kupcima putem e-maila. Iz ranije sprovedenih kampanja poznato je da na ovakve ponude reaguje prosecno 10% svih kontaktiranih kupaca. U bazi postoje podaci o ukupno 10.000 kupaca. Na osnovu iskustva, kontaktiranjem svih kupaca, samo ce 1000 njih prihvatiti ponudu I kupiti proizvode koje preduzce nudi. Medjutim, sta ako preduzece nema dovoljno sredstava predvidjenih budzetom da kontaktira sve kupce iz baze podataka, vec samo njih 5000. Tada se mora doneti odluka : - Slucajnim izborom odabrati 5000 kupaca I njima poslati ponude - Korisititi Data Mining model, za izbor 5000 kupaca koji ce najverovatnije prihvatiti ponudu Ocenjivanje DM modela pomoću ROC krive svodi se na sljedeće : I) Ako preduzece slucajno izabere 5000 kupaca kojima će pokušati prodati neki proizvod putem e-mail kampanje, samo njih 500 tj. 10% se ocekuje da ce prihvatiti ponudu. Prihod ce se povećati linearno s brojem potencijalnih kupaca kojima smo pristupili putem e-maila. Ovakva situacija je prikazana plavom linijom na grafikonu. II) Medjutim, ako Marketing odeljenje priliko izbora kupaca koristi Data Mining metode ocekuje se veci odziv kupaca jer se kontaktiraju samo oni koji ce najverovatnije da private ponudu. a) Ako je izabran idealan DM model za izbor kupaca, kompanija moze da ocekuje da ce svih 1000 kupaca obuhvacenih e-mail kampanjom prihvatiti ponude. Taj slucaj je predstavljen Ljubičastom pravom - model bi bio idealan kada bi svaki kupac, za kojeg je predviđeno da će kupiti proizvod, zaista taj proizvod i kupio. b) U stvarnosti medjutim, modeli Data mining-a omogucavaju ostvarivanje rezultata koji se nalaze izmedju ove dve krajnosti, a koji su prikazani krivama izmedju ova dva extremna slucaja. Tako da svaka kriva iznad “linije slucajnog izbora “predstavlja poboljsanje ( “lift”) usled upotrebe Data Mininga. Otuda I naziv Lift Charts za ove grafikone.

16

Data Mining Primer je prikazan na slici :

Velida Kijevčanin - Šaban Gračanin

1.8. Upotreba Data mining-a Data mining je našao široku primenu u oblasti poslovanja preduzeća, ekonomije, mehanike, medicine, genetike, saobracaja, kriminalistike i sl. Data mining se može , primeniti u svim onim oblastima gde se raspolaže velikim količinama podataka čijom analizom se žele otkriti određena pravila, zakonitosti i veze. Tipicni primeri Data Minig-a su : Bankarstvo – Predvidjanje nivoa losih plasmana, utvrdjivanje rizika kod kreditnih kartica, predvidanja zarade od novih klijenata.. Osiguranje – Predvidjanje nivoa odstetnih zahteva, sprecavanje prevara.. Trgovina – projekcije prodaje, sprecavanje kradja i prevara, utvrdjivanje plana snabdevanja maloprodaja, odredjivanje optimalnih zaliha.. Policija – Pracenje sema zlocina, predvidjanje kriminalnog ponasanja pojedinaca, lociranje zlocinaca... Marketing – predvidjanje prodaja, utvrdjivanje trendova, predvidjanje ponasanja potrosaca, unapredjivanje prodaje, utvrdjivanje metoda za sprovodjenje direktnog martketinga, cross-seling, akvizicija kupaca, utvrdjivanje optimalnog prodajnog asortimana, cost-benefit analize..

17

Data Mining Jos neki od zanimljivih primera upotrebe DM su :

Velida Kijevčanin - Šaban Gračanin

1) Njujorska policija , preko baze podataka o zlocinima, zlocincima i lokacijama zlocina, i metoda DM resava 60% svih slucajeva. 2) Harrah Entertainment, veliki Casino operater, koristi DM za unapredjivanje poslovanja i privlacenje potrosaca. Osnova sa analize i donosenje odluka je ogromna baza podataka u koju Harrah svakodnevno ubacuje podatke o activnostima svojih klijenata. Prikupljaju se svi dostupni podaci, ne samo o klijentima ( imena, godine, pol..) vec i podaci o njihovim potrosackim preferencijama. Istrazivanjem ovih podataka, Harrah je saznao da samo 26% svih klijenata generise 82% ukupnih prihoda. Iznenadjujuce je to se tih 26% ne odnosi na najbogatije klijenta, vec na starije osobe i to profesore, doktore, bankare.. Harah je iskoristio ove podatke za kreiranje specijalnih ponuda za ovu grupu klijenata. Takodje, DM modelima Harrah vrsi precizna predvidjanja nivoa potrosnje pojedinih grupa klijenata. 3) Americka agencija za vazdusni prevoz, istrazivala je podatke o uzrocima padova aviona. Upotrebom DM metoda doslo se do obrazaca nastajanja gresaka pri prevozu putnika. Ispravljanjem ovih gresaka smanjen je broj nesreca i spaseni zivoti mnogih ljudi.

18

Data Mining ZAKLJUČAK

Velida Kijevčanin - Šaban Gračanin

Menadzeri svakog dana pokusavaju da u velikim bazama podataka pronadju informacije ( znanje ) za donosenje poslovnih odluka. Cesto se desava da kasno uvide da je resenje za njihove probleme bilo „ ispred nosa „ i da je konkurencija vec iskoristila ova saznanja. Data Minig, kroz bolje upravljanje i analizu podataka, moze pomoci preduzecima da ostvare vece profite. Stoga je veoma bitno da se Menadzeri upoznaju sa pojmom i tehnikama DM, jer se kolicine dostupnih informacija u buducnosti sigurno rasti, a nece postati jasnije i lakse za razumevanje i donosenje odluka. Jasno je da ni konkurencija nece sedeti skrstenih ruku, i ignorisati koristi koje ove tehnike mogu da donesu. Upravo zbog toga se sto pre treba upoznati sa konceptom Data Mining-a. Sa druge strane , ne treba imati nerealna ocekivanja. Data Mining ne moze resiti sve probleme koje preduzece i njegovi menadzeri pokusavaju da rese. Neke kompanije su upravo smatrajuci DM metode „ univerzalnim lekom” svu paznju usmerile na razvijanje novih algoritama i softvera, ne povezujuci ih sa stvarnim problemima sa kojima se suocavaju. Da bi se izbegla nerealna ocekivanja, uvek treba imati u vidu da DM nije alatka za definisanje problema ili otkrivanje sansi na trzistu. To su problemi koje Menadzeri kompanija moraju da rese. DM samo odredjuje obrasce u podacima, nova saznanja, koja ce pomoci Menadzerima u odlucivanju, nakon sto oni utvrde probleme koje zele da rese ili sanse koje zele da iskoriste. Data Mining metode nisu zamena za efikasan Menadzment.

LITERATURA:

 1) Z. Tang, J MacLennan, Data Mining with SQL Server 2005, Indianapolis: 
   Wilez Publishing Inc., 2005. 2) Panian, Ž., Klepac, G.,: Poslovna inteligencija, MASMEDIA, Zagreb, 2003., str 78 3) Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to Data Mining, ISBN 0-321-20448-4 4) I.H.Witten, E. Frank, Data Mining: Practical Machine Learning Tools and Techniques, Elsevier Inc., 2005 5) Max Bramer, British Library Cataloguing in Publication Data, © SpringerVerlag London Limited 2007

19

Data Mining

Velida Kijevčanin - Šaban Gračanin

PRIMER 1 Upotreba DM u analizi kriminalnih mreza Kriminalne grupe cesto razvijaju svoje mreze, u okviru kojih se organizuju podgrupe I bande kako bi se izvodile razne vrste kriminalnih aktivnosti. Data Mining se moze iskoristiti za indentifikovanje ovih podgrupa ( bandi ), I utvrdjivanje nacina komuniciranja I interakcije izmedju njih, kako bi se sprecile mnoge ilegalne aktivnosti I zlocini. Analizirajuci bazu podataka 272 Policijske Stanice u Tusonu, predstavnici Univerziteta u Arizoni I Hong Kongu, analizirali su Izvestaje o 164 zlocina pocinjena u periodu od 1985 do 2002. Koriscen je prostorni koncept ( tehnika ) , kako bi se utvrdile veze izmedju podgrupa I definisala mreza bandi. Stepen povezanosti izmedju pojedinih podgrupa meren je prema prema tome koliko su se cesto njihova imena zajedno pominjala u istim zlocinima. Koriscena je metoda Clastering-a, kako bi se cela kriminalna mreza na tom podrucju podelila na podgrupe ( bande ), I block-modeling pristup za utvrdjivanje veza I komunikacije izmedju istih. Isti pristup je koriscen I za utvrdjivanje vodja bandi . Dobijeni su sledeci rezultati : Grafikon 1 - Pokazuje da je koriscenjem DM utvrdjeno 16 vodja kriminalnih grupa,cija su imena obelezena crvenim slovima, kao I mesta na kojima su se desavali zlocini.

20

Data Mining

Velida Kijevčanin - Šaban Gračanin

Grafikon 2 - Pokazuje koje su kriminalne podgrupe utvrdjene, ukupno njih 16. Grupe su nazvane po imenima njihovih lidera. Obim krugova pokazuje broj clanova koji pripadaju svakoj grupi, tj velicinu grupa I podrucje njihovog delovanja. Debljim linijama prikazano je izmedju kojih podgrupa postoji veci obim komunikacije I cvrsce veze.

21

Data Mining

Velida Kijevčanin - Šaban Gračanin

Nakon sprovedenog istrazivanja, dobijeni rezultati su analizirani od strane 3 eksperta iz Policijske Stanice u Tusonu, koji su uporedjivali ove podatke sa informacijama koje imaju sa terena. Eksperti su potvrdili rezultate dobijene DM. Podaci realno prezentuju stvarno stanje na terenu. Podaci o dve najvece kriminalne podgrupe su takodje tacni, a I jacina veza koja postoji izmedju njih. Te dve podgrupe su smatrane za dve najvece mreze za prodaju narkotika u regionu. Imena vodja grupa su takodje ispravna, a ispostavilo se da su vodje dve najvece podgrupe dobri prijatelji. Eksperti su potvrdili da DM system koji je razvijen tokom ovog istrazivanja, moze u velikoj meri da pomogne u definisanju kriminalnih mreza I njihovih struktura, ali I da pomognu u sprecavanju odredjenih kriminalnih aktivnosti I zlocina. Pomocu ovakvih modela, mogu se u velikoj meri ograniciti komunikacije izmedju podgrupa , I suziti podrucje njihovog delovanja.

22

Data Mining

Velida Kijevčanin - Šaban Gračanin

PRIMER 2 Zavisnost kvaliteta poslovanja od starosne strukture prodavaca

Uvod
Uspesnost malih i srednjih preduzećau velikoj meri zavisi od starosne strukture zaposlenih a posebno od prodavaca u maloprodajnim objektima. Ova preduzeća nemaju posebne službe koje se bave upravljanjem kadrova i strategijom zapošljavanja i po pravilu se oslanjaju na iskustvo vlasnika preduzeća i opšte-prihvaćena mišljenja koja nisu uvek tačna. Pogrešan izbor zaposlenih može imati veoma negativan uticaj na poslovanje preduzeća a da vlasnici nisu svesni uzroka loših poslovnih rezultata. Mnoga istraživanja i postojeci savremeni softverskih paketi često nisu dostupni malim i srednjim preduzećima iako bi njihova primena mogla da ima značajan uticaj na ostvarivanje dobrih poslovnih rezultata. Cilj ovog istrazivanja je da se uradi analiza uticaja starosne structure prodavaca u malim I srednjim preduzećima na poslovanje, primenom odgovarajućeg softverskog paketa I tehnike data mining-a. Na osnovu analize određen je kriterijum pri zapošljavanju novih radnika u maloprodajnim preduzećima. Izvršena je analiza zavisnosti kvaliteta prodaje od starosne strukture prodavaca na uzorku od 414 različitih maloprodajnih firmi čije je poslovanje praćeno polugodišnjim izveštajima u vremenskom periodu od tri godine (2004-2006). Istraživanje je vršeno neuralnim klasterovanjem jednom od tehnika data mining-a. Kao rezultat dobijamo šablone u obliku klastera sa odgovarajućim karakteristikama koje mogu opisivati dobru ili lošu prodaju i odgovarajućom starosnom strukturom prodavaca koja je za to odgovorna. Kako još uvek nije dostupna realna baza o poslovanju preduzeća u Novom Pazaru rad je realizovan nad modelom i bazom podataka o poslovanju maloprodajnih preduzeća iz različitih zemlja koja je učesnicima uprojektu bila dostupna preko interneta. Alat koji je korišćen za istraživanje je softverski paket DB2 Inteligent Minner firme IBM. Ovaj alat nam omogućava korišćenje niza tehnika data mining-a, statističkih metoda itd., kao i mogućnost vizuelnog predstavljanja rezultata koji su dobijeni.

1.Problem i cilj Problem: Analiza uticaja staosne strukture prodavaca na poslovanje maloprodajnih preduzeca. Polazne informacije potrebne za rešenje problema: -podela u grupe po godinama zaposlenih ( tabela AGE-GROUP ) -informacije o vrsti posla kojom se bavi svaka firma ( tabela RETAILERHEADQUARTERS ) -podaci o vrsti artikala koji se prodaju u kom objektu (tabela RETAILER-SEGMENT) -struktura prodaje po pripadnosti prodavaca odredjenom starosnom dobu ( tabela SALES_DEMOGRAPHIC) -polugodisnji izvestaji o poslovanju za prodavce ( tabela SEMI-ANNUAL-REPORT )

23

Data Mining

Velida Kijevčanin - Šaban Gračanin

Pitanje kvaliteta poslovanja je diskutabilno i može se posmatrati iz više uglova. Problem je odrediti tačnu definiciju šta pozdrazumeva kvalitetnije poslovanje. U svakom slučaju, poslovanje je bolja ako je neto zarada veca, dugoročna dugovanja manja, stalna imovina veća, trenutno neizvršene obaveze manje. Ukupan prihod i ukupne troškove možemo posmatrati spojeno jer njihova razlika daje neto zaradu. Ono što je potrebno naći je razlika između prodavaca koji rade u sličnim firmama po velicini i dati njihove razlike zavisno od godina. Dakle ako imamo grupu onih koji ne zarađju mnogo među njima treba uvideti one koji su skloni velikim kreditima i one sa manjim dugoročnim dugovanjma. Cilj ovog projekta bi bio pomoć poslodavcima prilikom zapošljavanja. Ako se na primer pokaže da se starije osobe manje zadužuju a da mlađe prave veće promete da odrede na koji će način birati zaposlene. 2.Rešenje problema 2.1.Pregled prodaje po starosnim grupama na celom uzorku Grupisanjem prodavaca po starosnoj grupi i određivanjem prosečnog procenta učešća u prodaji za svaku starosnu grupu pomoću dalje prikazanog sql upita dobijamo rezultate date u tabeli 5.1. connect to gomr; create view gomr.avg_age (age,avgsales) as select s.AGE_GROUP_CODE, avg(s.SALES_PERCENT) from gomr.SALES_DEMOGRAPHIC as s group by s.AGE_GROUP_CODE; connect reset; % Ucesce starosnih gurpa u prodaji AGE_GROUP_CODE AVG_SALES_PERCENT do 20 godina 14 od 21 do 30 26 od 31 do 40 19 od 41 do 50 17 od 51 do 60 13 preko 61 god 8 Tabela 5.1.

1 2 3 4 5 6

Iz tabele se može zaključiti da najviše udela u prodaji na posmatranom uzorku imaju prodavci starosti od 21 do 30 godina pa se mogu smatrati radno najaktivnijom starosnom grupom. Dalje 19 i 17 pripada trećoj i četvrtoj generaciji ili prodavcima od 31 do 50. Nešto manje udela , 13 i 14 procenata, imaju prodavci od 51 do 60 procenata i oni do 20 godina starosti. I naravno prodavaca sa više od 61 godina imaju svega 8 procenata. Pogledajmo dalje koliki je prosek po nekim parametrima kvaliteta poslovanja koji su nam bili ponudjeni, srazmerno njihovom udelu u firmama za svaku od ovih generacija.

24

Data Mining

Velida Kijevčanin - Šaban Gračanin

Slede sql upit za dobijanje ovog pogleda i tabela rezultata (Tabela 5.2). connect to gomr; create view gomr.avg_sales_age (age_group_code, fixed_assets, current_liabilitie, long_term_debt, total_net_income) as select sd.AGE_GROUP_CODE, avg(sd.SALES_PERCENT*sar.FIXED_ASSETS/100), avg(sd.SALES_PERCENT*sar.CURRENT_LIABILITIES/100), avg(sd.SALES_PERCENT*sar.LONG_TERM_DEBT/100), avg(sd.SALES_PERCENT*sar.TOTAL_NET_INCOME/100) from gomr.SALES_DEMOGRAPHIC as sd, GOMR.SEMI_ANNUAL_REPORT as sar where sd.RETAILER_CODEMR=sar.RETAILER_CODEMR group by sd.AGE_GROUP_CODE; Kretanje parametara uspesnosti poslovanja po starosnim grupama
Table 1

age_group_code 1 2 3 4 5 6

fixed_assets current_liabilitie long_term_debt total_net_income 50.550.000 25.700.000 69.740.000 4.640.659 95.690.000 49.400.000 133.600.000 8.929.065. 62.970.000 32.800.000 89.950.000 6.309.459 59.120.000 29.800.000 83.140.000 5.703.743 46.700.000 23.700.000 64.780.000 4.349.081 30.180.000 15.200.000 41.370.000 2.665.142 Tabela 5.2.

Iz tabele je lako uočljivo da je druga starosna grupa prodavaca sa svojih oko 95 miliona fiksne imovine i prihoda oko 9 miliona najprofitabilnija, ali sa druge strane ona je i najzaduženija sa trenutnim dugovanjma od blizu 50 miliona i oko 133 miliona dugoročnih dugovanja. Prodavci stari od 31 do 50 godina su dosta iza prve grupe sa oko 60 miliona stalne imovine i oko 6 miliona neto prihoda, njihova dugovanja su srazmerno njihovoj zaradi manja, trenutna dugovanja su im oko 31 milion i 85 miliona dugoročnih dugovanja. U treću grupu možemo smestiti prodavce od 51 do 60 godina i one mlađe od 21 godinu. Njihova fiksna imovina se kreće oko 49 miliona a prihod im je približno 4,5 miliona ,dok su im trenutna zaduzenja 25 miliona a dugorčna dugovanja 67 miliona što odgovara njihovoj procentualnoj zastupljenosti u prodaji. Najmanje prihoda ali i dugovanja ostvaruju najstariji prodavci sa preko 60 godina i to stalna imovina je približno 30 miliona , neto prihod 2,6 miliona, trenutna dugovanja 15 miliona i dugoročna dugovanja 41 milion. Ono što smo iz ovoga zaključili jeste aktivnost po starosnim generacijama uopšte . Dalje ulazimo u malo dublju analizu da bi videli na koji način bi promenom starosne strukture mogli poboljšati prodaju to jeste ko ume da napravi ravnotežu izmedju prihoda i dugovanja.

5.2.Primena metode klasterovanja na dati problem

25

Data Mining

Velida Kijevčanin - Šaban Gračanin

Za rešavanje napravićemo mininig base u IBM Intelligent Miner programu za israživanje podataka. Prvo klasterovanje izvršićemo na osnovu promenljive neto zarada. Taj mining ćemo nazvati CLUSTER_TOTAL-_NETO_INCOME. Ulazni podaci će biti iz tabele AVG_SEMI_ANNUAL_REPORT i kreiraćemo tabelu CLUSTER_TOTAL_NETO_INCOME u kojoj ćemo smestiti rezultate tog klasterovanja kako bih mogli dalje da ih ispitujemo. Kao rezultat dobijamo sledeći grafik:

CU L STER _TO L ET_IN O E TA _N C M

2

3 6

AVG _TO TAL E _N T_IN ME CO

0

AVG _TO TAL E _N T_IN ME CO

2 5

3

AVG _TO TAL E _N T_IN ME CO

2 1

1

1 8

AVG _TO TAL E _N T_IN ME CO

Dobijamo 4 klastera kojima procentualno pripada: 0.klaster - 25% - zarada od 30 do 60 mil 1.klaster - 18% - zarada od 60 do 110 mil 2.klaster - 36% - zarada od -30 do 10 mil 3.klaster - 21% - zarada od 10 do 30 mil

Evo i statističkih detalja dobijenih o klasterovanju (broj klastera, broj prolaza,…., minimalna i maksimalna vrednost ,standardna devijacija,…)

26

Data Mining

Velida Kijevčanin - Šaban Gračanin

C L U S T E R _ T O T A L _ N E T _ IN C O M E
R e s ult cre a te d : 02 /07/08 1 6:25:56 R e s ult F ile M od e U s e r S pe c ifie d P a ra m e te rs M a xim um N um b e r o f P a s s e s M a xim um N um b e r o f C lus te rs M ining R un O utp uts N um b e r o f P a s s e s P e rfo rm e d N um b e r o f C lus te rs D e v ia tio n : : : : : : :

C :\D O C U M E ~1\U KIC A ~1.L A P \L O C A L S ~1\T e m p \L 07J LX 51 .C T ra ining 20 4 20 4 0.0015 8857

C lus ter C ha ra c teris tic s :
Id 0 1 C lus te r S ize A bs o lute R e la tiv e (% ) 105 73 25.36 17.63 | | | | | Id 2 3 C lus te r A bs o lute 151 85

R efe re nce F ie ld C ha ra cte ris tics (F o r A ll F ie ld T yp e s ) :
Id 1 N am e T yp e M od a l V a lue 5E 6 M od a l F re q ue nc y (% ) 20.05

(F ie ld T yp e s : [ ]=S up p le m e nta ry . C A =C a te g o ric a l, C O = o ntinuo us N ume ric, D N = is c re te N um e ric ) C D N o . o f P o s s ible V a lue s /B uc k e ts 14

A V G _ T O T A L_ N E T _ IN C O M EC O

R efe re nce F ie ld C ha ra cte ris tics (F o r Nume ric F ield s O nly ) :
Id 1 N am e M inim um V a lu e M a xim um V a lue 1.35103E 8 M ea n 3.25974E 7 S ta nd a rd D e v ia tio n 3.44603E 7

A V G _ T O T A L_ N E T _ IN C O M E-2.6872E 7

Kao što možemo videti izvršeno je prosto grupisanje po vrednosti neto zarade na četiri grupe od kojih se u prvoj neto zarada kreće od -30 miliona do 10 miliona (klaster 2) tu su oni koji ostvaruju najnižu zaradu, sledeće dve grupe su od 10 do 30 miliona i druga od 30 do 60 miliona (klasteri 3 i 0) i na kraju oni sa najvećom neto zaradom od 60 miliona do 110 miliona (klaster 1) Možemo sada na osnovu dobijenih rezultata obliku tabele pogledati kakva je starosna struktura dobijenih klastera. Kreirajmo pogled nad ovom tabelom i tabelom SALES_DEMOGRAPHIC. connect to gomr; create view gomr.cluster_tni_avg_age (age_group, precent, cluster) as select s.age_group_code,avg(s.sales_percent), c.cluster from gomr.cluster_total_net_income as c, gomr.sales_demographic as s where c.retailer_codemr = s.retailer_codemr group by s.age_group_code, c.cluster;

27

Data Mining
Rezultati dobijeni u ovoj tabeli su sledeći: Age_group 1 2 3 4 5 6 Cluster 0*** 14 25 20 16 14 8 Cluster 1**** 14 28 18 17 12 8

Velida Kijevčanin - Šaban Gračanin

Cluster 2* 14 26 19 18 13 7

Cluster 3** 12 27 20 17 13 8

Sa zelenom bojom smo označili ako je procenat date starosne grupe u jednom klasteru niži od većine drugih a crveno ako je veći. Zvedice pored klastera označavaju veličinu neto zarade njegovih pripadnika. Možemo primetiti da se u klasteru 1 kome pripadaju prodavci sa velikom neto zaradom nalaze minimumi po 3. i 5. starosnoj grupi i maksimumi po drugoj sto bi moglo da se pročita da mlađi (starosne grupe 1. i 2. ) ostvaruju veću neto zaradu. Klasteri 0 ostvaruje maksimume po 3 i 5 a minimume po 2 i 4. starosnoj grupi što bi moglo ukazivati da pomeranjem starosne granice na gore praćeno je smanjenjem neto prihoda. Klaster broj 3 sa dve zvezdice i minimumom najmlađih a maksimumom 3 genracije potvrdjuje ovaj zaključak. Takodje, i oni koji imaju najmanji prihod sa maksimumom po četvrtoj generaciji uklapaju se u ovu sliku. Međutim iz tabele je jasno vidljivo da su procentualno jako slično raspoređene starosne grupe po klasterima to jeste da su razlike jako male pa i gore navedeni zaključci preuranjeni. Pogledaćemo kakvo je stanje sa dugovima na celoj populaciji. Izvšićemo klasterovanje na osnovu vrednosti atributa dugorocni dugovi. Evo rezulata klasterovanja
CU T RL N _ T R _ E T L S E _ O G _ E MD B 0

3 3

A G OG E M E T V _L N _T R _D B

2

A G OG E M E T V _L N _T R _D B

3 2

1

A G OG E M E T V _L N _T R _D B

1 8

3

1 7

A G OG E M E T V _L N _T R _D B

Dobijamo 4 klastera kojima procentualno pripada: 0.klaster - 33% 1.klaster - 18% 2.klaster - 32% 3.klaster -17%

28

Data Mining

Velida Kijevčanin - Šaban Gračanin

Evo i statističkih rezultata koje smo dobili. Kao i u prethodnom slučaju izvršićemo pogled nad dobijenim izlazom i tabelom SALES_DEMOGRAPHIC kako bih dobili pregled starosne strukture u klasterima izražene u procentima.Rezultat dobijamo datim SQL upitom: connect to gomr; create view gomr.cluster_ltd_avg_age (age_group,precent,cluster) as select s.age_group_code,avg( s.sales_percent), c.cluster from gomr.sales_demographic as s, gomr.cluster_long__term_debt as c where s.retailer_codemr = c.retailer_codemr group by c.cluster, s.age_group_code; connect reset; Age_group 1 2 3 4 5 6 Cluster 0*** 14 27 19 17 13 7 Cluster 1**** 14 28 18 16 13 8 Cluster 2* 14 26 19 17 13 7 Cluster 3** 11 24 20 18 14 8

Zadržali smo iste oznake u tabeli i možemo na osnovu nje zaključiti da je dugovanje veće kod mlađih osoba(maksimum po prvoj i drugoj a minimumi po trećoj i četvrtoj satarosnoj grupi u koloni klastera 1.) a da je kod starijih dugoročno dugovanje manje (maksimumi po trećoj,četvrtoj , petoj i šestoj a minimumi po prvoj i drugoj satarosnoj grupi u koloni klastera 3). Ako izvršimo klasterovanje nad istom tabelom ali po oba gore korišćena argumenta dobijamo sledeći grafik:
CUT R D N L S E _LT _T I

3

4 1

AVG O G E M_D BT _L N _T R E

AVG O AL E _IN O _T T _N T C ME

0

AVG O AL E _IN ME _T T _N T CO

AVG O G E M_D BT _L N _T R E

2 1

1

AVG O G E M_D BT _L N _T R E

AVG O AL E _IN O _T T _N T C ME

1 9

2

1 9

AVG O G E M_D BT _L N _T R E

AVG O AL E _IN O _T T _N T C ME

29

Data Mining

Velida Kijevčanin - Šaban Gračanin

Iz ovog grafika ne možemo zaključiti ništa o kvalitetu prodaje jer u onim klastrima čiji pripadnici imaju velike prihode oni i velike dugove i obrnuto što nam govori samo kvatitetu prodaje ali ne i o njenom kvalitetu pa zaključci koje smo prethodno doneli odnose se isključivo na kvalitet. Spojimo tabele CLUSTER_TOTAL_NET_INCOME , PROSEK_GOD RETAILER_HEADQUARTERS i uzmimo samo one prodavce koji pripadaju 0-tom klasteru. cluster_tni0 create view gomr.cluster_tni0 (avg_cost_of_goods_sold,avg_current_assets,avg_current_liabilities,avg_fixed_assets, avg_long_term_debt,avg_total_net_income, avg_total_op_expenses,avg_total_revenue, retailer_codemr,avg_age,segment_code ) as select c.avg_cost_of_goods_sold, c.avg_current_assets, c.avg_current_liabilities, c.avg_fixed_assets, c.avg_long_term_debt, c.avg_total_net_income, c.avg_total_op_expenses, c.avg_total_revenue, c.retailer_codemr, p.avg_age, r.segment_code from gomr.cluster_total_neto_income as c, gomr.prosek_god_poslovanje as p,gomr. retailer_headquarters as r where r.retailer_codemr =c.retailer_codemr and p.retailer_codemr =c.retailer_codemr and c.cluster = '0' Slično napravimo i poglede u kojima će biti smešteni prodavci koji pripadaju prvom,drugom i trćem klasteru. Evo upit i za ta tri pogleda: cluster_tni1 create view gomr.cluster_tni1 ((avg_cost_of_goods_sold,avg_current_assets,avg_current_liabilities,avg_fixed_assets, avg_long_term_debt,avg_total_net_income, avg_total_op_expenses,avg_total_revenue, retailer_codemr,avg_age,segment_code ) as select c.avg_cost_of_goods_sold, c.avg_current_assets, c.avg_current_liabilities, c.avg_fixed_assets,c.avg_long_term_debt, c.avg_total_net_income, c.avg_total_op_expenses, c.avg_total_revenue, c.retailer_codemr, p.avg_age, r.segment_code from gomr.cluster_total_neto_income as c, gomr.prosek_god_poslovanje as p, gomr.retailer_headquarters as r where r.retailer_codemr =c.retailer_codemr and p.retailer_codemr =c.retailer_codemr and c.cluster = '1 ' cluster_tni2 create view gomr.cluster_tni2 (avg_cost_of_goods_sold,avg_current_assets,avg_current_liabilities,avg_fixed_assets, avg_long_term_debt,avg_total_net_income, avg_total_op_expenses,avg_total_revenue, retailer_codemr,avg_age,segment_code ) as select c.avg_cost_of_goods_sold, c.avg_current_assets, c.avg_current_liabilities, c.avg_fixed_assets, c.avg_long_term_debt, c.avg_total_net_income, c.avg_total_op_expenses, c.avg_total_revenue, c.retailer_codemr, p.avg_age, r.segment_code from gomr.cluster_total_neto_income as c, gomr.prosek_god_poslovanje as p,gomr. retailer_headquarters as r i

30

Data Mining

Velida Kijevčanin - Šaban Gračanin

where r.retailer_codemr =c.retailer_codemr and p.retailer_codemr =c.retailer_codemr and c.cluster = '2 ' cluster_tni3 create view gomr.cluster_tni3 (avg_cost_of_goods_sold,avg_current_assets,avg_current_liabilities,avg_fixed_assets, avg_long_term_debt,avg_total_net_income, avg_total_op_expenses,avg_total_revenue, retailer_codemr,avg_age,segment_code ) as select c.avg_cost_of_goods_sold, c.avg_current_assets, c.avg_current_liabilities, c.avg_fixed_assets, c.avg_long_term_debt, c.avg_total_net_income, c.avg_total_op_expenses, c.avg_total_revenue, c.retailer_codemr, p.avg_age, r.segment_code from gomr.cluster_total_neto_income as c, gomr.prosek_god_poslovanje as p,gomr. retailer_headquarters as r where r.retailer_codemr =c.retailer_codemr and p.retailer_codemr =c.retailer_codemr and c.cluster = '3 ' Dalje ćemo izvršiti klasterovanje po dve promenljive dugoročna dugovanja i neto zarada. Isto ćemo uraditi i za klastere 0, 1,2 i 3. Rezultate čuvamo u dokumentima: CLUSTER_TNI0_LTD, CLUSTER_TNI1_LTD, CLUSTER_TNI2_LTD i CLUSTER_TNI3_LTD. Klaster 0 . Evo i rezultata u obliku grafika koje ćemo analizirati. Pogledajmo klasterovanje CLUSTER_TNI0_LTD. Potsetimo se da klasteru 0 pripadaju oni prodavci čiji neto prihod je izmedju 30 i 60 miliona odnosno da su oni druga grupa po veličini neto zarade, takođe u njoj u njoj su procentualno ostvareni minimumi po drugoj i četvrtoj a maksimumi po trećoj i petoj starosnoj grupi što govori o malo starijoj starosnoj strukturi ovog klastera. Da vidimo kakvo je stanje posle novog klasterovanja ko je sada bolji prodavac u okviru ove grupe.

CLUSTER_TNI0 _LTD
4 2 3

3

3 6

AVG_LO NG_TERM_DEBT

AVG_TO TAL_NET_INCO ME

[ AVG_AGE]

0
4 2 3

AVG_LO NG_TERM_DEBT

AVG_TO TAL_NET_INCO ME

[ AVG_AGE]

2 4
1 4 2 3

1

AVG_TO TAL_NET_INCO ME

AVG_LO NG_TERM_DEBT

2 1

[ AVG_AGE]

2
3

4 2

1 9

AVG_LO NG_TERM_DEBT

AVG_TO TAL_NET_INCO ME

[ AVG_AGE]

31

Data Mining

Velida Kijevčanin - Šaban Gračanin

Pogledajmo prvi grafik u njemu vidimo četiri klastera koji su dobijeni po dugoročnim dugovima i neto prihodu. Iz klastera 3. i 0. Ne saznajemo ništa novo .Klaster 3 grupiše one poslodavce kod kojih su i prihodi i dugovanja srazmerno niski tako da nam ne daje opis ni dobrog ni lošeg poslovanja.Kod klastera 0 situacija je slična samo imamo srazmerno visoke prihode i dugovanja. Nama su interesantni klasteri 1 i 2. U klasteru 2 imamo visoku neto zaradu i niska dugovanja a u klasteru 1 nisku neto zaradu a visoka dugovanja. Pogledajmo njihove starosne strukture:
CLUSTER_ TNI0_LTD Cluster 1 20.95% of population CLUSTER_TNI0_LTD Cluster 2 19.05% of population

1 (5%) 4 (9%) 2 (59%)

3 (27%)

4 (20%) 2 (50%)

3 (30%)

[AVG_AGE ]

[AVG_AGE]

U klasterima 3 i 0 većina poslodavaca pripada trećoj prosečnoj starosnoj generaciji. Kod prvog klastera imamo većinski udeo druge starosne generacije dok kod drugog klastera pola pripada drugoj 30 procenata trećoj i čak 20 ćetvroj starosnoj generaciji što pomera starosnu granicu na gore.Kod ovog poslovanja možemo zaključiti da je iskustvo starijih radnika dovelo do poboljšanja rezultata .

Klaster 1 iz klasterovanja CLUSTER_TOTAL_NET_INCOME sadrži one sa najvećom neto zaradom od 60 do 110 miliona.Evo kako izgleda novo klasterovanje izvršeno na ovom poskupu ukupne populacije.

32

Data Mining

Velida Kijevčanin - Šaban Gračanin

CLUSTER_TNI1 _LTD
4 2 1 3

3

29

AVG_LONG_TERM_DEBT

AVG_TOTAL_NET_INCOME

[ AVG_AGE]

0
4 2 3

25

AVG_LONG_TERM_DEBT

AVG_TOTAL_NET_INCOME

[ AVG_AGE]

2
4 2 3

25

AVG_TOTAL_NET_INCOME

AVG_LONG_TERM_DEBT

[ AVG_AGE]

1
3

4 2

22

AVG_TOTAL_NET_INCOME

AVG_LONG_TERM_DEBT

[ AVG_AGE]

Slična situacij kao na prethodnom grafiku klasteri 3 i 0 imaju srazmerno male odnosno velike prihode i dugovanja. Klaster 2 prikazuje one koji dobro posluju ,velika neto zarada a mala dugoročna dugovanja a oni iz klastera jedan imaju najlošije poslovanje.Pogledajmo starosne strukture ovih klastera.

CLUSTER_TNI1_LTD Cluster 3

28.77% of population

CLUSTER_ TNI1_ LTD Cluster 0

24.66% of population

4 (14%) 2 (43%)

1 (5%) 3 (38%)

4 (17%) 2 (50%)

3 (33%)

[AVG_AGE]

[AVG_AGE ]

33

Data Mining
C LUST E R_ TNI1_ LTD C luster 2

Velida Kijevčanin - Šaban Gračanin
24.66% of population CLUSTER_ TNI1_ LTD Cluster 1
21.92% of population

4 (11%) 2 (44%)

3 (44%)

4 (13% ) 2 (56% )

3 (31%)

[AVG _ AG E ]

[AVG_ AG E ]

Možemo primetiti da u sva četiri klastera najveći deo firmi ima prosečnu starost prodavaca druge i treće starosne grupe. One firme koje imaju najmladje poslodavce sve su ušle u klaster 3 koji ima i nisku zaradu i mala dugovanja.U klasteru nula koji ima visoku zaradu i velike dugove pola pripada drugoj a pola trećoj i četvrtoj grupi . Klasteri 1 i 2 mogu svojom starosnom strukturom indukovati zaključak da je pomeranje starosne granice na gore u klasteru dva je poboljšalo poslovanje.Naime, u klasteru 2 kod koga je poslovanje bilo dobro imamo 44% procenta u drugoj i isto toliko u trećoj starosnoj grupi dok je ostalih 11% još starije i pripada četvrtoj grupi .S druge strane kod klastera 1 koji ima loše poslovanje imamo 12% više druge generacije što dovelo do preovlađivanja mlađih poslodavaca.Dakle ovde bi bio zaključak što starije to iskusnije i prodaja je bolja. Ovo je bilo istraživanje nad 43% ukupne populacije i to onih 43% koji ostvaruju zaradu i imaju zaduženja veća od prosečnih zarada i zaduženja.Kakva je situacija sa drugom polovinom videćemo u nastavku. Klaster 2 klasterovanja CLUSTER_TOTAL_NETO_INCOME obuhvata poslodavce sa neto zaradom od -30 do 10 miliona to su oni koji ostvaruju najnižu zaradu .Sa grafika možemo videti da je u klasteru 3 mala zarada i dugovanja a u nultom visoka i zarada i dugovanja. Kako nam se ponavlja odnos traženih promenljivih u klasterima Opet ćemo razmotriti prvi i drugi klaster i na osnovu njihovih starosnih struktura ovog puta možemo zakjučiti da je došlo pomeranja granice na dole a poboljšanja kvaliteta prodaje.

34

Data Mining

Velida Kijevčanin - Šaban Gračanin

CLUSTER_TNI2_LTD
2 3 4

3

AVG_ TOTAL_ NET_ INCOM E

AVG_ LONG_ TERM _ DEBT

[AVG_AGE]

0

59
AVG_ TOTAL_ NET_ INCOM E AVG_ LONG_ TERM _ DEBT

2

3 4

[AVG_AGE]

2
2 3 4

AVG_ TOTAL_ NET_ INCOM E

AVG_ LONG_ TERM _ DEBT

23

[AVG_AGE]

1

2 4

3

11
AVG_ TOTAL_ NET_ INCOM E AVG_ LONG_ TERM _ DEBT

7

[AVG_AGE]

Pogledajmo grafike njihovih starosnih struktura. Možemo primetiti da u klasteru 2 koji ima najbolje poslovanje u grupi procenat mlađih poslodavaca je porastao za 7% u odnosu na prvi klaster gde je poslovanje najneuspešnije.
CLUSTER_TNI2_LTD Cluster 2 11.26% of population CLUSTER_TNI2_LTD Cluster 1 6.62% of population

2 (47%)

3 (35%) 4 (18%)

2 (40%) 4 (20%)

3 (40%)

[AVG_AGE]

[AVG_AGE]

35

Data Mining

Velida Kijevčanin - Šaban Gračanin

CLUSTER_TNI3_LTD
2 4 3

0

32

AVG_ LONG_ TERM _ DEB T

AVG_ TOTAL_ NET_ INCOM E

[AVG_AGE]

3
2 4 3

AVG_ TOTAL_ NET_ INCOM E

AVG_ LONG_ TERM _ DEB T

31

[AVG_AGE]

1
2 4 3

AVG_ LONG_ TERM _ DEB T

AVG_ TOTAL_ NET_ INCOM E

[AVG_AGE]

22
2 4 3

2

15

AVG_ LONG_ TERM _ DEB T

AVG_ TOTAL_ NET_ INCOM E

[AVG_AGE]

CLUSTER_TNI3_LTD Cluster 1

I na kraju klaster 3 sa zaradom od 10 do 30 miliona I ovde dojamo 3. I 0. Klaster koji nam ne daju bitne informacije i klaster 2 sa najboljim poslovanjem i njemu nasuprot klaster 1. sa lošim poslovanjem.
22.35% of population CLUSTER_TNI3_LTD Cluster 2

15.29% of population

2 (42%)

4 (21%) 3 (37%)

2 (62%)

4 (15%) 3 (23%)

[AVG_AGE]

[AVG_AGE]

Kao i u prethodno i ovde je porast mlađeg stanovništva uticao na bolju prodaju. Čak je 20% više je poslodavaca iz generacije 2 u klasteru 2 u odnosu na klaster 1.Kao što vidimo polovina populacije koja ima manje prihode bolje posluje ako ima više mladih prodavaca.

36

Data Mining

Velida Kijevčanin - Šaban Gračanin

6.Zaključak Iz prethodnog videli smo ko najviše radi i ko najviše troši , i to su ubedljivo prodavci od 21. do 30. godina. Ono što je vidljivo da im se odmah pridružuje starosna sredina a da su najmanje aktivni oni najmlađi i najstariji. Daljim istraživanjem dobili smo i informacije u kome odgovaraju sitnije a kome veće firme. Možemo doneti zaključak da u firmama sa jako velikim prihodima i profitima bolje se pokazuju stariji prodavci dok u firmama u kojima su niski prihodi i profiti bolje se pokazuju mladji prodavci. Pa bi generalno za veći obrt novca trebalo angažovati osobe sa više iskustva dok za manje firme predlog bi bi bio da treba zaposliti mlađe energičnije prodavce. Ovakva istraživanja ima smisla izvoditi i na osnovu njih bi poslodavci mogli da sa velikom sigurnošću biraju prodavce koji će imati najbolje poslovanje.

Literatura korišćena za rad: 1) Z. Tang, J MacLennan, Data Mining with SQL Server 2005, Indianapolis: Wilez Publishing Inc., 2005. 2) Panian, Ž., Klepac, G.,: Poslovna inteligencija, MASMEDIA, Zagreb, 2003., str 78 3) Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to Data Mining, ISBN 0-321-20448-4 4) I.H.Witten, E. Frank, Data Mining: Practical Machine Learning Tools and Techniques, Elsevier Inc., 2005 5) Max Bramer, British Library Cataloguing in Publication Data, © SpringerVerlag London Limited 2007

Literarura korišćena za primer 1: • Research future, Crime Data Mining: A General Framework and Some Examples, Rutgers University, Maj 2009

Literatura korišćena za primer 2:




Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to Data Mining, ISBN 0-321-20448-4 IBM DB2 Intelligent Miner Visualization,Using the Intelligent Miner Visualizers

37

Data Mining


Velida Kijevčanin - Šaban Gračanin
IBM DB2 Intelligent Miner for Data, Using the Intelligent Miner for Data

38

Sponsor Documents

Or use your account on DocShare.tips

Hide

Forgot your password?

Or register your new account on DocShare.tips

Hide

Lost your password? Please enter your email address. You will receive a link to create a new password.

Back to log-in

Close