Subject

Податочно рударење

1. Наслов на наставниот предмет Податочно рударење
Data Mining
2. Код F23L3S150
3. Студиска програма Статистика и аналитика на податоци
4. Организатор на студиската програма (единица, односно институт, катедра, оддел) Факултет за информатички науки и компјутерско инженерство
5. Степен (прв, втор, трет циклус) Прв циклус
6. Академска година / семестар 6 / Летен
7. Број на ЕКТС кредити 6
8. Наставник Билјана Тојтовска Рибарски, Бојан Илијоски
9. Предуслови за запишување на предметот Веројатност и статистика или Математика 3 или Основи на теорија на информации или Бизнис Статистика
10. Цели на предметната програма (компетенции) Запознавање со методи за идентификација на валидни, нови, корисни и разбирливи шеми во податоци и откривања на нови знаења. Претпроцесирање на податоците. Вовед во предиктивни модели од податоците: класификација, регресијa. Откривање на кластери. Совладување на техники за собирање на податоци, нивно траксформирање во облик погоден за интерно користење и нивно зачувување.
11. Содржина на предметната програма 1. 1. Вовед, примери за примена на методите на податочно рударење. Типови на податоци. Мерки на сличност и растојание меѓу податоците: мерки на сличност и растојание за номинални и бинарни. Стандардизација на нумерички атрибути. Мерки на растојание за нумерички атрибути: Растојание на Минковски и специјални видови, косинусно растојание, евклидско ратојание, Махаланобиево растојание. Растојание меѓу податоци со мешани атрибути.
2. Техники за претпроцесирање на податоци: Квалитет на податоци, чистење на податочно множество, Интегрирање на податоци, редукција на податоци, трансформација на податоци и дискретизација на податоци.
3. Напредна визуелизација на податоците.
4. Модели за предвидување, регресиони модели. Напредни концепти (анализа на резидуали, confounding, adjustment, толкување на резултати)
5. Класификација. Надгледувано и ненадгледувано учење. Класификација со дрва на одлучување. LDA класификација
6. Кластерирање и евалуација на кластери.
7. Детекција и справување со аутлаери
8. Евалуација на модели
9. Анализирање на временски податоци и временски серии
10. Екстрахирање, трансформирање и зачувување на податоци (Extract, Тransform, Load)
11. Екстрахирање, трансформирање и зачувување на податоци (Extract, Тransform, Load)
12. Завршен проект
12. Методи на учење предавања, аудиториски вежби, лабораториски вежби, проектни задачи, домашни задачи, разработка на програмски пакет со методи за податочно рударење
13. Вкупен расположив фонд на време 6 ЕКТС x 30 часа = 180 часа
14. Распределба на расположивото време 30 + 45 + 0 + 30 + 75 = 180 часа
15. Форми на наставните активности
15.1. Предавања - теоретска настава 30 часови
15.2. Вежби (лабораториски, аудиториски), семинари, тимска работа 45 часови
16. Други форми на активности
16.1. Проектни задачи 30 часови
16.2. Самостојни задачи 0 часови
16.3. Домашно учење 75 часови
17. Начин на оценување
17.1. Тестови 10 бодови
17.2. Семинарска работа / проект ( презентација: писмена и усна) 30 бодови
17.3. Активности и учење 10 бодови
17.4. Завршен испит 60 бодови
18. Критериуми за оценување (бодови/ оценка)
до 50 бода5 (пет) (F)
од 51 до 60 бода6 (шест) (E)
од 61 до 70 бода7 (седум) (D)
од 71 до 80 бода8 (осум) (C)
од 81 до 90 бода9 (девет) (B)
од 91 до 100 бода10 (десет) (A)
19. Услов за потпис и полагање на завршен испит Реализирани активности 15, 16
20. Јазик на кој се изведува наставата македонски и англиски
21. Метод на следење на квалитетот на наставата механизам на интерна евалуација и анкети
22. Литература
22.1. Задолжителна литература
1. Pang-Ning Tan, Michael Steinbach, Vipin Kumar | Introduction to Data Mining | Pearson Education Limited | 2021
2. Ralph Kimball, Joe Caserta | The Data Warehouse ETL Toolkit: Practical Techniques for Extracting, Cleaning, Conforming, and Delivering Data | Wiley
22.2. Дополнителна литература
Ред.бр. Автор Наслов Издавач Година