Page 907 - 59. КОНГРЕС СТУДЕНАТА БИОМЕДИЦИНСКИХ НАУКА СРБИЈЕ СА ИНТЕРНАЦИОНАЛНИМ УЧЕШЋЕМ
P. 907
59. КОНГРЕС СТУДЕНАТА БИОМЕДИЦИНСКИХ НАУКА СРБИЈЕ 26-30.
СА ИНТЕРНАЦИОНАЛНИМ УЧЕШЋЕМ Април
КOMПАРАТИВНА АНАЛИЗА БРЗИНЕ СТАТИСТИЧКИХ СОФТВЕРСКИХ АЛАТА У РАДУ СА БАЗАМА СА ВЕЛИКИМ БРОЈЕМ
ПОДАТАКА
Аутор: Катарина Бановић, Мила Бастаћ
e-mail: kaca_banovic@yahoo.com
Ментор: aсист. др Зоран Букумирић
Институт за медицинску статистику и информатику, Медицински факултет Универзитета у Београду
Увод: Савремено доба је доба дигиталних података. Експоненцијални раст рутински прикупљених дигиталних података
представља неминовност са којом се суочавамо, тако да ни базе података са више од милион опсервација више нису
реткост.
Циљ рада: Циљ овог истраживања био је да се анализирају брзине статистичких софтверских алата у раду са базама са
великим бројем података.
Материјал и методe: За потребе истраживања генерисана је база са великим бројем података, са 1.000.000 редова и 100
колона. Истраживање је рађено на два тест персонална десктоп рачунара: i3-PC (Intel i3 процесор, 4 GB RAM, HDD 512 GB) и
I5-PC (Intel i5 процесор, 8 GM RAM, SSD 256 GB), применом статистичких софтверских пакета SPSS и R. У овом истраживању
мерене су брзине манипулације са базом података и брзине симулације најчешћих статистичких аналитичких метода које
се користе у истраживању. Мерење брзине извођења процедура рађено је применом синтаксе и скрипта са командама.
Резултати: Укупно време за извођење свих 12 процедура сукцесивно у SPSS-у на i3-PC тест рачунару износило је 198,18
секунди, док је на i5-PC тест рачунару износило 130,06 секунди. Укупно време за извођење свих 12 процедура сукцесивно у
R-у на i3-PC тест рачунару износило је 222,63 секунди, док је на i5-PC тест рачунару износило 162,10 секунди. SPSS је био
бржи у извођењу свих процедура сукцесивно, како на i3-PC (за 11%), тако и на i5-PC (за 20%). Свеукупно, није постојала
статистички значајна разлика у брзини извођења процедура између SPSS-а и R-а.
Закључак: Оба статистичка софтверска алата, на оба тест рачунара, имају задовољавајућу брзину у раду са базама са
великим бројем података. Разлике у брзини извођења процедура су академске и не утичу на корисничко искуство при
свакодневном раду са базама са великим бројем података.
Кључне речи: базе са великим бројем података; SPSS; R; поређење брзине
COMPARATIVE ANALYSIS OF THE SPEED OF STATISTICAL SOFTWARE TOOLS WHILE WORKING WITH LARGE DATASETS
Author: Katarina Banović, Mila Bastać
e-mail: kaca_banovic@yahoo.com
Mentor: TA Zoran Bukumirić
Institute of Medical Statistics and Informatics, Faculty of Medicine University of Belgrade
Introduction: The modern age is the age of digital data. Exponential growth of routinely collected digital data is the inevitability we
are facing, so the datasets with more than a million observations are no longer a rarity.
The Aim: The aim of the study was to analyze the speed of statistical software tools while working with large datasets.
Material and Methods: For research purposes a large dataset of 1.000.000 rows and 100 columns was generated. The research was
conducted on two test personal desktop computers: i3-PC (Intel i3 processor, 4 GB RAM, HDD 512 GB) and i5-PC (Intel i5 processor,
8 GB RAM, SSD 256 GB), using two statistical software packages: SPSS and R.
In this study, the speed of manipulation with the dataset and the speed of simulation of the most common statistical analytical
methods used in the research was measured. Measurement of the speed of execution of procedures was performed by using
syntax and script commands.
Results: For the SPSS software, the total time for performing all 12 procedures successively was 198.18 seconds on the i3-PC test
computer and 130.06 seconds on the i5-PC test computer. For the R software the total time for performing all 12 procedures
successively was 222.63 seconds on the i3-PC test computer and 162.10 seconds on the i5-PC test computer. SPSS software was
faster in performing all procedures successively both on i3-PC (by 11%) and i5-PC (by 20%). Overall, there was no statistically
significant difference in the speed of performing procedures between the SPSS and R software.
Conclusion: Both statistical software tools, on both test computers, have a satisfactory speed in manipulations with large datasets.
Differences in the speed of the execution of the procedures are purely academic and do not affect the user experience in everyday
work with large datasets.
Keywords: large dataset; SPSS; R; software speed
Kopaonik, 2018.
901