You are on page 1of 328
PHLOGISTON 23 ЧАСОПИС ЗА ИСТОРИЈУ НАУКЕ Journal of the History of Science Београд– Belgrade

PHLOGISTON

23

ЧАСОПИС ЗА ИСТОРИЈУ НАУКЕ Journal of the History of Science

23 ЧАСОПИС ЗА ИСТОРИЈУ НАУКЕ Journal of the History of Science Београд– Belgrade 2015

Београд– Belgrade

2015

ФЛОГИСТОН Часопис за историју науке

број 23 – 2015 UDC 001 (091)

ISSN 035-6640

Издавач Музеј науке и технике – Београд

Скендер-бегова 51 тел: 30 37 962; факс: 32 81 479 е-пошта: Phlogiston@MuzejNT.rs

За издавача

Соња Зимонић директор Музеја науке и технике

Лектура и превод The Language Shop

Дизајн корица

Марко Јовановић

Прелом

Кранислав Вранић

Штампа ЈП Службени гласник, Београд

Тираж

500 примерака

Ова публикација је објављена уз финансијску подршку Министарства културе и информисања Републике Србије

Главни уредник

Марина Ђурђевић

Уређивачки одбор Видојко Јовић, Иван Аничин, Снежана Бојовић, Мирјана Ротер Бла- гојевић, Љубодраг Ристић, Alessandro Camiz, Светлана Голочор- бин-Кон, Срђан Вербић, Владан Челебоновић, Зоран Кнежевић, Илија Марић, Бојана Крсмановић, ПредрагМилосављевић, Мари- на Ђурђевић

Издавачки савет Никола Хајдин, Драгош Цветковић, Миљенко Перић, Славко Мен- тус, Милан Лојаница, Љубомир Максимовић, Живорад Чековић, Љубиша Ракић, Никола Тасић, Драгољуб Живојиновић, Љубодраг Димић, Владан Ђорђевић, Зоран Љ. Петровић, Радоје Чоловић

Рецензентски тим Драгош Цветковић, Миодраг Михаљевић, Миљенко Перић, Љиља- на Дошен Мићовић, Иван Аничин, Ђура Крмпотић, Лука Поповић, Александар Томић, Милан Божић, Ема Миљковић, Смиљана Ђуро- вић, Мирјана Ротер Благојевић, Владимир Лојаница, Видојко Јо- вић, Стеван Станковић

Секретар уредништва Мирјана Бабић

Сви научни радови се рецензирају

САДРЖАЈ

Научни радови

9

Pierre Hansen, Rita Macedo, Nenad Mladenović Statistical Tests of Data Classifiability with Respect to a Clustering Criterion

27

Иван Јуранић Колико вре�и рачунарско мо�еловање хемијских �роцеса и с�рук�ура?

45

Ђорђе Мушицки Развој �лавних �ојмова механике и �рве формулације закона о�ржања енер�ије

67

Влaдaн Чeлeбoнoвић Павле Савић, Ра�ивоје Кашанин и ма�еријали �о� високим �ри�иском

83

Наталија Б. Јеленковић Све�лос� кроз ис�орију

113

Александар Растoвић Србија у Првом све�ском ра�у 1914-1918. �о�ине

133

Марко С. Николић Савремене заш�и�не конс�рукције на археолошким локали�е�има у Србији

149

Верка Јовановић С�о �е�есе� �о�ина о� рођења Јована Цвијића Прошлос� и �оуке

Стручни радови

171

Јелена Т. Јовановић Симић Ме�ицинске збирке и музеји у Србији: ис�оријски �ре�ле�, класификација и музеолошка заш�и�а

197

Весна М. Живковић Ис�орија� �римене хемијских ис�раживања у конзервацији музејских �ре�ме�а

Прикази

225

Милан Лојаница Речник �ојмова ликовних уме�нос�и и архи�ек�уре

231

Дрaгoљуб Р. Живojинoвић Мирослав Милутиновић, Ау�омобили и �инас�ија Карађорђевића

233

Тамара М. Матовић, Бојана Д. Павловић, Милош П. Живковић Зборник ра�ова Визан�олошко� инс�и�у�а САНУ 50/1–2

242

Драган Стевановић Драгош Цветковић, С�ек�рална �еорија �рафова и комбина�орна �еорија ма�рица, Ау�орефера�и

245

Снежана Д. Бојовић Живорад Чековић, Хемијски факул�е�: Ау�обио�рафска хроника 1854–2004

253

Небојша Порчић Момчило Спремић, Србија и Венеција (VI–ХVI век)

258

Милош Цветковић Предраг Коматина, Црквена �оли�ика Визан�ије о� краја иконоборс�ва �о смр�и цара Василија I

264

Верка Јовановић Зборник, Пе�ар С. Јовановић, ис�раживач у �ео�рафији – �ре�алац у �руш�ву

268

Снежана Вељковић Зборник, Др Аћим Ме�овић (1815–1893) живо� и �ело – �ово�ом 200 �о�ина о� рођења

271

Сунчица Здравковић Дejaн Toдoрoвић, Рeaлнoс� и илузиje - у�ицaj кoн�eкс�a у визуeлнoм o�aжajу

273

Мирјана Ротер Благојевић Богдан М. Јањушевић, Нас�анак и развој с�амбених �ала�а и вила у Војво�ини обликованих у с�илу сецесије крајем XIX и �оче�ком XX века

277

Иван Рашковић Зборник, Између искорака и �омирења – архи�ек�ура С�анка Ман�ића

281

Татјана Ј. Мрђеновић Зборник, О архи�ек�ури – у сусре� бу�ућнос�и (On Architecture – Facing the Future)

287

Горан М. Бабић Надежда Пешић Максимовић, Моравска кућа Србије – Бо�а�с�во облика

290 Татјана Ј. Мрђеновић Бранислав Војиновић, Ивана Стекић-Јаковљевић и Славка Лазић-Војиновић, Пан�елија Пан�а Јаковљевић – живо� и �ело

НАУЧНИ РАДОВИ

scientific review

UDC 004.62

Pierre Hansen 1

GERAD, HEC Montréal, 3000 chemin de la Côte-Sainte-Catherine, Montreal, Canada H3T 2A7

Rita Macedo 2

Institut de Recherche Technologique Railenium, F-59300, Famars, France

Nenad Mladenović 3

Mathematical Institute of the Serbian Academy of Sciences and Arts, Belgrade

STATISTICAL TESTS OF DATA CLASSIFIABILITY WITH RESPECT TO A CLUSTERING CRITERION

Abstract

We propose a new test for data classifiability that takes into ac- count a clustering criterion. Our test answers to the question whether data has a structure when a certain clustering criterion

is used, or not. In order to demonstrate its abilities, we develop

a classifiability test with respect to the single linkage clustering

criterion. With our test we are also able to answer to the question of how many clusters are there in the data set. The quality of our test is checked on two well known data sets from the literature, the Ruspini and Fisher data with 75 and 150 entities, respectively.

Keywords: classifiability, clustering, statistical test

1. Introduction

Data analysis is a discipline whose importance is raising due to the increasing abundance of available data, the increasing role of the Internet and the increasing ability to store huge amounts of data in computers. Data Mining, and more recently, Big data analysis are ar- eas that basically aim to efficiently extract knowledge from large data sets. 4

1 pierre.hansen@gerad.ca

2 rita.macedo@railenium.eu

3 nenad@mi.sanu.ac.rs

4 Oded Maimon and Lior Rokach, Data Mining and Knowledge Discovery Hand-

book, second edition (Berlin: Springer, 2010).

9

Clustering is an important well known data reduction method in Data Mining. It is a procedure that classifies data according to their

similarity (or dissimilarity). Many different clustering approaches exist

in the literature. One of its paradigm is partitioning: the data are divid-

ed in a set of groups, called clusters, whose entities are more similar to each other, and/or more dissimilar to entities of other groups. This means that a good clustering method should produce groups with

a high intra-cluster similarity and/or a large inter-cluster dissimilarity (see e.g. 5 for an introduction).

However, it is not a good idea to perform clustering if the method cannot give any valuable answer. In addition, data can have structure with respect to one clustering criterion, but not with respect to an- other. Thus, the first question that one should answer before finding

groups of entities is whether or not there is a structure in the data set (without explicitly identifying it), if the certain clustering criterion is used. And, if there is a structure, for how many clusters that structure

is recognized?

Therefore, one needs to design a statistical test of classifiability. In this paper, we try to answer to both questions (for a given (dis) similarity matrix between any two entities): is there a structure in the data and for what number of groups? As far as we are aware, there are some procedures of this type in the literature referred to as clus- tering tendency tests, but usually they are not connected to a clus- tering criterion. Surveys on these tests can be found in. 6 In this paper, we propose a general framework for building a classifiability test with respect to (w.r.t.) a given clustering criterion. Our approach is based on the simple fact that uniformly distributed entities cannot be clustered and therefore such sets do not have a structure. We build a test in comparing our data set with the corre- sponding uniformly distributed data set that has the same features. As an example of clustering criterium, we use the popular and poly-

nomial hierarchical Single-linkage clustering method. We apply our

classifiability test to this case and test it on two well known data sets from the literature: the Ruspini data set 7 with 75 points in the 2-di-

5 John A. Hartigan, Clustering algorithms (New York: John Wiley and Sons, 1975); A. Gordon, Classification: Methods for the Exploratory Analysis of Multivariate Data (London: Chapman and Hall, 1981); Anil K. Jain and Richard C. Dubes, Algorithms for Clustering data (Englewood Cliffs, New Jersey: Prentice Hall, 1988).

6 Helena Cristina Mendes Silva, “Metodos de particao e validacao em anaiise classificatoria baseados em teoria de grafos” (PhD thesis, Departamento de Matematica Aplicada, Faculdade de Ciencias da Universidade do Porto, 2005); Sergios Theodoridis and Konstantinos Koutroumbas, ed., Pattern Rec- ognition, fourth edition (Burlington: El- sevier/Academic Press, 2009).

7 Enrique H. Ruspini, “Numerical methods for fuzzy clustering”, Information Sciences, 2, 3 (1970): 319-350.

10

mensional Euclidean space (and four or five known clusters), and the Fisher iris data set 8 with 150 points in the 4-dimensional Euclidean space (and three known clusters). These two data sets are typically used for testing clustering tech- niques. With our approach, we easily recognized structure and the number of clusters in both test instances. The paper is organized as follows. In Section 2, we describe all the steps of our generic algorithm that builds a statistical test w.r.t. a clustering criterion. In Section 3, we give more details of our algo- rithm for the case of the single-linkage clustering criterion, illustrating the details on Ruspini and Fisher data sets. Section 4 concludes the paper.

2. General framework

In this section, we present our Statistical Test on Data Classifiability (STDC) algorithm. We first define clustering problems and present possible parameters of our data classifiability test. Then, we describe the steps for building such tests w.r.t. some clustering criterion. We assume that the set of entities V to be clustered belongs to the space

S) and has cardinality n (|V | = n). We also assume that the dis-

similarity d(i, j) between any two entities i and j is known.

S (V

2.1. Clustering problem

Clustering is a popular way of finding a structure in the data 9 , i.e. to find an intrinsic grouping in a set of unlabeled data (unsupervised

classification).

Clustering methods detect the presence of distinct groups whose entities are more similar to each other, and/or more dissimilar to entities

8 Ronald Aylmer Fisher, “The use of multiple measurements in taxonomic problems”, Annals of Eugenics 7, 2 (1936-37): 179-188.

9 Boris Mirkin, “Mathematical classification and clustering: From how to what and why”, in Classification, Data Analysis, and Data Highways, ed. Ingo Balder- jahn, Rudolf Mathar and Martin Schader (Berlin; Heidelberg: Springer, 1998), 172-181; Anil K. Jain, Murty M. Narasimha and Patrick J. Flynn, “Data clus- tering: a review”, ACM Computing Surveys (CSUR), 31, 3 (1999): 264-323; Gan Guojun, Ma Chaoqun and Wu Jianhong, Theory, Algorithms, and Applications (Philadelphia: Society for Industrial and Applied Mathematics, 2007); Rui Xu and Donald C. Wun- sch, “Survey of clustering algorithms”, IEEE Transactions on Neural Networks, 16, 3 (2005): 645-678; Rui Xu and Donald C. Wunsch, Clus- tering (Oxford: Wiley- IEEE, 2009); Sergios Theodoridis and Konstanti- nos Koutroumbas, ed., Pattern Recognition, fourth edition (Burlington: Elsevier/ Academic Press, 2009); Lior Rokach, “A survey of clustering algorithms”, in Data Mining and Knowledge Discovery Handbook, ed. Oded Maimon and Lior Rokach (New York; London: Springer, 2010), 269-298.

11

of other groups of the data set. In other words, clustering criteria mea- sure homogeneity and/or separation among entities. There are many clustering paradigms (e.g., hierarchical, partitioning, sequential; densi- ty-based, gridbased and model-based methods) and methods that use different criteria (or objective functions) within each paradigm. 10

2.2. Parameters of the statistical test

The following parameters have to be taken into account in our clas- sifiability test:

(1) Clustering criterion. In designing the general steps of the STDC algorithm, one can notice three levels of generality: one is based on the nature of the objects in S that we are classifying, the other two are based on the clustering criterion and the solution method used, respec- tively. In other words, we can choose the same set S at the first level, but another criterion at the second level or another method for the same criterion on the third level. Alternatively, we can use the same clustering criterion, e.g. the minimum sum of squares, for grouping different object types. In both cases, one needs to develop a STDC al- gorithm taking into account specific knowledge and distribution types regarding both the data type and the clustering criterion. In this paper we assume that the method used on the third level is an exact one. Besides the clustering criterion, we need two other parameters to fix before performing our statistical test. They are the data set type S and the shape. (2) Data set type S. Let S be the set we want to find clusters in. From a mathematical point of view, this set can contain objects (points or entities) of different kind. They can be vectors that belong to the Euclidean space R d , vertices or edges of a graph, vehicle routes, or any other combinatorial object. (3) Shape. Usually, the domain of the data set we want to cluster does not take its values from the whole space S. The domain could be some subset D C S defining the shape of data. For example, D could be the set of points in R n that belong to a hypercube: a j < x j < b j . Fol- lowing the notation from above, it is easy to see that V C D C S.

2.3. Statistical test on data classifiability

We present the steps of our STDC algorithm. It is based on the idea that uniformly distributed points generated in D do not have a structure, i.e., they cannot be clustered successfully, independently of any of the above parameters. Therefore, we begin by generating points in D with uniform distribution, and repeat this N times. During these repetitions

10 Pierre Hansen and Brigitte Jaumard, “Cluster analysis and mathematical programming”, Mathematical Programming, 79, 1-3 (1997):191-215.

12

we collect statistics of the event that should be related to the cluster- ing criterion we want to check. The next step is then to decide on the distribution type of the event, to estimate the parameters of that distri- bution and to check if those parameters fit well (goodness-of-fit test). After collecting all information regarding the distribution of the non classifiable data set with the same size, type and shape as our data, we need to find the same distribution parameter values for our data set and compare. If they are close, there is no structure in our data w.r.t. the given clustering criterion. Otherwise, there is a struc- ture in the data set considered. The algorithm has the following steps:

Algorithm 1 STDC-general (N, n, V, D, S)

1. Repeat N times

a) Generate n points from S with uniform distribution within a given surface or volume (given D);

b) On such random set of entities compute statistics to estimate parameters of chosen random variables (r.v.) with known dis- tribution types; note that chosen r.v. should relate to a clus- tering criterion;

End Repeat

2. Compute mean and standard deviation values for r.v. from above;

3. Compute the same values for a given data set and plot them on the same diagram;

4. The comparison of values with above curves should indicate if and where there is some structure;

3. STDC w.r.t. single linkage clustering

In this section, we use specific knowledge regarding the single link- age hierarchical clustering method to build a statistical test.

3.1. Single linkage clustering criterion

Single linkage clustering belongs to the agglomerative hierarchical clustering family. 11 Agglomerative hierarchical clustering methods create a hierarchy of nested partitions over the initial data set. Each entity of the set is initially placed in one cluster and then clusters are merged iteratively until all entities belong to a single cluster. This structure can be visualized using a dendrogram. At each step of the algorithm, two clusters are merged. This requires defining an aggre-

11 Fionn Murtagh, “A survey of recent advances in hierarchical clustering algorithms”, The Computer Journal, 26, 4 (1983): 354-359; Fionn Murtagh and Pedro Contreras, “Algorithms for hierarchical clustering: an overview”, Wiley In- terdisciplinary Reviews: Data Mining and Knowledge Discovery, 2, 1 (2012): 86-97.

13

gation link (single link, complete link, average link, Ward link

the single linkage clustering, first introduced in 12 , the two clusters to be merged are the ones with the smallest pairwise dissimilarity, i.e., the ones with the minimum “distance” between two of their entities. In other words, the distance between two clusters is defined as the minimum distance between any two entities of the two clusters. It is well known that the clusters obtained by the single linkage criterion may be easily derived if the Minimum Spanning Tree (MST) of the graph is known 13 . By deleting the largest edge of the MST, we obtain two clusters; the deletion of the second largest edge produces three clusters, and so on. The result of the final step is the fact that each entity belongs to its own cluster.

For

).

3.2. Algorithm

Without loss of generality, we will assume that the clustering objects are points from the Euclidean space R d (S = R d ). We need to find the MST of each randomly generated set of objects. In order to do that, we find the distances d ij between each two entities in R d to get the complete weighted graph G(V, E). The STDC algorithm w.r.t. single linkage criterion, with a given set type and a given shape is as follows (Algorithm 2):

3.3. Illustration on Ruspini example

Our first experiment with this algorithm was done with the Ruspini data set 14 (75 points in R 2 ). Points were located in a rectangle [0,120] x [0,160], and the used parameters were the following: n = 75, d = 2, ntest = 10000, p = 2. The results are presented in Table 1 and Figure 1. The first column (i) of Table 1 represents the index of the ele- ments. Columns 2 – 4 and 6 – 8 refer, respectively, to statistics (being μ the average and ρ the standard deviation) about the distances and ranks of the points generated at step 1. a) of STDC-1. Finally, columns 5 and 9 present the value of the i th Ruspini data set element. The four curves of the two graphs of Figure 1 represent the values of the col- umns of Table 1, with respect to i. Regarding the r.v. distance, presented in Figure 1 (a) and the left hand side of Table 1, results can be interpreted in the following way: the curve that represents the ranked lengths of the MST edges in Ruspini data intersects the interval [μ σ, μ + σ] for i between 71 and 72. Note that the value of 44.944 corresponds to the largest edge of the MST.

12 K. Florek et al, “Sur la Liaison et la Division des Points d’un Ensemble Fini”, Colloquium Mathematics, 2 (1951): 282-285.

13 J. Gower and Ross G., “Minimum spanning trees and single linkage cluster

analysis”, Journal of the Royal Statistical Society, Series C, 18, 1 (1969): 54-64.

14 See footnote 7.

14

Algorithm 2 STDC-1 (ntest, n, d, p, shape)

1. Repeat ntest times

a) Generate n points with uniform distribution in R d within a giv- en surface or volume (shape);

b) Compute the matrix of distances between all pairs of these points (an l p -norm is used);

c) Rank these distances by order of increasing values;

d) Consider the following two random variables: distance asso- ciated with the edges of the MST of the complete graph built on the n points; corresponding ranks;

e) Plot mean values and the corresponding value deviations (μ – σ and μ + σ) on two diagrams;

End Repeat

2. Compute mean values and standard deviations for both ran- dom variables distances and ranks;

3. Compute the same distances and ranks for a given data set (steps 1.b)-1.d)) and plot them in the same diagrams;

4. The comparison of values of the above random variables curves indicates if and where there is some structure. Details regarding this step will be discussed later;

 

Distances

 

Ranks

 

i

μ – σ

μ

μ + σ

Rusp

μ – σ

μ

μ

+ σ

Rusp

5

2.571

3.295

4.020

2.236

4.808

5.064

5.320

5

10

4.067

4.806

5.545

3.000

9.754

10.411

11.069

10

15

5.289

6.023

6.756

3.162

14.995

16.094

17.193

15

20

6.374

7.111

7.847

3.606

20.588

22.177

23.766

20

25

7.394

8.124

8.854

4.123

26.572

28.706

30.841

25

30

8.380

9.110

9.840

4.243

32.952

35.768

38.584

32

35

9.351

10.082

10.813

4.472

39.929

43.465

47.000

37

40

10.329

11.065

11.802

5.385

47.561

51.989

56.417

48

45

11.339

12.085

12.832

5.831

56.085

61.559

67.034

61

50

12.395

13.160

13.926

6.403

65.661

72.513

79.364

81

55

13.552

14.348

15.145

7.071

76.886

85.505

94.123

93

60

14.842

15.702

16.562

8.485

90.475

101.491

112.508

126

65

16.401

17.381

18.362

10.630

108.143

123.023

137.903

201

70

18.555

19.870

21.185

13.601

134.985

158.357

181.729

292

71

19.160

20.629

22.099

19.000

142.961

169.933

196.905

444

72

19.899

21.611

23.322

24.042

152.914

185.452

217.990

550

73

20.814

23.060

25.306

40.497

165.493

209.658

253.824

696

74

22.186

25.898

29.609

44.944

183.370

261.402

339.434

720

Table 1. Results for Ruspini data

15

(a) r.v. Distance Figure 1. Ruspini data 3.4. Distribution of ranks (b) r.v. Rank In

(a) r.v. Distance Figure 1. Ruspini data

3.4. Distribution of ranks

(b) r.v. Rank

In order to build a precise test, we consider the distribution of values of the ranks for some edge e of the MST in more detail. The last two steps of the algorithm above are replaced with a new step:

Algorithm 3 STDC-2 (ntest, n, d, p, shape)

1. Repeat ntest times

a) steps 1-11 of Algorithm 2 End Repeat

2. For each i = 1 to n – 1 estimate empirically the density function for r.v. rank(i) (i.e., find number of cases for rank intervals)

We run STDC-2(10000, 100, 2, 2, “unit square”). Figure 2 shows the empirical distributions obtained for i = 20, 40, 60, 80, 96 and 99. For i = 20, 40 the rank intervals were set to the unity, for i = 60, 80 they were set to 5 and and for i = 96, 99 to 20. From Figure 2, we conclude that the distribution might be Weibull, which has probability density function

f ( x ) =

β x v

α

α

β 1

e ( x v

α

) β , if x v,

and cumulative distribution function

F W ( x)=1 e ( x v ) β , if x v.

α

The estimation of Weibull distribution parameters, together with the goodness-of-fit test is given in Appendix.

16

(a) i = 20 , i = 40 (b) i = 60 , i =

(a) i = 20, i = 40

(b) i = 60, i = 80

(a) i = 20 , i = 40 (b) i = 60 , i = 80

(c) i = 96

(d) i = 99

Figure 2. Distribution of the ranks

3.4.1. Influence of the shape on distribution of the ranks

The next series of experiments is performed to check if a shape (area) where random points are generated has some influence on the distri-

bution of ranks rank(i),i = 1,

n – 1. Again, one hundred random

, points were generated 10000 times in R 2 , on four different shapes

with unit surface: (i) square; (ii) rectangle; (iii) circle; (iv) triangle. We concluded that shape has no influence on distribution (at least for d =

p = 2), for each i = 1 ,

, n 1.

3.4.2. Influence of dimension on distribution of the ranks

The dimension parameter d has been changed in Algorithm STDC-2 (see below) from 2 to 10 in the next series of experiments, i.e.,

1. For each d = 2,

,

10 do

a)

STDC-2(10000, 100, d, 2, “unit square”);

b)

Plot the empirical density function (for each i = 1,

,

n

1);

c)

Estimate the parameters of the Weibull distribution (for

each i = 1,

d) Apply the Kolmogorov-Smirnov goodness-of-fit test;

,

n – 1);

End for

17

Figure 3 shows how the dimension of the space where points are generated at random influences on the distribution of ranks. It is clear that the type of the distribution remains (Weibul), but its parameters are different when d changes.

3.5 Test for Classifiability

We are now able to build the test for classifiability. The test will an- swer two questions: is there any structure in given data; if yes, for what edges of minimum spanning tree those occur.

1. Simple test: The first classifiability test does not use informa-

,n – 1.

, in a sample. Those values depend on parameters n and d, (in-

fluence of parameter p should be checked after), i.e., for each size n and dimension d of a data, n – 1 critical values are given

, then there is no structure in the data according to this test. Figure 4(a) and Table 2 show the result of this test on Ruspini data (1970).

n – 1,

in the table ( r max (i)). If r given (i) < r max (i) for all i = 1,

n – 1 obtained

We simply keep maximum ranks r max (i), i = 1,

tion about probability distribution of r.v. rank(i), i = 1,

about probability distribution of r.v. rank(i), i = 1, (a) p = 2 , , 10

(a) p = 2,

,

10, i = 40

(b) p = 2,

,

10, i = 95

1, (a) p = 2 , , 10 , i = 40 (b) p = 2

(c) p = 2 ,

,

5, i = 99

(d) p = 2,

,

10, i = 99

Figure 3. Influence of dimension on the distribution

18

2. Classifiability test: In this test we compare r γ (i) and r given (i), for given values of γ. Values of r γ (i) are functions of tree parame- ters of the Weibull distribution. In other words, when parame- ters α(i), β (i) and υ (i) are estimated in the way explained in Section 5, critical values r Y (i) are obtained from F W (r γ (i)) < γ. Similar as in the Simple test, we test (now with a given signifi- cance γ) classifiability by checking if

r given (i) < r γ (i)

A

i = 1,

,

n – 1.

If yes, there is no structure in the data (for given tolerance γ). If no, there is a structure in a data. Table 2 and Figure 4 show

r γ (i) for γ = 10 -2 ,10 - 3 ,

,

10 -8 and n = 75.

3. Clustering: Moreover, we shall give the procedure to get an optimal partition of a set of n entities into n – i* + 1 clusters, where i* represents i where γ F W (r γ (i)) is minimum.

a) Find index i* such that γ – F W (r Y (i)) is minimum;

b) Delete all edges of minimum spanning tree whose weights are greater than or equal to the weight of i;

c) Entities in the same cluster are connected with remain-

ing edges of minimum spanning tree.

connected with remain- ing edges of minimum spanning tree. (a) Simple classifiability test (b) Classifiability test

(a) Simple classifiability test

(b) Classifiability test

Figure 4. Tests on the Ruspini data set (n = 75, d = 2,p = 2)

The last column of Table 2 presents δ(i) = 1 – F W (r given (i)) for the Ruspini data set. It appears that partitioning 75 entities in 3, 4, 5, 7

and 8 clusters is equal good (δ(3) = δ(4) =

= δ(8) =0).

4. Conclusions

In

the

clustering

literature,

sometimes

clustering

 

methods

are

applied

without

knowledge

of

whether

there

is

a

structure

in

the

data,

and

therefore,

the

question

19

of

performing

clustering

i

10 -2

10 -3

10 -4

10 -5

10 -6

10 -7

10 -8 r given

r max

δ

5

6

6

6

6

6

7

7

5

8

1.00000000000

10

12

13

14

15

16

17

18

10

16

1.00000000000

15

21

23

26

28

31

33

35

15

25

1.00000000000

20

28

30

33

35

37

39

40

20

33

1.00000000000

25

35

38

40

42

44

46

47

25

44

1.00000000000

30

44

47

49

51

53

54

55

32

57

0.92247009277

35

53

56

59

61

62

64

65

37

65

0.98115360737

40

64

67

70

73

75

77

78

48

76

0.80652469397

45

76

80

84

87

90

92

94

61

91

0.52944910526

50

90

96

100

104

107

109

111

81

108

0.12502062321

55

107

114

119

124

128

131

133

93

131

0.20884108543

60

129

138

145

150

155

159

162

126

164

0.01840615273

61

135

144

152

158

164

168

171

130

173

0.02484440804

62

140

149

157

163

169

173

176

138

176

0.01360338926

63

146

157

165

172

178

182

186

166

191

0.00005775690

64

152

163

171

178

184

189

193

171

198

0.00008833408

65

161

173

183

192

199

205

209

201

207

0.00000047684

66

169

183

193

202

210

216

221

202

211

0.00000959635

67

178

192

203

213

221

228

233

225

224

0.00000029802

68

189

205

217

227

237

244

249

271

251

0.00000000000

69

202

219

233

245

255

263

270

283

276

0.00000000000

70

218

238

253

266

278

287

294

292

298

0.00000005960

71

240

263

281

297

310

321

329

444

321

0.00000000000

72

272

301

325

345

363

377

388

550

403

0.00000000000

73

327

368

402

432

458

479

495

696

548

0.00000000000

74

470

550

619

679

733

775

809

720

818

0.00000178814

Table 2. Ruspini data. Critical ranks for different tolerance

2. Ruspini data. Critical ranks for different tolerance or not should be posed. In addition, sometimes

or not should be posed. In addition, sometimes some clustering cri- terion recognizes similar groups in the data and other times it does not. Thus, we need to know what criterion will be used and then in- vestigate whether there is a structure in the data or not, with respect to the particular criterion. In this paper we propose a classifiability test with respect to a given clustering criterion and show its steps for the single linkage hierarchical clustering. Our test also gives an an- swer to the question, what is the best number of clusters in the given data? Our methodology is illustrated on classical test instances from the literature (Ruspini and Fisher data). Future work may include the development of our classification test with respect to other criteria, such as Minimum sum of squares clustering.

20

(a) Classifiability test (b) Classifiability test Figure 5. Tests on the Fisher data set i

(a) Classifiability test

(b) Classifiability test

Figure 5. Tests on the Fisher data set

i

10 -2

10 -3

10 -4

10 -5

10 -6

10 -7

10 -8

r given

r max

δ

5

6

6

6

6

6

6

6

5

7

010E+01

10

11

11

12

12

12

13

13

10

14

010E+01

15

17

18

19

20

20

21

22

15

21

010E+01

20

24

25

27

28

30

31

33

22

27

055E-01

25

31

33

36

39

41

43

45

28

34

072E-01

30

37

40

42

44

47

48

50

33

41

017E+00

35

43

46

48

50

52

54

55

39

50

017E+00

40

50

52

55

57

58

60

61

55

60

036E-04

45

56

59

61

63

65

66

67

65

70

054E-06

50

63

66

68

70

72

73

74

75

77

000E+00

60

78

81

83

85

87

89

90

96

93

000E+00

70

93

97

99

101

103

105

106

120

108

000E+00

80

111

115

119

122

124

126

127

148

129

000E+00

90

131

137

141

145

148

150

152

192

155

000E+00

100

153

159

164

168

171

174

176

252

180

000E+00

110

179

187

193

198

202

206

208

295

211

000E+00

120

215

225

234

241

247

252

256

343

250

000E+00

130

267

283

295

306

315

322

327

451

314

000E+00

140

377

404

425

444

459

472

481

852

502

000E+00

145

528

579

619

654

685

709

727

1250

797

000E+00

146

594

659

713

759

799

830

855

1337

997

000E+00

147

685

767

835

893

944

984

1015

1651

1148

000E+00

148

855

975

1074

1160

1236

1297

1343

1973

1354

000E+00

149

1379

1670

1924

2152

2359

2526

2657

4470

2563

000E+00

Table 3. Fisher data. Critical ranks for different tolerance γ

5. Appendix

5.1 Fitting the parameters of the Weibull distribution

We estimate the shape, scale and location parameters (β, α ,υ) of

the Weibull distribution, for each rank i = 1, ing way:

, n 1, on the follow-

21

υ�(i) = min {X 1 (i), X 2 (i),

. , X ntest (i)} = X min (i).

We estimate mean values (μ(i)) and variances ( σ 2 (i)) by

µˆ ( i ) =

ntest

j

=1

X j ( i )

ntest

,

σˆ 2 ( i ) = µ ( i) X j ( i)) 2

( ntest 1) 2

, i = 1 ,

,n

1 .

Then, fitting β(i) and α(i) is done in the following way. β(i) can be ob- tained from

( µ ( i ) v ( i )) 2

σ 2 ( i )+( µ ( i ) v ( i )) 2 =

1

Γ[1 + β ]Γ[1 +

1

β ]

Γ[1 +

2 β ]

,

where Г(·) is the gamma function. In order to facilitate this computa- tion, Table 4 provides values of Г[1 + z]Г[1 + z]/Г[1 + 2z] for values of z between 0 and 1. If z exceeds 1, Table 4 is extended using the known equation Г(z + 1) = zГ(z), i.e., let us denote with

ϕ k ( z ) = Γ[1 + ( k + z )]Γ[1 + ( k + z )]

Γ[1 + 2( k + z )]

, k = 0 , 1 , 2 ,

The values of φ o (z), z Є [0,1) are given in the Table 4. By using Г(z + 1) = zГ(z), we derive the recurrent relation

ϕ k ( z ) =

k + z 2 ϕ k 1 ( z ) , k = 1, 2 ,

4( k + z )

;

z [0 , 1) .

0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.00 1.0000 0.9998 0.9993 0.9985
0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.00
1.0000 0.9998 0.9993 0.9985 0.9975 0.9961 0.9945 0.9928 0.9906 0.9884
0.10
0.9858 0.9830 0.9801 0.9768 0.9735 0.9699 0.9664 0.9625 0.9585 0.9545
0.20
0.9502 0.9458 0.9412 0.9367 0.9319 0.9271 0.9221 0.9170 0.9119 0.9067
0.30
0.9015 0.8961 0.8906 0.8852 0.8796 0.8741 0.8683 0.8626 0.8568 0.8512
0.40
0.8453 0.8395 0.8336 0.8274 0.8215 0.8156 0.8095 0.8035 0.7975 0.7914
0.50
0.7854 0.7793 0.7732 0.7672 0.7611 0.7550 0.7489 0.7428 0.7367 0.7307
0.60
0.7246 0.7186 0.7125 0.7064 0.7004 0.6944 0.6885 0.6825 0.6765 0.6706
0.70
0.6647 0.6588 0.6529 0.6470 0.6412 0.6354 0.6296 0.6239 0.6182 0.6125
0.80
0.6068 0.6012 0.5955 0.5899 0.5844 0.5789 0.5734 0.5679 0.5625 0.5571
0.90
0.5518 0.5464 0.5411 0.5359 0.5306 0.5254 0.5203 0.5152 0.5101 0.5050

Table 4. Values of Г[1 + z]Г[1 + z]/ Г [1 + 2z ]

Once an estimate of β has been determined, we can obtain an es- timate of a through the formula

α ( i ) = µ( i ) v ( i )

Γ[1 +

1 β ]

.

For calculating the gamma function, Table 5 has been used.

22

n

0.00 0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08 0.09

1.0

1.0000 .9943 .9888 .9835 .9784 .9735 .9687 .9642 .9597 .9555

1.1

.9514 .9474 .9436 .9399 .9364 .9330 .9298 .9267 .9237 .9209

1.2

.9182 .9156 .9131 .9108 .9085 .9064 .9044 .9025 .9007 .8990

1.3

.8975 .8960 .8946 .8934 .8922 .8912 .8902 .8893 .8885 .8879

1.4

.8873 .8868 .8864 .8860 .8858 .8857 .8856 .8856 .8857 .8859

1.5

.8862 .8866 .8870 .8876 .8882 .8889 .8896 .8905 .8914 .8924

1.6

.8935 .8947 .8959 .8972 .8986 .9001 .9017 .9033 .9050 .9068

1.7

.9086 .9106 .9126 .9147 .9168 .9191 .9214 .9238 .9262 .9288

1.8

.9314 .9341 .9368 .9397 .9426 .9456 .9487 .9518 .9551 .9584

1.9

.9618 .9652 .9688 .9724 .9761 .9799 .9837 .9877 .9917 .9958

Table 5. Values of gamma function Г(z)

Again, the relation Г(z + 1) = zГ(z) is used to extend Table 5 for z = > 2. In both Table 4 and Table 5, a linear interpolation formula is de- rived when the known value is between two successive values from the tables. Table 6 shows the obtained results for all three parameters, for

some values of i (i = 5,10,

,

95,96,

,

99).

i

vˆ

ˆ

β

αˆ

i

vˆ

ˆ

β

αˆ

5

5.000 0.99111 0.04980

 

65

72.000 3.07997

23.4661

10

10.000

0.99447 0.29480 70

79.000 3.24667

29.0302

15

15.000

0.99845 0.77690 75

91.000 2.88167

31.2256

20

20.000

1.16393 1.58893 80

98.000 3.22581

41.3808

25

25.000

1.48851 2.82744

 

85 109.000

3.22477

51.5357

30

30.000

1.85467 4.41614 90 122.000

3.26499

67.0146

35

35.000

2.21231 6.41959

 

95 147.000

2.77521

90.1005

40

40.000

2.55912 8.83501

96 151.000

2.71648 102.7310

45

45.000

2.93430 11.7331

97 155.000

2.62628 121.6200

50

51.000

3.02372 14.1914

98 161.000

2.41911 151.6667

55

58.000

2.92699 16.3426

99 165.000

1.97237 228.9171

60

64.000 3.15736 20.4163

 

Table 6. Fitting the Weibull distribution to data

5.2. Goodness-of-fit test

In order to make a probability judgment about our choice of distribu- tion, we do the following:

1. compare empirical cumulative distribution S ntest (k(i)),k(i) =

- 1, with cumulative Weibull

r min (i),

,

r max (i);

i

= 1,

,n

23

distribution F W (k(i)), where r min (i) and r max (i) are minimum and maximum values of ranks obtained in sample (ntest = 10000) respectively. We found that for n = 100 holds

max |S ntest (k(i)) - F w (k(i )) | < 0.05.

2. use Kolmogorov-Smirnov goodness-of-fit test (as suggested for example in. 15 The hypothesis was accepted for every i.

References

1. Fisher, Ronald Aylmer. “The use of multiple measurements in taxo- nomic problems”. Annals of Eugenics 7, 2 (1936-37): 179-188.

2. Florek, K., Jan Lukaszewicz, J Perkal and S. Zubrzycki. “Sur la Liaison et la Division des Points d’un Ensemble Fini”. Colloquium Mathemati- cae, 2 (1951): 282-285.

3. Guojun, Gan, Ma Chaoqun and Wu Jianhong. Theory, Algorithms, and Applications. Philadelphia: Society for Industrial and Applied Mathe- matics, 2007.

4. Golden, Bruce L. and Frank B. Alt. “Interval estimationof a global op- timum for large combinatorial problems”. Naval Research Logistics Quarterly, 26, 1 (1979): 69-77.

5. Gordon, A. Classification: Methods for the Exploratory Analysis of Multivariate Data. London: Chapman and Hall, 1981.

6. Gower, J and Ross G. “Minimum spanning trees and single linkage cluster analysis”. Journal of the Royal Statistical Society, Series C, 18, 1 (1969): 54-64.

7. Hansen, Pierre and Brigitte Jaumard. “Cluster analysis and math- ematical programming”. Mathematical Programming, 79, 1-3

(1997):191-215.

8. Hartigan, John A. Clustering algorithms. New York: John Wiley and Sons, 1975.

9. Jain, Anil K. and Richard C. Dubes. Algorithms for Clustering data. En- glewood Cliffs, New Jersey: Prentice Hall, 1988.

10. Jain, Anil K., Murty M. Narasimha and Patrick J. Flynn. “Data cluster- ing: a review”. ACM Computing Surveys (CSUR), 31, 3 (1999): 264-323.

11. Maimon, Oded and Lior Rokach. Data Mining and Knowledge Discovery Handbook, second edition. Berlin: Springer, 2010.

15 Bruce L. Golden and Frank B. Alt, “Interval estimation of a global optimum for large combinatorial problems”, Naval Research Logistics Quarterly, 26, 1 (1979): 69-77.

24

12. Mirkin, Boris. “Mathematical classification and clustering: From how to what and why”. In Classification, Data Analysis, and Data Highways, edited by Ingo Balderjahn, Rudolf Mathar and Martin Schader, 172- 181. Berlin; Heidelberg: Springer, 1998.

13. Murtagh, Fionn. “A survey of recent advances in hierarchical cluster- ing algorithms”. The Computer Journal, 26, 4 (1983): 354-359.

14. Murtagh, Fionn and Pedro Contreras. “Algorithms for hierarchical clustering: an overview”. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 2, 1 (2012): 86-97.

15. Rokach, Lior. “A survey of clustering algorithms”. In Data Mining and Knowledge Discovery Handbook, edited by Oded Maimon and Lior Ro- kach, 269-298. New York; London: Springer, 2010.

16. Ruspini, Enrique H. “Numerical methods for fuzzy clustering”. Infor- mation Sciences, 2, 3 (1970): 319-350.

17. Silva, Helena Cristina Mendes. “Metodos de partigao e validacao em analise classificatoria baseados em teoria de grafos”. PhD thesis, De- partamento de Matematica Apli- cada, Faculdade de Ciencias da Uni- versidade do Porto, 2005.

18. Theodoridis, Sergios and Konstantinos Koutroumbas, ed. Pattern

Recognition, fourth edition. Burlington: Else-vier/Academic Press,

2009.

19. Xu, Rui and Donald C. Wunsch. “Survey of clustering algorithms”. IEEE Transactions on Neural Networks, 16, 3 (2005): 645-678.

20. Xu, Rui and Donald C. Wunsch. Clustering. Oxford: Wiley- IEEE, 2009.

25

Pierre Hansen GERAD, HEC Montreal, 3000 chemin de la Côte-Sainte-Catherine, Montreal, Canada, H3T 2A7 Rita Macedo Institut de Recherche Technologique Railenium, F-59300, Famars, France Nenad Mladenović Mathematical Institute of the Serbian Academy of Sciences and Arts, Belgrade

СTATИСTИЧКO ИСПИTИВAЊE MOГУЋНOСTИ КЛAСИФИКAЦИJE ПOДATAКA ВEЗAНO ЗA КРИTEРИJУM ГРУПИСAЊA У КЛAСTEРE

Прeдлaжeмo нoвo испитивaњe зa мoгућнoст клaсификaциje пoдa- тaкa кoje узимa у oбзир критeриjум груписaњa у клaстeрe. Нaш тeст oдгoвaрa нa питaњe дa ли пoдaци имajу структуру кaдa сe кoристи oдрeђeни критeриjум груписaњa, или нe. Дa бисмo пoкaзaли њeгoвe спoсoбнoсти, рaзвили смo тeст зa испитивaњe мoгућнoсти клaсификa- циje вeзaнo зa критeриjум груписaњa нa oснoву jeднe jeдинe вeзe. Сa нaшим тeстoм смo тaкoђe у мoгућнoсти дa oдгoвoримo нa питaњe кo- ликo клaстeрa пoстojи у jeднoм скупу пoдaтaкa. Квaлитeт нaшeг тeстa сe прoвeрaвa нa двa дoбрo пoзнaтa скупa пoдaтaкa из литeрaтурe, пoдaтaкa и Руспини Фишeр (Ruspini Fisher) пoдaцимa сa 75 и 150 субjeкaтa, рeспeктивнo. Кључнe рeчи: мoгућнoст клaсификaциje, груписaњe у клaстeрe, стaтистичкo испитивaњe

Accepted for Publication December 8th 2015.

26

прегледни рад

УДК 66.011:004

Иван Јуранић 1

Универзитет у Београду, Хемијски факултет, Институт за хемију, технологију и металургију, Београд

КОЛИКО ВРЕДИ РАЧУНАРСКО МОДЕЛОВАЊЕ ХЕМИЈСКИХ ПРОЦЕСА И СТРУКТУРА?

Апстракт

Oвaj рад садржи кратак историјски преглед моделовања у нау- ци, посебно у хемији. Нагласак је на рачунарском моделовању. На примерима је илустровано како се рачунарско моделовање користи у хемијском истраживању, као и у планирању нових материјала. Кратко је представљен и најновији приступ више- скалног моделовања, којим се могу анализирати и решавати и најсложенији проблеми у хемији и технологији.

Кључне речи: модели у науци, квантно-хемијско молекулско мо- деловање, вишескално молекулско моделовање

1. Увод

Још у античко доба алхемичари су баратали некаквим моделима стварности који су давали смисао њиховом раду. Модели су се мењали и развијали у складу са усавршавањем наше слике физич- ке стварности. До 19. века модели нису били од велике помоћи, јер су основне идеје биле у нескладу са стварношћу, коју је треба- ло да опишу. Са усвајањем теорије о постојању атома и молекула, а посебно од Бутлеровог (Алекса́ндр Миха́йлович Бу́тлеров) вре- мена, када је заживела идеја да молекули имају структуру, модели су битно унапредили разумевање и стваралачко промишљање у хемији.

1 ijuranic@chem.bg.ac.rs

27

Модели у хемији су наставили да се мењају упоредо са раз- војем знања и идеја о структури материје. Са усавршавањем рачу- нара, почела је интензивна примена квантно-механичких метода за описивање атома и молекула.

2. Модели и моделовање

Ниједан битан део универзума није толико једноставан да би могао да се схвати и контролише без апстраховања. 2 Апстраховање се састоји у замени дела универзума који разматрамо моделом који има сличну, али простију структуру. Модели су у суштини централна потреба научног деловања. По класичној класификацији, модели могу бити, са једне стране, формални или интелектуални, а са друге стране, материјални. Постоји још много начина за класификацију модела. Традиционално, модели имају две основне функције: да омо- гуће разумевање 3 неке појаве или процеса и да олакшају учење и преношење научних сазнања. 4 Основна идеја је сажето дата дијаграмом (Слика 1). 5 Мало из - мењена првобитна слика показује да научници користе речи, ма- тематику или неки други медиј за представљање да би дефиниса- ли мо�елни сис�ем. Моделни систем онда може да се анализира, описује или да се расправља о њему. Када се схвати, онда се може упоредити са стварним циљним сис�емом. Модел је основни елемент научног метода. Све шта се ради у науци, ради се са моделима. Модел је свако упрошћавање, заме - на или имитација онога шта се заиста проучава, или се покушава предвидети. 6

2 Arturo Rosenblueth and Norbert Wiener, “The Role of Models in Science”, Philosophy of Science, 4, 12 (1945): 316-321, preuzeto 10.06.2011, http://

www.jstor.org/stable/184253.

3 Alisa Bokulich, “How Scientific Models Can Explain”, Synthese, 1, 180 (2011):

33-45.

4 John K. Gilbert,“Мodels And Modelling: Routes To More Authentic Scien- ce Education”, International Journal of Science and Mathematics Education, 2 (2004): 115–130.

5 Peter Godfrey-Smith, “Models and Fictions in Science”, Philosophical Stu- dies, 143 (2009): 101-116. (Proceedings of the 2008 Oberlin Colloquium in Philosophy).

6 Jim Bull, “Models are the Building Blocks of Science”, in Scientific Decisi- on-Making, 46, preuzeto 08.02.2015, https://www.utexas.edu/courses/bi-

o301d/Topics/Models/Text.html.

28

Моделни

систем

Моделни систем Одређује Опис Модела Наликује Циљни систем

Одређује

Опис Модела

Наликује Циљни систем
Наликује
Циљни систем

Слика 1. Модификација Гајријевог дијаграма (Ronald Giere), 1988 7

Модели могу бити веома разноврсни. Покушаји класификације модела имају различите основе. Један покушај класификације мо- дела је дат у Табели 1. Поред оваквих класификација, моделе де - лимо на оне који проблем третирају са општег нивоа (top-down), изводећи детаље особина из општих законитости, и оне који про- блем третирају полазећи од најелемeнтарнијих детаља састава и структуре, на основу којих се изводе особине испитиваног систе- ма (bottom-up).

Табела 1. класе модела

Класа

Добро познати

Примери и коментари

типови

 

предвиђања,

Newton-ови закони физике, планови, рецепти, тврдње попут “узимање анаболичких стероида повећава снагу,” или “пушење изазива рак плућа.”

теорије, хипотезе,

Апстрактни

многи математички

и рачунарски

модели

 

организми и

Глобус је физички модел земље, свако од нас је модел другог људског бића, а физичке структуре које се користе у хемији су модели молекула

њихове особине,

Физички

копије, структуре,

демонстрације

 

насумичан

Модел узорковања се односи на начин како неко бира шта ће проучавати и како ће се изделити на различите групе

Узорковање

избор, личне

преференције

Важно је запазити да су и закони физике (или Природе уопште), такође, модели. Тако да се природне науке заправо не баве

7 Ronald N. Giere, Explaining Science: A Cognitive Approach (Chicago: Chicago University Press, 1988), 321.

29

проучавањем закона природе, већ конструисањем и проучавањем модела закона природе. Мора се прихватити чињеница да дефиниција неког појма увек захтева неколико других појмова, који су, најчешће, такође двосмислени или се различито користе. 8 Могуће дефиниције и класификације модела се обично ослањају на појмове: ствар, об- разац, идеално, репродукција и скица, стварно или замишљено/ измишљено. Другачији најпопуларнији неодређени описи су: функција, си- стем и структура, објект, процес и понашање, супстанцијално и измишљено, моћ и способност, количина и величина. У науци, теорија је математичко или логичко објашњење, или проверљив модел начина на који интерагује скуп природних поја- ва; способна је да предвиди будуће догађаје или опажања исте врсте, и може да се провери експериментом или да се покаже не- истинитом путем емпиријских запажања. 9 Коришћење модела у изучавању хемије је, вероватно, најпо- знатији и најраније коришћен приступ. Чак и пре теорије о атоми- ма и молекулима, алхемичари су имали своје симболе којима су покушавали да опишу и протумаче хемијске процесе. Занимљиво је, да када се погледају модели из средњег века и савремени мо- дели, нестручњаку могу изгледати једнако загонетни (Слика 2).

Ипак, алхемичарски и модерни модели у хемији имају разли- чите резултате у примени. Први су били засновани на погрешним премисама и нису пружали могућност разумевања стварности.

Први заиста успешни модели у хемији су се појавили у 19. веку, када је прихваћена атомска теорија и теорија о структури моле- кула. Материјални молекулски модели (жица, дрво, восак пласти-

имају и данас велики значај за учење и разумевање хемије.

ка,