completitudinii baze de date și fiabilitate
Baze de date: completitudine și fiabilitate
# 9, tipic comandat structura de informații este o bază de date. O astfel de bază pe o varietate de subiecte au fost create din nou în era pre-calculator, dar a permis informatizarea face un salt calitativ în această direcție: în plus față de propria bază de date (de exemplu, stocarea), datele au început să se dezvolte intens sistemul de navigație, de exemplu, găsirea informațiilor relevante într-o bază de gamă largă. Toate acestea, combinate cu o nevoie crescută de astfel de sisteme de recuperare a informației a dus la apariția pe piață o varietate de baze de date alternative de propuneri de subiecte mai mult sau mai puțin interesante (interesante pentru cumpărător, desigur).
# 9, în fața necesității de a avea la îndemână o bază de date cu privire la orice subiect, cumpărătorul este adesea nedumerit de unele (sau orice) bază de date este mai bine să cumpere decât aceasta sau că bază de date este diferită de cealaltă, pentru o mai bună sau mai rău. În acest caz, parametrii cheie ai bazelor de date comparate sunt următoarele: plinătatea bazei (de exemplu, disponibilitatea tuturor informațiilor pe această temă), calitatea suportului de navigare (de exemplu, ușurința și precizia găsirea informațiilor potrivite în baza de date) și eficiența de actualizare (de exemplu, rata de completare a bazei de date proaspete). În cazul în care ultimii doi parametri de orice utilizator poate fi estimată din datele de pașaport și versiunea demo a bazei de date, apoi pe caracterul complet judecat mult mai dificil (bine, în cazul în care cumpărătorul cunoaște o duzină de alte obiecte sau documente care trebuie să fie prezente în baza subiectului, și pot face sigur cât de mulți dintre ei este prezent în această bază de date special), cel mai adesea singura sursă de informații cu privire la caracterul complet al unui dezvoltator de baze de date de eliberare condiționată. Cu toate acestea, există metode obiective de evaluare a caracterului complet al bazei de date, iar activitatea reală este dedicată uneia dintre aceste metode.
1. Calcularea două baze de date
# 9; Calculul inițial al acestor postulate.
# 9; 2. Fiecare document are un set de identificatori unic îl determină (de exemplu, data la care documentul a fost creat, creatorul numărul de referință al documentului, sursa de informații despre documentul, etc.), și anume, în orice bază de date de disponibilitate a acestui document poate fi instalat pe o serie de identitatea (într-un caz particular - pe un singur element de identificare, dacă identificatorul - unic).
# 9; 3. Fiecare document are aceiași identificatori în diferite baze de date.
# 9; 4. Fiecare set de baze de date de documente pe cont propriu, independent de celelalte baze de date, și anume nici unul din baza de date nu este un furnizor principal de informații pentru altă bază de date.
# 9; În cadrul acestor dispoziții pot fi în continuare susțin acest lucru.
# 9; Să în mod obiectiv, există N documente cu privire la acest subiect. DB dezvoltatorii concurente dorit aceste documente cu diferite eficiență, rezultând într-o bază de date conține DB1
# 9, puteți face o decizie de a obține suficientă pentru a utiliza doar patru ecuații din cele șapte, și de patru labe:
Cu alte cuvinte, este posibil să se obțină 35 de seturi de soluții. Nu toate dintre ele sunt egale, și iată de ce. Precizia relativă a determinării unei variabile aleatoare discrete este invers proporțională cu rădăcina pătrată a acestei valori (în conformitate cu formulele (6)) și în formulele de calcul cu înmulțirea și împărțirea variabilelor aleatoare ale erorilor relative sunt însumate, așa cum se arată în expresiile (7). Dacă luăm în considerare că toate n i. de regulă, mai mult decât oricare dintre n IJ. și ei, la rândul lor, în mod semnificativ mai mult decât n ijk. rezultă că utilizarea n ijk în calcule trebuie evitată pe cât posibil, de exemplu, să nu folosească ultima (a șaptea), ecuația setului (10). Apoi, numărul de combinații este redus la ecuațiile
15 Aceste ecuații pot fi împărțite în 4 grupe, fiecare dintre soluții se obțin prin permutarea ciclică a indicilor:
1. Există trei tipuri de sisteme:
2. Există șase tipuri de sisteme:
3. Există trei tipuri de sisteme:
sistem de nerezolvat, pentru că ecuațiile sunt liniar dependente:
4. Există trei tipuri de sisteme:
# 9, Astfel, 12 de seturi de soluții obținute, și formule parțial repetate în aceste kituri:
# 9, calculul mediei, varianța și deviația standard a fiecăreia dintre aceste cantități formule de frecvență de repetiție trebuie să fie reprezentat prin introducerea coeficienților de ponderare adecvați. În cel mai simplu caz, calculul valorilor medii de formulele:
# 9; varianța și deviația standard pentru 1m se calculează cu formulele (21) și (22), respectiv:
formule similare pot fi scrise pentru celelalte trei variabile (aici nu o fac doar din motive loc de economisire).
# 9, în ciuda stangacia formulelor de mai sus, toate aceste calcule sunt puse în aplicare rapid și ușor în performanțele computerului utilizând orice foaie de calcul (în acest studiu a utilizat tabelul Excel5.0 electronic).
# 9; Interesant, informația de prezență a celor trei baze, și există o oportunitate de a privi în „bucătăria“ a fiecăruia dintre dezvoltatorii de baze de date. Faptul este că, în cazul în care datele inițiale pentru calculul prezentat într-o formă ușor diferită:
- numărul de documente care sunt prezente numai în BD1;
- numărul de documente care sunt prezente numai în SN2;
- numărul de documente care sunt prezente numai în DB3;
-numărul de documente disponibile numai în BD1 și Sn2;
-numărul de documente disponibile numai în DB1 și DB3;
-numărul de documente disponibile numai în DB2 și DB3;
-numărul de documente disponibile în toate cele trei baze,
devine posibil să se identifice și comportamentul abuziv al dezvoltatorului, documente „scurgere“ de la o bază străină în lucrarea sa, iar situația inversă - prezența unei surse puternice de informații care sunt disponibile numai unul dintre dezvoltatorii, și, în cele din urmă, existența unui „set gentleman“ de documente trebuie să fie prezentate în orice bază de date referitoare la tema indicată.
# 9; Relația dintre numerele m și n sunt evidente:
3. Modelul Experiment
# 9; următorul model de experiment a fost efectuat pentru a verifica calitatea metodologiei de calcul. Să presupunem că există o serie de documente obiectiv N0 (de exemplu, reglementările care guvernează de cercetare și dezvoltare). Să presupunem, de asemenea, că dezvoltatorii k oferă bazele de date cu privire la acest subiect, fiecare dezvoltator al i-lea este în căutarea de baza de calcul aceste reglementări, cu o anumită probabilitate ai0. rezultând în baza sa de date conține subiecte relevante ni0 = N ai0 documente. Dacă toate numerele de ni0. nij0. specificați exact N0 corespund în și ai0 (i = 1 k), atunci înlocuind aceste numere în formulele derivate din secțiunile precedente, vom reconstrui automat aceste valori N0 și ai0. care sunt ele însele puse în model.
# 9; Acum modificăm puțin condițiile unui model de experiment. Deoarece fiecare dintre cele originale ni cantități. nj. de fapt expus cazului și rms lor scatter determinate prin formulele (5), și în conformitate cu teoria probabilității de 80% din abaterea efectivă de la valoarea reală a ni ni0 nu depășește D ni. 95% din abaterea este mai mică de 2 D ni și doar 0,3% din abaterea este mai mare de 3 D ni. Prin urmare, vom modifica modelul nostru, după cum urmează: toate originale valoarea ( „ideală“) de X0 (... X0 = N10 N20 N120) se înlocuiește cu
unde D x0 = eroare -srednekvadratichnaya,
și f w - numere aleatoare cu distribuție uniformă în intervalul de la zero la unu,
# 9; A - factorul de scalare care definește amplitudinea expunerii accidentale (A = 0. 4).
# 9; Substituind aceste valori inițiale modificate în formulele noastre de calcul, vom obține în mod natural un rezultat într-o oarecare măsură, aproape de „ideal“, dar încă diferit de ea. Pentru a evalua precizia de reconstruire a parametrilor N0 și modelul ai0 experiment de acest tip poate fi repetată de mai multe ori, de fiecare dată cu ajutorul unui generator de numere aleatoare set de date de intrare variabile. Acest lucru a fost făcut pentru două modele:
Pentru a experimenta deviații scară valorile inițiale în fiecare serie de experimente în tabelele 2 și 3 prezintă unele dintre rezultatele (toate seriile de experimente a constat din 60 pentru fiecare valoare a amplitudinii A).
Tabelul 2. Numerele de pornire pentru un experiment modelul cu două baze
(N1 = 300, n2 = 200, n12 = 100)
# 9; În acest tabel, coloana a doua plasate aici cantitățile necesare, al treilea - media unei serii de 60 de experimente, valoarea fiecărei valori în a patra coloană - eroarea estimată a unei singure măsurători, în ultimele două coloane - valoarea maximă și minimă a valorii dorite, care a avut loc în serii.
# 9, a se vedea că, chiar și în cazul A = 3 (probabilitatea de abatere maximă A într-o astfel de teorie este estimată la 0,3%) Rezultatele măsurătorilor sunt foarte bune. a patra coloană numerele corespunzătoare eroarea medie a fiecărei unități de calcul determinată împrăștiere admisă mult se suprapun orice abatere a valorilor medii (coloana a treia) din „teoretică“. Pentru a doua serie de măsurători (pentru k = 2), cel mai apropiat corespunde unității de calcul de eroare la deviațiile maxime și minime din media valorilor calculate (și teoria probabilității unei astfel de deviere extremă determinată este de 5%). Valorile medii obținute în această serie coincid cu teoretice exacte pentru fracțiuni de procent. Numai în a treia serie de experimente cu valoare răspândit mult exagerată (probabilitatea de o astfel de situație este estimată la aproximativ 0,3%), au loc aplicații concrete în care valoarea reconstruită cu mai mult de 20%, diferită de cea adevărată (deși valorile medii pentru seria încă foarte aproape de adevărat).
# 9; Experiment cu trei baze de date returnează rezultate, a căror sinteză este dată în tabelul 5.
Media pentru Series
Eroarea de fiecare model%
Valoarea maximă dintr-o serie
Valoarea maximă dintr-o serie
# 9; Toate concluziile trase după modelul celor două baze este valabil chiar și în formă puternică. Prin urmare, am decis extinderea experimentului spre chiar mai mare „swing“ datele sursă. Randomly astfel de acumulare este aproape nu se poate produce, dar baza de date de achiziție - procesul nu este pur întâmplătoare și nu se poate exclude posibilitatea utilizării ambelor baze de date externe un conținut implicit și acces privat la bogat sursă primară de informații (de exemplu, dosar documente emitent puternice); În plus, în mod inevitabil și influența „set gentleman“ non-zero a documentelor necesare în toate bazele de date (pentru mai multe detalii, acest factor va fi discutat mai jos). A patra serie de experimente au arătat că, în acest caz, deviația maximă a valorii de reconstruite valorile exacte se încadrează în 15-25%.
# 9; în acest set de experimente nu a relevat prea caracteristică notabilă: cea mai mică valoarea unei i. cu atât mai mare este valoarea de dispersie reconstruită a acestui parametru. Dacă acum ne întoarcem la datele din tabelul 5 pentru două baze, atunci se poate observa aceeași tendință.
4. Trei bază și „set gentleman“
# 9, menționat mai sus că, în plus față de achiziționarea de baze de date mecanisme pur statistice, există o serie de documente care sunt „indicatori“ subiecte de baze de date. De exemplu, cu greu cineva îndrăznește să cheme informații juridice numele bazei de date „legislația federală în România“, în cazul în care în această bază de date va fi lipsește un document ca Constituția Federației Ruse. Sau, în cazul în care baza de date „anorganice materiale“ nu va exista nici o informație cu privire la elementele chimice simple, (nu conexiuni, și anume elementele). Din punct de vedere al obiectivelor acestei lucrări existența unui „set gentleman“ documente obligatorii adaugă un alt necunoscut noastre redundanței sistemului (10) și patru - (16) scade. Dar începe să joace un rol semnificativ este ultima dintre aceste ecuații, deoarece este acolo pentru a maximiza impactul noului impact al unei cantități necunoscute. Iar ecuațiile se bazează pe acest necunoscut acum să arate un pic diferit:
# 9, prin urmare, aceste sisteme, puteți obține 18 soluții parțiale (luând în considerare doar o parte a sistemului total de ecuații (24) - (30)). Fără a dezorganiza textul formulelor de calcul medie, varianța și eroarea medie pătrat, doar să spun că toate aceste calcule sunt efectuate de aceeași procedură. ca la punctul 3 din prezenta lucrare, ele sunt, de asemenea, concepute sub formă de tabele Excel5.0 electronice.
# 9; formulele de calcul al acestei secțiuni este ceva mai complicată decât în secțiunea 3, astfel încât a fost interesant pentru a vedea cât de bine convergența și stabilitatea soluțiilor ținând cont de „set gentleman“ de documente, care a fost din nou înființat un experiment model descris în secțiunea următoare.
5. Modelul Experiment-2
# 9; Ipotezele modelului experimentului sunt după cum urmează. Obiectiv, există o serie de documente N0 pe un anumit subiect, și documentele Y0 ale acestui număr sunt disponibile în mod public și obligatoriu pentru orice bază de date care pretinde a deservi acest subiect particular. Astfel, fiecare dintre dezvoltatorii k are in baza sa de date Y0 aceste documente și alte documente, ca și mai înainte, se caută și include o bază cu o probabilitate de un I0. astfel încât baza de date conține ni0 = Y0 + (N0 -Y0) o documente I0. factori aleatori luăm în considerare, în același mod ca și în secțiunea 3, adică, toate prime ( "ideal") x0 valoare (x0 = N10, N20, N120.) se înlocuiește cu x = x0 + D x0 (f w) A. unde D x0 = eroare -srednekvadratichnaya, # 9; și f w - numere aleatoare cu distribuție uniformă în intervalul de la zero la unu, A - scalarea factor care definesc amplitudinea expunerii accidentale (A = 0. 3).
# 9; Deoarece numărul minim de baze de date, în acest caz nu poate fi mai mică de trei (două baze există trei ecuații cu patru necunoscute, iar sistemul de ecuații este obținut insuficient), în această secțiune a investigat doar un singur model cu următoarele date de intrare: N0 = 1050, Y0 = 50, 10 = 0,3, 20 = 0,5 și 30 = 0,7. Fiecare lot de experimente au inclus 100 model pentru o valoare fixă a factorului de scalare A. Tabelul 6 prezintă datele brute ale primei serii de experimente.
Tabelul 6. Numărul inițial pentru un experiment de model cu trei baze
(Valorile exacte sunt: n1 = 350, n2 = 550, n3 = 750, n12 = 200, N13 = 260, N23 = 400, n123 = 155)
# 9; Analizând datele din tabelul 7, putem trage următoarele concluzii:
# 9; 1. În 80% din cazuri (A = 1), precizia determinării cantităților necunoscute este destul de mare: o eroare de determinare efficient medii de 1,5-3%, chiar și abaterea maximă într-o serie de experimente, 100 stivuite în 6-10%; Valoarea „set gentleman“ documente Y determinat mai precis (eroare RMS este de 15%, dar abaterea maximă în seria a ajuns la 30-40%), cu toate acestea, precizia determinării numărului total de documente N este aproape nu a fost afectată, o eroare de 1,5% lle o medie de 4-5% din deformarea maximă - destul de satisfăcătoare.
# 9; 2. Și o creștere de până la 1,5 crește eroarea tuturor valorilor, deși valorile medii sunt foarte aproape de „ideal“. Cel mai sensibil răspuns la creșterea dispersiei statistice a tuturor aceeași cantitate Y. De notat că în ambele serii, toate fără excepție, calculele au fost corecte, fără eșecuri, cum ar fi împărțirea la zero nu a fost (deși, uneori, care apare în numitorul dimensiuni anormal de mici, după cum reiese asimetria din abaterea maximă N în direcția de valori mari și mici).
# 9; 3. Și o creștere de până la două înrăutățit semnificativ condițiile de calcul: valorile medii ale cantităților necunoscute au în mod semnificativ diferit de „idealul“, au existat eșecuri în calcul a apărut anormal de mari Nmax. și o valoare negativă a (în tabel sunt eliminate), eroarea rms a crescut la 30-50%.
# 9; 4. Ultima serie (A = 3) a arătat că această variație (și probabilitatea realizării sale spontane nu depășește 0,3%) face lipsit de sens de calcul: 40% în această serie de experimente au dus la nici un rezultat, formulele de calcul nu funcționează.
# 9; Acest rezultat ne permite să tragem concluzia că da rezultate rezonabile, răspândirea statistică a datelor inițiale are un efect redus asupra rezultatelor finale pentru baza de date să fie independentă și aceeași tehnologie de a finaliza calculul algoritmului; Cu toate acestea, orice bază de date de corespondență sau orice exclusivitate a oricărei baze necesare pentru a afecta corectitudinea calculării și cel mai probabil într-una din formulele de calcul ar duce la absurd. Este evident că, în astfel de situații fac anumite și foarte specifice, concluzii, trebuie mai întâi modelate unele opțiuni simple.