Cum „MA“

Acum câțiva ani am făcut o glumă, „Avtopoeta“. Când spun „Eu fac“ Avtopoeta „“ ar trebui să fie înțeles faptul că mulți oameni minunați diferite implicate în acest proces. Mai întâi de toate, este Yura Zelenkov lingvist nostru a cărui euristică am folosit pentru a construi transcrierea fonetică. Au existat, de asemenea, alți parteneri, de exemplu, în lucrul cu rețele neuronale m-au ajutat Ilia Edronkin, expertul nostru pe tehnologie de voce. Dar apoi eu, pentru simplitate, voi spune în nume propriu.

În continuare voi vorbi despre generarea automată a textelor poetice, subliniind trei aspecte ale impactului textului asupra cititorului - acesta este sensul, structura și stilul. Această descompunere este destul de arbitrar și poate fi, nu este perfect, dar am ales pentru că mi se pare convenabil de a construi o declarație suplimentară în astfel de termeni.

Vestea bună pentru omenire - este că generarea de înaltă calitate non-degenerate „simțuri“ (de exemplu, povestiri, scripturi sau naratiuni) rămâne în continuare lotul de om. Acum lumea este munca științifică și tehnică intensă în sarcina de a „înțelegere“ text mașină. au deja un progres foarte important - de exemplu, traducere automată, - dar încă să înțeleagă textul (sau, să zicem, să răspundă la întrebări cu privire la text) omul încă gestionează mai bine decât un calculator (spre deosebire de, să zicem, jocul de du-te sau clasificare imagine ).

Așa că nu voi vorbi astăzi despre formarea de sens, dar arăta câteva trucuri - acestea vă permit să genereze automat un text, care poate crea în cititor un fals sentiment de meaningfulness. Pe de altă parte, de ce fals? În sistemul nostru de la un subiect, și text-cititor pentru a experimenta sensul obiectului poate doar cititor - atât de lipsită de sens că se simte la fel de reale.

Vom înțelege structura de - această parte a poeziei pur și simplu formaliza. În primul rând, ne așteptăm ca versetul constă dintr-o secvență de linii care sunt grupate în strofe. În al doilea rând, unele dintre condițiile ritmice trebuie să fie îndeplinite pentru aceste linii. În silabic, accentual, silabice-tonic și alte versete, aceste condiții sunt formulate în diferite moduri, dar într-un fel totul se rezumă la evaluarea tobele și durata fiecărei silabe. În al treilea rând, este posibil să dureze o anumită coerență fonetică între diferite linii - este, de exemplu, poate fi rima sau aliterație.

Astfel, dacă putem (și știm cum să) construiască o transcriere fonetică a oricărei linii de text, aceasta rămâne o sarcină pur tehnică - pentru a scrie un algoritm care determină dacă două șiruri sunt potrivite unul cu celălalt. Avem nevoie pentru a construi o transcriere fonetică, conta silabe și de a determina durata fiecăreia dintre ele pentru a stabili conformitatea cu linia dorită de metru pentru a verifica prezența a două linii rima cruce. Dacă avem o mulțime de șiruri de text, putem filtra-le în mod automat și de a crea un set aleator de termeni convenite cu structura poetică.

cautari

Datorită specificului muncii lor, am studiat o mulțime de fluxul de interogări de căutare pentru „Yandex“ - naturale, impersonală, fără a fi legat de un anumit utilizator. În ziua oamenii întreabă „Yandex“ aproximativ trei sute de milioane de interogări, și aproximativ jumătate dintre ele - un unic, care este, nu se repetă reciproc.

De interogări de căutare vă puteți aduna o mulțime de divertisment: ele reflectă interesele și aspirațiile oamenilor, și în afară, acesta este un bine fără fund de material textual. La acea vreme, lingviști Yandex a făcut mai multe rapoarte cu privire la limba pe care oamenii îl folosesc în interogări de căutare. Această limbă este simplificată, iar regulile sale nescrise nu corespund întotdeauna gramatica rusă.

regulile sunt adesea cauzate de feedback-ul: în cazul în căutarea pentru o lungă perioadă de timp nu a găsit că este necesar pentru o anumită solicitare, oamenii se opresc să-l să ceară și să înceapă a cere diferite. Treptat dezvolta anumite obicei colective, un fel de pidgin. Apar construcții monstruoase, cum ar fi „ceas on-line gratuit de bună calitate, fara inregistrare, fara SMS-uri». Dar într-o frecvență joasă rare, interogări sunt încă vizibile o viață umană adevărată:

  • [Aceasta atârnă în apartament să se căsătorească]
  • [Tadadadadam hochei melodie]
  • [Nokii porno 320x240]
  • [Chiloții roșii pe candelabrul de a iubi comentarii]
  • [N-am crezut că această Cupa Mondială, noi nu câștiga].

experimente structurale

În timpul săptămânii un cuplu de căutare se ocupă de miliarde de interogări. Printre acestea putem găsi linia în orice dimensiune dorită: Chorea, linia iambic, și așa mai departe. Chiar prima „poezie“, care a generat Avtopoet erau albe - am pus filtru în vedere metru, dar nu necesită prezența rimă:

proverbe, diapazoane
medalioane postume
zambind melancolic
Președintele simbolism.

Apoi, „Avtopoet“ învățat rima linie. Am venit cu cel mai simplu algoritm - a decis să compare încheierea transcrieri fonetice de interogări de la ultima silabă a subliniat. În cazul în care se încheie la fel, putem presupune că liniile de rima. Trebuie doar să ne asigurăm că nu rimeaza un cuvânt cu el însuși. În mod surprinzător, un astfel de simplu euristică a fost destul de lucru (deși poate fi slăbit). Aici este un simplu rima:

cumpăra pantofi de la Moscova
Vreau să te văd imagini
Joc de porc Bad
ceas tendințele filme.

În acest stadiu, am pus „Avtopoeta“ în rețeaua socială internă „Yandex“. Ideea improscat: să învețe să-l genereze haiku, pulberi, prăjituri, depressyashki. Rezultatele cele ale experimentelor noastre pot fi găsite la yandex.ru/autopoet.

materiale Experimente

Interesul brusc în „Avtopoetu“ din public ne-a determinat să continue să experimenteze cu diferite abordări și matrice de text. Colegii de la diferite servicii, „Yandex“ aduce noi date text, astfel încât să le rime. De exemplu, a existat o rimă numele opririle „Yandeks.Transport“ aplicații de bază:

Centrul de Tineret România
Clădire plantelor industrie
Academia de fotbal
Old Market Driving School.

Am reprodus clasic și distractiv cu cifre rimă:

905 13 16
850 60
5700819
18650.

Caracteristicile structurale formaliza destul de simplu. Mult mai dificil de definit stilul textului și să-l gestioneze. Este suficient pentru a citi o persoană este probabil să fie capabil să distingă un poem de poezie a lui Pușkin Brodsky, chiar dacă el nu a citit aceste lucrări, în special. Dar cum să formalizeze principiile pe care există o astfel de identificare?

Un exemplu frapant de mare succes în acest domeniu - aplicatie Prisma. care este mult discutată în ultimii ani. Acesta permite buton one-touch pentru a stiliza imaginea de mai jos a unui artist celebru. Subtilitatea constă în faptul că fotografiile utilizate pentru tratamentul filtrelor nu clasice și abordări bazate pe rețele neuronale. In ultimii ani, el este în curs de dezvoltare în mod activ. algoritmi similare au apărut mai mult de un an în urmă, dar ca un produs este împușcat Prisma, așa că am da ca exemplu.

Cum funcționează? Extrem de simplificare, putem spune că unele model matematic (ANN) a fost instruit pentru a juca un anumit stil al artistului. Este foarte important ca aceasta nu este făcută să urmeze un anumit artist, și este antrenat.

Noi considerăm acest model și arată-i o mulțime de picturi de Mondrian - și ea începe să copieze stilul său. Dacă luăm aceeași rețea și va arăta Munch ei, ea învață să imite Munch. Nu avem nevoie pentru a explica ceea ce este specificitatea stilului unui artist decât Munch diferit de Mondrian. Afișăm doar imagini diferite ale rețelei neuronale, în timp ce ea nu a înțeles esența.

dar aprins în zori de zi și au aprins brusc
zori ei încă fumează
pe plăcile din mare peste luna Creek
în întinderea apelor, dar nici unul nu prea curând
în răcoarea copaci și garduri vii hladnoy
dumbrăvi vazator nu captiveze
toate numai bucuria sensibilă în sânul


deloc
astfel încât într-un vis
se apropie

și eu
N-am spus
Nu pot să văd în cazul în care

în cazul în care nu dor
Aș muri în noaptea
Acum, în dimineața, deși

pe punte, în domenii în care nu shisha
sărbătoare pe piatră ca și în cazul în care într-o iesle
M-am dus în jos calea prin întindere
cu o falcă imens, gât argumentând
apă arde în jos, fără tam-tam
Dar, ca pentru un moment orice război
acolo pentru a juca și de a da vina
într-un hotel mare în celelalte case
de la femeie veșnică a fost vreodată
într-un golf gol ca și cum porticul
și că tot el a atins solul
au existat doar două terenuri într-un vis

Puteți încerca să detecteze în mod automat în lucrările unor poeți am instruit rețele neuronale oferă aceste pasaje. Desigur, în general, textul amintește shizofaziyny nonsens, dar am vorbit deja despre semnificația. Este necesar să se evalueze componenta stilistică.

Structura și stilul

Deci, avem structura și are stil. Să le facă împreună. După cum ați observat, probabil, rețeaua nu a învățat să rimeze pe linia lor, deși dimensiunea poetică ține destul de bine. Ea este ușor de a ajuta prin adăugarea de euristica, despre care deja am descris mai devreme. Și a cerut să genereze text în stilul Pușkin:

și uite jenat prea neașteptat
raliurile sentința
toate simțurile dumneavoastră constantă
cantaretul meu rece și un hoț

Nu, nu știi că nu a cerut
dar el a fost depășită sufletul
nu-l citesc și nu va părăsi
gros uneori este o fântână

cu care ne-am pierdut cu tine
în cazul în care câmpurile de înfășurat lămâi verzi
și ne plânge despre ele au suferit
în partea de vest a luminilor aprinse

A fost o mare îndrăzneală
ca o lebădă într-un câmp epuizat

Este suficient pentru o lucrare de structură de conformitate artă și stil? Pentru muzica - se pare că suficient. Și pentru textul?

Conform testelor noastre, așa că este prea devreme să vă faceți griji în mod serios profesie, și experți în informatică au de lucru. Acum, textele automate lipsesc prin structura, semantica - dar imaginile este deja suficient de mare pentru a se asigura că pe măsură ce citiți, puteți încerca să vă vină cu un înțeles, chiar dacă nu este. Acum, imaginați-vă că într-un an sau doi va fi „Prisma pentru texte“, precum și orice student scriind câteva fraze, poate împinge o pereche de butoane pentru a le trateze „de Cehov,“ sau „sub Lermontov“.

Pe scurt, Yandex-transleyt funcționează punct de vedere tehnic chiar mai rău decât Google-transleyta, iar conținutul ambele nu sunt comparabile cu dicționarul. Yandex-transleyt poate ajuta să înțeleagă mai comun sensul articolului pe un site străin. Yandeks.Slovari ajutat să "Lord of the Rings", "Lord of the Rings". Închiderea serviciului - este durerea de mii de traducători profesioniști și lingviști zeci de mii de entuziaști. Și nu contează menționate transleyt și alte resurse pentru angajați Yandex, realitatea este că înlocuirea adecvată nu este disponibilă. Pur și simplu nu există nicăieri.

Ce bun este un serviciu general, că, chiar și expresii traduse literal? „pisici și câini de ploaie“, ceea ce, nu-i asa?
Dicționare este tradus corect.