Unicode și copie chirilică

Și o altă problemă este observată în MS Word.

  • atunci când se lucrează cu fișiere text simplu (.txt) în Word 97+ -. „păsărească“ atunci când încărcați un astfel de fișier în Word, și „semne de întrebare“ în loc de chirilic când salvați un document de la Word'a ca fișier .txt „“
  • Notă.
    Aceste probleme nu sunt de obicei disponibile sub Windows „rusesc“.
    Când am scrie mai jos „rus Windows“, aceasta nu înseamnă doar o versiune localizată, în cazul în care în loc de butonul „Start“ - „Start“. Nu, asta e, orice, chiar și interfața Windows în limba engleză, în cazul în care chirilic este pagina de cod de sistem, care este, pagina de cod de sistem = „chirilic, 1251“.
    (Pagina de cod de sistem este discutată în detaliu la pagina mea de „completa rusificare, la nivel de sistem“)

    Deci, aici nu pentru a scrie dlinnogo. „Sistem, în cazul în care pagina de cod de sistem = 1251.“, am folosi pentru astfel de sisteme este numit „rus Windows“.

    Motivul pentru problemele descrise mai sus este faptul că aceste noi Unicode programe sunt foarte diferite în ceea ce privește sprijinul limbă din programele „vechi“, care „știe“ numai (moștenire) care codifică „vechi“, cum ar fi „Europa de Vest Codul Page, 1252“ sau „chirilic , Codul Pagina 1251“.

  • Macromedia Dreamweaver - O casetă de introducere a textului
    (Nu am văzut programul, dar a citit-o - non-Unicode Program)
  • MS Word 97 problemă (și mai târziu) și chirilic fisiere .txt -
    • descărca fișierul în Word: obține un text nu poate fi citit ( „fără sens“)
    • salvați documentul din Word într-un fișier text simplu (.txt): obține semnele de întrebare în loc de român (.)
  • semne de întrebare ( "") Când copiați text din Unicode română (Word 97+, Internet Explorer, Outlook Express, MS Outlook, Netscape 7 / Mozilla.) În non-Unicode (Netscape 4.79, UltraEdit, Dreamweaver.).

    Acest lucru se întâmplă de obicei, sub nici o versiune de Windows Rusă (care este, în cazul în care Codul System Page pentru - nu 1251).
    Conversia din Unicode în text non-Unicode se bazează pe pagina de cod de sistem (pagina de cod de sistem), astfel încât sub Windows, în cazul în care pagina de cod de sistem - „occidental“, se întâmplă următoarele:
    • Set de caractere (Set de caractere) „Unicode“ conține chirilic, dar în alfabetul chirilic „Europa de Vest“ nu este deloc (există în partea de sus a tabelului - litere din Europa de Vest cu diacritice).
    • Prin urmare, atunci când încearcă să găsească o potrivire a scrisorii ruse în caracterul Unicode set set „occidental“ caracterul, procedura ca urmare a conversiei introduce un semn de întrebare ( „?“), Ceea ce înseamnă:
      „Nu meci se găsește în setul de caractere, care este transcodat“ ( „simbol nu a fost găsit în codificare țintă“)

    Acesta este motivul pentru fiecare literă rusă în rezultatul acestei conversii se înlocuiește cu marca voprositvlny, cu această convențională „?“, Nimic special în ea :-) (mulți se întreabă la conferințe, dar de această semn de întrebare pentru a obține scrisoarea rusă. În nici un fel, acest lucru este un caracter regulat „?“ și nimic mai mult)

  • Cauza UniPad și deschide un nou document - Fișier / Nou
  • Acum puteți utiliza această fereastră ca o „escală“ la copiere:
    • Copiați textul din Unicode în această fereastră UniPad. UniPad înțelege Unicode, astfel încât veți vedea normală chirilic.

    Vor fi transcodată de la text Unicode într-un non-Unicode -
    pentru schema de Unicode ---> „chirilic (Windows)“, ne-a indicat în mod clar (cum altfel s-ar fi transformat din nou într-un „occidental“ și alfabetul chirilic cu cei pierduți, care urmează să fie înlocuite cu semne de întrebare)

  • Teper, aveți posibilitatea să inserați textul în programul dorit (lipiți), chirilic nu se înlocuiește cu semne de întrebare, deoarece Sistemul isvestno că textul - din setul de caractere chirilice (Windows), și nu în cel care este pagina de cod de sistem ( „occidental“).
  • Acest lucru se întâmplă de obicei, sub nici o versiune rusă a Windows care este în cazul în care chirilic nu este un cod de sistem Page (pagina de cod de sistem).
    Unicode-program „știe“ că există o prelucrare este textul în limba română (chirilică) și, prin urmare, folosește pagina de cod de sistem într-o conversie non Unicode-text Unicode.
    De exemplu, în versiunea în limba engleză a Windows (pagina de cod de sistem - „Europa de Vest“, 1252), sistemul se uită la codul sursă, ca și cum ar fi textul din Europa de Vest, nu alfabetul chirilic, și traduce într-schema de Unicode
    "Western, CP-1252 Europeană" ---> Unicode

    Aceasta, desigur, cu lucruri rele se întâmplă chirilice :)

    De exemplu:
    În textul inițial non-Unicode a fost scrisoarea rus „d“. Codul său codificat în "Windows (chirilic), CP-1251" - 228.
    Dar programul Unicode presupune că textul original nu este în setul de caractere chirilice, și „Vest, CP-1252“! În această valoare de codificare 228 - o literă germană a-tremă ( „o“ cu două puncte peste ea).
    Prin urmare, există aici o astfel recodare:
    nu-Unicode-o tremă ---> unicode-tremă
    și că scrisoarea germană vedeți - cum :-) „păsărească“ - Rusă în loc de „e“, după copierea în programul de Unicode.

    Există două soluții posibile pentru această problemă. În unele cazuri, nu funcționează metoda foarte simpla. 1. în cazul în care nu funcționează, atunci va trebui să utilizați nici o metodă universal. 2.

    metoda 1
    Utilizați următoarea metodă atunci când copiați text dintr-o programele non-Unicode din Romania (Netscape 4.79, UltraEdit, Dreamweaver.) Pentru Windows Clipboard:
    • Selectați textul pe care doriți
    • Înainte. cum de a copia, este necesar pentru a comuta tastatura în limba română.
      Adică, să se taskbar'e a fost "RU", atunci când Ctrl / C de presă.

    Prin aceasta vă place să spun că sistemul copiat de text - alfabetul chirilic, mai degrabă decât „occidental“.

  • în caz contrar - folosind o metodă universală 2
  • În lista propusă, selectați „Românul“ (sau ar trebui să fie)
  • Vei vedea chirilic normal!

    metoda 2
    nu pentru a copia-Unicode -> Unicode

  • Cauza UniPad și deschide un nou document - Fișier / Nou
  • Acum puteți utiliza această fereastră ca o „escală“ la copiere:
    • Evidențiați și copiați textul într-un program non-Unicode
    • Introduceți un text în fereastra UniPad mod special:
      Edit / Paste Ca
      (Inserare indicând codare „)

    În listă, localizați seturile de caractere dorite - „Windows CP-1251 (cu litere chirilice)“ și faceți clic pe „OK“.

    Nu va fi de conversie de la non-Unicode text la Unicode -
    schema „chirilic (Windows-1251)“ ---> Unicode, am indicat în mod clar (în caz contrar sistemul s-ar fi crezut că textul original - care codifică „Vest“)

    Chirilic în MS Word 97 și mai târziu:
    lucra cu fișier text simplu (.txt)

    • Încercarea de a descărca fișierul în Word: păsărească pe ecran în loc de krillitsy
    • Salvați în document Word ca „Numai text (* .txt)“: numai „semne de întrebare“ în loc din România într-un fișier de pe disc.

    Aceste două probleme nu sunt sub Windows în limba română, vă aflați, unde chirilic (CP-1251) nu este pagina de cod de sistem (pagina de cod de sistem).

    Soluție: Asigurați-vă clar în sistem că acest text simplu, non-Unicode - este codat în „chirilic (Windows-1251)“, și nu cea care corespunde paginii de cod de sistem.


    Descrierea detaliată a soluțiilor acestor 2 probleme cu fișierul text simplu (.txt)


    Descarcă (File / Open) chirilic .TXT în MS Word 97+

    Dopistim, aveți un fișier text simplu cu A.TXT chirilică de codificare 1251 (adesea numit "chirilic (Windows)" sau "Windows-1251").

    • Instrumente / Opțiuni / generale și de acolo pentru a pune o casetă de selectare în „Confirmare Conversie la Open“ (arată un dialog de conversie atunci când fișierul / Open)
    Există mai multe metode de rezolvare a problemelor descărcării .TXT română în Word 97 pe masina non-rus prin folosirea programului de utilitate, ca etapă intermediară. să ne uităm la două dintre ele:
    • Dacă aveți deja o versiune Netscape 4 și mai târziu instalat, puteți utiliza cea mai simplă metodă:
      utilizați Netscape

    Dacă nu aveți Netscape, atunci aici este o altă soluție, care necesită un număr mai mare de pași:

    Prin Netscape, faceți Fișier / Deschidere, selectați „Text (.txt)“ ca „Fișiere de tip“.
    Fișierul dvs. A.TXT românesc este încărcat în fereastra Netscape. Acum trebuie să modificați codificarea:
    • Netscape 6 - Vezi / Character Encoding / chirilic (Windows-1251)
    • în Netscape 4.5+ - View / Set de caractere / chirilic (Windows-1251)
    • în Netscape 4.0 x: Vizualizare / Codare / chirilic (Windows-1251)

    Acum, pe ecran ar trebui să fie un text normal în limba română și îl puteți copia cu ușurință la Word 97.


    Salvarea (File / SaveAs) Document românesc din Word 97+ ca "Numai text (.TXT)"

    Să presupunem că aveți o fereastră în Word 97 (sau mai mare) - documentul românesc, și doriți să-l salvați ca A.TXT fișier text simplu.

    fișier .txt creat va conține în mod normal pentru Windows-1251 textul, nu „semne de întrebare“.

  • Acum, în al UltraEdit, când vedeți textul normal în limba română, puteți să-l salvați ca A.TXT prin intermediul File / SaveAs.