# [FORUM] Przejście forum na UTF-8

## Arfrever

Unikod jest przyszłościowym rozwiązaniem. Uważam, że można by rozważyć przejście polskiego forum Gentoo na UTF-8. Skoro Gentoo i wiele pakietów przeszło/przechodzi na UTF-8, to oficjalne polskie forum Gentoo nie powinno pozostawać w tyle. Obecnie używane kodowanie ISO 8859-2 jest już trochę przestarzałe i na pewno mało funkcjonalne. Raczej wszystkie używane w Gentoo przeglądarki internetowe wspierają UTF-8, więc ewentualne przejście tego forum na UTF-8 nie stanowiłoby problemu dla użytkowników.

Dokumentacja Gentoo Linux -- Kodowanie UTF-8 w Gentoo

Sveikinu

ArfreverLast edited by Arfrever on Mon Aug 07, 2006 2:15 pm; edited 1 time in total

----------

## qermit

heh muszę Cię zmartwić, ale iso-8859-2 nie jest przestarzałe, nigdzie w dokumentach nie ma wpisu - 'deprecated'

----------

## Arfrever

Ale UTF-8 rozwiązałoby pewne problemy, m. in. częste zmiany kodowania przez moderatorów.

Sveikinu

Arfrever

----------

## arsen

Heh ameryki nie odkryłeś, w ogóle piszesz polskiej częsci forum...nie da sie przejść na unicode tylko jednemu boardowi. Trzeba całe forum przerobić na unicode. Administratorzy forums.gentoo.org już dawno chcieli to zrobić ale jest to sprawa bardzo trudna. Forum na dzień dzisiejszy jest kodowane w wielu językach, w tym egzotyczne chińskie itp. Baza danych tego forum ma blisko 50Gb wielkości. Skonwertować taką bazę danych z wielu kodowań na jedno unicode jest tak trudne że żaden admin nie chce tego się podjąć, IAN! tylko pamiętam miał do tego zapędy ale jak widać też sobie odpiścił. Reasumując, unicode na forum TAK!, ale nie wiadomo jak tego sprawnie dokonać.

----------

## qermit

Czyli problemem nie jest samo przejście na utf, a skonwertowanie tych 50GB na ~100GB ?

----------

## arsen

Tak, na utf-8 już dawno chciano przejść, patrz bardzo stare GWN. Problem jednak z bazą i nie chodzi o to że się rozrośnie.

----------

## manwe_

UTF nie jest konieczny, koniecznym jest nagłówek o kodowaniu strony. Wszystkie "krzaki" na polskim forum biorą się stąd, że w nagłówku nie ma żadnej informacji o tym jak strona jest kodowana [po cholerę to ktoś usuwał  :Neutral: ] i niektóre przeglądarki wybierają UTF.

----------

## arsen

jednak utf był by super wygodniejszy jak na zbiór wielojęzycznych subfor.

----------

## v7n

Nie zastrzelcie mnie na lamerskie pytanie, ale.. admini będą tak czekać, aż baza rozrośnie się do nie_wiadomo_ilu, czy poczekają do wymiany sprzętu na nowy ( ile to potrwa ? ), czy do jeszcze czegoś? Bo myślę, że jakieś archiwum zrobią z tego co jest obecnie i udostępnia online.

----------

## Klekot

Hm... Arsen, ile może potrwać konwertowanie tych 50GB? Bo fakt, UTF jest świetną sprawą, więc może warto porozumieć się z adminami, zamknąć forum na ten czas, przekonwertować, przywrócić i zakończyć spekulacje?

----------

## arsen

tu nie chodzi o czas, to nie jest tak że jedna głupia komenda i czekać aż się zrobi, konwertowanie bazy z tylu dziwnych kodowań (wciąż będe pisał za przykład chinskie tradycyjne i chińskie uproszczone) jest wyczynem wielkim. Pozostaje ręczne dłubanie dłubanie i jeszcze raz dłubanie, jak bym się tego osobiście nie podjął.

----------

## qermit

a chinole nie pisza juz w utf?

EDIT: chyba jednak nie

Ciekawe czy można by to etapami robić ..., np kolejne podfora

----------

## no4b

Wszystko ok, tylko ja nie rozumiem dlaczego iso-8859-2 miałoby być przestarzałe. Co więcej, jest to ustawowo zatwierdzone kodowanie polskich znaków, a to, że Microsoft tego nie przestrzega nie znaczy, że my jesteśmy z tego zwolnieni (wybaczcie, że nie powiem w której ustawie jest to zapisane, bo po prostu nie pamiętam).

----------

## arsen

 *no4b wrote:*   

> Wszystko ok, tylko ja nie rozumiem dlaczego iso-8859-2 miałoby być przestarzałe. Co więcej, jest to ustawowo zatwierdzone kodowanie polskich znaków, a to, że Microsoft tego nie przestrzega nie znaczy, że my jesteśmy z tego zwolnieni (wybaczcie, że nie powiem w której ustawie jest to zapisane, bo po prostu nie pamiętam).

 

no ok ok, ale z punktu widzenia całego forum znacznie lepszym pomysłem by było jedno wspólne kodowanie dla wszystkich subfor innych niż angelskie. Każda narodowość mogła by przeglądać inne subfora nie widząc jakiś krzaków. Co jak co ale w przypadku tego forum utf by był bardzo eleganckim rozwiązaniem.

----------

## psotnik

Jeden standard kodowania, wszędzie na osach na stronach, nie bylo by tak prosciej i przyjemnije? Te nadmiarowe bity uwazam, ze warto poświecić. A forum jak najbardzije na UTF-8 popieram.

----------

## Yatmai

Wprawdzie mam złe doświadczenia z UTF-8 w konsoli, ale sama idea mi się podoba  :Smile: 

----------

## psycepa

 *arsen wrote:*   

> tu nie chodzi o czas, to nie jest tak że jedna głupia komenda i czekać aż się zrobi, konwertowanie bazy z tylu dziwnych kodowań (wciąż będe pisał za przykład chinskie tradycyjne i chińskie uproszczone) jest wyczynem wielkim. Pozostaje ręczne dłubanie dłubanie i jeszcze raz dłubanie, jak bym się tego osobiście nie podjął.

 

ja sam nie, ale jak wiemy w gentoo panuje filozofia: "kupą, mości panowie"

jakby tak zebrac zespol, backup tego co jest, zamknąć na jakiś czas mozliwość pisania forum i cala ekipa zrobic co trza zrobic... patrzac na nasza spolecznosc nie uwierze jak ktos powie ze to niemozliwe  :Smile: 

pozdrawiam

----------

## arsen

I jak to widzisz? zamknąć forum na 2 tygodnie? przecież to pokaźna baza. Podzielenie się pracą... trzeba zdalnie pracować co jest problematyczne. Nie widze jak każdy by miał sciągnać sobie baze taką na dysk i dłubać. Wtedy by forum trzeba było zamknąć na miesiąc chyba. Na dodatek muszą to być ludzie którzy znają się na rzeczy, pisać jak było by fajnie każdy umie.

Dalej ja tego nie widze.

----------

## Kurt Steiner

A po cholere zamykac? Zrobic kopie bazy i ja przekonwertowac, pozniej dodac wpisy ktore doszly w tym czasie i po sprawie... Brzmi prosto, ale pewnie tak nie jest?  :Wink:  Tak sobie gdybam...  :Razz: 

----------

## arsen

 *Kurt Steiner wrote:*   

> A po cholere zamykac? Zrobic kopie bazy i ja przekonwertowac, pozniej dodac wpisy ktore doszly w tym czasie i po sprawie... Brzmi prosto, ale pewnie tak nie jest?  Tak sobie gdybam... 

 

Tak, wszystko co teori wydaje się łatwe  :Smile: 

----------

## qermit

Z tego co pamiętam w phpbb jest coś takiego jak numer posta i id wątku, każdy wątek jest przyporządkowany do sub-forum (ale mogę się mylić). Osobiście pokusiłbym się o napisanie jakiegoś prostego (no może nie tak prostego, bo musiały by być zapisane gdzieś tabele konwertowania: sub-forum -> src_encode,dst_encode) wyzwalacza, który dodawałby również wiadomości do drugiej bazy danych. (tej z unicode). Oczywiście spowolniło by to pracę samego forum, ale baza przeznaczona na konwertowanie była by cały czas aktualna.

Problem nie wydaje mi się aż tak trudny, ale nie wiem czy to z braku doświadczenia, czy dlatego że robiłem już dziwne rzeczy

----------

## joi_

zawsze można blokować po jednym podforum i tylko je konwertować...

----------

## qermit

 *joi_ wrote:*   

> zawsze można blokować po jednym podforum i tylko je konwertować...

 Niee... Blokowanie nie wchodzi w grę. Przejscie na kodowanie UTF nie może zachwiać pracy forum (to tak jakby podczas aktuaizacji windows nie można nic zrobić. eee to chyba jest zły przykład)

----------

## kfiaciarka

Na czas zamknięcia forum by sie wszystkich wyslało na czaty #gentoo :>

----------

## qermit

kurdę, zrobiłbym coś takiego. tego jestem pewnien (no zostawiłbym tylko chinolom to co jest, bo nie znam tych ichniejszych znaczków). i nie zajęło by mi to więcej niż miesiąc z przygotowaniami, nie wiem tylko jaka tu jest baza danych.

----------

## Arfrever

Podobno trwają (?) jakieś prace nad przystosowaniem wyszukiwarki forum do UTF-8. Trzeba chyba uzbroić się w cierpliwość  :Sad:  .

Sveikinu

Arfrever

----------

