Как спрятать ссылки

Автор: Administrator

Индекс материала
Как спрятать ссылки
Как спрятать ссылки стр.2
Как спрятать ссылки стр.3
Все страницы

Иногда на страницах сайта требуется спрятать от роботов некоторые ссылки. Нет - речь пойдёт не о клоакинге или чёрном сео, а о нормальной оптимизации сайта. Как известно некоторые движки грешат избыточностью ссылок в своих компонентах и модулях, Взять к примеру ту же Joomla с её индексом материала, прибавьте к нему постраничную навигацию - в итоге получаем дублированные ссылки на странице - оно вам надо?

Кстати, если вам лень читать статью, или попросту нет времени вникать во всё это, то здесь Я разместил этот скрипт ввиде онлайн инструмента.

Так вот. Роботы пока не научились интерпретировать JavaScript, но по слухам вполне ничего себе так заглядывают в его код. Поэтому конструкции типа:

document.write('<a href="/somedomain.net">ля-ля-тополя...</a>');

похоже прокатывают уже через раз. Народ придумал шифровать ссылки в формат кодовых точек unicode, ну типа того: \u003c\u0061\u0020\u0063 есть онлайн сервисы для подобных операций, но что делать если выводимые ссылки формируются движком динамически? Что - что... читать-понимать принцип кодирования многобайтных кодировок в unicode. Что такое unicode и ASCII спросите у google он должен знатьЕсли у вас сайт в модной нынче кодировке UTF-8 а расширения типа mb_string и iconv вам не доступны (бывает и такое) или просто интересно, как это можно сделать самому, то читайте дальше.

Итак. В unicode существуют так называемые "кодовые точки", которые имеют вид: U+007F или U+0400. После префикса U+ следует шестнадцатиричное число ( предварённое нулями ). Фактически это порядковое шестнадцатиричное число позиции символа: U+006B это 6B в шестнадцатиричной, или 107 в десятичной системе или маленькая латинская буква "k" в соответствии с ASCII.

В диапазоне от U+0000 до U+007F ( это интервал от 0 до 127 в десятичном представлении) число после "U+" совпадает с шестнадцатиричным кодом символа в ASCII. Это диапазон латиницы и других печатных/не печатных символов (типа пробела и пр.) то есть символов для хранения и обработки которых требуется 1 байт. После U+007F - кодовые точки unicode следуют далее по порядку, а вот нормальное их шестнадцатиричное представление символов там уже требует 2 байта, т.е. 4 - шестнадцатиричных цыфры: U+0080 соответствует С2 80 (какой то непечатный символ).

Принцип кодирования многобайтных символов следующий:

Unicode (шестнадцатиричный)	Unicode ( двоичный )
0x0000 – 0x007F	0xxxxxxx
0x0080 – 0x07FF	110xxxxx 10xxxxxx
0x0800 – 0xFFFF	1110xxxx 10xxxxxx 10xxxxxx

Вы всё еще здесь? Теперь интересное. В таблице видно что для однобайтного символа двоичное представление начинается с 0, а вот для многобайтного с 1. Причем количество единичек в первом байте (ещё его называют стартовым байтом многобайтовой последовательности ) прямо указывает на количество байт нужных для кодировки данного символа. Далее идут серийные байты которые начинаются с 10, и количество которых определено в стартовом байте. Ну а биты символа unicode упаковываются в "транспортные" биты стартового и серийных байтов, обозначенных выше как "xxxx"

В принципе, поняв весь этот двоично-шестнадцатирично-десятичный коматоз, можно понять как нам кодировать символы средствами PHP. Javascript "понимает" литералы юникода в таком виде: \u0410 т.е. префикс у него свой. Наша задача заключается в том, что нам будет нужно перегнать строку, которая содержит, как кирилицу, латиницу и спец. символы в шестнадцатиричное их представление. Причём каждый символ в отдельности.

Здесь мы постараемся обойтись без всякого рода расширений типа mb_string и iconv (мы же не ищем лёгких путей) а только фунуцией PHP bin2hex() - она вернет шестнадцатиричное представление строки-символа например 'a'. По строке пройдёмся циклом, как по массиву. И будем работать с каждым символом по отдельности.

Кстати если у вас не прописано в php.ini mbstring.func_overload=1 и впринципе недоступна mb_string. И если ваш сайт в UTF-8 То код:

  
    echo strlen('один');

Выведет число 8! - Почему? Правильно: потому что каждый кирилический символ в юникоде кодируется двумя байтами, вот такие приколы люди и имеют ввиду, когда говорят о сложности работы в PHP с unicode. Фактически функция strlen() - возвращает нам не длину слова в буквах, а длину слова в байтах! И вкоде ниже, в цикле мы фактически будем шагать не по символам слова, а по его байтам! В данном случае нам это как раз на руку. По сути нам интересен интервал от U+0410 до U+044F - интервал кириллицы в юникоде символы здесь представлены двумя байтами. Если взятый ( идём циклом по строке ) байт символов (первый из двух) умещается в диапазоне от D0 до D1 (можете посмотреть таблицу символов unicode), то это значит, что к нему нужно прибавить (здесь я имею ввиду операцию конкатенации ) следующий за ним байт, точнее его шестнадцатиричное представление.

Иначе если взятый байт меньше или равен 7Е то значит нам попался однобайтный символ, к нему просто конкатенируем спереди "\u00" (с дополнительными нулями потому что так Javascript работает)

А совсем в ином случае (если байт не в диапазоне D0-D1 и он больше 7Е) тупо пропускаем то что попалось через PHP функцию htmlentities() .

Ура мы получили корректное шестнадцатиричное представление символов подопытной строки, но однобайтные символы у нас уже готовы к выводу через JavaScript, а вот то что у нас представляет кирилицу находится пока только в шестнадцатиричном представлении, и правильно работать не будет.

Теперь шестнадцатиричные коды кирилицы нужно перевести в кодовые точки unicode. Для этого смотрим в таблицу unicode и тупо копируем значения в два массива паралельно. В одном будут кодовые точки, а в другом шестнадцатиричные числа, соответсвующие этим точкам. Смотрите не напутайте :)

Осталось только прогнать всё это через функцию str_replace() и вернуть из нашей функции. Ниже приведён полный код функции с массивами сопоставления кодировки и подробными комментариями:

<?php
// На всякий случай проверка:
if(!function_exists('conv'))
{
    function conv($str)
    {
        // Переменная для "накопления" результирующей строки:
        $uot = '';

        // Здесь хранятся кодовые точки unicode 
        // в формате удобном JavaScript:
        $unicodePoints = array( '\u0410','\u0411','\u0412','\u0413',
                                '\u0414','\u0415','\u0416','\u0417',
                                '\u0418','\u0419','\u041A','\u041B',
                                '\u041C','\u041D','\u041E','\u041F',
                                '\u0420','\u0421','\u0422','\u0423',
                                '\u0424','\u0425','\u0426','\u0427',
                                '\u0428','\u0429','\u042A','\u042B',
                                '\u042C','\u042D','\u042E','\u042F',
                                '\u0430','\u0431','\u0432','\u0433',
                                '\u0434','\u0435','\u0436','\u0437',
                                '\u0438','\u0439','\u043A','\u043B',
                                '\u043C','\u043D','\u043E','\u043F',
                                '\u0440','\u0441','\u0442','\u0443',
                                '\u0444','\u0445','\u0446','\u0447',
                                '\u0448','\u0449','\u044A','\u044B',
                                '\u044C','\u044D','\u044E','\u044F');

        // Здесь хранятся шестнадцатиричные представления чисел
        // этот массив сопоставим с массивом сверху по таблице
        // юникод
        $hexView = array(   'd090','d091','d092','d093',
                            'd094','d095','d096','d097',
                            'd098','d099','d09a','d09b',
                            'd09c','d09d','d09e','d09f',
                            'd0a0','d0a1','d0a2','d0a3',
                            'd0a4','d0a5','d0a6','d0a7',
                            'd0a8','d0a9','d0aa','d0ab',
                            'd0ac','d0ad','d0ae','d0af',
                            'd0b0','d0b1','d0b2','d0b3',
                            'd0b4','d0b5','d0b6','d0b7',
                            'd0b8','d0b9','d0ba','d0bb',
                            'd0bc','d0bd','d0be','d0bf',
                            'd180','d181','d182','d183',
                            'd184','d185','d186','d187',
                            'd188','d189','d18a','d18b',
                            'd18c','d18d','d18e','d18f' );

        // Идём по строке как по массиву:
        for($i=0; $i < strlen( $str ); $i++)
        {
            // Если байт начинается с 11xx, то это стартовый 
            // байт многобайтной последовательности
            // Здесь у нас идёт сравнение с шестнадцатиричным 
            // числом: 'd0', в двоичном представлении
            // это будет как раз число 11010000, если это так...
            if(bin2hex($str{$i}) >= 'd0' && bin2hex($str{$i}) <= 'd1')
            { 
            	// то записываем в результирующую стоку этот 
                // байт в шестнадцатиричном представлении 
                // и следующий за ним, так как это будут два 
                // байта одного кирилического символа:
                $uot .= bin2hex($str{$i}).bin2hex($str{$i+1});
                
                // увеличиваем счётчик, что бы проскочить на 
                //следующий итерации уже взятый нами следующий байт:
                $i++;
            }
            // Иначе если шестнадцатиричное представление 
            // байта меньше 7Е, то перед нами однобайтный символ:
            elseif(bin2hex($str{$i}) <= '7e')
            {
                $uot .= '\u00'.bin2hex($str{$i});
            }
            // Иначе перед нами иной символ который просто обрабатываем:
            else $uot .= htmlentities($str{$i},ENT_QUOTES,'UTF-8');
        }
        // Здесь замещаем шестнадцатиричные представления кирилических символов
        // кодовыми точками unicode и возвращаем результат:
        return str_replace($hexView,$unicodePoints, $uot);
    }
}
?>

В итоге получаем кодированную строку примерно такого вида:

\u003c\u0061\u0020\u0063\u006c\u0061\u0073\u0073\u003d\u0022\u0068\u006f

Котую выводим в PHP - скрипте следующей конструкцией:

  echo '<script type="text/javascript">
           document.write("'.conv('<a href="/xxxx">ссылка</a>').'");
        </script>';

Она скроет от роботов лишние ссылки, которые в принципе нужно оставить на странице для удобства пользователей. Что вы кстати можете наблюдать у меня на сайте, если просмотрите исходный код страницы. Уф.. Фсё!

Как спрятать ссылки

Добавить комментарий

Информация копипастерам