RusUSA.com - russian portal News
Home  • News  • Yellow Pages  • Shopping  • Classifieds  • Fun  • Chat  • Forum  • America

russian | english
 

Разведка в интернете. Часть II

 30 Sep 2006 raiting (0/4)
 viewed (469)
 
Продолжение. Начало смотри здесь

Тексты доступны в нестандартном формате (офисные: doc, pdf, xls, ppt; архивные: zip, rar, arj, chm, msi …, устаревшие chi и др.), или вообще на неизвестном языке и в неизвестной кодировке. Проблему несколько облегчают корпоративные информационные системы, снабженные определителями языка и кодировок, конверторами файлов, программы для скачивания файлов и сайтов из интернета в паре с программами поиска на локальных дисках, а также специализированные поисковые системы интернета и определители языка.

Закрытая часть офисных документов. В большинстве документов офисных форматов есть "невидимая" часть, которая может включать персональные и корпоративные данные, метаданные и, как правило, не индексируется. Например, невидимыми являются данные об авторе (MS Word: "Главное меню – Файл – Свойства – Документ" или "Главное меню – Файл – Свойства – Прочие"), скрытые и удаленные куски текста и много другое. Для обнаружения и удаления таких фрагментов в файлах DOC, RTF, XLS, PPT, PDF и др. форматов используют специализированные программы и возможности отдельных поисковых систем интернета.

Найденный текст не виден или не копируется. Затруднения доступа к онлайновой информации вызывают сами интернет-технологии, например, всплывающие на страницах интернет подсказки с фактографической информацией, данные MacroMedia Flash или шифрование html-кода. Критическая информация скрыта в html-коде найденной страницы и не всегда корректно показывается программой – обозревателем ресурсов интернет. Надо использовать 2-3 разных обозревателя параллельно. Следует изучать исходный html-код интересующей страницы (MS Internet Explorer: "Главное меню - Вид - В виде HTML") и искать непосредственно в нем нужный текст. Надо сделать локальную копию сайта и искать в html-коде страниц требуемые фрагменты текста, используя, например, полнотекстовый поиск Windows. После удаления html-дескрипторов оставшийся текст можно использовать в отчетах.

Нетекстовая информация и метаданные. Нетекстовые файлы и их фрагменты (звуки, изображения, числа, формулы, и их ряды) могут содержать разнообразные неоцифрованные сведения, пространственную или иную нетекстовую информацию и метаданные. Для их поиска и аналитической обработки можно использовать специализированные поисковые системы и прикладные программы мониторинга, оцифровки, извлечения и анализа данных, метаданных и зависимостей. Как правило, такого рода инструментами комплектуются специализированные поисковые системы и корпоративные хранилища ведущих производителей.

Проблемы средств поиска

Переходы по гипертекстовым ссылкам малопродуктивны и не рекомендованы для профессионального поиска фактографической информации. Однако, нужно отметить уникальную методику получения скрытой информации через интернет – обратную стратегию поиска, использующую индекс ссылок.

Поисковые каталоги неполны и покрывают лишь тысячные доли процента из доступных ресурсов интернета, например, крупнейший проект "Открытый каталог", поддерживаемый более 60 тыс. редакторов-добровольцев, учитывает чуть более 4 млн. из доступного триллиона страниц интернета.

Ошибки и ограничения поисковых систем. Разнообразные пороки проектирования, ошибки программной реализации и ограничения анализаторов текстов и поисковых запросов при формировании и обновлении индексов поисковой системы и поиске не позволяют найти нужную информацию без применения специальных техник поиска. Никогда не индексируются спецсимволы – разделители слов. В частности, находить в текстах сумму в долларах "$123" может только Google, остальные поисковые системы показывают 123, 00123 и т.п. Некоторые спецсимволы, попавшие в запрос, вызывают сбои работы конкретной поисковой системы. В результате при значительном количестве подходящих документов и "правильном" запросе пользователь получает "ничего не найдено". В данном случае выручает только знание принципов работы поисковых систем и умение их оперативно тестировать.

Ограничения для роботов поисковых систем. Робот публичной поисковой системы всегда четко выполняет предписания web-мастеров, которые могут ограничить индексирование сайта целиком или его частей, отдельных документов и их частей, а также переходы по ссылкам. По мнению специалистов поисковых систем Altavista и Lycos, в 2002 году такие ограничения были введены на 5-6% сайтов. Если такие ограничения обнаружены, то эти папки сайта, ссылки или документы поисковыми системами не индексируются, и их целесообразно исследовать в первую очередь. Нужно предварительно применять программы копирования сайтов и локального полнотекстового поиска.

Робот не может выполнить элементарный сценарий. Робот поисковой системы, как правило, не может пройти регистрацию на сайте, авторизацию для входа на закрытую часть корпоративного сайта или ресурс с коммерческим доступом, равно как и выполнить элементарный сценарий – последовательность операций доступа к конкретному файлу, выбора необходимых условий или ввода данных в форму поискового запроса. Практически все динамические документы, формируемые "на лету" по запросам пользователей, большинством поисковых систем не индексируются. Для поиска, мониторинга изменений и выкачивания записей из баз данных используются разнообразные стратегии съема информации и специализированные программы – сеансовые роботы и макрокоманды некоторых программ мониторинга страниц и серверов интернета, а также корпоративные хранилища и системы поиска на локальных дисках.

Административные и технические барьеры не позволяют увидеть через поисковую систему как существующий на сайте документ, так зачастую и весь сайт (нужный текст исключается согласно негласной политике индексирования конкретной поисковой системы). Причины такого исключения могут быть самыми разнообразными: официальные предписания и судебные решения, авторское право, корпоративная политика, требования хостинг-провайдеров, высокая стоимость перекачки всего подряд, предполагаемое дублирование, поисковый спам, провокации конкурентов,произвол системных администраторов и др. При достаточности ресурсов надо использовать программы для полного перекачивания сайтов из интернета в паре с программами поиска на локальных дисках и/или корпоративное хранилище.

Результат индексирования крупнейшими поисковыми машинами отдельных сайтов. Доля проиндексированных документов *
Факты:
==========================================================
N #Доменное имя индексируемого сайтаwww.fuld.comcomputer-forensics-lab.orgcyber-crimes.ru
==========================================================
1Число уникальных страниц4251755453
2Можно ли все индексировать?НетДаДа
3Где размещенСШАРоссияСША
4Когда начал работатьМарт 1996 годаМарт 2005 годаМай 2005 года
5www.google.com51%22%5%
6www.yahoo.com59%7%16%
7www.msn.com58%3%16%
8www.alltheweb.com31%34%5%
9www.yandex.ru0%0%29%
10www.rambler.ru0%24%54%
________________________________


* По состоянию на 11 ноября 2005 года. В приведенной таблице для оценки числа уникальных страниц использовались программы для создания локальных копий сайтов (WinHtTrack и Offline Explorer Pro), для оценки числа проиндексированных документов - запросы Google / Yahoo! / AllTheWeb MSN: site:www.fuld.com, запрос Yandex: #url="www.fuld.com".

Источник: CNews Analytics, 2005

Неполнота известных поисковых систем

Поисковая система расширяет индексы, в основном, двумя способами: по ссылкам из известных ей документов и по информации web-мастеров, введенной через формы "регистрации в поисковой системе". Если сайт интересующей компании или нужная информация никак не находится через известные поисковые системы, ищите другие подходящие поисковые системы, используйте национальные и глобальные метапоисковые системы, базы данных национальных регистраторов доменных имен, а также поиск по базам газетных публикаций (традиционная реклама).

Страницы только для персонала

Для авторизованного доступа служащих компании и партнеров предназначена закрытая часть корпоративных сайтов. Из-за некомпетентности и/или неаккуратности их администраторов в ряде случаев конфиденциальная информация предприятий может быть легально получена через интернет. В некоторых случаях роботы поисковых систем проникают на закрытую часть сайтов, но это скорее исключение, чем правило. Попытки интуитивного поиска закрытой информации на корпоративных сайтах собственными силами, как правило, малопродуктивны. Аутсорсинг такого рода услуг может быть квалифицирован как заказ на промышленный шпионаж и приводит к судебным разбирательствам, утечкам информации и быстрой ликвидации "ценных" брешей. Для выявления ошибок и уязвимостей на корпоративных сайтах конкурентов, а также аудита защищенности собственного сайта можно использовать специализированные программы для копирования сайтов и поиска на локальных дисках, сеансовые роботы, базы известных уязвимостей сайтов и типовых ошибок системных администраторов, а также все прочие технологии интернет-разведки.

Сложность процесса индексирования массы документов сильно замедляет процесс обновления индексов. В этой связи практически полностью выпадают из индекса поисковых систем общего назначения новости, объявления, дискуссии, блоги (персональные дневники), форумы, рассылки, пресс-релизы, тендерная информация и т.п. В этом случае применяются специализированные сервера и службы для поиска и мониторинга актуальной информации – агрегаторы новостей, а также специализированные приложения.

Феномены Сети

У интернета есть много особенностей и присущих ему явлений, которые затрудняют поиск необходимой информации. Но, в то же время, их знание может значительно повысить качество интернет-разведки.

Разнообразие протоколов интернет. Документы доступны по иным (не только http) протоколам передачи и поиска данных (WAIS, Gopher, WAP, ftp, telnet, gopher, z3950, rss, imap, pop3, smtp ). Информация части сервисов интернета просто мимолетна – это сообщения электронной почты, чаты. Нужно уметь искать или знать адреса http-шлюзов для поиска в соответствующих коллекциях, либо установить специализированные программы мониторинга и просмотра (клиенты telnet, z3950, rss) или конверторы. Рекомендуется для сбора нежелательной корреспонденции регистрировать на бесплатных почтовых серверах корпоративные почтовые ящики-ловушки и обязательно сохранять любые сообщения, затрагивающие интересы предприятия. В ряде случаев оказываются полезными базы данных борцов со спамом.

Альтернативы Сети

Клиенты для обмена файлами по фирменным протоколам (Ares, BitTorrent, DirectConnect, ED2K, EDonkey, EMule, Gnutella, Kazaa/FastTrack, Magnet, Napster, OpenNapster, Overnet, Piolet, Torrent) и поиска в файловых архивах (FTP) позволяют находить весьма интересные материалы. Для повышения эффективности нахождения файлов используются специальные стратегии поиска.

Интернет неоднороден в пространстве. На практике интернет является лишь частично прозрачной для сетевого трафика сетью, в которой согласно трехлетнему исследованию (отчет 2001 года) специалистов Arbor Networks из-за различных организационных и технических проблем между отдельными подсетями и узлами существуют т.н. "черные дыры". Это сегменты сети, постоянно или временно доступные только через конкретную подсеть и невидимые через остальные конкурирующие подсети. Черные дыры интернета обуславливают малую вероятность индексирования и обновления информации более 5% серверов. Если критическая информация обнаружена на таком сервере, качайте ее на рабочую станцию или в хранилище, используя местных агентов и провайдеров услуг мониторинга, поиска и доступа к базам данных. В качестве хорошей, но недешевой альтернативы Сети и решения проблемы ее черных дыр можно рассматривать технологии агентурной разведки.

Интернет не является единой сетью. Целенаправленная политика властей Китая по регулированию национального сегмента интернета и защиты граждан и интересов Поднебесной от вредоносного воздействия США и др. иностранных государств естественным образом завершилась введением с 1 марта 2006 года национальной системы регистрации доменных имен в четырех зонах: .cn (англоязычный домен), а также .china, .net и .com (китайскоязычные), каждый из них представляет собой два иероглифа. Создан прецедент – национальный сегмент интернета, адресация в котором не обеспечивается зарубежными DNS-серверами, принадлежащие американской организации ICANN. Для работы в таких сегментах интернета используйте несколько местных сотрудников, работающих под хорошим прикрытием через национальных провайдеров интернета.

Интернет неоднороден во времени. Вчера критическая для бизнеса информация или доказательство правонарушения были обнаружены, а сегодня ее по-тихому убрали с сайта. Нужные тексты могут быть недоступны из-за проблем на серверах (реорганизация, отказы в обслуживании, простои оборудования) . Для получения доступа к таким документам следует использовать метапоисковые сервера и программы и обязательно смотреть сохраненные поисковыми системами копии документов (кэш поисковых систем). Применяйте программы мониторинга страниц и сайтов интернета, а также интернет-архивы.

Неизвестные домены. Служебная часть корпоративных сайтов может быть размещена не только на основном корпоративном домене второго уровня, но и на доменах третьего и четвертого уровней. При этом на "закрытый" домен третьего или четвертого уровня может не быть ни одной ссылки с домашней и других открытых страниц изучаемого сайта, а его просмотр может быть открытым. Роботы поисковых систем их могут не видеть. Для обнаружения таких доменов на корпоративном домене второго уровня используются специализированные публичные поисковые сервера доменных имен.

Вместо заключения

В условиях нарастающей глобальной конкуренции фактором выживания предприятий является их способность быстрее предоставить потребителям большую или уникальную ценность при меньших издержках. Сильной стороной интернет-разведки является невысокая стоимость, безграничность охвата и высочайшая оперативность. Но она не может заменить иные виды деловой разведки, в частности, работу персонала на местах. Она не может компенсировать недостатки традиционного (репрессивного) управления предприятием, а лишь до предела обнажает его слабости.

Сергей Кузнецов
 
Source:











Разведка в интернете. Часть II



Home  • News  • Yellow Pages  • Shopping  • Classifieds  • Fun  • Chat  • Forum  • America



©2008 LCube. All rights reserved.
RusUSA.com - Russian America


Advertise on RusUSA.com
Terms & Conditions
Site search | Search internet
Site map
Rambler's Top100