Наукометрия

(Данная страница составлена по материалам Википедии и статьи «Что такое Alexa Rank? Какие сведения собирает Alexa Toolbar?»)

 

Наукометрия — дисциплина, изучающая эволюцию науки через многочисленные измерения и статистическую обработку научной информации (количество научных статей, опубликованных в данный период времени, цитируемость и т.  д.).

Наукометрию применяют как абсолютную основу оценки выполнения и финансирования различных научных единиц (институтов, команд, индивидуумов).

Термин «наукометрия» был впервые введён В. В. Налимовым в монографии «Наукометрия: Изучение науки как информационного процесса» (1969), изданной совместно с З. М. Мульченко.

Существует точка зрения, что наука, как одна из наиболее интеллектуально требовательных и сложных человеческих деятельностей, не может быть просто оценена по универсальной «наукометрической» формуле. Тем не менее, подзадача измерения отдельных количественных характеристик научной информации в конкретных научных областях решается в той или иной степени. В настоящее время в мире, а в последние годы и в России, наукометрические данные (прежде всего, индексы цитирования и Хирша) широко используются для различного рода отчётности научных учреждений и отдельных учёных. Качество наукометрических оценок часто критикуется, особенно при их использовании в гуманитарных науках. Для получения более качественных оценок продуктивности или качества научных единиц используют различные процедуры экспертных оценок, из которых рецензирование является наиболее распространённой. Однако экспертные оценки, при их потенциально более высоком качестве по сравнению с наукометрическими оценками, имеют большую субъективность.

Наукометрия, наряду с библиометрией и вебометрикой, является составляющей частью инфометрии.

 

Индекс цитирования научных статей (ИЦ) — реферативная база данных научных публикаций, индексирующая ссылки, указанные в пристатейных списках этих публикаций и предоставляющая количественные показатели этих ссылок (такие как суммарный объём цитирования, индекс Хирша и др.)

Первый индекс цитирования был связан с юридическими ссылками и датируется 1873 г. (Shepard’s Citations). В 1960 году Институт научной информации (ISI), основанный Юджином Гарфилдом, ввёл первый индекс цитирования для статей, опубликованных в научных журналах, положив начало такому ИЦ, как «Science Citation Index (SCI)», и затем включив в него индексы цитирования по общественным наукам («Social Sciences Citation Index», SSCI) и искусствам («Arts and Humanities Citation Index», AHCI). Начиная с 2006 г. появились и другие источники подобных данных, например Google Scholar. Данный ИЦ выпускается в ограниченном варианте на CD, а полностью представлен в онлайн-проекте Web of Science.

С 2005 г. в Научной электронной библиотеке (НЭБ, eLIBRARY.RU) создаётся «Российский индекс научного цитирования» (РИНЦ). Цель проекта заключается в создании отечественной библиографической базы данных по научной периодике.

Индекс цитирования является одним из самых распространенных наукометрических показателей и применяется (для формальной оценки) в научных и бюрократических кругах многих стран. Альтернативами индексу цитирования являются экспертная оценка и оценка по импакт-фактору научных журналов.

Индекс цитирования подвергается критике как показатель, статистически недостоверный, зависящий от области знаний (у биологов и медиков больше, чем у физиков, а у физиков, соответственно, больше, чем у математиков), от суммарного количества специалистов по тому или иному разделу науки, от текущей популярности исследования (в «горячих» областях работы цитируются лучше, чем пионерские или выходящие за рамки текущей ситуации в науке), от географии журнальных публикаций, возраста исследователя, от возможной «накрутки», как «обезличенный» показатель и т. д.

В русском языке распространена особая интерпретация понятия «Индекс цитирования», подразумевающая под ним показатель, указывающий на значимость данной статьи и вычисляющийся на основе последующих публикаций, ссылающихся на данную работу.

Методы анализа цитирования относят к более общей группе методов анализа документопотока.

 

Индекс Хирша вычисляется на основе распределения цитирований работ данного исследователя. Согласно Хиршу:

Учёный имеет индекс h, если h из его Np статей цитируются как минимум h раз каждая, в то время как оставшиеся (Np — h) статей цитируются не более чем h раз каждая.

Иными словами, учёный с индексом h опубликовал h статей, на каждую из которых сослались как минимум h раз. Так, если у данного исследователя опубликовано 100 статей, на каждую из которых имеется лишь одна ссылка, его h-индекс равен 1. Таким же будет h-индекс исследователя, опубликовавшего одну статью, на которую сослались 100 раз.

В то же время (более реалистический случай), если среди публикаций исследователя имеется 1 статья с 9 цитированиями, 2 статьи (включая уже упомянутую статью с 9 цитированиями) с не менее чем 8 цитированиями, 3 статьи с не менее чем 7 цитированиями, …, 9 статей с не менее чем 1 цитированием каждой из них, то его h-индекс равен 5 (так как на 5 его статей сослались как минимум по 5 раз).

Иначе говоря, для определения индекса Хирша рассматриваемые статьи располагают в порядке уменьшения числа ссылок на них. Далее определяют статью, номер которой совпадает с числом её цитирований. Это число и есть индекс Хирша. Например, если индекс Хирша равен 20, то у автора есть по крайней мере двадцать статей, последняя из которых цитировалась не менее 20 раз. Общая цитируемость предыдущих более цитируемых 19 статей списка для определения индекса значения не имеет.

Обычно распределение количества публикации N(q) в зависимости от числа их цитирований q в очень грубом приближении соответствует гиперболе: N(q) ≈ const × q−1. Координата точки пересечения этой кривой с прямой N(q) = q и будет равна индексу Хирша.

Индекс Хирша был разработан, чтобы получить более адекватную оценку научной продуктивности исследователя, чем могут дать такие простые характеристики, как общее число публикаций или общее число цитирований. Индекс хорошо работает лишь при сравнении учёных, работающих в одной области исследований, поскольку традиции, связанные с цитированием, различаются в разных отраслях науки (например, в биологии и медицине h-индекс намного выше, чем в физике). В норме h-индекс физика примерно равен продолжительности его научной карьеры в годах, тогда как у выдающегося физика он вдвое выше. Хирш считает, что в физике (и в реалиях США) h-индекс, равный 10—12, может служить одним из определяющих факторов для решения о предоставлении исследователю постоянного места работы в крупном исследовательском университете; уровень исследователя с h-индексом, равным 15—20, соответствует членству в Американском физическом обществе; индекс 45 и выше может означать членство в Национальной академии наук США.

Индекс Хирша может вычисляться с использованием как бесплатных общедоступных наукометрических баз данных в Интернете, (например, Google Scholar, Elibrary.ru, ADS NASA), так и баз данных с платной подпиской (например, Scopus или ISI Web of Science); однако платные базы данных часто тоже приводят h-индекс учёных в свободном доступе. Следует отметить, что индекс Хирша, подсчитанный для одного и того же человека с использованием различных баз данных, будет, вообще говоря, различен — как и другие наукометрические характеристики, он зависит от области охвата выбранной базы данных. Кроме того, индекс Хирша может подсчитываться с учётом и без учёта самоцитирования; предполагается, что отбрасывание ссылок авторов на собственные статьи даёт более объективные результаты. Например, в рейтинге учёных Украины по индексу Хирша выполняется подсчёт по базе данных Scopus с отбрасыванием самоцитирования всех авторов (то есть цитирование статьи 1 в статье 2 не учитывается, если хотя бы один автор входит одновременно в список соавторов обеих статей).

 

Импакт-фактор (ИФ, или IF) — численный показатель важности научного журнала. С 1960-х годов он ежегодно рассчитывается Институтом научной информации (англ. Institute for Scientific Information, ISI), который в 1992 году был приобретён корпорацией Thomson и ныне называется Thomson Scientific) и публикуется в журнале «Journal Citation Report». В соответствии с ИФ (в основном в других странах, но в последнее время всё больше и в России) оценивают уровень журналов, качество статей, опубликованных в них, дают финансовую поддержку исследователям и принимают сотрудников на работу. Импакт-фактор имеет хотя и большое, но неоднозначно оцениваемое влияние на оценку результатов научных исследований.

Расчёт импакт-фактора основан на трёхлетнем периоде. Например, импакт-фактор журнала в 2014 году I2014 вычислен следующим образом: I2014 = A/B, где: A — число цитирований в течение 2014 года в журналах, отслеживаемых Институтом научной информации, статей, опубликованных в данном журнале в 2012—2013 годах; B — число статей, опубликованных в данном журнале в 2012—2013 годах.

В расчёте есть несколько нюансов: Институт научной информации исключает из расчётов некоторые типы статей (сообщения, письма, списки опечаток и т. д.), и для новых журналов импакт-фактор иногда рассчитывается только для двухлетних периодов.

ИФ журнала зависит от области исследований и его типа; из года в год он может заметно меняться, например, опускаясь до предельно низких значений при изменении названия журнала и так далее. Тем не менее, на сегодня ИФ является одним из важных критериев, по которому можно сопоставлять уровень научных исследований в близких областях знаний. Например, инвестор научного исследования может захотеть сравнить результаты исследователей для оценки перспектив своих инвестиций. Для этого и используются объективные численные показатели, такие как импакт-фактор. Поэтому на подобные измерения и существует спрос.

Положительные свойства импакт-фактора:

  • широкий охват научной литературы — индексируются более 8400 журналов из 60 стран;
  • результаты публичны и легкодоступны;
  • простота в понимании и использовании;
  • журналы с высоким ИФ обычно имеют более жёсткую систему рецензирования, чем журналы с низким ИФ.

В то же время импакт-фактор не идеален. Например, непонятно, насколько число цитирований показывает качество статьи. Кроме того, в журналах с длительным временем публикации оказываются статьи, которые ссылаются на публикации, не попадающие в трёхгодовой интервал. Действительно, в некоторых журналах время между принятием статьи и публикацией составляет более двух лет, таким образом, остаётся всего год на ссылки, которые учитываются в расчётах. С другой стороны, увеличение временного промежутка, в котором учитывается цитирование, сделает импакт-фактор менее чувствительным к изменениям.

Наиболее очевидные недостатки импакт-фактора следующие:

  • число цитирований, на самом деле, не отражает качество исследования, впрочем, как и число публикаций;
  • промежуток времени, когда учитываются цитирования, слишком короток (классические статьи часто цитируются даже через несколько десятилетий после публикации);
  • природа результатов в различных областях исследования приводит к различной частоте публикации результатов, которые оказывают влияние на импакт-факторы. Так, например, медицинские журналы часто имеют большие импакт-факторы, чем математические.
  • расчёт импакт-фактора непрозрачен и монополизирован.

Поскольку журналы с высоким импакт-фактором более привлекательны, в их редакции представляется большее количество интересных работ. Как результат более широкого выбора статей, представленных к публикации, такие журналы имеют (и используют) возможность ещё более повысить свой рейтинг. Побочным положительным эффектом является ужесточение рецензирования в журналах, получающих работ заведомо больше, чем можно опубликовать.

 

Page Rank (пэйдж-ранк) — один из алгоритмов ссылочного ранжирования. Алгоритм применяется к коллекции документов, связанных гиперссылками (таких, как веб-страницы из всемирной паутины), и назначает каждому из них некоторое численное значение, измеряющее его «важность» или «авторитетность» среди остальных документов. Вообще говоря, алгоритм может применяться не только к веб-страницам, но и к любому набору объектов, связанных между собой взаимными ссылками, то есть к любому графу.

Page Rank — это числовая величина, характеризующая «важность» веб-страницы. Чем больше ссылок на страницу, тем она «важнее». Кроме того, «вес» страницы А определяется весом ссылки, передаваемой страницей B. Таким образом, Page Rank — это метод вычисления веса страницы путём подсчёта важности ссылок на неё.

Надстройка для браузера Google Toolbar показывает для каждой веб-страницы целое число от 0 до 10, которое она называет Page Rank, или важностью этой страницы с точки зрения Google. Однако механизм его расчёта и что в точности обозначает это значение, не раскрывается. По некоторым данным, эти значения обновляются лишь несколько раз в год (в то время, как внутренние значения Page Rank пересчитываются непрерывно) и показывают значения Page Rank страниц на логарифмической шкале.

Некоторые оптимизаторы заметили следующую особенность получения PR: Page Rank выше 5 могут получить сайты, которые прошли испытание возрастом, то есть довольно старые, заслуживающие доверия проекты или же очень большие проекты с большим количеством посещений (зачастую это социальные сети).

Значения Page Rank (возможно, в сочетании с другими факторами) показываются также в виде зелёной полоски в каталоге сайтов Google Directory, где они используются для сортировки сайтов внутри разделов каталога.

 

Тематический индекс цитирования (тИЦ) — технология поисковой машины «Яндекс», заключающаяся в определении авторитетности интернет-ресурсов с учётом качественной характеристики — ссылок на них с других сайтов. ТИЦ рассчитывается по специально разработанному алгоритму, в котором особое значение придаётся тематической близости ресурса и ссылающихся на него сайтов. Данный показатель в первую очередь используется для определения порядка расположения ресурсов в рубриках каталога «Яндекса». Все ссылающиеся сайты должны быть обязательно проиндексированы Яндексом. При этом на соответствующих страницах каталога указываются лишь округлённые значения, которые помогают приблизительно ориентироваться в авторитетности ресурсов раздела.

Величина тИЦ определяется суммарным «весом» ссылающихся сайтов. На тИЦ не влияют сайты, на которых любой человек может проставить личную ссылку без ведома администратора ресурса. тИЦ имеет систему апдейтов (пересчётов показателей), его обновление сейчас (2015, февраль) происходит в среднем два раза в месяц. тИЦ со значением от 10 и до 200 имеет шаг шкалы, равный 10, до тИЦ 500 — шаг 25, до тИЦ 1000 — 50 и далее — 100.

При расчёте алгоритмом тИЦ не учитываются ссылки с форумов, блогов, досок объявлений, каталогов без модерации и других ресурсов, на которых любой пользователь может добавлять ссылки, которые никак не модерируются на сайте. Также при расчёте тИЦ не учитываются ссылки с сайтов, расположенных на бесплатных хостингах, если их нет в Яндекс.Каталоге. Т. е. описанные выше ссылки при расчёте весов алгоритмом Яндекса имеют значения нуль.

 

Alexa Rank – показатель, который не все воспринимают однозначно. Например, многим новичкам известно об этом показателе, однако очень часто они не придают ему особого значения, оказывая больше доверия другим параметрам и рейтингам. На самом же деле показатель Alexa Rank имеет существенный вес для сайтов и блогов.

В 1996 году компания Alexa Internet приступила к распространению своей панели инструментов — Alexa Toolbar. Этот тулбар занимался сбором некоторой статистики и позволял пользователям смотреть данные посещаемости интернет-ресурса. Alexa Toolbar не просто собирает статистику посещаемости сайта, а и передает её на сервер, на котором они обрабатываются.

Учитывая собранную статистику, все ресурсы выстраиваются в огромный список. Позиция в этом рейтинге блога или сайта и играет важную роль в формировании отношения к нему. Ведь чем выше посещаемость ресурса, тем он, вероятнее всего, интереснее и полезнее для пользователей. А это ставится во главу угла. По статистике можно узнать: место сайта в глобальном рейтинге, в рейтинге, присвоенном в RU, репутация сайтов со ссылками. Также к сведению имеются и графики с разбивкой на месяцы и недели.

Полноценная статистика открыта только для тех ресурсов, чей показатель Alexa меньше 100 тысяч. Это даёт возможность открывать более подробную информацию для более качественных ресурсов, которые собирают значительное количество посетителей, поэтому, вероятно, являются полезными.

В таком случае, доступными оказываются такие данные:

  • Traffic Rank;
  • процент поискового трафика;
  • длительность пребывания на сайте;
  • процент отказов;
  • число просмотров на пользователя;
  • оценочный процент просматриваемых страниц (вся Сеть);
  • оценочный процент посещений (вся мировая Сеть).

Следовательно, логично предположить, что панель Alexa Toolbar занимается сбором вышеуказанных сведений можно оценить поведенческий фактор сайта. Эти же показатели оказывают влияние на общий показатель Alexa Rank, демонстрирующий, на какой позиции размещён ресурс в мировом рейтинге среди сайтов Интернета.

Alexa Rank должен быть как можно меньше, тем лучше для сайта. На странице Alexa есть возможность зарегистрировать свой сайт на бесплатной основе, нужно лишь указать заголовок ресурса и его описание.

Свидетельством высокого качества веб-ресурса являются:

  • высокий показатель тИЦ
  • малый показатель Alexa Rank
  • размещение сайта в Яндекс.Каталоге, Каталоге Mail.ru и каталоге DMOZ.