Что такое google books ngram viewer
Перейти к содержимому

Что такое google books ngram viewer

  • автор:

Как Джордж Вашингтон стал эмо: Google N-grams в ТикТок трендах

Если вы были в ТикТок, то знаете, что тренд там можно сделать из чего угодно. Пару месяцев назад сотни тысяч просмотров начали набирать записи экрана с сайта Google Books Ngram Viewer, показывающем популярность слова в определенный период времени. Пользователи находят слово «эмо» в 1803 году или упоминание «Звёздных войн» — в 1696

Что такое Google Ngram Viewer

В цифровой библиотеке Google Books хранятся миллионы книг. С помощью сервиса Google Ngram Viewer можно исследовать статистику употребления слов в корпусах на разных языках: например, сравнить формы английских глаголов или популярность устойчивых выражений.

Тренд ТикТока с Google Ngram Viewer описывает ситуацию, когда пользователь ищет в корпусе, казалось бы, современные понятия, а находит их упоминание в книгах XVIII века. Причин тому много: от банальной многозначности слов до проблем в самом корпусе — например, некорректном распознавании текста. Ниже можно увидеть примеры из ТикТоК и наши комментарии к ним.

Emo: цитаты из латыни и опечатки

Несмотря на то, что тексты в корпусе относятся к английскому языку, это не значит, что они полностью написаны на английском. Там есть и учебники латыни, где “emo” означает «покупаю». Кроме того, в некоторых текстах неверно распознаны переносы слов, например “emo-llient”, т.е. «смягчающий».

Tesla: многозначность

Шутка удалась: некоторые из комментаторов всерьёз пытались объяснить автору ТикТока, что Тесла — это не только электромобиль, но и физик. Машина, впрочем, на фото смотрится эффектно.

Популярная культура в истории

ТикТок тренды на тему «современная массовая культура двести лет назад» — отдельный вид искусства. Просто взгляните на Росомаху с этим воротником.

Всё просто — слово “marvel” переводится как «чудо» и часто встречается, например, в религиозных текстах.

В 1696 год случайно попала книга 2009 года — бывает и такое.

Другой пример “star wars” в корпусе связан с проблемами оцифровки: выше скриншот с этим словосочетанием в тексте 1681 года. Разобрать почти невозможно.

Здесь опять проблема распознавания текста. Например, через GTA пишется слово “octavo” в каталоге 1743 года.

Поэкспериментировать самим можно на сайте Google Ngram Viewer. Например, если в поиске среди русских книг ввести слово «эмо» виден пик в 1820-х — и это не из-за распространения романтизма, а всего лишь частые проблемы с оцифровкой.

Как использовать инструмент просмотра Ngram в Google Книгах

Ngram Viewer

Ngram, также называемый N-граммой, представляет собой статистический анализ текста или речевого содержимого, чтобы найти n (число) какого-либо элемента в тексте.

Элемент поиска может быть любым, включая фонемы, префиксы, фразы и буквы. Хотя Ngram неясен за пределами исследовательского сообщества, он используется во многих областях и имеет много последствий для разработчиков, которые кодируют компьютерные программы, которые понимают естественный разговорный язык и реагируют на него .

В случае средства просмотра Google Книг Ngram анализируемый текст взят из огромного количества книг в открытом доступе, которые Google отсканировал, чтобы заполнить свою поисковую систему Google Книги . Для программы просмотра Google Книг Ngram Google относится к тексту, который вы собираетесь искать, как к корпусу . Ngram Viewer агрегирует по языкам, хотя вы можете отдельно анализировать британский и американский английский или объединять их вместе.

Ngram Viewer

Как работает Ngram Viewer

Перейдите в средство просмотра Google Книг на Ngram по адресу books.google.com/ngrams .

Введите любую фразу или фразы, которые вы хотите проанализировать. Разделяйте каждую фразу запятой. Google предлагает «Альберт Эйнштейн, Шерлок Холмс, Франкенштейн», чтобы вы начали.

В поисках NGram Viewer элементы чувствительны к регистру, в отличие от поисковых запросов Google.

Выберите диапазон дат. По умолчанию от 1800 до 2000.

Выберите корпус. Вы можете искать тексты на иностранных языках или тексты на английском языке, и в дополнение к стандартным вариантам вы можете заметить такие записи, как «Английский (2009)» или «Американский английский (2009)» внизу списка. Это старые версии, которые Google обновил с тех пор, но у вас может быть причина для сравнения со старыми наборами данных. Большинство пользователей могут игнорировать их и сосредоточиться на самых последних корпусах.

Установите уровень сглаживания. Сглаживание относится к тому, насколько гладким является график в конце. Наиболее точное представление отражает уровень сглаживания 0, но этот параметр может быть трудным для чтения. По умолчанию установлено значение 3. В большинстве случаев вам не нужно настраивать его.

Нажмите Поиск много книг .

Используя Google Ngram Viewer, вы можете углубиться в данные. Если вы хотите искать глагол fish вместо существительного fish , вы можете сделать это с помощью тегов. В этом случае вы будете искать fish_VERB.

Google предоставляет полный список команд и другой расширенной документации для использования с Ngram Viewer на своем веб-сайте.

Что показывает Ngram?

Google Книги Ngram Viewer выводит график, который представляет использование определенной фразы в книгах во времени. Если вы ввели более одного слова или фразы, каждое из них представлено цветной линией, чтобы контрастировать с другими поисковыми терминами. Это похоже на Google Trends , только поиск охватывает более длительный период.

Тематическое исследование

Рассмотрим пример с уксусными пирогами. Они упоминаются в Домике Лоры Ингаллс Уайлдер в сериале « Прерия ». Изучение с помощью веб-поиска Google, чтобы узнать больше о пирогах с уксусом, показывает, что они считаются частью американской южной кухни и действительно сделаны с уксусом. Они обращают внимание на времена, когда не у всех был доступ к свежим продуктам в любое время года, но так ли это на самом деле?

Поищите в Google Ngram Viewer уксусный пирог, и вы увидите некоторые упоминания о пироге как в начале, так и в конце 1800-х годов, много упоминаний в 1940-х годах и растущее число упоминаний в последнее время. Однако с уровнем сглаживания 3 вы видите плато над упоминаниями 1800-х годов. Поскольку за это время было опубликовано не так много книг, а поскольку данные настроены на сглаживание, изображение искажается. Вероятно, только одна книга упоминала пирог с уксусом, и он был усреднен, чтобы избежать всплеска. Установив сглаживание на 0, вы можете видеть, что это именно тот случай. Пик центрируется в 1869 году, и есть еще один пик в 1897 и 1900 годах.

Маловероятно, что в остальное время никто не говорил о пирогах с уксусом: вероятно, были повсюду рецепты, но люди не писали о них в книгах, и это является важным ограничением поисков Ngram.

Что такое Google Ngram?

В недрах Google Labs на свет родился мощный сервис NGram, который перебирает исполинскую базу оцифрованных книг Google и позволяет выявить частоту употребления слов и фраз в книгах в разные исторические периоды.
Google Ngram Viewer: Сталин популярнее Ленина, а слово Интернет появилось в конце 19 века.
таковы расчеты сервиса Books Ngram Viewer — новой филологической онлайн-игрушки от корпорации Google.
Крупнейший мировой поисковик прогнал через свои фильтры все литературное наследие человечества за последние 200 лет. Что из этого получилось, рассказывается в очередном выпуске научно-популярной программы «Инфомания» , которая выходит на канале СТС.
«Откуда в 19-м веке слово „интернет“?» — недоумевают пользователи нового сервиса Books Ngram Viewer, которые обнаружили первые сообщения о глобальной Сети в далеких 1890-х годах. «В любой системе есть погрешности» , — честно отвечают разработчики Google. Впрочем, они тут же добавляют, что у слова «интернет» имеется одно устаревшее значение и предлагают пользователям его найти. Праздные блоггеры бьются над этой задачей уже больше месяца. Лингвистическую программу на платформе поисковика Google запустили гарвардские ученые. Они закачали на сервер около 5 миллионов книг, опубликованных за период c 1800 по 2009 год. Любой желающий теперь может проследить, с какой частотой определенные слова упоминались на протяжении веков.
Поиск доступен на семи языках: английском, французском, немецком, испанском, иврите, русском и упрощенном китайском. Особое место отведено английскому — он здесь подразделяется на «общий» , «художественный» , «британский» и «американский» . Система позволяет проводить сопоставительный анализ — к примеру, Ленин упоминается в литературе на русском языке гораздо чаще, чем Сталин, в том числе и после 2000 года, что легко можно проследить на графике, если ввести эти фамилии через запятую в строку поиска. По этой причине сервис привлек внимание серьезных исследователей — человеку и целой жизни не хватит, чтобы проанализировать 5 миллионов источников, а компьютерная программа проделывает эту операцию за несколько секунд. Под онлайн-сервис в Гарварде придумали и целую науку, которую решили назвать «культуромикой» . Дело в том, что отсканированные книги в основном посвящены вопросам культуры и общества, здесь нет технической литературы. Измерять частоту упоминаний ученые предложили в «миллидарвинах» — согласно графикам Books Ngram Viewer, по популярности Дарвин обгоняет самого Эйнштейна.
Для основной массы пользователей интернета новая услуга от Google стала очередным развлечением, помогающим развеять тоску офисных будней. К примеру, многие юзеры принялись забивать в поиск названия популярных социальных сетей. Английский язык более гибкий и восприимчивый к нововведениям, чем русский: слово Facebook, например, стало нарицательным и даже образовало устоявшуюся глагольную форму, официально включенную в онлайн-словари. «She learned that her current employer Facebooked her before hiring her» — «Она узнала, что нынешний работодатель профэйсбучил ее, прежде чем взять на работу» , — гласит пример употребления в одной из словарных статей.

Google Books Ngram Viewer как инструмент для ретроспективных исследований

Активность использования термина "transistor" c 1800 года и до наших дней

Активность использования термина «transistor» c 1800 года и до наших дней

Для принятия правильных решений в различных жизненных ситуациях очень полезно иметь адекватную модель мира. В частности, бывает полезна возможность сопоставить популярность различных предметов и оценить динамику этой популярности. Например, вы издатель, и вам предлагают перевести и издать книгу по языку программирования Fortran. Его ведь всё ещё используют, издаётся англоязычная литература, а у нас давно ничего не выходило. Или, скажем, по языку Julia. Книжек по актуальной версии языка на русском ещё нет. Можно взять какую-нибудь самую популярную английскую, перевести, издать и сорвать куш. В подобных ситуациях полезно иметь возможность подглядеть, какова популярность этих языков относительно других и какова динамика этой популярности. Пример с языками программирования приведён просто для наглядности, подобные задачи возникают и при анализе популярности различных программ, технологий, научных концепций.

Пример с языками программирования удобен ещё и потому, что для них имеются различные официальные рейтинги. Этих рейтингов много, они используют разные способы оценки популярности и естественно дают различающиеся результаты. Эти результаты к тому же подвержены достаточно сильному случайному дрейфу. Если посмотреть результаты разных рейтингов на какую-то конкретную дату, то создаётся впечатление, что мы ничего толком не знаем, и мир непостижим. Но ситуация немного меняется, если рассмотреть всё в динамике. В динамике становится видно, где дрейф, а где проглядывают какие-то реальные закономерности.

Одним из способов составления рейтингов популярности является анализ частоты поисковых запросов. Такой способ при всей его кажущейся наивности, при разумном использовании позволяет получать довольно устойчивые оценки. На этом, например, построен рейтинг языков программирования PYPL. Рейтинг строится на основе анализа запросов для поиска мануалов по тем или иным языкам. Но никакой общепит не сравнится с авторской кухней. Иногда хочется чего-то особенного, чего в существующих рейтингах может не быть. Например, рейтинг PYPL не включает в себя Fortran. Да, этот язык – явно не лидер, хотя из других рейтингов известно, что он стабильно входит в верхние 50 строчек по популярности. Не проблема. Аналогичную картинку можно получить самостоятельно, не прибегая к помощи сторонних агентств, используя инструмент Google Trends. Вот, например, если посмотреть в динамике, можно увидеть хвост популярности Fortran (синий) и для масштаба относительно стабильный, хотя и немного снижающийся спрос на Matlab (красный). У Matlab, кстати, отчётливо видны сезонные пики два раза в год. По всей видимости – перед зимней и весенней сессиями:

Глядя на такие картинки, невольно обращаешь внимание на левую границу, глубже которой невозможно копнуть, а именно на 2004 год. Поскольку анализируются запросы в Google, заглянуть в более древние периоды истории с помощью этого инструмента не получится. А ведь так любопытно взглянуть на период, когда Fortran был ещё на пике популярности. Но увы, наша «машина времени» туда попасть не может. Она была запущена на полную мощность только в 2004 году и все более ранние периоды для неё закрыты.

Из-за отсутствия информации по каким-либо другим инструментам ретроспективного поиска, я всегда думал, что возможность заглянуть в более ранние периоды отсутствует. Но, как оказалось, такая возможность имеется, причём инструмент предлагает всё та же компания Google. Называется он – Google Books Ngram Viewer. Это инструмент статистического анализа информации, содержащейся в массиве книг из Google Books. В некотором смысле – это гениальное решение, ведь печатные книги существуют уже несколько столетий, и имея их полные оцифрованные тексты, вполне можно использовать их как источник статистической информации о прошлых исторических периодах. Теперь хотя бы понятно, зачем Google создал и поддерживает проект Google Books. Общая цель здесь та же, что и поиска, и у сервисов: владение информацией. Но, к счастью, с нами готовы поделиться какой-то её частью.

Что предлагается

Предлагается поисковая строка, куда нужно вводить запрос. Вводим запрос – получаем график популярности данного слова в книгах. Начиная с 1800 (!!) года и до нашего времени. Поисковые запросы можно вводить через запятую – тогда мы получим несколько линий на графике, соответствующих данным понятиям, и сможем оценить их динамику. Вот, например, тот же Fortran:

По умолчанию поиск чувствителен к регистру, то есть Fortran (написание названия для современных версий языка) и FORTRAN (написания названия для старых версий) – это будут два разных слова. Можно выключить чувствительность к регистру, либо использовать арифметические выражения над введёнными поисковыми запросами, то есть написать FORTRAN+Fortran:

Инструмент статистический, не абсолютно точный, про это не стоит забывать. Например, для того же Фортрана мы увидим какие-то микровсплески ещё до публикации первой версии языка:

Также, как и упоминание о транзисторах ещё до их официального появления:

Любопытно было бы иметь возможность увидеть эти «аномальные» публикации, они могут представлять интерес. Но пока что такой возможности не предусмотрено.

Если не придираться к деталям, а смотреть какие-то общие тенденции, то в целом всё выглядит довольно реалистично. Например, можно увидеть, как упоминание Fortran в литературе сменяется на MATLAB:

Поскольку поиск по умолчанию выдаёт все вхождения заданного слова, забота о корректном учёте синонимов лежит на пользователе. В некоторых случаях провести такое разделение невозможно. Так, например, поиск просто по слову “chip” очевидно выдаёт слишком много случаев, когда слово употреблялось в других значениях, а поиск по слову “ microchip”, хотя и явно точнее, не учитывает всех вариаций наименования предмета и не может использоваться для корректного количественного сопоставления с другими сущностями:

Например, если мы решим таким образом сопоставить популярность в литературе таких слов как “Fortran+FORTRAN”, “MATLAB” и “Julia”, то для первых двух это явно будет название языка программирования, а в последнем случае – в первую очередь что-то совсем другое, включая различные имена собственные:

В этой смеси выделить именно язык программирования Julia проблематично. Введя дополнительное слово, мы сильно урежем допустимые вариации его использования, а не вводя – получим неразделимую смесь. На данном этапе это неустранимое ограничение данного сервиса. В будущем конечно хотелось бы иметь возможность поиска понятий с учётом их смысла, примерно как в Google Trends. Искренне надеюсь, что прямо сейчас ведётся работа в этом направлении, просто результат ещё недостаточно хорош для показа.

Но всё-таки, даже с учётом различающейся вариативности контекстов сравниваемых слов, какую-то картину всё же можно получить. Например, сравнивая выдачу по таким понятиям, как “electric”, “software” и “experiment” мы увидим чёткую картину по использованию понятия “software”, которое не применялось до середины XX века, немного размытую картину по понятию “electric” – поскольку оно могло использоваться в различных смыслах и контекстах, вплоть до художественной литературы, и примерно одинаковый уровень для “experiment”. Видимо, эксперименты производили и обсуждали на страницах книг с 1800 года и до наших дней с примерно одинаковой частотой. В последние десятилетия – даже чуть реже, чем раньше:

Гораздо более чёткую картину даёт использование уникальных слов-маркеров, для которых известно, в связи с чем и в какое время их могли употреблять, а в какое – ещё не могли. Таким образом, кстати, можно ещё и проверить адекватность выдачи. Вот пример для “Stalingrad”, “Sputnik” и “perestroyka”:

Ну что же, все пики вроде бы на своих местах. Интереса к перестройке в мировой литературе было явно меньше, чем к первым запускам спутников Земли. Похоже на правду.

Если взять какие-то более размытые понятия, например, “genetic” и “neural”, то даже несмотря на какой-то шум от возможного использования этих слов в других смыслах, виден явный подъём с середины XX века:

Интересно также оценить отражение вклада отдельных личностей в совокупность мировых печатных материалов. Но получится это далеко не со всеми деятелями, а только с имеющими какие-то необычные фамилии и не имеющими других известных однофамильцев. Вот, например, вклад Циолковского (одного из основоположников космонавтики и выдающегося философа-космиста) и Вистелиуса (основоположника математической геологии). Циолковский явно имеет бо́льшую известность и цитируемость в западной литературе:

Но даже если взять какую-то уникальную персоналию, то выдача будет зашумлена всем, что потом назвали в её честь. Вот пример по ключевому слову “Lomonosov”:

Явно в начале здесь вклад самого Михаила Васильевича (наверное, какие-то ссылки на его работы), потом названного в честь него университета, а потом ещё города и суперкомпьютера.

Для кириллических понятий можно осуществлять поиск по массиву русскоязычной литературы, но поскольку в Google Books пока что не очень большой её охват, а также есть риск, что распознавание текста выполнено не настолько качественно, как и для англоязычной, данную возможность пока скорее стоит рассматривать как демо-версию будущих возможностей сервиса.

По настройкам

Можно сужать период охвата, можно менять набор текстов, по которым ведётся поиск, включать-выключать чувствительность регистра, менять степень сглаживания графиков. Есть некоторые выражения для поисковой строки, позволяющие реализовать некоторые специальные приёмы при поиске, наподобие арифметических действий над запросами. Есть и другие, они описаны на специальной странице.

Можно задавать только часть слова или искать по корням, учитывая его различные формы, можно указывать, какой частью речи должно являться искомое слово, осуществлять логические операции, чтобы отфильтровывать что-то лишнее. В принципе, возможности сервиса достаточны даже для каких-то лингвистических исследований, например, для анализа изменений норм языка.

Какие на данный момент есть проблемы

Не учитывается контекст запроса. С одной стороны это хорошо, заставляет исследователя самого строить модель возможного использования слова. Поиск идёт более осознанно. С другой стороны, некоторые сущности без контекста разделить просто нельзя, то есть сейчас некоторые операции анализа просто нельзя выполнить, так как поиск по слову выдаёт неразделимую смесь нескольких понятий.

Нельзя перейти к конкретным текстам. И просто ради любопытства, и для проверки качества распознавания и поиска было бы интересно увидеть аномальные встречи заданного слова, когда его по идее ещё не должно было возникнуть. Возвращаясь к тому же Фортрану – увидеть его упоминания до выхода первой версии.

Есть риск смещённости оценок из-за возможной неоднородности охвата оцифрованной литературы. Например, если имеется неоднородность по охвату различных областей знания, языков, исторических периодов. Было бы интересно увидеть какое-то процентное соотношение базы поиска к общей информации, хранимой в данный момент всеми библиотеками.

В принципе невозможно искать неразделимые термины и персоналии. Например, если будем искать по фамилии «Толстой», то очевидно встретим след как от Льва Толстого, так и от Алексея Толстого, а также других выдающихся носителей этой фамилии. И начиная с какой-то даты их уже невозможно будет разделить. Для идеальной поисковой системы будущего, поисковая машина должна не просто учитывать контекст, а понимать запрос.

Какие промежуточные выводы можно сделать

Объекты с уникальными и неизменными именами гораздо проще найти и оценить. Создавая новый язык программирования, программу или какое-то другое произведение давайте ему уникальное имя и старайтесь потом не менять.

Носители уникальных фамилий находятся в более выигрышном положении в плане обнаружения их заслуг (и в проигрышном – в плане маскировки среди однофамильцев). Если у вас неоднозначно записываемая фамилия, то чем раньше вы определитесь с её эталонным написанием, тем проще будет потом найти ваши работы.

Практика наименования одного объекта в честь другого в долгосрочной перспективе может приводить к сложности оценки вклада как первого, так и второго. По крайней мере, при использовании поисковых машин, не умеющих понимать контекст вопроса.

На этом всё. Надеюсь, данная заметка была полезна. Инструмент работает, и при осознанном использовании позволяет лучше понимать мир и его динамику. При не очень осознанном использовании может просто использоваться как игрушка. Но игрушка всё-таки развивающая. Почему бы и нет.

В ходе работы пришла пара интересных мыслей:

Наверное, примерно так и должна быть устроена мировая библиотека будущего. Фактически, это уже её прототип.

Сервис позволяет оценивать вклад отдельных понятий в общую совокупность всех записанных человеческих текстов, то есть фактически когда-либо высказанных мыслей представителей нашей цивилизации. Но как назвать эту совокупность?

Добавить комментарий

Ваш адрес email не будет опубликован.