Toolbox для исследователей: поиск источников и работа с ними

oy.jpeg

Вендоры академического ПО часто работают по принципу сотрудничества с образовательными учреждениями. Если ваша организация не приобрела интересующий вас продукт — организовать доступ к нему может быть тяжело.

Если и существуют индивидуальные планы, платить за них из собственного кармана готовы не все. С другой стороны, открытые или бесплатные продукты, созданные академиками, нередко страдают от неудобного дизайна и отсутствия поддержки. 

Можно попробовать много разных инструментов, прежде чем остановиться на рабочем варианте. Мы решили рассказать о наиболее заметных на Hacker News и в подборках на GitHub.
 

Поиск источников

DOAJ — курируемый каталог открытых научных журналов. В его базе — более 4 миллионов статей из 13 тысяч изданий, представляющих 130 стран. В ближайшем будущем площадка планируетзначительно увеличить количество гуманитарных, узкоспециализированных и неанглоязычных журналов. Что интересно, DOAJ предоставляют открытый API для автоматизации поиска по различным параметрам.

Peerus — помогает отслеживать свежие тематические публикации. Каждый день архив пополняется в среднем на 7 тысяч новых материалов. Peerus предоставляет интеграцию с университетскими прокси для загрузки материалов в один клик.

Crossref — открытый архив для публикации и поиска научных работ. Цель проекта — объединить ученых со всего мира на одной площадке, чтобы они могли совместно решать исследовательские задачи. На сайте уже собрали сто миллионов записей. Найти нужный контент можно по метаданным и ключевым словам.

SciRate — веб-приложение для поиска исследований на arXiv.org. Есть фильтры по научным областям и дате публикации. Дополнительно реализована система пользовательских оценок, на базе которой каждой статье присваивается рейтинг.

ArXiv Sanity Preserver — ускоряет поиск по arXiv.org с помощью алгоритмов машинного обучения. На стартовой странице отображаются самые новые материалы вместе с аннотацией. Искать публикации можно по ключевым словам — в поисковой строке, а также по похожим признакам — с помощью ссылки show similar, которая расположена в правом верхнем углу возле каждого документа.

OSF — открытый хаб для поиска и создания научных проектов. Тут можно структурировать исследовательскую работу — наладить контроль за версиями и добавить тэги, чтобы публикацию нашли другие люди. Платформа предполагает работу в облаке, что облегчает доступ к своим проектам. Наработками можно заниматься самостоятельно и делиться с членами сообщества.
 

Организация и цитирование

doi2bib — поисковой движок для работы со списками источников. В строку поиска вводится цифровой идентификатор объекта (DOI), и система отображает метаданные по найденному материалу для организации списка библиографии в формате BibTeX.

JabRef — приложение, которое оптимизирует работу с библиографическими списками в формате BibTeX. Сгенерированный список экспортируется в HTML, Docbook, BibTeXML, MODS, RTF, Refer/Endnote, OpenOffice и LibreOffice. Запустить утилиту можно на Java VM (версия 8), под Win, Linux и OS X.

Mendeley — менеджер библиографических списков и облачная платформа, которая позволяет получить доступ к файлам по проекту с любого устройства. Mendeley также предлагает рекомендательные возможности и инструменты для общения.

Docear — открытый инструмент для организации источников и построения научной работы на их основе. Пользователю нужно указать папку, которая будет играть роль «библиотеки» материалов по определенному проекту. Программа будет автоматически сканировать ее и добавлять найденные файлы в свою базу данных. Базу данных можно структурировать в виде «дерева», объединяя в одну ветку работы одной направленности. Комментарии и выделения в pdf-файлах автоматически импортируются и также отображаются в интерфейсе. Когда работа с источниками закончится, Docear поможет сформировать итоговый «mind map» и предоставит необходимые цитирования.

Duecredit — цитировать можно не только текст, но и код. Если ваша программа заимствует алгоритмы или методы из научных работ, эта библиотека поможет вам корректно на них сослаться. На данный момент библиотека доступна на Python.
 

Работа с документами

Sphinx — инструмент для «компиляции» документов в reStructuredText'е в HTML, ePub, Texinfo, man-страницы и plain-text. Поддерживает 50 расширений, автоматическую индексацию программных компонентов, создание ссылок для функций, классов, цитат, терминов и проч. Для новичков разработчики подготовили туториал и гайд для быстрого старта. Дополнительно предлагаем посмотреть следующие темы для работы в Sphinx: rtd — поддерживает как Sphinx, так и Read the DocsBootstrap — тема, где CSS-шаблоны и JavaScript-расширения фреймворка Bootstrap интегрировали с функционалом Sphinx: навигацией, иерархическим меню и проч.

Фото freddie marriage — Unsplash

Git-scribe — открытый инструмент, заточенный под создание электронных книг. Предоставляет функционал для структурирования текста, редактуры, вычитки, коррекции, совместной работы, а также публикации и экспорта в PDF, mobi и epub.

Jupyter Notebook — текстовой редактор со встроенной средой для интерактивного программирования на Python. Ранее был известен под именем iPython Notebook. Можно установить как локально, так и на VPS, существуют облачные версии продукта.

Texture — интерфейс этого редактора дает доступ к широкому ряду специализированных функций — таких, как создание графиков, формул и разных способов цитирования. Программа использует специальный файловый формат, который при желании можно «распаковать» и разобрать на составляющие. По словам создателей Texture, это позволяет издателям упростить процесс редактирования и рецензирования.
Метод «Помидора». Это — техника управления временем. Она призвана сделать вашу деятельность продуктивнее и приятнее с точки зрения трудозатрат. В конце восьмидесятых годов его сформулировал Франческо Чирилло. И вот уже несколько десятков лет он консультирует компании и помогает людям работать эффективнее. Суть техники следующая. На решение той или иной задачи из вашего списка дел отводятся фиксированные временные отрезки, сменяющиеся короткими перерывами. Например, 25 минут на работу и 5 минут на отдых. И так несколько раз или «помидоров» до выполнения поставленной задачи (важно не забывать делать более длительный перерыв на 15-30 минут после четырех таких циклов подряд. 

Такой подход позволяет добиться максимальной концентрации и не забывать о столь необходимых для нашего организма перерывах. Конечно, для столь простого способа организации времени разработано огромное количество приложений. Мы подобрали несколько интересных вариантов:
 

  • Pomodoro Timer Lite (Google Play) — таймер без лишних функций и рекламы.

 

  • Clockwork Tomato (Google Play) — более «тяжеловесный» вариант с настраиваемым интерфейсом, возможностями для анализа хода работ и синхронизации списков задач с сервисами вроде Dropbox (частично платное).

 

  • Productivity Challenge Timer (Google Play) — суровое приложение, которое поможет соревноваться в продуктивности с самим собой (частично платное).

 

  • Pomotodo (различные платформы) — здесь реализован список дел и таймер-помидор. Еще — синхронизация данных с разных устройств (Mac, iOS, Android, Windows, есть расширение в Chrome). Частично платное.

GTD. Это — подход, который предложил Дэвид Аллен. Его одноименная книга от 2001 года получила звание «лучшей бизнес-книги десятилетия» по версии Time, а также положительные отзывы от множества изданий и десятков тысяч читателей. Основная идея — перенести все запланированные дела на «внешний носитель», чтобы освободить себя от необходимости все запоминать. Списки задач следует разбивать на группы: по месту реализации — дом / офис; по срочности — сейчас / через неделю; и по проектам. Для быстрого изучения GTD есть неплохой туториал.

Как и метод «Помидора», техника GTD по умолчанию не требует каких-то определенных инструментов. Более того далеко не все разработчики приложений готовы платить за право ассоциировать свой продукт с данной методикой. Поэтому здесь имеет смысл ориентироваться на те to-do-менеджеры, которые покажутся лично вам наиболее удобными и подходящими для решения задач. Вот одни из наиболее популярных приложений: TodoistAny.do и Taskade (каждое из них предлагает бесплатную версию и платное использования дополнительных функций).

Майндмэппинг. В том или ином виде есть свидетельства использования графического метода категоризации информации еще в 3 веке н. э. Современные подходы к построению «ментальных карт» были изложены в конце 50-х и начале 60-ч годов прошлого века. Программы для майнмеппинга годятся для быстрого описания идей и простых концепций. Приведем пару примеров:
 

  • My Mind — сервис для создания ментальных карт в облаке (пользователю доступны разные шаблоны, например, графы или деревья, а также разные формы и цвета элементов, карты можносохранять как изображения).

 

  • MindMup — SaaS для командной работы с ментальными картами. Позволяет добавлять на карты изображения, видео и текстовые документы. В бесплатной версии можно сохранять карты до 100 Кбайт (для более «тяжелых» есть интеграция с Google Drive) и только в течение полугода.

 

  • GoJS mindMap — пример решения на GoJS, JavaScript-библиотеке для создания графиков и схем. Пример реализации на GitHub.

Franki Chamaki / Unsplash

Визуализация данных. Продолжаем тему и двигаемся от сервисов для визуализации идей и концепций в сторону более сложных задач: построения диаграмм, графиков функций и других. Приводим примеры инструментов, которые могут быть полезны: 
 

  • JavaScript InfoVis Toolkit — инструментарий для построения визуализаций в интерактивном формате. Позволяет строить графы, деревья, диаграммы и графики с элементами анимации. Примеры доступны здесь. Автор проекта, бывший инженер Uber и сотрудник Mapbox (проект с 500 млн пользователей), ведет детальную документацию для это инструмента.

 

  • Graph.tk — открытый инструмент для работы с математическими функциями и проведения символьных вычислений в браузере (еще доступен API).

 

  • D3.js — JavaScript-библиотека для визуализации данных с помощью объектных DOM-моделей в формате HTML-таблиц, интерактивных SVG-диаграмм и других. На GitHub вы найдете базовый гайд и список туториалов для освоения базовых и продвинутых возможностей библиотеки.

 

  • TeXample.net — поддерживает систему компьютерной верстки TeX. Кроссплатформенное приложение TikZiT позволяет строить и редактировать TeX-диаграммы с помощью макропакетов PGF и TikZ. Примеры готовых диаграмм и графов и форум проекта.

 

 
Банки данных помогают делиться результатами экспериментов и измерений, играют важную роль в формировании академической среды и в процессе развития специалистов.

Расскажем как о датасетах, полученных с помощью дорогостоящего оборудования (источниками этих данных нередко являются крупные международные организации и научные программы, чаще всего связанные с естественными науками), так и о государственных банках данных.

Data.gov.ru — хорошо знакомый хабражителям государственный проект в сфере открытых данных. Его московский аналог — Data.mos.ru. Из зарубежных вариантов стоит отметить Data.gov — площадку с открытыми данными от правительства США (единый каталог с фильтрами).

Университетская информационная система — проект МГУ, объединяющий базы со статистической информацией о социальном и экономическом положении в стране, а также публикации из государственных и научных источников. Данные берутся как из Росстата, так и из исследований, проведенных на базе МГУ. Ресурсом можно воспользоваться и без предварительной регистрации, но для полноценного доступа потребуется подать заявку.

Картографическая база Всероссийского геологического института им. Карпинского. Информация о природных ресурсах страны, собранная за время существования учреждения, была нанесена на цифровые карты. Интерфейс площадки позволяет сопоставить OpenStreetMap или Я.Карты с рядом доп. слоев с информацией о магнитном поле, полезных ископаемых и др.

GEOSS — портал для поиска данных наблюдения Земли со спутников и дронов различных типов. Архив ресурса собирают силами 90 организаций по всему миру. Чтобы найти интересующие сведения, достаточно выделить нужную область на карте или вбить в поиск ключевые слова.

MAST — архив, который финансируется NASA. Представленные данные собраны орбитальными телескопами — изучать и скачивать исследования можно с помощью поиска с фильтрами.

Фото Max Bender — Unsplash

OpenEI — платформа для поиска открытых данных об использовании энергии, в частности о возобновляемых энергоресурсах и новых технологиях в отрасли. Сайт организован по принципу вики — достоверность данных проверяется сообществом.

Experimental Nuclear Reaction Data (EXFOR) — библиотека, содержащая данные 22615 экспериментов с элементарными частицами. В комплекте с базами данных CINDA (Computer Index of Nuclear Reaction Data) и IBANDL (Ion Beam Analysis Nuclear Data Library) является одним из крупнейших банков данных по ядерной физике. Курируется Брукхейвенской национальной лабораторией в США, но содержит эксперименты со всего мира — включая Россию и Китай.

National Centers for Environmental Information — архив экологических данных. Здесь вы получите доступ к двадцати петабайтам океанических и геофизических данных, а также сведениям об атмосфере и прибрежных зонах. В частности, тут найдется информация о глубине океана, поверхности Солнца, записи об осадочных породах и спутниковые снимки. Для поиска нужного датасета можно воспользоваться каталогом.

ADS — репозиторий для поиска археологических данных под управлением Йоркского университета. Здесь есть старые и новые научные публикации, сведения о раскопках и артефактах. Для поиска предлагают три категории: ArchSearch, Archives и Library. В первой хранятся данные о раскопках и артефактах. Во второй — архив всех загруженных материалов. В третьей — публикации из журналов, книги и исследования. Есть опции поиска по странам, эпохам и типам объектов.

DRYAD — этот сервис помогает искать информацию для научных исследований по банку данных из 80 тысяч файлов. Исследования и статьи из банка можно использовать по лицензии CC0. Тематика материалов включает разные области знаний, однако большинство исследований связаны с медициной и компьютерными науками. Согласно внутренней статистике, в 2018 году пользователи сайта наиболее интересовались песнями китов, температурной толерантностью морских обитателей, и нейронной активностью в височной доле человеческого мозга.

В лаборатории «Перспективные наноматериалы и оптоэлектронные устройства» Университета ИТМО

GenBank — ДНК-библиотека, которую предоставляет Национальный центр биотехнологической информации США (NCBI), а также банки данных Европы и Японии. Доступен поиск по идентификаторам в специальном поисковом движке, с помощью инструмента BLAST или программным путем.

PubChem — база данных соединений и биопроб, которую содержит национальный центр биотехнологической информации США. Есть веб-интерфейс с расширенным поиском (пример про побочные эффекты воды). Данные распространяются на правах общественного достояния.

Protein Data Bank (RCSB PDB) — банк изображений белков и нуклеиновых кислот, история которого отсчитывается еще с 1971 года. Изначально разрабатывался, как внутренний проект Брукхейвенской национальной лаборатории, но в последствии превратился в крупнейшую международную базу данных своего типа. Большинство академических журналов, связанных с биохимией, обязуют авторов размещать на сайте полученные в ходе исследований белковые модели.

InterPro — база данных, объединяющая множество датасетов различных научных проектов. Включает в себя SMART — программу для анализа доменов в белковых последовательностях, основанную на технологиях машинного обучения и датасете из 1200 моделей. Поддерживается Европейским институтом биоинформатики.
 
https://habr.com/ru/company/spbifmo/blog/455850/