Нанотехнологическое сообщество Нанометр, все о нанотехнологиях
на первую страницу Новости Публикации Библиотека Галерея Сообщество Объявления Олимпиада ABC О проекте
 
  регистрация
помощь
 

Знания vs данные

Ключевые слова:  база данных, база знаний, мнение

Автор(ы): Набиуллин Александр Ринатович

Опубликовал(а):  Набиуллин Александр Ринатович

08 мая 2010

Все знают, что такое базы данных и как ими пользоваться. Созданы и постоянно расширяются самые разнообразные базы данных по любой тематике, от научной периодики до художественной литературы, от произведений искусства до справочников телефонных номеров.

Но это необходимое образование постепенно начинает терять свою былую значимость. Особенно это касается научной периодики. Главная проблема научных баз данных – это их избыточность. Любой запрос, выполненный по ключевым поисковым словам, выдаст столь огромное количество ссылок, что их просмотр становится отдельной работой. При этом многие материалы различаются столь незначительно, что трудно оценить полезность одного из них на фоне другого.

Вариантом выхода из этой ситуации является создание баз знаний или баз решений: систематезированной информации, которая обрабатывается по другим поисковым алгоритмам.

В чём главное отличие баз данных и баз знаний? В базе данных идёт поиск по ключевому слову, условно говоря – это ответ на вопрос “что?”. Например, задаём поисковый запрос “нанотрубки”. База данных выдаст всё, что касается этого запроса: и синтез, и окисление, и биоразложение, и спектральные характеристики. Число ссылок перевалит за тысячи. Можно задавать поиск по двум, трём и более ключевым словам. Это сократит вал ссылок, но может отсечь нужные. В базе знаний поиск проводится по нескольким вопросам, например: “Что?”, “Чем?”, “Как?”. При этом появляется следующий момент. В настоящее время написаны миллионы статей и патентов по всем областям знания. Но решений, отвечающих принципу базы знаний, только порядка 30 – 35 тысяч. Прирост числа решений, в отличие от прироста вала статей, протекает медленно. Подавляющее большинство статей – это лишь небольшие нюансы какого-либо решения. Например: закалка металла. Решение – что: металл, чем: охлаждающий материал, как: быстро. Это решение охватывает и все металлы и сплавы, и все типы закалочных жидкостей или газов, и все способы подачи хладагента. Далее из этого запроса может быть сформирована база данных, например, по типам хладагента (вода, масло, рассолы), вторая – по способам подачи материала (насосы, окунание детали, распыление раствора), третья – по маркам сталей. Может быть сформирована дополнительная база ссылок по второстепенным процессам: окислению поверхности металла, удалению нагара после закалки, специальным методам закалки. Поиск по базе знаний отличается от поиска по базе данных, для этого используются так называемые “ресурсы”. Ресурсы в понимании баз знаний – это материалы, катализаторы, поля и воздействия, приводящие к получению решения. Базы знаний могут обрабатывать также поисковые вопросы. Например, запрос “синтезировать сложный эфир” заданный в базу данных будет истолкован только по ключевому слову “сложный эфир”. В базе знаний можно также задать термины “синтез”, “распад”, “биоразложение” и семантические алгоритмы поиска по глаголам.

Теперь немного о минусах этой системы. Базы данных – это устоявшиеся правила формирования ключевых слов, единые (с небольшими вариациями) для всех научных изданий и унифицированные с алгоритмами поиска. Базы знаний необходимо будет создавать с нуля. Это немалая работа, ведь для того, чтобы вычленить ресурсы необходимо полное понимание процессов описанных в статье или патенте, что сильно усложняется при обработке мультидисциплинарных статей и защищённых от реинжиниринга патентов. Второй минус – базы знаний сейчас создаются “под инженеров”, то есть в основном прикладной направленности. Фундаментальные исследования, таким образом, в них не попадают.

Теперь немного о плюсах. Создание базы знаний – это великолепный процесс обучения. “Побочным продуктом” является значительное повышение уровня знаний разработчиков и получение высококлассных специалистов, умеющих решать поставленные задачи. Второй плюс – при определённом алгоритме формирования запросов база знаний может быть источником новых решений, не описанных и ещё не созданных. Например, при запросе по закалке металла база знаний может выдать список ресурсов, которые обладают необходимыми свойствами (температура, текучесть) и подтолкнуть к созданию новых решений, таких как закалка в расплавах полимеров, закалка с одновременным окислением поверхности, точечная и неравномерная закалка. Третий плюс. Вероятно, многие даже не задумывались, что суть процессов изложенных в научной статье или патенте формулируется не более чем в сотне слов. В то же время, объём статей исчисляется минимум несколькими страницами, а патентов – до нескольких сотен страниц. Переработка материала под систему базы знаний позволит в дальнейшем не тратить время на чтение малозначащих подробностей и отличий от аналогов, непременно описываемых в исходных материалах.

Небольшой итог. Базы знаний исключительно полезны для прикладных разработок, особенно на передовых рубежах науки. Они позволяют получать готовые решения для той или иной задачи. Их создание в то же время, сильно повышает профессиональный уровень разработчиков и позволяет получать отличных специалистов.



Средний балл: 7.2 (голосов 4)

 


Комментарии
А чем собственно поиск по 'author", "key words", "journal" концептуально отличается от "что", "чем", "как"...На мой непросвещённый взгляд, базы данных нужно систематизировать для начала по-человечески.
Вот возьмём тот же портал Нанометр, у которого беда с поиском. Надо сделать расширенный поиск, где выбрать требуемую рубрику, ввести ключевые слова и прочее, и тогда будет выпадать на 3 страницы где указано слово "нано", а одна-две ссылки (на наноазбуку, например). Возможно, я плохо понимаю русский или изложение автора, однако рискну предположить, что база знаний - грамотно переработанная свалка, точнее база данных, так?!
Автор - это автор. Перед началом поиска нужно знать его работы
журнал - это журнал. Условие отсечения ссылок.
Ключевые слова.
Во-первых - это существительные, причём чаще всего описывающие материальные объекты. Глаголов обычно не используют.
Во-вторых - поиск идёт по принципу совпадения слов. Меняешь окончание и всё. Слово уже не ищется.
В общем, ключевые слова - это ответ на вопрос "что?".
База знаний работает по логическому запросу (не принцип совпадения!) с одновременным учётом нескольких разных параметров.

----
однако рискну предположить, что база знаний - грамотно переработанная свалка, точнее база данных, так?!
----

Не так
База знаний намного компактнее чем база данных, так как технических решений сравнительно (со статьями) немного.
т.е. "база знаний" есть ни что иное как искуственная нейронная сеть?.. решающая задачу классификации массива данных и синтеза "новых решений" с учетом входных данных веса которых соответствуют правилам языка/в первом приближении/... лучше в интерактивном варианте, веса доп.корректируются путем специализированной оценки, основанной на используемом интерпретаторе запрос/вопрос -ответ .. :))
В общем, пожалуй так.
Добавлю только что правила, описывающие массив данных, несколько отличаются от принятых для классических баз данных.
(1) "кто владеет информацией, тот владеет миром"
(2) народ/люди/ не владел, не владеет и не будет владеть миром
из (1) и (2).. такого поиска для широкого круга=для "народа".. думаю не будет .. по крайней мере в ближайшей перспективе :)))
Создать базу знаний не столь уж сложно

Всего-то надо сотня-полторы специалистов, два-три года работы и финансирование.
Кстати, даже не безумно дорого получается. Создание базы в 10000 записей (что на самом деле весьма немало) обойдётся примерно в 15-20 млн рублей
Александр Ринатович, не вопрос в сложности создания... конечная цель "базы знаний"- "Что? Чем? Как?",т.е. поиск нужной информации(отсеивание мусора), в том или ином виде реально реализован.. это лежит на поверхности...только применяется он "узким кругом" специалистов..;)

по поводу "базы знаний", полагаю перспективнее разрабатывать алгоритм поиска (про нейронные сети, основанные на неформализованных..нелинейных алгоритмах), чем перелопачивать груду инфы и делать базу, в которую все равно не "впишешь" всё "что есть"./вопрос спорный.. о том "что есть" и "что надо"../

а вот незаменимость "базы знаний" представляется при решении задач прогноза..т.е. "прикладных разработок".. ))

p.s. в общем то говорим о "слоне" которого не видели, но каждый как то его представляет.. а значит он нужен.. это главное :))
---
в общем то говорим о "слоне" которого не видели,
---

Я видел И даже участвовал в создании. Но там была именно переработка материала (патентов) под новые правила и создание базы на их основе.

Как составить корректный алгоритм поиска знаний для нынешних баз данных я не представляю (хотя это, наверное, можно сделать)
"поиска знаний для нынешних баз данных я не представляю"

структурализм + герменевтика + нейронные сети

мне видится так.. но от "видится" до "делается"...:)
Увы, ничего не сказано о том, что базы знаний возникли не на пустом месте...
Полностью солидарен с Натальей Алексеевной

Для того чтобы оставить комментарий или оценить данную публикацию Вам необходимо войти на сайт под своим логином и паролем. Зарегистрироваться можно здесь

 

Наногоры и нанохолмы
Наногоры и нанохолмы

Периодическую таблицу Менделеева опять улучшили: наночастицы пятивалентного плутония
Соединения шестивалентного плутония в щелочной среде могут привести к кристаллизации фазы (NH4)PuO2CO3, которая стабильна в течение нескольких месяцев и содержит пятивалентный плутоний. Получение новой фазы пятивалентного плутония фундаментально интересно и открывает новые возможности в разработке более эффективных технологий переработки радиоактивных отходов.

MAPPIC 2019. Второй день
15 октября 2019 года прошел второй день I Московской осенней международной конференции по перовскитной фотовольтаике (Moscow Autumn Perovskite Photovoltaics International Conference – MAPPIC-2019). В сообщении приведены темы докладов и небольшой фоторепортаж.

MAPPIC 2019. Первый день
14 октября 2019 года успешно открылась I Московская осенняя международная конференция по перовскитной фотовольтаике (Moscow Autumn Perovskite Photovoltaics International Conference – MAPPIC-2019). В сообщении приведены темы докладов и небольшой фоторепортаж.

Лекция про Дмитрия Ивановича и Наномир на Фестивале науки
Е.А.Гудилин и др., Фестиваль науки
В дни Фестиваля науки «NAUKA 0+» на Химическом факультете МГУ ведущие ученые познакомили слушателей с самыми современными достижениями химии. Ниже приводится небольшой фоторепортаж 1 дня и расписание лекций.

Как правильно заряжать аккумулятор?
Д. М. Иткис
Химик Даниил Иткис о том, как правильно заряжать аккумуляторы гаджетов и почему телефон выключается на холоде

Постлитийионные аккумуляторы
В. А. Кривченко
Физик Виктор Кривченко о перспективных видах аккумуляторов, фундаментальных проблемах в производстве литий-серных источников тока и преимуществах постлитийионных аккумуляторов

Технонано

Технопредпринимательство - идея, которая принесет свои плоды при бережном культивировании и взращивании. И наша наноолимпиада, и Наноград от Школьной Лиги РОСНАНО, и проект Стемфорд, и другие замечательные инициативы - важные шаги на пути реализации этой и других идей, связанных с развитием новых высоких технологий в нашей стране и привлечением молодых талантов в эту вполне стратегическую область. Ниже приведен небольшой опрос, который позволит и нам, и вам понять, а что все же значит этот модный термин, и какова его суть.

Технопредпринимательство на марше

Мы традиционно просим вас высказать свои краткие суждения по вопросу технопредпринимательства и проектной деятельности школьников. Для нас очевидно, что под технопредпринимательством и под проектной деятельностью школьников каждый понимает свое, но нам интересно ваше мнение, заодно вы сможете увидеть по мере прохождения опроса, насколько оно совпадает или отличается от мнения остальных. Ждем ваших ответов!

О наноолимпиаде замолвите слово...

Прошла XII Всероссийская олимпиада "Нанотехнологии - прорыв в Будущее!" Мы надеемся, что нам для улучшения организации последующих наноолимпиад поможет электронное анкетирование. Мы ждем Ваших замечаний, пожеланий, предложений. Спасибо заранее!



 
Сайт создан в 2006 году совместными усилиями группы сотрудников и выпускников ФНМ МГУ.
Сайт модернизирован для ресурсной поддержки проектной деятельности учащихся в рамках ГК 16.647.12.2059 (МОН РФ)
Частичное или полное копирование материалов сайта возможно. Но прежде чем это делать ознакомьтесь с инструкцией.