Форум ИГШ

Старое место
Текущее время: 17 ноя 2018 16:47

Часовой пояс: UTC + 3 часа




Начать новую тему Ответить на тему  [ Сообщений: 184 ]  На страницу Пред.  1, 2, 3, 4  След.
Автор Сообщение
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 17 дек 2010 21:19 
Не в сети
Аватара пользователя

Зарегистрирован: 11 апр 2010 16:25
Сообщения: 12779
al_mt писал(а):
"Делегирование интеллекта".


есть такое, "Усилители интеллекта" :
IA - Intellect Amplifier, в противоположность AI, Artifical Intelligence.

http://en.wikipedia.org/wiki/Intelligence_amplification

al_mt писал(а):
Софт делегирующий интеллект должен быть рассчитан на лиц с минимально-возможным для homo sapiens интеллектом.

=>
Цитата:
Weak human + machine + better process was superior to a strong computer alone and, more remarkably, superior to a strong human + machine + inferior process.


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 18 дек 2010 15:24 
Не в сети
Аватара пользователя

Зарегистрирован: 19 апр 2010 10:30
Сообщения: 10777
Откуда: Таганрог
Чибрикин Илья писал(а):
Давайте обсудить наколеночную возможность реализации последнего пункта.

Прямо сейчас. Задача полуавтоматического парсинга торговых сайтов, с целью утягивания каталогов товаров.
Работать должно так: менеджер (эксперт) показывает на примере одной/двух страниц что и как парсить, система автоматически сочиняет набор правил, по которым далее автоматически должен происходить парсинг, оценка страниц на соответствие шаблонам и контроль верности парсинга.

ИМХО:
"Усилитель Интеллекта" = "Делегирование Интеллекта" + "Целеполагание"

Если у непосредственного исполнителя целеполагание не совпадает с целеполаганием источника интеллекта, то ни о каком "усилении" речь идти не может :D

_________________
Спасите мышонка Гарольда! http://eyewire.org


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 19 дек 2010 17:44 
Не в сети

Зарегистрирован: 14 апр 2010 08:36
Сообщения: 10517
Ни хрена себе....
Задачка...
Давайте тогда пообсуждаем понятие шаблона.


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 19 дек 2010 17:53 
Чибрикин Илья писал(а):
Ни хрена себе....
Задачка...
Давайте тогда пообсуждаем понятие шаблона.

Шаблон - проекция "канона" на контекст, используемая в другом контексте.
:P


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 19 дек 2010 19:03 
Не в сети

Зарегистрирован: 14 апр 2010 08:36
Сообщения: 10517
Э-э-э это для меня слишком сложно. "канон" это что? Подозреваю что это не фотоаппарат Cannon.
Но сама постановка задачи чрезвычайно инрересна, поскольку это мейстрим - преобразование данных в информацю, разложение, проектирование исходных данных на систему понятий (манагера в данном случае) с целью построения управляющего решения


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 19 дек 2010 22:20 
Не в сети
Аватара пользователя

Зарегистрирован: 11 апр 2010 16:25
Сообщения: 12779
al_mt писал(а):
[
Прямо сейчас. Задача полуавтоматического парсинга торговых сайтов, с целью утягивания каталогов товаров.
Работать должно так: менеджер (эксперт) показывает на примере одной/двух страниц что и как парсить, система автоматически сочиняет набор правил, по которым далее автоматически должен происходить парсинг, оценка страниц на соответствие шаблонам и контроль верности парсинга.


а в чем эээ проблема? "стандартная" вполне задачка...

для ".Net 2.0 и около":
http://www.gotdotnet.ru/blogs/nesteruk/7282/

"полный-автомат" и кончено не обеспечишь, но "полу-автомат" - вполне...


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 20 дек 2010 08:03 
Не в сети
Аватара пользователя

Зарегистрирован: 19 апр 2010 10:30
Сообщения: 10777
Откуда: Таганрог
2Чибрикин Илья
Шаблон в данный момент представляет собой массив префиксов и постфиксов для каждого типа блоков. Например, для одиночного поля - преффиксы + одиночный постфикс.
Для таблицы - массив префиксов для всей таблицы + массив суффиксов для всей таблицы, внутрь вложены префиксы и постфиксы для строк и ячеек. Содежимое каждой выявленной ячейки парсится списком шаблонов одиночных полей.
Как-то так...


2ko4evnik
Так и есть. Но начальству - виднее ;)

_________________
Спасите мышонка Гарольда! http://eyewire.org


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 20 дек 2010 09:22 
Не в сети

Зарегистрирован: 14 апр 2010 08:36
Сообщения: 10517
Э-э-э други, моя тупая.
Делайте скидку.
Я правильно понимаю, что задача "контекстной фильтрации вместе с построением правил" является штатной фичей .Net 2.0?


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 20 дек 2010 10:28 
Не в сети
Аватара пользователя

Зарегистрирован: 19 апр 2010 10:30
Сообщения: 10777
Откуда: Таганрог
в Net 2.0 есть API для этого дела. Насчёт "фичи" - это понты. Там фичевого, только работа с иерархией DOM и эмулятор браузера.
Мне это нафик не надо, ибо я пишу на java-script + php

_________________
Спасите мышонка Гарольда! http://eyewire.org


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 20 дек 2010 18:49 
Не в сети
Аватара пользователя

Зарегистрирован: 11 апр 2010 16:25
Сообщения: 12779
Чибрикин Илья писал(а):
Э-э-э други, моя тупая.
Делайте скидку.
Я правильно понимаю, что задача "контекстной фильтрации вместе с построением правил" является штатной фичей .Net 2.0?


не. "формулировать правила" для контекстной фильтрации придется таки самому. но возможно это на широком круге инструментов - хучь на C#, хучь на F#, хучь на Python и т.д. и т.п..

на .Net просто написано достаточное количество инструментов чтобы "на скотче, соплях и веревочках" такую систему формулирования правил создать.

конкретно на Net2.0 - написана полезная делу библиотека Watin. (что, етыть ее в качель, является ограничением, ибо Net2.0 - это два поколения назад - 2005 год. нынче в моде Net4.0, но корректно ли работает Watin под ней - вопрос ).

al_mt писал(а):
в Net 2.0 есть API для этого дела. Насчёт "фичи" - это понты. Там фичевого, только работа с иерархией DOM и эмулятор браузера.

в Net 3.0/4.0 - API разных существенно больше и они жирнее.
DOM - вообще прошлый век. нынче для ковыряния XML пригоднее LINQ и функциональные языки.

но обратная совместимость и саппорт устаревающих решений хромает...


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 21 дек 2010 10:19 
Не в сети

Зарегистрирован: 14 апр 2010 08:36
Сообщения: 10517
Коллеги, имею вопрос. Вчерась потолковал с народом. Задача контекстной фильтрации большого объема документов по заданным правилам (привет Яндексу) весьма востребована. Но денег не дадут.
Вопрос, вытекающий из вышесказанного. Я правильно понимаю, что все выше приведенные технические средства работают для исходных данных в гипертекстовой разметке? Что текст уровня PLAIN ASCII так прогнать невозможно?


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 21 дек 2010 12:07 
Не в сети
Аватара пользователя

Зарегистрирован: 19 апр 2010 10:30
Сообщения: 10777
Откуда: Таганрог
А ещё .Net категорически неприемлем по причине привязки к MS. Завтра у ихнего менеджмента в очередной раз снесёт крышу и весь свеженаписанный на .Net код можно будет нести на свалку :( В этом плане LAMP гораздо устойчивее и с поддержкой проще.

_________________
Спасите мышонка Гарольда! http://eyewire.org


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 21 дек 2010 15:04 
Не в сети

Зарегистрирован: 14 апр 2010 08:36
Сообщения: 10517
Общая задача уже многократно мной озвучивалась.
Есть очень много данных (текстовых, цифровых и т.д), терабайты. На их основании нужно принимать решения. Но осмыслить (и даже прочитать) их физически невозможно. Поэтому происходит следующее - вырабатывается некий миф, вокруг которого и танцуют.
Соответственно меня интересуют альтернативы. Мою жену тоже.
У нее около 100 отчетов по 20 страниц каждый, на основании которых хотелось бы попробовать построить что-то приемлемое.
В общем - задача превращения данных в информацию, точнее интерпретация данных на системе понятий, с целью получения релизера динамического сюжета.
Илья
-------
Ммм.... :)

Задача конечно понятна, но слишком обща.

Некий аналог "маткада" но для анализа текстов??

Поиски корреляций в текстах, трансформация "плоского" текста в документы вида "список"("поле1"=>"контент1", "поле2"=>"контент2", ...) ??



Если взять за основу идею такого приложения, то:

1. Первое и самое главное - на какого пользователя оно должно быть рассчитано? Кто пользователь?

2. Что должно быть на входе? Понятно, что тексты, но какие? Текстовые файлы? Структурированные тексты?

3. Как задавать набор функций для обработки текстов?

4. Какие функции? Что они должны делать в идеале?

5. Что должно быть на выходе? Структурированные документы? Поисковые индексы? Графики корреляций?
--------

Отвечаю,какмогу:

Пользователь – квалифицированный предметный специалист, работающий в плотном контакте с разработчиком (сморится в зеркало).
Можно считать что на входе – файловая помойка из файловWORDиEXEL + картинки в море форматов с плохо прописанными связями.
Пока можно обсудить возможность поиска по образцу. Т.е. задается некий текстовый блок (но не строка как в Яндексе) и ищутся близкие к нему участки. Насколько я знаю, такие вещи существуют – всякие анти плагиатные системы.
В качестве первого приближения результатов – набор блоков текста с похожим содержанием. Пока можно обсуждать только это.
Вот такJ
-------

1. Не пойдёт. Это приведёт к сосотоянию "разработчик решает проблемы пользователя с помощью компьютера" Продукт должен быть независим от разработчика.
2. Я тоже так предполагаю. Хотя картинки - вельми отдельная проблема
3. Это как раз достаточно просто - был бы компутер хороший :) Есть бесплатные специализированные софтины, например sphinx или тот же яндексовский движок.
4. Проблема заключается в выражении "в первом приближении". Нужно хоть примерно представлять себе "что дальше?" А дальше - видимо смысловой поиск?


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 21 дек 2010 15:11 
Не в сети

Зарегистрирован: 14 апр 2010 08:36
Сообщения: 10517
что есть такое яндексовский движок или упомянутый выше сфинкс?


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 21 дек 2010 15:23 
Не в сети
Аватара пользователя

Зарегистрирован: 19 апр 2010 10:30
Сообщения: 10777
Откуда: Таганрог
Чибрикин Илья писал(а):
что есть такое яндексовский движок или упомянутый выше сфинкс?

Поисковые движки.
Ставишь, натравляешь на массив ссылок, они сосздают индексные базы. Затем производят поиск по оной базе.

_________________
Спасите мышонка Гарольда! http://eyewire.org


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 21 дек 2010 15:31 
Не в сети

Зарегистрирован: 14 апр 2010 08:36
Сообщения: 10517
Свободные? Может попробуем с этого начать?


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 21 дек 2010 16:31 
Не в сети
Аватара пользователя

Зарегистрирован: 19 апр 2010 10:30
Сообщения: 10777
Откуда: Таганрог
А толку? Это отличается от <Ctrl+F> в ворде только объёмами перелопачиваемого текста.
А начинать надо всегда с постановки задачи. Я по пунктикам расписал :)

_________________
Спасите мышонка Гарольда! http://eyewire.org


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 21 дек 2010 16:44 
Не в сети

Зарегистрирован: 14 апр 2010 08:36
Сообщения: 10517
Т.е. видимо с модели пользователя.
Имею дело с реальными юзверями.
Пользоваться такой системой будут (если будут) люди, не желающие вникать в суть системы, разбираться в тонкостях, живуще в своем узко-предметном мире и в условиях цейтнота.
А обращаться у софтине они будут только если их нужда заставит быстро найти ответы на свои собственные вопросы, из той самой узко-предметной картины мира.


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 21 дек 2010 17:19 
Не в сети
Аватара пользователя

Зарегистрирован: 19 апр 2010 10:30
Сообщения: 10777
Откуда: Таганрог
Чибрикин Илья писал(а):
Пользоваться такой системой будут (если будут) люди, не желающие вникать в суть системы, разбираться в тонкостях, живуще в своем узко-предметном мире и в условиях цейтнота.
А обращаться у софтине они будут только если их нужда заставит быстро найти ответы на свои собственные вопросы, из той самой узко-предметной картины мира.

Да. И это верно для 99% неразработческих приложений.
Надо глыбже.
1. Откуда будут браться тексты для исходной работы?
2. Нужно ли предоставлять пользователям явный или неявный сервис связи между собой?

В общем нужны сцены применения.

_________________
Спасите мышонка Гарольда! http://eyewire.org


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 21 дек 2010 17:45 
Не в сети

Зарегистрирован: 14 апр 2010 08:36
Сообщения: 10517
Тексты собираются в процессе работы. Каждая лавка имеет (во всяком случае должна) иметь архивы. Электронные.
Так вот, предположим, они есть. У меня точно есть, на 0.5 терры. структурированный....
Пока писал вспомнил.
Одна из сцен применения, которую мине уже говоили.
Зовется "ключевые слова".
Насколько я понимаю можно (а может и нужно) выделить в архиве куски текста, содержащие заданное подмножество ключевых слов. При этом мы вступаем в ту область, которую Вы, al_mt уже пахали, помниться была тема об индексировании русских сказок...


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 21 дек 2010 18:03 
Не в сети

Зарегистрирован: 20 апр 2010 21:52
Сообщения: 4056
Илья, наброс тебе - "тегирование"))

_________________
идёт на дно военный крейсер
он на поверхности едва
и только слышно роковое
е два © bu6lik


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 21 дек 2010 18:07 
Не в сети
Аватара пользователя

Зарегистрирован: 19 апр 2010 10:30
Сообщения: 10777
Откуда: Таганрог
2bigBUG
Тэгирование - это немного сильно абсолютно противоположное. Тегирование - это, в сущности, создание поисковых индексов вручную. Занятие для особо продвинутых интеллектуальных мазохистов ИМХО :lol:

2Чибрикин Илья
Возможно решением предварительным было бы - перевалить всю внутреннюю документацию в HTML-формат и повесить сверху того же sphinx`a, благо он бесплатный.
Такой сайт делается за день, а вот перегон всей документации в HTML.... :)

_________________
Спасите мышонка Гарольда! http://eyewire.org


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 21 дек 2010 18:10 
Не в сети

Зарегистрирован: 20 апр 2010 21:52
Сообщения: 4056
al_mt писал(а):
2bigBUG
Тэгирование - это немного сильно абсолютно противоположное. Тегирование - это, в сущности, создание поисковых индексов вручную. Занятие для особо продвинутых интеллектуальных мазохистов ИМХО :lol:
Ну дыкть если ключевые слова уже готовы... осталось только присвоить веса документам по тегу и вуаля (на мой профанский взгляд:)). Или вы тут хотите посчитать релевантности вручную для каждого текста?

_________________
идёт на дно военный крейсер
он на поверхности едва
и только слышно роковое
е два © bu6lik


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 21 дек 2010 18:14 
Не в сети

Зарегистрирован: 14 апр 2010 08:36
Сообщения: 10517
Перегон доков в разумный формат - это полная жопа. Вот если мне дадут бюджет.....
что такое тэгирование я знаю и ваял сам под руководством легендарного в Linux-мире Бори Тоботраса.
Некоторые особенно продвинутые лавки делают все в DocBook, имея заданную систему тегов и (!) программную валидацию документов. Нам до этого как до звезд и все лесом....
Но предположим это уже сделано... Как дальше можно построить систему ключевых слов или организовать фильтрацию как-то иначе?


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 21 дек 2010 18:15 
Не в сети

Зарегистрирован: 14 апр 2010 08:36
Сообщения: 10517
Релевантности - это относительная частота встречаемости слов? Которая подчинается строго определнному распределению?


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 21 дек 2010 18:35 
Не в сети
Аватара пользователя

Зарегистрирован: 19 апр 2010 10:30
Сообщения: 10777
Откуда: Таганрог
Чибрикин Илья писал(а):
Перегон доков в разумный формат - это полная жопа. Вот если мне дадут бюджет.....
что такое тэгирование я знаю и ваял сам под руководством легендарного в Linux-мире Бори Тоботраса.
Некоторые особенно продвинутые лавки делают все в DocBook, имея заданную систему тегов и (!) программную валидацию документов. Нам до этого как до звезд и все лесом....
Но предположим это уже сделано... Как дальше можно построить систему ключевых слов или организовать фильтрацию как-то иначе?

А вот это и есть самая главная АшиПка! Нельзя считать "решённой" проблему, которую можно очевидно решить вручную. В данном случае, создание проиндексированных документов, требует кропотливой ручной работы специалиста предметной области над каждым документом. Причём одного и того же специалиста над всеми документами, дабы избежать вероятности разнопоматерности.
Чуете какова величина жопппппы?

Создание адеватного индекса - задача безумной количественной сложности. А если индекс ещё и должен быть фильтром "предметной КМ" - это ващще атас.

Релевантность - в широком смысле слова "степень соответствия документа запросу".

Если фантазировать на тему "вот такая система в рамках лавки", то можно предложить, уже озвученное хранилище с поисковиком, плюс автогиперссылки на:
- Автор документа
- Другие документы этого автора
- Кто читал этот документ
- Что ещё читали читатели этого документа
- Задать вопрос кому-либо из попавшихся в сети персоналий

_________________
Спасите мышонка Гарольда! http://eyewire.org


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 21 дек 2010 19:26 
Чибрикин Илья писал(а):
весьма востребована. Но денег не дадут.

Значит не востребована. Слова.


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 21 дек 2010 21:45 
Не в сети
Аватара пользователя

Зарегистрирован: 11 апр 2010 16:25
Сообщения: 12779
Чибрикин Илья писал(а):
Коллеги, имею вопрос. Вчерась потолковал с народом. Задача контекстной фильтрации большого объема документов по заданным правилам (привет Яндексу) весьма востребована. Но денег не дадут.

не смешная шутка.

Чибрикин Илья писал(а):
Вопрос, вытекающий из вышесказанного. Я правильно понимаю, что все выше приведенные технические средства работают для исходных данных в гипертекстовой разметке? Что текст уровня PLAIN ASCII так прогнать невозможно?


почему же, возможно.
собсно, "архивы погибших форумов" что я когдато выкладывал - амбера и октябрьского - это и есть результат подобного прогона.

получил от Ветра CD с "кашей" выкачанных бекапных страничек (бОльшая часть из которых была с некорректной/неполной html-разметкой и потому нормальными парсерами не обрабатывалась - потому и обрабатывать их пришлось как раз на уровне PLAIN ASCII). программку для прогона регулярных выражений я урывками писал где-то с месяц. сам список регулярных выражений - подбирал пару дней.
прогон 600 мб данных с CD - занял где-то по-пол-суток на каждый из форумов. получилось два архива ~20 и ~30 мб. каждый в двух вариантах - "ББ-кодном" и "поправленным html".

собсно программку я выкладывал еще на прошлом форуме.


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 21 дек 2010 22:03 
Не в сети
Аватара пользователя

Зарегистрирован: 11 апр 2010 16:25
Сообщения: 12779
al_mt писал(а):
В данном случае, создание проиндексированных документов, требует кропотливой ручной работы специалиста предметной области над каждым документом. Причём одного и того же специалиста над всеми документами, дабы избежать вероятности разнопоматерности.


разнопоматерность - как раз решается введением неймспейсов.

т.е. документ написаный Васей Пупкиным маркируется в стиле:
Код:
<VasiaPuprkin:termin normal="Нефть">Нефть</VasiaPuprkin:termin> обнаруживается вместе с <VasiaPuprkin:termin normal="Газообразные углеводороды">газообразными углеводородами</VasiaPuprkin:termin> на глубинах от десятков метров до 5—6 км.


а Костей Шуткиным в стиле:
Код:
По химическому составу и происхождению <KostiaShutkin:termin normal="Нефть">нефть</KostiaShutkin:termin> близка к естественным горючим газам, озокериту, а также асфальту. Эти ископаемые объединяют под общим названием петролитов.


и если Вася и Костя принадлежат к разным научным школам и трактуют слово "Нефть" по разному - у автоматической программы-поисковика будет зацепка чтобы иметь это ввиду.

al_mt писал(а):
Создание адеватного индекса - задача безумной количественной сложности. А если индекс ещё и должен быть фильтром "предметной КМ" - это ващще атас.

да, но это жопппа вторая по очереди :).
до нее еще надо добраться...


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 21 дек 2010 22:32 
Не в сети
Аватара пользователя

Зарегистрирован: 11 апр 2010 16:25
Сообщения: 12779
Чибрикин Илья писал(а):
Перегон доков в разумный формат - это полная жопа.


на том же CD что и форумы - были логи игры "1904".
там документы, асечные логи, почтовые архивы (в смысле mail) в нескольких разных вариантах (у каждого игрока был свой почтовый клиент, которые хранил данные в своем собственном формате) и все это где в Коi8, где в ascii, где в UTF8, где в RTF.

я все думал сделать из нее сайтик в Brain-подобном стиле, потому как бОльшая часть "проблем перевода" была в принципе решаема.

но вот что тогда заморозило идею - это то что вложения-в-письма (которые кодируются через Base64) при любом раскладе надо было выбирать и селектировать ручками и перекодировать нажатием ручкой на кнопочку... я просто не нашел тогда костыля чтобы сделать это автоматически и не нашел у себя столько времени, чтобы добить это вручную... :)

--------
это я к тому - что я не понимаю, высказываемой здесь тоски о невозможности.

сам я подобные проектики "на энтузиазме и для собственного интересу" проделывал не раз.
"базу данных по корабликам", brain-вариант которой я опять же выкладывал когда то, я в конце концов утэгировал до состояния "дальше не могу" - а там текстовые файлики по N мегабайт каждый.

а тут люди "на работе за бабло" не в состоянии это сделать...
:roll: :lol: "Мир Удивляется..."


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 22 дек 2010 11:10 
Не в сети

Зарегистрирован: 14 апр 2010 08:36
Сообщения: 10517
Дык бабла-то особенно и нет.... А на работе много чего есть еще... Одна бредогенерация чего стоит.
Но это лирика.
Есть общемировой консорциум, котрый пытается создать стандартную систему тэгов для нефтяной промышленности и развернуть систему стандартизации на этой основе, разработав соответствующее пространство имен для XML. Дальше - понятно. Автоматическая валидация, универсальность экспортно-импортных операций...
Т.е. я правильно понимаю, что в основе любого преобразования должна лежно лежать именно превращение исходной помойки в жестко стандартизованный вид?
Возможно ли автоматизировать этот процесс, кочевник вот говорит что сугубо возможно...
Но что интересно, так это представление результата. Базу по кораблям я видел, насколько я понимаю там самое интересное - построение системы связей.
Я прав? Или я лев?


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 22 дек 2010 11:39 
Не в сети
Аватара пользователя

Зарегистрирован: 15 апр 2010 11:21
Сообщения: 288
Откуда: Санкт-Петербург
Поисковые индексаторы для любых документов есть. В том числе, встроенные в виндовс7. Просто у встроенного довольно примитивный язык запросов и мало настроек. Есть еще Google Desktop который так же умеет много что индексировать.

Вообще, есть много готовых сторонних решений.
Из открытых: любой продукт на движке Lucene. Для конкретной специфичной области достаточно посидеть и придумать алгоритмы связи разных документов и улучшения релевантности, а потом на своей базе документов методично пробовать


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 22 дек 2010 11:41 
Не в сети
Аватара пользователя

Зарегистрирован: 15 апр 2010 11:21
Сообщения: 288
Откуда: Санкт-Петербург
Чибрикин Илья писал(а):
Т.е. я правильно понимаю, что в основе любого преобразования должна лежно лежать именно превращение исходной помойки в жестко стандартизованный вид?

нет, это не так.
помойка остается помойкой, важен только процесс вычленения из этой помойки нужных данных и построение набора значимых атрибутов, по которым можно осуществлять гибкий поиск и вторичную переработку

http://lucene.apache.org/solr/features.html


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 22 дек 2010 11:48 
Не в сети
Аватара пользователя

Зарегистрирован: 19 апр 2010 10:30
Сообщения: 10777
Откуда: Таганрог
ko4evnik писал(а):
al_mt писал(а):
В данном случае, создание проиндексированных документов, требует кропотливой ручной работы специалиста предметной области над каждым документом. Причём одного и того же специалиста над всеми документами, дабы избежать вероятности разнопоматерности.

т.е. документ написаный Васей Пупкиным маркируется в стиле:
Код:
<VasiaPuprkin:termin normal="Нефть">Нефть</VasiaPuprkin:termin> обнаруживается вместе с <VasiaPuprkin:termin normal="Газообразные углеводороды">газообразными углеводородами</VasiaPuprkin:termin> на глубинах от десятков метров до 5—6 км.

а Костей Шуткиным в стиле:
Код:
По химическому составу и происхождению <KostiaShutkin:termin normal="Нефть">нефть</KostiaShutkin:termin> близка к естественным горючим газам, озокериту, а также асфальту. Эти ископаемые объединяют под общим названием петролитов.


и если Вася и Костя принадлежат к разным научным школам и трактуют слово "Нефть" по разному - у автоматической программы-поисковика будет зацепка чтобы иметь это ввиду.


А как определять, что Пупкин и Шуткин понимают под термином "нефть" одно и тоже?? А ещё хуже, когда Пупкин называет "нефть" тегом "нафта", а Шуткин - "oil". И писец :twisted: Начинаем собирать экспертный совет из экспертов для согласования терминологии, при том, что выявить несогласованности можно только вручную. Заканчивается это обычно, выметанием из совещательной комнаты потрохов проигравших экспертов, после чего задача возвращается к исходной - как одним экспертом (пусть даже самым физически сильным) проиндексировать террабайты текстов :roll:

_________________
Спасите мышонка Гарольда! http://eyewire.org


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 22 дек 2010 11:51 
Не в сети
Аватара пользователя

Зарегистрирован: 15 апр 2010 11:21
Сообщения: 288
Откуда: Санкт-Петербург
al_mt писал(а):
А как определять, что Пупкин и Шуткин понимают под термином "нефть" одно и тоже?? А ещё хуже, когда Пупкин называет "нефть" тегом "нафта", а Шуткин - "oil". И писец :twisted: Начинаем собирать экспертный совет из экспертов для согласования терминологии, при том, что выявить несогласованности можно только вручную. Заканчивается это обычно, выметанием из совещательной комнаты потрохов проигравших экспертов, после чего задача возвращается к исходной - как одним экспертом (пусть даже самым физически сильным) проиндексировать террабайты текстов :roll:

угу. semantic web легче сделать с нуля, чем перерабатывать существующий массив данных


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 22 дек 2010 12:10 
Не в сети

Зарегистрирован: 14 апр 2010 08:36
Сообщения: 10517
Вопрос - этот lucene-движок он прилада под апач, стало быть жестко линуксовая штука?


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 22 дек 2010 12:14 
Не в сети

Зарегистрирован: 14 апр 2010 08:36
Сообщения: 10517
Умники блин собрались. У меня есть каталог в 15.6 ГБ, который стоил Лавке около 3 млн зеленых рублей.
И ЭТО ВСЕ, ЧТО ПО ЭТОМУ ПРОЕКТУ БЫЛО СДАНО - т.е. каталог с файлами и картами.
И что мне теперь - фтопку?


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 22 дек 2010 12:16 
Не в сети
Аватара пользователя

Зарегистрирован: 15 апр 2010 11:21
Сообщения: 288
Откуда: Санкт-Петербург
Чибрикин Илья писал(а):
Вопрос - этот lucene-движок он прилада под апач, стало быть жестко линуксовая штука?

оно явовское, работает везде

апач - это организация, это не только вебсервер (который, кстати, тоже работает под чем угодно :))


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 22 дек 2010 12:18 
Не в сети

Зарегистрирован: 14 апр 2010 08:36
Сообщения: 10517
trix писал(а):
помойка остается помойкой, важен только процесс вычленения из этой помойки нужных данных и построение набора значимых атрибутов, по которым можно осуществлять гибкий поиск и вторичную переработку

АТРИБУТОВ ЧЕГО??????


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 22 дек 2010 12:19 
Не в сети
Аватара пользователя

Зарегистрирован: 15 апр 2010 11:21
Сообщения: 288
Откуда: Санкт-Петербург
Чибрикин Илья писал(а):
Умники блин собрались. У меня есть каталог в 15.6 ГБ, который стоил Лавке около 3 млн зеленых рублей.
И ЭТО ВСЕ, ЧТО ПО ЭТОМУ ПРОЕКТУ БЫЛО СДАНО - т.е. каталог с файлами и картами.
И что мне теперь - фтопку?

просто надо свой pageRank придумать, заточенный под свою предметную область алгоритм ранжирования.
а вручную теги ставить - так далеко не уедешь... ну, было бы у вас пара тыс. пользователей, то еще можно было на это положиться


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 22 дек 2010 12:21 
Не в сети

Зарегистрирован: 14 апр 2010 08:36
Сообщения: 10517
Пользователей мало но это не значит, что когда их будет много, что-то изменится.


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 22 дек 2010 12:27 
Не в сети

Зарегистрирован: 14 апр 2010 08:36
Сообщения: 10517
Кстати, что такое PAGE PANK?


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 22 дек 2010 12:37 
Не в сети
Аватара пользователя

Зарегистрирован: 19 апр 2010 10:30
Сообщения: 10777
Откуда: Таганрог
Вариант:
Один эксперт расставляет тэги. Робот, смотрит и пытается подражать (как раз алгоритм использованный при разборке маши и медведов).
Так же эксперт расставляет связи между сущностями, с различными типами направленности. Робот опять же смотрит и пытается подражать.
В результате, пока эксперт неторопливо лопатит килобайты, робот в попытках подражания автоматом делает тоже самое над террабайтами.
При этом накапливается база "правил подражания эксперту" и по мере улучшения повышаемости автотегированная часть текстов тегируется всё более качественно.
Перетегирование производим с регулярностью раз в период.
Так же раз в более длинный период, список правил тегирования представляется на суд экспертам(именно экспертам), которые ведут зарубу относительно правильности/неправильности. На этом "суде" проистекает воспитание следующего поколения экспертов, которые должны будут заменять текущего эксперта по мере физического износа.

_________________
Спасите мышонка Гарольда! http://eyewire.org


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 22 дек 2010 12:39 
Не в сети
Аватара пользователя

Зарегистрирован: 15 апр 2010 11:21
Сообщения: 288
Откуда: Санкт-Петербург
Чибрикин Илья писал(а):
Кстати, что такое PAGE PANK?

алгоритм определения более релевантных страниц в поисковой выдаче. например, на основе цитируемости


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 22 дек 2010 12:41 
Не в сети
Аватара пользователя

Зарегистрирован: 15 апр 2010 11:21
Сообщения: 288
Откуда: Санкт-Петербург
al_mt писал(а):
Один эксперт расставляет тэги. Робот, смотрит и пытается подражать

оцени бюджет на реализацию этого :)


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 22 дек 2010 12:45 
Не в сети

Зарегистрирован: 14 апр 2010 08:36
Сообщения: 10517
Давайте так. Вопрос тегирования исходных текстов - он более-менее понятен по сущности. Да и в общем - делали его.
А вот фраза расставлять связи между сущностями - она весьма непонятна.
Что такое сущность?
К чему привязываются атрибуты?
Как определить связь?


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 22 дек 2010 12:50 
Не в сети

Зарегистрирован: 14 апр 2010 08:36
Сообщения: 10517
Я к чему? Работать на уровне документов можно, но скажем так устарело это. Документ уровня "Подсчет запасов" это 20-35 кг бумаги, несколько огромных томов и папок с приложениями. Думаю что у других тоже самое.
НРаботать с этом разумеется можно но диковато по нынешним-то временам. Что-то еще хочется.


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 22 дек 2010 12:51 
Не в сети
Аватара пользователя

Зарегистрирован: 15 апр 2010 11:21
Сообщения: 288
Откуда: Санкт-Петербург
Чибрикин Илья писал(а):
Давайте так. Вопрос тегирования исходных текстов - он более-менее понятен по сущности. Да и в общем - делали его.
А вот фраза расставлять связи между сущностями - она весьма непонятна.
Что такое сущность?
К чему привязываются атрибуты?
Как определить связь?

сущность первого уровня = документ
внутри можно попробовать выделить подсущности, например ссылки, картинки, адреса, имена. (все что можно формализировать для машинного распознавания одной подсущности от другой)

атрибуты - свойства документа.
есть два главных атрибута: заголовок и текст. можно вводить любое число доп.атрибутов.
связь между документами в случае веба определяется через гиперссылки.
связь в случае произвольных документов может определяться, например, по упоминаниям подсущностей


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 22 дек 2010 12:58 
Не в сети

Зарегистрирован: 14 апр 2010 08:36
Сообщения: 10517
Сущность первого уровня - документ. Я, кстати придумал определение документа и логическую модель дкументации под себя. Если интересно - поделюсь. Атрубутов там я насчитал 18 шт, что вызывало хохот у подрядчиков. Они мне сказали - киса мы индексируем для Лукойла доки по 200 атрибутам!!!
Давайте все-таки обсудим сущности второго уровня. Трудности работы с документом я уже обвякал.


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Экспертные системы
СообщениеДобавлено: 22 дек 2010 13:03 
al_mt писал(а):
Заканчивается это обычно, выметанием из совещательной комнаты потрохов проигравших экспертов, после чего задача возвращается к исходной - как одним экспертом (пусть даже самым физически сильным) проиндексировать террабайты текстов :roll:

:P


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
  
 
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 184 ]  На страницу Пред.  1, 2, 3, 4  След.

Часовой пояс: UTC + 3 часа


Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 4


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Topic attributes:

Найти:
Перейти:  
Создано на основе phpBB® Forum Software © phpBB Group
Русская поддержка phpBB