|
буду призантелен услышать экспертные оценки ...
|
Ivan_FXS 6 posts
author
|
posted 5/20/2005 3:35:26 AM
reply
... бизнес-перспектив ИДЕИ: http://cowords.narod.ru/v1/index.html
|
|
|
Sheriff Admin
4081 posts
author
|
posted 5/20/2005 12:29:25 PM
reply
В чём, собственно, идея?
|
Ivan_FXS 6 posts
author
|
posted 5/21/2005 12:31:26 PM
reply
Идея в том, чтобы построить интернет-бизнес, а именно - интентен-сервисы - с применением семантических сетей вообще и "корреляционных семантических сетей" в частности.
См. также: http://groups.yahoo.com/group/CoWords-1
|
Sheriff Admin
4081 posts
author
|
posted 5/21/2005 5:36:43 PM
reply
Ясно, но не совсем.
Есть идеи применения подобной программы применительно к англоязычному интернету, например. С русским языком - сомневаюсь что какие-то идеи всплывут.
Я бы попросил вас объяснить простым языком что у вас есть и что конкретно вы предлагаете...называется "elevator pitch" (то есть "речь в лифте" - объясните вашу идею за то время пока лифт идет с верхнго этажа на нижний)... как это правильней сказать...почитал ваш форум по ИИ, там такие сильно продвинутые люди, а хорошая бизнес-идея обычно проста как 3 копейки.
|
Ivan_FXS 6 posts
author
|
posted 5/23/2005 1:59:06 AM
reply
1. производить (с низкой себестоимостью!) большие семантические сети методом (мое know how*) статистического (корреляционного!) анализа предельно больших контентов (доступных в интернете!);
2. "продавать" эти сети на рынке - прежде всего, в составе специализированных интернет-сервисов (каталоги, поисковые системы etc);
3. английский язык - на самом деле - намного лучше подходит для подобных методов, чем русский. ________________________ * - метод сам по себе очень простой; "know how" означает прежде всего то, что я глубоко в теме.
[Message edited by Ivan_FXS on 5/23/2005 2:01:11 AM]
|
Sheriff Admin
4081 posts
author
|
posted 5/23/2005 8:55:27 PM
reply
Иван, есть какая-либо более подробная информация? Например, что уже есть * есть ли свой робот (и нужен ли он) или используется информация с поисковиков * имеется ли возможность вклучить в сеть слова с ошибками * есть ли ограничения по длинне фраз * какие технологии есть - это готовые программы (на каком языке написаны), наработки, или теория
Я заинтересовался, надо обдумать есть ли в этом $. Сейчас слегка занят, скинь мне на email внизу страницы доп. инфу. Разгребусь с делами - подумаю.
В запросе на одном из форумов называлась цифра 1-10 мегабаксов, это вы в России хотите такую инвестицию получит? Круто, но думаю не реально. Даже на минимум можно нанять офис из 20 учёных-программистов на срок 4 года: ($1000/месяц * 12 * 20 * 4 года). Это и для америки сейчас неплохо.
Хотя инвестициями я в плотную не занимаюсь
|
Ivan_FXS 6 posts
author
|
posted 5/24/2005 3:42:48 AM
reply
Начну с того, что все, что у меня есть, - является, прежде всего "модельными" разработками, поскольку написано непрофессиональным программистом (то бишь - мною) на языке VBA в среде MS Access. Исполнение - таким образом, - не "серверное", а "локальное".
* Робот у меня есть - в виде IE, работающего как ActiveX под управлением VBA. В силу очевидных ресурсных ограничений его целесообразно "натравливать" именно на поисковики, а не на "сырой контент". Однако В ДАННОМ ПРОЕКТЕ он пока что де-факто не используется, поскольку корреляционные семантические сети строятся (off line!) путем переработки КОРПУСА ТЕКСТОВ.
* Корпус текстов накоплен - в основном - путем скачивания текстов из открытых электронных библиотек и с открытых ftp-серверов. Корпус текстов имеет объем ... ммм ... сейчас не могу посмотреть точно, наверное порядка 30Гб (в разархивированном виде). Кроме того, говорить об объеме "сырых" текстов не очень корректно, поскольку объем word-овых файлов (и даже - html-файлов!) это одно (особенно если файлы с иллюстрациями!), а объем txt-файлов - это совсем другое!
* Промежуточной стадией хранения корпуса у меня является "бинаризованный корпус" (см. об этом http://sql.ru/forum/actualthread.aspx?tid=180432 ). В бинаризованный вид переведено - на сей момент - менее половины "сырого" корпуса, тому есть две причины: 1-я - я сейчас активно пополняю сырой корпус, 2-я - операция бинаризации сама по себе достаточно ресурсоемка. Объем бинаризованного корпуса сейчас - 12 Гб.
* "Имеется ли возможность включить в сеть слова с ошибками" - наверное, Вы хотели спросить: имеется ли возможность РАСПОЗНАВАТЬ слова с ошибками? В принципе, ничего особо сложного я в этом не вижу (да и все мои технологии, как я уже писал выше, достаточно просты!), но на данный момент такая подсистема РАСПОЗНАВАНИЯ (и ИСПРАВЛЕНИЯ) ошибок отсутствует, что нисколько не мешает работе алгоритмов!
* Ограничений по длине фраз нет (либо я просто не понимаю, о какого рода "ограничениях" Вы спрашиваете!).
* Какие технологии - ответил в первой фразе - VBA (включая ActiveX). Можно еще добавить: включая "самописную" генерацию html-страниц (демонстрационная сеть http://cowords.narod.ru/v1/index.html состоит из без малого 4500 html-файлов) -------------------------------------------------- "Цифра 1-10 мегабаксов запросе на одном из форумов" – видимо, речь о ветке http://forum.aicommunity.org/viewtopic.php?t=251 … Если так, ответ – нет, та ветка совсем про другую тему.
|
Ivan_FXS 6 posts
author
|
posted 6/13/2005 4:45:28 AM
reply
развитие проекта: SemantiCat - семантический каталог
[Message edited by Ivan_FXS on 6/13/2005 4:47:13 AM]
|
|
|